本發(fā)明提供一種基于模態(tài)對齊的動作提示的視覺語言導航系統(tǒng)及方法,系統(tǒng)包括動作提示集產(chǎn)生模塊,輸入指令到動作提示集產(chǎn)生模塊,智能體在導航開始前從動作提示庫中檢索與指令相關的動作提示集;模態(tài)對齊動作提示的視覺語言導航模塊,動作提示集通過提示編碼模塊,輸出提示特征與文本編碼模塊的輸出指令特征連接在一起;基于提示的指令特征和視覺編碼模塊的輸出視覺特征被提供給多層transformer用來做動作決策。優(yōu)化學習模塊,即模態(tài)對齊損失模塊和連續(xù)一致性損失模塊,實現(xiàn)有效的動作提示學習;本發(fā)明重點提出了顯式的模態(tài)對齊的動作提示,以提高智能體導航的準確性和不同環(huán)境中的泛化能力。
聲明:
“基于模態(tài)對齊的動作提示的視覺語言導航系統(tǒng)及方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)