本發(fā)明公開了一種場景快變條件下的多飛行器自主決策方法,屬于飛行器技術(shù)領(lǐng)域;所述的場景快變條件下的多飛行器自主決策方法,具體為:首先,每個飛行器分別搭載一個激光雷達進行目標(biāo)探測,根據(jù)返回的三維點云數(shù)據(jù),識別探測范圍內(nèi)的靜態(tài)障礙物或其他飛行器;然后利用飛行器的三維點云數(shù)據(jù)構(gòu)建自主沖突解脫模型;基于多智能體強化學(xué)習(xí)框架進行求解,得到根據(jù)輸入狀態(tài)選擇動作的獎勵函數(shù);最后,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模塊基于獎勵函數(shù)進行中心化訓(xùn)練和非中心化執(zhí)行,通過收斂的神經(jīng)網(wǎng)絡(luò)計算出基于某狀態(tài)的所有可采取的動作值,并根據(jù)組合優(yōu)化求解多智能體行為動作。本發(fā)明當(dāng)場景信息改變時可利用遷移學(xué)習(xí)技術(shù)進行繼承訓(xùn)練,遷移性較好。
聲明:
“場景快變條件下的多飛行器自主決策方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)