本申請?zhí)峁┝艘环N基于多智能體分層強化學習的多無人機空戰(zhàn)決策方法,所述方法包括:基于實際多無人機空戰(zhàn)場景構建的仿真環(huán)境,包括環(huán)境約束模型、無人機個體約束模型和對抗影響規(guī)則;將多無人機空戰(zhàn)問題建模為半馬爾可夫博弈模型,單個無人機的決策過程抽象為代表高層和底層策略的兩個智能體,分別定義各智能體的狀態(tài)空間表示、動作、獎勵函數(shù)和動作終止條件;采用一種異策略同步學習與自博弈機制結合的多智能體強化學習算法分別訓練無人機高層和底層策略智能體;完成訓練后無人機基于底層策略智能體的策略網(wǎng)絡和局部觀測進行決策;該方法可實現(xiàn)空戰(zhàn)環(huán)境下多無人機的自主無人協(xié)同決策,無需人類駕駛員介入,具有較好的即時性和魯棒性。
聲明:
“基于多智能體分層強化學習的多無人機空戰(zhàn)決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)