本發(fā)明涉及一種基于多智能體強(qiáng)化學(xué)習(xí)的目標(biāo)探測(cè)與分配方法及裝置,包括構(gòu)建作戰(zhàn)行為模型和強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境;采用強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境對(duì)所述作戰(zhàn)行為模型進(jìn)行訓(xùn)練至模型收斂,獲取人工智能行為模型;采用作戰(zhàn)仿真引擎對(duì)所述人工智能行為模型進(jìn)行訓(xùn)練,輸出優(yōu)化模型。本發(fā)明將強(qiáng)化學(xué)習(xí)算法MADDPG集成到兵棋推演系統(tǒng)中,構(gòu)建從簡(jiǎn)單到復(fù)雜的仿真環(huán)境,優(yōu)化強(qiáng)化學(xué)習(xí)收斂速度,有效的解決了兵棋推演系統(tǒng)中智能體優(yōu)化收斂速度的問(wèn)題。
聲明:
“基于多智能體強(qiáng)化學(xué)習(xí)的目標(biāo)探測(cè)與分配方法及裝置” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)