本申請屬于智能決策技術(shù)領(lǐng)域,涉及基于強化學(xué)習(xí)的兵棋多實體異步協(xié)同決策方法和裝置,方法包括:獲取兵棋推演環(huán)境以及多實體異步協(xié)同決策問題,對多實體異步協(xié)同決策問題進行建模分析,得到初始模型;根據(jù)初始模型,采用多智能體深度強化學(xué)習(xí)算法,建立智能體網(wǎng)絡(luò)模型和混合評估網(wǎng)絡(luò)模型;對智能體網(wǎng)絡(luò)模型和混合評估網(wǎng)絡(luò)模型進行訓(xùn)練,得到協(xié)同決策框架;通過設(shè)置加權(quán)算子或通過多步回報優(yōu)化多智能體深度強化學(xué)習(xí)算法,重構(gòu)多智能體深度強化學(xué)習(xí)算法的損失函數(shù);采用重構(gòu)的損失函數(shù)更新協(xié)同決策框架;根據(jù)更新后的協(xié)同決策框架,對多實體的異步協(xié)同進行決策。本申請能夠?qū)崿F(xiàn)兵棋推演中多實體異步協(xié)同的決策。
聲明:
“基于強化學(xué)習(xí)的兵棋多實體異步協(xié)同決策方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)