本發(fā)明公開了一種基于分層強(qiáng)化學(xué)習(xí)的群體對(duì)抗系統(tǒng),包括上層宏觀策略網(wǎng)絡(luò)和下層微觀動(dòng)作網(wǎng)絡(luò);所述上層宏觀策略網(wǎng)絡(luò)包括多個(gè)智能體采用的多個(gè)策略網(wǎng)絡(luò)和混合網(wǎng)絡(luò),每個(gè)策略網(wǎng)絡(luò)用于依據(jù)當(dāng)前時(shí)刻的觀測狀態(tài)和前多個(gè)時(shí)間步的子目標(biāo)計(jì)算輸出當(dāng)前時(shí)刻的預(yù)測子目標(biāo);混合網(wǎng)絡(luò)用于根據(jù)全環(huán)境狀態(tài)信息、各子智能體采用策略網(wǎng)絡(luò)輸出的預(yù)測子目標(biāo)計(jì)算輸出宏觀總目標(biāo)作為下一時(shí)刻各智能體的子目標(biāo);所述下層微觀動(dòng)作網(wǎng)絡(luò)包含多個(gè)智能體采用的多個(gè)DQN,每個(gè)DQN用于根據(jù)當(dāng)前時(shí)刻的觀測狀態(tài)和當(dāng)前時(shí)刻的子目標(biāo)計(jì)算輸出決策動(dòng)作。該系統(tǒng)中智能體能夠在兼顧宏觀總目標(biāo)和個(gè)體子目標(biāo)的情況下生成更準(zhǔn)確決策,適用于多智能體協(xié)同博弈對(duì)抗的游戲環(huán)境中。
聲明:
“基于分層強(qiáng)化學(xué)習(xí)的群體對(duì)抗系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)