本發(fā)明公開了一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法,屬于強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域。初始化多智能體的效用函數(shù)網(wǎng)絡(luò)參數(shù)、混合網(wǎng)絡(luò)參數(shù)和目標(biāo)混合網(wǎng)絡(luò)參數(shù);獲取每一個(gè)智能體的自注意力輸出和稀疏化注意力輸出;使用門控循環(huán)單元模塊編碼當(dāng)前觀測(cè)輸出,計(jì)算本地常規(guī)效用函數(shù)和本地稀疏效用函數(shù),分別輸入到混合網(wǎng)絡(luò)中,各自擬合得到常規(guī)全局價(jià)值函數(shù)和稀疏全局價(jià)值函數(shù),逐漸降低常規(guī)全局價(jià)值函數(shù)的權(quán)重,完成強(qiáng)化學(xué)習(xí)的訓(xùn)練。在決策推理階段,各個(gè)智能體根據(jù)本地觀測(cè)和自身效用函數(shù)來(lái)選擇動(dòng)作輸出給環(huán)境,從而與環(huán)境進(jìn)行交互。本發(fā)明可以嵌入到任何基于價(jià)值函數(shù)的MARL框架中,提升智能體決策的效率和精度。
聲明:
“用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)