本發(fā)明公開(kāi)了一種基于事后回顧和漸進(jìn)式擴(kuò)展的持續(xù)強(qiáng)化學(xué)習(xí)非完全信息博弈方法及裝置,包括下述步驟:獲取非完全博弈環(huán)境,確定任務(wù)目標(biāo);構(gòu)建第一神經(jīng)網(wǎng)絡(luò)和基于未來(lái)值預(yù)測(cè)的強(qiáng)化學(xué)習(xí)方法;構(gòu)建事后經(jīng)驗(yàn)回顧池;對(duì)第一神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直至第一神經(jīng)網(wǎng)絡(luò)收斂;構(gòu)建漸進(jìn)式神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)網(wǎng)絡(luò)模型的漸進(jìn)式擴(kuò)展;選擇下一個(gè)任務(wù)作為任務(wù)目標(biāo),利用基于未來(lái)值預(yù)測(cè)的強(qiáng)化學(xué)習(xí)方法持續(xù)訓(xùn)練,直至所有的任務(wù)都訓(xùn)練完成。本發(fā)明通過(guò)使用非完全信息博弈場(chǎng)景中豐富的智能體狀態(tài)變化作為監(jiān)督信號(hào),解決該環(huán)境下的獎(jiǎng)勵(lì)稀疏問(wèn)題,同時(shí)引入持續(xù)學(xué)習(xí)框架漸進(jìn)式神經(jīng)網(wǎng)絡(luò)對(duì)未來(lái)值預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行動(dòng)態(tài)擴(kuò)展,解決了在該環(huán)境下的多任務(wù)場(chǎng)景中的災(zāi)難性遺忘的問(wèn)題。
聲明:
“基于事后回顧和漸進(jìn)式擴(kuò)展的持續(xù)強(qiáng)化學(xué)習(xí)非完全信息博弈方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)