本發(fā)明公開了一種基于對抗架構(gòu)的強(qiáng)化學(xué)習(xí)方法,本發(fā)明相比傳統(tǒng)的離散強(qiáng)化學(xué)習(xí)算法,我們的方法引入對抗架構(gòu)和目標(biāo)神經(jīng)網(wǎng)絡(luò)。對抗架構(gòu)使得算法無須直接對動(dòng)作價(jià)值函數(shù)Q進(jìn)行預(yù)測,而是可以將該價(jià)值函數(shù)分解為狀態(tài)價(jià)值函數(shù)V(s)和優(yōu)勢函數(shù)A(s,a)之和。這種架構(gòu)可以增強(qiáng)價(jià)值函數(shù)預(yù)測的準(zhǔn)確性,并且對于動(dòng)作選擇造成的價(jià)值函數(shù)變化更加敏感,可以加速算法的收斂。而使用目標(biāo)網(wǎng)絡(luò)作為目標(biāo)價(jià)值函數(shù)的評(píng)估網(wǎng)絡(luò),有效降低了對于動(dòng)作價(jià)值函數(shù)預(yù)測過的估計(jì)風(fēng)險(xiǎn),使得價(jià)值函數(shù)的預(yù)測更加準(zhǔn)確,提升了算法的魯棒性。
聲明:
“基于對抗架構(gòu)的強(qiáng)化學(xué)習(xí)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)