本發(fā)明公開了一種基于適合度軌跡的神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)方法及系統(tǒng)。該神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)方法包括:初始化神經(jīng)網(wǎng)絡(luò)權(quán)值,強(qiáng)化學(xué)習(xí)參數(shù)及適合度軌跡;獲取當(dāng)前環(huán)境狀態(tài)和立即回報(bào)值;計(jì)算強(qiáng)化學(xué)習(xí)的Q值函數(shù);獲取適合度軌跡和更新神經(jīng)網(wǎng)絡(luò)權(quán)值;檢測新的環(huán)境狀態(tài)和立即回報(bào)值;新的環(huán)境狀態(tài)和立即回報(bào)值滿足結(jié)束條件,強(qiáng)化學(xué)習(xí)結(jié)束,不滿足結(jié)束條件,返回重新檢測獲取當(dāng)前環(huán)境狀態(tài)和立即回報(bào)值。其優(yōu)點(diǎn)在于:解決了強(qiáng)化學(xué)習(xí)面對連續(xù)狀態(tài)空間的函數(shù)逼近問題,同時引進(jìn)的適合度軌跡,對經(jīng)歷過的狀態(tài)動作正確的訪問路徑的有效保存,提高神經(jīng)網(wǎng)絡(luò)的泛化性能,最后加快算法的收斂速度。
聲明:
“基于適合度軌跡的神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)