本發(fā)明公開(kāi)了一種基于模型的近端策略優(yōu)化方法,包括步驟:獲取模擬環(huán)境,并確定所述模擬環(huán)境對(duì)應(yīng)的環(huán)境模型和策略網(wǎng)絡(luò);基于所述策略網(wǎng)絡(luò)與所述模擬環(huán)境,確定狀態(tài)數(shù)據(jù);其中,所述狀態(tài)數(shù)據(jù)包括所述模擬環(huán)境的視頻序列幀;基于所述模擬環(huán)境的視頻序列幀訓(xùn)練所述環(huán)境模型,得到已訓(xùn)練的環(huán)境模型輸出的預(yù)測(cè)圖像;基于所述預(yù)測(cè)圖像,更新所述狀態(tài)數(shù)據(jù),得到更新的狀態(tài)數(shù)據(jù);基于所述更新的狀態(tài)數(shù)據(jù),更新所述策略網(wǎng)絡(luò),得到更新的策略網(wǎng)絡(luò)。融合基于模型的深度強(qiáng)化學(xué)習(xí)算法,提出了基于模型的近端策略優(yōu)化框架,較好的解決了非完全信息博弈環(huán)境下采樣利用率低的問(wèn)題,在提高采樣率的同時(shí)提升訓(xùn)練速度。
聲明:
“基于模型的近端策略優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)