包括編碼在計算機存儲介質(zhì)上的計算機程序的方法、系統(tǒng)和裝置,用于訓(xùn)練強化學(xué)習(xí)系統(tǒng)的環(huán)境表示神經(jīng)網(wǎng)絡(luò)控制代理以執(zhí)行給定的任務(wù)。在一個方面,該方法包括:接收當(dāng)前觀察輸入和未來觀察輸入;從未來觀察輸入生成環(huán)境的未來狀態(tài)的未來潛在表示;使用環(huán)境表示神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,以生成環(huán)境的當(dāng)前狀態(tài)的當(dāng)前內(nèi)部表示;從當(dāng)前內(nèi)部表示生成預(yù)測的未來潛在表示;評估測量未來潛在表示與預(yù)測的未來潛在表示之間的差異的目標(biāo)函數(shù);以及基于所確定的目標(biāo)函數(shù)的梯度來確定對環(huán)境表示參數(shù)的當(dāng)前值的更新。
聲明:
“使用自舉潛在的預(yù)測來學(xué)習(xí)針對代理控制的環(huán)境表示” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)