用于訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng)的方法、系統(tǒng)和裝置,包括編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。在一個(gè)方面,訓(xùn)練動(dòng)作選擇策略神經(jīng)網(wǎng)絡(luò)以用于選擇要由導(dǎo)航經(jīng)過環(huán)境以實(shí)現(xiàn)一個(gè)或多個(gè)目標(biāo)的代理執(zhí)行的動(dòng)作的方法包括:接收表征環(huán)境的當(dāng)前狀態(tài)的觀察圖像;使用動(dòng)作選擇策略神經(jīng)網(wǎng)絡(luò)處理包括觀察圖像的輸入以生成動(dòng)作選擇輸出;使用幾何預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)處理由動(dòng)作選擇策略神經(jīng)網(wǎng)絡(luò)生成的中間輸出,以預(yù)測(cè)當(dāng)處于當(dāng)前狀態(tài)時(shí)的環(huán)境的幾何特征的值;以及將基于幾何的輔助損失的梯度反向傳播到動(dòng)作選擇策略神經(jīng)網(wǎng)絡(luò)中,以確定對(duì)于網(wǎng)絡(luò)參數(shù)的當(dāng)前值的基于幾何的輔助更新。
聲明:
“使用強(qiáng)化學(xué)習(xí)的環(huán)境導(dǎo)航” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)