包括在計(jì)算機(jī)存儲(chǔ)介質(zhì)上編碼的計(jì)算機(jī)程序的用于訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng)的方法、系統(tǒng)和裝置。該方法包括:訓(xùn)練動(dòng)作選擇策略神經(jīng)網(wǎng)絡(luò),并且在動(dòng)作選擇神經(jīng)網(wǎng)絡(luò)的訓(xùn)練期間,訓(xùn)練一個(gè)或多個(gè)輔助控制神經(jīng)網(wǎng)絡(luò)和獎(jiǎng)勵(lì)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)。輔助控制神經(jīng)網(wǎng)絡(luò)中的每個(gè)輔助控制神經(jīng)網(wǎng)絡(luò)被配置為接收由動(dòng)作選擇策略神經(jīng)網(wǎng)絡(luò)生成的相應(yīng)的中間輸出,并生成對(duì)于對(duì)應(yīng)的輔助控制任務(wù)的策略輸出。獎(jiǎng)勵(lì)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)被配置為接收由動(dòng)作選擇策略神經(jīng)網(wǎng)絡(luò)生成的一個(gè)或多個(gè)中間輸出并生成對(duì)應(yīng)的預(yù)測(cè)獎(jiǎng)勵(lì)。訓(xùn)練輔助控制神經(jīng)網(wǎng)絡(luò)中的每個(gè)輔助控制神經(jīng)網(wǎng)絡(luò)和獎(jiǎng)勵(lì)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)包括調(diào)整相應(yīng)的輔助控制參數(shù)、獎(jiǎng)勵(lì)預(yù)測(cè)參數(shù)和動(dòng)作選擇策略網(wǎng)絡(luò)參數(shù)的值。
聲明:
“利用輔助任務(wù)的強(qiáng)化學(xué)習(xí)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)