一種強(qiáng)化學(xué)習(xí)方法和系統(tǒng),所述強(qiáng)化學(xué)習(xí)方法和系統(tǒng)選擇要由與環(huán)境交互的強(qiáng)化學(xué)習(xí)智能體執(zhí)行的動(dòng)作。因果模型由后見(jiàn)之明模型神經(jīng)網(wǎng)絡(luò)實(shí)施并且使用后見(jiàn)之明,即使用未來(lái)環(huán)境狀態(tài)軌跡進(jìn)行訓(xùn)練。由于所述方法和系統(tǒng)在選擇動(dòng)作時(shí)無(wú)法訪問(wèn)這種未來(lái)信息,因此使用所述后見(jiàn)之明模型神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練模型神經(jīng)網(wǎng)絡(luò),所述模型神經(jīng)網(wǎng)絡(luò)以來(lái)自當(dāng)前觀測(cè)的數(shù)據(jù)為條件,所述模型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)所述后見(jiàn)之明模型神經(jīng)網(wǎng)絡(luò)的輸出。
聲明:
“使用后見(jiàn)之明建模來(lái)訓(xùn)練動(dòng)作選擇神經(jīng)網(wǎng)絡(luò)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)