本發(fā)明涉及一種基于環(huán)境預(yù)測(cè)模型的強(qiáng)化學(xué)習(xí)方法,其收集環(huán)境的真實(shí)狀態(tài)動(dòng)作轉(zhuǎn)移樣本數(shù)據(jù);構(gòu)造環(huán)境表示模型即變分自編碼器網(wǎng)絡(luò)模型;訓(xùn)練變分自編碼器網(wǎng)絡(luò)模型直至收斂;在隱空間構(gòu)建環(huán)境預(yù)測(cè)模型,該網(wǎng)絡(luò)模型為遞歸神經(jīng)網(wǎng)絡(luò)模型;結(jié)合歷史數(shù)據(jù)訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)模型直至收斂,在潛在空間生成可預(yù)測(cè)未來(lái)狀態(tài)的表示,并將遞歸型神經(jīng)網(wǎng)絡(luò)自身的隱狀態(tài)表示為智能體對(duì)于自身行動(dòng)所引發(fā)的環(huán)境變化的預(yù)測(cè)。本發(fā)明在深度神經(jīng)網(wǎng)絡(luò)中的變分自編碼器及遞歸型神經(jīng)網(wǎng)絡(luò)相結(jié)合的基礎(chǔ)上進(jìn)行改良,生成虛擬環(huán)境數(shù)據(jù)訓(xùn)練智能體,并把從中學(xué)會(huì)的策略遷移到真實(shí)環(huán)境之中。該模型的設(shè)計(jì)擺脫了深度強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中對(duì)大量學(xué)習(xí)樣本的要求,生成數(shù)據(jù)的多樣性可從一定程度上解決深度強(qiáng)化學(xué)習(xí)模型存在對(duì)其所訓(xùn)練數(shù)據(jù)過(guò)度擬合的問(wèn)題。
聲明:
“基于環(huán)境預(yù)測(cè)模型的強(qiáng)化學(xué)習(xí)方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)