本發(fā)明涉及一種基于生成模型的隱空間模型化策略搜索學(xué)習(xí)方法,收集環(huán)境的真實狀態(tài)轉(zhuǎn)移樣本數(shù)據(jù);構(gòu)造變分自編碼器網(wǎng)絡(luò)模型;訓(xùn)練變分自編碼器網(wǎng)絡(luò)模型直至收斂;在隱空間構(gòu)建條件生成對抗網(wǎng)絡(luò)模型;訓(xùn)練條件生成對抗網(wǎng)絡(luò)模型直至收斂,得到隱空間中的狀態(tài)轉(zhuǎn)移預(yù)測模型;利用隱空間狀態(tài)轉(zhuǎn)移預(yù)測模型和當(dāng)前策略生成數(shù)量足夠多的路徑樣本;利用路徑樣本更新策略搜索強(qiáng)化學(xué)習(xí)算法中策略模型的參數(shù),直到策略模型的參數(shù)更新收斂為止。本發(fā)明是利用生成模型的降維能力和捕捉數(shù)據(jù)分布能力來模型化狀態(tài)轉(zhuǎn)移函數(shù),并進(jìn)行策略搜索的方法,既可以解決高維數(shù)據(jù)很難直接處理的問題,減少內(nèi)存消耗,又可以高效地解決樣本數(shù)量較少或采樣預(yù)算不足的難題。
聲明:
“基于生成模型的隱空間模型化策略搜索學(xué)習(xí)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)