本發(fā)明公開了一種狀態(tài)部分可觀測強化學(xué)習(xí)算法的高效采樣更新方法及裝置,其中,方法包括:采集智能體與環(huán)境交互生成的交互數(shù)據(jù),并將交互數(shù)據(jù)添加至樣本池中;從樣本池中隨機選取多條樣本片段,生成訓(xùn)練樣本數(shù)據(jù);根據(jù)訓(xùn)練樣本數(shù)據(jù)對更新長短時記憶網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。根據(jù)本申請的更新方法,可以極大縮短算法訓(xùn)練時間、提高算法表現(xiàn),不但提高更新效率,而且有效保證更新的準(zhǔn)確性,提升算法的使用體驗。
聲明:
“狀態(tài)部分可觀測強化學(xué)習(xí)算法的高效采樣更新方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)