本發(fā)明提供一種訓(xùn)練推薦領(lǐng)域中強化學(xué)習(xí)模型的模擬器,其由2個核心模型組成,一是基于GAN的用戶狀態(tài)生成模型;另一個是環(huán)境反饋算法,其中,環(huán)境反饋算法包括基于層次注意力的用戶評級預(yù)測模型,以及用戶反饋計算模型。本發(fā)明可以生成用戶狀態(tài),以及對推薦智能體生成的動作進行反饋。實驗結(jié)果表明,在小數(shù)據(jù)集的條件下,借助GAN網(wǎng)絡(luò)結(jié)構(gòu)的特性,模型依舊能生成可用的用戶狀態(tài),同時,評分結(jié)果也在可用范圍之類,此外,所構(gòu)建的反饋算法不僅能夠有效終止學(xué)習(xí)過程,而且所計算得到的反饋數(shù)據(jù)也符合強化學(xué)習(xí)的訓(xùn)練要求。
聲明:
“訓(xùn)練推薦領(lǐng)域中強化學(xué)習(xí)模型的模擬器” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)