本發(fā)明公開了一種基于動態(tài)遞歸機制的分層強化學(xué)習(xí)的推薦系統(tǒng),包括用戶畫像矯正器:采用一種動態(tài)遞歸機制的策略梯度方法,及引入?yún)?shù)動態(tài)稀疏權(quán)重以刪除噪聲數(shù)據(jù)來修改用戶畫像,其中,所述動態(tài)遞歸機制的策略梯度方法包括:動態(tài)基線和基于時序上下文的遞歸強化學(xué)習(xí),所述動態(tài)基線為采用動態(tài)稀疏權(quán)重對總收益進行學(xué)習(xí)策略的改進;注意力機制:用于自動調(diào)整用戶偏好的變化;推薦模型:用于通過注意力機制向用戶推薦最相關(guān)物品。本發(fā)明的推薦系統(tǒng),通過在策略梯度方法中引入一個參數(shù)動態(tài)稀疏權(quán)重,使智能體在全局最優(yōu)策略下選擇最優(yōu)行為;其次,結(jié)合時間上下文的分層強化學(xué)習(xí),該方法能夠更可靠地收斂,從而提高模型預(yù)測的穩(wěn)定性。
聲明:
“基于動態(tài)遞歸機制的分層強化學(xué)習(xí)的推薦系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)