本發(fā)明提供一種基于動作剪枝的推薦方法、裝置、電子設(shè)備與存儲介質(zhì),包括:基于目標用戶的用戶特征和各待推薦內(nèi)容的內(nèi)容特征,確定各待推薦內(nèi)容對應(yīng)的狀態(tài);基于各待推薦內(nèi)容對應(yīng)的狀態(tài)和評分預(yù)測模型,預(yù)測各待推薦內(nèi)容的評分,并基于各待推薦內(nèi)容的評分,向目標用戶進行推薦;評分預(yù)測模型是強化學(xué)習(xí)得到的,在強化學(xué)習(xí)過程中,評分預(yù)測模型從遺憾值集合中獲取當(dāng)前樣本狀態(tài)下各候選評分的遺憾值,并基于遺憾值大于預(yù)設(shè)閾值的候選評分進行評分預(yù)測,遺憾值集合存儲有歷史狀態(tài)及其對應(yīng)的遺憾值,遺憾值基于歷史狀態(tài)下各候選評分的優(yōu)勢確定,歷史狀態(tài)是在當(dāng)前樣本狀態(tài)之前的樣本狀態(tài),加快強化學(xué)習(xí)的收斂速度,實現(xiàn)對用戶進行個性化的精確推薦。
聲明:
“基于動作剪枝的推薦方法、裝置、電子設(shè)備與存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)