本說(shuō)明書一個(gè)或多個(gè)實(shí)施例提供一種推薦列表的生成方法、裝置和電子設(shè)備;所述方法包括:獲取用戶的用戶特征;根據(jù)所述用戶特征和預(yù)先訓(xùn)練的強(qiáng)化學(xué)習(xí)模型,得到所述用戶點(diǎn)擊推薦列表中的列表項(xiàng)的預(yù)測(cè)結(jié)果;響應(yīng)于所述用戶對(duì)所述推薦列表中的列表項(xiàng)的點(diǎn)擊操作,得到點(diǎn)擊結(jié)果;根據(jù)所述預(yù)測(cè)結(jié)果和所述點(diǎn)擊結(jié)果,確定對(duì)應(yīng)于所述預(yù)測(cè)結(jié)果的獎(jiǎng)勵(lì)分?jǐn)?shù);確定基準(zhǔn)獎(jiǎng)勵(lì)分?jǐn)?shù);根據(jù)所述基準(zhǔn)獎(jiǎng)勵(lì)分?jǐn)?shù),采用策略梯度算法優(yōu)化所述強(qiáng)化學(xué)習(xí)模型,優(yōu)化后的所述強(qiáng)化學(xué)習(xí)模型用于生成對(duì)應(yīng)于所述用戶的推薦列表。
聲明:
“推薦列表的生成方法、裝置和電子設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)