本說明書公開了一種信息推薦方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,本說明書實(shí)施例在進(jìn)行信息推薦時(shí),通過不同的強(qiáng)化學(xué)習(xí)模型輸出每種排布方式對(duì)應(yīng)的不同的累積折扣獎(jiǎng)勵(lì)期望分布,最后,根據(jù)每種排布方式對(duì)應(yīng)的不同的累積折扣獎(jiǎng)勵(lì)期望分布,確定目標(biāo)排布方式,以目標(biāo)排布方式排布各推薦信息以及各廣告,并展示給用戶。此方法中,由于累積折扣獎(jiǎng)勵(lì)期望分布是基于用戶對(duì)同一排布方式展示的各推薦信息和各廣告執(zhí)行指定操作行為的概率分布所確定的,每個(gè)強(qiáng)化學(xué)習(xí)模型的模型參數(shù)不同,這樣通過不同的強(qiáng)化學(xué)習(xí)模型預(yù)測同一排布方式的累積折扣獎(jiǎng)勵(lì)期望分布,可以避免因用戶隨機(jī)行為導(dǎo)致獎(jiǎng)勵(lì)隨機(jī)的問題,從而提高信息推薦的準(zhǔn)確性。
聲明:
“信息推薦方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)