本發(fā)明提出一種基于深度強(qiáng)化學(xué)習(xí)的推薦算法,構(gòu)建了MainNet神經(jīng)網(wǎng)絡(luò)和TargetNet神經(jīng)網(wǎng)絡(luò)的雙網(wǎng)絡(luò)結(jié)構(gòu)模型,其中MainNet神經(jīng)網(wǎng)絡(luò)是主神經(jīng)網(wǎng)絡(luò),用于得到戶對(duì)推薦列表,TargetNet神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練模型參數(shù),得到最優(yōu)模型參數(shù),并不斷更新模型參數(shù),作為MainNet神經(jīng)網(wǎng)絡(luò)的輸入的當(dāng)前狀態(tài)不僅包括長(zhǎng)期特征,而且包括外部條件特征,為用戶購物行為的準(zhǔn)確預(yù)測(cè)奠定了基礎(chǔ)。本發(fā)明克服了傳統(tǒng)機(jī)器學(xué)習(xí)的缺點(diǎn),不需要?dú)v史數(shù)據(jù)積累,只要網(wǎng)站存在交易行為,該算法可以實(shí)現(xiàn)自我學(xué)習(xí),自我優(yōu)化和自我完善。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的推薦算法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)