本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)的實(shí)時(shí)競(jìng)價(jià)廣告資源分配方法,包括:對(duì)歷史廣告數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得到CTR;將得到的CTR進(jìn)行加噪處理,得出AD Exchange和DSP對(duì)CTR的估值;按照不同等級(jí)預(yù)算限制將實(shí)時(shí)競(jìng)價(jià)廣告印象分配問題建模為一組多級(jí)的馬爾科夫決策過程集合,對(duì)需要進(jìn)行折算的變量進(jìn)行折算;并將折算后的變量輸入到對(duì)應(yīng)等級(jí)的DQN中;獲取每個(gè)DQN計(jì)算出的累積回報(bào)值;對(duì)每個(gè)DQN得到的累積回報(bào)值進(jìn)行歸一化,通過對(duì)應(yīng)的修正函數(shù)進(jìn)行修正;將所有修正后的回報(bào)值進(jìn)行加權(quán),根據(jù)得到的累積回報(bào)值確定不同動(dòng)作下的廣告資源分配策略,從廣告資源分配策略中選擇最優(yōu)的廣告分配策略。本發(fā)明實(shí)現(xiàn)了在保證AD Exchange利益的前提下,讓DSP分配的資源更加合理使得收益更高。
聲明:
“基于強(qiáng)化學(xué)習(xí)的實(shí)時(shí)競(jìng)價(jià)廣告資源分配方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)