本說(shuō)明書實(shí)施例提供一種基于強(qiáng)化學(xué)習(xí)模型預(yù)測(cè)樣本標(biāo)簽的方法,所述方法包括:通過(guò)所述強(qiáng)化學(xué)習(xí)模型進(jìn)行針對(duì)第一標(biāo)定樣本的連續(xù)N次預(yù)測(cè),獲取與N次預(yù)測(cè)分別對(duì)應(yīng)的N個(gè)預(yù)測(cè)標(biāo)簽,其中,從第二次預(yù)測(cè)開(kāi)始的每次預(yù)測(cè)的預(yù)測(cè)標(biāo)簽屬于上一次預(yù)測(cè)的預(yù)測(cè)標(biāo)簽的預(yù)定子標(biāo)簽集合,第一次預(yù)測(cè)的預(yù)測(cè)標(biāo)簽屬于預(yù)定標(biāo)簽集合,所述N為大于等于1的整數(shù);基于預(yù)先標(biāo)定的所述第一標(biāo)定樣本的標(biāo)定標(biāo)簽和所述第N次預(yù)測(cè)得到的預(yù)測(cè)標(biāo)簽,確定與所述N次預(yù)測(cè)對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù),所述預(yù)測(cè)標(biāo)簽對(duì)應(yīng)于第N次預(yù)測(cè)得到預(yù)測(cè)標(biāo)簽標(biāo)識(shí);利用所述獎(jiǎng)勵(lì)分?jǐn)?shù)優(yōu)化所述強(qiáng)化學(xué)習(xí)模型,優(yōu)化后的強(qiáng)化學(xué)習(xí)模型用于預(yù)測(cè)第一預(yù)測(cè)樣本的樣本標(biāo)簽。
聲明:
“基于強(qiáng)化學(xué)習(xí)模型預(yù)測(cè)樣本標(biāo)簽的方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)