本發(fā)明公開了一種基于多粒度獎勵機(jī)制的多注意力融合網(wǎng)絡(luò)的圖像字幕生成方法,它解決了在基于強(qiáng)化學(xué)習(xí)獎勵機(jī)制的圖像字幕生成方法中,每個生成單詞不同重要性的問題。本發(fā)明首次提出了一種基于多粒度獎勵機(jī)制的多注意力融合網(wǎng)絡(luò)用于圖像字幕生成,它包括多注意力融合模型、單詞重要性重評估網(wǎng)絡(luò)和標(biāo)簽檢索網(wǎng)絡(luò)。多注意力融合模型用作基于強(qiáng)化學(xué)習(xí)的圖像字幕方法的基線;單詞重要性重評估網(wǎng)絡(luò)通過估算生成標(biāo)題中每個單詞的不同重要性而被用于獎勵重估;標(biāo)簽檢索網(wǎng)絡(luò)能夠從一批字幕中檢索相應(yīng)的真實(shí)標(biāo)簽作為檢索獎勵,然后通過訓(xùn)練該網(wǎng)絡(luò)以最大化獎勵的方式生成更好的字幕。本發(fā)明在MSCOCO數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證,取得了非常有競爭力的評價結(jié)果。
聲明:
“基于多粒度獎勵機(jī)制的多注意力融合網(wǎng)絡(luò)的圖像字幕生成方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)