本發(fā)明涉及圖像理解領(lǐng)域,其公開(kāi)了一種基于推敲注意力機(jī)制的圖像描述生成系統(tǒng)及方法,解決現(xiàn)有圖像描述方案存在的缺少潤(rùn)色過(guò)程、訓(xùn)練和測(cè)試過(guò)程不一致、生成描述辨識(shí)度不高的問(wèn)題。該方法包括:a.數(shù)據(jù)集的處理:提取圖像的全局特征和局部特征,構(gòu)建數(shù)據(jù)集,對(duì)數(shù)據(jù)集中的單詞進(jìn)行標(biāo)記,生成對(duì)應(yīng)的詞嵌入向量;b.訓(xùn)練圖像描述生成模型:采用第一層基于殘差注意力機(jī)制的解碼器生成粗略的圖像描述,采用第二層基于殘差注意力機(jī)制的解碼器對(duì)已生成的圖像描述進(jìn)行潤(rùn)色;c.結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)一步訓(xùn)練模型:在訓(xùn)練過(guò)程中模擬模型的測(cè)試過(guò)程,并且以生成描述的CIDEr分?jǐn)?shù)來(lái)引導(dǎo)模型的訓(xùn)練,結(jié)合強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行調(diào)整。
聲明:
“基于推敲注意力機(jī)制的圖像描述生成系統(tǒng)及方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)