本發(fā)明涉及一種基于編解碼網(wǎng)絡(luò)的圖像?文本多模態(tài)融合方法,屬于計算機視覺、自然語言處理、模式識別技術(shù)領(lǐng)域。該方法包括如下步驟:S1:在現(xiàn)有目標檢測數(shù)據(jù)集的基礎(chǔ)上對其進行手動標記生成文本信息,構(gòu)建新的圖像?文本數(shù)據(jù)集,并將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集;S2:選擇適合的優(yōu)化學(xué)習方法,設(shè)置相關(guān)超參數(shù),將訓(xùn)練集和驗證集通過編解碼網(wǎng)絡(luò)模型進行訓(xùn)練;S3:訓(xùn)練結(jié)束后,在測試集中任選一張圖片,輸入編解碼網(wǎng)絡(luò)模型,加載訓(xùn)練好的模型權(quán)重,最終檢測出所對應(yīng)的目標結(jié)果。本發(fā)明采用圖像?文本融合處理的方法,利用同一個事物的兩種不同類型的數(shù)據(jù)進行融合處理,能夠使網(wǎng)絡(luò)訓(xùn)練時精確度更高,進而識別出相關(guān)所需讓目標。
聲明:
“基于編解碼網(wǎng)絡(luò)的圖像-文本多模態(tài)融合方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)