本發(fā)明公開了一種基于多級(jí)預(yù)測(cè)架構(gòu)的視頻描述方法及系統(tǒng),屬于深度學(xué)習(xí)中計(jì)算機(jī)視覺以及自然語言處理領(lǐng)域,本發(fā)明要解決的技術(shù)問題為如何生成細(xì)粒度的語言描述,避免模型復(fù)雜度提高造成梯度消失,同時(shí)從根本上解決曝光偏差的難題,避免發(fā)生錯(cuò)誤累計(jì),造成最終結(jié)果的失效,采用的技術(shù)方案為:該方法步驟如下:S1、獲取原始數(shù)據(jù);S2、使用nltk對(duì)描述進(jìn)行篩選分詞;S4、預(yù)訓(xùn)練YOLO;S5、通過多層解碼器LSTM及堆疊注意力機(jī)制得到語言描述;S6、將得到的語言描述分別與真實(shí)標(biāo)注計(jì)算交叉熵,同時(shí)將得到的語言描述的和作為總體損失。該系統(tǒng)包括原始數(shù)據(jù)獲取模塊、篩選分詞模塊、單詞表制作模塊、YOLO預(yù)訓(xùn)練模塊、語言描述獲取模塊及梯度計(jì)算模塊。
聲明:
“基于多級(jí)預(yù)測(cè)架構(gòu)的視頻描述方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)