本發(fā)明提供一種基于一致性文本增強(qiáng)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法及裝置,該方法包括:按實(shí)體對(duì)和關(guān)系標(biāo)簽對(duì)多個(gè)句子實(shí)例進(jìn)行劃分,得到多個(gè)句子包;對(duì)每個(gè)句子包中的每個(gè)句子實(shí)例采用不同的文本增強(qiáng)方法,得到每個(gè)句子包中的每個(gè)句子實(shí)例對(duì)應(yīng)的強(qiáng)增強(qiáng)樣本以及弱增強(qiáng)樣本;確定噪聲樣例,并通過無關(guān)系句子實(shí)例以及噪聲樣例的強(qiáng)增強(qiáng)樣本和弱增強(qiáng)樣本對(duì)關(guān)系預(yù)測(cè)模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的關(guān)系預(yù)測(cè)模型;利用訓(xùn)練好的關(guān)系預(yù)測(cè)模型對(duì)待預(yù)測(cè)的句子包進(jìn)行預(yù)測(cè),獲得與其對(duì)應(yīng)的關(guān)系標(biāo)簽。通過本發(fā)明,通過一致性文本增強(qiáng),能夠增加數(shù)據(jù)集規(guī)模,增強(qiáng)模型的泛化學(xué)習(xí)能力,讓“NA”類別和噪音樣例約束模型學(xué)習(xí)更多的監(jiān)督信息。
聲明:
“基于一致性文本增強(qiáng)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)