本發(fā)明涉及PU強化學(xué)習(xí)的遠程監(jiān)督命名實體識別方法,屬于自然語言處理與機器學(xué)習(xí)領(lǐng)域。主要為了解決中文命名實體識別任務(wù)的遠程監(jiān)督樣本存在噪聲標記、模型學(xué)習(xí)樣本特征效率低下問題和訓(xùn)練過程缺乏有效監(jiān)測機制。本發(fā)明首先利用BLSTM模型對文本提取單條樣本序列特征和多標簽評分信息;然后,基于PU強化學(xué)習(xí),訓(xùn)練樣本選擇器,從標記語料和遠程監(jiān)督語料中篩選出正樣本和負樣本。再將負樣本送入去噪還原器得到還原樣本。再引入無偏、一致地估計任務(wù)損失的損失函數(shù),使用正樣本和還原樣本訓(xùn)練中文命名實體識別模型;最后重復(fù)上述模型訓(xùn)練,直到篩選標記語料趨于穩(wěn)定。在ICT語料、EC語料和NEWS進行了實驗,結(jié)果表明本發(fā)明能達到較好的去噪效果。
聲明:
“PU強化學(xué)習(xí)的遠程監(jiān)督命名實體識別方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)