本發(fā)明涉及自然語(yǔ)言處理和深度學(xué)習(xí)技術(shù)領(lǐng)域,特別涉及一種基于句子級(jí)文檔分割的長(zhǎng)文本閱讀理解方法。本發(fā)明的主要技術(shù)方案包括:S1、將文檔進(jìn)行分段;包括:將文檔以句子為單位進(jìn)行切分,并將切分后的句子按照在原文中的順序放入集合S中,取前N句話拼接成初始文檔分段并利用編碼器進(jìn)行編碼;通過(guò)強(qiáng)化學(xué)習(xí)模型動(dòng)態(tài)地調(diào)整文檔分段的初始位置,得到文檔的分段結(jié)果;S2、將文檔分段與問(wèn)題進(jìn)行拼接輸入答案抽取模型,輸出每個(gè)字作為答案起始位置和終止位置的概率,并預(yù)測(cè)分段包含答案的概率,由三個(gè)概率值共同決定最終答案。通過(guò)本發(fā)明,使得文檔分段在保留完整句子的基礎(chǔ)上,盡可能地將完整的答案包含在內(nèi),并提升了答案抽取的準(zhǔn)確性。
聲明:
“基于句子級(jí)文檔分割的長(zhǎng)文本閱讀理解方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)