本發(fā)明提供一種基于地質(zhì)本體的地質(zhì)報告文本信息提取方法,包括步驟:S1、對地質(zhì)報告文檔進(jìn)行預(yù)處理操作,將文件類型轉(zhuǎn)換成數(shù)據(jù)源格式,并進(jìn)行分句、分詞、去停用詞、以及詞性標(biāo)注;S2、利用結(jié)構(gòu)化信息構(gòu)建地名詞典庫、地質(zhì)實體詞典庫,在已有地質(zhì)領(lǐng)域本體的基礎(chǔ)上進(jìn)行擴充并形成地名本體和地質(zhì)時間本體;S3、通過模式匹配以及規(guī)則匹配方法對地質(zhì)報告文本進(jìn)行地質(zhì)實體信息、時空關(guān)系信息、以及屬性信息的抽取。本發(fā)明的有益效果:無需采用人工方式標(biāo)注大量的訓(xùn)練數(shù)據(jù)集,節(jié)省了人力、物力;對現(xiàn)有的信息抽取模型進(jìn)行了抽象及改進(jìn),為其他領(lǐng)域的信息抽取提供了一定思路。
聲明:
“基于地質(zhì)本體的地質(zhì)報告文本信息提取方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)