一種基于地質大數據的標引關鍵詞提取方法和系統(tǒng),所述方法包括步驟:對文獻進行導入,地質資料格式轉換,句子劃分,詞性標注和位置標記;對切分后的文獻,賦予權重系數;采用關鍵詞挖掘算法,對關鍵詞進行初步挖掘提?。粚μ崛〕鲫P鍵詞短語進行加權運算,得到各個短語的綜合權值;根據綜合權值大小進行初步刷選,降低待確定短語個數;將短語與詞庫進行匹配,找出詞庫中與之匹配或較為規(guī)范的術語;將術語與文獻進行關聯(lián)度計算,確定術語的關聯(lián)度大小,根據關聯(lián)度大小進行再次刷選;最后按照行業(yè)特點、高度相關性、特性等對術語進行排序,最終確定關鍵詞的次序。該方法能考慮到文件的背景和關聯(lián)性,盡量拋棄空泛的關鍵詞,提供比較全面地反映文獻核心內容的關鍵詞,而且按照一定的邏輯順序排序,從而為文件檢索,提高檢索效率提供了便利,是一種高效的地質大數據的標引關鍵詞提取方法。
聲明:
“基于地質大數據的標引關鍵詞提取方法和系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)