本發(fā)明公開了一種互聯(lián)網(wǎng)地質(zhì)數(shù)據(jù)檢索與獲取的方法,包括:將地質(zhì)敘詞表轉(zhuǎn)換成EXCEL格式的電子版敘詞表;依據(jù)檢索“關(guān)鍵詞”,通過與電子版敘詞表比對獲取等級關(guān)系、等價關(guān)系、相關(guān)關(guān)系的關(guān)聯(lián)詞;利用相關(guān)性層級數(shù)的設(shè)置對關(guān)聯(lián)詞數(shù)量進(jìn)行收斂控制;檢索關(guān)鍵詞和關(guān)聯(lián)詞,爬蟲程序依據(jù)檢索結(jié)果的頁面數(shù)據(jù)和爬取規(guī)則,爬取該頁面數(shù)據(jù)(主網(wǎng)頁)以及該頁面數(shù)據(jù)中每條網(wǎng)址鏈接的數(shù)據(jù);對網(wǎng)頁數(shù)據(jù)進(jìn)行地質(zhì)主題相關(guān)性計算,確定相關(guān)的數(shù)據(jù)。通過發(fā)明方法對地質(zhì)數(shù)據(jù)抽取,可實現(xiàn)地質(zhì)信息和新聞的定期、定向的精確提取,解決了采用傳統(tǒng)數(shù)據(jù)爬取方法與地質(zhì)大數(shù)據(jù)特性之間的矛盾,有效提升數(shù)據(jù)發(fā)現(xiàn)的全面性,可以高效的獲取互聯(lián)網(wǎng)地質(zhì)相關(guān)數(shù)據(jù)。
聲明:
“互聯(lián)網(wǎng)地質(zhì)數(shù)據(jù)檢索與獲取的方法及其裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)