本發(fā)明提供一種化學(xué)表達(dá)式提取方法、裝置及設(shè)備,涉及數(shù)據(jù)處理技術(shù)領(lǐng)域。本發(fā)明可以通過獲取化學(xué)題文本數(shù)據(jù),對化學(xué)題文本數(shù)據(jù)進(jìn)行分詞操作,得到化學(xué)題文本數(shù)據(jù)對應(yīng)的至少一個(gè)分詞,并確定至少一個(gè)分詞中,與預(yù)設(shè)的化學(xué)表達(dá)式聚類中心之間的距離小于預(yù)設(shè)閾值的分詞為目標(biāo)分詞,然后提取目標(biāo)分詞,可以得到化學(xué)題文本數(shù)據(jù)中的化學(xué)表達(dá)式,從而實(shí)現(xiàn)基于聚類分析從化學(xué)題文本數(shù)據(jù)中提取化學(xué)表達(dá)式。相對于現(xiàn)有的化學(xué)表達(dá)式提取方法而言,可以有效減少人工標(biāo)注過程所耗費(fèi)的大量的時(shí)間和成本,另外,還可以有效提高化學(xué)表達(dá)式提取的速度。
聲明:
“化學(xué)表達(dá)式提取方法、裝置及設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)