本發(fā)明公開了以互聯(lián)網(wǎng)重復(fù)文檔反作弊需求為背景,以Simhash算法為文檔判重的核心算法為基礎(chǔ)對(duì)該算法獲取文檔特征的過程進(jìn)行改進(jìn),將單詞意義作為衡量單詞權(quán)重的一個(gè)考量因素;針對(duì)64位文檔Simhash簽名,提供用戶維度、全文維度和黑庫(kù)維度的文檔判重服務(wù),并可基于全文和段落兩種粒度進(jìn)行文檔相似性比較;從理論上分析,文檔失效時(shí)間設(shè)置的越長(zhǎng),其在存儲(chǔ)系統(tǒng)中存儲(chǔ)的時(shí)間就越長(zhǎng),存儲(chǔ)空間變大,影響查詢效率,因此對(duì)請(qǐng)求耗時(shí)有影響;這也是系統(tǒng)設(shè)置對(duì)冷熱數(shù)據(jù)進(jìn)行處理的原因。
聲明:
“基于互聯(lián)網(wǎng)海量文檔反作弊技術(shù)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)