本發(fā)明公開了一種基于KNN的文本分類方法,適用于核安全級軟件驗證和可靠性驗證。本發(fā)明的文本分類方法包括訓練過程處理和測試過程處理,將訓練樣本數(shù)據(jù)集以原始文本自身和文本中所有的標題兩部分的信息來表示。依據(jù)文本由淺到深的特征層次結(jié)構(gòu)構(gòu)建兩個DBM模型,提取低維高區(qū)分度的深層特征并存儲,在測試過程中以適當?shù)臋?quán)重考慮文本標題給相似度的計算帶來的貢獻來確定待測試文本的類別。本發(fā)明充分利用文本標題的信息,比將淺層特征向量作為訓練集在分類性能上有顯著改善,同時能夠降低存儲需求和在線計算量,解決了特征向量高維災難問題,提高了分類的準確度,可以用于安全級軟件可靠性評價分析中的規(guī)則匹配和失效模式庫的建立。
聲明:
“基于KNN的文本分類方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)