本發(fā)明公開了一種基于句法模式識(shí)別的藥物小分子毒性預(yù)測(cè)的方法,包括:獲取數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理,包括將所述數(shù)據(jù)集中的所有化合物分子用SMILES表示,對(duì)所有分子的SMILES表達(dá)式做標(biāo)準(zhǔn)化處理,統(tǒng)一分子SMILES表達(dá)式中的原子、鍵、連接關(guān)系的編碼方式和順序,然后進(jìn)行去重復(fù)化處理;對(duì)預(yù)處理的數(shù)據(jù)集進(jìn)行編碼,其中通過獨(dú)熱編碼對(duì)SMILES序列的單個(gè)元素、單個(gè)數(shù)字、單個(gè)符號(hào)以及整個(gè)方括號(hào)看作一個(gè)基元片段。每個(gè)基元片段本身是具有化學(xué)意義和指向性的,任何基元片段的組合也是符合化學(xué)規(guī)則,所述所有分子的SMILES表達(dá)式轉(zhuǎn)換為向量組合;構(gòu)建句法模式識(shí)別模型;將向量組合輸入所述句法模式識(shí)別模型,預(yù)估分子是否含有特定靶標(biāo)的毒性;以及對(duì)所述句法模式識(shí)別模型進(jìn)行評(píng)估。
聲明:
“基于句法模式識(shí)別的藥物小分子毒性預(yù)測(cè)的方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)