本發(fā)明公開(kāi)了一種基于雙向長(zhǎng)短記憶模型的藥物小分子活性預(yù)測(cè)的方法,包括:獲取數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理,包括將所述數(shù)據(jù)集中的所有化合物分子用SMILES表示,對(duì)所有分子的SMILES表達(dá)式做標(biāo)準(zhǔn)化處理,統(tǒng)一分子SMILES表達(dá)式中的原子、鍵、連接關(guān)系的編碼方式和順序,利用分子的InChIKey,進(jìn)行去重復(fù)化處理;對(duì)預(yù)處理的數(shù)據(jù)集進(jìn)行編碼,其中通過(guò)獨(dú)熱編碼對(duì)SMILES序列的單個(gè)元素、單個(gè)數(shù)字、單個(gè)符號(hào)以及整個(gè)方括號(hào)看作一個(gè)序列令牌,每個(gè)令牌本身具有化學(xué)意義和指向性,任何令牌的組合符合化學(xué)規(guī)則;構(gòu)建雙向長(zhǎng)短記憶核心片段識(shí)別模型;將編碼數(shù)據(jù)輸入所述雙向長(zhǎng)短記憶核心片段識(shí)別模型,得到隱藏狀態(tài)矩;以及對(duì)上述雙向長(zhǎng)短記憶核心片段識(shí)別模型進(jìn)行評(píng)估。
聲明:
“基于雙向長(zhǎng)短記憶模型的藥物小分子活性預(yù)測(cè)的方法和系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)