霍旭祥 徐峻
摘要:計算機輔助藥物設計(Computcr-Aidcd Drug Dcsign,CADD)已成為當今藥物研發(fā)不可或缺的一部分。采用傳統(tǒng)的方法預測小分子結合自由能有一定的局限性,由于傳統(tǒng)方法默認了小分子的結構信息與結合能之間是線性的關系,而對于結構化學信息二者之間并不是線性關系的情況,其預測結果并不是十分準確。隨著深度學習技術的發(fā)展,我們可以通過神經(jīng)網(wǎng)絡對線性問題或者是非線性問題進行建模,以在小分子的結構信息與其結合能之間建立線性或者非線性的聯(lián)系,使其預測的結果準確率有所提高。
關鍵詞:深度學習;神經(jīng)網(wǎng)絡;小分子結合能預測;計算機輔助藥物設計
中圖法分類號:TP391 文獻標識碼:A
1 引言
計算機輔助藥物設計已成為現(xiàn)代藥物研發(fā)的重要手段,其在藥物分子設計、活性預測、藥效優(yōu)化和副作用評估等方面的應用,將為藥物研發(fā)和臨床應用做出重要的貢獻[1] 。這種方法的引入不僅可以輔助研發(fā)藥物,甚至成為推動或決定藥物研發(fā)成敗的主要因素,這種方法改變了以往通過大量實驗篩選進行藥物研發(fā)的傳統(tǒng)模式。結合神經(jīng)網(wǎng)絡與計算機技術進行藥物研發(fā)已經(jīng)越來越普遍,北京大學、中國科學院上海藥物研究所、中國科學院長春應用化學研究所等高校和科研單位將人工神經(jīng)網(wǎng)絡法與分子模擬研究相結合[2~3] ,并將其直接用于指導實際的藥物合成,取得了很好的研究成果。
2 相關工作
本文主要研究預測小分子的結合能,在傳統(tǒng)的預測小分子結合能的方法基礎上加入深度學習的一些方法,通過卷積神經(jīng)網(wǎng)絡提取特征,使預測小分子結合能的準確率有所提高。在此研究過程中,使用了三維定量構效關系(3D?QSAR)的方法,所謂三維定量構效關系是引入了分子三維結構信息并結合物理化學中常用經(jīng)驗方法的數(shù)學方法[4~6] 。在此基礎上,利用卷積神經(jīng)網(wǎng)絡提取小分子的空間特征,小分子的空間特征主要包括小分子中原子的類型、原子的三維坐標,通過獲取這些空間信息進行特征提取并找到結合能與其之間的聯(lián)系,從而有利于提高預測小分子結合能的準確率。利用數(shù)學模型來擬合分子結構和分子活性之間的關系,使預測小分子活性值的準確率有所提高。
3 預測模型的網(wǎng)絡架構
3.1 卷積神經(jīng)網(wǎng)絡模型架構
3D Convolutional Neural Networks (3D?CNNs) 是一種用于處理三維數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡。3D?CNNs可以學習高級特征,并進行分類或回歸。
三維卷積神經(jīng)網(wǎng)絡(3D CNN)是在三維數(shù)據(jù)上進行卷積計算的神經(jīng)網(wǎng)絡模型,通常用于處理視頻、醫(yī)學影像等具有時間和空間信息的數(shù)據(jù)。其一般架構包括輸入層、卷積層、池化層、全連接層和輸出層。其中,卷積層用于提取輸入數(shù)據(jù)的特征,池化層用于對特征圖進行下采樣,降低數(shù)據(jù)維度,全連接層將池化后的特征圖轉(zhuǎn)化為一維向量,最后通過輸出層將向量映射為分類或回歸結果。
3.2 預測模型網(wǎng)絡架構
在對預測模型進行相關研究后,開始構建預測模型體系結構,如圖1 所示。
其中,總共使用了7 個卷積層和2 個密集層處理網(wǎng)格數(shù)據(jù),以生成嵌入特征。7 個三維卷積層卷積核的大小分別為128,256,512,1024,512,128 和256。模型輸出為復合物的結合自由能值。對于L3D?MLP 模型,添加了6 個額外的致密層(即MLP塊),其與生物活性數(shù)據(jù)相關,而在L3D?PLS 模型中,PLS 模型取代了MLP 塊來預測生物活性。對于這2 種模型,將pIC50 的平均標準誤差作為損失函數(shù),表達式為:
4 實驗數(shù)據(jù)
4.1 數(shù)據(jù)來源
通過爬取各種開源數(shù)據(jù)庫中的數(shù)據(jù)獲得各種不同靶點不同分子的數(shù)據(jù),并將其整理成需要的數(shù)據(jù)集,最終得到20 個不同靶點對應的2 000 多個分子的數(shù)據(jù),結果如表1 所列。
4.2 模型評估標準與實驗結果
在本模型中,使用相關系數(shù)R2 和交叉驗證Q2 評估了L3D?PLS 在30 個不同公開數(shù)據(jù)集上的性能。對于一組預測值(ypred )和參考值(yref ),其計算公式為:
R2 的取值范圍在0~1,其中R2 =1 說明預測值完全解釋了實際值的變化,模型預測效果最佳。R2 = 0則表示預測值完全無法解釋實際值的變化,模型預測效果最差。我們比較了PyCoMFA,L3D?MLP 和L3D?PLS 3 種QSAR 模型的性能。在20 個測試集上的R2結果如表2 所列。L3D?PLS 在10 個數(shù)據(jù)集中表現(xiàn)最好,PyCoMFA 和L3D?MLP 分別在7 個和3 個數(shù)據(jù)集上表現(xiàn)最好。與單獨在這20 個基準測試上的PyCoMFA 模型相比,L3D?MLP 和L3D?PLS 在10 個和12 個數(shù)據(jù)集上顯示出優(yōu)越的性能。
5 結束語
CoMFA 是一種力場與藥物分子活性定量相關的方法,通過CoMFA,科研可以預測配體的性質(zhì),并利用其建立定量模型來設計新的化合物、預測化合物的活性,以及藥物化學家可以指導配體的設計,這也是CoMFA 的一個主要功能。目前,L3D?PLS 模型雖然可以得到更好的預測pic50 的結果,但目前仍無法實現(xiàn)。在未來的工作中,我們將探索該模型的更多應用來實現(xiàn)這一目標,同時將嘗試將深度學習方法與傳統(tǒng)方法相結合,以創(chuàng)建更好的算法來解決這些問題。
參考文獻:
[1] 呂婷婷,禹文韜,張慧琳.面向抗乳腺癌候選藥物拮抗雌激素受體α 生物活性的定量構效關系模型構建[J].中南藥學,2022,20(11):2542?2548.
[2] 田淇,李耀旺,李博.活性肽定量構效關系建模過程中1 種肽段長度不等的表征方法的建立[J]. 中國食品學報,2021,21(4):28?38.
[3] 馬瑤,智敏,殷雁君,等.CNN 和Transformer 在細粒度圖像識別中的應用綜述[J].計算機工程與應用,2022,58(19):53?63.
[4] 鈕嘉銘,楊宇.基于CNN 的人群計數(shù)與密度估計研究綜述[J].軟件導刊,2021,20(8):247?252.
[5] 陳芳,王建龍,陳麗珍,等.ε?CL?20/ F_(2311)PBXs 力學性能和結合能的分子動力學模擬[J].原子與分子物理學報,2015,32(3):360?365.
[6] 劉達山,劉潞琦,張光馳,等.基于深度學習的Attention 機制文獻綜述[J].信息技術與信息化,2023(1):189?194.
作者簡介:
霍旭祥(1998—),碩士,研究方向:計算化學。
徐峻(1958—),教授,研究方向:中藥藥效組學、醫(yī)藥化學、藥物設計、化學信息學、多變量統(tǒng)計分析、化學結構圖論算法、化學結構專利文獻檢索引擎、蛋白質(zhì)NMR 結構解析和模擬。