黃芳,楊紅飛*,朱迅
(1. 杭州費(fèi)爾斯通科技有限公司,浙江 杭州 310051;2. 吉林大學(xué)基礎(chǔ)醫(yī)學(xué)院,吉林 長(zhǎng)春 130021)
眾所周知,一款新藥從研發(fā)到上市平均需要花費(fèi)10年以上的時(shí)間以及投入高昂的資金,然而僅有10%的新藥能被批準(zhǔn)進(jìn)入臨床研究,最終只有更小比例的藥物分子獲批上市。曾有投資人將新藥“從實(shí)驗(yàn)室進(jìn)入臨床試驗(yàn)階段”形容為“死亡之谷”。
人工智能(artificial intelligence,AI)現(xiàn)在還處于起步階段。AI起初被大規(guī)模應(yīng)用于醫(yī)療影像,然后逐漸滲透到藥物研發(fā)領(lǐng)域。近年來,越來越多的AI企業(yè)投資AI+新藥研發(fā)賽道,以及海外人才的回歸,給中國AI+新藥研發(fā)注入一股新力量。從醫(yī)療領(lǐng)域全景來看,AI尚未介入很多細(xì)分領(lǐng)域,還需要更長(zhǎng)的時(shí)間、更系統(tǒng)化的解決方案。要實(shí)現(xiàn)AI在醫(yī)療領(lǐng)域的全面落地,需要不斷優(yōu)化升級(jí)AI系統(tǒng),提升AI的智能化和個(gè)性化。雖然AI在醫(yī)療健康領(lǐng)域處于起步階段,但普及到各細(xì)分領(lǐng)域的潛力巨大。
AI能夠?qū)崿F(xiàn)在生物醫(yī)藥產(chǎn)業(yè)自上游到下游的投入使用,且虛擬篩選、靶點(diǎn)發(fā)現(xiàn)等部分應(yīng)用場(chǎng)景已經(jīng)能夠?yàn)槠髽I(yè)帶來實(shí)際收益。新型冠狀病毒肺炎(COVID-19)疫情發(fā)生后,越來越多的生物醫(yī)藥企業(yè)和研究機(jī)構(gòu)通過將其業(yè)務(wù)與AI結(jié)合來完成創(chuàng)新突破,在新藥開發(fā)、生產(chǎn)運(yùn)營,甚至商業(yè)戰(zhàn)略中都有所應(yīng)用。AI技術(shù)在生物醫(yī)藥領(lǐng)域中的應(yīng)用涉及藥物研發(fā)、醫(yī)學(xué)影像、輔助治療、基因治療等方面,藥物研發(fā)在全球醫(yī)療AI市場(chǎng)中的份額最大,占比達(dá)到35%。靶點(diǎn)發(fā)現(xiàn)與篩選成為AI+新藥發(fā)現(xiàn)中最為熱門的應(yīng)用領(lǐng)域,AI通過深度學(xué)習(xí)技術(shù)快速發(fā)現(xiàn)藥物與疾病,以及疾病與基因間的連接關(guān)系,進(jìn)而縮短靶點(diǎn)發(fā)現(xiàn)周期。在化合物合成方面,AI可通過模擬小分子化合物的藥物特性,在較短時(shí)間內(nèi)挑選出最佳模擬化合物進(jìn)行合成試驗(yàn),大幅提高化學(xué)合成路線設(shè)計(jì)速度,以降低操作成本。
目前,AI算法模型被諸多學(xué)者提出,隨著藥物研發(fā)數(shù)據(jù)的高速累積和數(shù)字化轉(zhuǎn)型,以及AI技術(shù)的加速發(fā)展,決策樹(DT)、隨機(jī)森林(RF)和支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)模型以及深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(FNN)等深度學(xué)習(xí)算法逐漸被應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域。本綜述主要介紹機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用進(jìn)展以及相關(guān)企業(yè)。
新藥研發(fā)是一個(gè)漫長(zhǎng)且高投入的過程,高通量篩選、藥物基因組學(xué)等技術(shù)加速了藥物開發(fā),引領(lǐng)其步入大數(shù)據(jù)時(shí)代,藥物發(fā)現(xiàn)大數(shù)據(jù)可用“十個(gè)V”來描述,即:數(shù)量(volume)、速度(velocity)、品種(variety)、準(zhǔn)確性(veracity)、有效性(validity)、詞 匯(vocabulary)、場(chǎng) 合(venue)、可 視 化(visualization)、波動(dòng)性(volatility)以及價(jià)值(value)[1]?;跀?shù)據(jù)庫在藥物發(fā)現(xiàn)不同階段的應(yīng)用和相關(guān)性,可將其分為6類:1)全面化學(xué)分子庫,如Enamine、PubChem和ChEMBL;2)藥物/類藥化合物庫,如DrugBank、AICD和e-Drug3D;3)收集藥物靶標(biāo),包括基因組學(xué)和蛋白組學(xué)數(shù)據(jù)的數(shù)據(jù)庫,如BindingDB、Supertarget和Ligand Expo;4)存儲(chǔ)通過篩選、代謝和功效研究獲得的生物學(xué)數(shù)據(jù)的數(shù)據(jù)庫,如HMDB、TTD、WOMBAT和PKPB_DB;5)藥物毒性數(shù)據(jù)庫,如DrugMatrix、SIDER和LTKB基準(zhǔn)數(shù)據(jù)集;6)臨床數(shù)據(jù)庫,如ClinicalTrials.gov、EORTC和PharmaGKB[1]。
AI領(lǐng)域中的自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜、計(jì)算機(jī)視覺等相關(guān)技術(shù),有助于解決藥物研發(fā)領(lǐng)域的痛點(diǎn)。這些技術(shù)、算法模型在蛋白結(jié)構(gòu)及蛋白-配體相互作用預(yù)測(cè)、藥物靶點(diǎn)發(fā)現(xiàn)、活性化合物篩選等新藥發(fā)現(xiàn)環(huán)節(jié)均已得到廣泛應(yīng)用[2–6]。各環(huán)節(jié)常用的AI方法詳見圖1。
圖1 新藥發(fā)現(xiàn)各環(huán)節(jié)常用的人工智能技術(shù)Figure 1 Artificial intelligence techniques used in all aspects of new drug discovery
靶點(diǎn)是新藥研發(fā)的基礎(chǔ)。當(dāng)前,藥物研究的競(jìng)爭(zhēng)主要集中體現(xiàn)在藥物靶點(diǎn)研究上,早期藥物靶點(diǎn)確定對(duì)研發(fā)項(xiàng)目成功至關(guān)重要。
DT算法是一種常用的機(jī)器學(xué)習(xí)算法,具有條理清晰、程序嚴(yán)謹(jǐn)、定量與定性分析相結(jié)合、方法簡(jiǎn)單、易于掌握、應(yīng)用性強(qiáng)、適用范圍廣等優(yōu)點(diǎn)。RF算法是一種基于Bagging的集成學(xué)習(xí)方法,可處理分類、回歸等問題,RF分類器通過將許多DT結(jié)合來提升分類的正確率。目前,DT、RF分類器可用于預(yù)測(cè)藥物靶點(diǎn),Costa等[7]構(gòu)建了一個(gè)基于DT的分類器,通過該分類器預(yù)測(cè)與疾病相關(guān)的基因,最后發(fā)現(xiàn)了多種轉(zhuǎn)錄因子在代謝通路和細(xì)胞外定位中的調(diào)控作用。Kumari等[8]通過自助法采樣提升了RF算法的穩(wěn)定性,成功從潛在靶點(diǎn)中篩選出最有可能獲得成功并應(yīng)用于臨床的靶點(diǎn)。Zeng等[9]開發(fā)了deepDTnet深度學(xué)習(xí)方法,該系統(tǒng)嵌入了15種類型的網(wǎng)絡(luò),包括化學(xué)、基因組、表型和細(xì)胞網(wǎng)絡(luò),可以將最大的生物醫(yī)學(xué)網(wǎng)絡(luò)數(shù)據(jù)集成在一起,通過異構(gòu)網(wǎng)絡(luò)中的深度學(xué)習(xí)對(duì)已知藥物進(jìn)行靶標(biāo)識(shí)別,以加速藥物的重新利用、減少藥物開發(fā)中的障礙。Madhukar等[10]提出BANDIT(Bayesian ANalysis to determine Drug Interaction Targets)可以準(zhǔn)確預(yù)測(cè)藥物與特定靶標(biāo)的相互作用,不僅可用于識(shí)別多種多樣的小分子的特定靶標(biāo),而且可用于區(qū)分同一靶標(biāo)上的不同作用模式。
機(jī)器學(xué)習(xí)還可以預(yù)測(cè)腫瘤對(duì)藥物的反應(yīng)。Iorio等[11]研究了全基因組基因表達(dá)、DNA甲基化、基因拷貝數(shù)和體細(xì)胞突變數(shù)據(jù)對(duì)藥物反應(yīng)的影響。該研究組通過3種不同的分析框架,即方差分析、邏輯模型和機(jī)器學(xué)習(xí)算法(彈性網(wǎng)絡(luò)回歸和RF)來定義“癌癥功能事件”(cancer functional event,CFE)對(duì)藥物敏感性預(yù)測(cè)的貢獻(xiàn)。Iorio等的研究成果可幫助新藥研發(fā)工作者更好地利用腫瘤細(xì)胞系來了解哪些藥物將為哪些患者提供最有效的治療。
化合物篩選是指通過規(guī)范化的實(shí)驗(yàn)手段,從大量化合物中選擇對(duì)某一特定靶點(diǎn)具有較高活性的化合物的過程,該過程需要較長(zhǎng)的時(shí)間和成本。AI可以通過對(duì)現(xiàn)有化合物數(shù)據(jù)庫信息的整合和數(shù)據(jù)提取、機(jī)器學(xué)習(xí),提取與化合物毒性、有效性相關(guān)的關(guān)鍵信息,從而大幅提高篩選的成功率,降低研發(fā)成本和工作量。
李瑾[12]利用化合物活性分類方法ENS-VS構(gòu)建蛋白質(zhì)和配體親和力模型ComplexNet,用于預(yù)測(cè)初步篩選出的小分子與靶標(biāo)蛋白的結(jié)合強(qiáng)度,進(jìn)行精細(xì)篩選。篩選過程分3步:首先,通過集成SVM、樸素貝葉斯及DT這3種分類算法將蛋白質(zhì)-配體相互作用特征和配體結(jié)構(gòu)進(jìn)行特征融合,解決活性化合物與非活性化合物樣本數(shù)量嚴(yán)重不平衡的問題以及提高靶標(biāo)蛋白的適用性、穩(wěn)定性;其次,通過Spark大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)ENS-VS方法的并行加速,提高活性化合物篩選的執(zhí)行效率;最后,基于DUD-E標(biāo)準(zhǔn)數(shù)據(jù)庫針對(duì)靶標(biāo)已知的活性化合物數(shù)量和是否出現(xiàn)新的靶標(biāo)蛋白特性分別構(gòu)建蛋白家族特異性模型、靶標(biāo)特異性模型與通用模型。實(shí)驗(yàn)結(jié)果表明,ENS-VS方法能有效提高活性化合物篩選的命中率,并且可與任意分子對(duì)接程序聯(lián)合使用,對(duì)提高基于結(jié)構(gòu)的虛擬篩選方法的成功率具有極其重要的意義。Wu等[13]利用生物信息學(xué)和結(jié)構(gòu)基因組學(xué)的方法系統(tǒng)分析了新型冠狀病毒(SARS-CoV-2)基因編碼的蛋白,將其作為主要或潛在的藥物治療靶點(diǎn),并將SARS-CoV-2基因序列與SARS-CoV和MARS-CoV等冠狀病毒進(jìn)行了比對(duì),通過AI計(jì)算機(jī)虛擬篩選方法發(fā)現(xiàn)一些具有抗病毒、抗菌和抗炎作用的臨床藥物和天然產(chǎn)物對(duì)上述靶蛋白表現(xiàn)出較高的親和力,為COVID-19的治療提供了新的可能。SVM分類模型能夠處理小數(shù)據(jù)集中的高維變量,還可以處理分類和回歸問題,其分類效果強(qiáng)于DT與RF這2種機(jī)器學(xué)習(xí)方法。Poorinmohammad等[14]通過建立SVM分類模型對(duì)人類免疫缺陷病毒(HIV)多肽進(jìn)行分類,預(yù)測(cè)準(zhǔn)確率達(dá)到96.76%。SVM用MATLAB編寫的svm源程序可以實(shí)現(xiàn)SVM分類或提取,用于化合物庫的虛擬篩選,有學(xué)者通過組合SVM和分子對(duì)接方法自動(dòng)篩選化合物庫,顯著提高了活性化合物的命中率和富集因子,節(jié)省了計(jì)算資源[15]。
細(xì)胞活力測(cè)定、細(xì)胞信號(hào)通路分析和疾病相關(guān)表型分析這3種基于細(xì)胞表型的方法常被用于篩選先導(dǎo)化合物。結(jié)合了AI技術(shù)的表型篩選更加高效,適用于更為復(fù)雜的病理生理過程,且能在細(xì)胞水平利用表型改變來篩選新化合物[16]。SVM、RF或貝葉斯等機(jī)器學(xué)習(xí)技術(shù)已被成功應(yīng)用于藥物發(fā)現(xiàn)階段的化合物篩選環(huán)節(jié)。Cyclica開發(fā)了名為“Ligand Express”的云端蛋白質(zhì)組學(xué)篩選平臺(tái)[17],該平臺(tái)使用生物信息學(xué)和系統(tǒng)生物學(xué)技術(shù)將藥物與蛋白的互動(dòng)關(guān)系呈現(xiàn)為圖像,利用AI對(duì)小分子化合物進(jìn)行全面評(píng)估,幫助改善藥物活性、預(yù)防藥物副作用,以及發(fā)現(xiàn)能與小分子化合物結(jié)合的新靶點(diǎn),制藥科學(xué)家正在積極利用該平臺(tái)探索藥物發(fā)現(xiàn)新領(lǐng)域。SVM和樸素貝葉斯模型已成功應(yīng)用于哺乳動(dòng)物雷帕霉素靶蛋白(mTOR)抑制劑的虛擬篩選。Narain等[18]通過AI貝葉斯神經(jīng)網(wǎng)絡(luò)推斷方法分析轉(zhuǎn)移性前列腺癌(PC-3)細(xì)胞蛋白質(zhì)組數(shù)據(jù),生成每個(gè)特定因子的獨(dú)特概率模型,再根據(jù)功能變量子網(wǎng)的Burt約束度量排名找到潛在的前列腺癌生物標(biāo)志物Filamin-A和Filamin-B等。中國科學(xué)院上海生命科學(xué)研究院陳洛南教授團(tuán)隊(duì)利用AI克服了區(qū)分疾病樣本和正常樣本的分子生物標(biāo)志物覆蓋率低和假陽性率高的問題,確定了基于多維數(shù)據(jù)復(fù)雜疾病的網(wǎng)絡(luò)標(biāo)志物及動(dòng)態(tài)網(wǎng)絡(luò)標(biāo)志物篩選方法[19–20]。
預(yù)測(cè)藥物的吸收、分布、代謝、排泄和毒性(ADMET)是藥物設(shè)計(jì)和藥物篩選中十分重要的方法。過去,藥物ADMET性質(zhì)研究以體外研究技術(shù)與計(jì)算機(jī)模擬等方法相結(jié)合,研究藥物在機(jī)體內(nèi)的動(dòng)力學(xué)表現(xiàn)。目前市場(chǎng)上有數(shù)十種計(jì)算機(jī)模擬軟件,包括ADMET Predicator、MOE、Discovery Studio和Shrodinger等,該類軟件現(xiàn)已在國內(nèi)外的藥品監(jiān)管部門、企業(yè)[如晶泰科技(XtalPi)、Numerate等]和科研院所得到了廣泛應(yīng)用。為了進(jìn)一步提升ADMET性質(zhì)預(yù)測(cè)的準(zhǔn)確度,已有生物科技企業(yè)探索通過DNN算法有效提取結(jié)構(gòu)特征,加速藥物的早期發(fā)現(xiàn)和篩選過程。例如晶泰科技通過應(yīng)用AI高效地動(dòng)態(tài)配置藥物晶型,完整地預(yù)測(cè)一個(gè)小分子藥物所有可能的晶型,大大縮短了晶型開發(fā)周期,更有效地挑選出合適的藥物晶型,減少了研發(fā)成本[21]。普林斯頓大學(xué)化學(xué)系的Abigail G. Doyle教授與默克公司的研究人員合作,利用RF算法對(duì)氨基化反應(yīng)條件進(jìn)行優(yōu)化,準(zhǔn)確預(yù)測(cè)具有多維變量的Buchwald-Hartwig偶聯(lián)反應(yīng)收率,結(jié)果表明,RF算法可以利用高通量實(shí)驗(yàn)獲得的數(shù)據(jù)來預(yù)測(cè)多維化學(xué)空間中合成反應(yīng)的性能和化學(xué)反應(yīng)收率,該機(jī)器學(xué)習(xí)算法模型將會(huì)在藥物發(fā)現(xiàn)領(lǐng)域被廣泛應(yīng)用[22]。
嚴(yán)重藥物不良反應(yīng)是新藥開發(fā)過程中導(dǎo)致失敗的關(guān)鍵因素。王昊[23]通過構(gòu)建貝葉斯網(wǎng)絡(luò)預(yù)測(cè)模型進(jìn)行藥物不良反應(yīng)的預(yù)測(cè),結(jié)果發(fā)現(xiàn)該模型對(duì)導(dǎo)致呼吸困難發(fā)生頻率在1%以上藥物的預(yù)測(cè)準(zhǔn)確率可以達(dá)到86.76%,機(jī)器學(xué)習(xí)模型能夠作為有效工具在藥物發(fā)現(xiàn)階段對(duì)其進(jìn)行安全性評(píng)估。毒性是新藥研發(fā)的一項(xiàng)重要指標(biāo),在藥物發(fā)現(xiàn)階段排除毒性大的化合物對(duì)于新藥研發(fā)相當(dāng)有利。Goh等[24]構(gòu)建了CNN毒性評(píng)估模型,將其用于預(yù)測(cè)分子的各種性質(zhì)如毒性、活性和溶解性等,與多層感知機(jī)深度神經(jīng)網(wǎng)絡(luò)(MLPDNN)相比,發(fā)現(xiàn)CNN在活性與溶解度的預(yù)測(cè)方面表現(xiàn)更優(yōu)異。
靶點(diǎn)發(fā)現(xiàn)是新藥研發(fā)的關(guān)鍵,而蛋白質(zhì)功能分類研究有助于深入理解靶點(diǎn)蛋白特征,是解決藥物靶點(diǎn)發(fā)現(xiàn)難點(diǎn)的有效途徑。隨著AI、大數(shù)據(jù)等技術(shù)的迅速發(fā)展,蛋白質(zhì)功能預(yù)測(cè)已成為蛋白質(zhì)功能注釋的重要手段,也成為藥物靶點(diǎn)發(fā)現(xiàn)領(lǐng)域的前沿問題[25]。序列同源性比對(duì)、CNN等多種計(jì)算方法被應(yīng)用于蛋白質(zhì)功能預(yù)測(cè)研究,方法論是同源蛋白具有相似功能[26]。
谷歌DeepMind團(tuán)隊(duì)開發(fā)出的AI產(chǎn)品Alpha-Fold2,可根據(jù)氨基酸序列準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),預(yù)測(cè)結(jié)果已接近實(shí)驗(yàn)數(shù)據(jù)的水平,且預(yù)測(cè)的準(zhǔn)確度可與冷凍電子顯微鏡(cryo-EM)、核磁共振或X射線晶體學(xué)等實(shí)驗(yàn)技術(shù)媲美[27]。谷歌DeepMind開發(fā)的AlphaFold[28]深度學(xué)習(xí)系統(tǒng)可以快速預(yù)測(cè)SARS-CoV-2的蛋白質(zhì)結(jié)構(gòu),為COVID-19疫苗設(shè)計(jì)提供有價(jià)值的信息,而使用傳統(tǒng)的實(shí)驗(yàn)方法獲得蛋白質(zhì)結(jié)構(gòu)可能需要數(shù)月時(shí)間[29]。洪嘉俊[30]通過基于CNN的蛋白質(zhì)二進(jìn)制編碼表示策略構(gòu)建了蛋白質(zhì)功能預(yù)測(cè)模型,結(jié)果表明,CNN預(yù)測(cè)GO家族蛋白的準(zhǔn)確率在66% ~ 98%之間,顯著高于SVM、概率神經(jīng)網(wǎng)絡(luò)(PNN)和KNN這3種機(jī)器學(xué)習(xí)方法,表明CNN模型在真實(shí)世界中具有很好的假陽性控制率。由于目前的細(xì)菌Ⅳ型分泌系統(tǒng)效應(yīng)蛋白(T4SE)預(yù)測(cè)方法存在假陽性率高等缺點(diǎn),洪嘉俊針對(duì)T4SE和非T4SE數(shù)據(jù)特征分別建立了T4SE的CNN預(yù)測(cè)模型,通過采用與Bastion4方法完全相同的建模數(shù)據(jù)集進(jìn)行評(píng)估,基于蛋白質(zhì)二級(jí)結(jié)構(gòu)特征、位置特異性評(píng)分矩陣和序列One-hot編碼技術(shù)這3種方式建立的模型預(yù)測(cè)準(zhǔn)確率分別為95.6%、98.9%和96.7%,效果顯著高于Bastion4,表明CNN模型可以用于T4SE的注釋,且可以很好地控制假陽性率。
DNN在蛋白結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-配體相互作用預(yù)測(cè)方面也有應(yīng)用。AlphaFold利用高效訓(xùn)練的DNN從主序列中預(yù)測(cè)蛋白質(zhì)的性質(zhì),通過DNN預(yù)測(cè)氨基酸對(duì)之間的距離和相鄰肽鍵之間的φ - ψ角,探索蛋白質(zhì)結(jié)構(gòu)的微觀結(jié)構(gòu),以找到與預(yù)測(cè)相匹配的結(jié)構(gòu)[31]。Ragoza等[32]使用CNN對(duì)蛋白配體復(fù)合物構(gòu)建打分函數(shù),通過打分函數(shù)評(píng)價(jià)蛋白-配體相互作用,該打分函數(shù)在蛋白-配體預(yù)測(cè)和虛擬篩選中的打分表現(xiàn)比AutoDock Vina更好,但是也存在實(shí)際計(jì)算的結(jié)果可能會(huì)遠(yuǎn)大于實(shí)驗(yàn)觀察值的偏差問題,因此CNN在該方面的應(yīng)用還有一定的改進(jìn)空間。劉桂霞等[33]基于DNN構(gòu)建蛋白質(zhì)相互作用預(yù)測(cè)框架,預(yù)測(cè)框架在釀酒酵母蛋白質(zhì)數(shù)據(jù)集上的準(zhǔn)確率達(dá)到95.67%,精確度達(dá)到96.38%,該預(yù)測(cè)框架可以解決較高假陽性率和假陰性率的問題,整合蛋白質(zhì)特征數(shù)據(jù);張麗娜[34]提出基于多源特征的提取策略,利用集成學(xué)習(xí)方法構(gòu)建蛋白質(zhì)-配體相互作用預(yù)測(cè)模型,該方法的敏感性和Youden指數(shù)均優(yōu)于單分類器預(yù)測(cè)模型,可以有效解決數(shù)據(jù)不平衡問題。Cunningham等[35]基于6個(gè)常見的球形蛋白結(jié)合域(PBD)家族構(gòu)建了HSM模型,其能準(zhǔn)確預(yù)測(cè)跨多個(gè)蛋白質(zhì)家族的PBD-肽相互作用的親和力,HSM具有較高的靈活性,適用于在疾病中對(duì)突變的PBD和肽進(jìn)行建模,以及基于肽的藥物的設(shè)計(jì)。
AI可以通過對(duì)海量化合物或藥物分子的學(xué)習(xí)獲得化合物分子結(jié)構(gòu)和成藥性方面的規(guī)律,再根據(jù)規(guī)律生成很多自然界從未存在過的化合物,將其作為候選藥物分子,有效構(gòu)建擁有一定規(guī)模且高質(zhì)量的分子庫。高質(zhì)量的小分子庫是藥物研發(fā)人員一直關(guān)注的問題,研究者們利用深度學(xué)習(xí)技術(shù)設(shè)計(jì)了變分自動(dòng)編碼器(VAE)、生成對(duì)抗網(wǎng)絡(luò)(GAN)、自回歸模型(如PixelRNN和PixelCNN)等不同的分子生成模型。
Yang等[36]提出基于分子片段的AI分子設(shè)計(jì)新算法,該算法模型是基于帶約束的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)SyntaLinker,可以快速自動(dòng)生成滿足特定鏈接段約束條件的大量新穎的分子結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)SyntaLinker由多個(gè)注意力機(jī)制(attention)模塊構(gòu)成,SyntaLinker利用其編碼層和解碼層對(duì)輸入的分子片段結(jié)構(gòu)序列進(jìn)行處理,將分子片段自動(dòng)連接起來,且結(jié)合約束信息,填充鏈接段,從而生成一個(gè)完整的分子。未來這種基于片段連接的分子設(shè)計(jì)算法能被用于實(shí)際的藥物開發(fā)項(xiàng)目中,為藥物化學(xué)家提供更多具有啟發(fā)性的化學(xué)結(jié)構(gòu)。曲晉慷[37]對(duì)新型藥物設(shè)計(jì)方法進(jìn)行創(chuàng)新,提出通過深度分子生成模型DGMM、深度遷移分子生成模型 T-DGMM、深度強(qiáng)化分子生成模型 R-DGMM這3種模型生成潛在抗HIV活性分子,以擴(kuò)增潛在抗HIV活性分子庫。DGMM基 于 MLSTM、SRU、QRNN這3種 循 環(huán)單元進(jìn)行構(gòu)造可以生成結(jié)構(gòu)有效、新穎且性質(zhì)無偏的分子;T-DGMM通過搭建抗HIV活性預(yù)測(cè)模型 AAPM可以生成潛在抗HIV活性分子,擴(kuò)增潛在抗HIV活性分子庫;R-DGMM采用基于策略梯度的強(qiáng)化學(xué)習(xí)方法REINFORCE搭建模型,生成抗HIV藥物利匹韋林的相似物,適用于潛在抗HIV活性分子庫擴(kuò)增。譚小芹[38]基于循環(huán)神經(jīng)網(wǎng)絡(luò)建立了分子生成模型,進(jìn)行多靶點(diǎn)GPCR分子庫的自動(dòng)設(shè)計(jì),再對(duì)生成的分子進(jìn)行活性、可合成性、類藥性等多方面評(píng)估過濾,最終得到了具有潛在治療精神疾病活性的候選化合物。同時(shí),基于序列到序列(Seq2Seq)模型建立分子生成模型,該模型可以生成一個(gè)基于骨架的虛擬分子庫,然后通過激酶譜預(yù)測(cè)模型對(duì)分子庫進(jìn)行虛擬篩選,最終篩選得到可抑制細(xì)胞中促炎因子的表達(dá)和盤狀結(jié)構(gòu)域受體家族成員 1(DDR1)自磷酸化的化合物。
在分子設(shè)計(jì)領(lǐng)域,生成模型還處于起步階段,其面臨著以下挑戰(zhàn):1)如何提高模型的泛化能力;2)如何提高對(duì)真實(shí)數(shù)據(jù)進(jìn)行推斷的能力;3)如何提高生成新分子的能力。此外,分子生成模型的性能難以評(píng)估。如何建立基準(zhǔn)以便于量化比較模型性能,而非通過預(yù)測(cè)分子溶解度或藥物相似性等方法進(jìn)行比較仍充滿挑戰(zhàn)[39]。
伴隨AI技術(shù)的迅猛發(fā)展,新藥研發(fā)工作者希望通過AI技術(shù)解決醫(yī)藥行業(yè)痛點(diǎn),包括降低藥物的研發(fā)成本、縮短其研發(fā)周期、控制新藥研發(fā)風(fēng)險(xiǎn),在此基礎(chǔ)上,一批AI企業(yè)相繼出現(xiàn)。
國內(nèi)外多家AI企業(yè)與藥企開啟了深度戰(zhàn)略合作模式,利用其自主設(shè)計(jì)的人工智能技術(shù)平臺(tái)助力制藥企業(yè)進(jìn)行新藥研發(fā)(見表1)。
表1 人工智能企業(yè)與制藥企業(yè)在新藥研發(fā)領(lǐng)域的戰(zhàn)略合作Table 1 Strategic cooperation between artificial intelligence enterprises and drug manufacturers in the field of new drug research and development
基于AI技術(shù)的藥物設(shè)計(jì)公司Atomwise擁有的AtomNet?是第一虛擬藥物發(fā)現(xiàn)平臺(tái),其核心技術(shù)是CNN。Atomwise已與多家制藥公司開展約1 000個(gè)項(xiàng)目,主要包括腫瘤、傳染病、神經(jīng)系統(tǒng)疾病、心血管疾病、免疫性疾病、內(nèi)分泌系統(tǒng)疾病、COVID-19等領(lǐng)域的藥物研究。
晶泰科技以AI、量子物理、量子化學(xué)及云計(jì)算為核心,推動(dòng)AI賦能的數(shù)字化藥物研發(fā)新基建,為創(chuàng)新藥研發(fā)增效提速。晶泰科技AI藥物發(fā)現(xiàn)平臺(tái),在分子生成、虛擬篩選、高精度活性預(yù)測(cè)等AI+藥物發(fā)現(xiàn)的關(guān)鍵環(huán)節(jié)具有獨(dú)到的技術(shù)優(yōu)勢(shì),能實(shí)現(xiàn)超大型化學(xué)空間的探索,百萬級(jí)的新分子結(jié)構(gòu)生成及全面、綜合的成藥性、活性、ADMET等性質(zhì)的評(píng)估,完成高質(zhì)量的先導(dǎo)化合物開發(fā)和臨床前候選化合物開發(fā)。
伴隨藥物研發(fā)數(shù)據(jù)的高速累積和藥企數(shù)字化轉(zhuǎn)型,以及AI技術(shù)的加速發(fā)展,AI在新藥發(fā)現(xiàn)的應(yīng)用日益增多,其優(yōu)勢(shì)也得到突出體現(xiàn)?;ヂ?lián)網(wǎng)數(shù)據(jù)資訊網(wǎng)(BCC)數(shù)據(jù)顯示,AI在醫(yī)療健康產(chǎn)業(yè)所有應(yīng)用場(chǎng)景中,新藥發(fā)現(xiàn)的市場(chǎng)規(guī)模與增長(zhǎng)速度均占據(jù)第一位,預(yù)計(jì)2024年市場(chǎng)規(guī)模將達(dá)到31.17億美元,年均復(fù)合增長(zhǎng)率(CAGR)為40.7%;根據(jù)大觀研究(Grand View Research)的最新報(bào)告,到2027年,全球AI+藥物發(fā)現(xiàn)的市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到35億美元,CAGR為28.8%(見圖2)。
圖2 人工智能在新藥發(fā)現(xiàn)領(lǐng)域的市場(chǎng)規(guī)模Figure 2 Market size of artificial intelligence in new drug discovery
火石數(shù)據(jù)庫資料顯示,國內(nèi)從事AI+藥物發(fā)現(xiàn)的企業(yè)有晶泰科技、深度智藥、云勢(shì)軟件、望石智慧等,主要分布在北京(7家)、上海(4家)、杭州(2家)和深圳(2家)等地(見表2);但總數(shù)較少,不足20家。
表2 國內(nèi)主要從事AI+藥物發(fā)現(xiàn)的公司及其業(yè)務(wù)布局Table 2 Major domestic companies applying artificial intelligence in drug discovery and their business layout
2015—2020年,我國藥物發(fā)現(xiàn)CRO市場(chǎng)CAGR達(dá)到28.2%,2020年市場(chǎng)規(guī)模約為131.5億元;預(yù)計(jì)未來5年,創(chuàng)新藥研發(fā)速度不斷加快,我國藥物發(fā)現(xiàn)CRO市場(chǎng)仍將保持快速增長(zhǎng)態(tài)勢(shì),到2025年市場(chǎng)規(guī)模將達(dá)到385.2億元。
受DNN或遞歸神經(jīng)網(wǎng)絡(luò)(RNN)技術(shù)快速發(fā)展的影響,AI技術(shù)在藥物靶點(diǎn)發(fā)現(xiàn)、化合物合成、化合物篩選、晶型預(yù)測(cè)、藥理作用評(píng)估、藥物重定向、新適應(yīng)證開發(fā)等多個(gè)場(chǎng)景中應(yīng)用廣泛,應(yīng)用優(yōu)勢(shì)也愈加凸顯。TechEmergence研究報(bào)告顯示,AI可以將新藥研發(fā)的成功率從12%提高到14%。此外,AI在化合物合成和篩選方面可節(jié)約40% ~ 50%的時(shí)間,每年為制藥行業(yè)節(jié)約260億美元的化合物篩選成本[40]?;诖?,藥物研發(fā)領(lǐng)域數(shù)字化轉(zhuǎn)型加速,各大制藥公司都在迫切尋找能夠縮短新藥研發(fā)周期、有效提高研發(fā)成功率、開發(fā)有競(jìng)爭(zhēng)力的創(chuàng)新藥物的解決方案。
AI在新藥研發(fā)中的應(yīng)用面臨政策瓶頸、人才匱乏、技術(shù)壁壘、數(shù)據(jù)質(zhì)量不確定等方面的挑戰(zhàn)。第一,從政策瓶頸來看,新技術(shù)的引進(jìn)改變?cè)兴幬镅邪l(fā)模式,而現(xiàn)在尚無針對(duì)性的政策指南出臺(tái)。第二,從人才壁壘來看,高端復(fù)合型人才缺失較嚴(yán)重,限制創(chuàng)新發(fā)展。未來需要國家出臺(tái)相關(guān)人才政策,培養(yǎng)復(fù)合型高端人才。第三,從技術(shù)壁壘來看,自然語言、知識(shí)圖譜以及知識(shí)問答、分析決策和語義搜索等需要較大提升。第四,從數(shù)據(jù)質(zhì)量挑戰(zhàn)性來看,AI模型基于數(shù)據(jù)學(xué)習(xí),數(shù)據(jù)學(xué)習(xí)導(dǎo)致了結(jié)果的不確定性,新藥研發(fā)系統(tǒng)工程加上AI雙系統(tǒng)的不確定性也會(huì)導(dǎo)致新藥研發(fā)結(jié)果的不確定性。近年來,出現(xiàn)了一些來源于臨床相關(guān)模型的高通量數(shù)據(jù),例如用于高通量測(cè)試的異質(zhì)細(xì)胞系統(tǒng)及其參數(shù)(3D細(xì)胞模型中的細(xì)胞間相互作用和滲透性)和患者衍生的測(cè)試系統(tǒng),這些系統(tǒng)產(chǎn)生的數(shù)據(jù)將來可能會(huì)對(duì)藥物發(fā)現(xiàn)產(chǎn)生重大影響;但當(dāng)前階段,可用于AI挖掘的數(shù)據(jù)仍相對(duì)較少,需要生成足夠大量的數(shù)據(jù)才能真正在上述系統(tǒng)里使用[41]。
盡管在多數(shù)情況下化學(xué)數(shù)據(jù)可大規(guī)模獲得并成功用于配體設(shè)計(jì)和合成,但這些數(shù)據(jù)并不能滿足AI藥物發(fā)現(xiàn)的需求,且大量可用于模型建立的測(cè)定數(shù)據(jù)(如小分子的各種體外物理化學(xué)性質(zhì))也并不能很好發(fā)揮作用。因此,未來需要更多的高質(zhì)量化合物數(shù)據(jù)進(jìn)行AI研究,包括化合物的體外活性/毒性指數(shù),以及正確劑量/藥代動(dòng)力學(xué)數(shù)據(jù)等。在后期階段,還需要化合物在動(dòng)物模型中的藥效和毒性數(shù)據(jù)。此外,我們還需要更有效地進(jìn)行臨床試驗(yàn),以獲得高質(zhì)量化合物臨床數(shù)據(jù)。
AI分析藥物在體內(nèi)活性時(shí)的數(shù)據(jù)非常有限,使得計(jì)算機(jī)不能很好地做出決策,主要影響因素有:第一,沒有一個(gè)可以比較的基準(zhǔn);第二,可選擇的化學(xué)結(jié)構(gòu)非常多;第三,在化學(xué)領(lǐng)域驗(yàn)證藥物的有效性非常難,實(shí)驗(yàn)中使用數(shù)據(jù)往往具有稀疏性和保密性的特性。
值得一提的是,大量描述化學(xué)特性的數(shù)據(jù)能夠使計(jì)算機(jī)生產(chǎn)相應(yīng)的配體,但配體發(fā)現(xiàn)不等于藥物發(fā)現(xiàn)。在未來,我們需要更多了解藥物的生物學(xué)特性,了解它們?cè)谌梭w內(nèi)的一系列反應(yīng)。此外,臨床成功率比時(shí)間和成本更重要,我們需要讓更多高質(zhì)量候選化合物進(jìn)入臨床,更好地驗(yàn)證靶點(diǎn),以及選擇合適的患者進(jìn)行臨床試驗(yàn),提高臨床成功率,從而生成有用的數(shù)據(jù),從本質(zhì)上推動(dòng)AI+藥物發(fā)現(xiàn)領(lǐng)域的進(jìn)展。