• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度學(xué)習(xí)在藥物研發(fā)中的研究進展

      2020-06-27 05:03:58廖俊徐潔潔皮志鵬竇智揚尚靖
      藥學(xué)進展 2020年5期
      關(guān)鍵詞:靶點蛋白質(zhì)預(yù)測

      廖俊,徐潔潔,皮志鵬,竇智揚,尚靖

      (1.中國藥科大學(xué)理學(xué)院,江蘇 南京211198;2.中國藥科大學(xué)中藥學(xué)院,江蘇 南京211198)

      藥物研發(fā)過程主要包括藥物靶點確定、先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化、候選藥物確定、臨床前研究和臨床研究[1]。整個藥物研發(fā)進程,就是在驗證某個靶點在人體中的生物學(xué)功能的過程。而藥物靶點的缺乏、動物模型臨床轉(zhuǎn)化差、疾病異質(zhì)性及生物系統(tǒng)內(nèi)在的復(fù)雜性等問題,使得藥物研發(fā)成為一個漫長而又艱難的過程。開發(fā)一種新型處方藥,平均稅前支出約為25.58億美元[2],大約需要10 ~ 15年。盡管投入成本高,但在藥物研發(fā)過程中創(chuàng)新小分子的臨床批準(zhǔn)成功率卻只有13%,失敗的風(fēng)險相對較高。早期藥物發(fā)現(xiàn)主要基于經(jīng)驗嘗試,化合物篩選以及偶然發(fā)現(xiàn)獲得。在現(xiàn)代藥物研發(fā)中,機器學(xué)習(xí)在定量結(jié)構(gòu)-活性關(guān)系(quantitative structure activity relationship,QSAR)模型[3]、定量結(jié)構(gòu)-性質(zhì)關(guān)系(quantitative structure property relationship,QSPR)模型[4]等方面發(fā)揮重要作用。不同于傳統(tǒng)的機器學(xué)習(xí)方法使用手動設(shè)計的特征,最新的深度學(xué)習(xí)(deep learning,DL)方法可以自動從輸入數(shù)據(jù)中學(xué)習(xí)特征,通過多層特征提取將低層特征轉(zhuǎn)換為高層特征。由于其強大的泛化和特征提取能力,將其應(yīng)用在藥物開發(fā)的不同環(huán)節(jié),包括蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測、藥物代謝動力學(xué)性質(zhì)預(yù)測、藥物有效性及安全性預(yù)測以及藥物相互作用預(yù)測等,顯示出巨大的前景。本綜述回顧了近幾年來DL在藥物研發(fā)中的應(yīng)用,并對當(dāng)前問題提出建議以及展望。

      1 深度學(xué)習(xí)與藥物研發(fā)數(shù)據(jù)

      DL的概念由Hinton等[5]于2006年提出,其概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。DL的結(jié)構(gòu)是一種含多隱層的多層感知器結(jié)構(gòu),其通過組合底層特征形成更加抽象的高層來表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。DL理論中包含了許多不同的深度神經(jīng)網(wǎng)絡(luò)模型,例如經(jīng)典的深層神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)、深層置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、深層玻爾茲曼機(deep boltzmann machines,DBM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等。不同結(jié)構(gòu)的網(wǎng)絡(luò)適用于處理不同的數(shù)據(jù)類型,例如CNN適用于圖像處理,RNN適用于語音識別等。同時,通過與不同算法的聯(lián)用這些網(wǎng)絡(luò)模型還會產(chǎn)生一些不同的變種。

      目前正處在醫(yī)藥產(chǎn)業(yè)發(fā)展的關(guān)鍵節(jié)點,由于新藥物靶點和作用機制的發(fā)現(xiàn)越來越難,新藥研發(fā)需要投入更多的資金和精力。提升研發(fā)效率和深度挖掘已有數(shù)據(jù)來發(fā)現(xiàn)新的規(guī)律是解決該問題的有效途徑之一,而DL在這2個方面都可以有廣泛的應(yīng)用,因此許多制藥公司和藥物研發(fā)機構(gòu)都將DL方法用于輔助藥物研發(fā)。例如:Berg公司基于人工智能的Interrogative Biology平臺技術(shù)[6]通過分析海量病人和正常人樣本(如蛋白相互作用網(wǎng)絡(luò))來尋找治療疾病的新靶點和診斷疾病的生物標(biāo)志物,以Berg公司進行腫瘤藥物研究為例,通過收集大量生物樣本,如血液、腫瘤組織或腫瘤患者的尿液,同時也收集捐助者的健康組織樣本。研究人員會創(chuàng)建細胞株,然后將其放進不同的模擬患者發(fā)病時的實際狀態(tài)環(huán)境下進行觀察,有比如低氧環(huán)境,高血糖患者細胞及腫瘤細胞喜歡生活的環(huán)境。細胞株建立之后,對其中的基因、蛋白質(zhì)、代謝物和脂肪進行標(biāo)識并形成節(jié)點,不同節(jié)點的重要程度不同,重要程度越高與疾病的關(guān)聯(lián)越大。Narain等[7]曾基于此平臺介導(dǎo)發(fā)現(xiàn)胰腺癌的檢測、分層和預(yù)后的分子標(biāo)記; IBM Watson為IBM旗下的認(rèn)知計算系統(tǒng),技術(shù)平臺。認(rèn)知計算代表一種全新的計算模式,它包含信息分析,自然語言處理和機器學(xué)習(xí)領(lǐng)域的大量技術(shù)創(chuàng)新。該新藥發(fā)現(xiàn)系統(tǒng)[8]通過自然語言處理技術(shù)分析海量文獻,尋找潛在的關(guān)聯(lián)性來預(yù)測新的假說推動新藥研發(fā);Engine Biosciences[9],也是利用人工智能技術(shù)來進行老藥新用、新靶點開發(fā)以及精準(zhǔn)醫(yī)療等服務(wù)的互聯(lián)網(wǎng)產(chǎn)品。圖1列舉了目前DL在藥物研發(fā)不同階段已經(jīng)取得成果的相關(guān)應(yīng)用。

      2 深度學(xué)習(xí)在藥物研發(fā)中的應(yīng)用

      2.1蛋白質(zhì)結(jié)構(gòu)與功能

      蛋白質(zhì)的功能研究在生命科學(xué)中占據(jù)重要的地位,大多數(shù)疾病的發(fā)生都與蛋白質(zhì)功能障礙有關(guān)。1973年,An finsen[10]發(fā)現(xiàn)變性的只保留了一級結(jié)構(gòu)的核糖核酸酶可以重新折疊并恢復(fù)生物活性,說明代表蛋白質(zhì)一級結(jié)構(gòu)的氨基酸序列中隱含了蛋白質(zhì)二級、三級結(jié)構(gòu)的信息。而蛋白質(zhì)二級結(jié)構(gòu)預(yù)測又可為蛋白質(zhì)三維結(jié)構(gòu)預(yù)測和蛋白質(zhì)功能預(yù)測提供重要信息。因此從一級氨基酸序列預(yù)測二級結(jié)構(gòu)及蛋白質(zhì)的性質(zhì)是藥物研發(fā)中的重要任務(wù)。表1簡要列舉了DL在蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測中的應(yīng)用。

      盡管近年來X-射線晶體學(xué)和冷凍電鏡技術(shù)的不斷發(fā)展在蛋白質(zhì)結(jié)構(gòu)解析上獲得突破,但其檢測蛋白質(zhì)的成本過高,利用DL對蛋白質(zhì)進行預(yù)測顯然是一個更高效的方法。通過對數(shù)據(jù)庫提供的蛋白質(zhì)數(shù)據(jù)特征提取,預(yù)測出蛋白質(zhì)結(jié)構(gòu)與功能,為解決蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測問題提供了可能的途徑,并在蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測方面取得了較好的結(jié)果。

      2.2 活性藥物靶點的確定

      藥物靶點與疾病或生物分子的病理狀態(tài)相關(guān),藥物靶點的確定是藥物研究和開發(fā)的基礎(chǔ)。傳統(tǒng)的藥物發(fā)現(xiàn)主要遵循“一種藥物,一種靶點,一種疾病”的觀念,最近越來越多的研究人員接受了藥物靶點是多種靶蛋白的觀點[15-16],并且多種靶蛋白傾向于出現(xiàn)在同一種疾病中[17]。因此,如何快速準(zhǔn)確地識別藥物與靶點之間復(fù)雜的相互作用已成為藥物開發(fā)的關(guān)鍵。

      Pu等[18]采用CNN訓(xùn)練檢測和分類核苷酸與血紅素結(jié)合位點,準(zhǔn)確度達到了95%,且實驗?zāi)P湍軌蛲茝V到類固醇結(jié)合蛋白和肽酶。Hamanaka等[19]提出的DL模型在檢測藥物活性靶點時可以在保證98.2%的準(zhǔn)確率的情況下對400萬個數(shù)據(jù)進行計算。Wen等[20]首先對未處理的原始數(shù)據(jù)進行預(yù)處理,標(biāo)記出已知的藥物靶點相互作用,然后應(yīng)用已知的標(biāo)記過的藥物靶點對來訓(xùn)練分類模型,該模型的10-折交叉驗證的曲線下面積(area under curve,AUC)得分為0.915 8±0.005 9,該得分越趨近于1則說明效果越好,該模型可進一步用于預(yù)測新靶點。

      表1 深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測中的應(yīng)用Table 1 Application of DL in the prediction of protein structure and function

      Tian等[21]通過分層抽象學(xué)習(xí)藥物靶點對的有用特征,在平衡和不平衡數(shù)據(jù)集(平衡數(shù)據(jù)集是指各個樣本數(shù)量差距不大,而不平衡數(shù)據(jù)集則相反,在一些模型中數(shù)據(jù)集是否平衡對預(yù)測結(jié)果有著不同影響)上的預(yù)測性能均比現(xiàn)有方法更好。Tsubaki等[22]結(jié)合化合物的圖形神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)和蛋白質(zhì)的CNN開發(fā)了新的復(fù)合蛋白相互作用預(yù)測技術(shù)。此外,所提出的方法在不平衡數(shù)據(jù)集上明顯優(yōu)于現(xiàn)有方法。這表明由端到端GNN和CNN獲得的化合物和蛋白質(zhì)的數(shù)據(jù)驅(qū)動表示比從數(shù)據(jù)庫獲得的傳統(tǒng)化學(xué)和生物學(xué)特征更穩(wěn)健。Zong等[23]采用DL算法DeepWalk基于異構(gòu)拓?fù)溆嬎闼幬?藥物和靶點-靶點的相似性,基于“牽連犯罪”原則推斷藥物靶點關(guān)聯(lián),AUC得分為0.989 6。

      Xie等[24]基于藥物干擾和基因敲除試驗收集的藥物和藥物對,靶點和靶點對的相似性數(shù)據(jù)庫L1 000中的轉(zhuǎn)錄組數(shù)據(jù)提出了活性藥物靶點的確定(drug target identi fication,DTI) 預(yù) 測 框 架,訓(xùn)練集達到98%以上的準(zhǔn)確率,驗證集準(zhǔn)確率為90.53%±1.44%。同時使用其他DTI數(shù)據(jù)庫如STITCH、 DGIdb以及CTD驗證了模型預(yù)測新DTI的能力,均取得較好的結(jié)果。

      計算機在處理復(fù)雜運算方面具有天然優(yōu)勢,而DL可以進一步發(fā)現(xiàn)對象之間的隱性聯(lián)系。DL的方法應(yīng)用于復(fù)雜的藥物與多靶點作用問題,通過合適的網(wǎng)絡(luò)模型得到潛在靶點,將大大提高藥物靶點研究的效率。

      2.3 藥物代謝動力學(xué)分析

      藥物代謝動力學(xué)(pharmacokinetics,PK)分析是藥物研發(fā)過程的重要組成部分,調(diào)查顯示大約一半的候選藥物由于PK性質(zhì)或毒性不令人滿意而無法進入市場[25]。DL正是PK分析的一項重要技術(shù)手段。

      圖2分別從藥物的吸收、分布、代謝與毒性幾個方面舉例了DL應(yīng)用。以PK的關(guān)鍵性質(zhì)之一水溶性為例,藥物的水溶性將直接影響化合物在生物體中的吸收。Li等[26]建立了基于半監(jiān)督學(xué)習(xí)模型的多層深度信念網(wǎng)絡(luò)( deep belief network,DBN)來預(yù)測化合物的水溶性,準(zhǔn)確率達到85.9%。不只是吸收分布的PK性質(zhì),候選藥物的代謝毒性也是其后續(xù)能否成藥的關(guān)鍵因素。分析1 824種美國FDA批準(zhǔn)的藥物,其中29.6%的藥物經(jīng)計算確定具有潛在的hERG(human ether-à-go-go-related gene)抑制活性,突出了hERG風(fēng)險評估在早期藥物發(fā)現(xiàn)中的重要性。為了在藥物發(fā)現(xiàn)階段和上市后監(jiān)測中對hERG介導(dǎo)的心臟毒性進行風(fēng)險評估,Cai等[27]開發(fā)了一種DNN模型用于預(yù)測藥物發(fā)現(xiàn)和上市后監(jiān)測過程中小分子的hERG阻滯劑。在驗證集中,最佳模型的AUC為0.967。

      DL為以傳統(tǒng)模型為基礎(chǔ)的PK分析帶來了新的模型以及新的分析方式,并且就特定的問題給出了更為精確的答案。

      2.4 藥物相互作用

      當(dāng)藥物與另一種藥物共同服用時,此藥物的預(yù)期功效可以發(fā)生顯著改變。因此,了解DDI對于減少意外的不良藥物事件(adverse drug event,ADE)的發(fā)生以及在治療疾病時產(chǎn)生最大化協(xié)同效益至關(guān)重要。另外由DDI引起的ADR是藥物退出市場的主要原因之一[28]。隨著用于疾病治療的多種藥物(至少2種藥物)的處方數(shù)量持續(xù)增加,了解DDI的意義越來越大。探索用于檢測相互作用藥物的大量藥物組合的最實用方法是通過計算機DDI檢測。

      雖然一些已知的DDI可以在專門建立的數(shù)據(jù)庫中找到,但大多數(shù)信息仍然埋藏在文獻中。因此,迫切需要從生物醫(yī)學(xué)文本中自動提取DDI。為了檢驗僅使用字嵌入作為輸入特征的CNN是否可以成功應(yīng)用于生物醫(yī)學(xué)文本中的DDI分類,Suárez-Paniagua等[29]提出僅具有一個隱藏層的CNN架構(gòu),使得模型在計算上更有效。Jari等[30]使用CNN同時提取事件和關(guān)系,與不同的向量空間嵌入一起應(yīng)用于各種文本分類任務(wù)。Zhao等[31]提出語法卷積神經(jīng)網(wǎng)絡(luò)(syntax convolutional neural network ,SCNN),基于單詞嵌入、語法單詞嵌入來使用句子的句法信息,引入位置和詞性特征以擴展每個單詞的嵌入,引入自動編碼器來編碼傳統(tǒng)的特征文本詞袋(稀疏0-1向量)作為全連接向量。

      除CNN外RNN也常用于生物醫(yī)學(xué)關(guān)系提取,Zhang等[32]基于候選句子的依賴圖生成最短依賴路徑(shortest dependent path,SDP),將SDP劃分為依賴詞序列和關(guān)系序列。RNN和CNN分別用于自動學(xué)習(xí)句子序列和依賴序列的特征。最后,將RNN和CNN的輸出特征結(jié)合起來檢測和提取生物醫(yī)學(xué)關(guān)系。

      Sahu等[33]提出了3種長短時記憶模型(long short-term memory,LSTM)網(wǎng)絡(luò)模型,即雙向長短時記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM),基于Attention模型的Bi-LSTM(attention based bi-directional long short-term memory,AB-LSTM)和基于聯(lián)合模型的AB-LSTM(joint attention based bi-directional long short-term memory,joint AB-LSTM)。這3種模型都使用文字和位置嵌入作為潛在特征。此外,使用Bi-LSTM網(wǎng)絡(luò)允許從整個句子中提取隱含特征。2個模型AB-LSTM和joint AB-LSTM也在Bi-LSTM層輸出中應(yīng)用注意池,以便為特征分配權(quán)重。

      Song等[34]利用支持向量機模型(support vector machine,SVM)建立了一個機器學(xué)習(xí)模型。所建立的相似性測度包括二維分子結(jié)構(gòu)相似性、三維結(jié)構(gòu)相似度、相互作用指紋圖譜相似性、靶標(biāo)相似性和ADE相似性。根據(jù)所建立的5種相似性度量方法,將已知有作用的藥物和可能有作用的藥物進行處理,使結(jié)構(gòu)以數(shù)據(jù)形式表示,并將處理結(jié)果作為SVM的輸入向量。SVM模型建立的思路以及所用數(shù)據(jù)庫如圖3所示。最終,此SVM模型預(yù)測準(zhǔn)確率達到0.97,遠高于之前的DDI模型。

      2.5 藥物不良反應(yīng)

      ADR是一個嚴(yán)重的問題,即盡管給予常規(guī)劑量的藥物,但仍會出現(xiàn)不良反應(yīng)。據(jù)估計,住院患者中有超過200萬例發(fā)生嚴(yán)重ADR,每年導(dǎo)致大于 100 000例患者死亡[35]。因此識別或預(yù)測潛在的ADR顯得尤為重要,表2介紹了4個DL在ADR方面的應(yīng)用,并對各自的結(jié)果進行了簡要評價。

      表2 深度學(xué)習(xí)在ADR中的應(yīng)用Table 2 Application of DL in the prediction of ADR

      DL幫助科研人員從龐大復(fù)雜的ADR報告中篩選并識別了可能具有臨床價值的ADR,輔助藥物的應(yīng)用并且可能會揭示未知的藥物代謝途徑。

      3 結(jié)語與展望

      人工智能通過分析海量的文獻、專利和臨床結(jié)果,找出潛在的、被忽視的通路、蛋白和機制等與疾病的相關(guān)性,從而提出新的可供測試的假說,通過實驗驗證已經(jīng)取得一定的成果,并顯著提高新藥研發(fā)流程中某些階段的效率。值得注意的是,DL提供了一種新的方法來探索基因組變異與藥物基因組學(xué)研究中的多種事件之間的復(fù)雜關(guān)聯(lián),為全基因組關(guān)聯(lián)分析的數(shù)據(jù)復(fù)雜性提供有效的解決方案。但是目前DL并不能直接預(yù)測一個化合物能否成為藥物,DL在發(fā)現(xiàn)藥物研發(fā)新機制和新靶點上的突破仍然面臨以下挑戰(zhàn):

      1)基于大數(shù)據(jù)的人工智能,擅長的是對已有知識的挖掘、重新組織和分配,為DL算法提供大量數(shù)據(jù),并且將需要解決的問題正確地呈現(xiàn)出來,它們才有可能捕捉到人類無法捕捉到的規(guī)律,在海量的數(shù)據(jù)中尋找已有知識的關(guān)聯(lián)性。在新藥研發(fā)過程中,新藥研發(fā)規(guī)則不明確,數(shù)據(jù)不明晰甚至含有錯誤信息,而且充滿了高度不確定性等問題,給以高質(zhì)量標(biāo)識數(shù)據(jù)集為基礎(chǔ)的DL人工智能帶來巨大的挑戰(zhàn);

      2)DL依賴于高質(zhì)量、有標(biāo)識的大數(shù)據(jù)集。例如:Santos等[39]統(tǒng)計了美國FDA批準(zhǔn)的1 578個藥物總共的靶點數(shù)目是667個,而Ensembl數(shù)據(jù)庫標(biāo)注的潛在藥物靶點就有4 479個,藥物靶點數(shù)據(jù)庫(therapeutic target database,TTD)含有2 360個可成為藥物靶點的分子信息,包括388個已有相應(yīng)藥物上市的、461個處于臨床試驗階段的以及其他正在研究的和已停止研究的藥物的靶點信息,由于數(shù)據(jù)庫涵蓋面不同,信息來源亦不同,導(dǎo)致有實驗支持的信息和預(yù)測的信息混雜在一起,藥物和靶點的命名也未采用統(tǒng)一規(guī)則,如何整合成DL依賴的靶點數(shù)據(jù)是關(guān)鍵;

      3)DL是非常出色的算法工具,能夠?qū)W習(xí)數(shù)據(jù),但無法判斷數(shù)據(jù)準(zhǔn)確性,尤其是遇到不常見的情況時,它缺乏靈活性,表現(xiàn)并不算好。同時存在無法修正學(xué)習(xí)結(jié)果,除非重新訓(xùn)練的問題;

      4)DL的內(nèi)部機制一直是困擾現(xiàn)今科學(xué)家的難題,DL是一個“黑箱”,藥物在人體中作用的機制是另一個“黑箱”。通過DL研究藥理問題被視為用一個“黑箱”代替另一個“黑箱”,也就是說DL并沒有實際解決藥物機制這一重大難題。即DL僅展示了可能的結(jié)果,而沒找到真正的因果關(guān)系;

      5)DL的評價機制仍然存在欠缺。DL具備發(fā)現(xiàn)隱藏在復(fù)雜的生物系統(tǒng)下的各種關(guān)系的能力,幫助藥物研發(fā)找到了一個模型來解釋生物復(fù)雜系統(tǒng)中發(fā)生的事情,但模型預(yù)測結(jié)果依然需要實驗驗證。如何用少量合適的實驗使得藥物研發(fā)人員進行有效驗證和評價DL的結(jié)果是一個待解決的問題。

      綜上,面對藥物研發(fā)需要解決的問題的多樣性,也需要有更為靈活和細致入微的思考方式,構(gòu)建適合藥物研發(fā)各階段的特殊DL模型,并且將這些模型整合才能在未來實現(xiàn)智能的藥物研發(fā)。

      猜你喜歡
      靶點蛋白質(zhì)預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      蛋白質(zhì)自由
      肝博士(2022年3期)2022-06-30 02:48:48
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      維生素D受體或是糖尿病治療的新靶點
      中老年保健(2021年3期)2021-12-03 02:32:25
      人工智能與蛋白質(zhì)結(jié)構(gòu)
      海外星云(2021年9期)2021-10-14 07:26:10
      腫瘤免疫治療發(fā)現(xiàn)新潛在靶點
      不必預(yù)測未來,只需把握現(xiàn)在
      蛋白質(zhì)計算問題歸納
      心力衰竭的分子重構(gòu)機制及其潛在的治療靶點
      五常市| 黄骅市| 曲沃县| 丰宁| 襄垣县| 木兰县| 定襄县| 安西县| 当雄县| 鄯善县| 西乌珠穆沁旗| 张北县| 本溪市| 岳阳县| 香格里拉县| 肥城市| 隆化县| 大方县| 安泽县| 沈丘县| 南靖县| 申扎县| 星子县| 临城县| 固原市| 平凉市| 淮北市| 望城县| 新田县| 德庆县| 收藏| 湛江市| 赤城县| 罗定市| 葫芦岛市| 左云县| 海晏县| 顺义区| 平远县| 九寨沟县| 乾安县|