• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多視角多注意力融合分子特征的藥物-靶標親和力預(yù)測

      2022-02-26 06:58:56王潤澤張月琴秦琪琦張澤華郭旭敏
      計算機應(yīng)用 2022年1期
      關(guān)鍵詞:分子結(jié)構(gòu)親和力原子

      王潤澤,張月琴*,秦琪琦,張澤華,郭旭敏

      (1.太原理工大學(xué)信息與計算機學(xué)院,太原 030600;2.山西青年職業(yè)學(xué)院計算機與信息工程系,太原 030032)

      0 引言

      藥物研發(fā)中一個不可或缺的過程是為蛋白質(zhì)目標靶位篩選可結(jié)合并能產(chǎn)生效用的藥物化合物[1]。自2020 年新型冠狀病毒在全世界范圍出現(xiàn)以來,針對病毒的基因序列,快速發(fā)現(xiàn)可結(jié)合的藥物化合物以加速疫苗研發(fā)已成為學(xué)者們關(guān)注的焦點[2-3]。傳統(tǒng)的藥物研發(fā)通過大量的體外實驗,為目標蛋白質(zhì)的靶位(或者基因)篩選候選配體物。但是隨著相關(guān)數(shù)據(jù)庫中分子及化合物數(shù)據(jù)量劇增,如僅PubChem[4]包含110 M 化合物,傳統(tǒng)的目標靶位精準篩選候選藥物方法、不僅產(chǎn)生高昂的研發(fā)成本,更使得藥物研發(fā)周期增長,耽誤相關(guān)疾病的治療[5]。研究者們進而考慮計算機輔助藥物研發(fā)。現(xiàn)有研究主要集中于基于3D 化合物結(jié)構(gòu)的計算方法,簡化輸入的機器學(xué)習(xí)方法以及自動特征提取的深度學(xué)習(xí)方法。特別是基于深度學(xué)習(xí)預(yù)測藥物-靶標相互作用(Drug-Target Interaction,DTI)和藥物-靶標親和力(Drug-Target Affinity,DTA),成為目前研究的熱點。目前的研究雖能夠自動提取到有效的生物特征,但致力于將分子-蛋白質(zhì)單方面結(jié)構(gòu)嵌入到特征空間,單一方面結(jié)構(gòu)信息對于精確提取分子的特征存在缺失不完備性。Lin 等[6]將分子局部圖結(jié)構(gòu)和序列結(jié)構(gòu)嵌入的特征向量直接拼接作為深度神經(jīng)網(wǎng)絡(luò)的輸入以預(yù)測親和力。但簡單的融合方式導(dǎo)致無法捕捉到與蛋白質(zhì)靶位鏈接相關(guān)性更高的藥物特征,影響兩者結(jié)合強度的預(yù)測。

      首先,分子不同視角生物屬性對最終特征嵌入有增益;其次,不同視角的分子結(jié)構(gòu)數(shù)據(jù)形態(tài)不同,所以需要有針對性的特征嵌入方式;最后,通過融合加權(quán)的多視角分子特征,能夠捕獲對靶位鏈接相關(guān)性更高的特征。

      由此,提出多視角多注意力融合分子特征的端到端深度學(xué)習(xí)方法Ma2DTA(Multi-aspect Multi-attention Drug-Target Affinity),綜合學(xué)習(xí)分子特征表示執(zhí)行DTA 預(yù)測任務(wù)。Ma2DTA 主要包含兩個核心模塊:多視角分子結(jié)構(gòu)嵌入(Multi-aspect molecular structure embedding,Mas)和多注意力融合(Multi-attention feature fusion,Mat)。首先,Ma2DTA 將分子全局拓撲結(jié)構(gòu)、原子關(guān)聯(lián)關(guān)系、原子化合鍵順序排列進行嵌入。鑒于分子圖這類非歐空間數(shù)據(jù)以及卷積神經(jīng)網(wǎng)絡(luò)對于局部結(jié)構(gòu)的建模能力,利用圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分子圖上原子與鄰域原子節(jié)點之間的關(guān)聯(lián)關(guān)系特征[7],并且融入圖節(jié)點層級的注意力網(wǎng)絡(luò)提取分子全局拓撲結(jié)構(gòu)特征。其次,提出注意力融合多視角特征,捕獲藥物結(jié)構(gòu)中對靶位鏈接親和力更高的部分。最后,不同于將預(yù)測藥物-靶標相互作用作為二分類任務(wù),預(yù)測藥物-蛋白質(zhì)親和力分數(shù)輸出表示鏈接結(jié)合強度的連續(xù)值,弱關(guān)系藥物-靶標對被舍棄,以縮小候選藥物空間,加速藥物研發(fā)進程,如圖1 所示。實驗結(jié)果表明,基于注意力融合多視角分子特征能夠有效地捕獲到對目標靶位鏈接親和力更高的分子結(jié)構(gòu)特征。

      圖1 藥物研發(fā)階段中的Ma2DTAFig.1 Ma2DTA in drug discovery stage

      本文的主要工作概括如下:

      1)針對分子多類型結(jié)構(gòu)信息,提出注意力多視角分子特征融合方法,使得分子嵌入特征表示不同生物性質(zhì)的信息融合增益。

      2)提出一種分子特征層級的多注意力融合策略Mat,根據(jù)目標蛋白質(zhì),為每類分子結(jié)構(gòu)特征附加親和力權(quán)重,捕捉到對目標靶位親和力更高的結(jié)構(gòu)。

      3)針對不同類型的分子信息具有不同的生物性質(zhì)和形態(tài),Mas 模塊可通過不同嵌入的融合,學(xué)習(xí)代表其特有生物屬性的特征向量。在兩大數(shù)據(jù)集上實驗表明Ma2DTA 的預(yù)測性能優(yōu)于當(dāng)前基準方法。

      1 相關(guān)工作

      早期代表性方法分子拼接[8]通過分析分子和蛋白質(zhì)鏈接后的混合3D 結(jié)構(gòu),揭示分子鏈接靶位的機制。但由于3D 結(jié)構(gòu)數(shù)據(jù)存在不易獲取的局限性,研究人員考慮形式簡易且生物屬性表達性強的結(jié)構(gòu)數(shù)據(jù)如生物實體之間的相似矩陣、關(guān)系矩陣和特征向量作為模型輸入,利用機器學(xué)習(xí)方法預(yù)測藥物-靶標關(guān)系。Perlman 等[9]提出集成藥物-藥物、基因-基因相似性度量矩陣,結(jié)合邏輯回歸預(yù)測藥物-蛋白質(zhì)相互關(guān)系。Wang 等[10]提出一種關(guān)系矩陣補全方法融入藥物相似性和蛋白質(zhì)相似性作為對偶拉普拉斯正則項提升模型預(yù)測性能。He 等[11]從特征工程的角度提取藥物-蛋白質(zhì)對的相似性特征,引入梯度增強機來預(yù)測量化水平的藥物-靶標親和力。雖然這些方法解決了數(shù)據(jù)輸入問題,并提高了預(yù)測的準確率,但是不可避免存在以下問題:生物數(shù)據(jù)獲取困難、標簽數(shù)據(jù)稀少、關(guān)系矩陣容量太大導(dǎo)致模型無法匹配、特征工程和專家經(jīng)驗引起的信息丟失和有偏。

      深度學(xué)習(xí)能夠在大規(guī)模數(shù)據(jù)中自動提取局部結(jié)構(gòu)特征,受到研究者的廣泛關(guān)注。深度學(xué)習(xí)助力藥物研發(fā)也取得突破性進展[12-13]。特別地,DeepMind 在預(yù)測蛋白質(zhì)3D 結(jié)構(gòu)中取得不俗的成績,科學(xué)家表示其有望改變生物學(xué)[14]。基于深度學(xué)習(xí)的方法在預(yù)測藥物-蛋白質(zhì)關(guān)系研究上也取得了進展。Wen 等[15]結(jié)合深度信念網(wǎng)絡(luò),從預(yù)訓(xùn)練和監(jiān)督微調(diào)的角度預(yù)測 兩者關(guān) 系。?ztürk 等[16]提出將 化合物SMILES(Simplified Molecular-Input Line-Entry System)序列和氨基酸序列作為輸入,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)分別提取局部關(guān)系特征。Karimi 等[17]結(jié)合注意力機制組合循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和CNN 從局部和全局聯(lián)合學(xué)習(xí)序列特征預(yù)測親和力。除此之外,另外一類方法利用分子結(jié)構(gòu)本身存在的特性——可以自然地建模為圖,圖上的節(jié)點和邊分別表示分子中的原子和化學(xué)鍵[18]。Gao 等[19]在分子圖上定義卷積核實現(xiàn)原子節(jié)點與鄰域間信息傳播以挖掘分子圖局部結(jié)構(gòu)。Nguyen等[20]在分子圖上執(zhí)行不同類型的圖卷積算法捕獲分子圖拓撲結(jié)構(gòu)特征,提高模型預(yù)測親和力能力。Li 等[21]同時編碼分子圖上節(jié)點和邊的特征,結(jié)合原子與殘基非共價關(guān)系指導(dǎo)親和力預(yù)測。無論是基于序列結(jié)構(gòu)還是圖拓撲輸入,上述方法致力于將分子-蛋白質(zhì)單方面結(jié)構(gòu)嵌入到特征向量空間,但單一方面的結(jié)構(gòu)信息對于精確提取分子的特征存在缺失不完備性。

      不同于上述方法,本文綜合考慮分子多視角結(jié)構(gòu)信息,通過注意力融合多視角分子結(jié)構(gòu)特征,捕獲對靶位鏈接相關(guān)性更高的部分分子結(jié)構(gòu)。實驗結(jié)果表明,相較于現(xiàn)有方法,Ma2DTA 在藥物-靶標親和力預(yù)測上能夠達到更優(yōu)的性能。

      2 問題描述

      本文的任務(wù)是融合多視角分子結(jié)構(gòu)信息——分子拓撲空間、原子關(guān)聯(lián)關(guān)系、原子化學(xué)鍵順序排列結(jié)構(gòu),得到分子的綜合特征向量表示,根據(jù)給定蛋白質(zhì)預(yù)測藥物-靶標親和力。

      首先,模型的原始輸入數(shù)據(jù)為藥物SMILES 串和氨基酸序列,具體表示如圖2(a)輸入部分所示。

      圖2 Ma2DTA的框架Fig.2 Framework of Ma2DTA

      其次,利用化學(xué)信息工具RDKit[22]將輸入的SMILES 串轉(zhuǎn)換為分子圖Gm={V,E},其中vi∈V(i=1,2,…,Natom)表示分子中的第i個原子節(jié)點,ei,j∈E(i,j∈{1,2,…,Na})表示分子圖中的第i個原子與第j個原子之間的化學(xué)鍵。使用{S1,S2,…,SNs}與{T1,T2,…,TNt}分別表示分子SMILES 串和蛋白質(zhì)序列的標識符集合,Ns和Nt分別代表兩者序列各自的長度。由于不同的分子結(jié)構(gòu)信息包含不同的生物屬性信息,具有不同的性質(zhì),所以針對不同的分子結(jié)構(gòu)需要不同的嵌入方法。因此需要學(xué)習(xí)的原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)嵌入函數(shù)為fv_a(·):

      其中hloc為原子關(guān)聯(lián)關(guān)系嵌入特征向量。分子全局拓撲結(jié)構(gòu)嵌入函數(shù)為fv_s(·):

      其中hsuper為學(xué)習(xí)的分子全局拓撲結(jié)構(gòu)特征向量。vsuper表示在分子圖外定義的存儲全局圖拓撲特征的節(jié)點[22]。原子與化學(xué)鍵排列結(jié)構(gòu)嵌入函數(shù)為fv_sim(·):

      其中hsmi表示原子與化學(xué)鍵排列結(jié)構(gòu)嵌入特征向量。針對蛋白質(zhì)結(jié)構(gòu),需要學(xué)習(xí)的表征函數(shù)為fpro(·):

      其中hpro為學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)特征。得到3 個視角的分子結(jié)構(gòu)特征后,通過注意力函數(shù)為多視角分子結(jié)構(gòu)嵌入向量附加權(quán)重融合:

      其中:hmol為嵌入的分子最終特征表示,Att(·)表示注意力融合函數(shù)。則整體模型的優(yōu)化可定義為:

      其中:fpre(·)表示親和力回歸預(yù)測函數(shù),y為真實的親和力分數(shù)值。

      3 模型提出

      本章分別介紹多視角分子結(jié)構(gòu)嵌入模塊Mas、蛋白質(zhì)結(jié)構(gòu)編碼模塊、多注意力分子特征融合模塊Mat 和藥物-靶標親和力回歸預(yù)測模塊。Ma2DTA 整體框架如圖2 所示:圖2(a)描述Ma2DTA 從數(shù)據(jù)輸入到親和力輸出的框架,以藥物的SMILES 串和蛋白質(zhì)的氨基酸序列作為模型輸入,通過Mas 模塊將三種類型的分子結(jié)構(gòu)和蛋白質(zhì)序列結(jié)構(gòu)分別嵌入為代表各自生物屬性的特征向量;圖2(b)表示Mas 模塊中分子全局拓撲結(jié)構(gòu)和原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)的嵌入過程;圖2(c)展示原子化學(xué)鍵順序排列結(jié)構(gòu)的特征學(xué)習(xí)過程;圖2(d)表示蛋白質(zhì)序列結(jié)構(gòu)的特征嵌入。在Mat 模塊中,根據(jù)計算的分子結(jié)構(gòu)相對于靶蛋白的重要性系數(shù),對三類分子特征向量加權(quán),然后融合得到給定藥物的最終特征表示。最后,將藥物與蛋白質(zhì)特征向量拼接后利用多層神經(jīng)網(wǎng)絡(luò)擬合輸出親和力分數(shù)。

      3.1 多視角分子結(jié)構(gòu)嵌入模塊Mas

      多視角分子結(jié)構(gòu)嵌入模塊針對不同生物屬性的分子結(jié)構(gòu)采用不同的表征策略。將5 類原子屬性——原子標簽、原子節(jié)點的度、氫原子的總數(shù)、原子的隱含值、原子是否為芳香族采用one-hot 分別編碼為向量hlab、hdeg、hH、hhid、haro,則每個原子節(jié)點的初始化特征表示為:

      其中||表示向量級聯(lián)。

      針對原子關(guān)聯(lián)關(guān)系結(jié)構(gòu),優(yōu)化嵌入函數(shù)fv_a(·)以學(xué)習(xí)分子中每一個原子與鄰域原子節(jié)點消息傳播的特性,最終得到關(guān)聯(lián)特征hloc。采用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Network,GCN)[23]在頻譜空間上對分子圖執(zhí)行卷積運算。式(8)定義了每一層圖卷積網(wǎng)絡(luò)的計算過程:

      其中:A∈為分子圖鄰接矩陣,I為大小相同的單位矩陣,D是圖對角度矩陣,X和Θ分別表示分子特征矩陣和可學(xué)習(xí)的參數(shù)矩陣,Z∈表示每一次圖卷積后的中間隱含特征矩陣,dl為第l層原子的特征維度,ReLU(·)為非線性激活函數(shù)。最后,通過圖全局池化層得到分子的最終關(guān)聯(lián)關(guān)系特征hloc。

      針對分子全局拓撲結(jié)構(gòu),則需要通過優(yōu)化fv_s(·)以嵌入全局圖拓撲結(jié)構(gòu)得到特征hsuper。此處通過圖節(jié)點層級的注意力捕獲每一個原子對分子全局結(jié)構(gòu)特征的貢獻。第一,累加每個原子特征初始化全局節(jié)點vsuper;第二,在計算圖節(jié)點層級注意力過程中融入多頭注意力機制集成多個空間的注意力信息以提升對注意力權(quán)重的學(xué)習(xí)。在注意力系數(shù)的計算中首先利用式(9)計算每一個原子節(jié)點對超節(jié)點vsuper貢獻系數(shù):

      針對原子和化學(xué)鍵順序排列結(jié)構(gòu),優(yōu)化嵌入函數(shù)fv_sim(·)以提取原子-化學(xué)鍵序列局部結(jié)構(gòu)特征hsmi。首先結(jié)合標簽嵌入和隨機初始化將SMILES 標識符集合{S1,S2,…,}轉(zhuǎn)換為語義向量組[s1,s2,…,],si為具有固定維度的特定語義向量。其次采用CNN 學(xué)習(xí)序列中每一個標識符的局部上下文信息,即捕獲局部原子與化學(xué)鍵連接關(guān)系,式(14)定義卷積的特征捕獲過程:

      3.2 蛋白質(zhì)結(jié)構(gòu)編碼模塊

      對于模型輸入的蛋白質(zhì)序列,同樣通過優(yōu)化表征函數(shù)fpro(·) 捕獲氨基酸順序排列特征hpro。類似于上文中對SMILES 序列編碼,使用標簽嵌入和隨機初始化將氨基酸序列的標識符集合{T1,T2,…,}編碼為向量組[t1,t2,…,]。采用CNN 提取蛋白質(zhì)序列中局部氨基酸順序排列特征:

      3.3 多注意力分子特征融合模塊Mat

      本模塊提出一種多注意力融合方式,得到代表不同分子生物性質(zhì)的信息融合增益。第一,不同類型的分子結(jié)構(gòu)表示不同的生物屬性,對最終的分子特征表示提供不同程度的信息增益;第二,多注意力融合能根據(jù)親和力權(quán)重捕獲分子上鏈接靶位更重要的特征;第三,粗略的融合方式無法突顯對靶位親和力更高的分子特征?;诖耍疚奶岢龇肿咏Y(jié)構(gòu)層級的注意力融合方法建模分子結(jié)構(gòu)對蛋白質(zhì)靶位鏈接相對重要的特征,提高模型預(yù)測親和力的性能。Mat 模塊優(yōu)化注意力函數(shù)Att(·),融合多視角分子結(jié)構(gòu)特征得到分子最終特征表示hmol。給定Mas 模塊嵌入的分子特征向量hloc、hsuper、hsmi,定義其對應(yīng)的注意力權(quán)重分別為βloc、βsuper、βsmi。以βloc為例,其計算如式(16)、(17)所示:

      其中:Wtrans,2表示分子結(jié)構(gòu)層級的注意力參數(shù)矩陣;Wattn,l、Wattn,p分別代表原子關(guān)聯(lián)關(guān)系特征和蛋白質(zhì)結(jié)構(gòu)特征相對應(yīng)的線性特征變換矩陣。注意力權(quán)重βsuper、βsmi以相同的計算過程得到。最后,對不同視角下的分子特征根據(jù)各自的注意力系數(shù)加權(quán),經(jīng)過非線性聚合得到分子最終特征表示hmol,如式(18)所示:

      《中華人民共和國印花稅暫行條例施行細則》[9]中明確規(guī)定:國家指定的收購部門與村民委員會、農(nóng)民個人書立的農(nóng)副產(chǎn)品收購合同免納印花稅。

      其中Wmol為分子最終嵌入特征的線性變換矩陣。

      3.4 藥物-靶標親和力回歸預(yù)測

      本階段利用回歸預(yù)測函數(shù)fpre(·)完成藥物-靶標親和力預(yù)測。根據(jù)藥物-蛋白質(zhì)對,其中h=[hmol||hpro]表示hmol與hpro的拼接,經(jīng)過L層深度特征變換輸出藥物-蛋白質(zhì)親和力分數(shù)score:

      4 實驗與結(jié)果分析

      在浪潮異構(gòu)機群GPU:12 *32 GB Tesla V100s,內(nèi)存640 GB DDR2 進行實驗,驗證Ma2DTA 的親和力預(yù)測性能。

      4.1 數(shù)據(jù)集

      在Davis[24]和KIBA[25]數(shù)據(jù)集上進行實驗。Davis 數(shù)據(jù)集包含激酶家族及其抑制劑的蛋白質(zhì)樣品,以及相應(yīng)的解離常數(shù)(dissociation constant)值Kd,本文使用通用方法將Davis 數(shù)據(jù)集中的Kd值轉(zhuǎn)換到log 空間以保證數(shù)值的平穩(wěn)性,如式(20):

      KIBA 數(shù)據(jù)集整合抑制劑生物活性的各種來源,通過應(yīng)用其統(tǒng)計信息優(yōu)化抑制常數(shù)(inhibition constant)Ki、Kd和半抑制濃度(half-maximal inhibitory concentration)IC50 之間的一致性。表1 給出了兩個數(shù)據(jù)集上的數(shù)據(jù)統(tǒng)計。

      表1 實驗數(shù)據(jù)集統(tǒng)計信息Tab.1 Statistics of experimental datasets

      4.2 評價指標

      其中:bi是較大親和力δi的預(yù)測值,bj是較小親和力δj的預(yù)測值;Z是一個標準化常數(shù)。h(x)表示梯函數(shù):

      MSE 量化模型預(yù)測值與數(shù)據(jù)真實值之間的差異性,如式(23)所示:

      其中yi表示真實值。MSE 越小,模型的預(yù)測效果越好。評估模型對數(shù)據(jù)的擬合能力。越大,表明模型擬合程度越好,如式(24):

      其中r2和分別代表有截距和無截距時的平方相關(guān)系數(shù)。

      4.3 實驗設(shè)置

      為驗證Ma2DTA 的親和力預(yù)測性能,分別將其同以下四個基準深度學(xué)習(xí)模型比較。

      1)DeepDTA[16]:端到端的深度學(xué)習(xí)系統(tǒng),從分子和蛋白質(zhì)序列結(jié)構(gòu)的角度提取特征。

      2)AttentionDTA[27]:根據(jù)模型學(xué)習(xí)的SMILES 序列和氨基酸序列片段之間的權(quán)重預(yù)測可能性更高的鏈接位置。

      3)GANsDTA[28]:構(gòu)建一個半監(jiān)督學(xué)習(xí)系統(tǒng),從藥物-蛋白質(zhì)無標簽的角度,采用生成對抗網(wǎng)絡(luò)提取藥物與蛋白質(zhì)特征。

      4)GraphDTA[20]:表征分子圖拓撲結(jié)構(gòu)和蛋白質(zhì)氨基酸序列結(jié)構(gòu)預(yù)測藥物-蛋白質(zhì)親和力。

      由于SMILES 序列和氨基酸序列長度不等,為保證效果對比的公平性,實驗中對SMILES 序列和蛋白質(zhì)序列分別設(shè)置固定長度為85 和1 000,大于固定值的部分被截斷,小于固定值的部分用0 補充。實驗表明,多視角分子結(jié)構(gòu)融入和多注意力融合均有助于藥物-靶標親和力預(yù)測性能的提升。

      4.4 結(jié)果分析

      在Davis 和KIBA 數(shù)據(jù)集上執(zhí)行實驗分析,將本文方法與當(dāng)前基準方法進行比較,分別考慮訓(xùn)練集的分割比率的影響,多視角特征融入和多注意力融合的有效性,以及對蛋白質(zhì)序列卷積的層數(shù)和分子圖上的池化方式的影響。

      4.4.1 訓(xùn)練比率的影響

      為驗證訓(xùn)練集的所占比率對模型性能的影響,實驗中將兩個數(shù)據(jù)集分割為訓(xùn)練集和測試集,分別設(shè)置4 個不同的訓(xùn)練比率——80%、60%、40%、20%,測試集比率對應(yīng)為20%、40%、60%、80%。圖3 展示在兩個數(shù)據(jù)集上執(zhí)行不同的數(shù)據(jù)分割對Ma2DTA 性能的影響。當(dāng)訓(xùn)練比率設(shè)置為80%時,Ma2DTA 在所有指標上達到最優(yōu)。

      圖3 兩個數(shù)據(jù)集上訓(xùn)練比率對Ma2DTA性能的影響Fig.3 Influence of training ratio on Ma2DTA performance on two datasets

      4.4.2 與基準方法相比

      如圖4 所示,在Davis 和KIBA 數(shù)據(jù)集上,將本文方法與基準深度學(xué)習(xí)方法分別作了比較。首先,基于圖數(shù)據(jù)輸入的方法(GraphDTA)相較于基于序列結(jié)構(gòu)(DeepDTA,GANsDTA等)的方法,在CI 和MSE 上有明顯的提升,表明分子天然地可建模為分子圖的特性,可以有效地表達出原子與原子之間的關(guān)聯(lián)關(guān)系以及拓撲空間攜帶的生物屬性信息。其次,無論是 在Davis 還 是KIBA 數(shù)據(jù)集 上,Ma2DTA 在CI 指標上突破0.90,達到高準確度。在Davis 數(shù)據(jù)集上,Ma2DTA 在MSE 值上,比GraphDTA 降低接近5%,其比最好的基準方法AttentionDTA 提高了7%。在KIBA 數(shù)據(jù)集上,Ma2DTA 比基準方法中效果最明顯的GraphDTA,MSE 降低6%,而比GraphDTA 大幅度提升接近10%,相較于在這個指標上效果顯著的AttentionDTA 提高4%。實驗性能比較如圖4 所示,Ma2DTA 均優(yōu)于基準方法,一方面,表明融入三個不同方面的結(jié)構(gòu)能夠使得分子最終特征表示包含更豐富的生物屬性信息。另一方面,使用注意力機制從分子特征層面上融合,根據(jù)權(quán)重選擇對目標靶位親密度更高的部分結(jié)構(gòu)執(zhí)行融合,避免造成次優(yōu)預(yù)測。

      圖4 兩個數(shù)據(jù)集上所提方法與基準方法的比較Fig.4 Comparison of the proposed method with baseline methods on two datasets

      4.4.3 多視角分子特征融合的有效性分析

      為驗證多視角分子特征融合的有效性,本文在Davis 數(shù)據(jù)集上分別比較一種結(jié)構(gòu)、兩種結(jié)構(gòu)和三種結(jié)構(gòu)的分子特征融合對預(yù)測性能的影響。在實驗中,對涉及的序列結(jié)構(gòu)均采用CNN 提取特征,對涉及的分子圖采用GCN 表征。比較結(jié)果如圖5 所示,MSE 隨著特征融合數(shù)量的增加呈下降趨勢,而CI 和則呈上升趨勢,說明原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)、分子圖全局拓撲、原子化學(xué)鍵順序排列有益于整體分子結(jié)構(gòu)的表征學(xué)習(xí),并且從多個視角能夠綜合地分析分子結(jié)構(gòu),有助于提高預(yù)測藥物-蛋白質(zhì)親和力的效果。特別是Ma2DTA 除了在MSE 和CI 評估上均明顯達到最優(yōu),相較于單一序列結(jié)構(gòu)提取,MSE 降低16%,提高10%,CI 提高超過3%;而相較于單一局部分子圖結(jié)構(gòu)提取,MSE 降低了11%,提高6%,CI 明顯提高接近3%。綜上所述,Ma2DTA 采取多視角分子特征融合策略能夠?qū)Ψ肿幼罱K特征表示產(chǎn)生信息增益。

      圖5 多視角分子結(jié)構(gòu)融合的有效性Fig.5 Effectiveness of multi-aspect molecular structure fusion

      4.4.4 多注意力融合的有效性分析

      為驗證提出的注意力融合方式有效性,分別比較多注意力融合、均值化、累加和,以及特征向量級聯(lián)對預(yù)測結(jié)果的影響。實驗執(zhí)行過程中,為了僅考慮融合方式的影響,對于上述4 種融合方式,均采取相同的參數(shù)選擇。如圖6 所示,多注意力融合多視角分子特征,均優(yōu)于其他的融合方式,表明基于多注意力機制的融合能夠從分子結(jié)構(gòu)層面,根據(jù)不同分子結(jié)構(gòu)對目標蛋白質(zhì)結(jié)構(gòu)的權(quán)重系數(shù),捕捉到對目標靶位親密度更高的部分結(jié)構(gòu),使得分子最終嵌入特征表示不同生物性質(zhì)的信息增益,從而提高藥物-蛋白質(zhì)親和力預(yù)測性能。

      圖6 注意力融合的有效性Fig.6 Effectiveness of attention fusion

      4.4.5 重要參數(shù)選擇

      為考慮重要參數(shù)的選擇對于模型預(yù)測性能的影響,在Davis 數(shù)據(jù)集上通過實驗分別比較針對蛋白質(zhì)序列結(jié)構(gòu)的CNN 層數(shù)和針對分子圖的全局池化方式。圖7(a)給出當(dāng)CNN 層數(shù)設(shè)置為1、2、3 時,三個評價指標的變化。圖7(b)表示原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)嵌入過程選用全局累加(sum)、最大(max)、平均池化(mean)時,對模型預(yù)測性能的影響。當(dāng)針對蛋白質(zhì)序列的卷積層數(shù)設(shè)置為3 層時,模型表現(xiàn)出最佳性能。當(dāng)針對分子圖使用全局最大池化時,由于映射出分子最突出顯著的局部特征,相較于其他兩種池化方式,性能最佳。

      圖7 蛋白質(zhì)卷積層和分子圖池化方式對性能的影響Fig.7 Influence of protein convolutional layers and molecular map pooling methods on performance

      5 結(jié)語

      本文提出了一種多視角注意力融合分子特征的藥物-蛋白質(zhì)親和力預(yù)測方法Ma2DTA,分別從三個視角——原子關(guān)聯(lián)關(guān)系、分子全局拓撲、原子化學(xué)鍵順序排列提取不同的結(jié)構(gòu)特征(Mas),通過分子特征層級的注意力融合獲取每一類對目標靶位親密度更高的部分結(jié)構(gòu)(Mat),保留對分子最終特征表示最有益的信息。實驗結(jié)果表明Ma2DTA 在預(yù)測藥物-靶標親和力任務(wù)上具有良好的性能。

      未來的工作將進一步嘗試多樣化的圖神經(jīng)網(wǎng)絡(luò)方法表征分子圖,并且考慮不同分子視角數(shù)量對預(yù)測的影響,以及更深層次地考慮氨基酸和原子之間的相互作用。

      猜你喜歡
      分子結(jié)構(gòu)親和力原子
      把握分子結(jié)構(gòu)理解物質(zhì)的性質(zhì)
      原子究竟有多???
      原子可以結(jié)合嗎?
      帶你認識原子
      三步法確定有機物的分子結(jié)構(gòu)
      高端訪談節(jié)目如何提升親和力
      新聞傳播(2018年11期)2018-08-29 08:15:30
      高端訪談節(jié)目如何提升親和力探索
      新聞傳播(2018年13期)2018-08-29 01:06:52
      解讀分子結(jié)構(gòu)考點
      外電場中BiH分子結(jié)構(gòu)的研究
      親和力在播音主持中的作用探究
      新聞傳播(2016年9期)2016-09-26 12:20:34
      屏山县| 江津市| 高碑店市| 疏附县| 张掖市| 平塘县| 那曲县| 甘泉县| 观塘区| 阿荣旗| 双鸭山市| 呼伦贝尔市| 绍兴县| 大冶市| 南安市| 梁山县| 襄城县| 团风县| 株洲县| 遂溪县| 萍乡市| 嘉荫县| 通州区| 乃东县| 新乡县| 尚义县| 哈巴河县| 炉霍县| 乳山市| 星座| 江永县| 谷城县| 本溪市| 精河县| 资溪县| 板桥市| 黎川县| 商丘市| 石泉县| 富锦市| 凤冈县|