陳心浩,胡 儉
(中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢 430074)
基于多特征融合預(yù)測(cè)蛋白質(zhì)相互作用界面
陳心浩,胡 儉
(中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢 430074)
為高效準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)相互作用界面,提取了傳統(tǒng)特征,并采用多種方法改進(jìn)進(jìn)化信息特征,利用特征選擇構(gòu)建了一個(gè)14維的預(yù)測(cè)模型.通過(guò)5折交叉驗(yàn)證和獨(dú)立測(cè)試,預(yù)測(cè)結(jié)果表明:該預(yù)測(cè)模型不僅顯著降低特征維度,而且選擇的特征組合具有較好的預(yù)測(cè)能力和較強(qiáng)的泛化能力.
蛋白質(zhì)-蛋白質(zhì)界面;分類(lèi);進(jìn)化;特征選擇
AbstractTo build a model of efficient and accurate classification of protein-protein interfaces, this study constructs two characteristics of traditional features and evolutionary information, a 14-dimensional feature model is constructed by feature selection.By cross-validation of the main data set and independent test set testing, results show that selects the features combination has better predictive ability and strong extension ability. Compared with the best models at the present stage, this study significantly reduce the dimensionality of the model case classification has improved.
Keywordsprotein-protein interface; classification; evolutionary; feature selection
區(qū)分蛋白質(zhì)晶體中的生物學(xué)相互作用界面(Biological interfaces)和無(wú)生物學(xué)意義的晶體學(xué)界面(Crystal interfaces),是結(jié)構(gòu)生物信息學(xué)中的一個(gè)重要研究方向.
現(xiàn)有計(jì)算方法預(yù)測(cè)蛋白質(zhì)相互作用界面的特征主要分成兩大類(lèi):第一類(lèi)是以界面面積、疏水性和溫度因子等幾何特性和氨基酸理化特性為代表的傳統(tǒng)特征[1];第二類(lèi)則是以EPPIC方法為代表的進(jìn)化特征[2].為獲得良好的分類(lèi)效果,目前的主要策略是將上述特征進(jìn)行聯(lián)合.然而,這類(lèi)融合方法也存在弊端,如現(xiàn)階段分類(lèi)效果最好的Luo方法[3],該方法具有較高的特征維度(46維),且進(jìn)化信息計(jì)算復(fù)雜,不利于快速構(gòu)建本地分類(lèi)模型.因此,本文期望采用較為簡(jiǎn)便的方式計(jì)算進(jìn)化特征,融合傳統(tǒng)特征并使用特征選擇技術(shù),構(gòu)建一個(gè)低維高效的蛋白質(zhì)互作界面分類(lèi)模型.
1.1數(shù)據(jù)集,蛋白質(zhì)界面殘基、表面殘基的定義
在構(gòu)建和測(cè)試模型過(guò)程中使用了三個(gè)數(shù)據(jù)集,Duarte數(shù)據(jù)集[2]作為主數(shù)據(jù)集用于構(gòu)建模型和優(yōu)化參數(shù),Bernauer[4]和Ponstingl[5]兩個(gè)經(jīng)典數(shù)據(jù)集作為獨(dú)立測(cè)試集.
核心殘基(Core)位于互作界面中心,主要由疏水性氨基酸構(gòu)成.核心殘基周?chē)h(huán)繞著一圈殘基,此類(lèi)型殘基稱(chēng)之為環(huán)繞殘基(Rim).界面殘基、表面殘基、核心殘基與環(huán)繞殘基定義采用Proface方式定義[6].
1.2傳統(tǒng)特征
核心殘基(Core)與環(huán)繞殘基(Rim): 分別計(jì)算核心殘基與環(huán)繞殘基在界面殘基中的比例,構(gòu)成Core和Rim 這兩個(gè)特征.核心殘基數(shù)目(NoC) :每個(gè)蛋白質(zhì)復(fù)合體的核心殘基數(shù)構(gòu)成本特征.溫度因子(BF):將PDB中每個(gè)殘基溫度因子做Z-score歸一化,將歸一化后的界面殘基溫度因子平均值作為此蛋白質(zhì)復(fù)合體溫度因子.局部包裝密度( LD),熱點(diǎn)殘基數(shù)目(Nhs),氨基酸分布 (RP)定義方式來(lái)自Proface[6],界面疏水性 Hy)采用Jones定義[1].
1.3進(jìn)化特征
本文采用默認(rèn)參數(shù),使用PSI-BLAST程序?qū)δ繕?biāo)蛋白質(zhì)在NR數(shù)據(jù)庫(kù)中搜索其同源序列并構(gòu)建位置特異性矩陣.根據(jù)上述矩陣,采用Capra方法[7],對(duì)每一個(gè)殘基位置分別計(jì)算了SE(Shannon entropy of residues),SERP(Shannon entropy of residue properties),VNE(von Neumann entropy),RE(Relative Entropy)和JSD(Jensen-Shannon divergence score)5種保守性分值,并且對(duì)于計(jì)算出來(lái)的5種保守性分值采用3窗口平均,構(gòu)成另外5個(gè)保守性分值.計(jì)算公式如下:
SEi=-∑α∈AAp(α) lg[p(α) ] ,
(1)
SERPi=-∑α∈Term)p(β) lg[p(β) ] ,
(2)
VNEi=-Tr(ρlg(ρ) ) ,
ρ=diag[(p1,p2,…,p20)·BLUSUM62],
(3)
REi=-∑α∈AAp(α) lg[p(α)/q(α) ],
(4)
JSDi=λ∑α∈AAp(α) lg[p(α)/r(α) ]+
(1-λ) ∑α∈AAq(α) lg[q(α)/r(α) ],
(5)
WindowScorei=0.5Entropyi+
(6)
公式(1)中,p(α)是20種常見(jiàn)氨基酸在位置i出現(xiàn)的概率,公式(2)中的p(β)則是根據(jù)Mirny研究[8]對(duì)氨基酸根據(jù)化學(xué)屬性分成6組,計(jì)算出的每一組在整體出現(xiàn)的概率,具體分組可見(jiàn)表1.VNE計(jì)算方法[9]如公式(3)所示,特點(diǎn)是將原始的概率得分使用BLUSUM62矩陣重新計(jì)算.RE的計(jì)算方式與SE接近,不同點(diǎn)是使用背景概率q(α)重新定義,其概率分布見(jiàn)表1.JSD是將RE做了背景頻率改進(jìn)[10],可以將保守性分?jǐn)?shù)歸一化0~1之間,在本文中λ=0.5.公式(6)即3窗口的算法,序列上第i個(gè)殘基與其鄰近的兩個(gè)殘基加權(quán)平均.將上述獲得的5個(gè)保守性分值和5個(gè)窗口保守性分值分別作Z-score變換,以消除不同蛋白質(zhì)復(fù)合體間差異.
蛋白質(zhì)殘基保守性分值可以衡量殘基在進(jìn)化過(guò)程中變異程度,生物學(xué)界面殘基,特別是生物學(xué)界面上的核心殘基在進(jìn)化過(guò)程中相對(duì)保守.本文采用兩種方式計(jì)算核心殘基保守性分值[2],第一種是核心殘基-界面殘基保守性分值 (CI),計(jì)算核心殘基保守性分值平均值與界面殘基保守性分值平均值的差值,即將界面殘基保守性分值作為基準(zhǔn).第二種是核心殘基-表面殘基保守性分值( CS),計(jì)算核心殘基保守性分值平均值與表面殘基保守性分值平均值的差值.最終構(gòu)成20維進(jìn)化信息特征.
表1 氨基酸屬性
1.4特征選擇、分類(lèi)器與分類(lèi)評(píng)價(jià)
增L去R選擇算法是一種改進(jìn)了的前向特征選擇方法[11].算法初始特征選擇從空集開(kāi)始,每輪先加入L維特征,然后從中除去R個(gè)特征,將每一輪AUC最高的特征組合挑選出來(lái)作為下一輪初始特征組合.
分類(lèi)器采用R語(yǔ)言下隨機(jī)森林包,所涉及參數(shù)均采用默認(rèn)值.
對(duì)單個(gè)特征和聯(lián)合特征測(cè)試均在Duarte數(shù)據(jù)集上完成,采用5折交叉驗(yàn)證.為排除隨機(jī)影響,5折交叉驗(yàn)證采用50次獨(dú)立分組取平均的結(jié)果,兩個(gè)獨(dú)立測(cè)試采用50次重復(fù)平均結(jié)果.分類(lèi)效果評(píng)價(jià)采用敏感度(SN)、特異度(SP)、準(zhǔn)確性、馬修相關(guān)性系數(shù)(MCC)、受試者工作曲線(ROC)及ROC曲線下面積(AUC)6個(gè)指標(biāo).MCC范圍是[-1, 1],當(dāng)MCC大于0代表正確的分類(lèi)效果,越接近1代表分類(lèi)效果越好.一般來(lái)說(shuō),當(dāng)MCC大于0.3表示有一定分類(lèi)效果,大約0.5時(shí)分類(lèi)效果較好.AUC也有類(lèi)似的評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)AUC處于0.5到0.6之間表示只有微弱的分類(lèi)效果,當(dāng)AUC大于0.6表示此特征有一定的區(qū)分樣本能力,當(dāng)AUC大約0.8表示分類(lèi)效果很理想.
2.1特征分類(lèi)效果
根據(jù)表2,在傳統(tǒng)特征中,Hy、Core、Rim、RP和Nhs5個(gè)特征的單獨(dú)使用分類(lèi)AUC均到達(dá)0.7以上,除Nhs每個(gè)特征的MCC都超過(guò)0.4,顯示出這些特征在生物學(xué)界面和晶體學(xué)界面上有較大的分布差異性.BF和NoC的AUC處于0.6到0.7之間,MCC大于0.3,有一定分類(lèi)效果.LD分類(lèi)效果較差,AUC不到0.6.
表2 特征獨(dú)立使用分類(lèi)效果Tab.2 Independent feature classification results
在進(jìn)化信息特征中,并非所有的保守性分值算法都適合本問(wèn)題,如CS-VNE的AUC小于0.5,產(chǎn)生相反的分類(lèi)效果.若以AUC為評(píng)價(jià)準(zhǔn)則,整體上來(lái)說(shuō),相同算法計(jì)算出的CS要略?xún)?yōu)于CI,這與Duarte得出的結(jié)論相同.在原始保守性分值與3維窗口計(jì)算出的保守性分?jǐn)?shù)比較中,不同種算法產(chǎn)生了不同的效果,如CI-SE-3WIN相比CI-SE分類(lèi)效果提升明顯,而CS-SE-3WIN相比CS-SE分類(lèi)效果卻變差.在20個(gè)進(jìn)化特征中,CS-SERPAUC達(dá)到0.758,MCC達(dá)到0.484,是28個(gè)特征中分類(lèi)效果最好的特征之一.
圖1 特征選擇Fig.1 Feature selection
2.2特征選擇
以AUC為選擇標(biāo)準(zhǔn),本文采用增2去1選擇算法對(duì)28個(gè)特征做特征選擇.對(duì)于每一輪選擇出的特征組合,計(jì)算AUC和MCC,繪制的曲線如圖1所示,隨著特征數(shù)目的增加,AUC先快速上升,在第8輪特征選擇后達(dá)到頂點(diǎn),而后AUC緩慢下降;MCC上升速度相比于AUC較慢,而且在達(dá)到頂點(diǎn)后并沒(méi)有明顯的下降趨勢(shì).綜合AUC和MCC分值,最終選擇第14個(gè)特征組合,分別是Hy、Core、CS-SERP-3WIN、CI-SE-3WIN、RP、Nhs、CI-SE、BF、CI-RE、CI-SERP、CI-JSD-3WIN、CI-RE-3WIN、CI-SERP-3WIN、LD.選擇出的14個(gè)特征AUC為0.918,MCC為0.713,而全部28個(gè)特征AUC為0.901,MCC為0.706,可見(jiàn)本文在消減了一半特征維度情況下,AUC還是獲得了較大程度提升,說(shuō)明本文采用的特征選擇確實(shí)可以在保證預(yù)測(cè)準(zhǔn)確性條件下選擇出更有意義的特征組合.
在特征選擇中沒(méi)有被選擇出來(lái)的特征,其中Rim是因?yàn)榕cCore成對(duì)偶關(guān)系,所包含的信息是完全一致的;NoC是因?yàn)樵诒疚闹卸鄠€(gè)特征涉及到核心殘基,信息上存在冗余因而沒(méi)有被選擇出來(lái).信息冗余同樣存在于20個(gè)進(jìn)化信息特征上,因此只有8個(gè)進(jìn)化信息特征被選擇出來(lái).雖然CS單個(gè)特征效果略好,但是在選擇出的8個(gè)進(jìn)化信息特征中只有一個(gè)CS,而獨(dú)立使用LD分類(lèi)效果較差卻可以被選擇出,說(shuō)明并非聯(lián)合較強(qiáng)特征一定會(huì)取得良好的分類(lèi)效果,還需要考慮各個(gè)特征之間的組合效應(yīng).
2.3交叉驗(yàn)證與獨(dú)立測(cè)試效果
表3所示的是Duarte數(shù)據(jù)集5折交叉驗(yàn)證結(jié)果和兩個(gè)獨(dú)立測(cè)試集的分類(lèi)效果,圖2所示的是相應(yīng)的ROC曲線.可以看到,本文在Duarte數(shù)據(jù)集上取得了AUC為0.918,MCC為0.713這樣良好的分類(lèi)效果.將本方法應(yīng)用于兩個(gè)獨(dú)立測(cè)試集上,Bernauer數(shù)據(jù)集AUC達(dá)到0.955,MCC達(dá)到0.745的MCC,Ponstingl數(shù)據(jù)集AUC為0.962,MCC為0.842,均獲得了良好的的分類(lèi)效果,可見(jiàn)本方法有較強(qiáng)的泛化能力.
表3 Duarte數(shù)據(jù)集5折交叉驗(yàn)證和獨(dú)立測(cè)試集預(yù)測(cè)效果
圖2 Duarte數(shù)據(jù)集5折交叉驗(yàn)證和獨(dú)立測(cè)試集ROC曲線Fig2 The ROC curves of 5-fold cross validation test and two independent datasets
2.4與現(xiàn)有方法比較
為更加全面地評(píng)價(jià)本方法,本文采用現(xiàn)階段分類(lèi)效果最好的兩個(gè)分類(lèi)器,即Luo方法和EPPIC方法對(duì)Duarte數(shù)據(jù)集做5折交叉驗(yàn)證,與本方法得到的結(jié)果進(jìn)行比較.EPPIC方法的預(yù)測(cè)效果直接取自文獻(xiàn)報(bào)道;對(duì)Luo使用的特征數(shù)據(jù),采用與本文相同的50次5折交叉驗(yàn)證進(jìn)行評(píng)價(jià).本方法與這兩種方法比較見(jiàn)圖3,從對(duì)比結(jié)果上來(lái)看,除SN本方法與現(xiàn)有方法相仿之外,SP、ACC和MCC本方法均有顯著提升,采用符號(hào)秩和檢驗(yàn)SP、ACC和MCC本方法差異達(dá)到5.24E-10、3.01E-09、5.19E-09,可以得出本方法在Duarte數(shù)據(jù)集上分類(lèi)效果優(yōu)于上述兩種方法的結(jié)論.
圖3 本文方法與Luo方法、EPPIC比較Fig.3 Comparison of the performances of our method and Luo's Method and EPPIC
本文提取了進(jìn)化特征和傳統(tǒng)特征,通過(guò)特征選擇構(gòu)建了一個(gè)高效的蛋白質(zhì)相互作用界面分類(lèi)模型.交叉驗(yàn)證和獨(dú)立測(cè)試的結(jié)果表明本方法可以達(dá)到較為理想的預(yù)測(cè)效果.與現(xiàn)有方法相比,本方法大幅度降低了特征維度,卻并沒(méi)有降低分類(lèi)效果.然而也有不完善的地方,如備選特征數(shù)目較少,對(duì)特征的生物學(xué)意義挖掘不深等,這些問(wèn)題將是作者下一步研究的重點(diǎn).
[1] Jones S,JM Thornton. Analysis of protein-protein interaction sites using surface patches[J]. Journal of Molecular Biology, 1997, 272(1): 121-132.
[2] Duarte J M, Srebniak A, Scharer, M A, et al. Protein interface classification by evolutionary analysis[J]. BMC Bioinformatics, 2012, 13(1): 334-334.
[3] Luo J, Guo Y, Fu Y, et al. Effective discrimination between biologically relevant contacts and crystal packing contacts using new determinants[J]. Proteins, 2014, 82(11): 3090-3100.
[4] Bernauer J, Bahadur R P, Rodier, et al. DiMoVo: a Voronoi tessellation-based method for discriminating crystallographic and biological protein-protein interactions[J]. Bioinformatics, 2008, 24(5): 652-658.
[5] Ponstingl H, Kabir T, Thornton J M. Automatic inference of protein quaternary structure from crystals[J]. Journal of Applied Crystallography, 2003, 36(5): 1116-1122.
[6] Saha R P, Bahadur R P, Pal A, et al. ProFace: a server for the analysis of the physicochemical features of protein-protein interfaces[J]. BMC Struct Biol, 2006, 6: 11.
[7] Capra J A, Singh M. Predicting functionally important residues from sequence conservation[J]. Bioinformatics, 2007,23(15): 1875-1882.
[8] Mirny L A, Shakhnovich E I. Universally conserved positions in protein folds: reading evolutionary signals about stability, folding kinetics and function[J]. Journal of Molecular Biology, 1999, 291(1): 177-196.
[9] Caffrey D R, Somaroo S, Hughes J, et al. Are protein-protein interfaces more conserved in sequence than the rest of the protein surface[J]. Protein Science, 2004, 13(1): p. 190-202.
[10] Lin J, Divergence measures based on the Shannon entropy[J]. IEEE Transactions on Information Theory, 1991,37(1): 145-151.
[11] 姚 旭, 王曉丹, 張玉璽, 等. 特征選擇方法綜述[J]. 控制與決策,2012,27(2):161-166.
StudyonProtein-ProteinInterfacialClassificationBasedonMulti-featureFusion
ChenXinhao,HuJian
(College of Biomedical Engineering, South-Central University for Nationalities, Wuhan 430074, China)
Q811.4
A
1672-4321(2017)03-0080-04
2017-03-30
陳心浩(1968-),男,副教授,研究方向:醫(yī)學(xué)圖像處理與傳輸,E-mail: xinhaochen@mail.scuec.edu.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(61002046);中央高校基本科研業(yè)務(wù)專(zhuān)項(xiàng)基金項(xiàng)目(CZP17025)