(1. 天津科技大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,天津 300222;2. 天津瑞和天孚科技有限公司,天津 300384)
(1. 天津科技大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,天津 300222;2. 天津瑞和天孚科技有限公司,天津 300384)
針對(duì)蛋白質(zhì)相互作用界面中的熱點(diǎn)殘基是局部緊湊地聚集著,而現(xiàn)有的基于機(jī)器學(xué)習(xí)的熱點(diǎn)殘基預(yù)測(cè)方法僅從目標(biāo)殘基中提取特征,并沒有考慮目標(biāo)殘基的局部空間結(jié)構(gòu)信息,以及如何進(jìn)行特征提取并獲得非冗余的特征子集等問(wèn)題,為準(zhǔn)確識(shí)別蛋白質(zhì)相互作用界面的熱點(diǎn)殘基,提出結(jié)合蛋白質(zhì)相互作用界面殘基的空間鄰近殘基信息提取多類特征,并利用隨機(jī)森林來(lái)進(jìn)行特征提取,最后利用支持向量機(jī)來(lái)預(yù)測(cè)熱點(diǎn)殘基的方法.計(jì)算實(shí)驗(yàn)表明,該預(yù)測(cè)方法可以有效地用來(lái)發(fā)現(xiàn)熱點(diǎn)殘基.
蛋白質(zhì)相互作用界面;熱點(diǎn);支持向量機(jī);隨機(jī)森林
蛋白質(zhì)經(jīng)常通過(guò)蛋白質(zhì)間相互作用來(lái)行使其功能,例如信號(hào)傳導(dǎo)網(wǎng)絡(luò)和代謝網(wǎng)絡(luò)中的蛋白質(zhì)復(fù)合物,而蛋白質(zhì)相互作用界面是蛋白質(zhì)相互作用發(fā)生的物理載體.實(shí)驗(yàn)證明蛋白質(zhì)相互作用界面上殘基的結(jié)合能量并不是均勻分布的,而是一些殘基的結(jié)合能量較大而且僅占界面殘基的一小部分,這些對(duì)于蛋白質(zhì)結(jié)合起關(guān)鍵作用的殘基稱為熱點(diǎn)(hot spots)[1].丙氨酸掃描變異(Alanine scanning mutagenesis)是目前主要的識(shí)別熱點(diǎn)的實(shí)驗(yàn)方法,其基本原理是把界面上的單個(gè)殘基替換成丙氨酸,并測(cè)得替換以后殘基結(jié)合能量的變化值.選擇丙氨酸作為替換殘基是因?yàn)楸彼岬膫?cè)鏈僅有一個(gè)碳原子,并且替換后不改變主鏈構(gòu)象,也不會(huì)產(chǎn)生很大的靜電或者位阻效應(yīng)[2].由于其實(shí)驗(yàn)過(guò)程較為復(fù)雜,目前獲得的丙氨酸掃描變異數(shù)據(jù)很少,主要存放在丙氨酸掃描變異數(shù)據(jù)庫(kù)ASEdb[3]和結(jié)合界面殘基數(shù)據(jù)庫(kù) BID[4]中.目前,已經(jīng)有一些研究工作來(lái)刻畫熱點(diǎn)殘基的序列和結(jié)構(gòu)特點(diǎn),例如:分析熱點(diǎn)殘基和非熱點(diǎn)殘基的氨基酸組成,發(fā)現(xiàn)色氨酸、精氨酸和酪氨酸更易形成熱點(diǎn)殘基,而亮氨酸、絲氨酸、蘇氨酸和纈氨酸更易形成非熱點(diǎn)殘基[5];O環(huán)理論認(rèn)為蛋白質(zhì)相互作用界面的熱點(diǎn)被對(duì)結(jié)合能量貢獻(xiàn)不大的殘基形成環(huán)并包裹著,這些形成環(huán)的殘基用來(lái)隔離熱點(diǎn)殘基和水分子[6].
基于已有的對(duì)熱點(diǎn)殘基的序列和結(jié)構(gòu)特點(diǎn)的研究,目前有一些基于機(jī)器學(xué)習(xí)的方法來(lái)預(yù)測(cè)蛋白質(zhì)相互作用界面熱點(diǎn),并取得了相對(duì)較高的預(yù)測(cè)精度[7],但是相關(guān)研究領(lǐng)域仍有一些問(wèn)題存在,具體表現(xiàn)為:(1)蛋白質(zhì)相互作用界面中的熱點(diǎn)殘基被發(fā)現(xiàn)是局部緊湊地聚集著,而現(xiàn)有的熱點(diǎn)殘基預(yù)測(cè)方法僅從目標(biāo)殘基中提取特征并用來(lái)訓(xùn)練分類器,如何有效地利用目標(biāo)殘基的局部空間結(jié)構(gòu)信息來(lái)提高預(yù)測(cè)精度是需要考慮的;(2)盡管目前已經(jīng)提出了許多分類特征,如何進(jìn)行特征提取并獲得非冗余的分類特征也是需要考慮的.
本文從目標(biāo)殘基及它的2個(gè)空間相鄰殘基,即相互作用界面另一側(cè)的距離最近的殘基(鏡面接觸殘基)和同一側(cè)的距離最近的殘基(內(nèi)部接觸殘基),來(lái)獲取分類特征;然后結(jié)合隨機(jī)森林來(lái)估計(jì)分類特征的重要性,并進(jìn)行特征提??;最后利用支持向量機(jī)來(lái)有效地整合特征并用于熱點(diǎn)殘基預(yù)測(cè).
首先從丙氨酸掃描變異數(shù)據(jù)庫(kù)(ASEdb)中獲取含有丙氨酸掃描變異殘基的蛋白質(zhì)鏈及相關(guān)復(fù)合物.對(duì)于蛋白質(zhì)相互作用界面殘基,當(dāng)其結(jié)合能量的變化值(ΔΔG)≥8.364,kJ/mol時(shí),定義該殘基為熱點(diǎn)[7].這樣,訓(xùn)練集包括來(lái)自20個(gè)蛋白質(zhì)復(fù)合物中的318個(gè)丙氨酸掃描變異殘基,其中 77個(gè)殘基是熱點(diǎn)殘基,241個(gè)殘基是非熱點(diǎn)殘基.另外,利用BID中的數(shù)據(jù)集作為獨(dú)立測(cè)試集,包括 18個(gè)蛋白質(zhì)復(fù)合物中的125個(gè)界面殘基,其中 38個(gè)殘基是熱點(diǎn)殘基,87個(gè)殘基是非熱點(diǎn)殘基.關(guān)于訓(xùn)練集和測(cè)試集的詳細(xì)描述參見文獻(xiàn)[7].
2.1 分類特征描述
對(duì)于蛋白質(zhì)相互作用界面殘基,本文設(shè)計(jì)了多個(gè)分類特征描述符,用于熱點(diǎn)預(yù)測(cè)和分類,并且基于它們的不同來(lái)源和性質(zhì),將其大體分為5類[7].
2.1.1 原子接觸數(shù)和原子接觸面積
對(duì)于2個(gè)殘基中的各自1個(gè)原子,通過(guò)CSU程序[8]定義它們的接觸關(guān)系(contact atoms),其是基于原子間的距離以及所在環(huán)境的擁擠程度來(lái)確定的.進(jìn)而,對(duì)于 1個(gè)殘基i,通過(guò)對(duì)殘基i與相互作用界面中其他殘基j的接觸原子數(shù)目求和來(lái)定義殘基i的原子接觸數(shù).另外,通過(guò)對(duì)相互作用界面另一側(cè)殘基 j的原子接觸面積求和來(lái)定義殘基i的原子接觸面積.
2.1.2 殘基接觸數(shù)和物理化學(xué)特征
2個(gè)殘基中如果至少有 1對(duì)接觸原子(2個(gè)原子分別來(lái)自于2個(gè)殘基),則這2個(gè)殘基稱為接觸殘基(contact residues).對(duì)于殘基i,利用相互作用界面中的接觸殘基 j的數(shù)目定義殘基i的殘基接觸數(shù).另外,考慮殘基i的6個(gè)物理化學(xué)特征(包括疏水性、親水性、等電點(diǎn)、質(zhì)量、極性和極化率),其中i的每個(gè)物理化學(xué)特征通過(guò)對(duì)所有接觸殘基j的相應(yīng)物理化學(xué)參數(shù)求和以定義殘基i的物理化學(xué)特征.
2.1.3 相對(duì)可及表面積和相對(duì)側(cè)鏈可及表面積
可及表面積是指生物分子對(duì)于溶劑的可接觸表面積,殘基的可及表面積與蛋白質(zhì)的功能和活性位點(diǎn)有密切關(guān)系.這里殘基的相對(duì)可及表面積和相對(duì)側(cè)鏈可及表面積分別度量了殘基和側(cè)鏈在形成蛋白質(zhì)復(fù)合物后的可及表面積的變化率.
2.1.4 深度指數(shù)
原子的深度定義為該原子和最近的溶劑可及原子之間的距離.這里通過(guò) PSAIA程序[9]計(jì)算殘基的以下特征描述符:平均深度指數(shù)(殘基所有原子的平均深度指數(shù))、深度指數(shù)的標(biāo)準(zhǔn)差、側(cè)鏈平均深度指數(shù)(側(cè)鏈所有原子的平均深度指數(shù))、側(cè)鏈深度指數(shù)的標(biāo)準(zhǔn)差.另外,本文還計(jì)算了殘基和側(cè)鏈的相對(duì)深度指數(shù)(分別為殘基和側(cè)鏈在形成蛋白質(zhì)復(fù)合物后的平均深度指數(shù)的變化率).
2.1.5 二級(jí)結(jié)構(gòu)和氨基酸分類
殘基的二級(jí)結(jié)構(gòu)包括螺旋、折疊或卷曲.另外,基于偶極矩與側(cè)鏈體積,20種蛋白質(zhì)氨基酸被分為6類,第 1類:天冬氨酸、谷氨酸;第 2類:精氨酸、賴氨酸;第 3類:丙氨酸、甘氨酸、纈氨酸;第 4類:酪氨酸、甲硫氨酸、蘇氨酸、絲氨酸、半胱氨酸;第 5類:異亮氨酸、亮氨酸、苯丙氨酸、脯氨酸;第 6類:組氨酸、天冬酰胺、谷氨酰胺、色氨酸.因此,這部分包括2個(gè)離散特征描述符,其變量取值個(gè)數(shù)分別為3和6.
基于上面5類特征,對(duì)于1個(gè)殘基共有19個(gè)特征描述符.為了考慮目標(biāo)殘基的空間結(jié)構(gòu)信息,本研究從目標(biāo)殘基、鏡面接觸殘基和內(nèi)部接觸殘基獲取分類特征描述符,并作為目標(biāo)殘基的特征.這樣對(duì)于 1個(gè)目標(biāo)殘基,獲取的特征個(gè)數(shù)為57.
2.2 特征選擇
特征選擇是訓(xùn)練分類器前的重要一步,并且其通過(guò)去掉冗余和不相關(guān)的特征,提高分類器的預(yù)測(cè)性能.在這里,對(duì)目標(biāo)殘基共提出了57個(gè)特征,這樣的特征集可能會(huì)引起模型的過(guò)擬合,因此,使用隨機(jī)森林挑選出重要的特征,以便更好地區(qū)別熱點(diǎn)殘基和非熱點(diǎn)殘基.
隨機(jī)森林是包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定.在決定類別的同時(shí),隨機(jī)森林還提供了評(píng)估變量重要性的方法,其中最常用的是基于袋外數(shù)據(jù)(OOB)的特征值隨機(jī)擾動(dòng)后,度量其袋外數(shù)據(jù)分類精度的平均下降值.利用該度量方法進(jìn)行特征選擇,并通過(guò)R軟件包randomForest進(jìn)行計(jì)算.
2.3 分類算法
支持向量機(jī)是一種監(jiān)督式學(xué)習(xí)的方法,廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析.支持向量機(jī)將向量映射到更高維的空間里,在這個(gè)空間里建立有1個(gè)最大間隔超平面.在分開數(shù)據(jù)的超平面的兩邊建有 2個(gè)互相平行的超平面,分隔超平面使2個(gè)平行超平面的距離最大化.這里通過(guò) R軟件包 e1071建立支持向量機(jī)分類器.
2.4 預(yù)測(cè)性能的度量
為了度量所提熱點(diǎn)預(yù)測(cè)方法的分類性能,本文采用一些常用的指標(biāo),包括預(yù)測(cè)精度(nACC)、敏感性(nSE)、準(zhǔn)確率(nPR)、特異性(nSP)和 Matthew相關(guān)系數(shù)(nMCC).這些指標(biāo)的具體定義如下:
式中 nTP、nFP、nTN和 nFN分別表示真正類的數(shù)量(正確預(yù)測(cè)的熱點(diǎn)殘基)、假正類的數(shù)量(非熱點(diǎn)殘基被錯(cuò)誤地預(yù)測(cè)為熱點(diǎn)殘基)、真負(fù)類的數(shù)量(正確預(yù)測(cè)的非熱點(diǎn)殘基)和假負(fù)類的數(shù)量(熱點(diǎn)殘基被錯(cuò)誤地預(yù)測(cè)為非熱點(diǎn)殘基).
ROC曲線是用構(gòu)圖法揭示敏感性與特異性的相互關(guān)系,曲線本身以及相伴隨的指標(biāo)——曲線下面積(nAUC)常被用來(lái)度量分類器的預(yù)測(cè)性能,nAUC值越接近于1,說(shuō)明分類效果越好.
3.1 估計(jì)特征的重要性
利用隨機(jī)森林估計(jì)初始 57個(gè)特征的重要性.表1給出了前 16個(gè)重要特征,是基于袋外數(shù)據(jù)分類精度的平均下降值排序的.
針對(duì)表1中的16個(gè)重要特征,對(duì)于目標(biāo)殘基和鏡面接觸殘基,依據(jù) 2.1節(jié)對(duì)特征描述符的分類,從每類特征描述符中選取1個(gè)最重要特征(利用表1衡量特征的重要性),最終選擇了7個(gè)特征(目標(biāo)殘基的原子接觸面積、目標(biāo)殘基的質(zhì)量、鏡面接觸殘基的殘基接觸數(shù)、目標(biāo)殘基的相對(duì)側(cè)鏈可及表面積、鏡面接觸殘基的相對(duì)側(cè)鏈可及表面積、目標(biāo)殘基的側(cè)鏈平均深度指數(shù)、鏡面接觸殘基的平均深度指數(shù)),用于支持向量機(jī)分類器的建立.
表1 利用隨機(jī)森林估計(jì)的前16個(gè)重要特征Tab. 1 The first 16 important characteristics evaluated by random forests
3.2 基于訓(xùn)練集的5折交叉驗(yàn)證
在訓(xùn)練集上通過(guò) 5折交叉驗(yàn)證檢驗(yàn)基于支持向量機(jī)的分類器的預(yù)測(cè)性能.數(shù)據(jù)集被隨機(jī)分成樣本數(shù)量近似相等的 5份,然后依次選擇每 1份為測(cè)試集,剩下的 4份為訓(xùn)練集,建立分類器.基于該計(jì)算過(guò)程,預(yù)測(cè)精度nACC=84.0%,敏感性nSE=46.8%,準(zhǔn)確率 nPR=78.3%,特異性 nSP=95.9%,Matthew相關(guān)系數(shù)nMCC=0.519.另外,圖1給出了分類器的ROC曲線,其曲線下面積 nAUC=0.762.這些預(yù)測(cè)結(jié)果顯示:采用所選特征,利用基于支持向量機(jī)方法能夠有效地區(qū)分熱點(diǎn)殘基和非熱點(diǎn)殘基.
圖1 支持向量機(jī)分類器的ROC曲線Fig. 1 ROC curve of support vector machine classifier
為了進(jìn)一步考察各類物理量對(duì)于熱點(diǎn)預(yù)測(cè)性能的影響,依次刪除不同物理量后,同樣采用 5折交叉驗(yàn)證的方法計(jì)算 ROC曲線下面積 nAUC,結(jié)果見表2.可以看出,刪除不同物理量后,nAUC值均有所減小,所以這些物理量都有助于熱點(diǎn)預(yù)測(cè)性能的提高.
表2 依次刪除不同物理量后在訓(xùn)練集上的預(yù)測(cè)性能比較Tab. 2 Comparison of predicting performance in the training set after subtracting each physical quantity
3.3 獨(dú)立測(cè)試集上的預(yù)測(cè)性能
在獨(dú)立測(cè)試集上比較所提方法和已有熱點(diǎn)預(yù)測(cè)方法的預(yù)測(cè)性能.現(xiàn)有的熱點(diǎn)預(yù)測(cè)方法主要包括基于能量的方法 Robetta[10]和 FOLDEF[11]、基于決策樹的方法 KFC[12]以及經(jīng)驗(yàn)方法 HotPoint[13].表 3給出了不同方法的預(yù)測(cè)性能,其中這些比較方法的預(yù)測(cè)結(jié)果是通過(guò)它們各自的網(wǎng)頁(yè)服務(wù)器計(jì)算獲得的.本文基于支持向量機(jī)的預(yù)測(cè)方法的預(yù)測(cè)結(jié)果為nPR=60.0%,nSE=31.6%,nSP=90.8%,nACC=72.8%,nMCC= 0.281.從表 3可以看出,本文方法在準(zhǔn)確率、特異性和預(yù)測(cè)精度方面要優(yōu)于其他熱點(diǎn)預(yù)測(cè)方法,并且相對(duì)于其他預(yù)測(cè)方法的最好結(jié)果,其分別提高了 8%,3.4%和2.4%.
表3 不同熱點(diǎn)預(yù)測(cè)方法在測(cè)試集上的性能比較Tab. 3 Comparison of different hot spot predicting methods in the test set
本文提出了一種新的計(jì)算方法以識(shí)別蛋白質(zhì)相互作用界面的熱點(diǎn),即從目標(biāo)殘基、鏡面接觸殘基和內(nèi)部接觸殘基獲取各類特征,并且利用隨機(jī)森林選擇重要特征,最后利用支持向量機(jī)有效整合這些特征.計(jì)算結(jié)果表明,該方法可以有效地用于熱點(diǎn)預(yù)測(cè).文中計(jì)算用的數(shù)據(jù)集和代碼可從以下網(wǎng)址下載:http://sourceforge.net/projects/tustbioinfor/files/.
[1] Bogan A A,Thorn K S. Anatomy of hot spots in protein interfaces[J]. Journal of Molecular Biology,1998,280(1):1-9.
[2] Cunningham B C,Wells J A. High-resolution epitope mapping of hgh-receptor interaction by alanine-scanning mutagenesis[J]. Science,1989,244(4908):1081-1085.
[3] Thorn K S,Bogan A A. ASEdb:A database of alanine mutations and their effects on the free energy of binding in protein interactions[J]. Bioinformatics,2001,17(3):284-285.
[4] Fischer T B,Arunachalam K V,Bailey D,et al. The binding interface database(BID):A compilation of amino acid hot spots in protein interfaces[J]. Bioinformatics,2003,19(11):1453-1454.
[5] Moreira I S,F(xiàn)emandes P A,Ramos M J. Hot spots-A review of the protein-protein interface determinant amino-acid residues[J]. Proteins,2007,68(4):803-812.
[6] Li X,Keskin O,Ma B,et al. Protein-protein interactions:Hot spots and structurally conserved residues often locate in complemented pockets that preorganized in the unbound states:Implications for docking[J]. Journal of Molecular Biology,2004,344(3):781-795.
[7] Wang L,Liu Z P,Zhang X S,et al. Prediction of hot spots in protein interfaces using a random forest model with hybrid features[J]. Protein Engineering Design and Selection,2012,25(3):119-126.
[8] Sobolev V,Sorokine A,Prilusky J,et al. Automated analysis of interatomic contacts in proteins[J]. Bioinformatics,1999,15(4):327-332.
[9] Mihel J,Sikic M,Tomic S,et al. PSAIA-protein structure and interaction analyzer[J]. BMC Structural Biology,2008,8(1):21.
[10] Kortemme T,Baker D. A simple physical model for bind ing energy hot spots in protein-protein complexes[J]. Proceedings of the National Academy of Sciences of the United States of America,2002,99(22):14116-14121.
[11] Guerois R,Nielsen J E,Serrano L. Predicting changes in the stability of proteins and protein complexes:A study of more than 1000 mutations[J]. Journal of Molecular Biology,2002,320(2):369-387.
[12] Darnell S,Page D,Mitchell J C. An automated decisiontree approach to predicting protein interaction hot spots[J]. Proteins,2007,68(4):813-823.
[13] Tuncbag N,Gursoy A,Keskin O. Identification of computational hot spots in protein interfaces:Combining solvent accessibility and inter-residue potentials improves the accuracy[J]. Bioinformatics,2009,25(12):1513-1520.
基于支持向量機(jī)的蛋白質(zhì)相互作用界面熱點(diǎn)殘基預(yù)測(cè)
暢衛(wèi)功1,李 灝2,王 林1,楊海波1
Predicting of Hot Spots at Protein Interfaces Using Support Vector Machines
CHANG Weigong1,LI Hao2,WANG Lin1,YANG Haibo1
(1. College of Computer Science and Information Engineering,Tianjin University of Science & Technology,Tianjin 300222,China;2. Tianjin Rui He Tian Fu Science & Technology Ltd. Co.,Tianjin 300384,China)
Hot spots at protein interfaces were found to be clustered within locally and tightly packed regions. However,the existing machine learning based on hot spot prediction methods only gets features from the target residue,and does not consider the local spatial information of the target residue. Meanwhile,how to conduct the feature selection and obtain the subsets without redundant features should also be considered. In order to accurately identify hot spot residues at protein interfaces,this research tried to get various features by taking into consideration the spatial neighbor residues of each interface residue,and the feature selection was conducted by using random forests. Thereafter,the support vector machine was employed to predict the hot spots at protein interfaces. Computational experiments show that our prediction method can effectively discover hot spot residues.
protein interface;hot spot;support vector machine;random forest
TP399;Q816 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1672-6510(2015)02-0070-05
10.13364/j.issn.1672-6510.20140075
2014-05-14;
2014-08-28
天津市高等學(xué)校科技發(fā)展基金資助項(xiàng)目(20120803);天津市科技支撐計(jì)劃重點(diǎn)資助項(xiàng)目(12ZCZDGX02400)
暢衛(wèi)功(1974—),男,山西人,講師,wgchang@tust.edu.cn.
常濤