王明會,龔 藝,王 強,馮煥清,李 驁
(中國科學(xué)與技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230027)
整合序列與蛋白相互作用特征的亞細胞定位預(yù)測
王明會,龔 藝,王 強,馮煥清,李 驁
(中國科學(xué)與技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230027)
提出了一種基于序列和PPI特征的距離公式,可綜合序列氨基酸組成和PPI對象、強弱等信息對兩個蛋白質(zhì)的相似性進行表征,并在此基礎(chǔ)上提出了一種用于蛋白質(zhì)亞細胞定位預(yù)測的K近鄰算法。利用留一法對性能進行了評估,結(jié)果顯示,在序列基礎(chǔ)上加入PPI特征,可明顯有助于亞細胞定位的預(yù)測;同時基于上述距離的K近鄰算法也優(yōu)于使用相同特征的SVM算法,表明該算法可以對蛋白質(zhì)的亞細胞定位信息進行準(zhǔn)確有效的預(yù)測。
生物信息學(xué); K近鄰算法; 蛋白質(zhì)相互作用; 亞細胞定位
生物體細胞內(nèi)存在許多細胞區(qū)域和細胞器,蛋白質(zhì)合成后只有轉(zhuǎn)運到正確的細胞器或區(qū)域中才能發(fā)揮作用,參與各種生命活動。因此蛋白質(zhì)的亞細胞定位(subcellular localization)信息對于揭示蛋白質(zhì)的功能及其生命活動中發(fā)揮的作用是必不可少的[1-3]。同時,蛋白質(zhì)亞細胞定位在藥物設(shè)計、藥物靶點的辨別和優(yōu)化等方面也發(fā)揮著重要的作用。
目前可確定蛋白質(zhì)亞定位的傳統(tǒng)實驗技術(shù)主要有綠色熒光蛋白標(biāo)記[1]等,但由于實驗效率較低,已經(jīng)無法滿足當(dāng)前蛋白質(zhì)組學(xué)快速發(fā)展的需求。為解決上述問題,利用生物信息學(xué)方法進行蛋白質(zhì)亞細胞定位的研究現(xiàn)已取得了相當(dāng)多的成果[4-8]。這些方法首先提取反映蛋白質(zhì)亞細胞定位的相關(guān)特征信息,并將其轉(zhuǎn)化成輸入特征向量,在此基礎(chǔ)上選擇合適的機器學(xué)習(xí)和統(tǒng)計學(xué)方法加以預(yù)測?,F(xiàn)有研究表明,以氨基酸組成(amino acid composition,AAC)為主的蛋白質(zhì)序列信息對預(yù)測其亞定位有很大的幫助,蛋白質(zhì)的序列相似程度越高,則其越趨向于存在于相同的細胞區(qū)域或細胞器內(nèi),因此是目前蛋白質(zhì)亞細胞定位中的常用特征[4-8]。但是,僅通過序列特征并不能反映蛋白質(zhì)亞細胞定位的全部信息,相應(yīng)的預(yù)測方法性能不夠理想。另一方面,蛋白-蛋白相互作用(protein-protein Interaction,PPI)是反映蛋白相互作用和功能特性關(guān)系的重要特征[9-11],蛋白質(zhì)存在相互作用的前提是共處于細胞的同一位置,因此如果兩個蛋白質(zhì)存在較明顯的相互作用,則其很可能存在共同的亞細胞定位。因此,如能合理使用PPI信息,將有效地提高蛋白質(zhì)亞細胞定位的預(yù)測性能。
蛋白質(zhì)亞細胞定位的常用預(yù)測算法有支持向量機(support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)等[1]。SVM是一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)方法,該方法在結(jié)構(gòu)風(fēng)險最小化的原則下,保證最小的分類錯誤率,其缺點是在輸入特征維數(shù)很高時算法復(fù)雜度大,同時性能不夠理想。K近鄰是一種簡單有效的有監(jiān)督分類方法,但是需預(yù)先定義數(shù)據(jù)之間的距離,目前大多方法是根據(jù)氨基酸組成等序列信息計算兩個蛋白質(zhì)的歐式距離[1-2,8],但這種距離計算方法無法有效地整合蛋白質(zhì)PPI信息。
針對上述問題,本文提出了一種結(jié)合PPI和氨基酸組成信息的距離公式,用以綜合評估兩個蛋白質(zhì)在序列和內(nèi)在功能特性上的相似性,在此基礎(chǔ)上利用K近鄰算法對數(shù)據(jù)進行了訓(xùn)練和測試,取得了令人滿意的效果。
1.1 數(shù)據(jù)
本文從現(xiàn)有的Uniprot、Organelle和LOCATE3個蛋白質(zhì)數(shù)據(jù)庫中獲得相關(guān)的蛋白質(zhì)亞定位信息,從中提取出有亞定位標(biāo)注的人類蛋白質(zhì),并對其進行BLAST去冗余和去除序列過短的蛋白質(zhì),最終提取胞外區(qū)、細胞核、細胞質(zhì)、細胞骨架、細胞膜共5個具有代表性的亞細胞定位,具體信息如表1所示。此外,為獲得相關(guān)蛋白質(zhì)的PPI信息,從生物信息學(xué)數(shù)據(jù)庫STRING中下載了全部共80 138條PPI記錄,每條記錄中都包括一對相互作用的蛋白質(zhì)和相互作用強弱的數(shù)值,采用1~1 000之內(nèi)的整數(shù)表示。
1.2 評價方法
為了檢驗算法的有效性,在評估算法性能的過程中采用以下4個評價指標(biāo):敏感性(Sn)、特異性(Sp)、準(zhǔn)確率(ACC)和馬氏相關(guān)系數(shù)(MCC),分別定義為:
式中,TN、TP、FN、FP分別表示用該模型測試得到的真陰性、真陽性、假陰性和假陽性數(shù)據(jù)的數(shù)目;Sn反映模型對陽性數(shù)據(jù)的預(yù)測水平;Sp反映模型對陰性數(shù)據(jù)的預(yù)測水平;ACC反映整體數(shù)據(jù)的正確預(yù)測率;MCC反映了模型對整體數(shù)據(jù)的預(yù)測水平。
1.3 算法
K近鄰算法的基本思想是:對于一個分類標(biāo)簽的測試樣本,通過找到訓(xùn)練數(shù)據(jù)集中距離它最近的k個近鄰,再通過這k個近鄰的分類標(biāo)簽來確定該測試樣本的標(biāo)簽,因此確定測試樣本的近鄰是決定該算法性能的重要因素。在蛋白質(zhì)亞細胞定位的預(yù)測研究中,對蛋白質(zhì)P可使用氨基酸組成特征向量AACP表征其序列信息,有:
式中,fi(i=1,2,,20)表示第i種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率。在此基礎(chǔ)上,可以定義任意兩個蛋白質(zhì)P、P′之間的距離,實際中通常采用歐氏距離進行計算,如表2所示。
由于PPI強弱關(guān)系的數(shù)值與上述歐式距離在分布上具有明顯的差異,因此為將兩者相結(jié)合,采用了加權(quán)混合的方式計算兩個存在相互作用的蛋白間的距離,有:
式中,dPPI(P,P′)表示蛋白質(zhì)P、P′之間相互作用的強弱數(shù)值,若兩個蛋白之間的PPI作用越明顯,則其之間的距離越近;c為預(yù)先指定的權(quán)重系數(shù)。
在使用SVM算法進行性能比較時,所使用的PPI特征向量為:
式中,M為PPI數(shù)據(jù)集中出現(xiàn)的蛋白質(zhì)總數(shù);pi(i=1,2,,M)表示該蛋白質(zhì)P與第i個蛋白質(zhì)相互作用的強弱數(shù)值,如果沒有相互作用即為0。由此將氨基酸組成和PPI特征結(jié)合得到輸入SVM的最終特征向量為:
為檢驗蛋白質(zhì)亞細胞定位與蛋白之間相互作用的聯(lián)系,首先利用獲得的PPI信息構(gòu)建了PPI的網(wǎng)絡(luò),同時將網(wǎng)絡(luò)節(jié)點的蛋白質(zhì)亞細胞定位信息用不同顏色標(biāo)示出來,如圖1所示。由圖可以看出,該網(wǎng)絡(luò)由多個聚類構(gòu)成,每種聚類分別對應(yīng)于具有相同定位的蛋白質(zhì),它們之間具有密切的相互作用關(guān)系。而處于不同定位的蛋白質(zhì)之間盡管也存在一定程度的聯(lián)系,但相對共定位的蛋白而言其PPI作用明顯降低。因此,蛋白質(zhì)PPI信息可以反映出蛋白質(zhì)之間在亞細胞定位方面的內(nèi)在聯(lián)系。
本文提出的K近鄰算法中有兩個重要參數(shù):近鄰數(shù)k和計算蛋白距離公式中的系數(shù)c。在數(shù)據(jù)的訓(xùn)練和性能評估時,需要對上述參數(shù)進行選擇以保證最優(yōu)的分類性能。本文采用常見的網(wǎng)格搜索策略在整個參數(shù)空間進行尋優(yōu),由于不同亞細胞定位的數(shù)據(jù)之間數(shù)目差別很大,因此使用了對有偏數(shù)據(jù)魯棒的馬氏相關(guān)系數(shù)(MCC)作為評估指標(biāo),如圖2所示。對于所有的亞細胞定位數(shù)據(jù),通過參數(shù)尋優(yōu)均可顯著提高預(yù)測性能。如對于胞外區(qū)數(shù)據(jù)選擇k=1、c=0時,預(yù)測結(jié)果的MCC僅為0.22;而通過網(wǎng)格搜索確定最優(yōu)參數(shù)k=3、c=0.5后,K近鄰算法的預(yù)測性能獲得明顯提升,其MCC達到了0.41。
為客觀評估亞細胞定位的預(yù)測性能,進一步使用留一法對本文的方法與僅使用氨基酸組成的K近鄰算法進行了比較,如表2所示。除了對細胞質(zhì)定位的靈敏度略低(1%)以外,本文算法的性能指標(biāo)均具較明顯的優(yōu)勢,如對于細胞核數(shù)據(jù)本文算法的馬氏相關(guān)系數(shù)和靈敏度分別達到了0.44和0.70,而使用氨基酸組成的K近鄰算法的相關(guān)指標(biāo)僅為0.36和0.62。上述結(jié)果表明,引入PPI信息有助于定位蛋白質(zhì)所屬的細胞區(qū)域并提升亞細胞定位的預(yù)測精度。此外,對相關(guān)研究中廣泛使用的SVM算法也進行了性能比較。由于SVM的性能同樣也受參數(shù)影響,因此在實驗中使用了LibSVM工具包[12]中提供的網(wǎng)格搜索函數(shù)對其進行了參數(shù)優(yōu)化。表2的結(jié)果顯示,本文算法在所有測試中均好于使用相同特征的SVM算法,這可能是由于輸入SVM的PPI特征維數(shù)過高造成的。因此,在使用氨基酸組成和PPI信息時,K近鄰算法能更好地對不同亞細胞區(qū)域進行區(qū)分。
本文探討了蛋白質(zhì)相互作用信息對蛋白質(zhì)亞細胞器定位預(yù)測的影響。通過網(wǎng)絡(luò)聚類分析的結(jié)果表明,存在密切作用關(guān)系的蛋白質(zhì)具有相同亞細胞定位的趨勢,因此上述信息可以用于蛋白質(zhì)的亞細胞定位的預(yù)測工作。為有效地整合蛋白質(zhì)序列和PPI信息,本文進一步提出了一種表征蛋白質(zhì)在序列和功能上相似性的距離公式,在此基礎(chǔ)上使用K近鄰算法獲得了明顯的性能提升。本文的工作為蛋白質(zhì)亞細胞定位提供了一種新的思路,對相關(guān)預(yù)測方法的研究具有積極的意義。
[1] KENICHIRO I, KENTA N. Prediction of subcellular locations of proteins: Where to proceed[J]. Proteomics, 2010(10): 3970-3983.
[2] CHOU Kuo-chen, WU Zhi-cheng, XIAO Xuan. iLoc-Hum: Using the accumulation-label scale to predict subcellular locations of human proteins with both single and multiple sites[J] . Mol BioSyst, 2012(8): 629-641.
[3] DU Pu-feng, YU Yuan. SubMito-PSPCP: Predicting protein submitochondrial locations by hybridizing positional specific physicochemical properties with pseudoamino acid compositions[J]. Biomed Res Int, 2013: 263829.
[4] PIERLEONI A, MARTELLI P L, CASADIO R. MemLoci: Predicting subcellular localization of membrane proteins in eukaryotes[J]. Bioinformatics, 2011, 27(9): 1224-1230.
[5] XIE Dan, LI Ao, WANG Ming-hui, et al. LOCSVMPSI: a web server for subcellular localization of eukaryotic proteins using SVM and profile of PSI-BLAST[J]. Nucleic Acids Research, 2005, 33(suppl 2): 105-110.
[6] LI Li-qi, ZHANG Yuan, ZOU Ling-yun, et al. An ensemble classifier for eukaryotic protein subcellular location prediction using gene ontology categories and amino acid hydrophobicity[J]. PLoS ONE, 2012, 7(1): e31057.
[7] MARCIN M, MARCIN P, JANUSZ B M. MetaLocGramN: a meta-predictor of protein subcellular localization for Gram-negative bacteria[J]. Biochimica ET Biophysica Acta (BBA)-Proteins and Proteomics, 2012, 1824(12): 1425-1433.
[8] CHOU Kuo-chen, SHEN Hong-bin. A new method for predicting the subcellular localization of eukaryotic proteins with both single and multiple sites: Euk-mPLoc 2.0[J]. PLoS ONE, 2010, 5(4): e9931.
[9] LIU Han-qing, BECK T N, GOLEMIS E A, et al. Integrating in silico resources to map a signaling network[M]. Methods Mol Biol, 2014, 1101: 197-245.
[10] LI Bi-qing, YOU Jin, CHEN Lei, et al. Identification of lung-cancer-related genes with the shortest path approach in a protein-protein interaction network[J]. BioMed Research International, 2013: 267375.
[11] PIETSCH J, RIWALDT S, BAUER J, et al. Interaction of proteins identified in human thyroid cells[J]. International Journal of Molecular Sciences, 2013, 14(1): 1164-1178.
[12] CHANG Chih-chung, LIN Chih-Jen. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27.
編 輯 黃 莘
Prediction of Protein Subcellular Localization by Incorporating Sequence and Protein-Protein Interaction Features
WANG Ming-hui, GONG Yi, WANG Qiang, FENG Huan-qing, and LI Ao
(School of Information Science and Technology, University of Science and Technology of China Hefei 230027)
Information of protein subcellular localization is indispensable to study protein function, as a protein can perform its function only after it is correctly transported to a specific subcellular compartment. Thus it is very important to provide accurate prediction of protein subcellular localization in biological studies. In contrast to sequence features (e.g. amino acids composition) that are widely used in subcellular localization prediction, features extracting protein-protein interaction (PPI) are largely ignored, although they reflect the co-localization information of different proteins. In this study, we propose a novel distance formula based on both protein sequence and PPI features, which precisely measures the similarity of proteins by incorporating protein information including amino acid composition, PPI and the corresponding interaction scores. Based on this distance formula, we further introduce a k-nearest neighbor (KNN) algorithm for predicting subcellular localization. The results of leave-one-out test on a benchmark dataset show that PPI features significantly improve the performance of protein subcellular localization. Meanwhile, this KNN algorithm also outperformes SVM algorithm adopting the same features, suggesting the efficiency of the proposed algorithm for predicting protein subcellular localization.
bioinformatics; K-nearest neighbor algorithm; protein-protein interaction; subcellular localization
TP391; Q71
A
10.3969/j.issn.1001-0548.2015.03.026
2013 ? 12 ? 18;
2014 ? 10 ? 27
國家自然科學(xué)基金(61101061, 31100955);中央高?;究蒲袠I(yè)務(wù)費專項資金(WK2100230011);高等學(xué)校博士學(xué)科點專項科研基金(20113402120028)
王明會(1982 ? ),女,博士,副教授,主要從事生物信息學(xué)和生物統(tǒng)計方面的研究.