高光芹,黃家榮,周俊朝,謝鵬芳(河南農業(yè)大學,鄭州450002)
doi:10.3969/j.issn.1672-5565.2015.03.04
楊樹蛋白質磷酸化位點預測
高光芹,黃家榮?,周俊朝,謝鵬芳
(河南農業(yè)大學,鄭州450002)
以小黑楊磷酸化蛋白質組為研究對象,用人工神經網(wǎng)絡表達絲氨酸、蘇氨酸等殘基位點的磷酸化與氨基酸序列的結構特征之間的非線性關系,建立了BP人工神經網(wǎng)絡模型,并用磷酸化數(shù)據(jù)對所建模型進行訓練和分析,得適宜的結構為21×16∶8∶4,擬合準確度為90%,Acc、Sn、Sp、MCC分別為78%、89%、67%、0.57,對比分析結果表明,所建模型具有較強的預測能力。
小黑楊;磷酸化蛋白質;磷酸化位點;人工神經網(wǎng)絡
在生物體內,由RNA翻譯形成的蛋白質都要經過翻譯后修飾才具有生物活性,致使生物蛋白質分子具有某些功能位點、活性部位或功能結構域[1]。磷酸化位點是最重要的蛋白質功能位點,對細胞功能起著重要的調節(jié)作用。蛋白質磷酸化是在蛋白激酶催化作用下,磷酸基團由供體分子轉移到蛋白質的含有羥基的氨基酸側鏈上的過程,是一個可逆的過程,幾乎調節(jié)著生命活動的所有過程。真核與原核生物的蛋白質磷酸化位點殘基不同,前者主要是絲氨酸(Serine,S)、蘇氨酸(Threonine,T)和酪氨酸(Tyrosine,Y)等殘基;后者主要是天冬氨酸(Aspartic acid,D)、谷氨酸(Glycine,G)和組氨酸(Histidine,H)等殘基。通過在磷酸化位點發(fā)生的酯化作用,改變蛋白質的結構、活性及其與其他分子相互作用的能力,在信號傳導、基因表達、細胞分裂等許多生物學過程的調控中起著重要作用[2-3]。隨著高通量鑒定磷酸化蛋白質技術的發(fā)展,尤其是質譜技術在蛋白質組學中的應用,磷酸化修飾數(shù)據(jù)不斷積累,將計算方法引入磷酸化蛋白質組學的研究中,將有利于發(fā)現(xiàn)新的磷酸化修飾規(guī)律,并為生物學實驗提供驗證信息?,F(xiàn)在,磷酸化位點預測方法,已從過去通過氨基酸序列預測發(fā)展出一系列新的算法[4-5],如人工神經網(wǎng)絡,支持向量機等。當前,已有大量的蛋白質磷酸化位點預測研究[6-10],也有專門針對特定物種的蛋白質磷酸化位點預測分析[11],但針對楊樹蛋白質磷酸化位點的預測研究尚未見報道。本文以小黑楊(Populus simonii×P nigra)磷酸化蛋白質組為研究對象,用人工神經網(wǎng)絡構建磷酸化位點預測模型,為相關研究奠定基礎。
1.1 樣本收集與組織
從文獻[12]鑒定提供的目前最大的木本植物磷酸化位點數(shù)據(jù)集下載小黑楊葉片蛋白質磷酸化位點(只有S和T殘基)前后各10個氨基酸殘基的序列106段,構成正樣本集;再從擬南芥磷酸化數(shù)據(jù)庫[13]按1∶1的比例下載對應的非磷酸化序列106段,構成負樣本集,樣式如表1。按樣本集順序每4個樣本抽取1個(共54段)組成檢驗樣本,剩下的3/4(共158段)作為訓練樣本。應用一種表2所示的新型氨基酸描述子[6,8]表征樣本的氨基酸結構,并自編MATLAB程序,將字符串樣本轉換為數(shù)值樣本。
表1 樣本集樣式Table 1 Type of sam ple set
表2 氨基酸描述子V樣式Table 2 Vscales for am ino acids
1.3 模型構建
以樣本序列的21個氨基酸殘基、每個殘基m個描述子變量構成的21×m個V變量串聯(lián)表征作為輸入向量,以關系式n=log2m計算隱含層應取的神經元數(shù),以樣本序列的中心殘基(S/T)是否被磷酸化構成的分類向量作為輸出向量,構建了結構為21×m∶n∶4楊樹蛋白質磷酸化位點神經網(wǎng)絡預測模型。
模型的圖形表達如圖1,圖中符號●、→、①、□、∫依次表示輸入層節(jié)點、信息流、輸入值為1的節(jié)點、神經元、對數(shù)S型作用函數(shù)。
模型的數(shù)學表達為:式中,Co為輸出層第o神經元的輸出變量;Hk為隱層第k神經元的輸出變量;Vi,j為輸入層第i殘基第j描述子節(jié)點的輸k神入經變元量的;連接權表示輸入層第(i,jk)節(jié)神點與隱層第;表示隱層第經元與輸出層第o神經元的連接權;、分別為隱層第k神經元、輸出層第o神經元的閾值;log sig()為MATLAB的對數(shù)S形函數(shù)。
1.4 模型訓練與檢驗
在進行模型訓練時,首先要在MATLAB系統(tǒng)中用氨基酸描述子對前面組織的字符串訓練樣本量化為數(shù)值樣本。因數(shù)據(jù)量很大,用MATLAB語言編程進行處理。處理得到的訓練樣本——輸入矩陣V和輸出矩陣C分別是(21×m)×L和4×158的數(shù)值矩陣。將定義好的訓練樣本導入圖形用戶界面(GUI),并按圖1進行網(wǎng)絡設置后,就可進行神經網(wǎng)絡模型的訓練,最后將名為“network N”的網(wǎng)絡對象等訓練結果導出GUI并保存。模型的擬合性能檢驗,用測量學的精度計算方法;預測性能檢驗用生物信息學中常用的評價指標——準確率Acc、靈敏度Sn、特異度Sp、馬修斯相關系數(shù)MCC[11,14],其算式如下:式中,TP—被正確分類的正(Positive)樣本數(shù)目;TN—被正確分類的負(Negative)樣本數(shù)目;FP—被錯誤分類的正樣本數(shù)目;FN—被錯誤分類的負樣本數(shù)目;T—總樣本數(shù)目。L
圖1 楊樹蛋白質磷酸化位點神經網(wǎng)絡預測模型(21×m∶n∶4)Fig.1 Neural network model forecasting phosphorylation sites of pop lar protein(21×m∶n∶4)
以158段和54段氨基酸序列的描述子量化數(shù)據(jù)作為訓練和檢驗樣本,對所建模型按輸入向量分為三種類型(Network1、Network2、Network3)進行訓練、檢驗和對比分析(見表3),得最好的模型為network3,其結構為21×16∶8∶4,擬合準確度為90%,預測的正確率Acc、靈敏度Sn、特異度Sp、馬修斯相關系數(shù)MCC等預測評價指標分別為78%、89%、67%、0.57。文獻[5]用SVM研究的結果依次為74%,72%,77%,0.49;文獻[6]基于SVM的氨基酸頻率計算預測水稻蛋白質磷酸化位點的結果依次為75%,76%,67%,0.47。對比結果表明,除Sp指標外,其余指標都明顯大于前人的研究結果,說明本文提出的模型network3也具有理想的蛋白質磷酸化位點預測能力。將network3重命名為NNFPSPP (Neural Network Forecasting Phosphorylation Site of Poplar Protein),其權值、閾值見表4,將其代入式(1),得楊樹蛋白質磷酸化位點神經網(wǎng)絡預測模型作用函數(shù)表達式,因輸入變量和權值、閾值個數(shù)多,不便在此列出。在實際應用時,直接調用其MATLAB仿真函數(shù)表達式:
式中,sum()為MATLAB的仿真函數(shù);NNFPSPP為訓練好的網(wǎng)絡對象,它儲存了網(wǎng)絡結構、屬性等全部參數(shù);V、C為模型的輸入、輸出向量。
表3 評價模型預測性能的指標Table 3 Indicators evaluating predict performance of themodel
表4 NNFPSPP的訓練結果Table 4 Straining results of NNFPSPP
在論文的研究過程中,從磷酸化位點數(shù)據(jù)庫下載、組建樣本集是一個相當費事的工作,需要輔助于計算機的數(shù)據(jù)處理功能。我們自編的將字符串樣本轉換為數(shù)值樣本的MATLAB程序,是一個有益的參考。
在準備好樣本集的基礎上,以樣本序列的21個氨基酸殘基、每個殘基m個描述子變量構成的21xm個V變量串聯(lián)表征作為輸入向量,以關系式n=log2m計算隱含層應取的神經元數(shù),以樣本序列的中心殘基(S/T)是否被磷酸化構成的分類向量作為輸出向量,構建了結構為21×m∶n∶4楊樹蛋白質磷酸化位點神經網(wǎng)絡預測模型。
以158段和54段氨基酸序列的描述子量化數(shù)據(jù)為訓練和檢驗樣本,對所建模型按輸入向量分三種類型(Network1、Network2、Network3)進行訓練、檢驗和對比分析,得適宜的模型結構為21×16∶8∶4,模型的擬合準確度為90%,Acc、Sn、Sp、MCC分別為78%、89%、67%、0.57,除Sp指標外,其余指標值都明顯優(yōu)于前人的研究。
本文的研究特色:(1)針對木本植物建立蛋白質磷酸化位點預測模型,將林木生物信息資源作為森林資源的重要組成部分,將林木生物信息學納入森林資源信息化管理研究,這對林學學科的發(fā)展將具有較大的促進作用;(2)將氨基酸序列片段與BP人工神經網(wǎng)絡整合在一起的楊樹蛋白質磷酸化位點神經網(wǎng)絡預測模型,簡單直觀,通俗易懂,數(shù)形統(tǒng)一;(3)用MATLAB的仿真函數(shù)表達的預測函數(shù)式,是一種超常規(guī)數(shù)學表達,形式簡捷,應用方便;(4)首次在木本植物中應用一種新型氨基酸描述子表征氨基酸性質與結構,使所建模型具有較強的預測能力。
應用的楊樹蛋白質磷酸化實驗數(shù)據(jù),只有S、T的磷酸化,沒有Y的磷酸化。這是否為楊樹生物信息的特性之一,有待進一步驗證。氨基酸性質與結構的新型描述子表征,可否明顯提高楊樹蛋白質結構預測的準確度[15],正作進一步研究。
前人對鑒定得到的磷酸化蛋白進行了細胞組件、分子功能及其所涉及的生物學途徑分類研究[12],結果表明,小黑楊蛋白質的磷酸化廣泛存在于細胞內的任何亞細胞結構,參與了幾乎全部生命活動過程。由此可以按結構與功能的關系判定,所收集和組織的建模樣本不會有很高的相似度,不會過高估計模型精度。
[1] 李伍舉,吳加金.蛋白質功能位點預測[J].生物化學與生物物理進展,1993,20(1):60-62. LIWuju,WU Jiajin.Prediction of protein function site [J].Progress of Biochemistry and Biophysics,1993,20 (1):60-62.
[2] GLADIASM,TERESA F.Protein phosphorylation path?ways disruption by pesticides[J].Advances in Biological Chemistry,2013,3,460-474.
[3] ELLEN D,F(xiàn)REEK G B,DIDIER V,et al.Detection of cardiacmyosin binding protein?C(cMyBP?C)by a phos?pho?specific PKD antibody in contracting rat cardiomyo?cytes[J].Advances in Bioscience and Biotechnology,2013,4,1-6.
[4] QUE S,WANG Y,CHEN P,et a1.Evaluation of protein phosphorylation site predictors[J].Protein and Peptide Letters,2010,17:64-69.
[5] 胡敏菁,吳建盛,施識帆,等.面向蛋白質功能位點識別的機器學習平臺構建[J].生物信息學,2010,8(1):12-15. HU Minjing,WU Jiansheng,SHI Shifan,et al.Machine learning platform for protein function sites prediction[J]. China Journal of Bioinformatics,2010,8(1):12-15.
[6] 李志良,李根容,舒茂,等.一種新型氨基酸拓撲結構信息矢量及在肽定量構效關系研究中的應用[J].中國科學B輯:化學,2008,38(8):745-754. LIZhiliang,LIGenrong,SHU Mao,et a1.A new type of amino acid topology information vector and application in research of peptide quantitative structure?activity relation?ship[J].China Science B:Chemistry,2008,38(8):745-754.
[7] 周鵬,周原,吳世容,等.一種基于三維原子場相互作用矢量的新型氨基酸結構信息描述子[J].科學通報,2008,51(1):34-39. ZHOU Peng,ZHOU Yuan,WU Shirong,et al.A new type of structure information descriptor for amino acid based on interaction vector in three dimensional atom field [J].Chinese Science Bulletin,2008,51(1):34-39.
[8] 舒茂.新型氨基酸結構表征方法及其在定量構效關系中應用研究[D].重慶:重慶大學,2009. SHU Mao.New Type of Characterization Method of Amino Acid Structure and its Application Research in Quantita?tive Structure?Activity Relationship[D].Chongqing:Chongqing University,2009.
[9] GAO J,THELEN J J,DUNKER A K,et al.Musite,a tool for global prediction of general and kinase specific phos?phorylation sites[J].Mol Cell Proteomics,2010,9(12):2586-600.
[10]NAKAGAMIH,SUGIYAMA N,MOCHIDA K,et al. Large?scale comparative hosphoproteomics identifies con?served phosphorylation sites in plants[J].Plant Physiolo?gy,2010,153:1161-1174.
[11]王偉,何華勤.基于SVM的氨基酸頻率計算預測水稻蛋白質磷酸化位點[J].赤峰學院學報(自然科學版),2014,30(3):11-13. WANGWei,HE Huaqin.Prediction of rice protein phos?phorylation site based on amino acid frequency calculation with SVM[J].Journal of Chifeng University(Natural Sci?ence Edition),2014,30(3):11-13.
[12]劉曉羽.小黑楊葉片磷酸化蛋白質組及類囊體膜蛋白復合體的鑒定與分析[D].哈爾濱:東北林業(yè)大學,2010. LIU Xiaoyu.Identification and Analysis of Phosphopro?teome and Thylakoid Membrane Protein Complex in Leaf Blade of Populus[D].Harbin:Northeast Forestry Univer?sity,2010.
[13]HEAZLEWOOD J L,DUREK P,HUMMEL J,et al.Phos?PhAt:a database of phosphorylation sites in Arabidopsis thaliana and a plant?specific phosphorylation site predictor [J].Nucleic Acids Research,2007,36:D1015-1021.
[14]白海艷,呂軍,張穎,等.蛋白質磷酸化位點的識別[J].內蒙古工業(yè)大學學報,2011,30(2):108-115. BAIHaiyan,LV Jun,ZHANG Ying,et al.Identification of protein phosphorylation sites[J].Journal of Inner Mon?golia University of Technology,2011,30(2):108-115.
[15]高光芹,孟慶玲,黃家榮.楊樹蛋白質二級結構的人工神經網(wǎng)絡預測[J].西北林學院學報,2014,29(5):59-63. GAO Guangqin,MENG Qingling,HUANG Jiarong.Predic?tion of poplar protein secondary structure with artificial neural networks[J].Journal of Northwast Forestry Univer?sity,2014,29(5):59-63.
Predicting phosphorylation sites of Poplar protein
GAO Guangqin,HUANG Jiarong?,ZHOU Junchao,XIE Pengfang
(Henan Agricultural University,Zhengzhou 450002,China)
In this paper,the phosphoproteome of Populus simonii×P nigra was used as the research object.The nonlinear relationship between the structure characteristics of amino acid sequence and phosphorylation of serine and threoninewas expressed by artificial neural network.A BP artificial neural networkmodelwas established and trained by using the real data on phosphorylation.The appropriate structure is 21 x 16∶8∶4,the fitting accuracy is 90%,and the Acc,Sn,Sp,MCC are 78%,89%,67%,and 0.57,respectively.The comparative results show that the model has strong prediction ability.
Populus simonii×Pnigra;Phosphoproteome;Phosphorylation site;Artificial neural network
Q51
A
1672-5565(2015)03-165-05
2015-05-06;
2015-06-03.
河南省高等學校重點科研項目。
高光芹,女,碩士研究生,實驗師,研究方向:化學生物信息學;E?mail:sckdggq@163.com.
?
黃家榮,男,博士,教授,研究方向:森林資源信息化管理;E?mail:huangjiarong137@163.com.