王小飛,石卓興,譚淑敏,李 杰,張耀洲,于 威,陳劍清,舒特俊
(浙江理工大學(xué)生命科學(xué)學(xué)院生物化學(xué)研究所,杭州 310018)
家蠶蛋白亞細胞定位預(yù)測模型的構(gòu)建及其初步應(yīng)用
王小飛,石卓興,譚淑敏,李 杰,張耀洲,于 威,陳劍清,舒特俊
(浙江理工大學(xué)生命科學(xué)學(xué)院生物化學(xué)研究所,杭州 310018)
為研究家蠶蛋白及家蠶桿狀病毒蛋白的亞細胞定位并提高預(yù)測模型的特異性和準確率,構(gòu)建了家蠶蛋白亞細胞定位預(yù)測模型,并將該模型初步應(yīng)用于家蠶核型多角體病毒(BmNPV) P10蛋白的亞細胞定位預(yù)測中。結(jié)果表明,總體預(yù)測準確率在不分段時為60.6%,分兩段、三段和四段時分別為78.9%、78.4%和80.6%;對BmNPV P10蛋白的預(yù)測結(jié)果為宿主細胞核,通過免疫細胞熒光實驗對預(yù)測結(jié)果進行驗證,結(jié)果表明預(yù)測結(jié)果與實際相符。因此,采用分段的方法能夠提高預(yù)測準確率,且家蠶病毒蛋白可以利用其宿主家蠶蛋白亞細胞定位預(yù)測模型進行亞細胞定位。
家蠶; 亞細胞定位預(yù)測; 支持向量機; P10蛋白
預(yù)測蛋白質(zhì)在亞細胞水平的定位,既能為基因組注釋、蛋白質(zhì)功能及其與其他分子的相互作用的推斷提供線索,又能為藥物靶點的設(shè)計提供新的思路。傳統(tǒng)的生化實驗方法難以滿足對大量新發(fā)現(xiàn)的未知蛋白的亞細胞定位需求。在已知蛋白亞細胞定位的基礎(chǔ)上,結(jié)合計算機算法,運用計算機技術(shù)可以對蛋白質(zhì)的亞細胞位點進行準確、高效的預(yù)測,有些方法的預(yù)測結(jié)果甚至比高通量的實驗方法更加準確[1]。因此,基于計算預(yù)測的方法可以作為傳統(tǒng)實驗方法強有力的補充甚至替代。
蛋白質(zhì)的亞細胞定位預(yù)測包括三個核心過程:數(shù)據(jù)集的構(gòu)建、特征提取和算法設(shè)計。過去20多年的發(fā)展過程中所涌現(xiàn)出的各種方法大多是圍繞這三個核心過程而開發(fā)的。數(shù)據(jù)集有的是用已有的公共數(shù)據(jù),有的是針對不同研究課題新建的;提取特征信息的方法主要包括基于蛋白序列的統(tǒng)計信息[2]和基于基因組注釋的功能信息[3];設(shè)計的算法包括最近鄰[4]、人工神經(jīng)網(wǎng)絡(luò)[5]、支持向量機[6]和隨機森林方法[7]等。目前很多預(yù)測模型所使用的數(shù)據(jù)集都是針對某一生物界的蛋白,比如原核生物蛋白數(shù)據(jù)集、動物蛋白數(shù)據(jù)集和植物蛋白數(shù)據(jù)集等,這些數(shù)據(jù)集雖然數(shù)據(jù)龐大,但特異性不高。Shen等[8]提出的方法采用了高維的FunD功能域注釋信息,一般此類方法提取的信息維數(shù)相等于功能域數(shù)據(jù)庫所有序列個數(shù),這就難免造成了維數(shù)災(zāi)難。為研究家蠶蛋白的亞細胞定位,本文首次構(gòu)建了針對家蠶蛋白的亞細胞定位預(yù)測數(shù)據(jù)集,并提出了一種基于融合分段氨基酸組分信息(AAC)和氨基酸位置信息(AAP)的特征提取方法,在分四段的情況下維數(shù)也只有160維。采用這種方法維數(shù)小,訓(xùn)練速度快,預(yù)測準確率也比較理想,且使用方便;所構(gòu)建的模型基于支持向量機(SVM),在構(gòu)建的家蠶數(shù)據(jù)集中取得了比較理想的預(yù)測準確率,并成功地將該預(yù)測模型初步應(yīng)用于家蠶病毒蛋白的亞細胞定位研究中。
1.1 預(yù)測模型的構(gòu)建
1.1.1 數(shù)據(jù)集
數(shù)據(jù)集是從SWISS-PROT數(shù)據(jù)庫提取的家蠶蛋白亞細胞定位數(shù)據(jù)集,總共包含592條家蠶細胞的蛋白質(zhì)序列,這些序列分別屬于四種亞細胞定位區(qū)域:細胞質(zhì)、細胞膜、細胞核和線粒體。在該數(shù)據(jù)集中,任意兩條序列的相似性均小于50%。為方便起見,將這個數(shù)據(jù)集命名為Bombyx(表1)。
表1 從SWISS-PROT數(shù)據(jù)庫提取的家蠶蛋白亞細胞定位Bombyx數(shù)據(jù)集
數(shù)據(jù)集構(gòu)建策略:Bombyx數(shù)據(jù)集的蛋白序列來源于2013年9月15日的SWISS-PROT數(shù)據(jù)庫版本,此版本SWISS-PROT數(shù)據(jù)庫共包含540958條蛋白。數(shù)據(jù)集提取構(gòu)建步驟如下:
a) 在SWISS-PORT數(shù)據(jù)庫中輸入關(guān)鍵字“家蠶(Bombyx)”;
b) 然后選擇“高級搜索(Advanced Search)”;
c) 在高級搜索中選擇“AND”,Field選“Subcellular Location”,Term框中輸入目標亞細胞位置,比如“cytoplasm”,Confidence選“Any”;
d) 然后點擊“Add&Search”,得到以上查詢的全部結(jié)果;
e) 最后在Reduce sequence redundancy to中選擇50%,得到家蠶中細胞質(zhì)(cytoplasm)蛋白冗余度小于50%的集合;
以上操作也可登陸SWISS-PROT數(shù)據(jù)庫后執(zhí)行如下查詢代碼實現(xiàn):“uniprot: (Bombyx AND annotation: (type:location “cytoplasm”)) identity: 0.5”。
同樣步驟可得到其他三個細胞位置的數(shù)據(jù),(Term框分別為“membrane”、“nucleus”和“mitochondrion”),最后將檢索到的全部數(shù)據(jù)合并,構(gòu)成家蠶蛋白數(shù)據(jù)集。
1.1.2 特征提取
開發(fā)蛋白質(zhì)亞細胞定位的預(yù)測方法,第一個要面對的問題就是如何來表示一個蛋白樣品,通常會使用兩種表示方法:順序表示和非順序表示。典型的順序表示方法就是一個蛋白質(zhì)的整個氨基酸序列,其中包含了該蛋白幾乎所有的信息。而非順序表示方法采用一個不連續(xù)的數(shù)據(jù)集來表示一個蛋白質(zhì),因此又稱之為離散表示法,主要利用氨基酸組分、偽氨基酸組分、結(jié)構(gòu)域、基因組注釋等方法進行表示[9]。本文主要采用基于20種氨基酸的組分信息和位置信息的方法來提取蛋白質(zhì)的特征信息。
a) 氨基酸組分信息(AAC)方法
氨基酸組分信息(amino acid composition,AAC)方法[10]是一種基本的蛋白質(zhì)序列編碼方法,它不考慮蛋白質(zhì)氨基酸殘基的順序信息,僅對20種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率進行簡單地表示。AAC方法使用20維歐式空間的一個點來表示一個蛋白質(zhì)序列,用向量表示為:
VAAC(S)=(v1,v2,v3,…,v20)T。
設(shè)序列S是由L個氨基酸殘基組成的序列,其中,vi=hi/L,hi為第i種氨基酸在序列S中出現(xiàn)的次數(shù)(i=1,2,…,20)。雖然AAC計算比較方便,但它具有一個比較大的缺陷,就是它沒有考慮一個蛋白質(zhì)序列的順序信息,需要使用其他方法來彌補這一缺陷。
b) 氨基酸位置信息(AAP)方法
提取一個蛋白質(zhì)序列20種氨基酸的組分信息(AAC)的編碼方法雖然簡單、有效,但同時也會丟失序列中包含的大量順序信息,為了彌補AAC方法的這一缺陷,本文在AAC方法的基礎(chǔ)上又采用了氨基酸位置信息(amino acid position,AAP)[11]的方法來進一步提取蛋白質(zhì)序列中20種氨基酸的序列信息,與AAC方法類似,AAP方法同樣是將一個蛋白質(zhì)的序列映射到20維歐式空間的一個點,用向量表示為:
VAAP(S)=(v1,v2,v3,…,v20)T。
設(shè)序列S是由L個氨基酸殘基組成的序列,其中,vi=ri/L,ri為第i種氨基酸在序列S中出現(xiàn)的間隔數(shù)之和(i=1,2,…,20),所以vi是表示第i種氨基酸在序列S中出現(xiàn)的間隔系數(shù)。
ri的計算下面將用一個例子說明:假如氨基酸A在序列S中出現(xiàn)了5次,分別出現(xiàn)在序列的第3、10、17、28、33個氨基酸位置上,記為PA(S)=(3,10,17,28,33)。
進一步計算氨基酸A在序列S中出現(xiàn)的間隔數(shù),記為GPA(S)=(7,7,11,5),那么ri=(7+7+11+5)/L。
c) 基于分段的AAC和AAP方法
目前利用對蛋白序列進行簡單分段的信息提取方法只考慮了蛋白序列局部序列中各個氨基酸所出現(xiàn)的頻率,即只是分段的AAC方法,并未考慮局部序列的氨基酸順序信息以及分段后局部序列對全局序列信息融合的影響。鑒于以上問題,本文采用融合分段氨基酸組成信息及分段氨基酸位置信息的方法對蛋白質(zhì)的序列信息進行特征提取。
將蛋白序列均分為k個子片段,統(tǒng)計每個子片段的氨基酸組成信息及氨基酸位置信息,再融合成多重信息,能夠涵蓋片段信息和全局信息。分成k個子片段后,在每個子片段上分別提取20維的AAC和AAP,最終將分別得到k*20維的AAC和AAP,兩種信息融合后成為一個k*40維的向量,用這k*40維的向量輸入支持向量機SVM(support vector machine)進行學(xué)習(xí)構(gòu)建預(yù)測模型?;诜侄稳诤系奶卣魈崛》椒?記為SACP(segmented amino acid composition and position),用向量表示為:
VSACP(S)=(v1,v2,v3,…,vk*40)T(k=1,2,3,…)。
1.1.3 支持向量機
蛋白質(zhì)的亞細胞定位預(yù)測是一個多類的分類問題,本文采用Vapnik提出的支持向量機SVM[12]算法通過組合多個二類分類器來解決這一問題,鑒于訓(xùn)練樣本不是很大,本文采用“一對多”的分類策略。首先,SVM把輸入向量映射到一個特征空間;然后,SVM在特征空間中尋找最優(yōu)線性分割來解決二類或者多類問題;最后,為測試樣本指定一個預(yù)測標簽。使用了LIBSVM軟件包來實現(xiàn)SVM分類器,選用的核函數(shù)是徑向基函數(shù)(radial basis function,RBF),選擇依據(jù)是徑向基核函數(shù)相對于其他核函數(shù)在解決非線性問題方面更具優(yōu)勢[13]。
1.2 評價方法和指標
目前對蛋白質(zhì)亞細胞定位預(yù)測結(jié)果進行評價的方法主要有以下幾種:交叉檢驗、獨立樣本檢驗、刀切法和自相容檢驗。而刀切法被認為是最嚴格和最客觀的評價方法[14]。刀切法也就是通常所說的留一法,每次取出數(shù)據(jù)集中的一條蛋白質(zhì)序列作為測試樣本,而將剩余的蛋白質(zhì)序列作為訓(xùn)練集,依次取出直到所有樣本序列都被測試一遍為止。本文選擇刀切法對預(yù)測結(jié)果進行評價。
對SVM分類器標準的性能指標進行了刀切法測試,包括子類準確率Ci,即子類Ci被正確分類的百分數(shù)(sub-class accuracy,CA)和總體準確率(overall accuracy,OA),即所有蛋白被正確分類的百分數(shù)。子類準確率和總體準確率的公式如下:
其中,TPi代表真陽性的數(shù)目,|Ci|代表每個子類Ci所包含蛋白的數(shù)目。
1.3 預(yù)測模型在BmNPV P10蛋白亞細胞定位預(yù)測中的初步應(yīng)用
1.3.1 BmNPV P10蛋白生物信息學(xué)分析
BmNPV p10基因在NCBI(national center for biotechnology information)基因登錄號為:L13071.1;利用DNAMAN軟件預(yù)測家蠶核型多角體病毒(BmNPV)p10基因編碼的氨基酸的序列、分子量、等電點、跨膜區(qū)、同源性以及進化樹;,通過http://www.vivo.colostate.edu/molkit/hydropathy/index.html(Protein Hydropathicity Plots)預(yù)測疏水性;通過http://zhanglab.ccmb.med.umich.edu/I-TASSER/(I-TASSER)服務(wù)器預(yù)測其易溶性。通過I-TASSER(http://zhanglab.ccmb.med.umich.edu/I-TASSER/)服務(wù)器預(yù)測P10蛋白的高級結(jié)構(gòu)。
1.3.2 BmNPV P10蛋白亞細胞定位預(yù)測
上述構(gòu)建的家蠶蛋白亞細胞定位預(yù)測模型也可以用來預(yù)測以家蠶為宿主的病毒蛋白的亞細胞定位。因為桿狀病毒感染家蠶,其表達的蛋白需要在家蠶細胞內(nèi)通過家蠶的蛋白識別及轉(zhuǎn)運系統(tǒng)來進行運輸,因此,桿狀病毒P10蛋白帶有家蠶的亞細胞定位信息。使用本研究構(gòu)建的家蠶蛋白亞細胞定位預(yù)測模型對BmNPV P10蛋白的亞細胞定位進行預(yù)測。
1.3.3 BmNPV P10蛋白亞細胞定位的免疫細胞方法驗證
所用家蠶卵巢上皮細胞(BmN)由本實驗保存;野生家蠶桿狀病毒由本實驗室保存;一抗為自制兔抗P10多克隆抗體,二抗為購買的Alexa Fluor 546 Donkey anti Rabbit抗體。其他試劑參考Abcam的免疫熒光實驗方案進行配制。野生家蠶桿狀病毒侵染正常BmN細胞,在21 h.p.i.(hours post infection)即極晚期取樣進行免疫熒光實驗。正常BmN細胞作為對照。
2.1 預(yù)測結(jié)果及比較
預(yù)測結(jié)果(表2)表明:不分段時,預(yù)測準確率為60.6%,分兩段時預(yù)測準確率為78.9%,而分四段時預(yù)測準確率達到80.6%。說明采用分段的方法能夠提高預(yù)測準確率,分四段時預(yù)測準確率最高。
表2 基于分段統(tǒng)計的Bombyx預(yù)測結(jié)果
為了驗證預(yù)測算法的可靠性,將算法應(yīng)用于由Shen等[8]構(gòu)建的通用數(shù)據(jù)集(Virus-mPLoc),該數(shù)據(jù)集總共包含252條病毒蛋白質(zhì)序列,這些序列分別屬于6種亞細胞定位區(qū)域:病毒衣殼、宿主細胞膜、宿主內(nèi)質(zhì)網(wǎng)、宿主細胞質(zhì)、宿主細胞核和宿主細胞外。在該數(shù)據(jù)集中,任意兩條序列的相似性均小于25%。Virus-mPLoc數(shù)據(jù)集的詳細情況如表3所示。
表3 Virus-mPLoc數(shù)據(jù)集中六種亞細胞位置的蛋白序列個數(shù)
從預(yù)測結(jié)果(表4)可以看到,基于融合分段統(tǒng)計的AAC和AAP信息在Virus-mPLoc數(shù)據(jù)集中預(yù)測準確率與Shen等所提出的方法[2]稍低,在不分段的情況下預(yù)測準確率只有37.7%,分兩段和分四段時,預(yù)測準確率最高,達到42.9%,只比Shen提出的方法低0.8%。由此可以得到結(jié)論:采用分段統(tǒng)計的方法能夠有效的提高預(yù)測準確率。
表4 基于分段統(tǒng)計的Virus-mPLoc預(yù)測結(jié)果(總體準確率/%)
另外,Shen提出的方法采用了高維的FunD功能域注釋信息,一般此類方法提取的信息維數(shù)相等于功能域數(shù)據(jù)庫所有序列個數(shù),這就難免造成了維數(shù)災(zāi)難。相比于筆者提出的基于融合分段AAC和AAP的信息,維數(shù)等于k*40,在分四段的情況下維數(shù)也只有160維,采用這種方法維數(shù)小,訓(xùn)練速度快,預(yù)測準確率也比較理想,且使用方便。因此筆者所采用的家蠶蛋白亞細胞定位預(yù)測算法具有一定的可靠性。
2.2 預(yù)測模型在BmNPV P10蛋白亞細胞定位預(yù)測中的初步應(yīng)用
2.2.1 BmNPV P10蛋白的生物信息學(xué)分析
a) BmNPV P10蛋白簡介
桿狀病毒P10蛋白在核型多角體病毒復(fù)制的極晚期大量表達,被感染細胞的細胞質(zhì)與細胞核中所發(fā)現(xiàn)的纖維狀結(jié)構(gòu)的主要成分就是P10[15]。P10并非病毒生命周期的必需蛋白,但對于穩(wěn)定多角體的結(jié)構(gòu)和宿主細胞核的裂解具有重要作用。以往對P10蛋白的研究多是在AcMNPV中,本研究構(gòu)建的預(yù)測模型初步應(yīng)用于家蠶核型多角體病毒(BmNPV)中的P10蛋白。
b) BmNPV p10基因及P10蛋白的保守結(jié)構(gòu)域及同源性分析
在BmNPV病毒中,編碼P10蛋白的基因含有1個213 bp的ORF框,編碼70個氨基酸殘基的蛋白(圖1A),預(yù)測其分子量約為7.5 kDa,理論等電點為3.79,無跨膜區(qū),屬于NPV_P10超家族(圖1D)。通過對桿狀病毒P10同源蛋白序列的比對,可以看出,P10蛋白在進化過程中始終保持著十分相似的結(jié)構(gòu)組織形式(圖1C),而與BmNPV的P10親緣關(guān)系最近的是AcMNPV的P10蛋白(圖1B),兩者序列相似度為89%。
圖1 BmNPV p10基因序列及其編碼氨基酸序列分析注:A.BmNPV p10基因ORF及其編碼氨基酸序列(*代表終止子);B.P10蛋白的進化樹,自展值設(shè)為1000,圖中紅色數(shù)字代表分支長度;C.桿狀病毒P10同源蛋白的序列比對,高亮區(qū)代表P10的同源序列;D.BmNPV P10蛋白的保守結(jié)構(gòu)域。
c) BmNPV P10蛋白的水溶性分析
預(yù)測結(jié)果(圖2)可知,該蛋白大部分區(qū)域的疏水性預(yù)測值都小于0,預(yù)測該蛋白屬于親水性蛋白;另外,該蛋白大部分的殘基都是暴露在溶劑中,預(yù)測該蛋白屬于易溶性蛋白。
圖2 BmNPV P10蛋白的水溶性分析注:A.BmNPV P10蛋白的疏水性分析,Kyte-Doolittle值大于0代表疏水; B.BmNPV P10蛋白的易溶性預(yù)測。
d) BmNPV P10蛋白的高級結(jié)構(gòu)預(yù)測
預(yù)測結(jié)果(圖3)表明,BmNPV P10蛋白含有三個α-helix,其蛋白單體的三級結(jié)構(gòu)是由兩股反向α螺旋組成的卷曲螺旋,呈桿狀,結(jié)構(gòu)和功能類似于FALPE (filament-associated late protein of entomopoxviruses)[16]。
圖3 BmNPV P10蛋白的等級結(jié)構(gòu)預(yù)測注:(a) 圖中C代表Coil(無規(guī)卷曲),H代表Helix(螺旋)。
2.2.2 BmNPV P10蛋白的亞細胞定位預(yù)測
通過所構(gòu)建的家蠶蛋白亞細胞定位預(yù)測模型,預(yù)測BmNPV P10蛋白的亞細胞定位,當不分段時預(yù)測結(jié)果為P10蛋白定位于宿主細胞的細胞質(zhì),分段后的預(yù)測結(jié)果同為P10蛋白定位于宿主細胞的細胞核,總體準確率最高即分四段時的預(yù)測結(jié)果為P10蛋白定位于宿主細胞的細胞核。預(yù)測結(jié)果擬通過細胞的免疫熒光染色實驗來驗證。
2.2.3 免疫細胞熒光實驗驗證
從免疫熒光實驗結(jié)果(圖4)可以看出:BmN家蠶細胞被BmNPV病毒感染后,能夠在其細胞核內(nèi)檢測到P10蛋白,這一結(jié)果與模型的預(yù)測結(jié)果一致;同時,也能夠在其細胞質(zhì)內(nèi)檢測到P10蛋白,說明P10是一種具有多個亞細胞定位的蛋白。從對P10進行亞細胞定位預(yù)測的結(jié)果來看,在分段的情形下,預(yù)測結(jié)果都在宿主細胞核,而在不分段的時候預(yù)測結(jié)果在細胞質(zhì),這兩種情況都符合實驗情況。但是,細胞質(zhì)在Bombyx中屬于小樣本,參考SVM分類器大樣本優(yōu)勢的特性,此預(yù)測結(jié)果比較奇特,有待于進一步研究。
中國是世界蠶桑最大生產(chǎn)國,蠶桑業(yè)在我國農(nóng)業(yè)產(chǎn)業(yè)中占有較大比重,對家蠶尤其是家蠶桿狀病毒的研究有利于蠶桑業(yè)的進一步發(fā)展,對病毒蛋白在宿主細胞亞細胞定位的研究有利于進一步研究病毒蛋白的功能和應(yīng)用價值。本文針對家蠶蛋白特別構(gòu)建了家蠶蛋白數(shù)據(jù)集,采用融合分段氨基酸組分信息和氨基酸位置信息的特征提取方法,基于支持向量機算法,構(gòu)建亞細胞定位的預(yù)測模型,取得了比較理想的預(yù)測準確率,且準確率隨著分段數(shù)的增加而提高,最高為分四段時80.6%。該模型還適用于以家蠶為宿主的病毒蛋白在宿主細胞中的定位,將其初步應(yīng)用于BmNPV P10蛋白的亞細胞定位預(yù)測中,免疫熒光實驗結(jié)果表明預(yù)測結(jié)果可信,說明此模型有希望開發(fā)成為家蠶蛋白質(zhì)亞細胞定位預(yù)測的實用模型,為下一步解決多位點預(yù)測問題提供參考。
[1] Rey S,Gardy J L,Brinkman F S L.Assessing the precision of high-throughput computational and laboratory approaches for the genome-wide identification of protein subcellular localization in bacteria[J].BMC Genomics,2005,6(1): 162.
[2] Garg A,Raghava G P S.ESLpred2: improved method for predicting subcellular localization of eukaryotic proteins[J].BMC Bioinformatics,2008,9(1): 503.
[3] Brady S,Shatkay H.EpiLoc: a(working) text-based system for predicting protein subcellular location[C]//Pacific Symposium on Biocomputing.2008,13: 604-615.
[4] Cai Y D,Chou K C.Nearest neighbour algorithm for predicting protein subcellular location by combining functional domain composition and pseudo-amino acid composition[J].Biochemical and Biophysical Research Communications,2003,305(2): 407-411.
[5] Tejedor-Estrada R,Nonell S,Teixido J,et al.An artificial neural network model for predicting the subcellular localization of photosensitisers for photodynamic therapy of solid tumours[J].Current Medicinal Chemistry,2012,19(15): 2472-2482.
[6] Xie D,Li A,Wang M,et al.LOCSVMPSI: a web server for subcellular localization of eukaryotic proteins using SVM and profile of PSI-BLAST[J].Nucleic Acids Research,2005,33(S2): W105-W110.
[7] Li Z C,Lai Y H,Chen L L,et al.Identifying subcellular localizations of mammalian protein complexes based on graph theory with a random forest algorithm[J].Molecular Bio Systems,2013,9(4): 658-667.
[8] Shen H B,Chou K C.Virus-mPLoc: a fusion classifier for viral protein subcellular location prediction by incorporating multiple sites[J].Journal of Biomolecular Structure and Dynamics,2010,28(2): 175-186.
[9] Chou K C,Shen H B.Recent progress in protein subcellular location prediction[J].Analytical Biochemistry,2007,370(1): 1-16.
[10] Cedano J,Aloy P,Perez-Pons J A,et al.Relation between amino acid composition and cellular location of proteins[J].Journal of Molecular Biology,1997,266(3): 594-600.
[11] Dai Q,Wu L,Li L.Improving protein structural class prediction using novel combined sequence information and predicted secondary structural features[J].Journal of Computational Chemistry,2011,32(16): 3393-3398.
[12] Hor C Y,Yang C B,Yang Z J,et al.Prediction of protein essentiality by the support vector machine with statistical tests[C]//Machine Learning and Applications(ICMLA),2012 11th International Conference on.IEEE,2012: 96-101.
[13] Buhmann M D.Radial Basis Functions: Theory and Implementations[M].Cambridge: Cambridge University Press,2003.
[14] Chou K C,Zhang C T.Prediction of protein structural classes[J].Critical Reviews in Biochemistry and Molecular Biology,1995,30(4): 275-349.
[15] Carpentier D C J,Griffiths C M,King L A.The baculovirus P10 protein of autographa californica nucleopolyhedrovirus forms two distinct cytoskeletal-like structures and associates with polyhedral occlusion bodies during infection[J].Virology,2008,371(2): 278-291.
[16] Alaoui-Ismaili M H,Richardson C D.Insect virus proteins(FALPE and p10) self-associate to form filaments in infected cells[J].Journal of Virology,1998,72(3): 2213-2223.
(責(zé)任編輯:許惠兒)
Modeling and Preliminary Application of Sub-cellular Localization Prediction Model for Proteins of Bombyx Mori
WANGXiao-fei,SHIZhuo-xing,TANShu-min,LIJie,ZHANGYao-zhou,YUWei,CHENJian-qing,SHUTe-jun
(Institute of Biochemistry,School of Life Science,Zhejiang Sci-Tech University,Hangzhou 310018,China)
In order to investigate the sub-cellular localization of proteins from Bombyx mori and Bmobyx mori nuclear polyhedrosis virus and improve the specificity and accuracy rate of prediction model,the authors developed a prediction model for sub-cellular localization of proteins in Bombyx mori and preliminarily applied it to predict Bmobyx mori nuclear polyhedrosis virus protein P10.The results indicate that the overall accuracy rate of the prediction model is 60.6% when the protein sequence is not segmented.When the protein sequence is divided into two,three and four segments,the overall accuracy rates are 78.9%,78.4% and 80.6% respectively.The prediction result of BmNPV P10 protein is nucleus of its host.The prediction result was verified through immune cell fluorescence experiment.The results show the prediction result conforms to the actual condition.Therefore,segmentation method can improve prediction accurate.In addition,sub-cellular localization can be made for proteins from Bmobyx mori by utilization of its host Bmobyx mori sub-cellular localization prediction model.
bombyx mori; sub-cellular localization prediction; support vector machine; protein P10
1673-3851 (2015) 02-0238-06
2014-03-12
國家高技術(shù)發(fā)展計劃“863”項目(2011AA100603)
王小飛(1987-),男,山東棗莊人,碩士研究生,主要從事生物反應(yīng)器與蛋白組學(xué)方面的研究。
舒特俊,E-mail:peter-shu@126.com
TP399
A