劉小健,王巍杰,顧婷,鄭強
(1.華北理工大學 生命科學學院,河北 唐山063000;2.山東大學 齊魯軟件學院,山東 濟南250101)
大豆是食用油和植物蛋白的重要來源,在農(nóng)業(yè)和經(jīng)濟領域越來越受到重視[1]。2008年12月8日在美國墨西哥州舉行的國際豆科基因組與遺傳會議上,美國能源部聯(lián)合基因組研究所(DOE/JGI)公布了大豆基因組序列的初步科學分析結(jié)果:大豆基因組由10億個堿基對組成,是人類基因組的三分之一,大豆基因組中約有66 000個基因。2010年1月14日的《Nature》雜志公布了由美國農(nóng)業(yè)部、美國能源部聯(lián)合基因組研究所和普渡大學等多家科研機構(gòu)聯(lián)合完成的豆科植物最重要的物種大豆的完整基因組序列草圖[2]。
大豆基因組復制發(fā)生在距今5 900萬年和1 300萬年間[1],產(chǎn)生了一個復制率很高的基因組,其中近75%的基因以多版本存在,現(xiàn)代人為干預事件也使大豆基因組更加復雜[3]。擁有了大豆基因組序列,科學家們可以進行大豆后基因組進一步的研究,分析大豆相關蛋白的作用機制和功能,深入了解大豆的遺傳和生理特性,對挖掘物種重要功能基因及加快分子育種奠定重要的科研基礎。因此,大豆全基因組信息也會促進根瘤菌遺傳特性的分析[4]。
自然界中,生物固氮約占自然固氮的90%,其中豆科植物與根瘤菌的共生固氮作用是重要的固氮方式。豆科植物與根瘤菌所形成的共生固氮體系必須要有豆科植物的根瘤素參與,根瘤素誘導根部形成的根瘤是固氮的前提條件。本研究就大豆的根瘤素蛋白家族23個蛋白進行生物信息分析。
在NCBI(http://www.ncbi.nlm.nih.gov/)數(shù)據(jù)庫中通過E值為1e-15的blast搜索,確定大豆根瘤素基因。23個大豆根瘤素蛋白數(shù)據(jù)來源于NCBI中的蛋白數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/protein/)。
從GenaBank獲得大豆根瘤素基因在大豆染色體上的位置信息和整個大豆基因組的長度及序列信息,利用MapInspect對大豆根瘤素基因進行染色體物理定位。
對大豆根瘤素蛋白進行亞細胞定位分析,研究中使用了在線分析軟件PSORT Prediction(http://psort.hgc.jp/form.html)。大豆根瘤素蛋白氨基酸基本理化性質(zhì)、氨基酸數(shù)目、分子量、等電點、不穩(wěn)定性指數(shù)和脂肪指數(shù)均采用在線分析工具 ProtParam (http://expasy.org./tools/protparam.html)[5]分析得到。二級結(jié)構(gòu)的分析采用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)[6]分析預測。大豆根瘤素蛋白信號肽相關信息由 CBS(http://www.cbs.dtu.dk/index.shtml)[8]在線分析獲得。
從NCBI得到大豆根瘤素蛋白的基因序列和cDNA序列,利用Spidey(http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/)分析內(nèi)含子和外顯子組成。
對大豆根瘤素蛋白序列的多重對比,使用了ClustalX2軟件,參數(shù)均為默認值。
利用ClustalX2軟件對大豆根瘤素蛋白序列的多重對比,將結(jié)果輸出保存,參數(shù)為默認值。隨后,繼續(xù)使用MEGA6[7]選用最大似然法(Maximum Likelihood)構(gòu)建系統(tǒng)進化樹,并進行1 000次Bootsrat抽樣。
從GenBank中確定大豆根瘤素基因家族共有23個成員,從數(shù)據(jù)庫中序列信息分析基因位置,進行了染色體物理定位。從染色體的物理定位看,23個大豆根瘤素基因在大豆染色體上分布不均勻,只在15條染色上有分布,1號染色體上分布2個,2號染色體上分布2個,5號染色體上分布1個,6號染色體上分布2個,7號染色體上分布2個,8號染色體上分布1個,10號染色體上分布3個,12染色體上分布1個,13號染色體上分布3個,14號染色體上分布1個,15號染色體上分布1個,16號染色體上分布1個,17號染色體上分布1個,18號染色體上分布1個,19號染色體上分布1個,結(jié)果見圖1。
從表1統(tǒng)計數(shù)據(jù)可知,23個根瘤素蛋白的氨基酸數(shù)目差距較大,15個根瘤素蛋白序列長度都在100~400個氨基酸之間,小于100個氨基酸的蛋白1個,序列超過了400個氨基酸的蛋白7個,最大的CLV1B有987個氨基酸。根瘤素蛋白家族成員的蛋白分子量在10186.1~108908.3。等電點分析表明:14個根瘤素蛋白等電點小于6.5,為酸性蛋白;9個根瘤素蛋白等電點大于7.5,為堿性蛋白。脂融指數(shù)分析表明,共有18個蛋白的脂溶性指數(shù)小于100,另外5個蛋白的脂溶性指數(shù)大于100,說明大多數(shù)的根瘤素蛋白屬于親水性蛋白。不穩(wěn)定指數(shù)分析表明:NP_001235855.1、NP_001241451.1、NP_001238376.1、ABD77418.1、NP_001237636.1、NP_001237618.1、NP_001238498.1、NP_001237453.1和 NP_001235885.1這9個蛋白的不穩(wěn)定指數(shù)不小于40.00,為不穩(wěn)定蛋白。
如表2所示,對大豆根瘤素蛋白家族的23個成員二級結(jié)構(gòu)預測結(jié)果分析:根瘤素蛋白的二級結(jié)構(gòu)有α-螺旋、β-折疊、轉(zhuǎn)角、卷曲4個結(jié)構(gòu)。在 NP_001235855.1、NP_001236691.1、NP_001238376.1、ABD77418.1、NP_001238498.1、NP_001237453.1、NP_001237695.1、NP_001235870.1、NP_001235885.1、XP_006572990.1、NP_001238004.1這11個蛋白中各組成成分的百分比卷曲>α-螺旋>β-折疊>轉(zhuǎn)角;在NP_001241451.1、NP_001237618.1中各組成成分的百分比卷曲>β-折疊>α-螺旋>轉(zhuǎn)角;在NP_001237525.1、NP_001237749.1、NP_001237653.1、NP_001237669.1、NP_001236825.1、AAA33993.1、XP_003535653.1、NP_001235599.1、NP_001237748.1共9個蛋白中各組成成分的百分比為α-螺旋>卷曲>β-折疊>轉(zhuǎn)角;在NP_001237636.1中各組成成分的百分比為卷曲=α-螺旋>β-折疊>轉(zhuǎn)角。
圖1 大豆根瘤素基因的染色體物理定位
表1 大豆根瘤素蛋白家族成員基本信息
表2 大豆根瘤素蛋白家族蛋白二級結(jié)構(gòu)和亞細胞定位
用PSORT Prediction對大豆根瘤素蛋白家族的蛋白進行亞細胞定位,一部分蛋白屬于分泌蛋白,絕大多數(shù)的蛋白都屬于膜蛋白,其余的定位于細胞質(zhì)細胞漿和細胞器。定位于質(zhì)膜的8個蛋白:NP_001241451.1、NP_001237653.1、NP_001237669.1、NP_001236825.1、NP_001235870.1、NP_001235599.1、XP_006572990.1、NP_001238004.1。定位于胞外的7個蛋白:NP_001235855.1、NP_001237618.1、NP_001238498.1、NP_001237453.1、NP_001237695.1、AAA33993.1、NP_001235885.1。定位于微體5個蛋白:NP_001236691.1、NP_001237525.1、NP_001238376.1、ABD77418.1、NP_001237749.1。定位于細胞質(zhì)細胞漿的2個蛋白:NP_001237636.1、XP_003535653.1。定位于內(nèi)質(zhì)網(wǎng)膜有1個蛋白:NP_001237748.1。
表3 大豆根瘤素蛋白家族蛋白信號肽預測
利用CBS分析軟件分析大豆根瘤素蛋白家族蛋白,表3結(jié)果數(shù)據(jù)顯示出:NP_001235855.1、NP_001241451.1、NP_001237618.1、NP_001238498.1、NP_001237453.1、NP_001237695.1、AAA33993.1、NP_001235885.1、NP_001235599.1、XP_006572990.1、NP_001238004.1這11個蛋白具有信號肽,其中包括亞細胞定位胞外的7個蛋白和定位到質(zhì)膜上的4個蛋白。
大豆根瘤素蛋白家族基因結(jié)構(gòu)分析以及外顯子的數(shù)量統(tǒng)計見表1。根據(jù)統(tǒng)計數(shù)據(jù)顯示出基因上外顯子數(shù)小于10個的有18個基因:NP_001235855.1、NP_001236691.1、NP_001236691.1、NP_001238376.1、ABD77418.1、NP_001237636.1、NP_001237669.1、NP_001237618.1、NP_001238498.1、NP_001237453.1、NP_001236825.1、NP_001237695.1、AAA33993.1、NP_001235870.1、NP_001235885.1、XP_003535653.1、NP_001237748.1、NP_001238004.1,其中LOC547771、LOC547974、N-22中都只有1個外顯子;其余5個基因外顯子的數(shù)目大于10個:NP_001237525.1、NP_001237749.1、NP_001237653.1、NP_001235599.1、XP_006572990.1,其中LOC100781986中外顯子的數(shù)目最多,達到14個。所有的大豆根瘤素蛋白家族基因的結(jié)構(gòu)組成如圖2所示。
圖2 大豆根瘤素基因外顯子和內(nèi)含子組成分析
使用MEGA6對ClustalX2軟件對大豆根瘤素蛋白序列的多重對比結(jié)果選用最大似然法(Maximum Likelihood)構(gòu)建系統(tǒng)進化樹,進行系統(tǒng)的分析,由圖2可知,存在6個相對保守的區(qū)域。Motif1在6個相對保守的區(qū)域中是最優(yōu)的,Motif2、Motif3、Motif4、Motif5、Motif6這5個基序?qū)儆诖渭壉J貐^(qū)。NP_001238498.1的 Motif2、Motif3、Motif4、Motif5、Motif6不完整。NP_001237636.1無 Motif3、Motif4、Motif5、Motif6。NP_001237669.1無 Motif5、Motif6基序,Motif4表現(xiàn)不完整。
圖3 大豆根瘤素家族蛋白序列的多重比較
利用MEGA6選用最大似然法(Maximum Likelihood)構(gòu)建系統(tǒng)進化樹,以便分析大豆根瘤素蛋白的差異和系統(tǒng)進化關系。由圖3可知,23個大豆根瘤素蛋白6個亞族,最大的一個亞族擁有5個成員:NP_001237749.1、NP_001237748.1、XP_006572990.1、NP_001238004.1、NP_001236691.1。最小的一個亞族擁有2個成員:NP_001237636.1、NP_001237525.1。
在NCBI數(shù)據(jù)庫中,確定了23個大豆根瘤素蛋白,并且獲取對應的基因信息。基因在染色體上的物理定位結(jié)果顯示23個大豆根瘤素基因在大豆染色體上分布并不均勻,并且每條染色體根瘤素基因所處位置也是變化無常的,基因表達與此相關,是導致各個基因間發(fā)生變化的因素之一,與ClustalX2比對分析結(jié)果吻合。另外,23個大豆根瘤素蛋白亞細胞定位,發(fā)現(xiàn)定位于胞外的蛋白有7個,這些蛋白可能參與誘導根瘤菌產(chǎn)生結(jié)瘤因子。
23個大豆根瘤素蛋白氨基酸數(shù)目有較大差距,大多數(shù)根瘤素蛋白序列長度都在100~400之間;蛋白分子量在10186.1(NP_001237636.1)~108908.3(CLV1B)之間變化。等電點分析結(jié)果表明:變化范圍在5.0~10.13,14個根瘤素蛋白等電點小于6.5,表現(xiàn)出酸性,9個根瘤素蛋白等電點大于7.5,表現(xiàn)出堿性;脂融指數(shù)分析表明,共有18個蛋白的脂溶性指數(shù)小于100,另外5個蛋白的脂溶性指數(shù)大于100,說明大多數(shù)的根瘤素蛋白屬于親水性蛋白。不穩(wěn)定指數(shù)分析表明:9個蛋白的不穩(wěn)定指數(shù)不小于40,為不穩(wěn)定蛋白。二級結(jié)構(gòu)預測α-螺旋與卷曲是大豆根瘤素蛋白的主要構(gòu)成原件;一部分蛋白被預測出來屬于分泌蛋白,定位于胞外的概率最大的有7個蛋白,沒有蛋白定位于細胞核中,絕大多數(shù)的蛋白都屬于膜蛋白,定位于質(zhì)膜的概率最大的有8個蛋白,定位于內(nèi)質(zhì)網(wǎng)膜的概率最大的有1個蛋白,其余的分貝定位于細胞質(zhì)細胞漿和細胞器,定位于微體的概率最大的有5個蛋白,定位于細胞質(zhì)細胞漿的概率最大的有2個蛋白;11個蛋白具有信號肽,其中包括亞細胞定位到胞外的7個蛋白,剩余的4個蛋白均是定位到質(zhì)膜上的蛋白;大豆根瘤素蛋白基因上外顯子數(shù)目在1~14變化。
到目前為止,大豆根瘤素蛋白的功能研究還不是很清楚,除少數(shù)根瘤素通過遺傳學方法確定遺傳學功能外,大多數(shù)根瘤素的功能仍是未知。本次研究對大豆根瘤素蛋白家族進行初步分析,為深入了解該家族蛋白的合成調(diào)控、結(jié)構(gòu)和功能等提供了參考數(shù)據(jù)。加快了將大豆與根瘤菌這種共生固氮作用人為控制應用于實踐的進程,采用基因工程技術育種,有針對性地進行固氮菌的遺傳改造,構(gòu)建高效的固氮菌株,以提高固氮效率,減少化肥施用,為作物提供更多的固氮。同時,研究其他禾本科植物是否具有大豆根瘤素的同源基因具有更加潛在的意義。
圖4 大豆根瘤素蛋白系統(tǒng)進化樹
[1] Gary Stacey,Lila Vodkin,Wayne A,et al.Parrott.National Science Foundation-Sponsored Workshop Report.Draft Plan for Soybean Genomics[J].Plant Physiology,2004,135(1):59-70.
[2] Jeremy Schmutz,Steven B.Cannon,Jessica Schlueter,et al.Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463(7278):178-120.
[3] David L.Hyten,Qijian Song,Youlin Zhu,et al.Impacts of genetic bottlenecks on soybean genome diversity[J].PNAS,2006,103(45):16666-16671.
[4] Xiangyang Xua,Liang Zeng,Ye Tao,et al.Pinpointing genes underlying the quantitative trait loci for root-knot nematode resistance in palaeopolyploid soybean by whole genome resequencing[J].PNAS,2013,110(33):13469-13474.
[5] Wilkins MR,Gasteiger E,Bairoch A,et al.Protein Identification and Analysis Tools on the ExPASy Server[J].Methods Mol Biol.1999,112:571-607.
[6] Geourjon C,Deléage G.SOPMA:Significant improvement in protein secondary structure prediction by cprediction from alignments and joint prediction[J].CABIOS,1995,11(6):681-684.
[7] Koichiro Tamura,Glen Stecher,Daniel Peterson,et al.MEGA6:Molecular Evolutionary Genetics Analysis Version 6.0[J].Mol.Biol.2013,30(12):2725-2729.