張 憲,雷天宇,金殿川
(河北聯(lián)合大學(xué)理學(xué)院,河北唐山 063009)
在真核生物中普遍存在著古老的四倍體性,基因組倍增之后會(huì)形成大量的直系或旁系的同源基因。在進(jìn)化過程中,倍增的同源基因中的一個(gè)拷貝會(huì)趨向于丟失,但這種基因丟失是不平衡的[1]。多個(gè)研究表明,蜀黍族祖先基因組是由10個(gè)染色體組成。玉米作為重要的糧食作物,曾在500~1200萬年前,經(jīng)歷了一次四倍化,形成了20條染色體。玉米通過染色體融合、斷裂等過程,形成現(xiàn)在的10條染色體,以兩個(gè)亞基因組的形式存在[2-3]。值得注意的是,在四倍化后,由于純化選擇其中一個(gè)亞基因基因不斷被移除,而相對的另一個(gè)亞基因組基因則更可能保持中立,從而更多的保留了下來。
玉米不僅是重要的糧食作物,同時(shí)也是重要的C4光合作用作物。C4光合途徑是許多高產(chǎn)農(nóng)作物的代謝途徑方法,相對于C3植物來說,其更能高效的利用光能、水以及氮。2009年,Wang[4]等通過比較基因組學(xué)分析,證實(shí)了全基因組以及單個(gè)基因的倍增有利于C4光合作用的進(jìn)化。因此,玉米在由古老的四倍體到二倍體的進(jìn)化過程中,C4光合作用必然也經(jīng)歷了相應(yīng)的進(jìn)化過程。
在蜀黍族的進(jìn)化過程中,高粱基因組被推測近似保留了祖先基因組。2011年,James C.S[1]等人通過對玉米和高粱進(jìn)行全基因組的同源序列比對,重構(gòu)了染色體水平上的玉米四倍體祖先,定義了兩個(gè)亞基因組。本文旨在對玉米中兩個(gè)亞基因組與C4途徑的進(jìn)化進(jìn)行研究,進(jìn)一步回答兩個(gè)亞基因組基因在C4途徑的進(jìn)化過程中扮演什么樣的角色。這將有利于我們更深入的了解玉米兩個(gè)亞基因基因的進(jìn)化遺傳機(jī)制,以及其對C4光合作用的影響,對我們進(jìn)一步提高玉米光合作用強(qiáng)度,從而為提高玉米產(chǎn)量提供重要的理論基礎(chǔ)和材料來源。
本研究中玉米兩個(gè)亞基因組的相關(guān)數(shù)據(jù)來自于James C.S[1]等人在重構(gòu)玉米染色體后,通過和高粱、水稻的同源序列比對,構(gòu)建了一個(gè)Excel格式記錄,主要由Maize1、Maize2以及在高粱和水稻中相應(yīng)的同源基因組成。玉米中與C4光合作用途徑有關(guān)的基因、酶以及反應(yīng)數(shù)據(jù),從GRAMENE(http://pathway.gramene.org/MAIZE/)數(shù)據(jù)庫下載得到。
分子進(jìn)化完整的理論分析過程主要包括四個(gè)重要的步驟,即序列相似性比較、序列同源性分析、構(gòu)建系統(tǒng)發(fā)育樹、穩(wěn)定性檢驗(yàn)。
BLAST[5](Basic Local Alignment Search Tool)是最常用的序列相似性比較的工具,其基本思想是:兩個(gè)同源序列即使有很大的差異,也有可能有高分值的相似片段,這使我們能夠可靠地區(qū)分相關(guān)和非相關(guān)的序列。同源序列的進(jìn)化相關(guān)性可以用相似度來表示[5],而最佳的比對算法就是要使比較序列的相似度最大化。
根據(jù)相似序列的同源性分析,重建反映物種間進(jìn)化關(guān)系的系統(tǒng)發(fā)育樹。系統(tǒng)發(fā)育樹構(gòu)建方法很多種。根據(jù)所處理數(shù)據(jù)的類型,可以將系統(tǒng)發(fā)生樹的構(gòu)建方法大體上分為兩大類。一類是基于距離的構(gòu)建方法,利用所有物種或分類單元間的進(jìn)化距離,依據(jù)一定的原則及算法構(gòu)建系統(tǒng)發(fā)生樹。這類方法包括非加權(quán)組平均法(unweighted-pair-group method with arithmetic mean,UPGMA)、近鄰關(guān)系法、鄰近歸并法(neighbor-joining method)等。其中廣泛應(yīng)用的就是鄰近歸并法,它由一個(gè)中心節(jié)點(diǎn),通過尋找最小進(jìn)化樹的分支長度和,相繼找到相鄰分支。1998年,J.Studier和 K.Keppler提出了一種快速算法[6]:
其中,N是距離矩陣中物種的數(shù)目,k是引入的外部參考物種,dij是物種i和物種j之間的距離。
另一類方法是基于離散特征的構(gòu)建方法,利用的是具有離散特征狀態(tài)的數(shù)據(jù),如DNA序列中的特定位點(diǎn)的核苷酸。屬于這一類的方法有簡約法(parsimony method),主要包括無權(quán)簡約法和加權(quán)簡約法、最大似然法(maximum likelihood approach)等。
構(gòu)建好的進(jìn)化樹需要進(jìn)行統(tǒng)計(jì)上的可靠性檢驗(yàn),常用的檢驗(yàn)方法是Bootstap算法,其隨機(jī)進(jìn)行成百上千次序列重排,對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價(jià)建樹的可靠性,一般只有以大概率(70%以上)出現(xiàn)的分支點(diǎn)才是可靠地。
GRAMENE數(shù)據(jù)庫分物種、分通路、分條目記錄了基因、酶、代謝物、反應(yīng)甚至通路數(shù)據(jù)。在玉米(Zea mays)C4光合途徑通路下,一共獲得15個(gè)與C4途徑相關(guān)的基因(表1),它們不均勻的分布在染色體中。C4光合途徑牽涉許多酶類的參與,其中最為關(guān)鍵的酶有3個(gè),分別為磷酸烯醇式丙酮酸羧化酶(PEPC)、丙酮酸磷酸雙激酶(PPDK)和NADP-蘋果酸酶(NADP-ME),它們的編碼基因就有14個(gè)[7],剩余的一個(gè)是葉綠體蛋白質(zhì)。
高粱和玉米具有一個(gè)共同的祖先,在高粱的進(jìn)化過程中近似保留了祖先基因組,將玉米C4基因與高粱基因組應(yīng)用現(xiàn)有的生物信息分析程序BLASTN進(jìn)行同源序列比對分析,得到玉米C4基因與高粱基因間的相似性,根據(jù)序列間的打分、序列一致性、匹配期望值,確定基因間的同源性,這里設(shè)定期望值小于1e-3。表1中第一列是要查詢的玉米C4相關(guān)基因,對于一個(gè)基因序列在目標(biāo)數(shù)據(jù)庫中有多個(gè)基因序列與它匹配,匹配的百分比是兩個(gè)比對的基因序列中匹配的長度占比對上長度的百分比,比對的基因序列的長度是兩個(gè)基因序列的保守域的長度,而期望值的大小反映了兩個(gè)基因存在進(jìn)化關(guān)系的隨機(jī)性可能性大小,期望值越小說明兩個(gè)基因越有可能具有進(jìn)化關(guān)系,匹配打分則反映了兩個(gè)基因序列間的相似程度。
表1 玉米C4基因與高粱潛在同源基因集合表
續(xù)表1
這里我們選取了匹配得分最高的基因,即相似性最高的高粱基因作為玉米C4基因的相似性基因。由表1可以看到,C4途徑相關(guān)基因中玉米和高粱保持了高度的相似性,相似性均達(dá)到90%以上,且期望值比較小,進(jìn)一步說明了玉米和高粱C4基因間具有進(jìn)化關(guān)系。
利用MEGA軟件對玉米和高粱中C4途徑相關(guān)的同源基因做CLUSTAL多序列比對,然后采用鄰近歸并法構(gòu)建系統(tǒng)發(fā)育樹并對得到的系統(tǒng)發(fā)育樹進(jìn)行自舉檢驗(yàn),將自舉檢驗(yàn)的值設(shè)置為500,構(gòu)建的結(jié)構(gòu)及分析如圖1所示。從系統(tǒng)發(fā)育樹中可以看到,玉米C4途徑的三個(gè)關(guān)鍵酶基因分別形成了一個(gè)小的基因家族,這三個(gè)小的家族分別形成各自的分支,其中PPDK基因由兩個(gè)分支組成,它們分別編碼葉綠體PPDK1和細(xì)胞質(zhì)PPDK2基因,其經(jīng)歷了不同的自適應(yīng)進(jìn)化過程。從整體上來看,這三個(gè)家族在C4途徑中分別進(jìn)行了一個(gè)快速的進(jìn)化,且很可能屬于自適應(yīng)選擇進(jìn)化過程。同時(shí)C4途徑中單一存在的葉綠體蛋白酶基因NADP-MDH基因,也有自己獨(dú)立的適應(yīng)進(jìn)化過程。
圖1 玉米和高粱中C4途徑中同源基因的系統(tǒng)發(fā)育樹
從圖1中還可以發(fā)現(xiàn),高粱基因與玉米基因進(jìn)化速率一定程度上保持了一致性,且在幾個(gè)分支上,一個(gè)高粱基因同時(shí)和兩個(gè)玉米基因的進(jìn)化保持一致,證實(shí)了玉米中兩個(gè)亞基因組的存在。另外,根據(jù)James C.S[1]等人對玉米兩個(gè)亞基因組的定義,分別命名為Maize1和Maize2。玉米PEPC基因家族中,Maize1包括4個(gè),分別是 GRMZM2G083841/pep1、GRMZM2G473001/pep4、GRMZM2G069542、GRMZM2G082780;Maize2 包括2個(gè),分別是GRMZM2G110714、GRMZM2G074122。PPDK基因家族中,Maize1包括3個(gè),分別是 pdk2/AC217975.3_FG001、GRMZM2G306345_P05、pdk1/GRMZM2G097821;Maize2 包括 1 個(gè),即 GRMZM2G097457_P01。對于NADP-ME基因家族,在玉米基因和高粱基因相似性分析中,由于其同義替換率(Ks)值比較大,無法準(zhǔn)確判斷其所屬亞基因組,只能由其相應(yīng)的物理位置大致判斷出,Maize1包括 2個(gè),分別為GRMZM5G886257_P01、me3/GRMZM2G085019;Maize2包括 2個(gè),分別為 GRMZM2G404237_P01、me2/GRMZM2G122479。NADP-MDH基因GRMZM2G129513定義為Maize1。從總體上來看,在C4途徑有關(guān)基因中,Maize1占到總基因的2/3,Maize2占到了1/3,這說明兩個(gè)亞基因組中同源基因在進(jìn)化過程中丟失不均衡,Maize1相對于Maize2保留了更多的基因,其對C4途徑的進(jìn)化具有更大的貢獻(xiàn)。
玉米作為C4光合作用的重要模式作物,對其C4途徑進(jìn)化過程的研究,為進(jìn)一步提高光合作用效率,進(jìn)而提高農(nóng)作物產(chǎn)量,具有十分重要的作用。本文通過對玉米中有關(guān)C4途徑的基因與高粱基因進(jìn)行比較分析,并構(gòu)建了相應(yīng)的系統(tǒng)發(fā)育樹,發(fā)現(xiàn)了C4途徑中3個(gè)關(guān)鍵酶的基因家族以及一個(gè)葉綠體蛋白質(zhì)基因,其都具有獨(dú)立的適應(yīng)進(jìn)化過程。同時(shí),對于玉米C4途徑中兩個(gè)亞基因組基因的存在,給出了明確的定義。在C4光合作用途徑中,玉米兩個(gè)亞基因組基因存在明顯的偏向性,即亞基因組Maize1相對于Maize2保留了更多的基因。本文僅對玉米中C4途徑中兩個(gè)亞基因組的存在進(jìn)行了研究,而兩個(gè)亞基因組對于玉米其它途徑的影響,還不能給出明確的說明,如果進(jìn)一步對玉米中其他代謝途徑進(jìn)行研究,能否得到更具生物學(xué)意義的結(jié)論,這將是今后進(jìn)一步研究的問題。
[1]JamesC.Schnable,Nathan M.Springer,Michael Freeling.Differentiation of the maize subgenomes by genome dominance and both ancient and ongoing gene loss[J].PNAS,2011,108(10):4069-4074.
[2]Wei F,William Nelson,Ed Coe,et al.Physical and genetic structure of the maize genome reflects its complex evolutionary history.PLoS Genet,2007,3(7):e123.
[3]Salse J,Bolot S,Throude M,et al.Identification and characterization of shared duplications between rice and wheat provide new insight into grass genome evolution [J].Plant Cell,2008,20(1):11-24.
[4]Wang X.Y,Haibao Tang,et al.Comparative genomic analysis of C4 photosynthetic pathway evolution in grasses[J].Genome Biology,2009,10:R68.
[5]C.薩科內(nèi),G.佩索萊.比較基因組學(xué)手冊—原理與方法[M].北京:化學(xué)工業(yè)出版社,2008:185-198.
[6]Studier,J.A.andK.J.Keppler.A note on the neighbor-joining algorithm of Saitou and Nei[J].Mol Biol Evol.1988,5(6):729-731.
[7]李艷.玉米C4途徑關(guān)鍵酶(PEPC、PPDK)基因的克隆及PEPC基因?qū)π←湹倪z傳轉(zhuǎn)化[D].河南農(nóng)業(yè)大學(xué).2009:4-10.
華北理工大學(xué)學(xué)報(bào)(自然科學(xué)版)2013年4期