冉 洪,張 瑩,胡 陶,馮 云,廉 超,郭起榮
(國(guó)際竹藤中心 國(guó)家林業(yè)局竹藤科學(xué)與技術(shù)重點(diǎn)開放實(shí)驗(yàn)室,北京 100102)
經(jīng)濟(jì)樹種全基因組測(cè)序成果要報(bào)
冉 洪,張 瑩,胡 陶,馮 云,廉 超,郭起榮
(國(guó)際竹藤中心 國(guó)家林業(yè)局竹藤科學(xué)與技術(shù)重點(diǎn)開放實(shí)驗(yàn)室,北京 100102)
經(jīng)濟(jì)樹種通?;蚪M較大,測(cè)序的組裝、注釋等存在較大困難,有必要對(duì)這方面的研究進(jìn)展及存在的問(wèn)題進(jìn)行分析比較,以提高經(jīng)濟(jì)林木全基因組的研究效率。對(duì)已經(jīng)完成全基因組測(cè)序的28種經(jīng)濟(jì)樹種的全基因組測(cè)序成果進(jìn)行了概述,比較了所采用的測(cè)序策略、技術(shù)與方法及所利用的測(cè)序材料,分析了各物種全基因組的大小、基因數(shù)量、基因密度、基因均長(zhǎng)、平均內(nèi)含子長(zhǎng)度、GC含量等結(jié)構(gòu)特點(diǎn),匯集了各樹種系統(tǒng)發(fā)育中的基因組復(fù)制等重要分子事件,探討了其纖維素、木質(zhì)素、糖與淀粉、油脂、抗性、生殖等重要生物經(jīng)濟(jì)性狀的基因組學(xué)特征,展望了中國(guó)在基因組科學(xué)領(lǐng)域中的重要影響。
經(jīng)濟(jì)樹種;全基因組測(cè)序;基因家族;基因;系統(tǒng)發(fā)育;生物經(jīng)濟(jì)性狀
森林占陸地生態(tài)系統(tǒng)生物量的90%以上,林業(yè)和木材加工業(yè)對(duì)全球經(jīng)濟(jì)的貢獻(xiàn)重大。經(jīng)濟(jì)林木不僅為人類提供了大量的建筑、造紙等原材料以及其他的可再生能源,而且在保水防沙和提高空氣質(zhì)量等方面起著重要的作用[1]。
基因(Gene)是生命遺傳的基本單位,儲(chǔ)存著生命的種族、孕育、生長(zhǎng)、凋亡等過(guò)程的全部信息,解碼這張生命的“說(shuō)明書”是人們長(zhǎng)期的夢(mèng)想。
由于生命的復(fù)雜性,突破瓶頸,從基因組而不是從個(gè)別基因、基因片段、堿基序列的層面,破譯整個(gè)基因組的基因序列、基因結(jié)構(gòu)進(jìn)化分析,通過(guò)組建數(shù)據(jù)平臺(tái),利用分子生物學(xué)技術(shù)手段,可以解析、注釋、預(yù)測(cè)、關(guān)聯(lián)重要經(jīng)濟(jì)性狀的分子來(lái)源。
全基因組測(cè)序是對(duì)一種生物的基因組中的全部基因進(jìn)行的測(cè)序,即測(cè)定其DNA的堿基序列[2]。全基因組測(cè)序(Whole-genome sequencing,WGS)不僅能夠了解林木的基因組結(jié)構(gòu)及其功能,而且能夠了解林木的起源與進(jìn)化[3]。
測(cè)定生命體的腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤的(G)、胞嘧啶(C)堿基的排列方式,在不同的技術(shù)、經(jīng)濟(jì)時(shí)代具有不同的策略、技術(shù)與方法,選用理想的測(cè)序材料也是全基因組測(cè)序的關(guān)鍵。
自從第一個(gè)全基因組測(cè)序的生命體——流感嗜血桿菌的測(cè)序工作完成的1995年以來(lái),第一個(gè)真核生物是釀酒酵母(1996年),第一個(gè)植物當(dāng)推擬南芥(2000年,并成為模式植物),水稻(2002)及其近緣的二穗短柄草(2010)、小立碗蘚(2008)、煙草(2011)等隨著基因組學(xué)研究的深入與完善,在一定程度上也相繼成為某些模式。
2006年,毛果楊Populus trichocarpa全基因組草圖發(fā)布在《Science》上[4],這開啟了經(jīng)濟(jì)樹種全基因組時(shí)代。統(tǒng)計(jì)至2014年底,已經(jīng)有28種[4-38]經(jīng)濟(jì)樹木的全基因組發(fā)布,對(duì)其測(cè)序所用的技術(shù)、方法和材料見表1,其中,完全采用第一代測(cè)序技術(shù)的有5種。隨著2005年第二代測(cè)序技術(shù)的出現(xiàn),已在開展的對(duì)蘋果等7種經(jīng)濟(jì)樹種的全基因組測(cè)序工作立即聯(lián)用了二代技術(shù),這使測(cè)序的進(jìn)度、效率和準(zhǔn)確率得以提高。對(duì)其余16種經(jīng)濟(jì)樹種純粹使用第二代測(cè)序技術(shù)便完成了其全基因組測(cè)序,且完美展現(xiàn)了二代測(cè)序技術(shù)的低成本、高速率、通量大、高覆蓋度等特點(diǎn)。第三代單分子測(cè)序技術(shù) (SMRT DNA-Sequencing)已經(jīng)正式進(jìn)入了實(shí)戰(zhàn)階段,人的全基因組測(cè)序隨之降至的“一千美元”時(shí)代,期望著早日在經(jīng)濟(jì)樹木中現(xiàn)光溢彩。
表 1 已完成全基因組測(cè)序的28種經(jīng)濟(jì)樹木Table 1 28 economic tree species completed whole genome sequencing
最原始的DNA測(cè)序方法為Maxam-Gilbert法,在對(duì)經(jīng)濟(jì)樹種的測(cè)序中未見使用。對(duì)28種經(jīng)濟(jì)林木的測(cè)序最普遍采用的是Sanger測(cè)序法,通過(guò)合成與單鏈DNA互補(bǔ)的多核苷酸鏈來(lái)讀取待測(cè)DNA分子的序列,合成的互補(bǔ)單鏈可在不同位置隨機(jī)終止反應(yīng)。
第二代高通量測(cè)序中的主流技術(shù)是Roche公司的454焦磷酸測(cè)序、Illumina/Solexa聚合酶合成測(cè)序和ABI公司的SOLiD連接酶測(cè)序技術(shù)。這3種二代測(cè)序技術(shù)的原理各不相同,其數(shù)據(jù)量產(chǎn)出、數(shù)據(jù)質(zhì)量和單Run運(yùn)行的成本也不一樣,華大基因岳桂東等人對(duì)其進(jìn)行了很好的陳述[39]。
在進(jìn)行全基因組測(cè)序時(shí),純合度越高的材料對(duì)于測(cè)序完成后的組裝拼接越便捷。樹木基因組具有高雜合度的固有特點(diǎn),使用育種方法獲取越純的材料越有利于測(cè)序的成功。對(duì)葡萄、番木瓜、桃、大桉、麻瘋樹、赤桉、橡膠樹、挪威云杉、白云杉等物種的測(cè)序采用轉(zhuǎn)基因、克隆技術(shù)等人工方法得到較為理想的測(cè)序材料,對(duì)毛果楊、蘋果、可可、非洲海棗、白梨、甜橙、木豆、中華獼猴桃、中果咖啡、棗等物種的測(cè)序選用的材料都是低雜合度的品種。
隨著測(cè)序技術(shù)的進(jìn)步,對(duì)測(cè)序材料雜合度進(jìn)行估算就成為基因組調(diào)查的一個(gè)重要內(nèi)容。從已經(jīng)發(fā)表測(cè)序的文章中可得知:棗測(cè)序材料的雜合度為1.9%,白梨1.02%,中華獼猴桃0.54%,毛果楊0.26%,梅0.03%。
表 2 28種經(jīng)濟(jì)樹木的全基因組測(cè)序數(shù)據(jù)的比較?Table 2 Comparison of whole genome sequencing data of 28 economic tree species
所有細(xì)胞形態(tài)的生物都以DNA為遺傳信息載體,生命多樣性的基礎(chǔ)在于基因組DNA含量與組成的差異[2]。一個(gè)基因包含編碼蛋白質(zhì)肽鏈或RNA的核酸序列,還包含為保證轉(zhuǎn)錄所必需的調(diào)控序列:5′非翻譯序列、內(nèi)含子以及3′非翻譯序列。表2直觀比較了28種經(jīng)濟(jì)樹木的基因組大小等結(jié)構(gòu)特點(diǎn)。
基因組的大小就是指一個(gè)基因組中擁有的DNA含量的多少。常用于測(cè)定基因組大小的方法主要有流式細(xì)胞分析(Flow cytometry)法和孚耳根微顯影(Feulgen microdensitometry)法等種[40]。
這28種經(jīng)濟(jì)樹木的全基因組大小為265~23 200 Mb,裸子植物的基因組普遍大于被子植物。比如桃(265)與火炬松(23 200)的基因組大小就相差近88倍,這反映出C值悖理現(xiàn)象,基因組中DNA含量差異很大,它們的差異性與生物的復(fù)雜性程度并不完全相關(guān)[41]。在物種進(jìn)化過(guò)程中,基因組多倍化、轉(zhuǎn)座子積累是導(dǎo)致基因組增大的主要原因,而同源不平等重組和非正規(guī)重組則是基因組DNA丟失的潛在動(dòng)力,制約著基因組無(wú)限制的增大[42-43]。
DNA測(cè)序組裝完成后,常采用ab inition等生物信息學(xué)軟件預(yù)測(cè)物種的基因數(shù)量。在已經(jīng)完成測(cè)序的28種經(jīng)濟(jì)樹種中,赤桉的全基因組預(yù)測(cè)的基因數(shù)量最多(77 121個(gè)),白云杉的最少(13 100個(gè)),這28種經(jīng)濟(jì)樹種的基因數(shù)量平均為36 600個(gè)。
基因是控制生物體性狀的基本單元,其長(zhǎng)度可用堿基對(duì)的多少來(lái)度量,常用堿基對(duì)(base-pairs,bp) 來(lái)表示。基因均長(zhǎng)關(guān)系到基因組的復(fù)雜程度。在已經(jīng)測(cè)序的經(jīng)濟(jì)樹種中,僅見白云杉的基因均長(zhǎng)為5 151 bp,其余樹種的都在1~1 000 bp之間。
內(nèi)含子(intron)是真核生物細(xì)胞DNA中的間插序列,是編碼區(qū)的重要組成部分。內(nèi)含子增加了基因的長(zhǎng)度,提高了基因間的重組頻率,且經(jīng)常含有調(diào)控元件,其差別剪接可使一種基因指導(dǎo)合成多種蛋白。真核生物基因組中內(nèi)含子的長(zhǎng)度在基因組內(nèi)和物種間的差異都比較大[2]。在已經(jīng)完成測(cè)序的28種經(jīng)濟(jì)樹種中,火炬松的平均內(nèi)含子長(zhǎng)度(2 700 bp)最長(zhǎng),而葡萄的平均內(nèi)含子長(zhǎng)度(213 bp)最短。
基 因 密 度(gene density,genomic density) 指DNA單位長(zhǎng)度上的基因數(shù)量,常用“基因數(shù)/10 kb”來(lái)表示。從現(xiàn)有的經(jīng)濟(jì)樹木全基因組數(shù)據(jù)來(lái)看,裸子植物平均580 bp有一個(gè)基因;被子植物平均19 bp有一個(gè)基因。從表2中還可看出,裸子植物的基因密度普遍低于被子植物,其基因密度是被子植物的數(shù)十分之一甚至數(shù)百分之一,反映了其進(jìn)化關(guān)系。
實(shí)驗(yàn)過(guò)程中,常采用分光光度法或以流式細(xì)胞儀測(cè)量DNA雙螺旋結(jié)構(gòu)的熔化溫度,以測(cè)定GC的含量。在全基因組測(cè)序過(guò)程中,基因組的GC含量直接影響著測(cè)序的難度。當(dāng)物種的GC含量高,PCR擴(kuò)增便困難,測(cè)序深度則低,同時(shí)也提高了擴(kuò)增時(shí)的錯(cuò)誤率。高等植物毛果楊(33.30%)、麻瘋樹(34.30%)、赤桉(33.6%)、木豆(32.80%)與棗(33.41%)的GC含量均低于35%,故以提高測(cè)序深度來(lái)保證全基因組測(cè)序的成功完成,棗、木豆的測(cè)序深度分別到達(dá)了68、163.4 倍。
此外,全基因組DNA序列里面包含了許多重復(fù)序列(repeated sequence),蘋果的重復(fù)序列達(dá)到了67%,而甜橙的只有20%,這些高度重復(fù)的序列主要存在于非編碼區(qū),在生物進(jìn)化過(guò)程中發(fā)生了擴(kuò)張,這一方面導(dǎo)致了基因組大小在進(jìn)化過(guò)程中的突發(fā)式的快速擴(kuò)張,另一方面,其中的一部分重復(fù)序列因可能攜帶有可編碼序列,從而致使該物種的基因總數(shù)也相應(yīng)急劇增加。此外,擴(kuò)張后的基因組,其所包含的表達(dá)基因或暫時(shí)未表達(dá)的基因更為豐富,成為該物種應(yīng)對(duì)可能的更為多樣性生存環(huán)境的后備基因資源,其生存適應(yīng)性提高了。
在前基因組時(shí)期,人們也利用堿基對(duì)、基因片段、基因來(lái)進(jìn)行生物品種鑒定、系譜分析及進(jìn)化關(guān)系的研究,并取得了重要成果。一些保守性高且在物種中廣泛存在的基因被當(dāng)作構(gòu)建進(jìn)化樹的分子標(biāo)準(zhǔn)[44-45],但每個(gè)基因有著不同的進(jìn)化歷程,存在橫向轉(zhuǎn)移等原因[46-48],基于不同的分子標(biāo)準(zhǔn)得到的結(jié)果可能不盡相同,基于全基因組序列的生物系統(tǒng)發(fā)育分析(phylogenetic analysis)當(dāng)然更具準(zhǔn)確率和科學(xué)性。
根據(jù)各物種全基因組測(cè)序結(jié)果,利用Interactive Tree Of Life(ITOL)在線工具,構(gòu)建了如圖1的28種經(jīng)濟(jì)樹種的分類樹,并評(píng)估了部分物種的分化時(shí)間、全基因組復(fù)制(Whole Genome Duplication,WGD)事件。
由圖1可知,被子植物部分與根據(jù)基因親緣關(guān)系分類的APG III[49](Angiosperm Phylogeny Group III)分類法構(gòu)建的種系發(fā)生樹一致。
全基因組復(fù)制事件是系統(tǒng)發(fā)育的重要資源[50],幾乎所有的被子植物基因組都有WGD證據(jù),多倍體化是被子植物進(jìn)化的重要推動(dòng)因素[51]。屬于單子葉的毛竹、海棗與如中華獼猴桃、擬南芥、木豆等雙子葉植物一樣,根據(jù)全基因組測(cè)序結(jié)果可明確推斷其發(fā)生過(guò)WGD,并且在單子葉植物與雙子葉植物分化后,共同發(fā)生過(guò)一次WGD[52],這便構(gòu)筑了毛竹、海棗基因組的復(fù)雜性。雙子葉植物與單子葉植物分化后,共同發(fā)生的一次WGD,就是古六倍體化事件,對(duì)葡萄WRKY轉(zhuǎn)錄因子家族全基因組分析[53]也證明了古六倍體化事件。
在28種已經(jīng)完成全基因組測(cè)序的經(jīng)濟(jì)樹種中,僅有現(xiàn)存被子植物中已知最早與其它被子植物分開演化而倍受植物學(xué)家關(guān)注的孑遺植物——無(wú)油樟和3種裸子植物沒有提及WGD分子事件。
圖 1 經(jīng)濟(jì)樹種系統(tǒng)發(fā)育樹及全基因組復(fù)制事件Fig. 1 Phylogenetic tree and the whole genome duplication events of economic tree species
至2014年底,已經(jīng)完成全基因組測(cè)序的28種經(jīng)濟(jì)樹種中,包含了毛果楊、火炬松、挪威云杉等用材樹種6種,蘋果、棗等經(jīng)濟(jì)樹種18種,胡楊、簸箕柳、梅等生態(tài)經(jīng)濟(jì)樹種,“非草非木”的毛竹及極具進(jìn)化意義的無(wú)油樟等樹種。毛果楊在很多時(shí)候被作為木本植物的模式,用于對(duì)控制經(jīng)濟(jì)樹種重要生物經(jīng)濟(jì)性狀的基因家族(gene family)、基因(gene)的分子遺傳掃描中。
以用材為主的樹種其纖維素合成基因是基因組學(xué)遺傳解析的重點(diǎn)之一。纖維素(cellulose)是植物細(xì)胞里的主要成分,其基本單位是吡喃式D-葡萄糖,以糖苷鍵行使相連,其葡萄糖殘基約有2 000~2 500 個(gè),主要以小微纖絲的形式存在,一根微纖絲由36 根β-1,4葡糖苷鏈結(jié)晶而成。人們對(duì)纖維素的生物合成已有較清晰的認(rèn)識(shí)[54]。
纖維素合成酶基因(CesA)家族調(diào)控著次生壁形成、木質(zhì)部形成、木材張力的形成等。毛果楊的CesA家族有18個(gè)基因,占毛果楊纖維素合成相關(guān)基因的1/5,此外,還有纖維素酶基因(KOR)、蔗糖合成酶基因(SuSY)、纖維素定向基因(COBRA)和FRA2?;鹁嫠蒀esA家族有6個(gè)基因、赤桉CesA家族有11個(gè)基因,毛竹CesA家族有19個(gè),還有38個(gè)類纖維素合酶基因(Csl)。
水果中的纖維素影響其食用品質(zhì)。在番木瓜中發(fā)現(xiàn)有11個(gè)CesA、8個(gè)COBRA基因與纖維素合成有關(guān),同時(shí)還發(fā)現(xiàn)了β-葡萄糖轉(zhuǎn)移酶(GT1)基因、α-1,2-巖藻糖酰轉(zhuǎn)移酶(GT37)基因、β-葡糖醛酸轉(zhuǎn)移酶(GT43)基因等相關(guān)基因。
木質(zhì)素(lignin)沉積在木質(zhì)部導(dǎo)管和厚壁組織及韌皮部纖維中,在植物體機(jī)械支持、水分運(yùn)輸和病蟲害防御中具有重要作用[55-56]。木質(zhì)素單體在細(xì)胞壁中脫氫聚合成木質(zhì)[57-58]。
有關(guān)木質(zhì)素在植物體內(nèi)生物合成過(guò)程的研究已取得明顯的進(jìn)步[59],如桉樹是造紙的重要原材料,通過(guò)調(diào)控OMT、CCR基因的表達(dá)能控制其木質(zhì)素含量[60-61]。在毛果楊、毛竹中發(fā)現(xiàn),羥基肉桂?;D(zhuǎn)移酶(HCT)基因、肉桂酰CoA還原酶(CCR)基因數(shù)量占據(jù)主導(dǎo)地位;番木瓜中,苯丙氨酸解氨酶(PAL)基因、肉桂酸4-羥基化酶(C4H)基因、4-香豆酰-CoA連接酶(4CL)基因、HCT基因家族數(shù)目處于中等水平,而咖啡酸-O-甲基轉(zhuǎn)移酶(COMT)基因、香豆酸-3-羥基化酶(C3H)基因數(shù)目分別只有1個(gè)和2個(gè)。與其它物種相比,番木瓜的CCR基因家族只有1個(gè)基因,阿魏酸-5-羥基化酶(F5H)基因家族有4個(gè)基因,肉桂醇脫氫酶(CAD)基因家族有18 個(gè)基因,它們都在木質(zhì)素合成的后期發(fā)揮作用。
大桉中的PAL、C4H、4CL、HCT、C3H、咖啡酰輔酶A.O.甲基轉(zhuǎn)移酶(CCoAOMT)基因、阿魏酸-5-羥基化酶(F5H)基因、COMT、CCR、CAD這10 個(gè)基因家族中,只有4CL、F5H家族含有1個(gè)基因,而其余8個(gè)家族卻至少包含有2個(gè)基因,最多的是PAL基因家族,擁有7 個(gè)基因。
木質(zhì)素同時(shí)也是石細(xì)胞的主要組成成分,其生物合成直接影響著石細(xì)胞的含量[62]。石細(xì)胞廣泛存在于白梨等果實(shí)的果肉之中,嚴(yán)重影響著果實(shí)品質(zhì)。在白梨果實(shí)發(fā)育早期,HCT、p-香豆酰-莽草酸/奎尼酸3'-羥化酶(C3'H)基因、咖啡酰-輔酶AO-甲基轉(zhuǎn)移酶(CCOMT)基因高水平表達(dá),促使p-香豆酰-輔酶A(PCC)向咖啡酰-輔酶A(CFC)和阿魏酰-輔酶A(FC)基因高水平轉(zhuǎn)化,最終導(dǎo)致G型、S型木質(zhì)素的積累。
糖類與淀粉是經(jīng)濟(jì)林的主要目的性狀。蔗糖是光合作用的主要產(chǎn)物,是多數(shù)植物體內(nèi)長(zhǎng)距離運(yùn)輸碳水化合物的主要形式,也是某些植物儲(chǔ)藏的主要化合物。淀粉則幾乎存在于所有的植物之中,是相對(duì)穩(wěn)定的高分子碳水化合物。
有393個(gè)基因涉及棗的蔗糖與淀粉的代謝途徑,其中的6個(gè)主要基因家族分別為木聚糖內(nèi)糖基轉(zhuǎn)移酶(XET)基因家族、β-葡萄糖苷酶(BGluc)基因家族、UDE-葡萄糖4-表異構(gòu)酶(GALE)基因家族、果糖二磷酸醛縮酶(FBA)基因家族、棉子糖合酶(RFS)基因家族、MFS轉(zhuǎn)運(yùn)酶(MFS)基因家族。
在番木瓜中,主要有蔗糖合酶/蔗糖磷酸合酶(GT4)基因、中性轉(zhuǎn)化酶(GH32)基因、己糖轉(zhuǎn)運(yùn)酶基因等。由糖類合成淀粉的過(guò)程中,主要有淀粉合酶(GT5)基因、淀粉分支基因、異淀粉酶(GH13)基因、β-淀粉酶(GH14)基因參與調(diào)控合成。
在薔薇科植物中,光合作用形成碳水化合物主要以山梨糖醇形式轉(zhuǎn)運(yùn),而非蔗糖。在蘋果、梨、桃等樹種中,調(diào)控山梨糖醇的基因主要是山梨醇6-磷酸脫氫酶(S6PDH)基因家族、山梨糖醇脫氫酶(SDH)基因家族、山梨糖醇轉(zhuǎn)運(yùn)酶(SOT)基因家族。
在甜橙全基因組測(cè)序中發(fā)現(xiàn)了半乳糖醛酸酯途徑存在基因的高表達(dá)現(xiàn)象,其中的D-半乳醛糖酸還原酶(GalUR)基因、PG基因、PME基因起著關(guān)鍵性作用。
油脂中最主要的成分是脂肪酸和三酰甘油(TAGs)。蔗糖是脂肪酸的主要碳源,通過(guò)糖酵解途徑生成丙酮酸,再合成脂肪酸的碳供體,從而形成脂肪酸。甘油與脂肪酸進(jìn)行酯化作用合成三酰甘油[63]。已進(jìn)行了全基因組測(cè)序的油脂樹種有典型的麻瘋樹、可可、油棕3種,材、脂兼用的火炬松未見其全基因組松脂松香方面的研究報(bào)道。
可可的油脂存在于種子中,三酰甘油是其重要組成部分,?;?ACP硫酯酶(FATB)基因、酮脂酰-ACP合酶基因是合成三酰甘油的2個(gè)關(guān)鍵基因。
麻瘋樹種子中的三酰甘油含量很高。其中,乙酰輔酶A羧化酶(ACC)、雜聚肽ACCase生物素羧基載體蛋白亞基(BCCP)、酰輔酶A(LACS)、磷酸乙酰轉(zhuǎn)移酶(GPAT)、溶血磷脂酸?;D(zhuǎn)移酶(LTAT)、磷脂酸磷酸酯酶(LPP)、二酰基甘油?;D(zhuǎn)移酶(DGAT)、二?;视王;D(zhuǎn)移酶(PDAT)、3-酮?;?ACP合酶(KAS)、脂肪酸去飽和酶(FAD)、?;d體蛋白(ACP)這11個(gè)基因家族調(diào)控甘油、脂肪酸的生成以及TAGs的合成。具有抗菌作用的異佛波酯在麻瘋樹中的產(chǎn)量也很高,其基焦磷酸合成酶(GGPPS)、蓖麻烯合成酶(CS)、萜烯羥化酶、?;D(zhuǎn)移酶4個(gè)基因起著主要調(diào)控作用。
在非洲油棕的中果皮中,WRI1基因控制著油脂的積累,且其油籽中的LEAFY COTY-LEDON1(LEC1)、LEAFY COTYLEDON2(LEC2)、ABSCISIC ACID INSENSITIVE3 (ABI3)、FUSCA這4個(gè)基因通過(guò)WRI1起著正調(diào)控作用,促進(jìn)油脂的積累。
通過(guò)全基因組測(cè)序,重點(diǎn)關(guān)注生物性狀的關(guān)鍵作用基因及其表達(dá)途徑,分子解析植物體內(nèi)重要的抗氧化劑及許多酶的輔助因子維生素C(Vc)的生物合成。中華獼猴桃因其高Vc含量而被譽(yù)為“水果之王”,其主要通過(guò)L-半乳糖途徑合成Vc,其中的GDP-D-甘露糖3’,5’-表異構(gòu)酶(GME)基因、GDP-L-半乳糖磷酸酶 (GGP)基因、D-蘇阿醛糖1-脫氫酶(TAD)基因、L-半乳糖酸-1,4-內(nèi)酯脫氫酶(Ga1LDH)基因起著決定性作用;還發(fā)現(xiàn)了堿性磷酸酶(Alase)、L-抗壞血酸過(guò)氧化物酶(APX)、肌醇加氧酶(MIOX)、單脫氫抗壞血酸還原酶(MDHAR)這4個(gè)涉及Vc合成的基因家族存在基因擴(kuò)張現(xiàn)象。
酚類、萜類及含氮化合物等植物次生代謝產(chǎn)物具有重要的經(jīng)濟(jì)用途。
黃酮在植物的生長(zhǎng)發(fā)育過(guò)程中具有重要作用,其形成的聚合物原花青素(類黃烷醇單體及其聚合體的多酚化合物)對(duì)人體很有益。在可可中發(fā)現(xiàn),花青素合成酶(ANS)、花青素還原酶(ANR)、無(wú)色花色素還原酶(LAR)、黃烷酮醇-4-還原酶(DFR)這4個(gè)基因是合成黃烷酮的關(guān)鍵基因。毛果楊的類黃酮生物合成過(guò)程受查爾酮異構(gòu)酶、類黃酮3-羥化酶、黃烷酮3-羥化酶、五色花色素還原酶、類萜合酶這5個(gè)基因控制。
可可的萜類物質(zhì)單萜(C10)、倍半萜(C15)分別占34%、31%,烯萜合酶(TPS)基因是合成這兩種萜類物質(zhì)的最主要基因,可可中的棉子酚具有抵御蟲害的作用,其關(guān)鍵基因是杜松烯合酶基因。印度苦楝中的TPS21、lytB/ispH、4-二磷酸胞苷-2-C-甲基赤蘚糖激酶(ispE)、牻牛兒牻牛兒基焦磷酸合成酶(GGPS)、FDPS、FDFT1、SQLE是涉及其倍半萜烯、三萜的生物合成的基因。
橡膠樹產(chǎn)生的乳膠其生物合成涉及到100個(gè)基因,這些基因分別存在于β-1,3-葡聚糖酶、卵磷脂酶基因烯醇酶、超氧化物歧化酶(Mn)、甲殼質(zhì)酶、脂質(zhì)轉(zhuǎn)運(yùn)前體、甘油松香酯合成、幾丁質(zhì)酶等14個(gè)基因家族中。
咖啡因是一種生物堿,在中果咖啡中發(fā)現(xiàn)了CcXMT、CcMTL、CcNMT3咖啡因合成過(guò)程中的最關(guān)鍵的3個(gè)基因。
梅香主要成分是苯丙酸類/苯環(huán)型化合物、肉桂酸和萜類物質(zhì),芐醇乙酰轉(zhuǎn)移酶(BEAT)基因家族34個(gè)基因主要調(diào)控苯甲基的產(chǎn)生。白梨中的脂氧化酶(LOX)基因、乙醇脫氫酶(ADH)基因涉及α-亞麻酸代謝合成,與梨的揮發(fā)物芳香氣味有關(guān)。
磷脂酰乙醇胺結(jié)合蛋白(PEBP)FLOWERING LOCUS T(FT)的同源物是被子植物開花過(guò)程的重要激活劑,曾有報(bào)道記載,在裸子植物中缺乏FT基因的直系同源物,取而代之的是一個(gè)FT/TFL1類基因,也許其作用是抑制開花過(guò)程[64-65]。有關(guān)研究者確認(rèn)了挪威云杉缺乏FT類基因,在其全基因組組裝1.0版本中,首次確認(rèn)了4個(gè)可能的FT/TFL1類基因。
MADS-box基因家族決定花組織的最終發(fā)育程度,與果實(shí)發(fā)育密切相關(guān),可能調(diào)節(jié)梨果的發(fā)育。MADS-box包含12個(gè)亞家族,蘋果的StMADS11亞家族存在著明顯的擴(kuò)張現(xiàn)象,其基因數(shù)達(dá)到了15個(gè)。不同于呼吸躍變型,甜橙屬于非呼吸躍變型果實(shí),其MADS-RIN基因可能是果實(shí)成熟的一種關(guān)鍵調(diào)節(jié)因子。在梅的MADS-box家族中發(fā)現(xiàn)了6個(gè)串聯(lián)排列的轉(zhuǎn)錄因子家族(DAM),與休眠的誘導(dǎo)和解除有關(guān),控制著梅能在低于0 ℃的溫度條件下開花,而蘋果中沒有發(fā)現(xiàn)此類串聯(lián)。
植物的PAS-FBOX-KELCH基因控制著光信號(hào)和開花時(shí)間。在番木瓜中發(fā)現(xiàn),只有ZTL基因與PAS-FBOX-KELCH基因直系同源,而ZTL基因還缺乏明顯的KELCH域;番木瓜全基因組中僅有少量的KELCH域(37個(gè)),由光敏形態(tài)建成1(COP1)基因家族的3個(gè)旁系同源基因抵抗紫外線。
毛竹成花過(guò)程轉(zhuǎn)錄因子涉及到花分生組織建成(FMI)、MADS-box、zf-Dof、YABBY這4個(gè)基因家族,在促進(jìn)開花和光周期調(diào)節(jié)途徑中起到關(guān)鍵作用的CONSTANS(CO)基因存在大量重復(fù)序列。
麻瘋樹為雌雄同株植物,涉及其花性別分化的3個(gè)基因是APETALA 2(AP2)、APETALA 3(AP3)、PISTILLATA ,與其開花有關(guān)的幾個(gè)基因是CO、FLOWERING LOCUS D(FLD)、FLOWERING LOCUS F(FLF)、LEAFY(LFY)、SUPPRESSOR OF OVEREXPRESSION OF CONSTANS 1(SOC1)。
經(jīng)濟(jì)樹種的抗逆性是栽培與利用的限制性因子,在全基因組層面探測(cè)了其抗病、蟲、旱、寒、鹽堿等方面的分子信息。
植物的抗病基因R基因及其6個(gè)類型的基因數(shù)量是各經(jīng)濟(jì)樹種全基因組重點(diǎn)論述的內(nèi)容。
毛果楊PAD4、NPR1基因調(diào)控著水楊酸,在抗病(旱、寒)方面起作用,其中控制水楊酸累積上調(diào)的PAD4基因有2個(gè)拷貝,下調(diào)的NPR1有5個(gè)拷貝。在中果咖啡中發(fā)現(xiàn)其SH3基因?qū)τ诳Х热~銹病有很強(qiáng)的抵抗作用。川桑進(jìn)化出能產(chǎn)生更多蛋白酶抑制劑(PIs)機(jī)制來(lái)抵御蟲害,發(fā)現(xiàn)有79個(gè)PIs基因,其中最主要的是C1半胱氨酸肽酶抑制基因家族(22個(gè)基因)、A1/C1絲氨酸肽酶抑制基因家族(19個(gè)基因)。
在火炬松中發(fā)現(xiàn)了可誘導(dǎo)ABA的同源lp3基因家族的4個(gè)成員,其在干旱應(yīng)答機(jī)制中起作用。
在胡楊中發(fā)現(xiàn),其高親和K+轉(zhuǎn)運(yùn)蛋白1(HKT1)基因家族有4個(gè)基因,抗氧化酶基因家族、熱休克蛋白基因家族存在基因擴(kuò)張現(xiàn)象,甜菜堿醛脫氫酶(BADH)基因、肌醇半糖苷合成酶4(GolS4)基因有更多的拷貝,以調(diào)節(jié)液泡濃度。
毛竹的全基因測(cè)序圖示了多個(gè)器官材料,共有117個(gè)基因,分屬21個(gè)抗逆基因家族的基因表達(dá)量,其全基因組測(cè)序文章的附件匯集了各抗性家族的同源基因、蛋白序列歸類域。
隨著基因組學(xué)的迅速發(fā)展,越來(lái)越多的物種基因組被解碼,基因組學(xué)正在改變著整個(gè)世界——每一個(gè)基因組,多一次改變。
確定興趣樹種,評(píng)估合適的DNA測(cè)序材料,經(jīng)過(guò)測(cè)序、組裝、建庫(kù)、提交、注釋、進(jìn)化分析等步驟,獲得框架草圖,成果發(fā)布,這已成為全基因組測(cè)序的基本范式。
相關(guān)資訊顯示,我國(guó)杜仲、油茶、油桐、泡桐、白樺、紫竹、桂竹等物種也都已進(jìn)入全基因組測(cè)序時(shí)代。買麻藤因其特殊的種系發(fā)生學(xué)位置,其全基因組研究成果將作為2017年在我國(guó)深圳舉辦的第19屆世界植物學(xué)大會(huì)(XIX IBC)上重磅推出的成果之一;華大基因研究院推動(dòng)的千種動(dòng)植物基因組計(jì)劃……這表明,中國(guó)已進(jìn)入打造全球基因組大國(guó)、強(qiáng)國(guó)的行列,為生物經(jīng)濟(jì)、環(huán)境安全和人類健康服務(wù)。
[1]Jansson S, Douglas C J. Populus:a model system for plant biology[J]. Annu Rev Plant Biol, 2007,58:435-458.
[2]楊金水.基因組學(xué)[M].北京:高等教育出版社,2013:1-131.[3]施季森,王占軍,陳金慧.木本植物全基因組測(cè)序研究進(jìn)展[J].遺傳, 2012,34(2):145-156.
[4]Tuskan G A, Difazio S, Jansson S,et al.The genome of black cottonwood,Populus trichocarpa(Torr & Gray)[J].Science,2006, 313(5793):1596-1604.
[5]Jaillon O, Aury J M, Noel B,et al.The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla[J]. nature, 2007,449(7161):463-467.
[6]Velasco R, Zharkikh A, Troggio M,et al.A high quality draft consensus sequence of the genome of a heterozygous grapevine variety[J]. PloS one,2007,2(12):e1326.
[7]Ming R, Hou S, Feng Y,et al. The draft genome of the transgenic tropical fruit tree papaya (Carica papayaLinnaeus)[J].Nature,2008,452(7190):991-996.
[8]Verde I, Abbott A G, Scalabrin S,et al.The high-quality draft genome of peach (Prunus persica) identi fi es unique patterns of genetic diversity, domestication and genome evolution[J].Nature genetics,2013,45(5):487-494.
[9]Myburg A A, Grattapaglia D, Tuskan G A,et al. The genome ofEucalyptus grandis[J].Nature, 2014,510(7505):356-362.
[10]Velasco R, Zharkikh A, Affourtit J,et al.The genome of the domesticated apple (Malus domesticaBorkh)[J].Nature genetics,2010, 42(10):833-839.
[11]Argout X, Salse J, Aury J M,et al.The genome ofTheobroma cacao[J].Nature genetics, 2011,43(2):101-108.
[12]Sato S, Hirakawa H, Isobe S,et al.Sequence analysis of the genome of an oil-bearing tree,Jatropha curcasL[J].DNA research, 2011, 18(1): 65-76.
[13]Hirakawa H, Nakamura Y, Kaneko T,et al.Survey of the genetic information carried in the genome ofEucalyptus camaldulensis[J].Plant Biotechnology,2011,28(5):471-480.
[14]Chamala S, Chanderbali A S, Der J P,et al. Assembly and validation of the genome of the nonmodel basal angiospermAmborella[J].Science,2013,342(6165):1516-1517.
[15]Rice D W, Alverson A J, Richardson A O,et al.Horizontal transfer of entire genomes via mitochondrial fusion in the angiospermAmborella[J].Science,2013,342(6165):1468-1473.[16]Albert V A, Barbazuk W B, Der J P,et al.TheAmborellagenome and the evolution of fl owering plants[J].Science, 2013,342(6165): 1241089.
[17]Neale D B, Wegrzyn J L, Stevens K A,et al. Decoding the massive genome of loblolly pine using haploid DNA and novel assembly strategies[J].Genome biology,2014 15(3): R59.
[18]Zimin A, Stevens K A, Crepeau M W,et al. Sequencing and assembly of the 22-Gb loblolly pine genome[J].Genetics, 2014,196(3): 875-890.
[19]Kovach A, Wegrzyn J L, Parra G,et al.ThePinus taedagenome is characterized by diverse and highly diverged repetitive sequences[J].BMC genomics,2010,11(1):420.
[20]Denoeud F, Carretero-Paulet L, Dereeper A,et al.The coffee genome provides insight into the convergent evolution of caffeine biosynthesis[J].science, 2014,345(6201):1181-1184.
[21]Al-Mssallem I S, Hu S, Zhang X,et al. Genome sequence of the date palmPhoenix dactyliferaL[J].Nature communications,2013, 4:2274.
[22]Al-Dous E K, George B, Al-Mahmoud M E,et al.De novo genome sequencing and comparative genomics of date palm(Phoenix dactylifera)[J]. Nature biotechnology, 2011, 29(6):521-527.
[23]Wu J, Wang Z, Shi Z,et al. The genome of the pear (Pyrus bretschneideriRehd)[J]. Genome research, 2013, 23(2):396-408.
[24]Xu Q, Chen L L, Ruan X,et al. The draft genome of sweet orange (Citrus sinensis)[J].Nature genetics,2013,45(1):59-66.[25]Zhang Q, Chen W, Sun L,et al.The genome ofPrunus mume[J].Nature communications, 2012,3:1318.
[26]Varshney R K, Chen W, Li Y,et al.Draft genome sequence of pigeonpea (Cajanus cajan), an orphan legume crop of resourcepoor farmers[J].Nature biotechnology,2012,30(1):83-89.
[27]Krishnan N M, Pattnaik S, Jain P,et al.A draft of the genome and four transcriptomes of a medicinal and pesticidal angiospermAzadirachta indica[J].BMC genomics,2012,13(1): 464.
[28]Krishnan N M, Pattnaik S, Deepak S A,et al. De novo sequencing and assembly ofAzadirachta indicafruit transcriptome [J]. Curr Sci,2011,101:1553-1561.
[29]Rahman A Y A, Usharraj A O, Misra B B,et al. Draft genome sequence of the rubber treeHevea brasiliensis[J]. BMC genomics, 2013, 14(1):75.
[30]Peng Z, Lu Y, Li L,et al. The draft genome of the fast-growing non-timber forest species moso bamboo (Phyllostachys heterocycla) [J]. Nature genetics,2013,45:456-461.
[31]Nystedt B, Street N R, Wetterbom A,et al.The Norway spruce genome sequence and conifer genome evolution[J].Nature, 2013,497(7451): 579-584.
[32]Singh R, Ong-Abdullah M, Low E T L,et al.Oil palm genome sequence reveals divergence of interfertile species in Old and New worlds[J].Nature,2013,500(7462):335-339.
[33]He N, Zhang C, Qi X,et al. Draft genome sequence of the mulberry treeMorus notabilis[J]. Nature communications, 2013,4: 2445.
[34]Huang S, Ding J, Deng D,et al. Draft genome of the kiwifruitActinidia chinensis[J].Nature communications,2013,4:2640.
[35]Ma T, Wang J, Zhou G,et al. Genomic insights into salt adaptation in a desert poplar[J]. Nature communications, 2013, 4: 2797.
[36]Birol I, Raymond A, Jackman S D,et al.Assembling the 20 Gb white spruce (Picea glauca) genome from whole-genome shotgun sequencing data[J].Bioinformatics,2013,29(12):1492-1497.
[37]Dai X, Hu Q, Cai Q,et al. The willow genome and divergent evolution from poplar after the common genome duplication[J].Cell research,2014,24(10):1274-1277.
[38]Liu M J, Zhao J, Cai Q L,et al.The complex jujube genome provides insights into fruit tree biology[J].Nature communications, 2014, 5: 5315.
[39]岳桂東,高 強(qiáng),羅龍海,等.高通量測(cè)序技術(shù)在動(dòng)植物研究領(lǐng)域中的應(yīng)用[J].中國(guó)科學(xué), 2012,42(2):107-124.
[40]陳建軍,王 瑛.植物基因組大小進(jìn)化的研究進(jìn)展[J].遺傳,2009,31(5):464-470.
[41]Thomas Jr C A. The genetic organization of chromosomes[J].Annual review of genetics, 1971,5(1):237-256.
[42]Hawkins J S, Grover C E, Wendel J F. Repeated big bangs and the expanding universe: Directionality in plant genome size evolution[J].Plant Science,2008,174(6):557-562.
[43]Hawkins J S, Hu G, Rapp R A,et al.Phylogenetic determination of the pace of transposable element proliferation in plants: copia and LINE-like elements inGossypium[J].Genome, 2007, 51(1):11-18.
[44]Woese C R, Kandler O, Wheelis M L. Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya[J].Proceedings of the National Academy of Sciences,1990, 87(12): 4576-4579.
[45]Doolittle R F, Handy J. Evolutionary anomalies among the aminoacyl-tRNA synthetases[J]. Current opinion in genetics &development,1998,8(6):630-636.
[46]Heinemann J A, Kurenbach B. Eecyclopedia of Microbiology[M].Oxford: S Moselio, 2009, 597-606.
[47]Kalia V C, Lal S, Cheema S. Insight in to the phylogeny of polyhydroxyalkanoate biosynthesis: horizontal gene transfer[J].Gene, 2007, 389(1):19-26.
[48]Philippe H, Douady C J. Horizontal gene transfer and phylogenetics[J]. Current opinion in microbiology, 2003, 6(5):498-505.
[49]Bremer B, Bremer K, Chase M,et al.An update of the Angiosperm Phylogeny Group classi fi cation for the orders and families of fl owering plants: APG III[J].Botanical Journal of the Linnean Society, 2009, 161:105-121.
[50]Jiao Y, Wickett N J, Ayyampalayam S,et al. Ancestral polyploidy in seed plants and angiosperms[J]. Nature, 2011, 473(7345):97-100.
[51]Soltis D E, Bell C D, Kim S,et al.Origin and early evolution of angiosperms[J].Annals of the New York Academy of Sciences,2008,1133(1):3-25.
[52]Tang H, Bowers J E, Wang X,et al. Angiosperm genome comparisons reveal early polyploidy in the monocot lineage[J].Proceedings of the National Academy of Sciences,2010,107(1):472-477.
[53]李成慧,蔡 斌.葡萄WRKY轉(zhuǎn)錄因子家族全基因組分析[J].經(jīng)濟(jì)林研究,2013,31(4):127-131.
[54]李春秀,齊力旺,王建華,等.植物纖維素合成酶基因和纖維素的生物合成[J].生物技術(shù)通報(bào),2005,(4):5-11.
[55]Boerjan W, Ralph J, Baucher M. Lignin biosynthesis[J].Annual review of plant biology,2003, 54(1):519-546.
[56]Baucher M, Halpin C, Petit-Conil M,et al. Lignin: genetic engineering and impact on pulping[J].Critical Reviews in Biochemistry and Molecular Biology,2003,38(4):305-350.
[57]Grima-Pettenati J, Goffner D. Lignin genetic engineering revisited[J]. Plant Science,1999, 145(2):51-65.
[58]Rogers L A, Campbell M M. The genetic control of lignin deposition during plant growth and development[J].New phytologist, 2004,164(1):17-30.
[59]章霄云,郭安平,賀立卡,等.木質(zhì)素生物合成及其基因調(diào)控的研究進(jìn)展[J].分子植物育種, 2006,4(3):431-437.
[60]谷振軍,章懷云,張黨權(quán),等.赤桉木質(zhì)素合成途徑OMT基因家族的原核表達(dá)與純化研究[J].中南林業(yè)科技大學(xué)學(xué)報(bào),2014, 34(6):24-27, 60.
[61]陳博雯,蓋 穎,蔣湘寧.尾葉桉GLU4肉桂酰-輔酶A還原酶基因克隆及原核表達(dá)[J].中南林業(yè)科技大學(xué)學(xué)報(bào),2014,34(11): 71-76, 97.
[62]Tao S, Khanizadeh S, Zhang H,et al.Anatomy, ultrastructure and lignin distribution of stone cells in twoPyrusspecies[J].Plant Science, 2009,176(3):413-419.
[63]周 丹,趙江哲,柏 楊,等.植物油脂合成代謝及調(diào)控的研究進(jìn)展[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2012, 35(5):77-86.
[64]Karlgren A, Gyllenstrand N, K?llman T,et al.Evolution of the PEBP gene family in plants: functional diversification in seed plant evolution[J].Plant physiology, 2011, 156(4): 1967-1977.[65]Klinten?s M, Pin P A, Benlloch R,et al.Analysis of conifer FLOWERING LOCUS T/TERMINAL FLOWER1-like genes provides evidence for dramatic biochemical evolution in the angiosperm FT lineage[J]. New Phytologist, 2012, 196(4):1260-1273.
An essential report on the achievements of whole genome sequencing in economic trees
RAN Hong, ZHANG Ying, HU Tao, FENG Yun, LIAN Chao, GUO Qi-Rong
(SFA Key Laboratory of Bamboo and Rattan Science and Technology, International Center for Bamboo and Rattan,Beijing 100102, China)
There exist some dif fi culties in assembly and annotation of genome sequencing of economic trees owning to its enormous genome. In order to enhance research ef fi ciency on whole genome in economic trees, it is necessary to analyze and compare the research progress at the aspect and the existing problems. The achievements of whole genome sequencing of the 28 economic tree species were summarized. The sequencing strategies, technology, methods,and the sequencing materials were compared. The whole genome size, gene numbers, gene density, average length of genes, average length of introns, GC content and other structure characteristics were analyzed. Moreover, the important molecular events in the evolution process of the species were collected, and the important biological economic traits were dissected, including cellulose, lignin, sugar and starch, grease, resistance, and so on. In addition, the important role of China in the fi eld of genome sciences was forecasted.
economic trees; whole genome sequencing; gene family; gene; phylogenesis; biological economic traits
S602.4
A
1003—8981(2015)02—0149—09
2015-03-02
國(guó)家自然科學(xué)基金項(xiàng)目(31370631)。
冉 洪,碩士研究生。
郭起榮,教授,博士研究生導(dǎo)師。E-mail:QRGUO@icbr.ac.cn
冉 洪,張 瑩, 胡 陶,等.經(jīng)濟(jì)樹種全基因組測(cè)序成果要報(bào)[J].經(jīng)濟(jì)林研究,2015,33(2):149-157.
10.14067/j.cnki.1003-8981.2015.02.026
http: //qks.csuft.edu.cn
[本文編校:伍敏濤]