雜交現(xiàn)象在高等生物的進化過程中扮演著重要角色。研究表明由于不完全的地理隔離、生殖隔離,物種形成后仍然會存在不同程度的基因交流,有觀點認為大約25%的植物、10%的動物曾經(jīng)發(fā)生過雜交的現(xiàn)象[1]。相對于基因突變而言,雜交能夠快速積累遺傳變異,有利于增加群體的遺傳多樣性,促進新物種的形成[2];其次,雜交有利于生成高度侵入性的基因型[3-4];最后,因雜交過程而產(chǎn)生的遺傳同化作用還可能引起物種滅絕[5-7]。從基因組學(xué)出發(fā)識別古老和近期的雜交事件,有助于深入理解物種之間的系統(tǒng)發(fā)育關(guān)系[8],為研究雜交優(yōu)勢[9-10]提供分子依據(jù),并在培育新品種方面發(fā)揮重要的應(yīng)用價值。
在20個世紀,以Anderson[11]為代表的科學(xué)家認為雜交物種的形態(tài)特征能夠從父母本中遺傳繼承,從而可以通過形態(tài)特征實現(xiàn)對雜交物種的鑒定;隨著研究的深入,人們發(fā)現(xiàn)當雜交個體缺乏中間形態(tài)或父母本形態(tài)特征時,將導(dǎo)致有效的形態(tài)特征過少[12],并且由于形態(tài)特征易受環(huán)境因素的影響,導(dǎo)致鑒定雜交物種的準確度很低,因此該方法逐步淡出了人們的視野。
鑒于形態(tài)學(xué)特征不能很好的鑒定雜交物種,人們開始尋找新的遺傳標記,如利用次級代謝物進行雜交物種的鑒定提供了較為可靠的證據(jù)。比較成熟的標記物主要包括酚類、萜類、生物堿、異硫氰酸酯和黃酮類化合物,其中黃酮類化合物使用的頻率最高[12]。1951 年,Zobel[13]首次將次級代謝產(chǎn)物標記用于雜交物種的識別;1962年,Alston和Turner[14]的研究將這個方法有效推廣。然而,人們意識到由于次級代謝產(chǎn)物產(chǎn)生的遺傳機制非常復(fù)雜,所以無論是被用作定性指標還是定量指標,在鑒定雜交的準確性上均存在問題[15-16],限制了次級代謝物方法在雜交物種研究中的具體應(yīng)用。此外,染色體數(shù)目同樣被作為鑒定雜交的方法,該方法認為雜交個體總是伴隨著染色體數(shù)目的加倍[17]。現(xiàn)實中也確實存在異源多倍化雜交的例子,如菊科的婆羅門參屬[18]、禾本科的米草屬[19]等。由于存在雜交個體與父母本具有相同染色體數(shù)目的可能性,單純使用染色體數(shù)目方法會嚴重低估雜交的頻率。
基于基因組分子標記的群體遺傳學(xué)法和分子系統(tǒng)發(fā)育關(guān)系法,極大提高了雜交物種起源研究的分類深度和親本定位的準確性。其中群體遺傳學(xué)的方法主要包括 NEWHYBRIDS[20]和 INTROGRESS[21],在研究范圍涵蓋雜交物種父母本的情況下,該方法可以清楚的展示雜交物種保留父母本遺傳信息的比例,但在鑒定雜交物種方面存在限制;系統(tǒng)發(fā)育關(guān)系法可以很好的解決此問題,目前使用系統(tǒng)發(fā)育關(guān)系法鑒定雜交的依據(jù)主要包括兩點:一是雜交物種在不同單基因樹中的位置差異[22];二是雜交物種在葉綠體系統(tǒng)發(fā)育關(guān)系與核基因的系統(tǒng)發(fā)育關(guān)系中的位置沖突[23]。前者在使用大量標記基因時,過多的單基因樹拓撲結(jié)構(gòu)差異會導(dǎo)致該方法的可操作性較差;后者雖然可以提供雜交物種的父母本信息[24],但由于葉綠體基因相對保守,物種間序列差異較小,導(dǎo)致葉綠體基因不能解決快速分化或分類階元較低的類群的系統(tǒng)發(fā)育關(guān)系[25-26]。綜上所述,目前仍舊缺少一種基于序列信息鑒定雜交的高效方法,因此我們嘗試使用基于比較基因組學(xué)的方法來鑒定十字花科內(nèi)部的雜交現(xiàn)象。
十字花科是公認的自然大科,屬于世界廣布植物。全科約有338個屬,3700多個種[25]。其中,我國分布約有102個屬,421個種[27]。該科不僅包含許多觀賞作物(如紫羅蘭)和重要的經(jīng)濟作物(如油菜、芥菜等),同時還是分子生物學(xué)和進化發(fā)育生物學(xué)研究廣泛使用的體系,包括了模式生物擬南芥等。因此十字花科的研究是廣泛的、重要的。十字花科中雜交現(xiàn)象普遍存在[28],例如蕓苔屬中3個基本種(Brassica nigra,Brassica oleracea and Brassica rapa)兩兩雜交而產(chǎn)生的3個雜交種(Brassica carinata,Brassica napus and Brassica juncea)[29],同時存在一些屬(Cardamine,Boechera)易頻繁的發(fā)生雜交事件[30]。因此十字花科對于雜交現(xiàn)象的研究是非常好的材料。
十字花科的雜交事件一直是人們研究的熱點。但是,目前仍缺少一種高效的鑒定雜交物種的方法,本研究選取28個十字花科物種及兩個外類群物種作為研究材料,基于比較基因組學(xué)的方法來鑒定雜交物種,以期為深入研究十字花科雜交事件提供新的思路。
本研究使用了28個十字花科物種(涵蓋16個族及兩個未定族)和2個外類群物種。其中十字花科物種包括來自本實驗室測序的22個轉(zhuǎn)錄組信息和來自公共數(shù)據(jù)庫[31]的6個基因組信息;外類群物種包括來自本實驗室測序的Cleome serrulata和來自公共數(shù)據(jù)庫的Carica papaya(表1)。
1.2.1 物種樹的構(gòu)建 Huang等[32]利用56個物種的113個低拷貝核基因構(gòu)建了穩(wěn)定的十字花科系統(tǒng)發(fā)育關(guān)系,并將十字花科分為6個主要的支系(A-F支)。我們依據(jù)該結(jié)果確定了本研究所用的30個物種的系統(tǒng)發(fā)育關(guān)系(圖3)。其中,A支包含8個物種,B支包含10個物種,C支包含5個物種,D、E支各包括2個物種,F(xiàn)支包含1個物種以及兩個外類群物種。
表130個物種的物種信息及數(shù)據(jù)來源
1.2.2 單基因樹映射物種樹法 利用Trinity[33]對轉(zhuǎn)錄組數(shù)據(jù)進行拼接(使用默認參數(shù)),使用TGICL[34](參數(shù) :-p 0.98 -l 40 -v)進一步拼接以獲得更長的unigene序列。接下來對30個物種的蛋白質(zhì)序列進行兩兩的all-against-all Blastp比對分析,過濾掉相似度較低的比對結(jié)果。最后使用MCL[35]對比對結(jié)果進行聚類得到30個物種的同源基因簇(Orthogroup),分析流程見圖1-A。
圖1 核基因(A)與葉綠體基因(B)分析流程
同源基因簇的篩選標準:(1)序列的平均長度≥600 bp;(2)A、B、C三個類群的物種覆蓋度分別達到80%(A、B、C類群在同源基因簇中分別應(yīng)包含至少 7、8、4個物種);(3)去除 trimAl(參數(shù):-automated1 -resoverlap 0.5 -seqoverlap 50)后序列過短的同源基因簇,最終得到7179個同源基因簇。
使用RAxML[36]對上述同源基因簇構(gòu)建單基因樹(參數(shù):-m GTRCAT -f a -x 1 -N 100),并對十字花科物種樹進行映射,映射方法見圖2,僅保留bootstrap≥70的姐妹類群,最終得到各物種的姐妹類群的分布情況,篩選雜交物種,用于后續(xù)分析。
1.2.3 序列比對法(best-hit法)將同源基因簇中特定物種的蛋白質(zhì)序列與其他物種的所有序列進行Blastp(使用默認參數(shù))搜索,僅保留每條比的最匹配序列(best-hit),接下來將7179個同源基因簇重復(fù)此操作,并匯總所有保留的比對結(jié)果,然后按照query的物種名進行分類,統(tǒng)計各物種比對的besthit物種名的數(shù)量情況,最終將各物種的best-hit的分布數(shù)量映射到物種樹上,得到best-hit分布圖。
1.2.4 葉綠體/核基因系統(tǒng)發(fā)育關(guān)系對比法 葉綠體基因具有序列保守、單親遺傳等特點[37],是植物系統(tǒng)發(fā)育關(guān)系研究的常用材料[38]。本方法使用10個十字花科物種和一個外類群物種,其中十字花科物種包括5個葉綠體基因組信息和5個轉(zhuǎn)錄組信息,外類群Carica papaya為葉綠體基因組信息(表2)。
表2 葉綠體實驗材料信息及來源
我們以擬南芥葉綠體基因(共85個葉綠體基因,其中反向重復(fù)序列為7對,長單拷貝與短單拷貝的序列為71個)中7個重復(fù)序列和71個非重復(fù)序列共計78個基因作為葉綠體基因庫,對11個物種的所有序列進行Tblastn序列比對,過濾掉非葉綠體基因(相鄰得分差大于最高得分的10%,則認為后續(xù)序列為非葉綠體基因);篩選包含雜交物種的同源基因簇,并將每個物種的基因順序串聯(lián),構(gòu)建super matrix;使用RAxML構(gòu)建系統(tǒng)樹(參數(shù):-m GTRCAT -f a -x 1 -N 100),分析流程見圖1-B,最后將葉綠體基因樹與核基因樹進行比較,尋找沖突位點,確定可能的雜交物種及可能的父母本來源。
1.2.5 功能富集分析 對于雜交物種,我們對其父源、母源基因進行功能富集的比較分析。利用MapMan[39]注釋體系獲取擬南芥的注釋信息(http://mapman.gabipd.org/)。由于同一個同源基因簇中的基因在功能上高度相似,因此我們選取同源基因簇中的擬南芥基因代替雜交物種基因進行功能富集分析來表明該同源基因簇的功能,最后使用Excel對注釋結(jié)果進行可視化處理。
本研究共使用30個物種,其中23個物種為轉(zhuǎn)錄組數(shù)據(jù),首先對轉(zhuǎn)錄組進行拼接,統(tǒng)計轉(zhuǎn)錄本數(shù)目并匯總所有物種的基因數(shù)目,發(fā)現(xiàn)30個物種除Brassica rapa和Parolinia intermedia外,物種包含基因/轉(zhuǎn)錄本數(shù)在24000-35000之間(表1)。
對30個物種的890487條基因序列進行allagainst-all Blastp序列比對,過濾掉query與hit長度存在顯著差異的序列,并將比對結(jié)果通過MCL進行聚類分析,最終得到覆蓋30個物種的30091個同源基因簇。每個同源基因簇平均包括15個物種(物種覆蓋度為50%)、26個基因(序列平均長度為853 bp)。
為了獲得更加穩(wěn)定的單基因樹,對同源基因簇序列平均長度和物種覆蓋度進行過濾,當序列的平均長度≥600 bp,可以篩選到15624個同源基因簇,同源基因簇保留率為52%。進一步對物種覆蓋度進行過濾,篩選得到7210個同源基因簇,同源基因簇保留率為24%。最后去除trimAl后序列過短的同源基因簇得到7179個同源基因簇,平均每個同源基因簇包括29個物種(物種覆蓋度為97%)、59個基因(序列平均長度為1217 bp)。使用RAxML對同源基因簇構(gòu)建單基因樹,得到7179個單基因樹。
將7179個單基因樹映射到十字花科物種樹,從基因樹中反映出的物種關(guān)系(即給定物種的姐妹類群分布,附圖1-6)出發(fā),對單基因的物種來源做統(tǒng)計。結(jié)果可以分為兩類:第一類以模式生物擬南芥(Arabidopsis thaliana)為代表,其姐妹類群分布相對集中;第二類以誠實花(Lunaria annua)為代表,其姐妹類群分布相對分散,在十字花科基部和內(nèi)部的多個分支上均有所分布。以擬南芥和誠實花為例(圖2),在7179個單基因樹中,擬南芥單基因的姐妹類群在物種樹上共計映射5639次,且主要分布在A類群a亞分支,其包含3個物種,2個節(jié)點,覆蓋擬南芥姐妹類群分布數(shù)量的前五名,占映射總數(shù)的89.4%,且與第六名以及之后的占比差異較大;而誠實花的姐妹類群在物種樹上共計映射3693次,其姐妹類群數(shù)量前五名只占總數(shù)量的63%,前十名占比為81.7%,各種類占比呈現(xiàn)平穩(wěn)下降,與擬南芥形成鮮明對比(表3)。
總體來說,誠實花的姐妹類群的分布較分散,除集中分布在C類群外,還在A類群、B類群的祖先處以及十字花科基部類群均有所分布。該結(jié)果表明誠實花與其他類群可能存在一定的基因交流,為揭示十字花科內(nèi)部的雜交物種提供了線索。
針對雜交物種誠實花,我們使用序列比對法對其進行分析,得到其best-hit的分布圖,并與擬南芥進行對比(圖3)。在7179個同源基因簇中,共包含18723個擬南芥基因,其中6個主要支系的26個物種包含18394個best-hits,平均每個物種besthit的基因數(shù)為707,其中在A支系平均每個物種的best-hits基因數(shù)為2315,遠遠高于平均值以及B、C類群的best-hit基因數(shù)。對于誠實花,7179個同源基因簇中共包含15727個基因,其中6個主要支系的27個物種包含15698個best-hits,平均每個物種best-hits的基因數(shù)為581,誠實花所在C類群besthit基因數(shù)為519,與平均值以及A、B類群相比不存在顯著性差異(P值分別為0.41、0.23和0.35)。通過best-hit法,我們發(fā)現(xiàn)誠實花的best-hit分布比擬南芥等系統(tǒng)位置明確的物種更加分散,間接支持誠實花可能是一個雜交物種。
圖2 單基因樹映射物種樹模型及基于該方法獲得擬南芥、誠實花的分布圖
表3 基于單基因樹映射物種樹獲得擬南芥、誠實花姐妹類群前10名分布情況
以擬南芥78個葉綠體基因作為基因庫,對11個物種的葉綠體基因組/轉(zhuǎn)錄組信息進行序列比對,過濾掉非葉綠體基因,篩選含有雜交物種的同源基因簇,最終得到11個物種的24個葉綠體基因,其中Aethionema subulatum包含最少葉綠體基因數(shù)為16個。11個物種共包含239個葉綠體基因,物種的基因覆蓋度達90%(表4)。將每個物種的基因順序串聯(lián),構(gòu)建super matrix,最終使用RAxML構(gòu)建十字花科葉綠體的系統(tǒng)發(fā)育關(guān)系(圖4)。通過與十字花科核基因系統(tǒng)發(fā)育關(guān)系進行對比,我們發(fā)現(xiàn)誠實花在核基因系統(tǒng)發(fā)育關(guān)系中的姐妹類群為C類群,在葉綠體系統(tǒng)發(fā)育關(guān)系中,與B、C結(jié)合類群互為姐妹類群。因此,我們認為誠實花可能是一個雜交物種,其母本可能來自于B、C結(jié)合類群的共同祖先,父本可能來自于C類群。
圖3 基于序列比對法獲得擬南芥、誠實花best-hit分布圖
表4 葉綠體基因覆蓋情況
在7179個同源基因簇中,有4234個同源基因簇包含合格的誠實花基因(BS≥70的姐妹類群中的誠實花基因)。由于同一個同源基因簇中的基因在功能上高度相似,因此使用擬南芥基因代替誠實花進行功能富集分析。在4234個同源基因簇中共包含5292個擬南芥基因,其中前10名(圖2-f)包含4105個基因,占比為77.6%。其中39.1%的基因與父本來源的C類群基因關(guān)系最近;38.5%的基因與C類群以外類群的基因最近,特別是來自B、C結(jié)合類群共同祖先的10號節(jié)點(占比3%)支持其作為誠實花的母本來源。結(jié)合誠實花單基因樹映射物種樹的姐妹類群分布情況,我們將圖2-f中1、2、4號節(jié)點定義為雜交父本,將3、7、8、9、10號節(jié)點定義為雜交母本,然后對雜交物種誠實花的父母本進行功能富集分析(圖5),最后我們發(fā)現(xiàn)父本主要富集在生物降解、次級代謝產(chǎn)物、RNA調(diào)控等途徑上,表明其可能通過RNA調(diào)控生物降解、次級代謝過程以適應(yīng)脅迫環(huán)境;母本主要富集在代謝途徑上,尤其是碳水化合物、核酸代謝,表明其可能通過增強自身代謝獲取相對競爭優(yōu)勢。
圖4 十字花科核基因樹、葉綠體基因樹以及單基因樹個例展示
進化研究表明,由于受到基因突變速率差異、橫向基因轉(zhuǎn)移以及重復(fù)基因丟失拷貝等因素的影響,單基因樹的拓撲結(jié)構(gòu)可能與物種關(guān)系存在一定程度的差異。以相對準確的物種進化歷史作為參照,從單基因樹中包含的重要進化信息[40-41]出發(fā),尋找可能的序列特征以追溯歷史上發(fā)生過的雜交等復(fù)雜事件是本研究的主要目的。隨著二代測序的發(fā)展,基因組信息得以迅速積累,促進了構(gòu)建物種關(guān)系和基因進化歷史等相關(guān)研究的發(fā)展[42]。分子進化信息位點數(shù)量的快速增長,將有助于發(fā)現(xiàn)不同物種進化歷史上的雜交事件和其它種間基因交流方式。
在本研究中,我們基于篩選后的7179個十字花科同源基因簇數(shù)據(jù)集,結(jié)合單基因樹映射物種樹分析方法,對所有的單基因樹進行整合,繪制出各物種的姐妹類群分布圖用于鑒定十字花科內(nèi)部的雜交事件。由于該方法主要依據(jù)單基因樹的拓撲結(jié)構(gòu)信息,因此單基因樹的建樹質(zhì)量對于結(jié)果的準確性有顯著影響。為此在對同源基因簇進行過濾時,我們使用更嚴格的條件(序列長度≥600 bp,A、B、C各分支物種覆蓋度≥80%),最終同源基因簇的保留率為23.8%,對重要節(jié)點(父母本來源的節(jié)點)同源基因簇所構(gòu)建的單基因樹進行檢查(圖4-c、d,附圖7),我們發(fā)現(xiàn)使用該方法過濾后的同源基因簇所構(gòu)建的單基因樹與十字花科物種樹拓撲結(jié)構(gòu)基本一致,且支持度較高,能夠滿足該方法的使用。
圖5 誠實花基因的父源、母源基因功能富集的比較分析
在單基因樹映射物種樹的方法中,誠實花的姐妹類群主要分布在父本來源的C類群(1、2、4號),共計映射1790次,占比39.1%,而母本來源的10號節(jié)點共映射106次,占比只有3%。我們認為造成雜交物種母本來源的基因較少的原因主要由于父母本發(fā)生雜交事件,母本進化速率加快,從而導(dǎo)致姐妹類群的分布分散到十字花科的基部類群(3、7、8、9號節(jié)點),因此在對父母本進行功能富集分析時,將3、7、8、9、10五個節(jié)點的信息歸于母本來源。
前人研究表明,單基因樹與物種樹存在差異受水平基因轉(zhuǎn)移、譜系分選和雜交等多種因素影響[43,8]。其中,水平基因轉(zhuǎn)移是相對于親代到子代的垂直遺傳方式而言,指不通過生殖進行的、跨物種的遺傳信息交流的方式[44]。在植物核基因之間水平基因轉(zhuǎn)移發(fā)生的頻率低[45],因此對姐妹類群分布情況不會造成顯著影響;譜系分選指由于物種分化時間短,祖先基因的多態(tài)性在分化物種中隨機固定下來的過程。由于譜系分選對單基因樹拓撲結(jié)構(gòu)的影響與物種分化后發(fā)生雜交事件的影響是一致的,所以對于雜交物種的鑒定,譜系分選的影響不容忽略。
考慮到譜系分選在分化物種中隨機固定的特性,Huson 等[46]基于單基因樹拓撲結(jié)構(gòu)進行統(tǒng)計檢測,假定{{a,b},c}是一個物種樹,如果單基因樹沖突是由于譜系分選造成的,那么{{a,c},b}{{b,c},a}兩種拓撲結(jié)構(gòu)應(yīng)該具有相同的出現(xiàn)頻率。鑒于此,我們分別對圖2-f中的3、7、8、9、10五個節(jié)點分化后誠實花的姐妹類群在各節(jié)點分支處的數(shù)量進行統(tǒng)計分析,具體信息見表6。其中10號節(jié)點分化后形成1、5號節(jié)點,1號節(jié)點包括10個物種,有236個誠實花的姐妹類群覆蓋在該節(jié)點,平均每個物種包含23.6個姐妹類群;5號節(jié)點包括4個物種,有899個誠實花姐妹類群覆蓋,平均每個物種包含224.8個姐妹類群,兩分支節(jié)點平均值相差9.52倍,顯然不符合譜系分選的比例要求。因此,我們認為C類群是誠實花雜交事件的一個親本。9號節(jié)點分化后形成6、10號節(jié)點,6號節(jié)點每個物種平均包含21.3個姐妹類群,10號節(jié)點每個物種平均包含7.6個物種,兩分支節(jié)點平均值相差2.8倍,不符合譜系分選的比例要求。因此,我們認為B、C結(jié)合類群的共同祖先是誠實花雜交事件的另一個親本。3、7、8號節(jié)點由于物種分化后的E、D、F分支只有1到2個物種,隨機因素對其結(jié)果影響較大,倍數(shù)差異可信度較差,未來可能需要提供更多的物種或者通過其他證據(jù)進行驗證。
綜上所述,我們認為誠實花雜交的父本來自C類群,母本來自B、C結(jié)合類群的共同祖先,而誠實花姐妹類群較多的分布在3、7、8號節(jié)是譜系分選的影響還是雜交的影響,有待尋找更多的證據(jù)來進行驗證。
本研究通過選取28個十字花科物種(涵蓋16個族及兩個未定族)及2個外類群物種作為研究材料,采用比較基因組學(xué)和系統(tǒng)發(fā)育基因組學(xué)的研究手段,在葉綠體和核基因兩個方向上聯(lián)合分子表型信息鑒定十字花科內(nèi)的雜交事件。
主要結(jié)論包括:(1)依據(jù)單基因樹映射物種樹的結(jié)果,將十字花科物種分為兩類,其一以擬南芥為代表,其姐妹類群分布相對集中;其二以誠實花為代表,其姐妹類群分布分散,暗示該物種基因可能存在多種來源。
(2)結(jié)合最佳比對法和葉綠體/核基因系統(tǒng)發(fā)育關(guān)系對比法,我們認為誠實花可能是一個雜交物種,其39.1%的基因與父本來源的C類群基因關(guān)系最近;38.5%的基因與C類群以外類群的基因最近,特別是來自B、C結(jié)合類群共同祖先的10號節(jié)點(占比3%)支持其作為誠實花的母本來源。
表5 誠實花的單基因樹映射物種樹分布圖中關(guān)鍵節(jié)點分支處倍數(shù)差異表
(3)對雜交物種誠實花的父母本進行功能富集分析,最后我們發(fā)現(xiàn)父本主要富集在生物降解、次級代謝產(chǎn)物、RNA調(diào)控等途徑上,表明其可能通過RNA調(diào)控生物降解、次級代謝過程以適應(yīng)脅迫環(huán)境;母本主要富集在代謝途徑上,尤其是碳水化合物、核酸代謝等方面,表明其可能通過增強自身代謝獲取相對競爭優(yōu)勢。
注:論文附圖1-7見電子版(http://biotech.caas.cn)