肖啟蒙
摘 要 板藍(lán)(Strobilanthes cusia)具有極高的藥用價值,全草可入藥,是中草藥南板藍(lán)根的主要成分。為了厘清板藍(lán)基因組的進(jìn)化歷程,探究板藍(lán)的生物學(xué)功能,通過將板藍(lán)基因組與葡萄(Vitis vinifera)、漾濞槭(Acer yangbiense)基因組進(jìn)行全基因組比對,采用推斷基因組同源性、同義堿基替換、Ks的核函數(shù)分析、鑒定染色體的直系和旁系同源區(qū)域、全基因組與局部比對等方法,發(fā)現(xiàn)板藍(lán)在經(jīng)歷了核心真雙子葉共享的三倍化事件后,還額外經(jīng)歷了一次三倍化事件,并且確定時間節(jié)點在106~120個百萬年前。
關(guān)鍵詞 板藍(lán);共線性;多倍化;全基因組比對;同義核苷酸替換率
中圖分類號:S567.23+9 文獻(xiàn)標(biāo)志碼:A DOI:10.19415/j.cnki.1673-890x.2023.15.003
板藍(lán)(Strobilanthes cusia)是爵床科灌木狀多年生草本植物,廣泛分布在我國的四川、貴州、浙江和福建等地。板藍(lán)全身皆可入藥,根被稱為“南板藍(lán)根”,莖和葉經(jīng)加工后可得青黛,能夠治療病毒性肝炎、流感、感冒、肺炎、炎癥、皰疹、丹毒、蛇咬傷等[1],青黛是牛黃消炎丸、桂林西瓜霜等的主要原料[2-3]。其中,福建馬藍(lán)(板藍(lán))青黛品質(zhì)最佳,是福建省大宗地道藥材之一[4]。最近,高質(zhì)量板藍(lán)基因組數(shù)據(jù)可獲得[5],為進(jìn)一步探究板藍(lán)基因組進(jìn)化歷史及生物學(xué)特征奠定了基礎(chǔ)。
多倍化(polyploidy)是物種多樣性演化的重要基因組動力,為地球上綠色植物的龐大類群的出現(xiàn)做出了巨大貢獻(xiàn),尤其在被子植物的演化過程中尤為突出[6]。物種經(jīng)歷多倍化,其早期基因組將以古老的多倍體形式存在,而后會出現(xiàn)大規(guī)模的染色體重排,以及伴隨發(fā)生的重復(fù)基因丟失現(xiàn)象,這就導(dǎo)致現(xiàn)存物種基因組相對其祖先,已經(jīng)發(fā)生了復(fù)雜的變化,因此也為研究其古老的演化歷史帶來了挑戰(zhàn)。板藍(lán)作為真雙子葉植物,至少經(jīng)歷了3次多倍化事件,包括種子植物共享的全基因組加倍ζ(zeta)事件和被子植物共有的ε(epsilon)事件,以及最近發(fā)生的一次核心真雙子葉植物共同經(jīng)歷的古老六倍體γ(gamma)事件。多倍化事件的鑒定及對物種進(jìn)化的影響,是基因組研究的一個熱點,其中對于古老時期、且在一個較短的時間里,發(fā)生的潛在的由多倍化導(dǎo)致的基因組激變事件的鑒定是一個難點。地球上真雙子葉植物出現(xiàn)距今有約1.5億年[7-9],早期分化關(guān)鍵節(jié)點幾乎是在同一歷史時期,對于板藍(lán)而言,其從核心雙子葉中分化出來的時間較早且分化較快,受到輻射性演化的影響,因而增加了這一分化前后的全基因組加倍事件的分析難度。
本研究通過使用前人開發(fā)的方法[10],將板藍(lán)基因組與兩個優(yōu)良的參考基因組——葡萄(Vitis vinifera)和漾濞槭(Acer yangbiense)進(jìn)行共線性分析和全基因組比對分析,旨在厘清板藍(lán)基因組的進(jìn)化歷程,探究板藍(lán)的生物學(xué)功能。
1? 材料與方法
1.1? 植物基因組數(shù)據(jù)
從不同的網(wǎng)站下載了每個基因組項目的基因組序列和注釋文件。葡萄的基因組數(shù)據(jù)可以在NCBI上找到(https://www.ncbi.nlm.nih.gov/),漾濞槭的基因組信息可以在GenBank找到(http://www.ncbi.nlm.nih.gov/genbank/),板藍(lán)的基因組數(shù)據(jù)可以在CNGB Sequence Archive (CNSA) 找到(https://ftp.cngb.org/pub/CNSA/data3/CNP0001632/CNS0343944/CNA0019301/)。
1.2? 推斷基因組同源性
基因共線性表明基因組之間的基因和基因順序在一定程度上是保守的,這可以反映共同祖先的同源染色體結(jié)構(gòu);這對于理解基因組變化,特別是推斷復(fù)雜植物基因組的進(jìn)化至關(guān)重要。通過BLAST對蛋白質(zhì)序列進(jìn)行比較[11],E值<1e-5,得分>100。隨后,來自BLAST的同源基因信息被用作ColinerScan軟件[12]的輸入,為了定位同源基因?qū)ΓP者將同源基因之間的最大間隙分別設(shè)置為10、20、40、50、60、80、100和200個干預(yù)基因,并通過使用這些信息獲得同源基因點圖[13-14]。最后,當(dāng)閾值設(shè)置為50時,發(fā)現(xiàn)了最清晰的共線性片段,并確定出旁系同源和直系同源基因。
1.3? 同義堿基替換
使用Nei-Gojobori方法[15],通過使用Bioperl統(tǒng)計模塊,估計同義位點(Ks)上的同義核苷酸替換。然后,對齊多個基因CDS,并使用ClustalW v2.0設(shè)置默認(rèn)參數(shù)[16]。
1.4? Ks的核函數(shù)分析
使用核函數(shù)來分析基因組內(nèi)和基因組之間的同基因同源物的Ks分布。Ks分布被認(rèn)為是正態(tài)分布的混合。MATLAB v9.2.0[17]用于估計每個Ks列表的密度并獲得密度分布曲線,而核平滑密度函數(shù)的寬度參數(shù)設(shè)置為0.05。通過在擬合工具箱工具中執(zhí)行高斯函數(shù)來擬合曲線,評估擬合優(yōu)度的參數(shù)R2通常設(shè)置為不小于95%。本文使用Ks分布曲線的最大似然估計μ(Ks峰值)。
1.5? 鑒定染色體的直系和旁系同源區(qū)域
通過比較與物種分化和特定多倍體事件相關(guān)的同源區(qū)域的Ks值,確定了同源和旁系的染色體區(qū)域。
1.6? 全基因組與局部比對
基于多基因組比對關(guān)系,使用McScanX的jcvi模型展示筆者在參考基因組和板藍(lán)基因組之間選擇的同源基因深度比關(guān)系的信息[18]。
2? 結(jié)果與分析
2.1? 共線性基因及Ks分布表征
為了探究板藍(lán)的多倍化歷程,筆者比較了板藍(lán)基因組與葡萄、漾濞槭基因組間的共線性關(guān)系(見表1)。在葡萄和漾濞槭基因組中,當(dāng)共線性區(qū)域所包含的共線性基因?qū)Υ笥?對時,分別鑒定出了位于385和670個同源共線性區(qū)域上的3 558和4 853對共線性基因?qū)ΑH欢?,在相同條件下,在板藍(lán)基因組內(nèi)鑒定出13 225對共線性基因?qū)ξ挥? 520個同源區(qū)域上,這大約是葡萄和漾濞槭基因組內(nèi)共線性基因?qū)Φ?倍左右。隨后,筆者對基因組間也進(jìn)行了比較,發(fā)現(xiàn)板藍(lán)與葡萄、漾濞槭間分別存在50、51個長片段(連續(xù)基因?qū)?shù)量大于50對),包括了4 016和4 673對共線性基因?qū)?,值得注意的是,在葡萄與漾濞槭基因組間存在8 611對共線性基因?qū)?,這大約是板藍(lán)與兩個參考基因組間的2倍。這些基因組比較表明,板藍(lán)基因組中有更多的區(qū)塊,并且它們更小,這表明板藍(lán)可能在ECH后經(jīng)歷了進(jìn)一步的多倍化事件。
筆者對共線性基因?qū)λ幍耐磪^(qū)域進(jìn)行了同義核苷酸替換分析,計算了多倍化事件和物種分化所對應(yīng)的Ks峰,并進(jìn)一步推斷了進(jìn)化關(guān)鍵事件發(fā)生的時間節(jié)點(見封三圖1)。葡萄、漾濞槭和板藍(lán)基因組中的共線性基因?qū)Ψ謩e在0.978 9、1.251和1.09處存在峰值,并且板藍(lán)基因組存在一個更小的峰,約為0.929 8,因此筆者推測前面三個峰對應(yīng)核心真雙子葉共享的多倍化事件(core eudicots hexaploidy, ECH),板藍(lán)的較小峰對應(yīng)板藍(lán)額外經(jīng)歷的多倍化事件。此外,筆者發(fā)現(xiàn)板藍(lán)與葡萄、漾濞槭分化的峰分別為1.31和1.43,均大于葡萄與漾濞槭分化的峰(0.946 9),表明板藍(lán)先于葡萄、漾濞槭分化,隨后葡萄和漾濞槭再分開。進(jìn)一步地,筆者對板藍(lán)及參考基因組進(jìn)化過程中的關(guān)鍵進(jìn)化事件進(jìn)行時間節(jié)點的推斷,利用之前研究中確定的ECH事件發(fā)生在大約115~130個百萬年前[9],筆者推算出板藍(lán)大約在111~126個百萬年前與葡萄、漾濞槭分支發(fā)生分化,隨后在約106~120個百萬年前經(jīng)歷了額外的多倍化事件,最后葡萄與漾濞槭在85~96個百萬年前發(fā)生分化。從上述結(jié)果中,筆者可以看到,在ECH事件后,板藍(lán)基因組在相當(dāng)短的時間內(nèi)經(jīng)歷了多倍化及分化事件,這會增大多倍化事件的鑒定難度,是板藍(lán)基因組分析中的巨大挑戰(zhàn)。
2.2? 確定板藍(lán)額外多倍化事件為三倍化
為了揭示板藍(lán)基因組的多倍化歷程,筆者對葡萄和板藍(lán)基因組進(jìn)行比較,發(fā)現(xiàn)板藍(lán)的9個直系染色體區(qū)域與葡萄3個由ECH事件產(chǎn)生的旁系染色體區(qū)域相匹配。比如,葡萄基因組中由ECH事件產(chǎn)生的Vvi4、Vvi9、Vvi11與板藍(lán)基因組中的9個旁系染色體區(qū)域Scu2、Scu9、Scu10、Scu5、Scu15、Scu16、Scu3、Scu6、Scu8相匹配(見封三圖2A)。當(dāng)用漾濞槭基因組與板藍(lán)基因組進(jìn)行比較時,也可觀察到類似的結(jié)果(圖2B)。這些基因組間共線性分析表明,葡萄與板藍(lán),漾濞槭與板藍(lán)間的直系同源共線性深度比皆為3∶9。進(jìn)一步地,對板藍(lán)基因組內(nèi)也進(jìn)行全基因組比較,發(fā)現(xiàn)其自身存在兩個旁系同源區(qū)域,比如,Scu3和Scu4、Scu6為旁系同源區(qū)域(圖2C)。綜合基因組間和基因組內(nèi)比較結(jié)果,表明板藍(lán)基因組應(yīng)該在ECH事件后經(jīng)歷了一次額外的三倍化事件。參考基因組與板藍(lán)間的進(jìn)化關(guān)系如圖2D所示。
2.3? 多重基因組比對與共線性列表的構(gòu)建
在前面鑒定出的直系同源與旁系同源區(qū)域的基礎(chǔ)上,筆者可以區(qū)分出多倍化事件相關(guān)的共線性區(qū)域。葡萄、漾濞槭和板藍(lán)間分化的直系同源關(guān)系如封三圖3A所示。比如,葡萄的18號染色體有一個直系同源區(qū)域位于漾濞槭的10號染色體上。有3個直系同源區(qū)域分別位于板藍(lán)的3、14和16號染色體上(圖3B)。同時,由于多倍化后會存在大量的基因丟失,所以在板藍(lán)和兩個參考基因組之間的微共線性同源區(qū)域的基因清楚地表明,存在一些基因沒有顯示出預(yù)期的共線性深度同源比(見圖3B)。
此外,基于三個比較基因組中同源基因的位置,筆者構(gòu)建了一個分層次和事件相關(guān)的多基因組比對表。在這里,以葡萄為參考基因組,筆者將葡萄的所有基因ID填充到第一列,然后根據(jù)多重比對推斷出的基因組合成,逐列逐種添加葡萄、漾濞槭、板藍(lán)的基因標(biāo)識符。假設(shè)沒有基因丟失,來自ECH事件的葡萄中的三個旁系基因中的每一個都分別在漾濞槭和板藍(lán)中有一個和三個同源基因。因此,多基因組比對表包括15(3+3+9)列,其中包含三列葡萄基因、三列漾濞槭基因和九列板藍(lán)基因。當(dāng)一個基因在預(yù)期位置缺失時,通常是由于基因丟失、易位或可能的組裝不充分,筆者在相應(yīng)的位置輸入一個點來表示缺失的基因,利用構(gòu)建的列表進(jìn)行多基因組比對(圖3C)。該表總結(jié)了多重基因組和事件相關(guān)比對的結(jié)果,反映了遞歸多倍體化導(dǎo)致的三倍同源性,為爵床科生物信息學(xué)的進(jìn)一步深入探究提供了重要的基因組學(xué)資源。
3? 討論與結(jié)論
遞歸多倍體化在植物基因組中頻繁發(fā)生,為基因組功能創(chuàng)新提供了巨大的機(jī)會[19-22]。多倍體化后,植物基因組常常伴隨著基因丟失和染色體重排,這使得基因組更加復(fù)雜,在識別多倍化事件時也會產(chǎn)生巨大的挑戰(zhàn)[23]。比如,對最好匹配片段的選擇存在差異[24],多倍體后進(jìn)化速度加快,導(dǎo)致與最近多倍體事件相關(guān)的同源區(qū)塊的Ks值與ECH事件的Ks值無法區(qū)分[9]等。在之前對板藍(lán)基因組的分析中,并沒有提到板藍(lán)在進(jìn)化過程中經(jīng)歷了全基因組多倍化事件[5]。本文對板藍(lán)與參考基因組進(jìn)行了深入的全基因組比對分析,發(fā)現(xiàn)葡萄與漾濞槭,葡萄與板藍(lán)的直系同源比分別為1∶1,1∶3,表明板藍(lán)基因組在ECH事件后又經(jīng)歷了一次額外的三倍化事件。這不僅可以成為探究爵床科植物進(jìn)化歷程的模式,也因筆者對板藍(lán)基因組構(gòu)建的多重基因組比對列表,而能為后續(xù)爵床科植物基因組學(xué)研究打下堅實的基礎(chǔ)。此外,本研究為進(jìn)一步加強(qiáng)板藍(lán)育種工作,提高板藍(lán)產(chǎn)量提供了理論基礎(chǔ)。
參考文獻(xiàn):
[1] GU W, ZHANG Y, HAO X J, et al. Indole alkaloid glycosides from the aerial parts of Strobilanthes cusia[J]. Journal of natural products, 2014, 77(12): 2590-2594.
[2] 胡永樂,寧書菊,葉齊,等.流式細(xì)胞術(shù)測定馬藍(lán)基因組大小[J].中成藥,2023,45(2):634-636.
[3] 郭志英,李卿,吳循循,等.馬藍(lán)WRKY轉(zhuǎn)錄因子家族生物信息學(xué)及表達(dá)特征分析[J].藥學(xué)學(xué)報,2022,57(9):2864-2875.
[4] 劉小英,彭建平,林志敏.建青黛產(chǎn)業(yè)現(xiàn)狀、存在問題及發(fā)展對策[J].福建農(nóng)業(yè)科技,2016(3):59-62.
[5] HU Y, MA D, NING S, et al. High-Quality Genome of the Medicinal Plant Strobilanthes cusia Provides Insights Into the Biosynthesis of Indole Alkaloids[J]. Frontiers in plant science, 2021, 12: 742420.
[6] SOLTIS P S, SOLTIS D E. Ancient WGD events as drivers of key innovations in angiosperms[J]. Current opinion in plant biology, 2016, 30: 159-165.
[7] MING R, VANBUREN R, LIU Y, et al. Genome of the long-living sacred lotus (Nelumbo nucifera Gaertn.)[J]. Genome biology, 2013, 14(5): R41.
[8] MOORE M J, SOLTIS P S, BELL C D, et al. Phylogenetic analysis of 83 plastid genes further resolves the early diversification of eudicots[J]. Proc Natl Acad Sci U S A, 2010, 107(10): 4623-4628.
[9] JIAO Y, WICKETT N J, AYYAMPALAYAM S, et al. Ancestral polyploidy in seed plants and angiosperms[J]. Nature, 2011, 473(7345): 97-100.
[10] WANG J, SUN P, LI Y, et al. An Overlooked Paleotetraploidization in Cucurbitaceae[J]. Molecular biology and evolution, 2018, 35(1): 16-26.
[11] CAMACHO C, COULOURIS G, AVAGYAN V, et al. BLAST+: architecture and applications[J]. BMC bioinformatics, 2009, 10: 421.
[12] WANG X, SHI X, LI Z, et al. Statistical inference of chromosomal homology based on gene colinearity and applications to Arabidopsis and rice[J]. BMC bioinformatics, 2006, 7: 447.
[13] WANG X, WANG J, JIN D, et al. Genome Alignment Spanning Major Poaceae Lineages Reveals Heterogeneous Evolutionary Rates and Alters Inferred Dates for Key Evolutionary Events[J]. Molecular plant, 2015, 8(6): 885-898.
[14] WANG X, GUO H, WANG J, et al. Comparative genomic de-convolution of the cotton genome revealed a decaploid ancestor and widespread chromosomal fractionation[J]. The New phytologist, 2016, 209(3): 1252-1263.
[15] NEI M, GOJOBORI T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions[J]. Molecular biology and evolution, 1986, 3(5): 418-426.
[16] THOMPSON J D, GIBSON T J, HIGGINS D G. Multiple sequence alignment using ClustalW and ClustalX[J]. Current protocols in bioinformatics, 2003(1): Unit 2.3.
[17] CICHOSZ S L, JENSEN M H, LARSEN T K, et al. A Matlab Tool for Organizing and Analyzing NHANES Data[J]. Studies in health technology and informatics, 2020, 270: 1179-1180.
[18] WANG Y, TANG H, DEBARRY J D, et al. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity[J]. Nucleic acids research, 2012, 40(7): e49.
[19] VAN DE PEER Y, MIZRACHI E, MARCHAL K. The evolutionary significance of polyploidy[J]. Nature reviews Genetics, 2017, 18(7): 411-424.
[20] JIAO Y, LEEBENS-MACK J, AYYAMPALAYAM S, et al. A genome triplication associated with early diversification of the core eudicots[J]. Genome biology, 2012, 13(1): 1-14.
[21] SOLTIS P S, MARCHANT D B, VAN DE PEER Y, et al. Polyploidy and genome evolution in plants[J]. Current opinion in genetics & development, 2015, 35: 119-125.
[22] LANDIS J B, SOLTIS D E, LI Z, et al. Impact of whole-genome duplication events on diversification rates in angiosperms[J]. American journal of botany, 2018, 105(3): 348-363.
[23] PATERSON A H, BOWERS J E, CHAPMAN B A. Ancient polyploidization predating divergence of the cereals, and its consequences for comparative genomics[J]. Proc Natl Acad Sci U S A, 2004, 101(26): 9903-9908.
[24] WANG J, SUN P, LI Y, et al. Hierarchically Aligning 10 Legume Genomes Establishes a Family-Level Genomics Platform[J]. Plant physiology, 2017, 174(1): 284-300.
(責(zé)任編輯:丁志祥)