王祎玲, 臧 恩, 張 昊, 劉志霞, 蘭亞飛, 何 珊, 郝偉麗, 曹艷玲
( 山西師范大學 生命科學學院, 太原 030031 )
隨著第二代高通量測序技術(shù)(next-generation sequencing technology)和第三代單分子測序技術(shù)(single-molecule sequencing)的發(fā)展與成熟,測序的時間成本不斷降低,為不同物種基因組測序提供了條件和便利(Aird et al., 2011;施季森等, 2012;Li et al., 2019)。而物種全基因組測定可為其基因組學和進化生物學領(lǐng)域研究提供線索參考,為其分子生物學、轉(zhuǎn)錄組學、生物信息學研究奠定基礎(chǔ)。從基因組水平出發(fā),分析植物物種的生長、適應(yīng)、進化等問題,可很好促進對植物的進一步認識,同時加快新基因的發(fā)現(xiàn)、挖掘與利用(Bi et al., 2019;李江瑩等, 2021;趙樂等, 2021)。但在大規(guī)模實施深度測序之前,有必要進行基因組Survey,通過Survey判斷植物物種基因組大小及復(fù)雜程度,提前了解植物基因組基本情況,減少測序盲目性,并據(jù)此選取合適測序策略和序列拼接軟件(唐其等, 2015;霍愷森等, 2018;Bi et al., 2019;Li et al., 2019;鄭燕等, 2020)。
太行菊()與長裂太行菊()均為太行菊屬()多年生草本植物,僅生長在太行山的懸崖裂縫中,典型的崖壁植物,具有良好的抗旱抗寒性(Chai et al., 2018, 2020)。作為二倍體植物(2n=18),太行菊、長裂太行菊是菊亞族(Chrysantheminae)中較為原始的物種(Ye et al., 2021),菊科(Compositae)重要的野生種質(zhì)資源,其體內(nèi)可能含有如耐寒耐旱等方面的大量優(yōu)異基因,是菊科種質(zhì)創(chuàng)新的良好基因源。然而太行菊、長裂太行菊全基因組大小以及基因組特征等信息較為缺乏,阻礙其基因組測序工作的進一步開展,也不利于其進化生物學等相關(guān)工作的研究 (霍愷森等, 2018))。因此,開展太行菊與長裂太行菊全基因組的測序工作十分必要,這將從分子水平揭示其適應(yīng)、演化、抗性等機理,并為其經(jīng)濟價值的綜合合理利用提供科學理論支持 (宋立肖等, 2018) 。
自模式植物擬南芥()的全基因組公布以來,已有400 多種植物的基因組被測序(Chen et al., 2018, 2019; https://www.plabipd.de/index.ep),而且目前還有許多植物物種正在測序,這為研究植物全基因組測序提供了大量的參考信息,特別是同屬菊科管狀花亞科(Carduoideae)的青蒿()(Shen et al., 2018)、野菊()(Song et al., 2018)、太陽花()(Badouin et al., 2017)、小蓬草()(Peng et al., 2014)、刺苞菜薊()(Scaglione et al., 2016)全基因組的完成,對于太行菊、長裂太行菊基因組的解析具有重要的借鑒作用。
在系統(tǒng)關(guān)系上,太行菊屬與菊屬()、亞菊屬()的大部分類群組成菊屬群,其位置更接近于蒿亞族(Artemiisinae)(趙宏波等, 2010;Zhao et al., 2010)。同為蒿亞族(Oberprieler et al., 2007)的菊屬植物野菊和蒿屬植物青蒿,其基因組均為高重復(fù)、高雜合、大基因組的復(fù)雜基因組(Shen et al., 2018; Song et al., 2018),而與其系統(tǒng)關(guān)系相近的太行菊屬兩物種的基因組如何?是否呈現(xiàn)出相似的基因組特征?
為此,本研究通過流式細胞法(Arumuganathan & Earle, 1991;Dole?el et al., 2007)和高通量測序技術(shù),擬解決以下問題:(1)預(yù)估太行菊與長裂太行菊基因組大??;(2)測定、評估兩物種全基因組大小和特點。研究結(jié)果旨在全面了解太行菊與長裂太行菊基因組特征,為后續(xù)其全基因組de novo 測序及組裝策略提供依據(jù),為挖掘其抗旱抗寒基因及利用其潛在的基因資源提供線索 (霍愷森等, 2018) 。
2019年10月,從山西王莽嶺(太行菊生長點)和壺關(guān)(長裂太行菊生長點)收集太行菊和長裂太行菊的種子并帶回實驗室,于2020年1月在實驗室進行萌發(fā),然后盆栽培養(yǎng)。6月挑選長勢良好的健康個體(每個物種3個個體),選取完整葉片,液氮速凍后,置于-80 ℃超低溫冰箱中保存?zhèn)溆?(宋立肖等, 2018) 。
各取兩物種0.5 cm葉片,將其放在平底培養(yǎng)皿中,加入400 mL提取OTTO緩沖液,用刀片垂直把葉片切碎,持續(xù)30~60 s。室溫下,孵育30~90 s,然后過濾器過濾,加入1.6 mL染色溶液(染色緩沖液 + PI + RNase儲存液),避光室溫,孵育30~60 min。最后在Sysmex CyFlowCube6流式細胞儀上進行檢測。
將已知基因組大小的玉米(大小約2.3 Gb)作為對照樣品,首先將玉米、太行菊、長裂太行菊單獨測定,檢測每個樣品的相對熒光強度;然后以玉米為對照,對玉米與太行菊、玉米與長裂太行菊的混合樣品進行相對熒光強度的檢測;最后根據(jù)不同樣品相對熒光強度峰值,參考對照樣品的基因組,估算太行菊、長裂太行菊的基因組大小。
1.3.1 DNA提取 用改良CTAB法對太行菊、長裂太行菊葉片基因組DNA進行提取。隨后用分光光度計和瓊脂糖凝膠電泳分別對提取的DNA純度、濃度和完整性進行檢測 (趙樂等, 2020) 。
1.3.2 樣品測序 將太行菊、長裂太行菊(各3個樣品)的DNA樣品委托杭州聯(lián)川生物公司進行測序。通過Covaris超聲波破碎儀,隨機打斷成片段,經(jīng)末端修復(fù)-加A尾-加測序接頭-純化-PCR擴增等完成整個文庫制備。構(gòu)建好的文庫通過Illumina Hiseq進行PE(雙末端,Pair-end)測序。
測序得到的原始序列,含有低質(zhì)量帶接頭的Reads,會對后續(xù)分析帶來影響,對Raw Reads進行精細過濾,得到Clean Reads,用于后續(xù)基因組大小、雜合度、GC含量等分析。以Q20、Q30 作為衡量測序質(zhì)量的指標,當Q20≥90%、Q30≥80%時,表明測序數(shù)據(jù)質(zhì)量較好。
1.3.3 污染評估 所測物種基因組DNA樣品,如果存在污染,不僅會降低有效數(shù)據(jù)量,還會影響基因組Survey分析結(jié)果的準確性,所測物種基因組評估結(jié)果將會呈現(xiàn)誤差,導(dǎo)致基因組組裝策略出現(xiàn)偏差,影響后續(xù)基因組的組裝效果 (趙樂等, 2020)。
為了判斷提取的太行菊、長裂太行菊的基因組DNA是否受到污染,從過濾后的高質(zhì)量Clean Reads數(shù)據(jù)中隨機抽取10 000條Reads,用Blast軟件比對NCBI核苷酸數(shù)據(jù)庫(NT庫),如果是同源比對,則認為樣本不存在外源污染。
1.3.4 基因組特征預(yù)估 為了對基因組大小有個大致判斷,用K-mer法進行(Liu et al., 2013;Chen et al., 2015)。以每個K-mer深度(depth)為橫坐標,K-mer頻度(frequency)為縱坐標,繪制K-mer深度頻度分布圖,根據(jù)曲線估計K-mer的深度值,對基因組大小進行估測。從測序數(shù)據(jù)中提取出的長度,視為K-mer的寡聚核苷酸序列,對太行菊、長裂太行菊預(yù)測序列有效數(shù)據(jù)進行K=17分析,根據(jù)公式:基因組大小 = 總堿基數(shù) / 平均測序深度 = 總K-mer數(shù) / 平均K-mer深度,計算基因組大小 (霍愷森等, 2018; 趙樂等, 2020)。
通過貝葉斯模型,根據(jù)K-mer的頻率數(shù)和深度值,通過迭代修正所測物種基因組的雜合度和重復(fù)序列。根據(jù)雜合種類數(shù)百分比、純合種類數(shù)百分比、所有種類數(shù),計算太行菊、長裂太行菊的雜合度。同時,計算標準泊松分布及實際數(shù)據(jù)曲線峰值后的面積差,計算兩物種基因組重復(fù)序列的百分比。
1.3.5 基因組組裝 運用Soapdenovo軟件(Vurture et al., 2017),對太行菊、長裂太行菊的Clean Reads有效序列進行拼接,用K=41組裝到Contig和Scaffold。將組裝好的基因組序列與Raw Reads進行比對,分析組裝序列的GC含量、Contig覆蓋深度、長度和數(shù)量分布。
根據(jù)基因組測序序列GC depth的分布圖,分析兩物種測序序列是否有明顯的GC偏向。一般高GC或低GC區(qū)域,測序深度與正常區(qū)域會存在較大差異,覆蓋度較低。本研究中,以10 kb無重疊區(qū)域作為窗口,計算太行菊、長裂太行菊基因組的GC含量。
對玉米、太行菊和長裂太行菊每個樣品的相對熒光強度進行了檢測(圖1:A-C)。結(jié)果顯示,玉米、太行菊、長裂太行菊樣品基因組DNA相對熒光強度的峰值分別為58、56、41。玉米與太行菊混合樣品基因組DNA相對熒光強度的峰值約為40(圖1:D),玉米與長裂太行菊混合樣品相對熒光強度的峰值同樣約為40(圖1:E)。根據(jù)流式細胞結(jié)果,太行菊基因組大小估算為2.1 Gb,長裂太行菊基因組大小約為2.4 Gb。
M1. Marker; A. 玉米單獨樣品; B. 太行菊單獨樣品; C. 長裂太行菊單獨樣品; D. 太行菊與玉米混合樣品; E. 長裂太行菊與玉米混合樣品。M1. Marker; A. Maize samples; B. Opisthopappus taihangensis samples; C. O. longilobus samples; D. Mixed samples of O. taihangensis and maize; E. Mixed samples of O. longilobus and maize.圖 1 流式細胞法檢測結(jié)果Fig. 1 Flow cytometry of Opisthopappus taihangensis and O. longilobus
2.2.1 測序產(chǎn)量統(tǒng)計 通過文庫構(gòu)建,太行菊產(chǎn)出原始數(shù)據(jù)為99.94 Mb,過濾后高質(zhì)量數(shù)據(jù)22.67 Mb;長裂太行菊原始數(shù)據(jù)109.74 Mb,過濾后高質(zhì)量數(shù)據(jù)80.49 Mb。不論太行菊還是長裂太行菊,測序數(shù)據(jù)Q20均在97.42%以上,Q30均在92.53%以上,測序錯誤率0.04%(正常范圍為<0.05%),表明測序質(zhì)量較好,可進行進一步的后續(xù)分析。
2.2.2 樣品污染評估 10 000條隨機抽取的Clean Reads在NT庫中進行同源比對,發(fā)現(xiàn)太行菊比對到、、、分別占比對上NT庫Reads數(shù)的1.56%、0.72%、0.54%、0.27%。長裂太行菊比對到上述四個物種分別占比對上NT庫Reads數(shù)的1.09%、0.48%、0.31%、0.09%。、與太行菊、長裂太行菊同屬于菊亞族,但與親緣關(guān)系更近,比對所占比例較高。由于太行菊、長裂太行菊基因組信息未知,在NT庫中基因注釋極少,所以與其他物種比對比例較低。
另外,比對結(jié)果中未發(fā)現(xiàn)動物、微生物等異常比對,表明太行菊、長裂太行菊基因組DNA樣品測序數(shù)據(jù)沒有污染,可用于Survey分析。
2.2.3 基因組大小估計 由圖2可知,太行菊、長裂太行菊的K=17曲線具有嚴重拖尾,暗示都有很高的重復(fù)序列比例。在depth=28附近,出現(xiàn)太行菊主峰值,由公式K-mer-number/depth計算得到太行菊基因組大小為3.15 Gb左右,修正后基因組大小為3.13 Gb,基因組的雜合率為0.99%,重復(fù)序列比例為84.35%(表1);depth=26時出現(xiàn)長裂太行菊的主峰值,基因組大小為3.20 Gb左右,修正后的基因組大小為3.18 Gb,基因組雜合率為1.17%,重復(fù)序列比例為83.83%(表1)。由此可知,太行菊屬太行菊與長裂太行菊都為高重復(fù)、雜合基因組。
A. 太行菊; B. 長裂太行菊。A. Opisthopappus taihangensis; B. O. longilobus.圖 2 太行菊、長裂太行菊的K-mer分布曲線Fig. 2 K-mer distribution curve of Opisthopappus taihangensis and O. longilobus
表 1 太行菊、長裂太行菊K-mer分析數(shù)據(jù)統(tǒng)計Table 1 K-mer analysis data of Opisthopappus taihangensis and O. longilobus
2.2.4 基因初步組裝結(jié)果 在太行菊中,共得到4 148 869條Contigs,序列總長為1.19 Mb,Contig N50長度445 bp,N90 114 bp,最長序列長度為24 674 bp,進一步組裝后得到3 885 802條Scaffolds,總長1.22 Mb,最長序列長度為24 674 bp,Scaffold N50為510 bp,N90 118 bp(表2)。長裂太行菊中,共有4 776 945條Contigs,序列總長為1.30 Mb,Contig N50長度408 bp,N90 113 bp,最長序列長度為24 198 bp,進一步組裝后4 453 317條Scaffolds,總長1.34 Mb,最長序列長度為24 198 bp,Scaffold N50為477 bp,N90 116 bp(表2)。其中,Contig N50和Scaffold N50的長度較短,可能是由于兩個物種基因組雜合率在0.99%以上所致。從圖3可以看出明顯的峰,主峰前的峰為雜合峰,主峰后的峰為重復(fù)峰。不論是太行菊還是長裂太行菊,峰值在20 Х左右時的峰值為純合峰,初步判斷兩物種基因組為復(fù)雜基因組。
2.2.5 GC含量及分布情況 太行菊屬兩物種中,窗口的GC含量幾乎全部處于20%~60%之間,并主要集中在30%左右,其中太行菊GC 含量為36.56%,長裂太行菊為36.63%(表1)。兩物種樣品不存在明顯異常,GC含量沒有明顯偏向,GC depth的分布可分為三層:高中低深度3個區(qū)域(圖4)。中深度區(qū)域為高深度區(qū)域的50%左右,可能與太行菊、長裂太行菊一定的雜合有關(guān)。在組裝過程中,雜合可能會導(dǎo)致同源染色體雜合部位單條組裝,引起GC含量出現(xiàn)分層現(xiàn)象。
A. 太行菊Contig覆蓋深度和長度、數(shù)量分布圖; B. 長裂太行菊Contig覆蓋深度和長度、數(shù)量分布圖。A. Contig coverage depth, length and quantity distribution of Opisthopappus taihangensis; B. Contig coverage depth, length and quantity distribution of O. longilobus.圖 3 Contig分布圖Fig. 3 Contig distribution
A. 太行菊; B. 長裂太行菊。A. Opisthopappus taihangensis; B. O. longilobus.圖 4 Contig GC含量和覆蓋深度Fig. 4 Conting GC content and depth of coverage
本研究通過流式細胞法和高通量測序K-mer法初步調(diào)查了菊科崖壁植物太行菊、長裂太行菊的基因組大小、雜合率和GC含量等特征(宋立肖等, 2018)。太行菊、長裂太行菊基因組初步估算大小分別為2.1 Gb和2.4 Gb;修正后,基因組大小分別為3.13 Gb和3.18 Gb。
目前公布的菊科植物中,最小的基因組為管狀花亞科紫菀族(Astereae)的小蓬草,其基因組只有335 Mb(Peng et al., 2014),最大的是春黃菊族(Anthemideae)植物,基因組約為138.88 Gb(Garcia et al., 2013)。與太行菊、長裂太行菊親緣關(guān)系較近的青蒿、野菊,基因組大小分別為1.74 Gb(Shen et al., 2018)和3.07 Gb(Song et al., 2018)。太行菊屬太行菊、長裂太行菊基因組大小符合菊科植物的基因組特征(Garcia et al., 2013)。物種的進化與 DNA 含量之間的關(guān)系復(fù)雜, 基因組越大的物種,其瀕危程度越高(Vinogradov, 2003)。相對于野菊、青蒿等,太行菊、長裂太行菊生長在相對惡劣的崖壁環(huán)境下,已被列為國家二級瀕危物種。
本研究中,流式細胞法估測結(jié)果比K-mer分析法的結(jié)果小大約1 Gb。流式細胞法估測太行菊、長裂太行菊基因組較小,可能與選擇基因組較小的玉米為對照樣品(2.3 Gb)有關(guān),而K-mer分析基因組法是基于數(shù)學計算可能更全面準確(Dole?el et al., 2007; Wang et al., 2018)。在野菊基因組分析中,流式細胞法估測的結(jié)果大于K-mer分析結(jié)果(Song et al., 2018),而其他植物的基因組調(diào)查,兩種方法估測的結(jié)果也不完全一致,如甘薯屬的馬鞍藤(-)(霍愷森等, 2019)、繡球?qū)俚睦C球()(陳雙雙等, 2021)
在已釋放的植物基因組中,GC含量大多在30%~47%之間(鄧果特等, 2013;宋立肖等, 2019;于福來等, 2019)。太行菊、長裂太行菊基因組GC含量分別為36.56%和36.63%。同屬管狀花亞科的刺苞菜薊基因組GC含量為32% (Scaglione et al.,2016),青蒿中GC含量31.5%(Shen et al., 2018),野菊為37.2%(Song et al., 2018)。太行菊、長裂太行菊基因組GC含量在所釋放的植物基因組GC含量范圍之內(nèi)。
根據(jù)基因組雜合度大小,基因組分為微雜合基因組(0.5%≤雜合率 < 0.8%)、高雜合基因組(雜合率 ≥ 0.8%)和高重復(fù)基因組(重復(fù)序列比例 ≥ 50%)(伍艷芳等, 2014;周佳熠等, 2017;王雪等, 2018)。太行菊、長裂太行菊基因組雜合率分別為0.99%和1.17%,重復(fù)序列比例分別為84.35%和83.83%。植物基因組雜合受繁殖方式影響,一般具有自花授粉繁育方式的物種的雜合度低于異花授粉植物(王雪等, 2018;都明理等, 2019)。太行菊、長裂太行菊自交不親和(胡梟和趙恩惠, 2008),可進行有性生殖形成種子,也可在莖節(jié)處長出新的枝條,即有性繁殖和無性繁殖并存,這種繁育方式使得太行菊、長裂太行菊基因組存在一定的雜合率。青蒿基因組的雜合率在1.0%~1.5%之間,重復(fù)序列比例61.57%(Shen et al., 2018);野菊基因組也呈現(xiàn)出高的雜合率且重復(fù)序列為69.6%(Song et al., 2018)。具有高比例的重復(fù)序列是菊科已公布的大基因組物種(3 Gb)的共有特征(Garcia et al., 2013)。這些高比例的重復(fù)序列在一定程度上加大了太行菊、長裂太行菊的基因組。
綜上,從基因組基本結(jié)構(gòu)特征看,太行菊和長裂太行菊基因組都屬于高重復(fù)、高雜合、大基因組的復(fù)雜基因組。
另外,采用K-mer = 41進行基因組初步組裝,太行菊Contig N50為445 bp,進一步組裝后Scaffold N50為510 bp,最長序列長度為24 674 bp。長裂太行菊Contig N50長度408 bp,進一步組裝后Scaffold N50為477 bp,最長序列長度為24 198 bp。根據(jù)兩物種基因組的調(diào)查分析,建議后續(xù)研究采用第二代和第三代測序技術(shù)相結(jié)合,對太行菊、長裂太行菊基因組進行測序和組裝,同時,輔以Hi-C,進行染色體水平組裝,以期獲得兩物種高質(zhì)量的全基因組圖譜。
本研究獲得的太行菊屬太行菊、長裂太行菊基因組大小和特征等信息,為以后繪制兩物種基因組的精細圖譜奠定了基礎(chǔ),也為研究利用菊科野生種質(zhì)資源提供了參考。