霍福臨,熊祝佩,陳麗琴,聶小軍,宋衛(wèi)寧
(西北農(nóng)林科技大學(xué)農(nóng)學(xué)院,陜西楊凌 712100)
大麥(L.) 是最早被人類馴化的作物之一,其馴化時間大約在新石器時代,對人類文明的誕生具有重要意義。同時,大麥兼具食用、飼用和釀造工業(yè)用價值,其種植面積和年均產(chǎn)量均居世界第四位,對保障世界糧食安全和社會經(jīng)濟(jì)發(fā)展發(fā)揮了重要作用。大麥產(chǎn)量由單位面積穗數(shù)、穗粒數(shù)以及千粒重構(gòu)成,大麥穗是最終收獲的器官,也是產(chǎn)量形成的基礎(chǔ)。解析大麥穗部性狀的遺傳基礎(chǔ)、明確其穗部發(fā)育的分子機(jī)制,對實現(xiàn)大麥高產(chǎn)育種至關(guān)重要。
大麥的穗部性狀是一個復(fù)雜的數(shù)量性狀,前人圍繞控制大麥穗部性狀的QTL/基因開展了大量的研究??刂拼篼溗腴L的QTLs被定位于大麥2H、3H和4H染色體上;Wang等以品種TX9425 和NasoNijo雜交構(gòu)建的DH群體為材料,將182個DH系分別種植于6種不同環(huán)境,最終定位到7個與大麥芒長相關(guān)的QTLs,分別定位于1H、3H、5H 和 7H染色體上。控制大麥穗部性狀相關(guān)的馴化基因也被報道,其中最重要的是控制大麥落粒性的基因和;控制大麥穗部棱形的基因目前已報道了5個,分別為、、、和,其中是2HL染色體上的隱性基因,其等位基因和控制側(cè)小穗上芒的發(fā)育;另外,F(xiàn)edak等發(fā)現(xiàn),基因不僅控制大麥籽粒的裸皮性狀,同時還控制大麥的籽粒數(shù)和籽粒重量。Bian等對栽培大麥品種Clipper穗部發(fā)育4個時間點(diǎn)的基因表達(dá)譜進(jìn)行了系統(tǒng)分析,構(gòu)建了栽培大麥穗部發(fā)育的轉(zhuǎn)錄動態(tài)數(shù)據(jù)集,為大麥穗部發(fā)育相關(guān)基因的挖掘提供了重要信息。
野生大麥作為栽培大麥的野生祖先種,具有抗逆性強(qiáng)、適應(yīng)性廣等特點(diǎn),一直是作物遺傳改良的重要種質(zhì)基因庫。但是,目前有關(guān)野生大麥穗部發(fā)育相關(guān)基因的發(fā)掘及其轉(zhuǎn)錄動態(tài)的研究報道較少。鑒于此,本研究以來自以色列的野生大麥品種Mehula 1-2為材料,對其開花后4個發(fā)育時間點(diǎn)的穗部進(jìn)行了RNA-seq測序分析,獲得了其基因表達(dá)譜和轉(zhuǎn)錄動態(tài)圖譜,并比較了野生大麥和栽培大麥穗部基因表達(dá)的差異,以期為野生大麥穗部發(fā)育關(guān)鍵基因的發(fā)掘及穗發(fā)育機(jī)制的解析提供有用信息。
供試材料為野生大麥品種Mehula 1-2,由本課題組宋衛(wèi)寧教授采自大麥起源地以色列Mehula地區(qū)。在2018-2019年度種植于西北農(nóng)林科技大學(xué)農(nóng)作一站試驗基地,常規(guī)田間管理,分別在開花后3、8、13和18 d(即早期物質(zhì)儲存前期準(zhǔn)備階段、晚期物質(zhì)儲存前期準(zhǔn)備階段或過渡階段、早期物質(zhì)儲存階段和晚期物質(zhì)儲存階段,分別用Stage1、Stage2、Stage3和Stage4表示)進(jìn)行取樣,取樣時間控制在每天上午8:30-9:30。為保證均一,將每個時期的10~15個麥穗中間部分混合成一個樣品,每個樣品兩個生物學(xué)重復(fù),將取得的樣本迅速置于液氮中,用于總RNA的提取。
用植物RNA提取試劑盒(天根,中國)提取總RNA,檢測合格后送北京諾禾致源生物技術(shù)公司進(jìn)行RNA-seq測序,高通量測序平臺為Illumina Novaseq 6000平臺,測序策略為PE150,數(shù)據(jù)量為8 G,具體建庫測序流程按照美國Illumina公司標(biāo)準(zhǔn)流程進(jìn)行。用Trimmomatic軟件將得到的原始數(shù)據(jù)進(jìn)行質(zhì)控,去除重復(fù)、含有接頭、未識別堿基占比達(dá)到其長度3%以及低質(zhì)量堿基占比達(dá)到其長度50%的reads,最終得到可用于候選分析的clean data。
將上述獲得的野生大麥RNA-seq數(shù)據(jù)以及從公共數(shù)據(jù)庫下載的栽培大麥同一時期的RNA-seq數(shù)據(jù),用Hisat2 v2.1.0軟件將clean data與大麥參考基因組Morex_V2進(jìn)行映射,用HTSeq v0.13.5軟件的htseq-count命令進(jìn)行定量分析,用FPKM方法對每個樣本的基因表達(dá)量進(jìn)行標(biāo)準(zhǔn)化處理,F(xiàn)PKM≥1的基因被認(rèn)為在穗部有表達(dá);用DEseq 2軟件進(jìn)行差異表達(dá)基因的分析,以Padj<0.05和|log2Ratio|≥1作為閾值篩選差異表達(dá)基因;用皮爾遜(Pearson)相關(guān)系數(shù)評估各樣品間的相關(guān)性,分析工具為R語言中的cor函數(shù);各樣品進(jìn)行分層聚類分析,用R語言繪制樹狀圖。
用TBtools工具進(jìn)行差異表達(dá)基因的GO富集分析,值小于0.01時認(rèn)為該基因顯著富集到GO term上,用WEGO在線軟件將富集結(jié)果繪制成圖,用于展示;通過自編的perl腳本提取各差異表達(dá)基因的蛋白序列,通過KOBAS在線軟件將每個基因富集到對應(yīng)的KEGG通路上,最后用R包ggplot繪制氣泡圖。
對野生大麥穗發(fā)育的四個關(guān)鍵時期(開花后3、8、13和18 d)進(jìn)行RNA-seq分析,共獲得 64.82 Gb原始數(shù)據(jù),平均每個樣品8.1 Gb,經(jīng)質(zhì)控后共獲得64.07 Gb clean data。將clean data映射到大麥參考基因組上,發(fā)現(xiàn)樣品的比對率為 78.16%~84.59%,滿足轉(zhuǎn)錄組分析的標(biāo)準(zhǔn)要求。分析發(fā)現(xiàn),在大麥基因組注釋的39 734個蛋白編碼基因中,有17 163個基因在野生大麥穗部發(fā)育中有表達(dá),占基因總數(shù)的 43.2%,該比例與擬南芥(44%)相近,低于六倍體小麥(55%)。
進(jìn)一步對4個時期的基因表達(dá)量進(jìn)行相關(guān)性分析和分層聚類分析。相關(guān)性分析結(jié)果(圖1A)顯示,4個時期兩個生物學(xué)重復(fù)之間的皮爾遜相關(guān)系數(shù)都大于0.9,表明RNA-seq結(jié)果具有良好的重復(fù)性;4個時期的相關(guān)性分析發(fā)現(xiàn),Stage1和Stage2之間的相關(guān)系數(shù)為0.89,Stage3和Stage4之間的相關(guān)系數(shù)為0.90,說明它們之間基因表達(dá)的差異相對較小,而Stage2和Stage3之間的相關(guān)系數(shù)僅為0.20,表明這二者之間發(fā)生了明顯的基因表達(dá)模式變化。分層聚類分析結(jié)果(圖1B)與相關(guān)性分析結(jié)果(圖1A)一致。
A:各時期兩重復(fù)間的相關(guān)性分析;B:各時期聚類分析;C:各時期特異性基因維恩圖;D:四個時期不同活躍程度的基因數(shù)量。1D圖中,1~4表示基因的活躍程度,1表示活躍程度最高,4表示活躍程度最低,5表示四個時期表達(dá)量沒有顯著差異的基因。Stage1、Stage2、Stage3和Stage4分別代表開花后3、8、13和18 d四個發(fā)育時期。下同。
對4個時期基因表達(dá)數(shù)目分析發(fā)現(xiàn),穗部基因表達(dá)數(shù)目在10 460(Stage4)~15 530(Stage1)之間,其中9 557個基因在四個時期均有表達(dá),約占總表達(dá)基因數(shù)目的55.68%(圖1C)。同時,還鑒定到1 982個階段特異表達(dá)基因,1 129、399、205和249個基因分別在Stage1、Stage2、Stage3和Stage4四個時期特異表達(dá);而且大部分基因在物質(zhì)儲存的準(zhǔn)備階段(Stage1和Stage2)轉(zhuǎn)錄最為活躍,約為所有表達(dá)基因數(shù)目的80.18%,只有19.82%的基因在物質(zhì)儲存階段(Stage3和Stage4)轉(zhuǎn)錄達(dá)到峰值(圖1D)。
為研究野生大麥穗部發(fā)育的轉(zhuǎn)錄動態(tài)變化,分別將4個時期的基因表達(dá)譜進(jìn)行兩兩比較分析,結(jié)果(表1)發(fā)現(xiàn),在17 163個表達(dá)基因中共發(fā)現(xiàn)有11 273個顯著差異表達(dá)基因,約為總表達(dá)基因數(shù)目的65.68%,各個時期的差異表達(dá)基因數(shù)為3 105(Stage2 vs Stage3)~6 848個(Stage1 vs Stage4),其中Stage1和Stage4之間的差異表達(dá)基因數(shù)目最多,這與大麥穗部發(fā)育的階段相符。
表1 野生大麥穗部四個發(fā)育時期顯著差異表達(dá)基因的統(tǒng)計Table 1 Overview of differential expressed genes during the four stages of wild barley spike development
差異表達(dá)基因的GO富集分析結(jié)果(圖2)表明,在物質(zhì)儲存的準(zhǔn)備階段,差異表達(dá)基因富集到的分子功能(molecular function)term主要與物質(zhì)合成和催化相關(guān),包括催化活性(catalytic activity,GO:0003824)、轉(zhuǎn)移酶活性(transferase activity,GO:0016747)、結(jié)合(binding,GO:0005488)等,這與物質(zhì)儲存準(zhǔn)備階段的主要生命活動相一致;同時,細(xì)胞代謝過程(cellular metabolic process,GO:0044237)、有機(jī)物質(zhì)代謝過程(organic substance metabolic process,GO:0071704)和初級代謝過程(primary metabolic process,GO:0044238)這些與植物生長發(fā)育相關(guān)的生物學(xué)過程(biological process)也被顯著富集。在物質(zhì)儲存階段,差異表達(dá)基因富集到的分子功能(molecular function)term主要與物質(zhì)的調(diào)配、轉(zhuǎn)移和營養(yǎng)庫相關(guān),包括轉(zhuǎn)移酶活性(transferase activity,GO:0016740)、分子功能調(diào)節(jié)(molecular function regulator,GO:0098772)、酶調(diào)節(jié)活性(enzyme regulator activity,GO:0030234)等;此外,也顯著富集到許多與代謝、細(xì)胞調(diào)控相關(guān)的生物學(xué)過程(biological process),包括代謝過程(nutrient reservoir activity,GO:0008152)、有機(jī)物質(zhì)代謝過程(organic substance metabolic process,GO:0071704)、細(xì)胞代謝過程(cellular metabolic process,GO:0044237)等。
為了明確野生大麥穗部發(fā)育的轉(zhuǎn)錄動態(tài),進(jìn)一步根據(jù)差異表達(dá)基因的表達(dá)模式進(jìn)行聚類分析,結(jié)果(圖3)發(fā)現(xiàn),11 273個差異表達(dá)基因有9種表達(dá)模式。Cluster I、ClusterⅡ、ClusterⅢ和Cluster IV這四種表達(dá)模式中,差異基因分別在Stage1、Stage2、Stage3和Stage4四個時期高表達(dá),其中cluster I含有1 613個基因,對這些基因進(jìn)行GO富集分析,發(fā)現(xiàn)顯著富集的term與蛋白修飾、酶活性、離子結(jié)合等相關(guān),包括小麥蛋白結(jié)合或去除的蛋白修飾(GO:0070647)、催化活性(GO:0003824)、酶活性調(diào)節(jié)(GO:0030234)等;Cluster II含有653個基因,顯著富集到碳水化合物代謝過程(GO:0005975)、有機(jī)物運(yùn)輸(GO:0071702)、DNA結(jié)合(GO:0003677)等term;Cluster III含有886個基因,涉及野生大麥穗部發(fā)育過程中的早期物質(zhì)儲存階段,顯著富集到淀粉的合成、轉(zhuǎn)運(yùn)和代謝功能,包括碳水化合物結(jié)合(GO:0030246)、轉(zhuǎn)移酶活性(GO:0016740)和碳水化合物代謝過程(GO:0005975)等term;Cluster IV含有1 313個基因,涉及野生大麥穗部發(fā)育過程中的晚期物質(zhì)存儲階段,富集到營養(yǎng)庫、抗逆反應(yīng)等term,包括營養(yǎng)庫活動(GO:0045735)、防御反應(yīng)(GO:0006952)、刺激反應(yīng)(GO:0050896)等(表2)。
圖3 差異基因表達(dá)模式聚類分析Fig.3 Clustering of the differential expression genes based on expression patterns
除了以上四個表達(dá)模式,Cluster V含有的差異表達(dá)基因數(shù)目最多,達(dá)2 110個(18.72%),這些基因在物質(zhì)儲存的準(zhǔn)備階段(Stage1和Stage2)表達(dá)量最高,顯著富集到DNA結(jié)合(GO:0003677)、核苷酸結(jié)合(GO:0000166)、轉(zhuǎn)錄調(diào)節(jié)活性(GO:0140110)等term;Cluster VII中的基因主要在物質(zhì)儲存階段(Stage3和Stage4)表達(dá)量最高,富集到營養(yǎng)庫活動(GO:0045735)、碳水化合物代謝過程(GO:0005975)、有機(jī)環(huán)化合物的代謝過程(GO:1901360)等term。在Cluster VI、Cluster VIII和Cluster IX表達(dá)模式中,基因顯著富集到生物刺激反應(yīng)(GO:0009607)、葡萄糖生物合成過程(GO:0009250)、防御反應(yīng)(GO:0006952)等term(表2)。
表2 各表達(dá)模式差異表達(dá)基因顯著富集的GO termTable 2 GO term with significant enrichment of differential expressed genes in each expression pattern
A:物質(zhì)儲存的準(zhǔn)備階段(Stage1和Stage2)差異表達(dá)基因的功能分類;B:物質(zhì)儲存階段(Stage3和Stage4)差異表達(dá)基因的功能 分類。
對這些不同表達(dá)模式的差異表達(dá)基因進(jìn)行KEGG富集分析,本研究重點(diǎn)關(guān)注Cluster V和Cluster VII,結(jié)果(圖4)發(fā)現(xiàn),Cluster V顯著富集到代謝途徑(metabolic pathways,aly01100)、次生代謝產(chǎn)物的生物合成(biosynthesis of secondary metabolites,aly01110)、苯丙烷類生物合成(phenylpropanoid biosynthesis,aly00940)等通路,這些通路與野生大麥穗部發(fā)育的物質(zhì)儲存準(zhǔn)備階段進(jìn)行的生命活動相關(guān);而Cluster VII富集到與代謝、信號轉(zhuǎn)導(dǎo)、蛋白質(zhì)及RNA合成和降解相關(guān)的通路,如植物激素信號轉(zhuǎn)導(dǎo)(plant hormone signal transduction,aly04075)、內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工(protein processing in endoplasmic reticulum,aly04141)、RNA降解(RNA degradation,aly03018)等。
為了挖掘野生大麥穗部發(fā)育的關(guān)鍵候選基因,對差異表達(dá)基因中的轉(zhuǎn)錄因子進(jìn)行了發(fā)掘。結(jié)果共鑒定到635個轉(zhuǎn)錄因子編碼基因,屬于57個轉(zhuǎn)錄因子家族,其中NAC、AP2/ERF-ERF和MYB家族包括的成員最多,均為44個(圖5A),且NAC和AP2/ERF-ERF家族成員均勻分布在每個表達(dá)模式中(圖5B);進(jìn)一步對不同表達(dá)模式所包含的轉(zhuǎn)錄因子數(shù)目進(jìn)行比較,發(fā)現(xiàn)Cluster I和Cluster IV分別含有83和79個轉(zhuǎn)錄因子,占總數(shù)的13.07%和12.44%,顯著高于Cluster II(43,6.77%)和Cluster III(34,5.35%),表明在早期物質(zhì)儲存前期準(zhǔn)備階段和晚期物質(zhì)儲存階段的基因表達(dá)更依賴于轉(zhuǎn)錄因子的調(diào)節(jié)(圖5B)。
對野生大麥和栽培大麥穗部發(fā)育基因的表達(dá)譜和轉(zhuǎn)錄動態(tài)進(jìn)行比較分析,結(jié)果(圖6)顯示,在穗部發(fā)育的四個時期,野生大麥和栽培大麥共同表達(dá)的總基因數(shù)目分別為14 085、14 129、12 555和9 910個,其中物質(zhì)儲存準(zhǔn)備階段(Stage1 和Stage2)的共同基因數(shù)目明顯多于物質(zhì)儲存階段(Stage3和Stage4),這與大麥基因表達(dá)的數(shù)目在物質(zhì)儲存的準(zhǔn)備階段多于物質(zhì)儲存階段的結(jié)果一致。在野生大麥和栽培大麥中也發(fā)現(xiàn)了發(fā)揮重要功能的保守基因,包括基因(HORVU5Hr1G051010,HORVU5Hr1G050990)、S-腺苷同型半胱氨酸水解酶基因(HORVU2Hr1-G110120)、(HORVU0Hr1G004830)基因等。進(jìn)一步對野生大麥和栽培大麥的共同表達(dá)基因進(jìn)行GO富集分析,發(fā)現(xiàn)顯著富集到的term與細(xì)胞、細(xì)胞器、催化、代謝、調(diào)節(jié)、抗逆等相關(guān)(圖7),包括蛋白復(fù)合物(protein-containing complex,GO:0044877)、細(xì)胞器(organelle,GO:0043226)、催化活性(catalytic activity,GO:0003824)等;這些GO term與植物的生長發(fā)育關(guān)系密切,在野生大麥和栽培大麥的穗部發(fā)育過程中具有保守性。
圖7 野生大麥和栽培大麥共同表達(dá)基因的GO富集分析Fig.7 GO enrichment analysis of common expressed genes in wild barley and cultivated barley
A:Cluster V;B:Cluster VII.
最后,對野生大麥和栽培大麥穗部發(fā)育的特異表達(dá)基因進(jìn)行分析。結(jié)果顯示,栽培大麥的特異基因主要富集于甲基轉(zhuǎn)移酶(methyltransferase)、次生壁生物合成(secondary wall biosynthesis)、核糖體蛋白(ribosomal protein)等,包括O-甲基轉(zhuǎn)移酶9(HORVU4Hr1G001250)、(HORVU1Hr1G078940)以及(HORVU2Hr1G086390)等基因;而在野生大麥中,特異表達(dá)基因主要富集于重金屬抗性、花青素合成、鈣調(diào)蛋白等,包括鎘轉(zhuǎn)運(yùn)基因(HORVU1Hr1G010250)、花青素合成關(guān)基因(HORVU5Hr1G060050)和鈣調(diào)蛋白相關(guān)基因(HORVU1Hr1G068420)等,暗示野生大麥和栽培大麥在穗部發(fā)育過程中表達(dá)的基因具有顯著差異。進(jìn)一步挖掘野生大麥穗部發(fā)育特異基因,將為豐富大麥穗部發(fā)育基因資源、強(qiáng)化野生大麥優(yōu)異基因的利用以及克服基因同質(zhì)化提供重要信息。
A:所有顯著差異表達(dá)的轉(zhuǎn)錄因子數(shù)目;B:各表達(dá)模式中顯著差異表達(dá)的轉(zhuǎn)錄因子數(shù)目。
W:野生大麥;C:栽培大麥。
本研究對野生大麥穗部發(fā)育的基因表達(dá)譜和轉(zhuǎn)錄動態(tài)進(jìn)行了系統(tǒng)地分析,構(gòu)建了野生大麥穗部發(fā)育的表達(dá)基因數(shù)據(jù)集。對不同發(fā)育階段特異基因的表達(dá)活性分析發(fā)現(xiàn),大部分基因(80.18%)表達(dá)峰值出現(xiàn)在物質(zhì)儲存的準(zhǔn)備階段(Stage1和Stage2),而在物質(zhì)儲存階段(Stage3和Stage4)的表達(dá)量較低,這與開花后進(jìn)行的一系列生命活動(如物質(zhì)代謝、核酸、蛋白質(zhì)、激素合成、組織分化等)相關(guān)。本研究通過GO富集分析發(fā)現(xiàn),野生大麥穗部發(fā)育后期的特異表達(dá)基因顯著富集于細(xì)胞代謝、有機(jī)物質(zhì)代謝和初級代謝過程,KEGG富集分析也發(fā)現(xiàn)基因集中于代謝途徑通路。前人研究發(fā)現(xiàn),NAC家族參與種子萌發(fā)、細(xì)胞分裂、分生組織形成等方面的調(diào)控,是植物正常生長所必需的轉(zhuǎn)錄因子;AP2/ERF-ERF家族包括AP2、ERF、DREB、RAV和Soloist五個亞家族,參與植物開花、結(jié)果和種子發(fā)育過程以及調(diào)控植物對病原體、干旱等環(huán)境脅迫的響應(yīng);MYB家族具有多種生物學(xué)功能,廣泛參與植物生長發(fā)育過程。本研究在差異表達(dá)基因中分別鑒定到了44個NAC、AP2/ERF-ERF和MYB轉(zhuǎn)錄因子基因,暗示這些轉(zhuǎn)錄因子可能在野生大麥穗部發(fā)育過程中發(fā)揮了重要作用。
本研究對野生大麥和栽培大麥在穗部發(fā)育四個時期的基因表達(dá)譜進(jìn)行了系統(tǒng)地比較分析,發(fā)現(xiàn)野生大麥和栽培大麥中共同表達(dá)的基因顯著富集于細(xì)胞器、催化、代謝、調(diào)節(jié)、抗逆等term,是植物生長過程中必需的功能基因。如Rubisco酶是碳三植物中碳固定的關(guān)鍵酶,催化卡爾文循環(huán)中的羧化反應(yīng)和光呼吸途徑中的氧合反應(yīng),而編碼Rubisco酶的基因在野生大麥和栽培大麥穗部發(fā)育的四個時期均有表達(dá),可能在穗部發(fā)育過程中發(fā)揮了重要作用。相比于栽培大麥,野生大麥穗部發(fā)育過程中也存在一些特異表達(dá)基因。如基因可通過木質(zhì)部調(diào)節(jié)鎘(Cd)從根到莖的運(yùn)輸,CAL1蛋白在植物體外與Cd結(jié)合,可減少Cd的細(xì)胞毒性;本研究中該基因在野生大麥穗中特異高表達(dá),在一定程度上解釋了野生大麥對重金屬具有適應(yīng)性的原因。另外,鈣調(diào)蛋白(CAM)是植物中的Ca傳感蛋白,通過靶蛋白介導(dǎo)反應(yīng)對環(huán)境脅迫做出應(yīng)答,而S-亞硝基葡萄牙脂素還原酶(GSNOR)被認(rèn)為是植物抗性蛋白信號網(wǎng)絡(luò)中維持NO信號分子穩(wěn)態(tài)的重要調(diào)節(jié)成分,CAM4可以與其結(jié)合形成CAM4-GSNOR復(fù)合體,該復(fù)合體可以作用于NO,建立離子平衡以增加植物抗鹽性;本研究發(fā)現(xiàn),和基因在野生大麥中特異表達(dá),表明野生大麥具有較強(qiáng)的環(huán)境適應(yīng)性。