樊榮輝 林兵 吳建設(shè) 鐘淮欽
鐘淮欽,1979年出生,碩士,副研究員,福建省農(nóng)業(yè)科學(xué)院青年英才,主要從事蘭科植物種質(zhì)資源鑒定評(píng)價(jià)、新品種選育與示范推廣等工作。主持福建省種業(yè)創(chuàng)新與產(chǎn)業(yè)化工程、福建省人民政府-中國(guó)農(nóng)業(yè)科學(xué)院“5511”協(xié)同創(chuàng)新工程、福建省自然科學(xué)基金、福建省林業(yè)種苗科技攻關(guān)等項(xiàng)目20多項(xiàng),作為骨干參與國(guó)家科技支撐計(jì)劃、福建省科技重大專項(xiàng)(專題)等項(xiàng)目30多項(xiàng);獲福建省科技進(jìn)步三等獎(jiǎng)2項(xiàng)(第1)、福建省農(nóng)業(yè)科學(xué)院科技獎(jiǎng)特等獎(jiǎng)1項(xiàng)(第1);主持選育的4個(gè)品種獲植物新品種權(quán)授權(quán),參與選育的9個(gè)品種通過(guò)省級(jí)審(認(rèn))定,獲授權(quán)國(guó)家發(fā)明專利6件;在《BMC Plant Biology》等刊物上發(fā)表論文28篇,2篇論文獲福建省自然科學(xué)優(yōu)秀論文三等獎(jiǎng)?,F(xiàn)任福建省特色花卉工程技術(shù)研究中心主任、福建省農(nóng)業(yè)科學(xué)院作物研究所花卉研究室主任,兼任福建省園藝學(xué)會(huì)常務(wù)理事、福建農(nóng)林大學(xué)碩士生校外導(dǎo)師等。
摘 要:為獲得建蘭轉(zhuǎn)錄組信息,以花發(fā)育3個(gè)時(shí)期為研究對(duì)象,進(jìn)行轉(zhuǎn)錄組測(cè)序、組裝、注釋及差異基因分析。結(jié)果表明:共獲得120.86 Gb clean reads,組裝得到56804個(gè)Unigenes,平均長(zhǎng)度為1502 bp,其中34324條Unigenes獲得注釋,占所有Unigene的60.43%。33908條Unigenes在NR數(shù)據(jù)庫(kù)中得到注釋,與石斛的匹配度最高;18459條Unigene被注釋到GO數(shù)據(jù)庫(kù)中的50個(gè)分支;在KEGG中共注釋到13145條Unigene,11662條注釋到129個(gè)KEGG通路中。差異基因聚類分析表明,7873個(gè)差異基因,其中3934個(gè)上調(diào)表達(dá),3939個(gè)下調(diào)表達(dá)。差異基因的KEGG注釋中,花香相關(guān)途徑差異基因較多。利用MISA軟件篩選得到19737個(gè)SSR位點(diǎn),其中單核苷酸重復(fù)SSRs數(shù)量最多,有13291個(gè),二核苷酸重復(fù)次之,有3374個(gè)。本研究為后期建蘭基因功能驗(yàn)證及次生代謝解析提供基礎(chǔ)數(shù)據(jù)。
關(guān)鍵詞:建蘭;轉(zhuǎn)錄組;生物信息學(xué)分析;功能注釋
中圖分類號(hào):S 682.31? ?文獻(xiàn)標(biāo)志碼:A? ?文章編號(hào):0253-2301(2023)03-0001-08
DOI: 10.13651/j.cnki.fjnykj.2023.03.001
Abstract: In order to obtain the transcriptome group information of Cymbidium ensifolium, the transcriptome sequencing, assembling, annotation and differential gene analysis were carried out by taking the three stages of flower development as the research objects. The results showed that a total of 120.86 Gb clean reads were obtained, and 56804 Unigenes were assembled, with a mean length of 1502 bp. Among them, 34324 Unigenes were annotated, accounting for 60.43% of all Unigenes. 33908 Unigenes were annotated in the NR database, which had the highest matching degree with Dendrobium nobile. 18459 Unigenes were annotated to 50 branches in the GO database. A total of 13145 unigenes were annotated in KEGG and 11662 unigenes were annotated to 129 KEGG pathways. The cluster analysis of differential genes showed that there were 7873 differential genes, among which 3934 showed upregulated expression and 3939 showed downregulated expression. In the KEGG annotation of differential genes, there were more differential genes in the related pathways of flower scent. A total of 19737 SSR loci were screened by MISA software, among which the number of SSRs with single nucleotide repeats was the highest (13291), followed by that with dinucleotide repeats (3374). This study could provide basic data for the gene functional verification and secondary metabolism analysis of Cymbidium ensifolium in the later stage.
Key words: Cymbidium ensifolium; Transcriptome group; Bioinformatics analysis; Functional annotation
建蘭Cymbidium ensifolium又稱四季蘭,是國(guó)蘭主要種類之一,其株型飄逸、花香清幽、花色素雅、花期長(zhǎng),是珍貴的蘭花品種。建蘭以其主產(chǎn)地為福建命名,是唯一以省份命名的國(guó)蘭[1]。通過(guò)轉(zhuǎn)錄組測(cè)序和生物信息學(xué)分析得到建蘭遺傳信息,以研究建蘭次生代謝途徑關(guān)鍵酶基因和分子標(biāo)記等,為后續(xù)建蘭基礎(chǔ)研究和開發(fā)應(yīng)用提供基礎(chǔ)數(shù)據(jù)。
轉(zhuǎn)錄組測(cè)序獲得的結(jié)果可以反映生物體某一組織在特定的狀態(tài)下基因的表達(dá)情況[2],是非模式植物研究的有用手段[3]。近年來(lái),轉(zhuǎn)錄組測(cè)序研究基因差異篩選和分子標(biāo)記開發(fā)方面廣泛應(yīng)用[4-5],如Yue等[6]對(duì)姜花Hedychium coronarium進(jìn)行轉(zhuǎn)錄組分析,研究花發(fā)育過(guò)程中萜類代謝途徑基因表達(dá)情況;Xu等[7]對(duì)百合Lilium ‘Tiny Padhye花被片發(fā)育過(guò)程中顏色變化進(jìn)行轉(zhuǎn)錄組信息分析,確定顏色變化的主控基因。本研究對(duì)建蘭花發(fā)育過(guò)程花朵進(jìn)行轉(zhuǎn)錄組測(cè)序,為挖掘次生代謝產(chǎn)物合成及其調(diào)控的相關(guān)基因等研究提供數(shù)據(jù)。
1 材料與方法
1.1 試驗(yàn)材料
福建省農(nóng)業(yè)科學(xué)院花卉種質(zhì)資源圃種植的建蘭(3年生),品種為素君荷,采集花發(fā)育的3個(gè)不同時(shí)期,置液氮中冷凍,-80℃儲(chǔ)存。 3個(gè)花發(fā)育時(shí)期分別為:花蕾初期(Early bud stage)、花蕾中期(Midbud stage)、始花期(Anthesis stage)。
1.2 建蘭3個(gè)時(shí)期花RNA的提取
收集花發(fā)育的3個(gè)時(shí)期的整朵花進(jìn)行轉(zhuǎn)錄組測(cè)序。使用通用RNA提取試劑盒(百泰克)提取總RNA。應(yīng)用NanoDrop 2000 UVvis分光光度計(jì)(Thermo Scientific,USA)和Agilent 2100生物分析儀(Agilent Technologies,USA)進(jìn)行RNA質(zhì)量和濃度測(cè)定。
1.3? 建蘭基因文庫(kù)構(gòu)建和轉(zhuǎn)錄組測(cè)序
文庫(kù)構(gòu)建由北京百邁克生物科技有限公司(中國(guó)北京)進(jìn)行。基于邊合成邊測(cè)序(Sequencing By Synthesis,SBS)技術(shù),使用Illumina Hiseq高通量測(cè)序平臺(tái)對(duì)cDNA文庫(kù)進(jìn)行測(cè)序。
1.4 建蘭基因組數(shù)據(jù)組裝和功能注釋
收集3組樣品的raw reads,并去除低質(zhì)量reads。 應(yīng)用Trinity軟件[8]通過(guò)重疊區(qū)域?qū)⒏哔|(zhì)量clean reads延伸為更長(zhǎng)的conings,通過(guò)對(duì)端連接進(jìn)一步組裝成transcripts,然后聚類成unigenes。 通過(guò)序列相似性,將所有組裝的unigenes與公共數(shù)據(jù)庫(kù)進(jìn)行比對(duì),E值閾值為10-5。八大數(shù)據(jù)庫(kù)包括Nr(NCBI nonredundant protein)、Nt(nonredundant nucleotide databases)、GO、KOG(eukaryotic orthologs groups)、KEGG、clusters of COG(orthologous groups of proteins)、Pfam(SwissProt protein database,protein family)和eggNOG(orthologous groups of genes)。
1.5 建立基因文庫(kù)差異基因聚類及KEGG分析
應(yīng)用FPKM(fragments per kilobase of transcript per million mapped reads)計(jì)算每個(gè)基因的表達(dá)計(jì)數(shù)(read counts)。應(yīng)用DESeq軟件鑒定文庫(kù)中的差異基因。絕對(duì)錯(cuò)誤率<0.01和倍數(shù)變化值≥2作為閾值以確認(rèn)表達(dá)水平的顯著差異。
對(duì)篩選出的差異表達(dá)基因做層次聚類分析,將具有相同或相似表達(dá)行為的基因進(jìn)行聚類,用于展示不同試驗(yàn)條件下基因集的差異表達(dá)模式。不同的列代表不同的樣品,不同的行代表不同的基因。顏色代表了基因在樣品中的表達(dá)量FPKM以2為底的對(duì)數(shù)值。
KEGG數(shù)據(jù)庫(kù)是關(guān)于Pathway的主要公共數(shù)據(jù)庫(kù),對(duì)差異基因進(jìn)行KEGG注釋分析。
1.6 建立轉(zhuǎn)錄組簡(jiǎn)單重復(fù)序列(SSRs)特征檢測(cè)
使用MISA軟件對(duì)建蘭轉(zhuǎn)錄組進(jìn)行SSRs搜索,對(duì)Unigenes進(jìn)行SSRs檢測(cè)。
2 結(jié)果與分析
2.1 建蘭基因文庫(kù)構(gòu)建和轉(zhuǎn)錄組測(cè)序
對(duì)建蘭花發(fā)育過(guò)程中的花蕾前期、花蕾中期、盛花期整朵花進(jìn)行轉(zhuǎn)錄組測(cè)序,共得到120.86 Gb clean reads,各樣品Q30堿基百分比均不小于93.29%,GC含量為46.74%,說(shuō)明測(cè)序結(jié)果質(zhì)量良好,可用于后續(xù)分析。
2.2 建蘭基因組數(shù)據(jù)組裝和功能注釋
2.2.1 數(shù)據(jù)組裝 通過(guò)組裝獲得56804個(gè)Unigenes,平均長(zhǎng)度為1502 bp,N50為2526 bp,其中27086條Unigenes長(zhǎng)度在1000 bp以上,占全部Unigenes的47.7%,14931條Unigenes長(zhǎng)度超過(guò)2000 bp,占全部Unigenes的26.3%,說(shuō)明組裝的轉(zhuǎn)錄本質(zhì)量較高(圖1)。
2.2.2 功能注釋 將組裝得到的Unigenes進(jìn)行八大數(shù)據(jù)庫(kù)注釋,共有34324條 Unigenes獲得注釋,占所有Unigene的60.43%。其中33908 條Unigenes在Nr數(shù)據(jù)庫(kù)中得到注釋,占所有Unigene的59.69%;在GO數(shù)據(jù)庫(kù)中獲得注釋的Unigenes為18459條,注釋率為32.50%;13145條Unigenes在KEGG中注釋,占比為23.14%(表1)。
在Nr 數(shù)據(jù)庫(kù)中,轉(zhuǎn)錄組數(shù)據(jù)與石斛Dendrobium catenatum的同源數(shù)量最多,達(dá)54.48%;其次是蝴蝶蘭Phalaenopsis equestris,同源比例達(dá)到19.88%;再次是玉米Zea mays,同源性達(dá)13.46%;與深圳擬蘭Apostasia shenzhenica和葡萄Vitis vinifera的同源性相對(duì)較低,分別為1.5%和0.58%。有10.11%的Unigene屬于其他物種(圖2)。
通過(guò)GO數(shù)據(jù)庫(kù)比對(duì),共有18459個(gè)Unigene獲得注釋,這些Unigene分布在細(xì)胞組分(Cellular component)、分子功能(Molecular function)、生物過(guò)程(Biological process) 3個(gè)大類和 50個(gè)小類中。細(xì)胞組分中,細(xì)胞(Cell)和細(xì)胞部分(Cell part)Unigene數(shù)量最多;分子功能中,催化活性(Catalytic activity)和結(jié)合(Binding)基因數(shù)量最多;生物進(jìn)程中,參與代謝過(guò)程(Metabolic process)和細(xì)胞過(guò)程(Cellular process)的Unigene數(shù)量最多(圖3)。
KEGG通路分析中,共注釋到13145條Unigene,其中11662條注釋到129個(gè)KEGG通路中。糖酵解(Glycolysis)代謝通路的Unigene數(shù)量最多,有482條;其次是檸檬酸循環(huán)(Citrate cycle)和磷酸戊糖途徑(Pentose phosphate pathway),分別有442條和394條(表2)。
在此基礎(chǔ)上進(jìn)一步分析KEGG次生代謝通路,共有16個(gè)通路,結(jié)果見表3。這些次生代謝通路中,咖啡因代謝(Caffeine metabolism)的Unigene 數(shù)量最多,有168條;其次是苯丙氨酸代謝(Phenylalanine metabolism)通路,有107條;卟啉與葉綠素代謝(Porphyrin and chlorophyll metabolism)、萜類骨架生物合成(Terpenoid backbone biosynthesis)、吲哚生物堿生物合成(Indole alkaloid biosynthesis)和單萜生物合成(Monoterpenoid biosynthesis)分別有54、53、53和 53條,這些數(shù)據(jù)為進(jìn)一步研究建蘭次生代謝途徑及分子機(jī)制提供了基礎(chǔ)。
2.3 建蘭基因文庫(kù)差異基因聚類及KEGG分析
采用主流的層次聚類對(duì)花蕾前期和盛花期基因的FPKM值進(jìn)行聚類分析,共得到7873個(gè)差異基因,其中上調(diào)表達(dá)的有3934個(gè),下調(diào)表達(dá)的有3939個(gè),說(shuō)明隨著花的發(fā)育可能有更復(fù)雜的生物代謝(圖4)。
對(duì)差異表達(dá)基因的Pathway注釋分析有助于進(jìn)一步解讀基因的功能。隨著花的發(fā)育,核糖體(Ribosome)、氨基酸的生物合成(Biosynthesis of amino acids)和植物激素信號(hào)轉(zhuǎn)導(dǎo)(Plant hormone signal transduction)差異基因最多,分別有118、84和83個(gè)。說(shuō)明隨著花的發(fā)育這3個(gè)代謝途徑更活躍。在次級(jí)代謝中,苯異丙烷生物合成(Phenyipropanoid biosynthesis)、脂肪酸代謝 (Fatty acid metabolism)和α亞麻酸代謝(alphaLinolenic acid metabolism) 差異及基因最多,說(shuō)明隨著花的發(fā)育,花香相關(guān)代謝被啟動(dòng)(圖5)。
2.4 建蘭轉(zhuǎn)錄組SSRs特征分析
Unigene序列中,利用MISA軟件篩選得到19737個(gè)SSRs位點(diǎn),其中單核苷酸重復(fù) SSRs 數(shù)量最豐富,有13291個(gè),占總量的67.34%;二核苷酸重復(fù)次之,有3374個(gè),占百分比為17.09%; 三核苷酸重復(fù)有1942個(gè)(9.84%);復(fù)合型SSRs和有重疊的復(fù)合型SSRs分別為 999個(gè)和 21個(gè),四核苷酸重復(fù)、五核苷酸重復(fù)和六核苷酸重復(fù)分別為91、7和11個(gè)(圖6)。
3 討論與結(jié)論
非模式植物中,通過(guò)高通量測(cè)序技術(shù)獲得該物種基因序列,對(duì)鑒定基因功能具有重要作用[9-11]。本研究對(duì)建蘭的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分析,得到120.86 Gb Clean reads,組裝獲得56804個(gè)Unigenes,平均長(zhǎng)度為1502 bp。N50值越大,說(shuō)明長(zhǎng)片段越多,組裝效果越好[12],本研究的N50為2526 bp,說(shuō)明組裝結(jié)果良好,這為后續(xù)基因注釋和差異表達(dá)分析提供良好的數(shù)據(jù)基礎(chǔ)。
KEGG數(shù)據(jù)庫(kù)是能系統(tǒng)分析基因的代謝途徑及其功能的數(shù)據(jù)庫(kù),在建蘭KEGG注釋中共發(fā)現(xiàn)129條代謝通路。其中14條為次級(jí)代謝通路,隨著花的發(fā)育,這些基因與建蘭的咖啡因、苯丙氨酸、葉綠素和萜類等次生代謝活動(dòng)有關(guān),為建蘭次生代謝分子生物學(xué)研究奠定基礎(chǔ)。差異基因的KEGG數(shù)據(jù)分析表明,隨著花的發(fā)育,花香相關(guān)代謝差異基因數(shù)多,代謝活躍,可能隨著花的發(fā)育,花香揮發(fā)物釋放量有顯著變化。
簡(jiǎn)單重復(fù)序列SSRs是一類由幾個(gè)核苷酸(一般為1~6個(gè))為重復(fù)單位組成的長(zhǎng)達(dá)幾十個(gè)核苷酸的串聯(lián)重復(fù)序列,廣泛分布于真核生物基因組中[13-15]。本研究使用軟件MISA篩選得到19737個(gè)SSRs位點(diǎn),其中單核苷酸為主要重復(fù)類型,其次為二核苷酸重復(fù)和三核苷酸重復(fù)。SSRs標(biāo)記信息為后續(xù)建蘭種質(zhì)資源鑒定、遺傳多樣性分析提供基礎(chǔ)。
參考文獻(xiàn):
[1]劉清涌.中國(guó)蘭花名品珍品鑒賞圖典[M].福州:福建科學(xué)技術(shù)出版社,2004.
[2]WU T Q, LUO S B, WANG R, et al.The first Illuminabased de novo transcriptome sequencing and analysis of pumpkin (Cucurbita moschata Duch.) and SSR marker development[J].Mol Breeding,2014,34(3):1437-1447.
[3]WARD J A,PONNALA L,WEBER C A.Strategies for transcriptome analysis in nonmodel plants[J].Am J Bot,2012,99(2):267-276.
[4]FAN R, CHEN Y, YE X, et al.Transcriptome analysis of Polianthes tuberosa during floral scent formation[J].PLoS ONE,2018,13(9):e0199261.
[5]石桃雄,黎瑞源,黃娟,等.甜蕎根轉(zhuǎn)錄組SSR位點(diǎn)特征分析[J].江西農(nóng)業(yè)學(xué)報(bào),2021,33(8):1-5.
[6]YUE Y,YU R,F(xiàn)AN Y.Transcriptome profiling provides new insights into the formation of floral scent in Hedychium coronarium[J].BMC Genomics,2015,16:470.
[7]XU L,YANG P,F(xiàn)ENG Y,et al.Spatiotemporal transcriptome analysis provides insights into bicolor tepal development in Lilium “Tiny Padhye”[J].Front Plant Sci, 2017,8:398.
[8]LANGMEAD B, TRAPNELL C, POP M, et al.Ultrafast and memoryefficient alignment of short DNA sequences to the human genome[J].Genome Biology Italic,2009,10(3):25.
[9]陳藝荃,方能炎,葉秀仙,等.基于轉(zhuǎn)錄組測(cè)序的文心蘭花香形成分析[J].核農(nóng)學(xué)報(bào), 2022, 36(3): 578-588.
[10]林兵,陳藝荃, 鐘淮欽,等.荷蘭鳶尾'玉妃'花色變異關(guān)鍵結(jié)構(gòu)基因分析[J].中國(guó)農(nóng)業(yè)科學(xué),2021,54(12):2644-2652.
[11]FAN R H,LIN B,F(xiàn)ANG N Y,et al.Transcriptomesequencing analyses reveal flower color formation in Strelitzia reginae[J].Biologia plantarum,2020,64:717-724.
[12]HUANG M, FAN R, Ye X, et al.The transcriptome of flower development in Freesia hybrida provides insight into floral scent formation[J].Plant growth regulation,2018,86(1):93-104.
[13]劉藝平,倪夢(mèng)輝,吳芳芳,等.荷花花器官性狀與SSR標(biāo)記的關(guān)聯(lián)分析[J].園藝學(xué)報(bào),2023,50 (1):103-115.
[14]吳超,郭方其,徐丹彬,等.多頭菊頭狀花序轉(zhuǎn)錄組SSR特點(diǎn)分析[J].分子植物育種,2022,20(18):6067-6075.
[15]陳岳,張微微,莫海波,等.ESTSSR標(biāo)記構(gòu)建蓮(Nelumbo Adans.)遺傳連鎖圖譜[J].分子植物育種, 2017, 15(6): 2265-2273.
(責(zé)任編輯:柯文輝)