張朝華 王 霞
(廣西壯族自治區(qū)蠶業(yè)技術(shù)推廣站,南寧 530007)
桑樹(MorusL.)作為養(yǎng)蠶業(yè)的飼料樹種具有重要的經(jīng)濟(jì)價(jià)值,近10多年桑樹的生態(tài)價(jià)值、藥食用價(jià)值、畜禽用飼料價(jià)值等被逐漸發(fā)掘利用[1],因而桑樹已受到農(nóng)林業(yè)、畜牧業(yè)及醫(yī)療保健行業(yè)的關(guān)注。然而,目前桑樹的基礎(chǔ)研究還相對滯后,例如桑樹對不良環(huán)境的適應(yīng)能力、桑樹含有的許多活性物質(zhì)及藥用功效等,雖然都有一定的試驗(yàn)證據(jù)支持,但還不能從分子水平解析其產(chǎn)生、形成機(jī)制。利用基因組、轉(zhuǎn)錄組及蛋白質(zhì)組學(xué)等組學(xué)技術(shù)探討植物的生理活動規(guī)律及生物代謝的機(jī)制[2],成為當(dāng)下的研究熱點(diǎn)。自2013年西南大學(xué)何寧佳的研究團(tuán)隊(duì)完成了川桑(Morusnotabilis)的基因組測序工作[3]之后,桑樹功能基因組的研究也取得了重要進(jìn)展[4-6]。轉(zhuǎn)錄組學(xué)是由Velculescu等[7]在1997年提出,了解轉(zhuǎn)錄組對于分析基因表達(dá)和鑒定未知基因,揭示細(xì)胞與組織的分子成分以及理解生長發(fā)育和抗性形成等是必不可少的,目前轉(zhuǎn)錄組學(xué)已應(yīng)用于多種植物的研究[8-10]。我們擬對桑樹品種桂桑優(yōu)12的根部總RNA進(jìn)行轉(zhuǎn)錄組測序,利用生物信息學(xué)軟件對測序數(shù)據(jù)進(jìn)行拼接組裝分析,對unigene進(jìn)行功能分類注釋等,希望能夠?yàn)樯渲匾誀罨虻陌l(fā)掘及功能分析,為桑樹遺傳圖譜構(gòu)建以及分子育種積累一定的基礎(chǔ)數(shù)據(jù)。
桂桑優(yōu)12為廣西蠶業(yè)技術(shù)推廣站育成的桑樹品種,以該品種的3年生植株根部材料供試。
按照天根植物總RNA提取試劑盒DP432的說明書操作提取桑樹根尖總RNA,經(jīng)1%瓊脂糖凝膠電泳檢測RNA提取質(zhì)量。電壓180 V電壓,電泳16 min,Agilent 2100檢測RNA的完整性(RIN值≥6.6)。
總RNA樣品檢測合格后,轉(zhuǎn)錄組測序由北京諾禾致源科技股份有限公司完成。
cDNA文庫的構(gòu)建:用帶有Oligo(dT)的磁珠富集mRNA,隨后加入fragmentation buffer將mRNA打斷成短片段,以mRNA為模板;用六堿基隨機(jī)引物(random hexamers)合成第1鏈cDNA,然后加入緩沖液、 dNTPs和DNA polymeraseⅠ和RNase H合成第2鏈cDNA,再用AMPure XP beads純化雙鏈cDNA;純化的雙鏈cDNA先進(jìn)行末端修復(fù)、加A尾并連接測序接頭,再用AMPure XP beads進(jìn)行片段大小選擇;最后進(jìn)行PCR擴(kuò)增,并用AMPure XP beads純化PCR產(chǎn)物,得到最終的文庫。
文庫構(gòu)建完成后,先使用Qubit2.0進(jìn)行初步定量,稀釋文庫至1.5 ng/μL,隨后使用Agilent 2100對文庫的insert size進(jìn)行檢測,insert size符合預(yù)期后,使用Q-PCR方法對文庫的有效濃度進(jìn)行準(zhǔn)確定量(文庫有效濃度>2 nmol/L)。文庫檢驗(yàn)合格后,把不同文庫按照有效濃度及目標(biāo)下機(jī)數(shù)據(jù)量的需求pooling后進(jìn)行Illumina HiSeq測序。
將測序獲得的轉(zhuǎn)錄組原始數(shù)據(jù)進(jìn)行轉(zhuǎn)錄本拼接,拼接后用Corset程序進(jìn)行聚類,以聚類后的序列進(jìn)入各大功能數(shù)據(jù)庫比對,進(jìn)行功能注釋,包括GO注釋、KEGG注釋和COG注釋。
對桂桑優(yōu)12根尖組織的轉(zhuǎn)錄組測序后共獲得50 844 314條原始測序數(shù)據(jù)(Raw data),原始測序數(shù)據(jù)經(jīng)過濾后得到Clean data 50 540 436條。對Clean reads進(jìn)行從頭組裝和序列去冗余后共獲得了102 254個(gè)轉(zhuǎn)錄本,轉(zhuǎn)錄本的總長度、平均長度和N50值分別為64 665 080 bp,771 bp和1 473 bp。轉(zhuǎn)錄本的長度分布情況見圖1。
圖1 桂桑優(yōu)12根尖組織轉(zhuǎn)錄本的長度分布
通過將轉(zhuǎn)錄本比對到NR,NT,SwissProt,COG,GO,KEGG,PFAM,InterPro等8大功能數(shù)據(jù)庫, 對轉(zhuǎn)錄組測定的序列進(jìn)行功能注釋, 其中有86 332個(gè)轉(zhuǎn)錄本獲得了注釋結(jié)果。同時(shí),在本項(xiàng)目中總共預(yù)測出68 218個(gè)編碼序列(Coding DNA sequence,CDS),其中通過注釋結(jié)果檢測出57 348個(gè)CDS,使用ESTScan預(yù)測出10 870個(gè)CDS。此外,還在27 068個(gè)轉(zhuǎn)錄本中檢測到41 882個(gè)簡單重復(fù)序列(Simple sequence repeat,SSR)。
2.2.1 KEGG功能注釋
KEGG是一個(gè)生物信息學(xué)的系統(tǒng)數(shù)據(jù)庫,其將基因組和系統(tǒng)功能信息等整合在一起,通過將基因在基因組或轉(zhuǎn)錄組的含量映射到KEGG數(shù)據(jù)庫的代謝通路的過程,將基因組與有機(jī)體的系統(tǒng)行為連接起來[11]。本次對桂桑優(yōu)12根尖組織的轉(zhuǎn)錄組分析中:有2 143個(gè)unigene被歸到運(yùn)輸和分解代謝途徑,599個(gè)unigene被歸到膜輸送途徑,1 020個(gè)unigene被歸到信號傳導(dǎo)途徑,3 354個(gè)unigene被歸到折疊分類降解途徑等(圖2)。
圖2 桂桑優(yōu)12根尖組織轉(zhuǎn)錄組序列的KEGG途徑分布
2.2.2 COG功能注釋
蛋白質(zhì)直系同源簇(COGs)是通過對某些真核及原核生物等完整基因組編碼蛋白質(zhì),根據(jù)生物系統(tǒng)的進(jìn)化分類關(guān)系而構(gòu)建的,可應(yīng)用于預(yù)測單個(gè)蛋白質(zhì)或整個(gè)新基因組中蛋白質(zhì)的功能[12]?;贑OG數(shù)據(jù)庫可以對蛋白質(zhì)進(jìn)行系統(tǒng)進(jìn)化分類的功能,將獲得的桂桑優(yōu)12根尖組織的轉(zhuǎn)錄組序列比對到COG數(shù)據(jù)庫,可將這些序列分為25類(圖3)。其中,有5 087個(gè)序列歸為蛋白質(zhì)功能預(yù)測類,有4 104個(gè)序列被歸為翻譯、核糖體結(jié)構(gòu)及生物發(fā)生一類,有2 690個(gè)序列被歸為翻譯后修飾、蛋白質(zhì)折疊及分子伴侶類。
圖3 桂桑優(yōu)12根尖組織轉(zhuǎn)錄組序列的COG功能注釋分布
2.2.3 GO功能注釋
GO(Gene Ontology, http://www.geneontology.org)數(shù)據(jù)庫將所有與基因有關(guān)的研究結(jié)果進(jìn)行分類匯總,形成標(biāo)準(zhǔn)化的基因和基因產(chǎn)物的生物學(xué)術(shù)語,該數(shù)據(jù)庫對基因和蛋白質(zhì)功能進(jìn)行統(tǒng)一的界定和描述。GO數(shù)據(jù)庫從3個(gè)方面,即組建細(xì)胞成分功能(CC)、參與生物過程功能(BP)和分子生物功能(MF)等,對基因及其產(chǎn)物進(jìn)行分類注釋。桂桑優(yōu)12根尖組織的轉(zhuǎn)錄組序列被歸為55大類(圖4),其中參與代謝過程類等7類的轉(zhuǎn)錄序列均超過10 000個(gè),參與膜結(jié)構(gòu)和生物調(diào)節(jié)類等16個(gè)分類的序列均超過1 000個(gè),其它分類中參與的序列相對較少,最少的如翻譯調(diào)節(jié)活性類僅有1個(gè)序列。
圖4 桂桑優(yōu)12根尖組織轉(zhuǎn)錄組序列的GO功能注釋分布
本研究以廣西蠶區(qū)大面積種植桑品種桂桑優(yōu)12的根尖組織總RNA進(jìn)行轉(zhuǎn)錄組測序,并將序列在KEGG,GO及COG等數(shù)據(jù)庫中進(jìn)行分析歸類。測序共獲得50 844 314條原始測序數(shù)據(jù)(Raw data),經(jīng)過濾原始測序數(shù)據(jù)后獲得得到99.4%的Clean data,共計(jì)50 540 436條,得到7.38 G的數(shù)據(jù),GC含量為46.58%。對Clean Reads進(jìn)行拼接組裝及去冗余后得到102 254個(gè)轉(zhuǎn)錄本。利用COG,GO,KEGG等功能數(shù)據(jù)庫對序列進(jìn)行功能注釋, 其中有86 332個(gè)轉(zhuǎn)錄本獲得了注釋結(jié)果,總共預(yù)測出的68 218個(gè)CDS中,有57 348個(gè)CDS獲得注釋。86 332個(gè)unigenes在KEGG中獲得注釋的有40 254個(gè),在COG中獲得注釋的有26 832個(gè),在GO中獲得注釋的有27 766個(gè)。本次測序獲得的桂桑優(yōu)12轉(zhuǎn)錄組數(shù)據(jù)及功能注釋結(jié)果,為今后探索了解桑樹的多種生理生化過程及代謝機(jī)制,挖掘桑樹的特殊性狀及開展桑樹遺傳育種等方面的研究,積累了具有一定參考意義的基礎(chǔ)數(shù)據(jù)。