陳 黎,李國(guó)勤,田 勇,沈軍達(dá),陶爭(zhēng)榮,徐 堅(jiān),曾 濤,盧立志
(浙江省農(nóng)業(yè)科學(xué)院 畜牧獸醫(yī)研究所,浙江 杭州310021)
北京鴨腹部脂肪組織的轉(zhuǎn)錄組特征分析
陳黎,李國(guó)勤,田勇,沈軍達(dá),陶爭(zhēng)榮,徐堅(jiān),曾濤,盧立志*
(浙江省農(nóng)業(yè)科學(xué)院 畜牧獸醫(yī)研究所,浙江 杭州310021)
摘要:鴨的基因組序列雖已釋放,但其基因組信息,尤其是轉(zhuǎn)錄組信息仍需進(jìn)一步開(kāi)發(fā)。文章利用轉(zhuǎn)錄組測(cè)序分析了鴨的腹部脂肪組織轉(zhuǎn)錄組特征。共獲得203 200 984個(gè)高質(zhì)量測(cè)序數(shù)據(jù),鑒定出18 464個(gè)基因表達(dá)(RPKM≥1),其中96.9%的基因RPKM值小于1 000。15 070個(gè)基因發(fā)生了可變剪切,剪切次數(shù)為35 913次。統(tǒng)計(jì)可變剪切類(lèi)型發(fā)現(xiàn),內(nèi)含子保留所占比例最低,占所有可變剪切類(lèi)型的1.17%,而第一外顯子可變剪切、末端外顯子可變剪切、外顯子跳躍依次是3種比例最高的可變剪切類(lèi)型,比例分別為45.92%, 43.67%和6.23%。此外,利用這批轉(zhuǎn)錄組數(shù)據(jù)共檢測(cè)出229 276個(gè)SNPs,其中轉(zhuǎn)換是最主要的突變類(lèi)型,占所有SNPs的73.28%。對(duì)SNP所在基因進(jìn)行功能注釋(GO)發(fā)現(xiàn),這些基因涉及細(xì)胞組分、分子功能、生物學(xué)過(guò)程3大功能類(lèi)別中廣泛的生物功能,表明該研究開(kāi)發(fā)的SNPs較為全面;通路分析(KEGG)發(fā)現(xiàn),SNPs所在基因除了富集于脂類(lèi)、能量代謝相關(guān)通路,更多的基因則富集于癌癥、免疫以及內(nèi)分泌系統(tǒng)相關(guān)的通路上,表明脂肪組織除了是能量?jī)?chǔ)備組織,同時(shí)也是重要的免疫、內(nèi)分泌組織。這些數(shù)據(jù)拓展了鴨的遺傳信息,建立的SNPs數(shù)據(jù)庫(kù)將有助于鴨分子標(biāo)記輔助育種及功能基因定位。與癌癥、免疫相關(guān)的SNPs可為癌癥及免疫學(xué)研究提供候選遺傳標(biāo)記。
關(guān)鍵詞:基因表達(dá);可變剪切;單核苷酸多態(tài)性;脂肪組織
轉(zhuǎn)錄組測(cè)序(RNA-seq)是基于二代測(cè)序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法。RNA-seq可在全基因組范圍內(nèi)檢測(cè)轉(zhuǎn)錄本表達(dá)水平,同時(shí)還能發(fā)現(xiàn)未知轉(zhuǎn)錄本和新基因,識(shí)別可變剪切位點(diǎn)以及SNP(single nucleotide poly morphism)[1]。與傳統(tǒng)的RNA研究手段(例如芯片)相比,RNA-seq具備靈敏度高、重復(fù)性好等優(yōu)勢(shì)。目前,隨著測(cè)序技術(shù)發(fā)展及成本降低,RNA-seq已經(jīng)成為轉(zhuǎn)錄組學(xué)研究的有效手段,借助該技術(shù),多個(gè)物種的轉(zhuǎn)錄組信息得以釋放。
鴨是重要的經(jīng)濟(jì)水禽,同時(shí)也是免疫研究的模式動(dòng)物。目前,在鴨中已有利用RNA-seq開(kāi)展轉(zhuǎn)錄組研究的報(bào)道。Li等[2]通過(guò)對(duì)鴨羽毛組織轉(zhuǎn)錄組測(cè)序,篩選出與羽色相關(guān)的候選基因;Tang等[3]對(duì)鴨肝臟組織的轉(zhuǎn)錄本進(jìn)行了組裝、注釋?zhuān)Y選出一批受甲肝病毒感染后表達(dá)變化的基因,為后續(xù)研究甲肝病毒感染的分子機(jī)制提供了線(xiàn)索。隨后,Huang等[4]在公布鴨基因組序列的同時(shí),利用RNA-seq檢測(cè)了肺部被禽流感病毒感染后的基因表達(dá)變化。以上這些研究?jī)H關(guān)注轉(zhuǎn)錄本的表達(dá)變化,尚未對(duì)可變剪切、SNP等信息進(jìn)行報(bào)道。盡管Chen等[5]利用RNA-seq,比較了北京鴨與綠頭野鴨在基因表達(dá)、可變剪切以及SNP方面的差異,但缺乏對(duì)鴨基因表達(dá)、可變剪切以及SNP的特征分析。 因此,本研究利用北京鴨腹部脂肪組織RNA-seq數(shù)據(jù),對(duì)鴨脂肪組織內(nèi)基因的表達(dá)水平及可變剪切特征進(jìn)行分析,同時(shí)利用轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建SNP數(shù)據(jù)庫(kù),為鴨提供可用的遺傳標(biāo)記。
1材料與方法
1.1試驗(yàn)材料
1.1.1試驗(yàn)動(dòng)物
本研究所用北京鴨來(lái)自湖州卓旺養(yǎng)鴨場(chǎng)。試驗(yàn)用鴨采用玉米豆粕型飼糧,自由采食和飲水。喂養(yǎng)至8周齡時(shí)進(jìn)行屠宰,并立即取其腹部脂肪組織待提取RNA用。實(shí)驗(yàn)動(dòng)物屠宰標(biāo)準(zhǔn)按照國(guó)家實(shí)驗(yàn)動(dòng)物處理行為準(zhǔn)則執(zhí)行。
1.1.2主要試劑
提取RNA所用TRIzol試劑購(gòu)自L(fǎng)ife Technologies公司。
1.2試驗(yàn)方法
1.2.1RNA-seq測(cè)序、數(shù)據(jù)組裝及注釋
3只8周齡北京鴨,每只個(gè)體取300 mg腹脂,按照RNAeasy Lipid Tissue Mini Kit (QIAGEN,Germany)說(shuō)明書(shū)分別提取總RNA。每個(gè)個(gè)體總RNA單獨(dú)建庫(kù),隨后利用Illumina HiSeq 2000 (Illumina, America) 平臺(tái)進(jìn)行雙末端測(cè)序。測(cè)序數(shù)據(jù)過(guò)濾掉低質(zhì)量數(shù)據(jù)及無(wú)用序列,包括測(cè)序接頭、rRNA、tRNA以及miRNA等非編碼RNA序列。獲得高質(zhì)量數(shù)據(jù)后,利用TopHat v2.0.9[6]將數(shù)據(jù)比對(duì)到鴨參考基因組上(BGI_duck_1.0),隨后利用Cufflinks v2.1.1[7]默認(rèn)參數(shù)對(duì)比對(duì)上的序列進(jìn)行組裝、注釋及表達(dá)量的計(jì)算。
1.2.2SNP的挖掘及可變剪切鑒定
以鴨基因組(BGI_duck_1.0)做參考序列,利用SAMtools 0.1.19[8]尋找SNPs(single nucleotide polymorphisms),并利用BEDTOOLS 2.17.0對(duì)SNP進(jìn)行篩選??勺兗羟袇⒄誇lorea 等[9]的方法利用ASprofile 進(jìn)行分析。所有軟件參數(shù)設(shè)置為默認(rèn)參數(shù)。
1.2.3基因注釋
GO(gene ontology)注釋來(lái)源于GO數(shù)據(jù)庫(kù)(http://www.geneontology.org/);通路分析采用KEGG(kyoto encyclopedia of genes and genomes)數(shù)據(jù)庫(kù)。
2結(jié)果與分析
2.1北京鴨腹部脂肪組織基因表達(dá)分析
共獲得203 200 984個(gè)高質(zhì)量的北京鴨腹脂轉(zhuǎn)錄組數(shù)據(jù),3個(gè)樣本的Q20均大于95%,GC含量均接近50%,表明測(cè)序數(shù)據(jù)質(zhì)量較好(表1)。RPKM(reads per kilo bases per million reads)是每百萬(wàn)reads 中來(lái)自某一基因每千堿基長(zhǎng)度的reads 數(shù)目,是目前最常用的基因表達(dá)水平估算方法[10]。本研究以RPKM≥1作為基因表達(dá)標(biāo)準(zhǔn),在北京鴨腹部脂肪組織中共鑒定出18 464個(gè)基因表達(dá),其中11 047個(gè)基因在基因組上已有注釋。對(duì)不同RPKM區(qū)間的基因數(shù)量進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),多數(shù)基因的RPKM值在1 000以下,其中RPKM值在1~10的基因最多,為8 600個(gè);其次是RPKM值位于10~100的基因,數(shù)量為7 478個(gè);RPKM值位于100~1 000的基因有1 806個(gè),而RPKM值大于1 000的基因最少,有580個(gè),占所有表達(dá)基因的3.1%。
表1測(cè)序數(shù)據(jù)統(tǒng)計(jì)表
Table 1Statistics of RNA-seq data
樣本名稱(chēng)高質(zhì)量數(shù)據(jù)Q20值/%GC含量/%PD310935514297.3449.27PD44499186697.3549.31PD54885397697.3549.48
注:PD3,PD4,PD5分別代表北京鴨的3個(gè)生物學(xué)重復(fù)。下同。
2.2北京鴨可變剪切分析
可變剪接是調(diào)節(jié)基因表達(dá)和產(chǎn)生蛋白質(zhì)多樣性的重要機(jī)制。本研究分析了5種主要的可變剪切類(lèi)型,包括內(nèi)含子保留(intron retention, IR)、5’或3’可變剪切(alternative exon ends, AE)、外顯子跳躍(skipped exon, SE)、第一外顯子可變剪切(alternative first exons, AF)、末端外顯子可變剪切(alternative last exons, AL)。利用轉(zhuǎn)錄組數(shù)據(jù),本研究共鑒定出約35 913次可變剪切,這些可變剪切由15 070個(gè)基因產(chǎn)生。在這5種可變剪切類(lèi)型中IR所占比例最低,AF及AL比例最高,分別占所有可變剪切事件的45.92%及43.67%(表2)。
表2可變剪切類(lèi)型統(tǒng)計(jì)表
Table 2Statistics of the alternative splicing (AS) events
樣本名基因數(shù)/個(gè)可變剪切次數(shù)/次5種可變剪切類(lèi)型的基因數(shù)/個(gè)(比例/%)IRAESEAFALPD31579638028552(1.45)1183(3.11)2394(6.30)17429(45.83)16470(43.31)PD41462934566370(1.07)988(2.86)2136(6.18)15887(45.96)15185(43.93)PD51478635146350(0.99)1064(3.03)2186(6.22)16162(45.98)15384(43.77)
2.3SNP鑒定
利用SAMtools,共挖掘出229 276個(gè)SNP,其中168 028個(gè)為轉(zhuǎn)換,61 248個(gè)為顛換。轉(zhuǎn)換發(fā)生比例為73.28%,是最主要的突變類(lèi)型(圖1)。
圖1 SNPs類(lèi)型統(tǒng)計(jì)Fig.1 Statistics of types of SNPs
GO注釋發(fā)現(xiàn)SNP所在基因共歸入到9 814個(gè)GO term中。根據(jù)富集的基因數(shù)量,分別統(tǒng)計(jì)分子功能、生物學(xué)過(guò)程、細(xì)胞組件中位于前10位的GO term(圖2)。在分子功能中,與蛋白綁定(protein binding)、ATP綁定(ATP binding)以及鋅離子綁定(zinc ion binding)相關(guān)的基因最多,分別為5 262,798,653個(gè);在細(xì)胞組件中,位于細(xì)胞核(nucleus)、細(xì)胞質(zhì)(cytoplasm)和細(xì)胞膜(membrane)的基因最多,分別有2 151,2 017和904個(gè);生物學(xué)過(guò)程中,歸入DNA依賴(lài)的轉(zhuǎn)錄調(diào)控(regulation of transcription, DNA-dependent)、RNA聚合酶Ⅱ啟動(dòng)子的轉(zhuǎn)錄正調(diào)控(positive regulation of transcription from RNA polymerase Ⅱ promoter)以及信號(hào)轉(zhuǎn)導(dǎo)(signal transduction)3個(gè)GO term的基因最多,分別有473,401,392個(gè)。
三大類(lèi)別分別列出了富集基因數(shù)量位于前10位的GO term。圖2 SNP所在基因的GO分類(lèi)Fig.2 GO classifications of genes containing SNPs
同時(shí),為確定SNP參與的主要生化代謝途徑和信號(hào)通路,對(duì)SNP所在基因進(jìn)行KEGG(kyoto encyclopedia of genes and genomes)通路分析,共鑒定出25個(gè)通路(圖3),其中歸入癌癥的基因最多,為1 031個(gè),其次是信號(hào)轉(zhuǎn)導(dǎo)及免疫系統(tǒng),分別有956個(gè)及812個(gè)基因;歸入內(nèi)分泌系統(tǒng)及脂肪代謝的基因也較多,分別有466和235個(gè);歸入碳水化合物代謝及能量代謝中的基因分別有138和66個(gè)。
3討論
RNA-seq原始數(shù)據(jù)需要進(jìn)行嚴(yán)格的質(zhì)控。本研究在獲得鴨轉(zhuǎn)錄組測(cè)序數(shù)據(jù)后,首先對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)控。Q20與GC含量是衡量測(cè)序質(zhì)量的重要指標(biāo)。Q20表示質(zhì)量數(shù)大于20的堿基占總體堿基的比例,Q20越高表明測(cè)序錯(cuò)誤率低于1%的堿基比例越高。GC含量則用于分析建庫(kù)或測(cè)序過(guò)程是否帶來(lái)堿基偏離,正常情況下,4種堿基的出現(xiàn)頻率接近。本研究3個(gè)樣本的Q20及GC%的平均值分別為97.35%和49.35%,表明測(cè)序質(zhì)量較高,為后續(xù)數(shù)據(jù)分析的可靠性奠定了基礎(chǔ)。
圖3 SNPs所在基因的KEGG通路分析Fig.3 KEGG pathways of genes including SNPs
可變剪接是真核生物基因轉(zhuǎn)錄后調(diào)控的重要機(jī)制?;蛲ㄟ^(guò)可變剪切產(chǎn)生不同的轉(zhuǎn)錄本,使遺傳信息得到放大。最近,Chen等[5]利用RNA-seq在鴨中鑒定出6 980個(gè)基因發(fā)生了23 393次可變剪切,發(fā)生可變剪切的基因數(shù)量遠(yuǎn)低于本研究中鑒定出的基因數(shù)量,這可能是因?yàn)榭勺兗羟蟹治龇椒ㄅc鑒定標(biāo)準(zhǔn)不同。本研究利用北京鴨腹脂轉(zhuǎn)錄組數(shù)據(jù)共鑒定出18 464個(gè)基因表達(dá),其中15 070個(gè)基因發(fā)生了35 913次可變剪切,可變剪切發(fā)生率約為82%,低于人類(lèi)的95%[11],高于果蠅的60%[12],與越是高等生物可變剪切比例越高的報(bào)道一致[13]。在本研究中,IR在所有可變剪切類(lèi)型中比例最低,與目前報(bào)道的動(dòng)物中IR是比例最低的可變剪切類(lèi)型[13-15]的觀點(diǎn)一致。
利用轉(zhuǎn)錄組數(shù)據(jù)挖掘SNP已有多篇報(bào)道。Chen等[5]利用轉(zhuǎn)錄組測(cè)序比較了北京鴨與綠頭野鴨腹部脂肪組織中的差異SNP,但未對(duì)全基因組SNP進(jìn)行特征分析。本研究利用北京鴨腹部脂肪組織轉(zhuǎn)錄組數(shù)據(jù)共檢測(cè)出229 276個(gè)SNP,這是目前鴨中首次在全基因組范圍內(nèi)挖掘SNP的報(bào)道,對(duì)SNP所在基因進(jìn)行功能注釋?zhuān)l(fā)現(xiàn)這些基因涉及細(xì)胞組分、分子功能及生物學(xué)過(guò)程3大功能類(lèi)別中廣泛的生物功能,表明本研究開(kāi)發(fā)出的SNP較為全面,與多種生物功能關(guān)聯(lián),方便了后續(xù)的基因定位及分子標(biāo)記育種。對(duì)SNP所在基因通路分析發(fā)現(xiàn),歸入癌癥以及免疫、內(nèi)分泌系統(tǒng)的基因最多,這與脂肪組織除了是能量?jī)?chǔ)備組織,同時(shí)也是重要的免疫、內(nèi)分泌組織的報(bào)道相符[5,16],這些SNP可作為癌癥、免疫相關(guān)的候選SNP。
參考文獻(xiàn):
[1]AN J, WAN H, ZHOU X, et al. A comparative transcriptomic analysis of uveal melanoma 465 and normal uveal melanocyte [J].PloSOne, 2011, 6(1): e16516.
[2]LI S, WANG C, YU W, et al. Identification of genes related to white and black plumage formation by RNA-Seq from white and black feather bulbs in ducks[J].PloSOne, 2012, 7(5): e36592.[3]TANG C, LAN D L, ZHANG H R, et al. Transcriptome analysis of duck liver and identification of differentially expressed transcripts in response to duck hepatitis A virus genotype C infection [J].PloSOne, 2013, 8(7): e71051.
[4]HUANG Y H, LI Y R, BURT D W, et al. The duck genome and transcriptome provide insight into an avian influenza virus reservoir species [J].NatureGenetics, 2013, 45(7): 776-783.[5]CHEN L, LUO J, LI J X, et al. Transcriptome analysis of adiposity in domestic ducks by transcriptomic comparison with their wild counterparts [J].AnimalGenetics, 2015, 46(3): 299-307.[6]TRAPNELL C, PACHTER L, SALZBERG S L. TopHat: discovering splice junctions with RNA-seq [J].Bioinformatics, 2009, 25(9): 1105-1111.
[7]TRAPNELLC, WILLIAMS B A, PERTEA G, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation [J].NatureBiotechnology, 2010, 28: 511-515.
[8]LI H, HANDSAKER B, WYSOKER A, et al. The sequence alignment/map (SAM) format and SAM tools [J].Bioinformatics, 2009, 25: 2078-2079.
[9]FLOREA L, SONG L, SALZBERG S L. Thousands of exon skipping events differentiate among splicing patterns in sixteen human tissues [J].F1000Research, 2013, 2: 188.
[10]MORTAZAVI A, WILLIAMS B A, MCCUE K, et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq [J].NatureMethods, 2008, 5(7): 621-628.
[11]PAN Q, SHAI O, LEE J L, et al. Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing [J].NatureGenetics, 2008, 40(12): 1413-1415.
[12]GRAVELEY B R, BROOKS A N, CARLSON J W, et al. The developmental transcriptome ofDrosophilamelanogaster[J].Nature, 2011, 471(7339): 473-479.
[13]KIM E, MAGEN A, AST G. Different levels of alternative splicing among eukaryotes [J].NucleicAcidsResearch, 2007, 35(1): 125-131.
[14]REDDY A S, ROGERS M F, RICHARDSON D N, et al. Deciphering the plant splicing code: experimental and computational approaches for predicting alternative splicing and splicing regulatory elements [J].FrontiersinPlantScience, 2012, 3(9): 18.[15]SUGNET C W, KENT W J, ARES M J, et al. Transcriptome and genome conservation of alternative splicing events in humans and mice [J].PacificSymposiumonBiocomputing, 2004: 66-77.
[16]MINER J L. The adipocyte as an endocrine cell [J].JournalofAnimalScience, 2004, 82(3): 935-941.
(責(zé)任編輯盧福莊)
Transcriptome analysis of abdominal fats from Peking ducks by RNA-seq
CHEN Li, LI Guo-qin, TIAN Yong, SHEN Jun-da, TAO Zheng-rong, XU Jian, ZENG Tao, LU Li-zhi*
(InstituteofAnimalHusbandryandVeterinaryScience,ZhejiangAcademyofAgriculturalSciences,Hangzhou310021,China)
Abstract:Although the duck genome sequence has been released, its genomic structure, especially its transcriptome characterization needs to be further studied. This study characterized the transcriptome of abdominal fat in ducks by using RNA-seq. In total, 203 200 984 clean reads were obtained, and 18 464 genes were identified to be expressed in abdominal fat, among which 96.9% genes’ RPKM values were lower than 1 000. 15 070 genes had alternative splicing (AS), and the splicing times were 35 913. Intron retention was found to be the rarest AS type, while alternative first exons, alternative last exons and skipped exon were the three major types, with the proportions of 45.92%, 43.67% and 6.23%, respectively. Using these transcriptome data, 229 276 SNPs were called, among which transitions were the main type, accounting for 73.28% of all the SNPs. Gene ontology(GO) annotation analysis revealed that genes including these SNPs took part in numerous functions belonging to the three categories of cellular component, molecular function, and biological process, and further kyoto encyclopedia of genes and genomes(KEGG) pathway analysis showed that most of these genes were related to cancer, immune system, and endocrine system, suggesting that the adipose tissue was an important immune and endocrine tissue, as well as an energy store tissue. These data could enlarge the genetic information of ducks. The numerous SNPs identified in this study would contribute to the molecular breeding and help in mapping the genes associated with important economic traits. The SNPs related with cancers and immune systems would serve as useful markers in related studies.
Key words:gene expression; alternative splicing; single nucleotide polymorphism; adipose tissue
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(31402065);浙江省自然科學(xué)基金項(xiàng)目(LQ14C170003)
作者簡(jiǎn)介:陳黎(1984—),女,江蘇徐州人,博士,助理研究員,從事家禽遺傳育種方面的研究。E-mail: chenli0429@163.com
*通信作者,盧立志,E-mail:lulizhibox@163.com
DOI:10.3969/j.issn.1004-1524.2016.05.05
中圖分類(lèi)號(hào):S834+.81;Q789
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1004-1524(2016)05-0743-05
投稿日期:2016-01-28
浙江農(nóng)業(yè)學(xué)報(bào)ActaAgriculturaeZhejiangensis, 2016,28(5): 743-747
http://www.zjnyxb.cn
陳黎,李國(guó)勤,田勇,等. 北京鴨腹部脂肪組織的轉(zhuǎn)錄組特征分析[J].浙江農(nóng)業(yè)學(xué)報(bào),2016,28(5): 743-747.