黃永震,張桂民,賀 花,逯倩倩,雷初朝,陳 宏*
(1. 西北農(nóng)林科技大學(xué)動物科技學(xué)院,陜西省農(nóng)業(yè)分子生物學(xué)重點實驗室,陜西 楊凌 712100;2. 西北農(nóng)林科技大學(xué)動物醫(yī)學(xué)學(xué)院,陜西 楊凌 712100)
2003年,人類基因組計劃測序工作完成;隨后,各種動植物的遺傳信息又相繼被揭示,伴隨著對遺傳信息研究的不斷深入,許多問題也逐漸出現(xiàn),需要在基因組、轉(zhuǎn)錄組乃至蛋白質(zhì)組等方面進行更深入的研究。生物的許多功能并不是都是由單一的基因所控制的,有很多性狀,尤其是經(jīng)濟性狀是由許多基因共同調(diào)控的。由此,使得對單一基因或蛋白質(zhì)的研究轉(zhuǎn)向多個基因或蛋白質(zhì)同時進行系統(tǒng)的研究,進入了功能基因組學(xué)研究時代(也稱為后基因組時代)。功能基因組學(xué),就是利用結(jié)構(gòu)基因組學(xué)提供的信息來進行基因功能的研究,主要內(nèi)容包括:全長cDNA克隆與測序、獲得DNA芯片等基因轉(zhuǎn)錄圖譜、突變數(shù)據(jù)體庫的構(gòu)建、高通量的遺傳轉(zhuǎn)化鑒定系統(tǒng)、生物信息技術(shù)平臺與相應(yīng)數(shù)據(jù)庫的構(gòu)建、研究基因組表達的全部蛋白質(zhì)及其相互作用為主要內(nèi)容的蛋白質(zhì)組學(xué)(Proteomlcs)等[1]。由于遺傳信息從DNA傳遞到蛋白質(zhì)是一個十分復(fù)雜的過程,在這一過程中DNA首先轉(zhuǎn)錄成為RNA,RNA再經(jīng)過翻譯形成蛋白質(zhì),RNA在這個過程中起到承上啟下的“橋梁”作用。所以,轉(zhuǎn)錄組學(xué)是功能基因組學(xué)的一個非常重要的研究領(lǐng)域,
所謂的轉(zhuǎn)錄組,是指在某一特定的階段,由細胞轉(zhuǎn)錄出的所有RNA,包括有mRNA、rRNA、tRNA和其他一些非編碼RNA(包括lncRNA、microRNA等)[2]。轉(zhuǎn)錄組是連接基因組遺傳信息與功能蛋白質(zhì)組的紐帶,基因表達在轉(zhuǎn)錄水平的調(diào)控是生物體重要的調(diào)控方式之一,主要受到內(nèi)源或外源因子的影響。因為不同細胞或者同一細胞在不同的時間或空間下所轉(zhuǎn)錄的RNA是不完全相同的,所以轉(zhuǎn)錄組反映的是某一特定的發(fā)育或生理階段特定的細胞或組織基因的表達情況。
目前,研究轉(zhuǎn)錄組的方法有很多種,主要可分為三類:(1)基于雜交的技術(shù),如基因芯片(Gene chip)等;(2)基于測序的技術(shù),如表達序列標(biāo)簽(ExpressedSequence Tag, EST)、基因表達序列分析(Serrial Analysis of Gene Expression, SAGE)等;(3)基于新一代高通量測序技術(shù)的轉(zhuǎn)錄組測序(RNA sequencing, RNA-Seq)技術(shù)。此外,還有生物信息學(xué)等諸多數(shù)據(jù)處理和分析的研究方法。
基因芯片(Gene chip)又稱為DNA芯片(DNA chip),生物芯片(biological chip),由Stephen Fodor博士于1991年首次提出[3]?;蛐酒褪侵笇⒋罅刻结樂肿庸潭ㄓ谥С治锷虾笈c標(biāo)記的樣品分子進行雜交,通過檢測每個探針分子的雜交信號強度進而獲取成千上萬樣品分子的數(shù)量和序列信息的技術(shù)。在生命科學(xué)領(lǐng)域可用于基因測序、基因表達譜分析、新基因發(fā)現(xiàn)、基因突變及多態(tài)性分析、基因組文庫作圖、疾病診斷和預(yù)測等諸多領(lǐng)域。其基本原理是將待測DNA或cDNA用熒光或其它方法標(biāo)記后,與固定在芯片上的探針列陣進行雜交。由于固定在基因芯片上每個位置的核苷酸信息是已知的,雜交之后對芯片上每一位點的熒光強度進行檢測,就可以同過芯片上的信息來得到樣品的遺傳信息[4]。與傳統(tǒng)技術(shù)相比基因芯片技術(shù)具有高通量、效率高、自動化等優(yōu)點。但是也存在一些缺陷,如成本太高;芯片上探針合成時有時會有錯誤核苷酸摻入及混入雜質(zhì), 使得降低特異性;另外在檢測低拷貝數(shù)基因時靈敏性較低等,使其使用范圍受到極大的限制。
隨著人類基因組計劃的發(fā)展,由美國科學(xué)家Venter等于1991年提出表達序列標(biāo)簽(ExpressedSequence Tag, EST)這一技術(shù)[5],該技術(shù)最初是用于尋找人類新基因、繪制人類基因組圖譜、識別基因組序列編碼區(qū)[6]等領(lǐng)域的研究。之后,逐漸在動植物基因組的研究中也廣泛運用。眾所周知,很多真核生物成熟的mRNA都是由3部分組成的,包括:5’端非翻譯區(qū)(5’ Untranslated Regions, 5’UTR)、開放閱讀框(Open reading, frame, ORF)和3’端非翻譯區(qū)(3’ Untranslated Regions, 3’UTR),由mRNA反轉(zhuǎn)錄而得到的cDNA序列相應(yīng)地也具有這3部分結(jié)構(gòu)。而對于一個基因而言,其5’UTR和3’UTR是特定的,即cDNA的兩端具有一段序列(一般長度為300~500bp),可以代表一定條件下生物體某組織或細胞的基因表達,即“表達序列標(biāo)簽”,用它可以顯示某一特定狀態(tài)下基因表達的情況[7]。
EST方法的基本過程大致為:(1)RNA的提?。?2)mRNA的富集純化;(3)將mRNA反轉(zhuǎn)錄成cDNA并克隆到載體構(gòu)建cDNA文庫(4)大規(guī)模隨機挑選cDNA克隆,對其5’或3’端進行單向測序[8]。通過EST序列分析可以獲得家養(yǎng)動物特定組織或細胞在特定的發(fā)育時期的基因表達種類,其數(shù)量還可反映基因的表達量,EST的數(shù)目越多說明基因表達量也高。通過建立ESTs數(shù)據(jù)庫,然后將ESTs數(shù)據(jù)庫與基因數(shù)據(jù)庫已知序列進行比較,就可以獲得大量的關(guān)于生物生長發(fā)育、遺傳變異、衰老死亡等與生命活動相關(guān)的生物信息[9]。ESTs直接反映了基因表達的生物信息,可用來研究遺傳背景還不太清楚的實驗材料,還可以用來分離與鑒定新基因、構(gòu)建遺傳學(xué)圖譜、基因定位和表達譜的研究、還有可以研究比較基因組學(xué)和生物信息學(xué)等[10,11]。但是由于EST分析過程復(fù)雜,結(jié)果也受到cDNA文庫構(gòu)建過程中反轉(zhuǎn)錄、酶切效率以及文庫的代表性等因素的影響[12],這些問題還有待進一步的改進。
基因表達序列分析(Serrial analysis of gene expression,SAGE)是由Velculescu等于1995年建立的一種研究基因表達模式的技術(shù),可以在整體水平上對細胞或組織中的已知或未知的轉(zhuǎn)錄本同時進行大規(guī)模的定量分析[13]。其主要的原理是:(1)一個9~10bp的短核苷酸序列標(biāo)簽就能夠包含足夠的信息,如10bp的核苷酸序列能夠分辨也就是1048576個不同的轉(zhuǎn)錄產(chǎn)物;(2)如果能將10bp的標(biāo)簽集中于一個克隆中進行測序,并將得到的短序列核苷酸順序以連續(xù)的數(shù)據(jù)形式輸入計算機中進行處理,就能對數(shù)以萬計的轉(zhuǎn)錄物進行分析。SAGE技術(shù)具有高通量、高靈敏性等優(yōu)點,但是也存在一些不足之處,一方面進行基因表達序列分析需要大量的RNA;另一方面SAGE文庫構(gòu)建流程長,技術(shù)要求高還有單條序列標(biāo)簽所含有的基因信息少[12]。因此,它也不是進行轉(zhuǎn)錄組分析的最好途徑。
RNA-Seq(RNA sequencing)即RNA測序,又稱為轉(zhuǎn)錄組測序(Transcriptome Sequencing),新一代測序技術(shù)(next-generation sequencing ,NGS)是一種把全部RNA(包括mRNA、smallRNA、non-codingRNA等)或者其中的一部分用高通量測序技術(shù)進行測序分析的技術(shù)。主要原理及流程為:(1)獲得細胞總RNA;(2)根據(jù)實驗需要對RNA樣品進行處理,如用帶有Oligo(dT)的磁珠富集mRNA等;(3)對處理好的RNA樣品進行片段化處理;(4)將處理后的RNA反轉(zhuǎn)錄成cDNA,獲得cDNA文庫;(5)接著在cDNA片段兩端連接接頭;(6)用新一代高通量測序技術(shù)進行測序,獲得轉(zhuǎn)錄組的遺傳信息。RNA-Seq技術(shù)是一種非常有用的搜集遺傳信息的工具,同時也是對轉(zhuǎn)錄組進行綜合分析的好方法,可以用來鑒別、定位以及定量分析轉(zhuǎn)錄組信息。因RNA-Seq技術(shù)具有諸多優(yōu)點,其出現(xiàn)以后被廣泛運用到轉(zhuǎn)錄組的研究之中。
相對于其他幾種方法RNA-Seq技術(shù)具有以下優(yōu)勢:(1)信號數(shù)字化,便于管理分析,可直接測定每個轉(zhuǎn)錄本的片段序列,不僅對單核苷酸有很高的分辨率,而且也不存在微陣列雜交的熒光模擬信號帶來的交叉反應(yīng)和背景噪音等問題;(2)靈敏度高,能夠檢測到表達量很低的稀有轉(zhuǎn)錄本,可以用來檢測新的轉(zhuǎn)錄本;(3)不需要設(shè)計特異性探針,因此,即使在不了解物種基因信息的情況下,也可以對其轉(zhuǎn)錄組進行分析,并且能夠檢測未知基因、發(fā)現(xiàn)新的轉(zhuǎn)錄本。另外還可識別可變剪接、單核苷酸多態(tài)性(Single nucleotide polymorphisms, SNPs)、簡單重復(fù)序列((Simple sequence repeat, SSRs)、插入缺失((Insertion-deletion Indel)、等位基因差異性表達等[14]。
在20世紀(jì)70年代,Sanger等發(fā)明了雙脫氧測序法,在過去的多年中一直被廣泛應(yīng)用,為揭示動植物遺傳信息做了極大的貢獻,但是這種方法也存在著價格昂貴、通量小、速度慢、獲取信息量小等缺點,使得需要進行大規(guī)模測的研究難以開展。為了能夠在短時間內(nèi)進行廉價的大規(guī)模測序,許多科研工作者對Sanger測序法做了很多改進,并相繼產(chǎn)生了二代以及三代測序法。這些技術(shù)都能進行轉(zhuǎn)錄組的測序,為轉(zhuǎn)錄組的研究提供了有效手段。這些技術(shù)主要包括Roche公司的454技術(shù)、Illumina公司的Solexa技術(shù)和ABI公司的SOLiD技術(shù),之后Helicos Biosciences公司又推出了單分子測序(Single molecule sequencing, SMS)技術(shù)[15]。這些方法極大地提升了測序效率,但是,不同的測序方法也有著自己各自不同的原理和優(yōu)缺點,表1列舉了近年來發(fā)展起來的幾種主要測序平臺并對其進行了比較分析。
表1 幾種測序平臺的比較[15]
轉(zhuǎn)錄組文庫的構(gòu)建過程,主要包括:(1)總RNA的提?。阂话阌肨RIzol法進行提取,所有過程應(yīng)當(dāng)在低溫?zé)oRNA酶的條件下進行,以防止RNA的降解;(2)RNA的質(zhì)量鑒定:用分光光度計以及凝膠電泳等方式來檢測RNA的質(zhì)量,在電泳時要用RNA滅火處理過的電泳設(shè)備和電泳緩沖液;(3)將RNA反轉(zhuǎn)錄形成cDNA:用試劑盒或者其他方法將單鏈的RNA反轉(zhuǎn)錄形成cDNA;(4)全長cDNA的克?。翰捎肞CR擴增的方法獲得大量的cDNA并對其進行連接;(5)通過藍白斑篩選等方式選出連接好的載體。之后便可送交公司進行測序。
目前,已經(jīng)發(fā)表RNA-Seq數(shù)據(jù)分析相關(guān)研究成果的主要有Wang[16]、Trapnell[17]及van Verk[18]等。對有參考基因組的物種的RNA-Seq測序數(shù)據(jù)分析主要內(nèi)容有:(1)測序數(shù)據(jù)的輸出;先對通過高通量測序產(chǎn)生的大量文件進行篩選,保留Reads序列數(shù)據(jù)和對應(yīng)的堿基質(zhì)量得分,然后將其輸出保留;(2)原始數(shù)據(jù)過濾,獲得高質(zhì)量數(shù)據(jù);剛開始輸出原始的數(shù)據(jù)比較多且復(fù)雜,需要對其進行一定的過濾處理,去掉接頭、污染等序列最后保留Clean Reads數(shù)據(jù);(3)基因組比對;用比對軟件對獲得的Clean Reads數(shù)據(jù)與參考基因及基因組序列進行比對分析;(4)估計基因的表達量或表達水平;由于測序過程對打斷的轉(zhuǎn)錄本進行了隨機選擇,因此測序結(jié)果得到的基因表達水平受到了基因長度、測序深度以及基因表達高低等的影響所以,需要利用讀段數(shù)Reads來歸一化基因表達水平?,F(xiàn)在有很多軟件可以對基因表達水平進行估計,如rSeq、DEGseq 軟件包和Cufflinks等;(5)差異表達基因的篩選。通過差異倍數(shù)法(fold change)結(jié)合錯誤發(fā)生率(false discovery rate, FDR)控制法等方法對不同樣本間的差異基因進行篩選;(6)基因注釋?;诩僭O(shè)“同源等于功能相似”,通過將未知基因序列與公共數(shù)據(jù)庫中的已注釋基因進行比對,推測出未知基因的功能[19]。
RNA-Seq在解析轉(zhuǎn)錄本的結(jié)構(gòu)和生物學(xué)功能方面,如發(fā)現(xiàn)可變剪切、融合基因以及非編碼轉(zhuǎn)錄本等有重大的作用。由于測序產(chǎn)出的短reads數(shù)據(jù)數(shù)量十分巨大,要對這些數(shù)據(jù)進行分析十分困難,在基因組測序研究方面,隨著計算生物學(xué)的發(fā)展,生物信息學(xué)家針對基因組測序產(chǎn)出的短reads開發(fā)出了SOAP denovo、ABYSS等分析軟件,這些軟件可以對基因組測序短reads進行組裝。但是轉(zhuǎn)錄組測序的結(jié)果分析遠比基因組復(fù)雜,包括了轉(zhuǎn)錄本表達水平定量、可變剪切鑒定、鏈方向特異性測序等,因此基因組組裝算法不能夠直接用于轉(zhuǎn)錄組測序的數(shù)據(jù)分析。近年來,生物信息學(xué)家又開發(fā)了一些新的專門用于轉(zhuǎn)錄組組裝的軟件,這些軟件主要有基于參考基因組的組裝方法和de novo組裝方法。 關(guān)于有參考基因組的轉(zhuǎn)錄組組裝的軟件有Scripture、Cufflinks等,對于有完整參考基因組的轉(zhuǎn)錄組裝,其組裝一般包括三步:①Tophat等工具將短reads定位到基因組上②根據(jù)短reads在基因組位置上的重疊關(guān)系,將短reads連接形成cluster片段,進一步構(gòu)建出所有可能的剪接異構(gòu)體結(jié)構(gòu)圖。③用Scripture或Cufflinks鑒定可變剪接。 (2)de novo組裝方法:de novo組裝不依賴參考基因組,直接利用 reads 間的重疊信息進行組裝。常用的方法有兩種,一種是基于overlap的組裝,另一種用De Bruijn結(jié)構(gòu)圖進行組裝。而后者更適用于數(shù)據(jù)產(chǎn)量較大的真核轉(zhuǎn)錄組的組裝,組裝軟件有Trans ABy SS、Trinity等。由于目前大多數(shù)物種仍沒有參考基因組,因此de novo組裝方法也有著更廣泛的應(yīng)用范圍。這種方法也避免了一條reads比對到多個位置、內(nèi)含子過長等組裝難題。但這種方法的缺陷也是非常明顯的,對計算性能和測序深度都要求較高,也容易丟失低豐度的轉(zhuǎn)錄本[20]。
RNA-Seq技術(shù)可用于多方面的研究,主要包括:(1)基因表達水平研究,RNA-Seq技術(shù)是定量的,使得它可以很準(zhǔn)確地確定RNA的表達水平。從原則上來看,它甚至可以確定一個細胞群中的每一個分子的絕對數(shù)量,得到的實驗結(jié)果可以進行直接比較;(2)發(fā)現(xiàn)低豐度的全新轉(zhuǎn)錄本,RNA-Seq不像基于雜交的芯片等技術(shù)具有很大的不確定性,它不收背景噪音的干擾,具有更高的靈敏性,許多實驗證明RNA-Seq技術(shù)能比芯片技術(shù)檢測出更多的轉(zhuǎn)錄本;(3)轉(zhuǎn)錄本結(jié)構(gòu)研究,通過測序結(jié)果與基因組序列對比就可對可變剪接等作出判斷;另外還可以做轉(zhuǎn)錄本結(jié)構(gòu)變異研究、非編碼區(qū)域功能研究、基因表達水平研究、長鏈非編碼功能研究、轉(zhuǎn)錄本結(jié)構(gòu)研究等。
RNA-Seq技術(shù)在牛上應(yīng)用十分廣泛,Driver AM et al.[21]用RNA-Seq技術(shù)以體內(nèi)和體外培養(yǎng)的牛囊胚為試驗材料,探索了影響牛體外受精率的主要候選基因和信號通路,通過分別對體外26906451和體內(nèi)38184547條片段進行測序,發(fā)現(xiàn)有17634個基因發(fā)生表達,其中793個基因在兩種組織中有顯著的差異表達,并且發(fā)現(xiàn)了395個新的轉(zhuǎn)錄本,有4800個基因發(fā)生了可變剪接,有873個基因發(fā)生了不同的可變剪接。Wickramasinghe[22]對不同泌乳階段一泌乳15 d、90 d和250 d奶樣中體細胞利用RNA-Seq技術(shù)進行差異表達基因分析,結(jié)果顯示在泌乳15 d、90 d和250 d的體細胞中分別有16892、19094和18070個基因進行表達,其中有大約9000個基因是在整個泌乳期都進行表達的;Huang et al[23]利用Solexa sequencing 和生物信息學(xué)工具通過對荷斯坦奶牛的睪丸和卵巢組織的miRNA組織進行研究,分別在睪丸和卵巢組織中檢測到100和104個新的pre-miRNAs,他們各自編碼122、136個成熟的miRNAs,并且其中的6個miRNAs為牛所特有。有246個已知的miRNs在兩種組織中共同表達。賀花[19]通過分析秦川牛成年牛和胎牛肌肉組織的差異表達譜,發(fā)現(xiàn)成年牛中有5304個基因上調(diào)表達,10870個基因下調(diào)表達,其中有1893個基因表達量顯著上調(diào),4904個顯著下調(diào)。
Lan D L等[24]用RNA-Seq技術(shù)對牦牛卵巢組織進行高通量測序分析,得到一個包含 26826516條過濾后測序讀數(shù), 4828772880 bp 的卵巢測序文庫, 隨后將測序序列用SOAPaligner/SOAP2 軟件與基因組比對,結(jié)果發(fā)現(xiàn)有16992條基因發(fā)生表達,其中有3734條存在有不同類型的可變剪接。對轉(zhuǎn)錄組數(shù)據(jù)的進一步分析發(fā)現(xiàn)共有7340個基因的 5′或 3′端在原有基因組的位置基礎(chǔ)上發(fā)生了延伸,并且有6321個詞的轉(zhuǎn)錄本被發(fā)現(xiàn),與基因組序列比對定位發(fā)現(xiàn)外顯子數(shù)有1~84個,新發(fā)現(xiàn)的轉(zhuǎn)錄本中預(yù)測有2267個具有編碼蛋白的能力。另外Finucane KA et al.[25]利用Affymetrix芯片技術(shù)對干奶期和泌乳期牛乳腺組織進行了差異基因表達研究。在其他方面關(guān)于轉(zhuǎn)錄組測序的研究還包括一些對牛肝、腦垂體以及副結(jié)核病的研究。
孟憲然等[26]利用RNA-Seq技術(shù)對4個絨山羊背最長肌的轉(zhuǎn)錄組進行高通量測序,然后通過CLC Genmics Workbench6.0等軟件進行基因篩選,共找到263個候選基因,分別為123個高表達有利基因和140個高表達有害基因。然后進一步用GO功能注釋進行分析,結(jié)果顯示,高表達有利基因主要與骨骼肌的生長發(fā)育、細胞器的形成和蛋白結(jié)合功能有關(guān);高表達有害基因主要與脂質(zhì)代謝、細胞骨架以及結(jié)合功能有關(guān)。利用KEGG數(shù)據(jù)庫作為參考,發(fā)現(xiàn)這些基因主要參與的通路有糖酵解或糖異生、絲裂原活化蛋白激酶、凝血-補體級聯(lián)反應(yīng)和色氨酸代謝等。Dong等[27]通過對云南黑山羊的基因組和轉(zhuǎn)錄組分析獲得22175個編碼蛋白的基因,分析比較初級毛囊和次級毛囊的轉(zhuǎn)錄組獲得了51個差異表達基因,為進一步研究重要的經(jīng)濟性狀的候選基因奠定了基礎(chǔ)。Fan等[28]以蘇尼特羊的不同被毛顏色特征為研究點,分別從白皮和黑皮綿羊中得到90006和74533個組裝序列,并且發(fā)現(xiàn)編碼核糖體蛋白和角蛋白相關(guān)的蛋白質(zhì)的基因被最高度表達,總共有2235個已知基因在黑與白綿羊皮的差異表達,包括有479個上調(diào)基因和1756個下調(diào)基因等。Geng等[29]用RNA-Seq技術(shù)分析克什米爾細毛山羊毛囊生長期、生長中期、和靜止期三個發(fā)育階段分別生成的8487344、8142514和7345335條clean reads,共發(fā)現(xiàn)有1332個基因表達差異顯著。其中683個基因在囊生長期和生長中期表達差異顯著,530 個DEGs生長期和靜止期中被鑒定出來。在差異表達的基因中大多數(shù)與毛囊發(fā)育不同階段生物調(diào)節(jié)和代謝過程有關(guān)。
冉茂良等[30]運用Illumina Hiseq 2500 測序平臺對60胚齡、90胚齡、30日齡和180日齡4個發(fā)育時期的豬的睪丸組織進行轉(zhuǎn)錄組測序,獲得轉(zhuǎn)錄組數(shù)據(jù)后與豬基因組數(shù)據(jù)比對,對豬基因組的可變性剪接事件進行了鑒定和分析。結(jié)果從豬的基因組中鑒定出20398 個基因發(fā)生了92738 種不同的可變剪接。并且發(fā)現(xiàn)在不同的可變剪接類型中, 以第一個外顯子可變剪切(Alternative 5′first exon, TSS)、最后一個外顯子可變剪切(Alternative 3′ last exon, TTS)、單外顯子跳躍(Skipped exon, SKIP)和可變5′或3′端剪切(Alternative exon ends, AE) 4種類型為主。隨后進行GO功能富集分析,結(jié)果顯示發(fā)生可變剪接的基因主要富集于物質(zhì)合成、物質(zhì)結(jié)合及酶活性相關(guān)的GO項中,而各發(fā)育時期特異的可變剪接基因與發(fā)育時期的生理狀態(tài)密切相關(guān),60胚齡時主要與酶活性和組織形成相關(guān),30日齡時主要與抗環(huán)境應(yīng)激和離子通道活性相關(guān), 180日齡時則主要與循環(huán)系統(tǒng)相關(guān)。此外,在篩選出的與睪丸素代謝相關(guān)的基因64個中, 63 個基因發(fā)生可變剪接,且以TSS和TTS為主,表明這兩種可變剪接類型與睪丸素合成和分泌密切相關(guān)。通過對豬基因組可變剪接的分析,為深入研究可變剪接生物學(xué)功能及進一步開展分子育種工作提供理論依據(jù)。
莫德林等對不同時期瘦肉型長白豬和脂肪型藍塘豬的背最長肌進行RNA-Seq,通過對測序數(shù)據(jù)的分析發(fā)現(xiàn)不同的發(fā)育時期有595個基因表達差異顯著;Samborski et al.利用RNA-Seq技術(shù)對未懷孕和開始著床的豬的子宮內(nèi)膜進行對比分析,發(fā)現(xiàn)1993個差異表達基因[31]。
鐘邦勝[32]對榮昌豬和亞洲野豬轉(zhuǎn)錄組進行研究發(fā)現(xiàn),在脂肪組織中,兩個物種具有17084個共有的轉(zhuǎn)錄本,特有的分別有878和649個,具有差異轉(zhuǎn)錄本有1235個;同樣的,在肌肉組織中,榮昌豬和亞洲野豬共有的轉(zhuǎn)錄本有16187個,特有的轉(zhuǎn)錄本分別有718個和750個,差異轉(zhuǎn)錄本有361個。本研究的結(jié)果表明榮昌豬和亞洲野豬的轉(zhuǎn)錄本的總體差異,側(cè)面反映了家豬和野豬的差異。
轉(zhuǎn)錄組研究在雞上的報道相對較少。雞的采食量是營養(yǎng)上面的一個非常重要的指標(biāo),對于雞的產(chǎn)蛋量以及日增重有著很重要的影響。易國強[33]利用了RNA-Seq技術(shù)對雞剩余采食量性狀在轉(zhuǎn)錄組水平上進行了差異表達分析,發(fā)現(xiàn)了41個與剩余采食量有關(guān)的差異表達基因,發(fā)現(xiàn)這些基因主要涉及到消化吸收,代謝能力,氧化應(yīng)激和機體能量穩(wěn)態(tài)等過程。彌補了目前研究的不足。同時,究鑒定了253個基因間具有編碼功能的新轉(zhuǎn)錄本,有利于改善雞基因組中未注釋基因的結(jié)構(gòu)和功能,有助于優(yōu)化現(xiàn)有的基因模型。
不同的環(huán)境也會給動物的生長發(fā)育帶來不同的影響。施壽榮[34]通過選擇肉雞分為不同的兩組-對照組和低溫誘導(dǎo)組,RNA-Seq分析結(jié)果顯示兩組雞在21日齡時有287個基因表達差異顯著,包括90個上調(diào)基因和197個下調(diào)基因;35日齡有390個基因發(fā)生了差異表達,上調(diào)和下調(diào)基因分別有212和178個,主要參與了只代謝、細胞分化等信號通路。Hick[35]等通過高通量測序技術(shù)對11日齡的雞胚進行研究,發(fā)現(xiàn)了4個新的microRNA。
隨著高通量測序技術(shù)的發(fā)展,以基因組學(xué)為代表的生命科學(xué)得到了前所未有的繁榮和飛速發(fā)展。轉(zhuǎn)錄組學(xué)研究也有了很大的進展,RNA-Seq技術(shù)以其高通量、高靈敏度、數(shù)字化信號等優(yōu)點被廣泛運用到各個領(lǐng)域的研究中,RNA-Seq技術(shù)在動物轉(zhuǎn)錄組學(xué)方面的研究,已經(jīng)取得了豐碩的成果,發(fā)現(xiàn)了在基因組研究中沒有發(fā)現(xiàn)以及沒有解決的很多問題,尤其是在可變剪接以及發(fā)現(xiàn)低豐度的全新轉(zhuǎn)錄本方面具有十分強大的作用。RNA-Seq技術(shù)除了在家養(yǎng)動物中廣泛應(yīng)用外,也逐漸在其他物種中開始運用,這項技術(shù)對于遺傳背景相對薄弱的物種研究具有更大的意義。相對于一代測序技術(shù)有了很大的發(fā)展,但是任何技術(shù)都尤其自身的缺陷,RNA-Seq技術(shù)也存在一定的局限性:(1)測序成本太高;相對于傳統(tǒng)的Sanger測序法,二代測序成本大大下降,但是要進行大規(guī)模的測序所需要的費用依然很龐大;(2)測序結(jié)果中存在有有錯配等問題,使得開發(fā)出來的SNP、SSR和可變剪切的假陽性率較高,還有待進一步改進;(3)測序長度、時間等方面還有待進一步提升,讀長越長,拼接形成一個基因所需要的reads更少,因而錯誤率越低。而且讀長越長意味著一次測序可以測定更多的基因。另外,因RNA-Seq技術(shù)獲得的信息量十分巨大,對其進行分析十分重要,所以與其相關(guān)的計算機科學(xué)以及生物信息學(xué)也要為轉(zhuǎn)錄組數(shù)據(jù)分析提供強大的分析工具。綜上所述,雖然目前RNA-Seq技術(shù)還存在一些問題,但隨著科學(xué)技術(shù)的發(fā)展,相信它將會成為研究轉(zhuǎn)錄組學(xué)的重要工具,能夠發(fā)現(xiàn)更多、更可靠的新轉(zhuǎn)錄本。
參考文獻:
[1] 陶彥彬,蔣建雄,易自力,李駿智. 功能基因組學(xué)及其研究方法[J]. 生物技術(shù)通報,2007,05:61-64.
[2] Costa V, Angelini C, De F I, et al. Uncovering the complexity of transcriptomes with RNA-Seq. J Biomed Biotechnol, 2010 (2010): 853916.
[3] Fodor S P A ,Read J L , Pirrun GM C. Light directed, spatially addressable parallel chemical synthesis[J]. Sience, 1991, 251: 767-773.
[4] 熊偉. 基因芯片技術(shù)在生命科學(xué)研究中的應(yīng)用進展及前景分析[J]. 生命科學(xué)儀器,2010,02:32-36.
[5] Adams M D, Kelley J M, Gocayne J D, et al. Comple-mentary DNA sequencing: expressed sequence tags andhuman genome project [J]. Science, 1991, 252 (5013):1651-1656.
[6] Boguski M S. The turning point in genome research [J].Trends Biochem Sci, 1995, 20(8): 250-296.
[7] 吳春穎,宋經(jīng)元,陳士林. 表達序列標(biāo)簽在藥用植物研究中的應(yīng)用[J]. 中草藥,2008,05:778-782.
[8] 王曉娜,盧欣石. 表達序列標(biāo)簽的應(yīng)用現(xiàn)狀及分析方法研究[J]. 草業(yè)科學(xué),2010,05:76-84.
[9] 吳春穎,宋經(jīng)元,陳士林. 表達序列標(biāo)簽在藥用植物研究中的應(yīng)用[J]. 中草藥,2008,05:778-782.
[10] Collins F S, Patrinos A, Jordan E, et al. New goals for theU. S. human genome project: 1998-2003 [J]. Science,1998, 282(5389): 682-690.
[11] Hattori M, Tsukahara F, Furuhata Y, et al. Anovel methodfor making nested deletions and its application for sequencingof a 300 kb region of human APP locus [J]. Nucleic AcidsRes, 1997, 25(9): 1802-1808.
[12] 吳瓊,孫超,陳士林,羅紅梅,李瀅,孫永珍,牛云云. 轉(zhuǎn)錄組學(xué)在藥用植物研究中的應(yīng)用[J]. 世界科學(xué)技術(shù)(中醫(yī)藥現(xiàn)代化),2010,03:457-462.
[13] VelculescuVE,ZhangL,VogelsteinB,etal.serialanalysisofgeneexpression[J].Science,1995,270:484~487.
[14] 李江域,陳勝,王小磊,趙東升,王玉民. RNA-Seq本地分析平臺的構(gòu)建[J]. 生物技術(shù)通訊,2015,02:211-214.
[15] 祁云霞,劉永斌,榮威恒. 轉(zhuǎn)錄組研究新技術(shù):RNA-Seq及其應(yīng)用[J]. 遺傳,2011,11:1191-1202.
[16] Wang E T, Sandberg R, Luo Shujun, et al. Alternative iso?form regulation in human tissue transcriptomes[J]. Nature,2008,456(27):470-476.
[17] Trapnell C, Roberts A, Goff L, et al. Differential gene andtranscript expression analysis of RNA- Seq experiments withTop Hat and Cufflinks[J]. Nat Protocols, 2012,7(3):562-578.
[18] van Verk M C, Hickman R, Pieterse C M J, et al. RNA-Seq: revelation of the messengers[J]. Curr Opin Chem Biol,2013,17:4-11.
[19] 賀花. 秦川牛肌肉生長發(fā)育相關(guān)基因和蛋白質(zhì)的篩選及其初步鑒定[D].西北農(nóng)林科技大學(xué),2014.
[20] 凡文磊. 利用RNA-seq技術(shù)挖掘雞腸炎沙門氏菌抗性相關(guān)功能基因[D].中國農(nóng)業(yè)科學(xué)院,2015.
[21] Driver AM, Penagaricano F, Huang W et al. RNA-Seq analysis uncovers transcriptomic variations between morphologically similar in vivo-and in vitro-derived bovine blastocysts. BMC Genomics. 2012.13:118.
[22] Wickramasinghe S,RinconG, Islas-Trejo A et al.Transcriptionalprofiling of bovine milk using RNA sequencing.BMC Genomics.2012.13:45.
[23] Huang J, Ju Z,Li Q et al.Solexa sequencing of novel and sifferentially expressed microRNAs in testicular and ovarian tissues in Holstein cattle.Int J Biol Sci.2011.7(7):1016-26.
[24] Lan D L, Xiong X R, Wei Y L, et al. RNA-Seq analysis of yak ovary: improving yak gene structure information and mining reproduction-related genes. Sci China Life Sci, 2014, 57, in press.
[25] Finucane KA,McFadden TB,Bond JP et al. Onset of lactation in the mammary gland: gene expression profiling indicates a strong inhibition of gene expression in cell proliferation. Funct Integer Genomics.2008.8(3):251-64.
[26] 孟憲然,杜琛,王靜,付紹印,鄭竹清,張文廣,李金泉. 基于RNA-Seq識別山羊肉品質(zhì)候選基因[J]. 畜牧獸醫(yī)學(xué)報,2015,08:1300-1307.
[27] Dong J, Xie M, Jiang Y, et al. Sequencing and automa-ted whole-genome optical mapping of the enome of adomestic goat (Capra hircus) [J]. Nature Biotech-nology,2013,31(2):135-141.
[28] Fan R, Xie J, Bai J, et al. Skin transcriptom profiles associated with coat color in sheep[J]. BMC Genom-ics, 2013,14(1):389.
[29] Geng R,Yuan C, Chen Y. Exploring differentially ex-pressed genes by RNA-Seq in cashmere goat (Capra hircus) skin during hair follicle development and cycling[J]. PLoS One,2013,8(4):e62704.
[30] 冉茂良,陳斌,李智,董蓮花,賀長青,柳小春. 基于RNA-seq測序數(shù)據(jù)鑒定和分析豬基因組可變剪接事件[J]. 中國科學(xué):生命科學(xué),2016,03:274-284.
[31] 崔曉鋼. 基于RNA-seq與small RNA-seq進行奶牛產(chǎn)奶性狀功能基因挖掘及生物信息學(xué)預(yù)測牛新miRNA[D].中國農(nóng)業(yè)大學(xué),2015.
[32] 鐘邦勝. 野豬和家豬脂肪和肌肉組織的比較轉(zhuǎn)錄組研究[D].四川農(nóng)業(yè)大學(xué),2015.
[33] 易國強. 利用二代測序挖掘雞拷貝數(shù)變異及影響飼料效率的候選基因[D].中國農(nóng)業(yè)大學(xué),2015.
[34] 施壽榮. 肉雞腹水綜合征的代謝組學(xué)和轉(zhuǎn)錄組學(xué)研究[D].中國農(nóng)業(yè)大學(xué),2014.
[35] Hicks J A,Tembhurne P,Liu H C.MicroRNA expression in chicken embryos[J].Poult Sci,2008,87(11):2335-2343.