闞東揚(yáng)
(昭通學(xué)院農(nóng)學(xué)與生命科學(xué)學(xué)院 云南 昭通 657000)
眾所周知,遺傳信息是通過信使RNA(mRNA),經(jīng)過精細(xì)調(diào)節(jié)的過程從DNA傳遞到蛋白質(zhì)的。由中心法則我們可以知道RNA是作為一個(gè)“橋”連接著遺傳信息由DNA傳遞到蛋白質(zhì)中,而每個(gè)基因以及其相應(yīng)的表達(dá)量水平被稱為轉(zhuǎn)錄組[1]。從廣義上來(lái)說(shuō)轉(zhuǎn)錄組包括mRNA,rRNA,tRNA,以及非編碼RNA。狹義上來(lái)說(shuō)它僅指所一個(gè)樣本中收集到的所有mRNA[2],因此轉(zhuǎn)錄組測(cè)序也被稱為RNA-seq。
隨著對(duì)基因組研究的深入,研究者對(duì)能夠進(jìn)行各種轉(zhuǎn)錄基因分析的工具的需求,更加迫切。特別是能夠進(jìn)行差異基因鑒別和表達(dá)量分析的工具。因此隨著新一代測(cè)序技術(shù)的成熟,RNA-seq被廣泛應(yīng)用于各種RNA功能研究中,通過不同的分離試劑可以在制備cDNA文庫(kù)前得到所需要的各種類型RNA(mRNA,rRNA,tRNA,小分子RNA)。
目前RNA-seq已經(jīng)作為一種主流的研究轉(zhuǎn)錄組的測(cè)序技術(shù),其相比較于其他幾種技術(shù)具有顯著的優(yōu)勢(shì)。
通過建立泊松分布模型捕獲差異表達(dá)基因,發(fā)現(xiàn)相較于其他幾種測(cè)序技術(shù)(分子雜交,生物芯片,堿基測(cè)序,這些方法基本都基于桑格爾測(cè)序法),有0.5%的基因可以觀察到明顯的差異,背離分布。并且通過這個(gè)模型,比基因組芯片鑒定出的基因更多,高達(dá)30%[3](Marioni et al.,2008)(Marioni,J.C,2008)。特別是對(duì)具有親緣關(guān)系的相近物種進(jìn)行檢測(cè)基因表達(dá)量分析和差異基因鑒別時(shí),相比其他方法具有高度靈敏性和更高的信息深度[4]。而這些基于堿基雜交的方法其固有的缺陷:1花費(fèi)昂貴,2 high-resolution tiling arrays(高分辨率芯片)需要查詢大量的基因組,此外這些方法還有其他限制:1需要大量已知的片段序列,2高背景水平(由于交叉雜交的特點(diǎn)),3有限的檢測(cè)范圍(由于信號(hào)的濃度和溶解度)并且對(duì)表達(dá)水平的檢測(cè),一個(gè)實(shí)驗(yàn)往往很難辦到,而且常常是普通實(shí)驗(yàn)復(fù)雜化[5]。RNA-seq的三個(gè)優(yōu)勢(shì):1:無(wú)需現(xiàn)有基因的支持,可以測(cè)序非模式種,2與DNA芯片相比低背景,高敏感性,樣品只需少量,無(wú)序列數(shù)量上限,精度高[6]。
RNA-seq相比芯片技術(shù)在測(cè)序范圍內(nèi)高出了五個(gè)數(shù)量級(jí),高豐度情況下,RNA-seq相比芯片能檢測(cè)出大約40%的差異基因表達(dá)的。事實(shí)上,RNA-seq相比芯片技術(shù)的最大優(yōu)勢(shì)是在外顯子邊界范圍的預(yù)測(cè)[7]。采用RNA-seq可以較為準(zhǔn)確的測(cè)量基因表達(dá)水平[8]轉(zhuǎn)錄子的表達(dá)水平是與它的讀段是成比例的,相應(yīng)的讀段數(shù)目乘以轉(zhuǎn)錄子的長(zhǎng)度,即可作為一個(gè)直觀的量化表達(dá)量的水平的依據(jù)[9]。RNA-seq的另一個(gè)巨大優(yōu)勢(shì)體現(xiàn)在時(shí)效性和廉價(jià)性上,特別是在大規(guī)模測(cè)序應(yīng)用中,可以以低廉的花費(fèi)在較短的時(shí)間內(nèi)獲得樣品基因組的數(shù)據(jù)。
表1 RNA-seq的特點(diǎn)
RNA-seq是以 Illumina 公司的 Solexa 技術(shù)為代表的新一代測(cè)序技術(shù),又稱作深度測(cè)序技術(shù)。由于其具有的測(cè)序通量高、測(cè)序時(shí)間和成本顯著下降特點(diǎn),使其被廣泛應(yīng)用于各種RNA片段測(cè)序研究中,因此被稱為RNA-seq 或 RNA 測(cè)序。
以Illumina公司的Solexa技術(shù)為例,其測(cè)序原理為:邊合成邊測(cè)序[10],其測(cè)序過程是在獲得的RNA單鏈反轉(zhuǎn)錄為DNA 單鏈后,以單鏈cDNA為模板,在生成互補(bǔ)鏈時(shí),利用帶熒光標(biāo)記的 dNTP 發(fā)出不同顏色的熒光來(lái)確定不同的堿基.新加入 dNTP 的末端被可逆的保護(hù)基團(tuán)封閉,既保證單次反應(yīng)只能加入一個(gè)堿基,又能在該堿基讀取完畢后,將保護(hù)基團(tuán)除去,繼續(xù)下一個(gè)反應(yīng)。
RNA-seq主要包含兩個(gè)流程:1 cDNA文庫(kù)的構(gòu)建,2 測(cè)序得到的讀段(read)處理。以Illumina技術(shù)為例,典型的構(gòu)建mRNA文庫(kù)主要分為(1)抽提總RNA并片段化,(2)使用共軛磁珠(oligo-dT)從總RNA中捕獲polyA+,獲得mRNA(RNA片段相對(duì)于DNA片段的優(yōu)勢(shì)在于減少RNA二級(jí)結(jié)構(gòu)[11]庫(kù),(3)反轉(zhuǎn)錄mRNA獲得cDNA片段,(4)為cDNA裝配測(cè)序接頭,(5)清理文庫(kù)并擴(kuò)增文庫(kù)片段。如圖1所示:
圖1 cDNA文庫(kù)構(gòu)建流程
完成cDNA文庫(kù)的構(gòu)建后,即可上機(jī)測(cè)序,獲得讀段(reads),將獲得的讀段進(jìn)行比較,基于讀段之間的重疊區(qū)域進(jìn)行拼接,構(gòu)建重疊群。對(duì)這些拼接后獲得的序列(contigs)進(jìn)行相鄰序列界定(往往還需要構(gòu)建454 Paired-end庫(kù)或Illumina Mate-pair庫(kù),以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列?;谶@些序列,可以確定這些Contigs之間的順序關(guān)系),進(jìn)一步拼接。這些確定前后順序的contigs拼接后的片段稱為Scaffold。隨后就可以將獲得的Scaffold拼接并構(gòu)建樣品基因組。如圖2所示:
圖2 讀段后續(xù)處理
幾乎所有的RNA-seq研究都可以分為三類:1.差異基因表達(dá)研究,比較在不同條件下,每個(gè)基因的差異表達(dá)。2.差異轉(zhuǎn)錄本/外顯子使用研究,比較在不同條件下基因同工型豐度譜的組成。3.差異轉(zhuǎn)錄表達(dá)研究,重點(diǎn)在研究單個(gè)轉(zhuǎn)錄本是否顯示不同條件之間的差異表達(dá)[12]。
整個(gè)轉(zhuǎn)錄組分析的主要目標(biāo)是鑒定,表征和分類在特定細(xì)胞/組織(特定階段)表達(dá)的所有轉(zhuǎn)錄本,它具有確定正確剪接模式和基因結(jié)構(gòu)的潛力,并量化兩種轉(zhuǎn)錄本的差異表達(dá) 生理和病理狀況。同樣的,具有同工型編碼不同蛋白的基因可能是作用于不同細(xì)胞或者生命活動(dòng)周期,而檢測(cè)不同的promoter和拼接位點(diǎn)可以探明轉(zhuǎn)錄組的調(diào)節(jié)行為和規(guī)律[13],了解這些差異對(duì)于我們理解或者解決生物的多種重大疾病有極大的幫助。
(1)RNA-seq得到的數(shù)十億對(duì)堿基數(shù)據(jù)對(duì)于高效構(gòu)建轉(zhuǎn)錄圖譜是一個(gè)巨大的挑戰(zhàn)。大量“未充分利用”的信息的滯存,由于新信息的產(chǎn)生,使得這些滯存的信息在幾個(gè)月內(nèi)變得無(wú)用[14]而由于轉(zhuǎn)錄子結(jié)構(gòu)的不連續(xù)性,對(duì)于精準(zhǔn)拼接龐大的RNA-seq數(shù)據(jù)庫(kù)是很困難的[15],但現(xiàn)有的算法有其固有的缺陷對(duì)于拼接或者表達(dá)水平有誤差(如:RPKM(一種RNA-seq的讀段測(cè)量方法)——所固有的問題:掩蓋了總mRNA含量的差異。如果總mRNA含量也發(fā)生變化,則一個(gè)基因的RPKM可能會(huì)“上調(diào)”,并且絕對(duì)表達(dá)水平會(huì)降低[16]因此對(duì)新的計(jì)算策略和專業(yè)知識(shí)進(jìn)行同等開發(fā)就迫在眉睫,以處理當(dāng)前一代新測(cè)序儀器創(chuàng)建的數(shù)據(jù)量,最大程度地發(fā)揮其潛在效益。(2)數(shù)據(jù)管理:沒有適當(dāng)?shù)男畔⒓夹g(shù)(IT)基礎(chǔ)架構(gòu),下游計(jì)算分析將變得困難;每次測(cè)序運(yùn)行產(chǎn)生的數(shù)兆字節(jié)的數(shù)據(jù)需要顯著的存儲(chǔ)和備份容量,大大增加了,這也迫切需要專業(yè)的生物信息技術(shù)學(xué)者開發(fā)新的算法;(3)關(guān)于原始數(shù)據(jù)生成所使用的協(xié)議:每個(gè)平臺(tái)在樣品制備以及原始數(shù)據(jù)的類型和數(shù)量上都有其獨(dú)特性,因此使用它們時(shí),每個(gè)均需要相應(yīng)的實(shí)驗(yàn)室專業(yè)知識(shí)和數(shù)據(jù)處理管道,這很大程度上阻礙了研究人員的實(shí)驗(yàn)進(jìn)度。(4)無(wú)論使用哪種軟件,最重要的問題是了解其局限性和假設(shè)。測(cè)序采用輸入/輸出數(shù)據(jù)標(biāo)準(zhǔn)對(duì)于有效處理數(shù)據(jù)管理問題也至關(guān)重要。(5)仔細(xì)的實(shí)驗(yàn)設(shè)計(jì)的未得到充分考慮。
近年來(lái)對(duì)于單細(xì)胞RNA-seq的應(yīng)用不斷深入,將RNA-seq應(yīng)用于單細(xì)胞轉(zhuǎn)錄組中,以研究細(xì)胞在不同分化階段上的轉(zhuǎn)錄組差異,構(gòu)建細(xì)胞的時(shí)間軸上的分化差異,從而構(gòu)建細(xì)胞的分化時(shí)間軸,進(jìn)而挖掘重要的功能基因[18]。這對(duì)于研究生物系統(tǒng)發(fā)育極具吸引力,新的研究成果不斷涌現(xiàn),未來(lái)RNA-seq也將更進(jìn)一步的應(yīng)用于非模式種的單細(xì)胞轉(zhuǎn)錄組測(cè)序中。