侯莉 王亞?wèn)|
摘要: 新一代測(cè)序技術(shù)的發(fā)展給DNA及RNA序列的分析帶來(lái)了機(jī)遇和挑戰(zhàn),新一代測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù)不同于傳統(tǒng)測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù),高通量、低成本、信息量巨大的特點(diǎn)使得RNA序列的分析進(jìn)入了一個(gè)全新的時(shí)代,以往的外顯子芯片無(wú)法得到全基因組的完整信息,也無(wú)法觀測(cè)到基因融合的問(wèn)題,新一代測(cè)序技術(shù)使得對(duì)RNA序列的分析有了更深入的了解。文中簡(jiǎn)單介紹了DNA序列方法,以及當(dāng)前主要的RNA序列比對(duì)工具的基本原理,分析了各種方法的優(yōu)缺點(diǎn)。
關(guān)鍵詞:
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2012)05-0001-04
引言
1977年,Sanger測(cè)序法?眼1?演的誕生是DNA測(cè)序技術(shù)的一個(gè)里程碑性質(zhì)的大事件。在其后的三十多年中,幾乎所有的測(cè)序技術(shù)都只是Sanger測(cè)序法的改進(jìn),而后研究人員又將Sanger測(cè)序法的研發(fā)推進(jìn)到了自動(dòng)化的層面,從而大大提高了DNA序列的測(cè)定速度。在2004年,454、SOLiD,Illumina等測(cè)序技術(shù)的興起,給序列的測(cè)定帶來(lái)了飛躍式的變化,但隨著形態(tài)的多樣化和應(yīng)用的復(fù)雜化,由于Sanger測(cè)序法的某些缺陷,使得測(cè)序的通量和技術(shù)已經(jīng)遲滯于該領(lǐng)域的發(fā)展需求,而相對(duì)于Sanger測(cè)序法的新一代測(cè)序技術(shù)因其具有的高通量,低能耗的優(yōu)點(diǎn),使得新一代測(cè)序技術(shù)代替Sanger測(cè)序法,而獲得廣泛的使用已成為勢(shì)所必然。而由于新一代測(cè)序技術(shù)的產(chǎn)生,RNA序列的研究也隨之發(fā)生了重大的改變。在此之前,RNA序列的測(cè)定主要是通過(guò)外顯子芯片技術(shù)。外顯子芯片可以用來(lái)測(cè)定RNA的序列信息,也可以用來(lái)分析外顯子表達(dá)量,同時(shí)也能發(fā)現(xiàn)外顯子的可變剪接等信息,但是外顯子組芯片的制作卻需要豐富的先驗(yàn)知識(shí),并且與新一代測(cè)序技術(shù)相比,外顯子組芯片的花費(fèi)是巨大的,同時(shí)只能測(cè)定小范圍內(nèi)的序列,不能對(duì)整個(gè)基因組實(shí)施全方位的分析。隨著新一代測(cè)序技術(shù)的發(fā)展,兩種技術(shù)之間的差異也會(huì)越來(lái)越大。目前,對(duì)于RNA序列的大部分研究已經(jīng)轉(zhuǎn)向了新一代測(cè)序技術(shù)產(chǎn)生的序列數(shù)據(jù),但即便如此,外顯子組芯片也依然在其中發(fā)揮著獨(dú)特的重要作用。新一代測(cè)序技術(shù)的產(chǎn)生給RNA序列的分析技術(shù)也帶來(lái)了重大的改變。新一代測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù)序列短、覆蓋度高,但數(shù)據(jù)量大,這給傳統(tǒng)的RNA序列分析工具設(shè)置了難題,因而應(yīng)運(yùn)而生地出現(xiàn)了多種基于新一代測(cè)序技術(shù)的RNA序列分析工具。相對(duì)于傳統(tǒng)Sanger測(cè)序法,新一代測(cè)序數(shù)據(jù)產(chǎn)生的序列較短,通常稱(chēng)為短序列(reads),但是新一代測(cè)序數(shù)據(jù)產(chǎn)生的數(shù)據(jù)量卻要遠(yuǎn)遠(yuǎn)大于Sanger測(cè)序法。必須正視這一問(wèn)題的積極解決,才能確保新一代測(cè)序技術(shù)的先進(jìn)性和有效性得以充分的發(fā)揮。
1 DNA序列比對(duì)工具現(xiàn)狀
對(duì)于當(dāng)前的RNA序列比對(duì)工具的研究,首先就要研究DNA序列比對(duì)工具,因?yàn)楫?dāng)前的RNA序列比對(duì)工具都是以DNA序列比對(duì)工具為基礎(chǔ)發(fā)展得來(lái)的。
新一代測(cè)序技術(shù)產(chǎn)生后,曾經(jīng)應(yīng)用于外顯子芯片技術(shù)的RNA序列分析方法已經(jīng)不再適用,但是這些方法卻可留下許多有益的啟發(fā)。新一代測(cè)序技術(shù)的產(chǎn)生,給序列比對(duì)也帶來(lái)了很大的挑戰(zhàn),人們都致力于研發(fā)更為有效的DNA序列比對(duì)軟件。眾所周知,只有找到新的、性能更佳的DNA序列比對(duì)方法,才能使高通量數(shù)據(jù)問(wèn)題獲得理想的解決。而RNA序列比對(duì)工具就是根據(jù)DNA序列比對(duì)軟件工具,在其基礎(chǔ)之上并根據(jù)RNA的不同性質(zhì)和各種分析需求,構(gòu)造可用于RNA序列的分析工具和分析策略。
基于新一代測(cè)序技術(shù)設(shè)計(jì)了很多DNA序列比對(duì)工具。
由于建立索引的不同,目前DNA序列比對(duì)工具主要分為兩類(lèi),一類(lèi)是用Hash表來(lái)構(gòu)建索引,另一類(lèi)是用BWT(Burrows-Wheeler Transform)來(lái)建立索引結(jié)構(gòu),該索引結(jié)構(gòu)由于占用空間小、搜索速度快等優(yōu)點(diǎn)正被廣泛地關(guān)注和使用?眼2?演。
在高通量的序列比對(duì)中,索引是一個(gè)非常有效的機(jī)制。通過(guò)構(gòu)建索引可以提高檢索速度,從而提高了整體比對(duì)速度?;贖ash表的索引構(gòu)建可以分為兩種。
一種是將參考序列(reference sequence)構(gòu)建成Hash表索引,建立索引時(shí)根據(jù)所需的短序列特性,例如長(zhǎng)度等信息,將原始的參考序列分成連續(xù)重疊的短序列,根據(jù)不同的Hash算法將這些短序列存儲(chǔ)起來(lái),然后將實(shí)驗(yàn)得到的短序列與參考序列生成的Hash表進(jìn)行比較,從而確定短序列的比對(duì)位置。基于Hash表的全部索引結(jié)構(gòu)比對(duì)工具都可以比對(duì)有插入刪除的序列,但是時(shí)間和空間的開(kāi)銷(xiāo)卻很可觀。
另一種是將短序列(reads)數(shù)據(jù)構(gòu)建成Hash表索引,這種序列比對(duì)工具卻較少。
還有的軟件兩種方式都采用以提高比對(duì)速度?;贖ash表的索引軟件主要有Blast、Eland、MAQ、Bfast等。其中,Blast是出現(xiàn)最早的基于Hash表的索引軟件,目前有很多學(xué)者正致力于減少基于Hash表的索引比對(duì)算法所需花費(fèi)的時(shí)間和占用的空間。
基于BWT索引結(jié)構(gòu)的DNA序列比對(duì)軟件在目前的學(xué)術(shù)界較為流行。BWT變化方式比較復(fù)雜,在這里就不多做介紹了,但需要知道的是,該方式占用空間小,比對(duì)速度快?;贐WT索引結(jié)構(gòu)的DNA序列比對(duì)軟件也自然會(huì)有其無(wú)法忽視的弱點(diǎn),即在處理插入刪除上顯然沒(méi)有基于Hash表的DNA比對(duì)軟件有效。當(dāng)基于BWT索引結(jié)構(gòu)的DNA序列比對(duì)每增加一個(gè)插入刪除位點(diǎn),就會(huì)大大增加比對(duì)負(fù)擔(dān),并且截至目前為止,也沒(méi)有找到這個(gè)問(wèn)題的合理解決方式。但是在不允許插入刪除的比對(duì)中,人們還是更為傾向于選擇基于BWT索引結(jié)構(gòu)的DNA序列比對(duì)軟件。基于BWT索引結(jié)構(gòu)的DNA序列比對(duì)軟件中,最具有代表性的是Bowtie和BWA。其中,Bowtie不接受插入刪除,只處理失配位點(diǎn),所以速度更快一些;而B(niǎo)WA卻可允許少量的插入刪除,速度相對(duì)來(lái)說(shuō)就會(huì)慢一些,這主要是由處理插入刪除時(shí)消耗較多資源而引起的。
2 RNA序列比對(duì)工具分析
對(duì)于RNA序列的研究并不能完全等同于DNA序列,主要是由于RNA序列是由不連續(xù)的片段組合而成,這種不連續(xù)的片段就叫做外顯子(exon)。RNA序列雖然是以D-
NA序列為模板轉(zhuǎn)錄而來(lái),但是與DNA序列又有很大的不同,因?yàn)椴皇撬械腄NA序列都會(huì)出現(xiàn)在成熟的RNA中,并且最后翻譯成蛋白質(zhì),也只有外顯子才能獲得這種表達(dá)。RNA序列的轉(zhuǎn)錄及翻譯過(guò)程如圖1所示。初始轉(zhuǎn)錄成的RNA會(huì)經(jīng)過(guò)一系列的生物活動(dòng),剪接掉內(nèi)含子,保留外顯子,并將外顯子連接在一起,同時(shí)在5端加上一個(gè)帽子,3端加上一個(gè)多聚腺苷的尾巴,最后還要經(jīng)過(guò)一系列的修飾,才能轉(zhuǎn)運(yùn)到細(xì)胞核外,翻譯成蛋白質(zhì)??上攵?,將RNA序列直接比對(duì)到DNA參考基因組上,將會(huì)產(chǎn)生很大的問(wèn)題,所以需要設(shè)計(jì)適用于RNA的序列比對(duì)策略。
在DNA序列比對(duì)軟件基礎(chǔ)上,根據(jù)不同的需求,產(chǎn)生了很多RNA序列分析工具。其中,以TopHat?眼3?演的應(yīng)用最為廣泛,TopHat是建立在Bowtie發(fā)展之上的,速度快,占用空間小,但是同樣也具有不允許插入刪除的缺陷。TopHat首先利用Bowtie將所有的短序列比對(duì)到參考基因組上,然后將比對(duì)上的短序列連接成外顯子區(qū)域,再將外顯子區(qū)域外延幾個(gè)bp的長(zhǎng)度,并參考已知的外顯子剪接組合,試用外顯子區(qū)域上的不同組合,將Bowtie在第一輪沒(méi)有獲得比對(duì)成功的短序列繼續(xù)比對(duì)至組合而成的參考序列上,如果確有短序列實(shí)現(xiàn)了這種有效比對(duì),就認(rèn)定這種組合是正確的。
由于Bowtie是基于BWT索引的DNA比對(duì)工具中最早研發(fā)成功的,所以后續(xù)研究開(kāi)展得較為充分,配套工具又很豐富,知名度也相對(duì)較高,所以使用選擇者也就較多。同樣,TopHat的開(kāi)發(fā)時(shí)間也是目前較為有效的幾種RNA序列分析工具中位居首位的,因而也成為當(dāng)前流傳甚廣的分析工具。即使后面推出了更多的RNA序列分析工具,研究學(xué)者們也依然重點(diǎn)關(guān)注Bowtie和TopHat。TopHat的開(kāi)發(fā)帶動(dòng)了RNA序列比對(duì)軟件在新一代測(cè)序技術(shù)上的策略改變,由原來(lái)的主要依靠分析來(lái)解決RNA的比對(duì),轉(zhuǎn)變?yōu)橐揽啃蛄斜旧淼男畔?lái)解決RNA序列的比對(duì)。在前文提到了RNA在轉(zhuǎn)錄后需要經(jīng)過(guò)修飾,在很大程度上與原始的DNA序列已經(jīng)有所不同,又由于TopHat不能處理插入刪除,可想而知在RNA序列比對(duì)上,TopHat還是存在著一些問(wèn)題。而且在一定限度上,TopHat還需要依靠RNA序列的先驗(yàn)知識(shí),所以在尋找未發(fā)現(xiàn)的外顯子上面,效果不是很好。
在TopHat之后,相繼又產(chǎn)生了其他的RNA序列比對(duì)工具,例如MapSplice?眼4?演、SpliceMap?眼5?演等,這些工具也是建立在DNA比對(duì)工具基礎(chǔ)之上,構(gòu)造出的適用于mRNA的序列比對(duì)軟件。這些軟件中,MapSplice是利用Bowtie來(lái)進(jìn)行短序列比對(duì),但是MapSplice的比對(duì)策略卻與TopHat存在著不同。首先,MapSplice將實(shí)驗(yàn)測(cè)得的短序列分成連續(xù)不重疊
的小片段,將小片段比對(duì)到參考基因組上,再利用小片段之間的聯(lián)系,找出外顯子所在位置;然后,利用統(tǒng)計(jì)學(xué)特性最終確定外顯子位置以及外顯子邊緣。SpliceMap則主要是應(yīng)用Eland。首先,SpliceMap將短序列分成重疊的50bp長(zhǎng)的
小片段,將小片段的兩端25bp長(zhǎng)的序列比對(duì)到參考基因組上,而后根據(jù)兩端序列比對(duì)情況再分析外顯子區(qū)域,SpliceMap在時(shí)間和空間上與TopHat和MapSplice都要偏長(zhǎng)、偏大,并且準(zhǔn)確性還較低。另外,也還有很多其他的比對(duì)工具,但應(yīng)用卻較少,諸如SplitSeek?眼6?演,ABMapper?眼7?演等。
此外,還有一些RNA序列分析策略,雖然沒(méi)有產(chǎn)生新的算法來(lái)解決新一代測(cè)序技術(shù)之下的RNA序列比對(duì)的問(wèn)題,但是通過(guò)組合現(xiàn)有的DNA序列比對(duì)方法,產(chǎn)生了一個(gè)有效的RNA序列比對(duì)流程,使得RNA序列的比對(duì)結(jié)果更為精確。例如RUM?眼8?演和RNA-MATE?眼9?演。RUM不但包括序列比對(duì)流程,同時(shí)還包括一個(gè)RNA序列模擬生成器。RUM首先利用Bowtie將序列比對(duì)到參考基因組和轉(zhuǎn)錄組上,將剩余沒(méi)有得到比對(duì)的序列運(yùn)用BLAT再次進(jìn)行比對(duì)。但是RUM卻需要依靠現(xiàn)有的轉(zhuǎn)錄庫(kù)來(lái)分析序列,在RNA序列分析上表現(xiàn)了很大的局限性,如不能發(fā)現(xiàn)新的外顯子以及可變剪接組合信息,在新功能的發(fā)現(xiàn)上應(yīng)用空間也不大。RNA-MATE允許使用任何比對(duì)軟件。首先將所有的短序列比對(duì)到參考基因組上,再將剩余的序列分割成較短的序列,進(jìn)行比對(duì),如此循環(huán)反復(fù),直至達(dá)到一個(gè)設(shè)定的限度停止。
還有一類(lèi)mRNA的分析策略是,首先,將測(cè)序得到的所有短序列(reads)利用新一代測(cè)序技術(shù)的組裝工具拼裝到一起,形成長(zhǎng)的contigs,再利用簡(jiǎn)單的DNA序列比對(duì)工具,就可以將RNA序列比對(duì)到參考基因組上,而不是只能應(yīng)用基于新一代測(cè)序技術(shù)的DNA序列比對(duì)工具,才可以解決RNA序列中的比對(duì)不連續(xù)問(wèn)題。照此舉例即如Trans-ABySS?眼10?演。
RNA的種類(lèi)繁多,其生物學(xué)特性也為數(shù)眾多,所以基于不同性質(zhì)的各類(lèi)分析工具也一定會(huì)有很多。目前研究更多地集中在基因融合方面,代表性的有shortfuse、FusionMap和TophatFusion等。這些研究都是利用pair-end序列數(shù)據(jù)相對(duì)位置的改變以分析得出基因位置的相對(duì)變化,因而發(fā)現(xiàn)癌細(xì)胞中的基因融合現(xiàn)象。在小RNA的序列比對(duì)方面還有MicroRazerS等,小RNA由于序列較短,比對(duì)將更加困難。
綜上所述,對(duì)現(xiàn)有的基于新一代測(cè)序數(shù)據(jù)的RNA序列比對(duì)算法做以總結(jié),結(jié)果如表1所示。
3 RNA序列分析工具分析
除了RNA序列比對(duì)軟件外,還有一些比較著名的RNA序列分析軟件,例如:Cufflinks?眼11?演和Scripture?眼12?演。這兩種工具都是首先利用TopHat進(jìn)行RNA序列比對(duì),然后通過(guò)各自的分析策略,來(lái)推斷isoform的工具。通過(guò)將RNA的可變剪接清楚地呈現(xiàn)在人們面前,使得mRNA序列分析在整體上具備了完備性。這也是TopHat之所以受到歡迎的另一個(gè)原因。
首先,Cufflinks可使用任何版本的TopHat,將所有的pair-end序列數(shù)據(jù)比對(duì)到參考基因組上,然后利用組裝算法,將互有交疊的pair-end序列組裝到一起,同時(shí)依據(jù)pair-end序列的交疊信息發(fā)現(xiàn)不同的組裝路徑。而后,再根據(jù)每個(gè)位置上的序列覆蓋度,運(yùn)用統(tǒng)計(jì)學(xué)的方法分析出每種isoform的比例。對(duì)全基因組中的每個(gè)可變位置都計(jì)算該比例,最后分析得出整體的isoform分布。
Scripture和Cufflink都是利用TopHat將pair-end序列比對(duì)到參考基因組上,根據(jù)pair-end序列數(shù)據(jù)的相對(duì)位置信息,將可能的外顯子組合尋找出來(lái)。兩者不同的是,Cufflink以pair-end序列為節(jié)點(diǎn)構(gòu)造出連通圖,而Scripture則是以每個(gè)堿基為節(jié)點(diǎn)構(gòu)造連通圖。Scripture首先列舉出參考序列上的堿基,在參考序列上相鄰的堿基之間有一條邊,在比對(duì)序列上相鄰的堿基之間也有一條邊,最后形成連通圖。Scripture同時(shí)利用這樣的方法在統(tǒng)計(jì)學(xué)上排除了錯(cuò)誤剪接位點(diǎn),重新確定了外顯子邊界,從而根據(jù)序列的覆蓋信息來(lái)確定isoform的組份。
Cufflinks和Scripture的分析結(jié)果都可以利用基因組瀏覽器進(jìn)行觀看,更直觀地反映轉(zhuǎn)錄組信息。除了Cufflinks和Scripture之外,又新近涌現(xiàn)了一些RNA序列分析工具,例如:FDM?眼13?演。
4 結(jié)束語(yǔ)
RNA序列的分子在遺傳上具有重要的應(yīng)用,在疾病的發(fā)現(xiàn)和治療上也表現(xiàn)出了非同尋常的意義。RNA生物學(xué)性質(zhì)的多種多樣又給RNA序列的比對(duì)分析帶來(lái)了巨大的困難,目前的RNA序列比對(duì)軟件依然無(wú)法滿足已有需求,因而在RNA序列的研究和分析上,依然任重而道遠(yuǎn)。