陳鳳珍,李 玲, 操利超, 嚴(yán)志祥
( 深圳華大基因研究院, 深圳 518083)
?
四種常用的生物序列比對軟件比較
陳鳳珍,李玲, 操利超, 嚴(yán)志祥*
( 深圳華大基因研究院, 深圳 518083)
摘要:隨著高通量測序技術(shù)的快速發(fā)展,下一代測序技術(shù)也迅速發(fā)展為生物領(lǐng)域中的主流技術(shù),而理解下一代測序數(shù)據(jù)最重要的一步是比對。比對是進(jìn)行后續(xù)生物信息分析的基石,也因此催生了很多比對軟件。本文主要選取了四種常用的比對軟件Bowtie2、BWA、MAQ和SOAP2,對這四種軟件及算法進(jìn)行綜述,并通過實際測序數(shù)據(jù)對四種軟件進(jìn)行比較和評估,為生物學(xué)研究者選擇最佳的短序列比對軟件提供理論和實踐依據(jù)。
關(guān)鍵詞:下一代高通量測序; 比對軟件; 生物信息
1引言
隨著新一代測序(Next-generation sequencing,NGS)的蓬勃發(fā)展,核酸測序成本已大大降低,高通量測序方法已被廣泛應(yīng)用到DNA測序[1]、RNA測序[2]、表觀遺傳測序[3-4]等研究。然而,無論使用何種生物測序技術(shù)和研究方法,理解這些數(shù)據(jù)的最重要的一步是序列比對分析。序列比對是將已有基因組序列作為參考基因序列(Reference),將短序列與參考基因序列進(jìn)行序列比對, 并在參考基因序列上進(jìn)行精確定位。通過序列比對可以發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化的信息。目前已有上百種序列比對工具,面對如此多的比對工具,很多生物信息分析人員通常自由的選擇比對工具,而沒有考慮到比對工具的特點(diǎn),準(zhǔn)確性等。然而,不同的比對軟件,對同一個數(shù)據(jù)集都有可能得出大相徑庭的結(jié)果[5];同一算法設(shè)置不同的參數(shù),其結(jié)果也相差很巨大。如果選擇了一個不合適的工具,將導(dǎo)致結(jié)果偏差甚至是錯誤,可能得到錯誤的研究結(jié)論。因而選擇合適的比對工具,對于生物研究而言顯得特別重要。
在Nuno A. Fonseca等人[6]的對60多種比對軟件比較統(tǒng)計分析中,發(fā)現(xiàn)Bowtie2[7]、BWA[8]、MAQ[9]和SOAP2[10]被引用的次數(shù)相對其他幾十種軟件較多,其中Bowtie2引用率(Citations/Years)為363.42,BWA為224.20,MAQ為251.66,而SOAP2為99.38,SOAP2的前版本SOAP為104.41。因而在本研究中,主要選取了這四種常見的比對工具進(jìn)行評估比較。根據(jù)比較結(jié)果分析,Bowtie2、BWA和SOAP2處理高通量短序列數(shù)據(jù)比對問題時,計算速度快,內(nèi)存使用量低,具有高效的實用性;在同等條件下,MAQ的運(yùn)行速度較慢。 Bowtie2、BWA的比對率相比于SOAP2和MAQ高。BWA軟件與Bowtie2軟件比對的重復(fù)率較高,MAQ較低。
2四種比對軟件及算法
2.1四種比對軟件介紹
Bowtie2是一個超高速的,節(jié)約內(nèi)存且靈活與成熟的短序列比對軟件,比較適合下一代測序技術(shù)。通常使用全文分索引(FM-index)以及Burrows-Wheeler 變換(BWT)索引基因組使得比對非??焖偾覂?nèi)存高效,但是這種方法不適合于找到較長的、帶缺口的序列比對。
BWA主要應(yīng)用二代測序后的大量短小片段與參考基因組之間的定位比對。需要先對參考序列建建立索引,BWA也是基于 BWT和 FM-Index 理論來對參考基因組做索引。根據(jù)測序方法的不同,有單末端序列(Single-end,SE)比對和雙末端序列(Pair-end,PE)比對。
MAQ是使用質(zhì)量分?jǐn)?shù)推導(dǎo)序列和比對序列的一致性的短序列比對工具,并且MAQ充分利用配對信息,估計每個比對read的錯誤的概率,同時也使用貝葉斯統(tǒng)計模型來評估最后的基因型錯誤概率。
SOAP2是短寡核苷酸比對程序(Short Oligonucleotide Alignment Program)的一個顯著改進(jìn)版本,它減少了計算機(jī)內(nèi)存使用,并極大地提高了比對速度。SOAP2使用一個Burrows Wheeler Transformation(BWT)壓縮索引替代種子策略在主存儲器中索引參考序列。SOAP2適合于單末端片段和雙末端片段。此外,該工具也支持多種文本和壓縮文件格式。
2.2四種比對軟件算法
對于成千上萬條的短序列的比對分析,目前,大多數(shù)算法是通過建立索引來加快比對的速度。常用的數(shù)據(jù)結(jié)構(gòu)有哈希表法和基于BWT (Burrows-wheeler transform) 的后綴樹兩種。
哈希表法的算法核心思想是采用種子序列定位及延伸算法(Seed-and-extend algorithm)[11],通過掃描參考基因組序列,對參考基因組序列建立哈希表,將序列分成一定長度的小片段,這種小片段也被稱之為種子。然后,在目標(biāo)序列中查找和種子序列相同的片段并標(biāo)記,以這些標(biāo)記點(diǎn)為錨點(diǎn)向左右按一定規(guī)律延伸比對,將不合條件的舍棄,符合條件的結(jié)果將輸出保存。采用基于哈希表數(shù)據(jù)結(jié)構(gòu)的比對算法的軟件包括MAQ。
羅樓組以泥巖為主,兼有火山碎屑巖,可分下段和上段。下段主要由泥巖組成。底部夾少量泥質(zhì)灰?guī)r,下部夾有一層厚約1 m的玻屑凝灰?guī)r,中、上部夾凝灰質(zhì)泥巖,泥巖呈灰-深灰色,薄層狀,主要由水云母(95%~98%)組成,含少量石英(1%~5%)和微量鐵質(zhì)和有機(jī)質(zhì);下部泥巖時見生物潛穴遺跡。
后綴樹法是一種n叉樹,n為字母表大小。每個節(jié)點(diǎn)表示從根節(jié)點(diǎn)到此節(jié)點(diǎn)所經(jīng)過的所有字符組成的字符串,它的根結(jié)點(diǎn)不包含任何信息,是一種以犧牲存儲空間來降低序列查詢時間的字符串預(yù)處理方式。為了提高空間利用率,F(xiàn)erragina 和Manzini 提出了FM (Full-text minute-space)-index 算法,F(xiàn)M是一種基于BWT (Burrows-wheeler transform)的全文本壓縮索引結(jié)構(gòu), BWT算法是通過統(tǒng)計基因組序列中各個堿基出現(xiàn)次數(shù),將相同堿基盡量排列在一起,壓縮基因組序列的索引數(shù)據(jù)結(jié)構(gòu),將基因組序列的索引數(shù)據(jù)結(jié)構(gòu)重排列,實現(xiàn)短序列在基因組中候選位點(diǎn)的快速搜索,減少內(nèi)存占用率。例如人類基因組約3GB,若不使用FM-index將要用12GB內(nèi)存存儲,超過了計算機(jī)內(nèi)存使用限度,而如果使用FM-index, 每隔數(shù)行建立一個索引,人類基因組占用的內(nèi)存可縮小到約1.3GB,這樣普通的計算機(jī)就可以進(jìn)行分析。采用BWT轉(zhuǎn)換的軟件有Bowtie2和SOAP2,BWA。
雖然Bowtie2、SOAP2和BWA都采用了BWT算法,然而三種軟件還有差別。其中Bowtie2采用Ferragina 和Manzini 提出的FM (Full-text minute-space)-index算法,為基因組序列創(chuàng)建具有后綴矩陣特性的 FM 索引數(shù)據(jù)結(jié)構(gòu),實現(xiàn)短序列的快速搜索;SOAP2則采用的是 BWT 算法壓縮基因組序列哈希表索引數(shù)據(jù)結(jié)構(gòu)進(jìn)行精確匹配,采用“分割短序列策略”(Split-read strategy)進(jìn)行不精確匹配,比對速度顯著提高且內(nèi)存使用量顯著地降低。最后,BWA 軟件是采用 BWT 算法壓縮來構(gòu)建基因組序列前綴樹(Prefix tree)數(shù)據(jù)結(jié)構(gòu),通過對壓縮數(shù)據(jù)結(jié)構(gòu)自頂向下遍歷進(jìn)行反向搜索,其比對計算過程中內(nèi)存覆蓋區(qū)域相對較小,計算時間并不隨基因組的大小而變化。
基于哈希表法和基于BWT的后綴數(shù)法數(shù)據(jù)結(jié)構(gòu)的算法都有利于提高比對效率,區(qū)別在于哈希表法占用的內(nèi)存空間大,產(chǎn)生的種子匹配多,然而哈希表法具有較高的匹配敏感性和準(zhǔn)確性。有利于發(fā)現(xiàn)SNPs和突變??捎糜诰植科ヅ浠驈拇罅繑?shù)據(jù)中搜索匹配點(diǎn)以及跨物種序列間的比對。而后綴樹法可以有效減少不精確匹配,并可避免比對過程中做無用功,這個特點(diǎn)適用于相同物種之間相似性高的序列比對和尋找保守區(qū)。
2.3四種比對軟件比較
選擇合適的軟件要根據(jù)軟件適用的數(shù)據(jù)類型,適宜測序平臺,數(shù)據(jù)格式,適宜的reads長度等進(jìn)行全面考慮,做出選擇。表1中對四種比對軟件分析的序列類型,可用于分析的測序平臺,輸入和輸出數(shù)據(jù)格式,最小和最大reads長度及軟件是否開源進(jìn)行了詳細(xì)的分析和比較。從表中可以看出在適宜測序平臺方面,SOAP2就受到限制,只適用于Illumina平臺,BWA適用的平臺最廣。在適宜的reads長度方面,BWA、MAQ適用的范圍較窄。最后,根據(jù)軟件的輸入輸出格式,MAQ的適用范圍更廣。
表1 四種比對軟件比較
3軟件評估實驗
3.1實驗數(shù)據(jù)
3.2軟件運(yùn)行環(huán)境
32G內(nèi)存,16核處理器,linux操作系統(tǒng)服務(wù)器。
3.3結(jié)果評估
四種軟件的比對率和時間消耗如表3。從表3可以看出BWA和Bowtie2的比對率較高,而SOAP2的時間更高效,MAQ相對來說較慢。
表2 實驗數(shù)據(jù)
表3 四種比對軟件比對率和比對時間
從四種軟件比對的reads重復(fù)數(shù)兩兩比較可以看出,Bowtie2和BWA比對上的reads重復(fù)數(shù)較高,Maq和其他三種軟件比對上的reads重復(fù)數(shù)較低,如圖1。將四種軟件同時比較時,發(fā)現(xiàn)BWA比對軟件和其他三種軟件不重復(fù)的reads數(shù)最少,只有62 134條,Bowtie2和其他三種軟件不重復(fù)的reads數(shù)最多,為466 792條,如圖2。
從實驗結(jié)果看出Bowtie2和BWA的比對率相比于SOAP2和MAQ高。BWA軟件與Bowtie2軟件比對的重復(fù)率較高,MAQ較低,可能與選取的實驗數(shù)據(jù)相關(guān),本實驗選取的是高覆蓋度的HPV全基因組測序數(shù)據(jù),BWA比對工具比較適合全基因組測序數(shù)據(jù)的比對分析。
4討論
通過比較和實驗研究發(fā)現(xiàn),Bowtie2、BWA、MAQ和SOAP2四種軟件在處理高通量短序列數(shù)據(jù)比對問題時,計算速度較快,內(nèi)存使用量較低,具有高效的實用性。 但是,這四種常用的分析軟件都只對短序列分析較為適合,然而,第三代測序技術(shù)正在快速的發(fā)展,必將成為未來的主流技術(shù)。第三代測序技術(shù)相比于第二代測序技術(shù)特點(diǎn)之一是讀長長。因而開發(fā)高準(zhǔn)確性的適合第三代測序數(shù)據(jù)的長序列比對工具是未來研究的主題。
對于比對分析一個常見的問題是,哪一個分析工具是本研究最適合的。一個最好最適合的比對工具不光要考慮數(shù)據(jù)的類型,一個重要的方面包含比對工具是否和比對下游的分析和分析工具結(jié)合緊密,更包含比對的工具的速度和準(zhǔn)確性。但是目前,評估一個比對工具的準(zhǔn)確性和速度仍然很難,主要的困難是缺乏不同測序技術(shù)和研究方法的金標(biāo)準(zhǔn)數(shù)據(jù)集,因為不同的比對軟件,不同的數(shù)據(jù)集,數(shù)據(jù)類型,數(shù)據(jù)大小等都有可能導(dǎo)致比對準(zhǔn)確度和時間偏差。因而創(chuàng)建適合的金標(biāo)準(zhǔn)數(shù)據(jù)集對于比對工具的評估和研究特別重要。
圖1 四種比對軟件比對上的讀長兩兩比較Fig. 1 The multiple compration of mapped reads using the selected software
圖2 四種軟件比對上的讀長比較Fig. 2 The compration of mapped reads using the selected software
5結(jié)論
對二代測序的四種常用比對軟件的算法進(jìn)行了總結(jié),并對四種軟件的適用性和性能等方面進(jìn)行了對比,同時利用實際的基因組數(shù)據(jù)進(jìn)行測試分析,歸納總結(jié),給出軟件選擇的參考建議,為研究人員選擇適合的比對分析工具提供參考。
參考文獻(xiàn)
[1]MARDIS E R. Next-generation DNA sequencing methods[J]. Annual Review of Genomics and Human Genetics,2008, 9: 387-402.
[2]WANG ZHONG, GERSTEIN M, SNYDER M. RNA-Seq: a revolutionary tool for transcriptomics[J]. Nature Reviews Genetics, 2009, 10:57-63.
[3]PARK P J. ChIP-seq: advantages and challenges of a maturing technology[J]. Nature Reviews Genetics,2009, 10(10): 669-680.
[4]MEISSNER A, MIKKELSEN T S, GU H, et al. Genome-scale DNA methylation maps of pluripotent and differentiated cells[J]. Nature,2008, 454(7205):766-770.
[5]NEKRUTENKO A, TAYLOR J. Next-generation sequencing data interpretation: enhancing reproducibility and accessibility[J]. Nature Reviews Genetics, 2012, 13(9):667-672.
[6]FONSECA N A, RUNG J, BRAZMA A, et al. Tools for mapping high-throughput sequencing data[J]. Bioinformatics,2012, 28(24):3169-3177.
[7]LANGMEAD B, SALZBERG S L. Fast gapped-read alignment with Bowtie 2[J]. Nature Methods,2012, 9(4):357-359.
[8]LI HENG, DURBIN R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics,2009, 25(14):1754-1760.
[9]LI HENG, RUAN JUE, DURBIN R. Mapping short DNA sequencing reads and calling variants using mapping quality scores[J]. Genome Research,2008, 18(11):1851-1858.
[10]LI Ruiqiang, YU Chang, LI Yingrui, et al. SOAP2: an improved ultrafast tool for short read alignment[J]. Bioinformatics,2009, 25(15):1966-1967.
[11]LI Heng, HOMER N. A survey of sequence alignment algorithms for next-generation sequencing[J]. Briefings in Bioinformatics,2010, 11(5):473-483.
Comparison of four common biological sequence alignment tools
CHEN Fengzhen, LI Ling, CAO Lichao,YAN Zhixiang*
(BGI-Shenzhen,Shenzhen518083,China)
Abstract:With the rapid development of high-throughput sequencing technology,Next-generation sequencing technology has rapidly developed into a mainstream technology in the biological field. Alignment is the key step in understanding the sequence data and also it is the cornerstone for bioinformatics analysis. And thus gave birth to a lot of alignment tools. In this paper, four common biological sequence alignment tools Bowtie2, BWA, MAQ and SOAP2 were selected to evaluate and compare using the whole genome sequencing data of HPV. And a comparison of four tools from many perspectives such as algorithm and suitable sequencing platforms was given. Hopefully the research can provide theoretical and practical basis for researchers to select the best biological sequence alignment tools.
Keywords:Next generation sequencing; Alignment tools; Bioinformatics
中圖分類號:Q-31
文獻(xiàn)標(biāo)志碼:A
文章編號:1672-5565(2016)01-056-05
doi:10.3969/j.issn.1672-5565.2016.01.10
作者簡介:陳鳳珍,女,生物信息工程師;E-mail:chenfengzhen@genomics.cn.*通信作者:嚴(yán)志祥,男,博士,生物信息高級工程師;E-mail:yanzhixiang@genomics.cn.
基金項目:國家自然科學(xué)基金資助項目(U1301252)。
收稿日期:2016-01-19;修回日期:2016-03-08.