基于堿基間隔距離模型的多瘤病毒系統(tǒng)發(fā)育關(guān)系分析

2014-05-04 06:37:12周立前李瑞溫在義

湖南工業(yè)大學(xué)學(xué)報(bào) 2014年3期

關(guān)鍵詞：歐氏堿基間隔

周立前，李瑞，溫在義

（1.湖南工業(yè)大學(xué)計(jì)算機(jī)與通信學(xué)院，湖南株洲412007；2.湖南工業(yè)大學(xué)理學(xué)院，湖南株洲412007）

基于堿基間隔距離模型的多瘤病毒系統(tǒng)發(fā)育關(guān)系分析

周立前1，李瑞1，溫在義2

（1.湖南工業(yè)大學(xué)計(jì)算機(jī)與通信學(xué)院，湖南株洲412007；2.湖南工業(yè)大學(xué)理學(xué)院，湖南株洲412007）

DNA序列的堿基間隔距離分析方法可以對完全基因組序列進(jìn)行較好地分析，但是對短基因序列分析的效果不佳。因此，在堿基間隔距離的基礎(chǔ)上，提出了一種改進(jìn)的DNA序列堿基間隔距離模型，并結(jié)合歐式距離，構(gòu)建了70種多瘤病毒基因組的系統(tǒng)發(fā)育樹。通過將所得系統(tǒng)發(fā)育樹的拓?fù)浣Y(jié)構(gòu)與已有文獻(xiàn)中的結(jié)果進(jìn)行對比與分析，發(fā)現(xiàn)所獲得的結(jié)果同傳統(tǒng)方法計(jì)算的結(jié)果基本一致，驗(yàn)證了所提方法的有效性。

完全基因組；堿基間隔距離；歐氏距離；系統(tǒng)發(fā)育樹

1 研究背景

基因組系統(tǒng)發(fā)育分析是生物信息學(xué)中基因組數(shù)據(jù)處理的一個重要方面。通過對基因組系統(tǒng)發(fā)育的分析，可以得出物種之間的親緣關(guān)系與進(jìn)化歷程。系統(tǒng)發(fā)育分析方法很多，一般根據(jù)對堿基序列轉(zhuǎn)換為數(shù)值序列方式的不同而將其分為序列比對方法和非序列比對方法。傳統(tǒng)的序列比對方法主要有：基因序列重排方法[1]、編碼蛋白的出現(xiàn)與不出現(xiàn)方法[2]、基因組分與完全相似性方法[3]，折疊的出現(xiàn)與直系同源基因方法[4]等。但是隨著完全基因組數(shù)據(jù)的使用，這些序列比對方法對于大批量數(shù)據(jù)的比對不再適用[5-6]，其空間和時間復(fù)雜度一直沒能達(dá)到令人滿意的效果。因此，生物信息學(xué)專家們致力于非序列比對方面的研究，提出許多作為補(bǔ)充系統(tǒng)發(fā)育樹構(gòu)建方法的新方法，如信息論方法[7-8]、主成分分析方法[9]、奇異值分解方法[5-6]、馬爾科夫模型方法[10-11]、分型方法[12-15]、動力學(xué)語言方法[16-17]等。

2005年，印度學(xué)者A.S. S. Nair等人基于序列中堿基的位置分布情況，提出了一種新的DNA序列數(shù)值化表示方法。該方法將DNA序列轉(zhuǎn)換成一個與原序列等長的數(shù)字序列，數(shù)字序列中，每個數(shù)字表示兩個相同的相鄰堿基的位置差，這種位置差稱為堿基間隔距離，因此，數(shù)值序列也稱為堿基間隔距離序列[18]。同時，他們通過傅里葉變換對堿基間隔序列進(jìn)行了分析，得到了堿基間隔距離序列能很好地識別基因組序列中啟動子區(qū)域的結(jié)論。然而，M. Akhtar等人于2008年證實(shí)，采用堿基間隔距離序列分析序列外顯子時，其精確度并不高[19]。2009年，葡萄牙學(xué)者V. Afreixo等人對堿基間隔距離序列提出了一種新的分析方法，他們認(rèn)為堿基間隔服從幾何分布，通過計(jì)算幾何分布的理論值與實(shí)際值的相對誤差向量，可以獲取DNA序列的生物信息，并且構(gòu)建系統(tǒng)發(fā)育樹[20]。這種方法沒有采用多重比對算法，可以方便地進(jìn)行全基因組計(jì)算。2011年，V. Afreixo等人又提出了以連續(xù)核苷酸距離描述DNA序列的方法[21]，即通過計(jì)算連續(xù)核苷酸的長度，構(gòu)建出一個與原序列等長的數(shù)字序列，然后結(jié)合堿基間隔距離序列，對DNA序列進(jìn)行數(shù)值化分析。但試驗(yàn)證實(shí)，V. Afreixo等提出的方法[20-21]只適用于對較長全基因組序列進(jìn)行分析計(jì)算，而對于短基因組序列，如病毒序列等，則無法正確表示。

多瘤病毒（polyomavirus）是一種無包膜的雙鏈DNA病毒，這類病毒會引發(fā)腫瘤，其中有些種類會感染人的呼吸系統(tǒng)，它們廣泛地分布在脊椎動物中。多瘤病毒的系統(tǒng)發(fā)育分析是了解、分析多瘤病毒間的親緣與進(jìn)化關(guān)系的一種重要方式。通過對多瘤病毒親緣關(guān)系的了解，不僅有助于多瘤病毒引發(fā)疾病的治療，而且對疫苗藥物的研制也有著重要的指導(dǎo)作用；同時，對于新的未知病毒性疾病的分析也有著重要的參考價(jià)值[22]。

本文通過對堿基間隔距離的進(jìn)一步分析研究，提出了一種改進(jìn)的堿基間隔距離分析方法。即通過統(tǒng)計(jì)相鄰的同堿基間其余3種堿基的分布，以更好地描述基因組序列，該法可包含更多DNA序列的生物信息。同時，使用此方法并結(jié)合歐式距離方法，構(gòu)建了70種多瘤病毒完全基因組的系統(tǒng)發(fā)育樹，通過對比所獲結(jié)果與已知系統(tǒng)發(fā)育關(guān)系判斷所提方法的有效性，以期通過這種新方法的嘗試為分析和處理分類與進(jìn)化問題提供一種新工具。

2 數(shù)據(jù)與方法

2.1 基因組數(shù)據(jù)集

M. Pé rez-Losada等人[22]用極大似然法與貝葉斯方法分析了72種多瘤病毒的進(jìn)化關(guān)系，這些病毒包括9類哺乳動物病毒（共67種鏈）和2類鳥類病毒（共5種鏈）。因其中有2種病毒（NC_001536和K02737）現(xiàn)無法從GenBank中找到，所以本文主要分析余下的70種多瘤病毒基因組的系統(tǒng)發(fā)育關(guān)系，基因組的數(shù)據(jù)集與文獻(xiàn)[22]一致，數(shù)據(jù)來源于NCBI（National Center of Biotechnology Information）數(shù)據(jù)庫（http:// www.ncbi.nlm.nih.gov/nuccore），其具體名稱見圖1。

2.2方法

2.2.1 DNA序列的間隔數(shù)值表示

DNA序列的堿基間隔距離由DNA序列中鄰近相同堿基的位置差構(gòu)成。設(shè)由A, C, G, T堿基組成的集合為R, S=S1, S2, …, SN是長度為N的一條DNA序列。設(shè)dx是堿基x（x∈R）的間隔距離序列，若k是滿足條件Sm=Sm+k和m+k≤N的最小值，則dx(m)=k；否則dx(m)=N-m（m為堿基x所在DNA序列中的位置，N為DNA序列長度）。例如，對于一條短DNA序列ACACGTCTTGATACG：

式中，dA, dC, dG, dT分別表示堿基A, C，G, T的間隔序列。由DNA序列可知，第1個堿基A的位置為1，第2個堿基A的位置為3，第3個堿基A的位置為11，第4個堿基A的位置為13。所以在dA序列中，第1個間隔值為2，第2個間隔值為8，第3個間隔值為2，最后一個間隔值為位置與序列長度之差，為2。同樣，可以計(jì)算得到其余3個堿基（C,G,T）的堿基間隔序列。如果將4種堿基的間隔距離序列按每個堿基的具體位置組合到一起，可以得到與原序列對應(yīng)等長度的堿基間隔距離序列d：

根據(jù)堿基集合R的順序依次恢復(fù)，每組堿基間隔序列依次按照間隔距離恢復(fù)，最后一個距離作為驗(yàn)證，具體過程如下：

以上結(jié)果表明，采用堿基間隔距離表示DNA序列的數(shù)值方法，沒有丟失DNA字符序列的生物信息，可以用作DNA序列的計(jì)算。

2.2.2 DNA序列的堿基間隔距離模型

V. Afreixo等人[20]研究了堿基間隔序列的幾何分布特征，認(rèn)為堿基間隔距離符合幾何分布中的n重伯努利實(shí)驗(yàn)?zāi)Ｐ?，堿基是獨(dú)立同分布的隨機(jī)變量。通過計(jì)算不同間隔距離K的理論值與實(shí)際觀測值的相對誤差，構(gòu)建一組1～Kmax長度的序列，用于描述DNA序列特性。該方法對于堿基平均間隔距離大于20的DNA序列，可以較好地進(jìn)行描述，但當(dāng)DNA序列的堿基平均間隔距離小于10時（如細(xì)小病毒全基因序列），由于包含的信息較少，不能很好地描述。

通過對DNA序列的間隔數(shù)值表示研究，統(tǒng)計(jì)間隔距離間其余3種堿基的分布，可以更好地描述序列的生物學(xué)特性，特別是對于長度相對較短的基因序列?；谙嗤瑝A基間其余3種堿基的分布，此處提出一種新的堿基間隔序列模型。對于不同間隔長度K，其間3種堿基存在N=3K-1種可能的組合，將每一種組合數(shù)值化，定義R集合中A,C,G,T堿基對應(yīng)的值分別為{1, 2, 3, 4}，則每一種分布模式的各堿基數(shù)值之和為，因此，各分布的觀察頻率可以定義為：

上式表明，觀察頻率p是一種分布模式的值占所有分布模式值的比例。由于DNA序列編碼區(qū)由多段序列組成，此處用m表示每個完全基因組中編碼序列的個數(shù)。因此，整個DNA編碼區(qū)序列K距離的觀察頻率定義為：

依次計(jì)算堿基的間隔距離序列如dA中不同長度距離K（K＞2）的組合向量，并按順序拼接起來，得到組合向量。將4個堿基對應(yīng)的組合向量QX按字母順序依次排列，即可得到新的描述模型向量，即。

2.2.3 歐氏距離

歐氏距離是系統(tǒng)發(fā)育分析中的常用距離。設(shè)兩個基因組A和B的所得向量分別為

則兩個向量的歐氏距離定義為：

結(jié)合堿基間隔距離序列模型與歐氏距離計(jì)算方法，分別計(jì)算完全基因組DNA序列與編碼DNA序列物種間的距離，可獲得距離矩陣，然后運(yùn)用Splits Tree V4.0中的NJ（neighbor-joining）方法[23]構(gòu)建系統(tǒng)發(fā)育樹。

3 結(jié)果與討論

結(jié)合堿基間隔距離模型與歐氏距離，計(jì)算了70種多瘤病毒完全的編碼DNA序列。70種多瘤病毒編碼DNA序列的平均長度為5 000 bp，平均堿基間隔距離為3.9，具體的堿基分布情況如表1所示。

表170 種多瘤病毒的編碼DNA序列平均堿基間隔距離出現(xiàn)的頻率分布Table 1Frequency distribution of the inter-nucleotide distances of 70 polyomavirus coding DNA sequences

由于多瘤病毒序列的長度較短，堿基間隔距離大于10出現(xiàn)的頻率均小于1%，故不再統(tǒng)計(jì)，僅計(jì)算堿基間隔距離模型K取值為2～9的所有系統(tǒng)發(fā)育樹。通過將所得系統(tǒng)發(fā)育樹與文獻(xiàn)[22]中的樹進(jìn)行對比，發(fā)現(xiàn)當(dāng)最大距離K=7時的樹是最好的，其拓?fù)浣Y(jié)構(gòu)與文獻(xiàn)[22]中的樹基本相同，如圖1所示。

圖1 基于堿基間隔距離模型結(jié)合歐氏距離方法構(gòu)建的70種多瘤病毒系統(tǒng)發(fā)育樹Fig.1The phylogenetic tree of 70 polyomavirus based on the inter-nucleotide distance model combining with Euclidean distance method

由圖1所示的系統(tǒng)發(fā)育樹可見，本實(shí)驗(yàn)的70種多瘤病毒大體可分為兩類：哺乳類和鳥類多瘤病毒。4種鳥類多瘤病毒（avian polyv，APV）鏈聚集在一個分枝，鵝出血性多瘤病毒（goose hemorrhagic polyoma virus，GHPV）靠近這個分枝，而APV和GHPV與其它的哺乳動物多瘤病毒是分開的。換言之，所得樹中鳥類多瘤病毒（包括APV與GHPV）與哺乳動物多瘤病毒分離的現(xiàn)象，支持文獻(xiàn)[22]中多瘤病毒類分為兩個子類的觀點(diǎn)。這種分離與每個生物群體的不同濾過性病毒生命策略有關(guān)。在哺乳動物多瘤病毒類，老鼠多瘤病毒（mouse parvovirus，MPV）、猿猴病毒 40（simian virus 40，SV40）、BK 病毒（BK virus，BKV）、JC 病毒（JC virus，JCV）分別聚集在所期望的不同分枝上。牛乳頭病毒（bovine polyoma virus，BPV）、倉鼠多瘤病毒（hamster papovavirus，HaPV）、鼠科親肺多瘤病毒（murine pncumotropic，MPtV）和非洲綠猴多瘤病毒（African Green monkey polyomavirus，LPV）4種多瘤病毒相鄰，其結(jié)構(gòu)與文獻(xiàn)[22]和文獻(xiàn)[17]中的有些不一致，說明這4種病毒的親緣關(guān)系不太確定，但又有相近的親緣關(guān)系。BKV鏈聚成一個分枝，此分枝與 SA12組合形成一個有親緣關(guān)系的大分枝；同時，這個大分枝與JCV分枝組合在一起，形成一個有親緣關(guān)系的更大分枝：這也與文獻(xiàn)[22]和文獻(xiàn)[17]中的結(jié)果一致。

從以上分析可以看出，所得結(jié)果基本上能反映多瘤病毒和它們的宿主之間存在一些系統(tǒng)發(fā)育的共同關(guān)系。

4 結(jié)語

在本研究中，運(yùn)用基于堿基間隔距離模型的方法，并結(jié)合歐氏距離方法對多瘤病毒序列進(jìn)行建模處理，構(gòu)建并分析了70種多瘤病毒的系統(tǒng)發(fā)育樹，通過與已有文獻(xiàn)結(jié)果對比，可知所得樹的拓?fù)浣Y(jié)構(gòu)與當(dāng)前已知的用傳統(tǒng)方法計(jì)算的樹的結(jié)構(gòu)基本一致，從而進(jìn)一步驗(yàn)證了以前方法的可靠性。

對70種多瘤病毒進(jìn)行系統(tǒng)發(fā)育關(guān)系分析，既可以根據(jù)多瘤病毒的特點(diǎn)預(yù)測出一些新的多瘤病毒，也能夠更全面地學(xué)習(xí)多瘤病毒的進(jìn)化關(guān)系。所構(gòu)建的方法通過構(gòu)建簡單的數(shù)學(xué)模型實(shí)現(xiàn)，與V. Afreixo等人[20]所提出的堿基間隔距離模型方法相比，本文所提方法可以處理長度較短的生物序列，能較好地建立短堿基序列的數(shù)學(xué)模型；與傳統(tǒng)的序列比對方法相比，其思路更簡單直接，速度更快。且所提方法不需要復(fù)雜的去噪步驟，結(jié)果顯示，堿基間隔距離模型方法能實(shí)現(xiàn)這種功能。

可見，通過這種新方法的嘗試，能提供一個分析和處理分類與進(jìn)化問題的新工具。

[1]Sankoff D, Leaduc G, Antoine N, et al. Gene Order Comparisons for Phylogenetic Inference：Evolution of the Mitochondrial Genome[J]. Proceedings of the National Academy of Sciences，1992，89(14)：6575-6579.

[2]Gibbon S T F, House C H. Whole Genome-Based Phylogenetic Analysis of Free-Living Microorganisms[J]. Nucleic Acids Research，1999，27(21)：4218-4222.

[3]Tekaia F，Lazcano A，Dujon B. The Genome Tree as Revealed from Whole Proteome Comparisons[J]. Genome Research，1999，9(6)：550-557.

[4]Lin J, Gerstein M. Whole Genome Tree Based on the Occurrence of Folds and Orthologs：Implications for Comparing Genomes at Different Levels[J]. Genome Research，2000，10(6)： 808-818.

[5]Stuart G W, Moffet K, Baker S. Integrated Gene Species Phylogenies from Unaligned Whole Genome Protein Sequences[J]. Bioinformatics，2002，18(1)：100-108.

[6]Stuart G W, Moffett K, Leader J J. A Comprehensive Vertebrate Phylogeny Using Vector Representations of Protein Sequences from Whole Genomes[J]. Molecular Biology and Evolution，2002，19(4)：554-562.

[7]Li Ming, Badgeb J H, Chen Xin, et al. An Information-Based Sequence Distance and Its Application to Whole Mitochondrial Genome Phylogeny[J]. Bioinformatics，2001，17(2)：149-154.

[8]Yu Zuguo，Jiang Po. Distance, Correlation and Mutual Information Among Portraits of Organisms Based on Complete Genomes[J]. Physics Letters A，2001，286(1)：34-46.

[9]Edwards S V，F(xiàn)ertil B，Giron A，et al. A Genomic Schism in Birds Revealed by Phylogenetic Analysis of DNA Strings [J]. Systems Biology，2002，51(4)：599-613.

[10]Qi Ji, Luo Hong，Hao Bailin. CVTree：A Phylogenetic-Tree Reconstruction Tool Based on Whole Genomes[J]. Nucleic Acids Research，2004，32(2)：45-47.

[11]Qi Ji, Wang Bin, Hao Bailin. Whole Proteome Prokaryote Phylogeny Without Sequence Alignment：A K-String Composition Approach[J]. Journal Molecular Evolution，2004， 58(1)：1-11.

[12]Yu Z G, Anh V, Lau K S. Multifractal and Correlation Analysis of Protein Sequences from Complete Genomes[J]. Physical Review E，2003，68(2)：021913.

[13]Yu Z G, Anh V, Lau K S. Chaos Game Representation of Protein Sequences Based on the Detailed HP Model and Their Multifractal and Correlation Analyses[J]. Journal of Theoretical Biology，2004，226(3)：341-348.

[14]Yu Z G，Anh V，Lau K S，et al. The Genomic Tree of Living Organisms Based on a Fractal Model[J]. Physics Letters A，2003，317(3)：293-302.

[15]Chu K H, Qi J, Yu Z G, et al. Origin and Phylogeny of Chloroplasts：A Simple Correlation Analysis of Complete Genomes[J]. Molecular Biology and Evolution，2004，21 (1)： 200-206

[16]Yu Z G，Zhou L Q，Anh V，et al. Phylogeny of Prokaryotes and Chloroplasts Revealed by a Simple Composition Approach on All Protein Sequences from Whole Genome Without Sequence Alignment[J]. Journal of Molecular Evolution，2005， 60(4)：538-545.

[17]Yu Z G，Zhou L Q，Chu K H，et al. Phylogenetic Analysis of Polyomaviruses Based on Their Complete Genomes[C]// The 4th International Conference on Natural Computation. Jinan：Conference Publication，2008：80-84.

[18]Nair A S S, Mahalashmi T. Visualization of Genomic Data Using Inter-Nucleotide Distance Signals[C]//Processing of IEEE Genomic Signal Processing. Bucharest：Conference Publication, 2005：11-13.

[19]Akhtar M，Epps J，Ambikairajah E. Signal Processing in Sequence Analysis：Advances in Eukaryotic Gene Prediction[J]. IEEE Journal of Selected Topics in Signal Processing，2008，2(3)：310-321.

[20]Afreixo V, Bastos C A C, Pinho A, et al. Genome Analysis with Inter-Nucleotide Distance[J]. Bioinformatics，2009，25(23)： 3064-3070.

[21]Afreixo V, Bastos C A C, Pinho A, et al. Genome Analysis with Distance to the Nearest Dissimilar Nucleotide[J]. Journal of Theoretical Biology, 2011, 275(1)：52-58.

[22]Pé rez-Losada M, Christensen R G, Mcclellan D A, et al. Comparing Phylogenetic Codivergence Between Polyomaviruses and Their Hosts[J]. Journal of Virology, 2006, 80 (12)：5663-5669.

[23]Saitou N, Nei M. The Neighbor-Joining Method：a New Method for Reconstructing Phylogenetic Trees[J]. Molecular Biology and Evolution，1987，4(4)：406-425.

（責(zé)任編輯：廖友媛）

The Phylogenetic Analysis of Polyomavirus Based on the Inter-Nucleotide Distance Model

Zhou Liqian1，Li Rui1，Wen Zaiyi2
(1. School of Computer and Communication, Hunan University of Technology, Zhuzhou Hunan 412007, China；2. School of Science, Hunan University of Technology, Zhuzhou Hunan 412007, China)

The DNA sequence inter-nucleotide distance analysis method can better analyze the complete genome sequence, but it is not ideal for short genome sequence. Therefore based on inter-nucleotide distance, proposes an improved DNA sequence inter-nucleotide distance model, and combined with Euclidean distance, constructs phylogenetic tree of 70 kinds of polyoma virus genome. Through the comparison of topological structure of the obtained phylogenetic tree with results in the existing literature, finds that the obtained results are basically the same with the results computed by traditional method, and verifies the effectiveness of the proposed method.

complete genomes； inter-nucleotide distances；Euclidean distance；phylogeny tree

Q19

1673-9833(2014)03-0094-05

10.3969/j.issn.1673-9833.2014.03.019

2014-02-12

湖南省自然科學(xué)基金資助項(xiàng)目（13JJ3109），湖南省教育廳基金資助重點(diǎn)項(xiàng)目（13A004）

周立前（1970-），男，湖南漣源人，湖南工業(yè)大學(xué)教授，博士，主要從事生物信息學(xué)方面的教學(xué)與研究，E-mail：zhoulq11@163.com