李國(guó)寶,業(yè) 寧
(南京林業(yè)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,南京 210037)
從達(dá)爾文時(shí)代開始,人類對(duì)生物起源的研究加以重視,各種生物進(jìn)化學(xué)說相繼被提出。由于生物進(jìn)化歷史是沒有文字記載的,后人只能通過史前生物的化石等片面信息來盡可能準(zhǔn)確的模擬生物進(jìn)化的順序,這就可能會(huì)形成錯(cuò)誤的生物進(jìn)化推斷歷史。隨著20世紀(jì)中期生物遺傳信息研究取得突破進(jìn)展,人類通過生物的遺傳物質(zhì)來研究其進(jìn)化歷史成為可能。
現(xiàn)代生物學(xué)用生物進(jìn)化樹來描述生物之間進(jìn)化關(guān)系,兩種(或者多種)生物如果在同一層節(jié)點(diǎn),則表明該組生物進(jìn)化距離較近(即從同一祖先進(jìn)化而來的可能性較大)[1];反之,表明這些生物之間的生物差異性較大。
生物進(jìn)化樹可以根據(jù)其是否按照進(jìn)化距離構(gòu)建來分類,這樣就有基于進(jìn)化距離構(gòu)建的方法和基于統(tǒng)計(jì)特征或者生物離散特征構(gòu)建的方法?;谶M(jìn)化距離的構(gòu)建方法主要有最近鄰法[2],UPGMA法等;基于統(tǒng)計(jì)方法的構(gòu)建主要有最大似然法(Maximum likelihood)[3];基于生物離散特征的構(gòu)建方法主要是最大簡(jiǎn)約法(Maximum Parsimony)[4]。
UPGMA方法是基于距離的進(jìn)化樹構(gòu)建方法,該方法思想是:將兩個(gè)進(jìn)化距離最近的物種合成到一個(gè)復(fù)合物種組中,然后將新的距離矩陣中距離最小的兩個(gè)物種再次合成一個(gè)復(fù)合物種組,如此反復(fù),直到所有的物種都被聚為一棵進(jìn)化樹[5]。UPGMA方法的使用有一個(gè)前提,即假設(shè)一棵進(jìn)化樹中所有物種的進(jìn)化速率[6]是相同的。
NJ(Neighbor Joining Method, NJ)方法是距離法建樹中比較有實(shí)用價(jià)值的方法。與UPGMA相比,NJ方法不用假設(shè)進(jìn)化樹中所有物種的進(jìn)化速率相同,因此在大多數(shù)情況下比較令人信服。該方法思想是:通過確定距離最近的成對(duì)分類物種組來使進(jìn)化樹的進(jìn)化距離之和達(dá)到最小。在進(jìn)行序列合并時(shí),不僅要滿足待合并序列進(jìn)化距離的相近,同時(shí)也要求待合并的序列與其它序列的近似距離較遠(yuǎn)。本文實(shí)驗(yàn)一中生成的進(jìn)化樹將會(huì)與NJ方法生成的進(jìn)化樹進(jìn)行比較。
ML(Maximum Likelihood)方法于1981年被提出,該方法構(gòu)建思想基于統(tǒng)計(jì)學(xué)。在預(yù)先選擇的進(jìn)化模型下計(jì)算每一種進(jìn)化樹生成的可能性,選擇最大可能性的進(jìn)化樹即為最大似然樹。最大似然法在構(gòu)建進(jìn)化樹的準(zhǔn)確度方面很高,但是在處理大數(shù)據(jù)量時(shí)效率比較低,并且對(duì)模型的依賴比較嚴(yán)重。
MP(Maximum Parsimony)方法依據(jù)各個(gè)位置上由一條生物序列突變成另一條生物序列所需最小數(shù)量突變來進(jìn)行比較分析和聚類樹生成的,最終的進(jìn)化樹是基于整條序列所需的突變總數(shù)的。
層次聚類的基本思想是:通過迭代分類,把相似的樣本放在一層,直到樣本都被歸到某一層中[7]。具體的層次聚類算法分為兩種,從頂層到底層的方法和從底層到頂層的方法。
從頂層到底層的算法思想是:(1)先把樣本當(dāng)作一個(gè)集合,從這個(gè)集合中取出2個(gè)(或者多個(gè))最為相似的樣本,形成一顆二叉(或者多叉)形狀的樹,此時(shí),集合剩下的樣本作為樹根節(jié)點(diǎn),2個(gè)(或者多個(gè))相似的節(jié)點(diǎn)作為第一層葉子節(jié)點(diǎn);(2)再?gòu)臉涓?jié)點(diǎn)集合中選取一類相似的樣本作為第二層葉子節(jié)點(diǎn),繼續(xù)擴(kuò)展剛才生成的樹;(3)重復(fù)步驟2,直到根節(jié)點(diǎn)集合中樣本數(shù)為0;(4)按照2叉樹的生成規(guī)則整理生成的進(jìn)化樹,保證結(jié)果是一棵2叉樹。
從底層到頂層的層次聚類方法與前者描述的由頂層至底層算法相似,只是在進(jìn)化樹形成順序上是從葉子節(jié)點(diǎn)到根節(jié)點(diǎn)。
先通過序列比對(duì)計(jì)算生物之間的進(jìn)化距離,然后運(yùn)用層次聚類方法[8]對(duì)生物樣本進(jìn)行分類,最終生成層次聚類結(jié)果以二叉樹形式表現(xiàn)。與基于距離的其他方法如NJ、UPGMA等進(jìn)化樹構(gòu)建方法以及基于統(tǒng)計(jì)的ML方法,基于生物表現(xiàn)特征的MP方法等生成的進(jìn)化樹比較后驗(yàn)證層次聚類方法的可行性,以及如何提高進(jìn)化樹的準(zhǔn)確率。
進(jìn)化距離的計(jì)算是通過比較DNA序列得到的。序列的比對(duì)有兩兩比對(duì)和多重比對(duì)之分。比對(duì)算法有blast,clustal,fasta等,本實(shí)驗(yàn)采用的是多序列比對(duì)中的clustalw方法。
實(shí)驗(yàn)一:8個(gè)物種線粒體DNA距離矩陣
由于線粒體DNA變異速率很慢,它們以每一百萬(wàn)年百分之二點(diǎn)二的速度變異,因此選擇線粒體DNA作為研究對(duì)象是比較合理的。
本實(shí)驗(yàn)將甘藍(lán)型油菜種子萌發(fā)出現(xiàn)胚根第1天的幼苗轉(zhuǎn)移至含有eBL(epi-Brassinolide)或BRZ的固體1/2 MS培養(yǎng)基上(方形皿)。eBL生理處理實(shí)驗(yàn)在光照條件下進(jìn)行,6種處理濃度分別為0、1 × 10-9、1 × 10-8、1 × 10-7、1 × 10-6和 1 × 10-5 mol/L,處理4 d后觀察不同濃度eBL對(duì)幼苗發(fā)育的影響。BRZ生理處理實(shí)驗(yàn)在黑暗下進(jìn)行,分為0和1 × 10-6 mol/L 兩個(gè)處理濃度,處理3 d后觀察BRZ對(duì)幼苗黑暗條件下發(fā)育的影響。
序列來自GenBank,詳細(xì)信息如表1所示。
表1 8 條線粒體 DNA 物種 GenBank 相關(guān)信息
由表1構(gòu)建的距離矩陣見表2。
表2 8 個(gè)物種所對(duì)應(yīng)的相似距離矩陣
實(shí)驗(yàn)二:十一種脊椎動(dòng)物序列數(shù)據(jù)的實(shí)驗(yàn)
生物進(jìn)化樹的好壞,主要看與它與生物真實(shí)的進(jìn)化歷史差別多大。生物的真實(shí)進(jìn)化史往往難以知曉,但是也有例外。表3給出的生物序列信息的真實(shí)進(jìn)化樹可以用古生物學(xué)和形態(tài)學(xué)方面的數(shù)據(jù)來構(gòu)建[9]。11種脊椎動(dòng)物線粒體全DNA信息如表3。
表3 11 種脊椎動(dòng)物的名稱及其線粒體全基因組 GenBank 編號(hào)
由表3構(gòu)建的距離矩陣如表4所示。
表4 11種脊椎動(dòng)物線粒體DNA的距離矩陣
續(xù)表4 11種脊椎動(dòng)物線粒體DNA的距離矩陣
層次聚類的步驟:
(1)從n個(gè)序列樣本中選擇2個(gè)距離最小的放到集合s中,此時(shí)集合s和剩下的n-2個(gè)樣本作為n-1個(gè)候選樣本;
(2)從剩下的n-1個(gè)候選樣本中選擇2個(gè)距離最小的放到集合s1中,類似步驟1,此時(shí)n-2個(gè)候選樣本;
(3)重復(fù)步驟2,直到候選樣本樹為0;
(4)此時(shí)n個(gè)序列樣本層次聚類完成,通過層次號(hào)來逐層構(gòu)建二叉樹。
實(shí)驗(yàn)一通過層次聚類方法構(gòu)建的進(jìn)化樹見圖1。
圖1 8個(gè)物種層次聚類結(jié)果
對(duì)生成的聚類結(jié)果統(tǒng)一注釋后得到的進(jìn)化樹見圖2。
圖2 實(shí)驗(yàn)一的層次聚類生物進(jìn)化樹
實(shí)驗(yàn)二通過層次聚類的結(jié)果見圖3。
圖3 實(shí)驗(yàn)二11種脊椎動(dòng)物線粒體
實(shí)驗(yàn)二層次聚類結(jié)果經(jīng)過解釋后的生物進(jìn)化樹見圖4。
圖4 實(shí)驗(yàn)二11種脊椎動(dòng)物的生物進(jìn)化樹
由于生物的真實(shí)進(jìn)化歷史無(wú)法得知,后人只能通過生物化石等信息來推斷生物最有可能形成的進(jìn)化歷史。因此,對(duì)于構(gòu)建的生物進(jìn)化樹,不存在唯一的評(píng)價(jià)標(biāo)準(zhǔn)。不過,可以在確保數(shù)據(jù)準(zhǔn)確的前提下,對(duì)多種方法構(gòu)建的進(jìn)化樹進(jìn)行比較分析,如果多種方法構(gòu)建的進(jìn)化樹拓?fù)浣Y(jié)構(gòu)一致,則可以側(cè)面驗(yàn)證構(gòu)建方法的有效性。
實(shí)驗(yàn)一中層次聚類構(gòu)建的進(jìn)化樹與最大似然法、NJ法構(gòu)建的進(jìn)化樹(見圖5)結(jié)構(gòu)完全一致,因此可以驗(yàn)證層次聚類在構(gòu)建這8種生物線粒體DNA進(jìn)化樹中的有效性。
圖5 最大似然法和最近鄰法構(gòu)建的8種生物進(jìn)化樹
實(shí)驗(yàn)二中層次聚類構(gòu)建的11種脊椎動(dòng)物的進(jìn)化樹和生物真實(shí)的進(jìn)化樹拓?fù)浣Y(jié)構(gòu)有細(xì)微差別,見圖6。
圖6 11種脊椎動(dòng)物的真實(shí)系統(tǒng)樹
經(jīng)過查閱相關(guān)資料,作者發(fā)現(xiàn)這種進(jìn)化樹結(jié)構(gòu)差別源于所選取的序列長(zhǎng)度較長(zhǎng)。在計(jì)算相似距離時(shí),序列越長(zhǎng),出現(xiàn)程序性錯(cuò)誤的可能性就越大。
因此,本文的結(jié)論:在層次聚類產(chǎn)生進(jìn)化樹時(shí),盡可能選取長(zhǎng)度較短的能夠代替生物進(jìn)化信息的DNA序列,這樣可以生成較準(zhǔn)確的進(jìn)化樹。
參考文獻(xiàn):
[1] SNEATH P, SOKAL R. Numerical taxonomy—the principles and practice of numerical classification[M].San Francisco:W. H. Freeman and Company, 1973.
[2] SAITOU N, NEI M. The neighbor-joining method: a new method for reconstructing phylogenetic trees[J].Mol Biol Evol, 1987(4):406-425.
[3] Felsentein J. Evolutionary trees from DNA sequences: a Maximum likelihood approach[J].J Mol Evol, 1981,17:368-376.
[4] Kimura M. Evolutionary rate at the molecular level[J].Nature,1968,217:624-626.
[5] 劉金桂.分?jǐn)?shù)階超混沌系統(tǒng)的自適應(yīng)函數(shù)投影同步[J].淮陰工學(xué)院學(xué)報(bào),2012,21(1):1-4.
[6] Zhaxybayeva, O. and W.F. Doolittle, Lateral gene transfer[J].Current Biology, 2011,21(7):242-246.
[7] 孫亂,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].北京:清華大學(xué)出版社,2005.
[8] 丁淑妍.進(jìn)化分析與結(jié)構(gòu)預(yù)測(cè)中的若干問題研究[D].大連:大連理工大學(xué),2012.
[9] 孫士保,秦克云.改進(jìn)的k-平均聚類算法研究[J].計(jì)算機(jī)工程,2007,33(13):200-201.