• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      層次聚類在進(jìn)化樹構(gòu)建中的應(yīng)用

      2014-09-10 09:15:56李國(guó)寶
      關(guān)鍵詞:進(jìn)化樹線粒體聚類

      李國(guó)寶,業(yè) 寧

      (南京林業(yè)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,南京 210037)

      0 引言

      從達(dá)爾文時(shí)代開始,人類對(duì)生物起源的研究加以重視,各種生物進(jìn)化學(xué)說相繼被提出。由于生物進(jìn)化歷史是沒有文字記載的,后人只能通過史前生物的化石等片面信息來盡可能準(zhǔn)確的模擬生物進(jìn)化的順序,這就可能會(huì)形成錯(cuò)誤的生物進(jìn)化推斷歷史。隨著20世紀(jì)中期生物遺傳信息研究取得突破進(jìn)展,人類通過生物的遺傳物質(zhì)來研究其進(jìn)化歷史成為可能。

      現(xiàn)代生物學(xué)用生物進(jìn)化樹來描述生物之間進(jìn)化關(guān)系,兩種(或者多種)生物如果在同一層節(jié)點(diǎn),則表明該組生物進(jìn)化距離較近(即從同一祖先進(jìn)化而來的可能性較大)[1];反之,表明這些生物之間的生物差異性較大。

      生物進(jìn)化樹可以根據(jù)其是否按照進(jìn)化距離構(gòu)建來分類,這樣就有基于進(jìn)化距離構(gòu)建的方法和基于統(tǒng)計(jì)特征或者生物離散特征構(gòu)建的方法?;谶M(jìn)化距離的構(gòu)建方法主要有最近鄰法[2],UPGMA法等;基于統(tǒng)計(jì)方法的構(gòu)建主要有最大似然法(Maximum likelihood)[3];基于生物離散特征的構(gòu)建方法主要是最大簡(jiǎn)約法(Maximum Parsimony)[4]。

      UPGMA方法是基于距離的進(jìn)化樹構(gòu)建方法,該方法思想是:將兩個(gè)進(jìn)化距離最近的物種合成到一個(gè)復(fù)合物種組中,然后將新的距離矩陣中距離最小的兩個(gè)物種再次合成一個(gè)復(fù)合物種組,如此反復(fù),直到所有的物種都被聚為一棵進(jìn)化樹[5]。UPGMA方法的使用有一個(gè)前提,即假設(shè)一棵進(jìn)化樹中所有物種的進(jìn)化速率[6]是相同的。

      NJ(Neighbor Joining Method, NJ)方法是距離法建樹中比較有實(shí)用價(jià)值的方法。與UPGMA相比,NJ方法不用假設(shè)進(jìn)化樹中所有物種的進(jìn)化速率相同,因此在大多數(shù)情況下比較令人信服。該方法思想是:通過確定距離最近的成對(duì)分類物種組來使進(jìn)化樹的進(jìn)化距離之和達(dá)到最小。在進(jìn)行序列合并時(shí),不僅要滿足待合并序列進(jìn)化距離的相近,同時(shí)也要求待合并的序列與其它序列的近似距離較遠(yuǎn)。本文實(shí)驗(yàn)一中生成的進(jìn)化樹將會(huì)與NJ方法生成的進(jìn)化樹進(jìn)行比較。

      ML(Maximum Likelihood)方法于1981年被提出,該方法構(gòu)建思想基于統(tǒng)計(jì)學(xué)。在預(yù)先選擇的進(jìn)化模型下計(jì)算每一種進(jìn)化樹生成的可能性,選擇最大可能性的進(jìn)化樹即為最大似然樹。最大似然法在構(gòu)建進(jìn)化樹的準(zhǔn)確度方面很高,但是在處理大數(shù)據(jù)量時(shí)效率比較低,并且對(duì)模型的依賴比較嚴(yán)重。

      MP(Maximum Parsimony)方法依據(jù)各個(gè)位置上由一條生物序列突變成另一條生物序列所需最小數(shù)量突變來進(jìn)行比較分析和聚類樹生成的,最終的進(jìn)化樹是基于整條序列所需的突變總數(shù)的。

      1 研究思想

      層次聚類的基本思想是:通過迭代分類,把相似的樣本放在一層,直到樣本都被歸到某一層中[7]。具體的層次聚類算法分為兩種,從頂層到底層的方法和從底層到頂層的方法。

      從頂層到底層的算法思想是:(1)先把樣本當(dāng)作一個(gè)集合,從這個(gè)集合中取出2個(gè)(或者多個(gè))最為相似的樣本,形成一顆二叉(或者多叉)形狀的樹,此時(shí),集合剩下的樣本作為樹根節(jié)點(diǎn),2個(gè)(或者多個(gè))相似的節(jié)點(diǎn)作為第一層葉子節(jié)點(diǎn);(2)再?gòu)臉涓?jié)點(diǎn)集合中選取一類相似的樣本作為第二層葉子節(jié)點(diǎn),繼續(xù)擴(kuò)展剛才生成的樹;(3)重復(fù)步驟2,直到根節(jié)點(diǎn)集合中樣本數(shù)為0;(4)按照2叉樹的生成規(guī)則整理生成的進(jìn)化樹,保證結(jié)果是一棵2叉樹。

      從底層到頂層的層次聚類方法與前者描述的由頂層至底層算法相似,只是在進(jìn)化樹形成順序上是從葉子節(jié)點(diǎn)到根節(jié)點(diǎn)。

      先通過序列比對(duì)計(jì)算生物之間的進(jìn)化距離,然后運(yùn)用層次聚類方法[8]對(duì)生物樣本進(jìn)行分類,最終生成層次聚類結(jié)果以二叉樹形式表現(xiàn)。與基于距離的其他方法如NJ、UPGMA等進(jìn)化樹構(gòu)建方法以及基于統(tǒng)計(jì)的ML方法,基于生物表現(xiàn)特征的MP方法等生成的進(jìn)化樹比較后驗(yàn)證層次聚類方法的可行性,以及如何提高進(jìn)化樹的準(zhǔn)確率。

      2 序列比對(duì)計(jì)算生物進(jìn)化距離

      進(jìn)化距離的計(jì)算是通過比較DNA序列得到的。序列的比對(duì)有兩兩比對(duì)和多重比對(duì)之分。比對(duì)算法有blast,clustal,fasta等,本實(shí)驗(yàn)采用的是多序列比對(duì)中的clustalw方法。

      實(shí)驗(yàn)一:8個(gè)物種線粒體DNA距離矩陣

      由于線粒體DNA變異速率很慢,它們以每一百萬(wàn)年百分之二點(diǎn)二的速度變異,因此選擇線粒體DNA作為研究對(duì)象是比較合理的。

      本實(shí)驗(yàn)將甘藍(lán)型油菜種子萌發(fā)出現(xiàn)胚根第1天的幼苗轉(zhuǎn)移至含有eBL(epi-Brassinolide)或BRZ的固體1/2 MS培養(yǎng)基上(方形皿)。eBL生理處理實(shí)驗(yàn)在光照條件下進(jìn)行,6種處理濃度分別為0、1 × 10-9、1 × 10-8、1 × 10-7、1 × 10-6和 1 × 10-5 mol/L,處理4 d后觀察不同濃度eBL對(duì)幼苗發(fā)育的影響。BRZ生理處理實(shí)驗(yàn)在黑暗下進(jìn)行,分為0和1 × 10-6 mol/L 兩個(gè)處理濃度,處理3 d后觀察BRZ對(duì)幼苗黑暗條件下發(fā)育的影響。

      序列來自GenBank,詳細(xì)信息如表1所示。

      表1 8 條線粒體 DNA 物種 GenBank 相關(guān)信息

      由表1構(gòu)建的距離矩陣見表2。

      表2 8 個(gè)物種所對(duì)應(yīng)的相似距離矩陣

      實(shí)驗(yàn)二:十一種脊椎動(dòng)物序列數(shù)據(jù)的實(shí)驗(yàn)

      生物進(jìn)化樹的好壞,主要看與它與生物真實(shí)的進(jìn)化歷史差別多大。生物的真實(shí)進(jìn)化史往往難以知曉,但是也有例外。表3給出的生物序列信息的真實(shí)進(jìn)化樹可以用古生物學(xué)和形態(tài)學(xué)方面的數(shù)據(jù)來構(gòu)建[9]。11種脊椎動(dòng)物線粒體全DNA信息如表3。

      表3 11 種脊椎動(dòng)物的名稱及其線粒體全基因組 GenBank 編號(hào)

      由表3構(gòu)建的距離矩陣如表4所示。

      表4 11種脊椎動(dòng)物線粒體DNA的距離矩陣

      續(xù)表4 11種脊椎動(dòng)物線粒體DNA的距離矩陣

      3 層次聚類生成生物進(jìn)化樹

      層次聚類的步驟:

      (1)從n個(gè)序列樣本中選擇2個(gè)距離最小的放到集合s中,此時(shí)集合s和剩下的n-2個(gè)樣本作為n-1個(gè)候選樣本;

      (2)從剩下的n-1個(gè)候選樣本中選擇2個(gè)距離最小的放到集合s1中,類似步驟1,此時(shí)n-2個(gè)候選樣本;

      (3)重復(fù)步驟2,直到候選樣本樹為0;

      (4)此時(shí)n個(gè)序列樣本層次聚類完成,通過層次號(hào)來逐層構(gòu)建二叉樹。

      實(shí)驗(yàn)一通過層次聚類方法構(gòu)建的進(jìn)化樹見圖1。

      圖1 8個(gè)物種層次聚類結(jié)果

      對(duì)生成的聚類結(jié)果統(tǒng)一注釋后得到的進(jìn)化樹見圖2。

      圖2 實(shí)驗(yàn)一的層次聚類生物進(jìn)化樹

      實(shí)驗(yàn)二通過層次聚類的結(jié)果見圖3。

      圖3 實(shí)驗(yàn)二11種脊椎動(dòng)物線粒體

      實(shí)驗(yàn)二層次聚類結(jié)果經(jīng)過解釋后的生物進(jìn)化樹見圖4。

      圖4 實(shí)驗(yàn)二11種脊椎動(dòng)物的生物進(jìn)化樹

      4 對(duì)層次聚類生物進(jìn)化樹的評(píng)價(jià)

      由于生物的真實(shí)進(jìn)化歷史無(wú)法得知,后人只能通過生物化石等信息來推斷生物最有可能形成的進(jìn)化歷史。因此,對(duì)于構(gòu)建的生物進(jìn)化樹,不存在唯一的評(píng)價(jià)標(biāo)準(zhǔn)。不過,可以在確保數(shù)據(jù)準(zhǔn)確的前提下,對(duì)多種方法構(gòu)建的進(jìn)化樹進(jìn)行比較分析,如果多種方法構(gòu)建的進(jìn)化樹拓?fù)浣Y(jié)構(gòu)一致,則可以側(cè)面驗(yàn)證構(gòu)建方法的有效性。

      實(shí)驗(yàn)一中層次聚類構(gòu)建的進(jìn)化樹與最大似然法、NJ法構(gòu)建的進(jìn)化樹(見圖5)結(jié)構(gòu)完全一致,因此可以驗(yàn)證層次聚類在構(gòu)建這8種生物線粒體DNA進(jìn)化樹中的有效性。

      圖5 最大似然法和最近鄰法構(gòu)建的8種生物進(jìn)化樹

      實(shí)驗(yàn)二中層次聚類構(gòu)建的11種脊椎動(dòng)物的進(jìn)化樹和生物真實(shí)的進(jìn)化樹拓?fù)浣Y(jié)構(gòu)有細(xì)微差別,見圖6。

      圖6 11種脊椎動(dòng)物的真實(shí)系統(tǒng)樹

      經(jīng)過查閱相關(guān)資料,作者發(fā)現(xiàn)這種進(jìn)化樹結(jié)構(gòu)差別源于所選取的序列長(zhǎng)度較長(zhǎng)。在計(jì)算相似距離時(shí),序列越長(zhǎng),出現(xiàn)程序性錯(cuò)誤的可能性就越大。

      因此,本文的結(jié)論:在層次聚類產(chǎn)生進(jìn)化樹時(shí),盡可能選取長(zhǎng)度較短的能夠代替生物進(jìn)化信息的DNA序列,這樣可以生成較準(zhǔn)確的進(jìn)化樹。

      參考文獻(xiàn):

      [1] SNEATH P, SOKAL R. Numerical taxonomy—the principles and practice of numerical classification[M].San Francisco:W. H. Freeman and Company, 1973.

      [2] SAITOU N, NEI M. The neighbor-joining method: a new method for reconstructing phylogenetic trees[J].Mol Biol Evol, 1987(4):406-425.

      [3] Felsentein J. Evolutionary trees from DNA sequences: a Maximum likelihood approach[J].J Mol Evol, 1981,17:368-376.

      [4] Kimura M. Evolutionary rate at the molecular level[J].Nature,1968,217:624-626.

      [5] 劉金桂.分?jǐn)?shù)階超混沌系統(tǒng)的自適應(yīng)函數(shù)投影同步[J].淮陰工學(xué)院學(xué)報(bào),2012,21(1):1-4.

      [6] Zhaxybayeva, O. and W.F. Doolittle, Lateral gene transfer[J].Current Biology, 2011,21(7):242-246.

      [7] 孫亂,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].北京:清華大學(xué)出版社,2005.

      [8] 丁淑妍.進(jìn)化分析與結(jié)構(gòu)預(yù)測(cè)中的若干問題研究[D].大連:大連理工大學(xué),2012.

      [9] 孫士保,秦克云.改進(jìn)的k-平均聚類算法研究[J].計(jì)算機(jī)工程,2007,33(13):200-201.

      猜你喜歡
      進(jìn)化樹線粒體聚類
      基于心理旋轉(zhuǎn)的小學(xué)生物進(jìn)化樹教學(xué)實(shí)驗(yàn)報(bào)告
      棘皮動(dòng)物線粒體基因組研究進(jìn)展
      常見的進(jìn)化樹錯(cuò)誤概念及其辨析*
      線粒體自噬與帕金森病的研究進(jìn)展
      基于DBSACN聚類算法的XML文檔聚類
      福州2009—2014年甲型H1N1流感病毒株HA基因進(jìn)化分析
      艾草白粉病的病原菌鑒定
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      NF-κB介導(dǎo)線粒體依賴的神經(jīng)細(xì)胞凋亡途徑
      成都市| 开原市| 清流县| 侯马市| 安仁县| 石屏县| 民权县| 通江县| 娄底市| 建始县| 三河市| 白河县| 龙口市| 临洮县| 田东县| 桓台县| 盐池县| 柏乡县| 沾化县| 屏东县| 孟州市| 古浪县| 青冈县| 广东省| 唐山市| 阿城市| 金门县| 利川市| 宁城县| 衢州市| 德安县| 商城县| 宜州市| 琼结县| 布尔津县| 襄垣县| 芮城县| 浑源县| 凤山市| 交口县| 介休市|