99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<nav id="ii0ii"><sup id="ii0ii"></sup></nav><nav id="ii0ii"><code id="ii0ii"></code></nav>

<tfoot id="ii0ii"><noscript id="ii0ii"></noscript></tfoot>

<nav id="ii0ii"><code id="ii0ii"></code></nav>

<small id="ii0ii"><menu id="ii0ii"></menu></small><nav id="ii0ii"></nav>

?

層次聚類在進(jìn)化樹構(gòu)建中的應(yīng)用

2014-09-10 09:15:56李國(guó)寶

淮陰工學(xué)院學(xué)報(bào) 2014年5期

關(guān)鍵詞：進(jìn)化樹線粒體聚類

李國(guó)寶，業(yè) 寧

(南京林業(yè)大學(xué) 信息科學(xué)與技術(shù)學(xué)院，南京 210037)

0 引言

從達(dá)爾文時(shí)代開始，人類對(duì)生物起源的研究加以重視，各種生物進(jìn)化學(xué)說相繼被提出。由于生物進(jìn)化歷史是沒有文字記載的，后人只能通過史前生物的化石等片面信息來盡可能準(zhǔn)確的模擬生物進(jìn)化的順序，這就可能會(huì)形成錯(cuò)誤的生物進(jìn)化推斷歷史。隨著20世紀(jì)中期生物遺傳信息研究取得突破進(jìn)展，人類通過生物的遺傳物質(zhì)來研究其進(jìn)化歷史成為可能。

現(xiàn)代生物學(xué)用生物進(jìn)化樹來描述生物之間進(jìn)化關(guān)系，兩種(或者多種)生物如果在同一層節(jié)點(diǎn)，則表明該組生物進(jìn)化距離較近(即從同一祖先進(jìn)化而來的可能性較大)[1]；反之，表明這些生物之間的生物差異性較大。

生物進(jìn)化樹可以根據(jù)其是否按照進(jìn)化距離構(gòu)建來分類，這樣就有基于進(jìn)化距離構(gòu)建的方法和基于統(tǒng)計(jì)特征或者生物離散特征構(gòu)建的方法?；谶M(jìn)化距離的構(gòu)建方法主要有最近鄰法[2]，UPGMA法等；基于統(tǒng)計(jì)方法的構(gòu)建主要有最大似然法(Maximum likelihood)[3]；基于生物離散特征的構(gòu)建方法主要是最大簡(jiǎn)約法(Maximum Parsimony)[4]。

UPGMA方法是基于距離的進(jìn)化樹構(gòu)建方法，該方法思想是：將兩個(gè)進(jìn)化距離最近的物種合成到一個(gè)復(fù)合物種組中,然后將新的距離矩陣中距離最小的兩個(gè)物種再次合成一個(gè)復(fù)合物種組,如此反復(fù),直到所有的物種都被聚為一棵進(jìn)化樹[5]。UPGMA方法的使用有一個(gè)前提，即假設(shè)一棵進(jìn)化樹中所有物種的進(jìn)化速率[6]是相同的。

NJ(Neighbor Joining Method, NJ)方法是距離法建樹中比較有實(shí)用價(jià)值的方法。與UPGMA相比，NJ方法不用假設(shè)進(jìn)化樹中所有物種的進(jìn)化速率相同，因此在大多數(shù)情況下比較令人信服。該方法思想是：通過確定距離最近的成對(duì)分類物種組來使進(jìn)化樹的進(jìn)化距離之和達(dá)到最小。在進(jìn)行序列合并時(shí),不僅要滿足待合并序列進(jìn)化距離的相近,同時(shí)也要求待合并的序列與其它序列的近似距離較遠(yuǎn)。本文實(shí)驗(yàn)一中生成的進(jìn)化樹將會(huì)與NJ方法生成的進(jìn)化樹進(jìn)行比較。

ML(Maximum Likelihood)方法于1981年被提出，該方法構(gòu)建思想基于統(tǒng)計(jì)學(xué)。在預(yù)先選擇的進(jìn)化模型下計(jì)算每一種進(jìn)化樹生成的可能性，選擇最大可能性的進(jìn)化樹即為最大似然樹。最大似然法在構(gòu)建進(jìn)化樹的準(zhǔn)確度方面很高，但是在處理大數(shù)據(jù)量時(shí)效率比較低，并且對(duì)模型的依賴比較嚴(yán)重。

MP(Maximum Parsimony)方法依據(jù)各個(gè)位置上由一條生物序列突變成另一條生物序列所需最小數(shù)量突變來進(jìn)行比較分析和聚類樹生成的,最終的進(jìn)化樹是基于整條序列所需的突變總數(shù)的。

1 研究思想

層次聚類的基本思想是：通過迭代分類，把相似的樣本放在一層，直到樣本都被歸到某一層中[7]。具體的層次聚類算法分為兩種，從頂層到底層的方法和從底層到頂層的方法。

從頂層到底層的算法思想是：(1)先把樣本當(dāng)作一個(gè)集合，從這個(gè)集合中取出2個(gè)(或者多個(gè))最為相似的樣本，形成一顆二叉(或者多叉)形狀的樹，此時(shí)，集合剩下的樣本作為樹根節(jié)點(diǎn)，2個(gè)(或者多個(gè))相似的節(jié)點(diǎn)作為第一層葉子節(jié)點(diǎn)；(2)再?gòu)臉涓?jié)點(diǎn)集合中選取一類相似的樣本作為第二層葉子節(jié)點(diǎn)，繼續(xù)擴(kuò)展剛才生成的樹；(3)重復(fù)步驟2，直到根節(jié)點(diǎn)集合中樣本數(shù)為0；(4)按照2叉樹的生成規(guī)則整理生成的進(jìn)化樹，保證結(jié)果是一棵2叉樹。

從底層到頂層的層次聚類方法與前者描述的由頂層至底層算法相似，只是在進(jìn)化樹形成順序上是從葉子節(jié)點(diǎn)到根節(jié)點(diǎn)。

先通過序列比對(duì)計(jì)算生物之間的進(jìn)化距離，然后運(yùn)用層次聚類方法[8]對(duì)生物樣本進(jìn)行分類，最終生成層次聚類結(jié)果以二叉樹形式表現(xiàn)。與基于距離的其他方法如NJ、UPGMA等進(jìn)化樹構(gòu)建方法以及基于統(tǒng)計(jì)的ML方法，基于生物表現(xiàn)特征的MP方法等生成的進(jìn)化樹比較后驗(yàn)證層次聚類方法的可行性，以及如何提高進(jìn)化樹的準(zhǔn)確率。

2 序列比對(duì)計(jì)算生物進(jìn)化距離

進(jìn)化距離的計(jì)算是通過比較DNA序列得到的。序列的比對(duì)有兩兩比對(duì)和多重比對(duì)之分。比對(duì)算法有blast，clustal，fasta等，本實(shí)驗(yàn)采用的是多序列比對(duì)中的clustalw方法。

實(shí)驗(yàn)一：8個(gè)物種線粒體DNA距離矩陣

由于線粒體DNA變異速率很慢，它們以每一百萬(wàn)年百分之二點(diǎn)二的速度變異，因此選擇線粒體DNA作為研究對(duì)象是比較合理的。

本實(shí)驗(yàn)將甘藍(lán)型油菜種子萌發(fā)出現(xiàn)胚根第1天的幼苗轉(zhuǎn)移至含有eBL(epi-Brassinolide)或BRZ的固體1/2 MS培養(yǎng)基上(方形皿)。eBL生理處理實(shí)驗(yàn)在光照條件下進(jìn)行，6種處理濃度分別為0、1 × 10-9、1 × 10-8、1 × 10-7、1 × 10-6和 1 × 10-5 mol/L，處理4 d后觀察不同濃度eBL對(duì)幼苗發(fā)育的影響。BRZ生理處理實(shí)驗(yàn)在黑暗下進(jìn)行，分為0和1 × 10-6 mol/L 兩個(gè)處理濃度，處理3 d后觀察BRZ對(duì)幼苗黑暗條件下發(fā)育的影響。

序列來自GenBank，詳細(xì)信息如表1所示。

表1 8 條線粒體 DNA 物種 GenBank 相關(guān)信息

由表1構(gòu)建的距離矩陣見表2。

表2 8 個(gè)物種所對(duì)應(yīng)的相似距離矩陣

實(shí)驗(yàn)二：十一種脊椎動(dòng)物序列數(shù)據(jù)的實(shí)驗(yàn)

生物進(jìn)化樹的好壞，主要看與它與生物真實(shí)的進(jìn)化歷史差別多大。生物的真實(shí)進(jìn)化史往往難以知曉，但是也有例外。表3給出的生物序列信息的真實(shí)進(jìn)化樹可以用古生物學(xué)和形態(tài)學(xué)方面的數(shù)據(jù)來構(gòu)建[9]。11種脊椎動(dòng)物線粒體全DNA信息如表3。

表3 11 種脊椎動(dòng)物的名稱及其線粒體全基因組 GenBank 編號(hào)

由表3構(gòu)建的距離矩陣如表4所示。

表4 11種脊椎動(dòng)物線粒體DNA的距離矩陣

續(xù)表4 11種脊椎動(dòng)物線粒體DNA的距離矩陣

3 層次聚類生成生物進(jìn)化樹

層次聚類的步驟：

(1)從n個(gè)序列樣本中選擇2個(gè)距離最小的放到集合s中，此時(shí)集合s和剩下的n-2個(gè)樣本作為n-1個(gè)候選樣本；

(2)從剩下的n-1個(gè)候選樣本中選擇2個(gè)距離最小的放到集合s1中，類似步驟1，此時(shí)n-2個(gè)候選樣本；

(3)重復(fù)步驟2，直到候選樣本樹為0；

(4)此時(shí)n個(gè)序列樣本層次聚類完成，通過層次號(hào)來逐層構(gòu)建二叉樹。

實(shí)驗(yàn)一通過層次聚類方法構(gòu)建的進(jìn)化樹見圖1。

圖1 8個(gè)物種層次聚類結(jié)果

對(duì)生成的聚類結(jié)果統(tǒng)一注釋后得到的進(jìn)化樹見圖2。

圖2 實(shí)驗(yàn)一的層次聚類生物進(jìn)化樹

實(shí)驗(yàn)二通過層次聚類的結(jié)果見圖3。

圖3 實(shí)驗(yàn)二11種脊椎動(dòng)物線粒體

實(shí)驗(yàn)二層次聚類結(jié)果經(jīng)過解釋后的生物進(jìn)化樹見圖4。

圖4 實(shí)驗(yàn)二11種脊椎動(dòng)物的生物進(jìn)化樹

4 對(duì)層次聚類生物進(jìn)化樹的評(píng)價(jià)

由于生物的真實(shí)進(jìn)化歷史無(wú)法得知，后人只能通過生物化石等信息來推斷生物最有可能形成的進(jìn)化歷史。因此，對(duì)于構(gòu)建的生物進(jìn)化樹，不存在唯一的評(píng)價(jià)標(biāo)準(zhǔn)。不過，可以在確保數(shù)據(jù)準(zhǔn)確的前提下，對(duì)多種方法構(gòu)建的進(jìn)化樹進(jìn)行比較分析，如果多種方法構(gòu)建的進(jìn)化樹拓?fù)浣Y(jié)構(gòu)一致，則可以側(cè)面驗(yàn)證構(gòu)建方法的有效性。

實(shí)驗(yàn)一中層次聚類構(gòu)建的進(jìn)化樹與最大似然法、NJ法構(gòu)建的進(jìn)化樹(見圖5)結(jié)構(gòu)完全一致，因此可以驗(yàn)證層次聚類在構(gòu)建這8種生物線粒體DNA進(jìn)化樹中的有效性。

圖5 最大似然法和最近鄰法構(gòu)建的8種生物進(jìn)化樹

實(shí)驗(yàn)二中層次聚類構(gòu)建的11種脊椎動(dòng)物的進(jìn)化樹和生物真實(shí)的進(jìn)化樹拓?fù)浣Y(jié)構(gòu)有細(xì)微差別，見圖6。

圖6 11種脊椎動(dòng)物的真實(shí)系統(tǒng)樹

經(jīng)過查閱相關(guān)資料，作者發(fā)現(xiàn)這種進(jìn)化樹結(jié)構(gòu)差別源于所選取的序列長(zhǎng)度較長(zhǎng)。在計(jì)算相似距離時(shí)，序列越長(zhǎng)，出現(xiàn)程序性錯(cuò)誤的可能性就越大。

因此，本文的結(jié)論：在層次聚類產(chǎn)生進(jìn)化樹時(shí)，盡可能選取長(zhǎng)度較短的能夠代替生物進(jìn)化信息的DNA序列，這樣可以生成較準(zhǔn)確的進(jìn)化樹。

參考文獻(xiàn)：

[1] SNEATH P, SOKAL R. Numerical taxonomy—the principles and practice of numerical classification[M].San Francisco:W. H. Freeman and Company, 1973.

[2] SAITOU N, NEI M. The neighbor-joining method: a new method for reconstructing phylogenetic trees[J].Mol Biol Evol, 1987(4):406-425.

[3] Felsentein J. Evolutionary trees from DNA sequences: a Maximum likelihood approach[J].J Mol Evol, 1981，17:368-376.

[4] Kimura M. Evolutionary rate at the molecular level[J].Nature,1968，217:624-626.

[5] 劉金桂.分?jǐn)?shù)階超混沌系統(tǒng)的自適應(yīng)函數(shù)投影同步[J].淮陰工學(xué)院學(xué)報(bào)，2012，21(1)：1-4.

[6] Zhaxybayeva, O. and W.F. Doolittle, Lateral gene transfer[J].Current Biology, 2011,21(7):242-246.

[7] 孫亂,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].北京:清華大學(xué)出版社,2005.

[8] 丁淑妍.進(jìn)化分析與結(jié)構(gòu)預(yù)測(cè)中的若干問題研究[D].大連：大連理工大學(xué),2012.

[9] 孫士保,秦克云.改進(jìn)的k-平均聚類算法研究[J].計(jì)算機(jī)工程,2007,33(13):200-201.

猜你喜歡

進(jìn)化樹線粒體聚類

基于心理旋轉(zhuǎn)的小學(xué)生物進(jìn)化樹教學(xué)實(shí)驗(yàn)報(bào)告

天津市教科院學(xué)報(bào)(2021年5期)2021-11-10 07:32:40

棘皮動(dòng)物線粒體基因組研究進(jìn)展

海洋通報(bào)(2021年1期)2021-07-23 01:55:14

常見的進(jìn)化樹錯(cuò)誤概念及其辨析*

生物學(xué)通報(bào)(2021年9期)2021-07-01 03:24:44

線粒體自噬與帕金森病的研究進(jìn)展

生物學(xué)通報(bào)(2021年4期)2021-03-16 05:41:26

基于DBSACN聚類算法的XML文檔聚類

電子測(cè)試(2017年15期)2017-12-18 07:19:27

福州2009—2014年甲型H1N1流感病毒株HA基因進(jìn)化分析

中國(guó)醫(yī)學(xué)創(chuàng)新(2017年7期)2017-03-31 13:48:09

艾草白粉病的病原菌鑒定

江蘇農(nóng)業(yè)科學(xué)(2016年8期)2017-02-15 19:54:11

基于改進(jìn)的遺傳算法的模糊聚類算法

智能系統(tǒng)學(xué)報(bào)(2015年4期)2015-12-27 09:38:39

一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究

電子設(shè)計(jì)工程(2015年6期)2015-02-27 12:04:53

NF-κB介導(dǎo)線粒體依賴的神經(jīng)細(xì)胞凋亡途徑

癌變·畸變·突變(2014年1期)2014-03-01 04:39:36

淮陰工學(xué)院學(xué)報(bào)2014年5期

淮陰工學(xué)院學(xué)報(bào)的其它文章: 《淮陰工學(xué)院學(xué)報(bào)》稿約; 《淮陰工學(xué)院學(xué)報(bào)》關(guān)于抵制學(xué)術(shù)不端行為的聲明; 跨國(guó)企業(yè)經(jīng)營(yíng)戰(zhàn)略與企業(yè)績(jī)效關(guān)系的實(shí)證研究
——以入駐蘇州工業(yè)園區(qū)跨國(guó)企業(yè)為例; 區(qū)域經(jīng)濟(jì)背景下區(qū)域空間發(fā)展規(guī)劃比較研究; 雙向纖維增強(qiáng)復(fù)合材料拉伸試驗(yàn)研究; 香辛料精油及單體的體外抑菌活性研究

成都市| 开原市| 清流县| 侯马市| 安仁县| 石屏县| 民权县| 通江县| 娄底市| 建始县| 三河市| 白河县| 龙口市| 临洮县| 田东县| 桓台县| 盐池县| 柏乡县| 沾化县| 屏东县| 孟州市| 古浪县| 青冈县| 广东省| 唐山市| 阿城市| 金门县| 利川市| 宁城县| 衢州市| 德安县| 商城县| 宜州市| 琼结县| 布尔津县| 襄垣县| 芮城县| 浑源县| 凤山市| 交口县| 介休市|

<tr id="2iiii"></tr>

<tr id="2iiii"></tr>

<noscript id="2iiii"></noscript>