劉旻昊
摘 要:該文選取了30種脊椎動物線粒體基因數(shù)據(jù),應用AMI方法提取出它們的序列特征,結(jié)合相關(guān)系數(shù)和離差平方和方法構(gòu)建生物進化樹。對30種脊椎動物,其生物進化樹與白鳳蘭等人的方法進行對比,更加合理并且計算方法簡單。
關(guān)鍵詞:AMI 基因組 線粒體 生物進化樹
中圖分類號:TK823 文獻標識碼:A 文章編號:1674-098X(2015)05(b)-0032-01
1 數(shù)據(jù)選取
線粒體是真核細胞內(nèi)較為簡單的DNA分子,具有極少發(fā)生重組、進化速度快等特點。同時,線粒體DNA只通過母系遺傳的機制也使其成為了探索母系遺傳的絕佳工具,被廣泛用于群體遺傳學研究。
該文從文獻2和3選取30種脊椎動物線粒體DNA完全基因組數(shù)據(jù),可從NCBI網(wǎng)站http://www.ncbi.nlm.nih.gov免費下載。
2 數(shù)據(jù)計算
2.1 方法一
對于這30種線粒體基因組,首先提取各自序列的AMI向量,每種生物得到一個向量。對于參數(shù)k的選取,我們選取了10、50、100、200、300、400、500、600、700等多個值,對這30種動物的聚類都能得到近似的結(jié)果,但是綜合各向量之間的距離和聚類分析的結(jié)果來看,k取500是比較合適的,這樣AMI向量共有501個分量。對于這30種動物的AMI向量,進行聚類,最后得到結(jié)果(具體數(shù)據(jù)和結(jié)果可同作者電子郵件聯(lián)系索?。?/p>
2.2 方法二
白鳳蘭在其博士論文中將DNA序列用三維圖形表示,利用圖的不變量給出了序列之間的距離度量,然后定義了物種進化距離,最后用NJ算法構(gòu)建了系統(tǒng)發(fā)生樹。
3 結(jié)果分析
分析方法一的結(jié)果我們可以看出,guinea pig(幾內(nèi)亞豬)和cat(貓)dog(狗)被分在了一起,以上三種構(gòu)成一個分支;platypus(鴨嘴獸)、rabbit(兔子)、squirrel(松鼠)和fat dormouse(睡鼠)構(gòu)成了第二個分支,其中的squirrel和fat dormouse距離更近,這是符合進化關(guān)系的;下一個分支是human(人類)、gorilla(大猩猩)還有comlnon chimpanzee和pigmy chimpanzee兩種猩猩構(gòu)成的一個靈長目的分支,其中的兩種猩猩comlnon chimpanzee和pigmy chimpanzee在系統(tǒng)發(fā)生樹中距離最接近;再往下的一個大分支cow(牛)和sheep(羊)距離最近,同屬于嚙齒動物的rat(田鼠)和mouse(家屬)在發(fā)生樹上最接近;以上這些構(gòu)成了第一個大的分支。在另一個分支中,從上往下看是兩種海豹harbor seal和gray seal、兩種犀牛Indian rhinoceros和white rhinoceros印第安犀牛與白犀牛,這兩類的近緣物種分別距離最近;剩下的hippopotamus(河馬)、orangutan(猩猩)、donkey(驢)和gibbon(長臂猿)構(gòu)成了最后一個分支??傮w來看,由AMI構(gòu)成的系統(tǒng)發(fā)生樹上面的多數(shù)近緣物種都能夠聚在一起,符合我們已知的結(jié)論和觀點。
通過與方法二的結(jié)果對比,除了靈長目的human、gorilla還有comlnon chimpanzee和pigmy chimpanzee兩種猩猩在一個分支,而orangutan和gibbon在另一個分支,而在方法二這是分的比較好的,這幾個物種在方法二中被聚為了一類。對于方法二兩種犀牛Indian rhinoceros和white rhinoceros分別被分到了較遠的分支上,并且印第安犀牛與donkey距離最近,白犀牛與horse(馬)距離最近,rat與mouse兩種鼠類也被分開了,沒有聚在一起。總體來說,方法一在對物種的分類中結(jié)果要優(yōu)于方法二的結(jié)果。
參考文獻
[1] Mark Bauer,Sheldon M Schuster and Khalid Sayood.The Average Mutual Information Profile as a Genomic Signature[J].BMC Bioinformatics 2008,9:48doi:10.1186/1471-2105-9-48.
[2] 白鳳蘭.生物序列的圖形表示極其應用[D].大連:大連理工大學,2005.
[3] Snel B,Bork P,Huynen M A.Genome phylogeny based on gene cotent[J].Nat Genet,1992,21:108-110.