孟玉,楊若林
?
基于基因家族大小的比較研究脊椎動物的適應(yīng)性進(jìn)化
孟玉,楊若林
西北農(nóng)林科技大學(xué)生命科學(xué)學(xué)院,楊凌 712100
同源基因家族的拷貝數(shù)在不同物種間普遍存在差異,這種差異是由不同的基因得失速率引起。眾所周知,基因拷貝數(shù)變異是特定物種表型創(chuàng)新的可能原因。本研究選取具有代表性的脊椎動物主要類群并跨約6億年進(jìn)化時間的64個物種,鑒定了它們的同源基因家族,揭示了脊椎動物基因家族大小的進(jìn)化模式。結(jié)果表明:在推斷的存在于脊椎動物最近共同祖先的6857個基因家族中,有6712個都在至少一個種系中發(fā)生了大小的變化,而且基因家族在大多數(shù)種系中都是收縮的;其中,霍氏樹懶()中有最高的基因家族收縮水平,而在斑馬魚()中則相反?;诩棺祫游锘蚣易宕笮∵M(jìn)化的高度動態(tài)性,本研究從基因家族大小變化的角度鑒定了一些可能與特定脊椎動物類群進(jìn)化有關(guān)的基因組信號。結(jié)果觀察到在現(xiàn)存真骨魚類最近共同祖先基因組中出現(xiàn)了可能因全基因組復(fù)制所導(dǎo)致的高比例的基因家族擴增現(xiàn)象,隨后在后裔物種中發(fā)生基因收縮事件。此外,本研究還發(fā)現(xiàn)了硬骨魚特異性的基因可能對這些魚類在水生環(huán)境中的適應(yīng)性進(jìn)化有所貢獻(xiàn)的證據(jù),如在有些硬骨魚中基因與鰭、尾巴、腎臟等發(fā)育有關(guān)。本研究結(jié)果有助于深入了解脊椎動物基因家族大小的進(jìn)化,同時為理解脊椎動物基因組進(jìn)化與表型多樣性的聯(lián)系提供了理論證據(jù)。
脊椎動物;基因家族;適應(yīng)性進(jìn)化;基因
脊椎動物亞門是脊索動物門中物種數(shù)量最多、結(jié)構(gòu)最復(fù)雜的一個亞門,大約在5~6億年前從其他脊索動物(頭索動物和尾索動物)中分歧出來[1,2],并演化出無頜類、魚類、兩棲類、爬行類、鳥類和哺乳類,經(jīng)歷了成功的演化革新和適應(yīng)。鑒定出脊椎動物間表型差異背后潛在的遺傳變化,并確定導(dǎo)致這種變化的進(jìn)化動力雖然具有挑戰(zhàn)性,但有著深刻的科學(xué)意義。
基因復(fù)制是新基因產(chǎn)生及基因家族擴增的主要機制之一[3],為生物體表型的創(chuàng)新及多樣化等提供了遺傳基礎(chǔ)[4],并且與生物體基因組大小的進(jìn)化和物種分化等緊密相關(guān)[5]。與基因復(fù)制相比,基因丟失曾被認(rèn)為僅與冗余的基因拷貝的丟失有關(guān),而不會產(chǎn)生明顯的功能影響,因此常被忽視。然而,與日俱增的基因組學(xué)數(shù)據(jù)揭示了基因丟失作為遺傳變異的普遍來源,其具有引起適應(yīng)性表型多樣性的巨大潛能,是一種非常重要的進(jìn)化動力[6]。如虎尾海馬()基因組中的基因擴增和丟失與其特殊形態(tài)的演化密切相關(guān)。Lin等[7]對虎尾海馬基因組進(jìn)行了測序與分析,發(fā)現(xiàn)該物種基因組中Pastn (patristacin)基因家族(一種蝦紅素金屬蛋白酶基因家族)經(jīng)歷了擴增,這與海馬雄性孕育這一獨特的繁殖方式密切相關(guān)。此外,虎尾海馬基因組中(proline/glutamine-rich secretory calcium- bin-ding phosphoprotein)基因和基因的丟失分別是導(dǎo)致其沒有牙齒和腹鰭的重要原因。
通過全基因組比較分析,已經(jīng)揭示了不同物種間許多基因家族拷貝數(shù)發(fā)生了顯著的數(shù)量變化[8~11],這種變化與基因得失速率息息相關(guān),且受到自然選擇與遺傳漂變的共同作用[6,12,13]。物種間表型的差異與基因家族大小的差異關(guān)系密切,如抗凍糖蛋白(antifreeze glycoprotein,)基因在南極魚亞目魚類基因組中發(fā)生了大量擴增,在南極魚類適應(yīng)低溫環(huán)境中發(fā)揮了非常重要的作用[14]。除基因外,鐵調(diào)素、卵殼蛋白等100多個參與低溫適應(yīng)相關(guān)生物學(xué)途徑的基因也在南極魚類進(jìn)化中發(fā)生了顯著擴增[15],這體現(xiàn)出特定基因拷貝數(shù)的增加是南極魚類適應(yīng)持續(xù)寒冷環(huán)境的一種機制。研究表明,不同種系間基因家族大小的變化可能與物種形成或適應(yīng)性有重要聯(lián)系[16~18]。例如,Yu等[18]對非人靈長類高海拔適應(yīng)機制的研究中發(fā)現(xiàn),與恒河猴()相比,生活在海拔高度為3500~4500米的滇金絲猴()基因組中有1187個基因家族發(fā)生了擴增,對其中231個顯著擴增基因家族進(jìn)行的功能富集分析表明,這些基因主要參與DNA修復(fù)和損傷應(yīng)答以及氧化磷酸化過程。這一結(jié)果被認(rèn)為可能與滇金絲猴暴露于高的紫外線輻射以及高海拔生存所需的能量代謝速率的增加有關(guān)。
植物和動物中基因家族大小的進(jìn)化模式均已被廣泛研究。然而,許多研究往往只涉及少數(shù)物種或只關(guān)注一個或某些基因家族的進(jìn)化[19~22],缺乏全基因組水平的大規(guī)模分析。近年來,隨著測序技術(shù)的發(fā)展,超過100種脊椎動物的全基因組已經(jīng)被測序完成[23],這些數(shù)據(jù)的獲得為人們揭示以下生物學(xué)問題提供了契機:(1)在脊椎動物中,物種間大規(guī)模的基因組差異,如基因家族大小的顯著變化是否在物 種的適應(yīng)性進(jìn)化中起到了重要的作用;(2)物種或種系特異性基因的特征(包括表達(dá)模式和功能等)能否在一定程度上反映出物種間表型的差異。為了回答上述問題,本文選取64個涵蓋了脊椎動物幾乎所有類群(無頜類、魚類、兩棲類、爬行類、鳥類和哺乳類)的物種作為研究對象,從大的進(jìn)化時間跨度上揭示了脊椎動物基因家族的擴增、收縮模式;并結(jié)合表達(dá)數(shù)據(jù)和功能注釋評估了物種或種系特異性基因?qū)ξ锓N特有表型的影響。本研究為深入了解脊椎動物基因家族大小的進(jìn)化、理解脊椎動物間的基因組差異和表型多樣性提供了新的見解。
64個脊椎動物物種及2個外群物種——玻璃海鞘()和薩氏海鞘()完整的蛋白質(zhì)組數(shù)據(jù)均下載自Ensembl v.84數(shù)據(jù)庫。64個脊椎動物物種包含了1種無頜綱物種、12種魚類、1種兩棲動物、2種爬行動物、5種鳥類及43種哺乳動物。其中哺乳動物包括1種單孔目、3種有袋目、2種貧齒目、3種非洲獸總目、14種勞亞獸總目、2種兔形目、5種嚙齒目、1種樹鼩目和12種靈長目(表1)。從Ensembl網(wǎng)站(http://mar2016. archive. ensembl.org/info/about/speciestree.html)獲取了這66個物種的系統(tǒng)發(fā)生關(guān)系。
為了獲得高質(zhì)量的蛋白質(zhì)序列數(shù)據(jù)用以鑒定基因的同源關(guān)系,對上述66個物種的蛋白質(zhì)組數(shù)據(jù)按以下兩個條件進(jìn)行過濾:(1)去除長度小于50個氨基酸的蛋白質(zhì);(2)對于由可變剪切產(chǎn)生的多個轉(zhuǎn)錄本所翻譯的蛋白質(zhì),只保留每個基因最長轉(zhuǎn)錄本對應(yīng)的蛋白質(zhì)。過濾之后,66個物種共1 149 492條蛋白質(zhì)序列作為輸入數(shù)據(jù)提交至OrthoMCL v2.0.9[24]進(jìn)行蛋白聚類。該軟件運行中的兩個關(guān)鍵步驟是:(1) All-against-all BLASTP,即使用BlastP v2.2.31將每個蛋白與所有其他蛋白進(jìn)行比對(-value < 1× 10–6),產(chǎn)生原始的blast輸出;(2)使用馬爾科夫聚類算法(Markov cluster algorithm, MCL)對解析的Blast結(jié)果構(gòu)建馬爾科夫矩陣,然后產(chǎn)生最終的基因家族[25]。MCL聚類的重要參數(shù)膨脹系數(shù)設(shè)為1.5。
將每個物種的所有基因家族按其拷貝數(shù)分為3類:(1)單拷貝基因家族,每個家族包含的基因數(shù)目為1,即通常所說的單拷貝基因;(2)包含兩個拷貝的基因家族,即雙拷貝基因家族;(3)包含3個及3個以上拷貝的多拷貝基因家族。
本研究中每一個物種的Orphan基因家族(或基因)都是與其他65個物種進(jìn)行比較得到的。例如,以人()為例,當(dāng)某基因在除人以外的所有其他65個物種中都沒有與之對應(yīng)的同源基因時,就說明該基因是人的基因。
CAFE (computational analysis of gene family evolution, version 3.0)是研究基因家族大小進(jìn)化的統(tǒng)計分析工具,使用生滅模型對基因家族大小在特定系統(tǒng)發(fā)生樹上的進(jìn)化過程進(jìn)行建模,并確定出各個分支上基因家族的擴增和收縮模式[26]。
由于上述66個物種基于分子水平的系統(tǒng)發(fā)生樹與取自TimeTree[27]標(biāo)有分歧時間的系統(tǒng)發(fā)生樹不完全一致,為了便于分析和保證數(shù)據(jù)的可靠性,本研究從中選取57個脊椎動物物種進(jìn)行后續(xù)分析。輸入CAFE軟件的樹文件,為所選57個物種的Newick格式的有根系統(tǒng)發(fā)育樹,且分支長度代表物種的分歧時間。數(shù)據(jù)文件是相應(yīng)這些物種的各個基因家族大小的數(shù)據(jù)。使用的軟件參數(shù)為:-p 0.05 -r 1000 -filter。最后通過lambda -s估算出所有基因家族總體的生滅參數(shù)λ。對于進(jìn)化速率顯著高于(<0.0001)全基因組平均值的基因家族[28],該軟件使用Viterbi法識別出相應(yīng)的分支,即基因家族大小發(fā)生顯著變化(< 0.005)的分支[29]。
λ是基因家族大小進(jìn)化分析中的一個重要參數(shù),被用來度量單位時間(每百萬年)內(nèi)每個基因的得失概率。本研究中λ的估計值為0.0006,代表了所有基因家族整體水平的最有可能的生滅速率,或者說是基因家族隨時間推移而擴增或收縮的速率。舉例來說,所評估的基因得失速率意味著在特定基因組(如人類基因組)中,每百萬年大約有13.467個新的拷貝和13.467個新的丟失被固定(0.0006得失/基因/百萬年× 22 445基因)。
表1 66個物種基因家族及成員基因數(shù)量
續(xù)表
物種名稱單拷貝基因家族雙拷貝基因家族多拷貝基因家族基因家族總數(shù)最大基因家族的大小 綿羊(Ovis aries)14 3761498 (2996)801 (3419)16 675 (20 791)27 牛(Bos taurus)13 5651400 (2800)829 (3590)15 794 (19 955)32 小棕蝠(Myotis lucifugus)12 3931570 (3140)863 (4103)14 826 (19 636)65 大狐蝠(Pteropus vampyrus)12 7611050 (2100)523 (2065)14 334 (16 926)18 馬(Equus caballus)13 0801334 (2668)813 (4628)15 227 (20 376)514 家貓(Felis catus)13 9221320 (2640)704 (2889)15 946 (19 451)40 狗(Canis lupus familiaris)14 0761365 (2730)727 (3013)16 168 (19 819)45 大熊貓(Ailuropoda melanoleuca)13 8531308 (2616)695 (2781)15 856 (19 250)22 雪貂(Mustela putorius furo)14 4741306 (2612)690 (2794)16 470 (19 880)21 北美鼠兔(Ochotona princeps)11 8111120 (2240)459 (1857)13 390 (15 908)66 穴兔(Oryctolagus cuniculus)12 5841431 (2862)808 (3793)14 823 (19 239)56 豚鼠(Cavia porcellus)12 8131365 (2730)724 (3021)14 902 (18 564)37 斑紋地松鼠(Ictidomys tridecemlineatus)12 8361389 (2778)755 (3158)14 980 (18 772)25 奧氏更格盧鼠(Dipodomys ordii)11 7891001 (2002)497 (1945)13 287 (15 736)24 褐家鼠(Rattus norvegicus)13 7391762 (3524)1015 (4966)16 516 (22 229)78 小鼠(Mus musculus)13 8371523 (3046)1016 (5627)16 376 (22 510)122 樹鼩(Tupaia belangeri)11 4371037 (2074)423 (1855)12 897 (15 366)78 小耳大嬰猴(Otolemur garnettii)13 2781480 (2960)774 (3210)15 532 (19 448)48 倭狐猴(Microcebus marinus)12 2091050 (2100)496 (1902)13 755 (16 211)16 菲律賓眼鏡猴(Tarsius syrichta)10 438872 (1744)337 (1360)11 647 (13 542)22 狨猴(Callithrix jacchus)14 4361567 (3134)761 (3255)16 764 (20 825)44 綠猴(Chlorocebus sabaeus)13 7101299 (2598)664 (2781)15 673 (19 089)41 恒河猴(Macaca mulatta)14 7941633 (3266)831 (3626)17 258 (21 686)44 東非狒狒(Papio anubis)13 5701316 (2632)698 (2940)15 584 (19 142)38 白頰長臂猿(Nomascus leucogenys)13 5431272 (2544)588 (2452)15 403 (18 539)41 蘇門答臘猩猩(Pongo abelii)14 4091429 (2858)671 (2773)16 509 (20 040)34 西非低地大猩猩(Gorllia gorilla gorilla)14 5951512 (3024)713 (2929)16 820 (20 548)27 黑猩猩(Pan troglodytes)13 5021277 (2554)615 (2560)15 394 (18 616)42 人(Homo sapiens)13 0371799 (3598)1077 (5810)15 913 (22 445)200
括號中的數(shù)字表示成員基因的數(shù)量;基因家族的大小指基因家族中包含的基因個數(shù)。
從Expression Atlas數(shù)據(jù)庫分別下載了人的16種組織(肝臟、淋巴結(jié)、甲狀腺、骨骼肌、前列腺、大腦、睪丸、腎臟、腎上腺、肺臟、白細(xì)胞、卵巢、脂肪、乳腺、結(jié)腸和心臟)、雞()的9種組織(大腦、心臟、肝臟、脾臟、肺臟、腎臟、結(jié)腸、睪丸和骨骼肌)的基因表達(dá)數(shù)據(jù)。斑馬魚的12種組織(骨、大腦、胚胎、卵巢、心臟、腸、腎臟、肝臟、肌肉、成熟卵泡、鰓和睪丸)的基因表達(dá)數(shù)據(jù)下載自Bgee數(shù)據(jù)庫。基因表達(dá)的組織特異性參照文獻(xiàn)[30,31]中描述的組織特異性指數(shù)來表示,計算公式如下:
其中,是組織的數(shù)量,S是基因在第個組織中的表達(dá)量,S代表基因在所有組織中的最大表達(dá)量。本研究將≥0.85的基因視為組織特異性表達(dá)的基因,并關(guān)注這類基因最大表達(dá)值對應(yīng)的組織;使用GOSlim對感興趣的基因集進(jìn)行功能富集分析。
為了鑒定脊椎動物間的直系同源基因,使用OrthoMCL[24]對涵蓋了無頜類、魚類、兩棲類、爬行類、鳥類、哺乳類的64個脊椎動物物種和2個海鞘綱尾索動物物種(表1,圖1A)共1 149 492個蛋白質(zhì)序列進(jìn)行了聚類分析,共產(chǎn)生32 498個直系同源基因家族。其中1648個基因家族是所有64個脊椎動物物種所共有,這可能代表了脊椎動物“核心”蛋白質(zhì)組。
本研究首先對每個物種基因組中3類基因家族及其成員基因的數(shù)量進(jìn)行了統(tǒng)計。在所研究的物種中,基因家族總數(shù)從8210 (海七鰓鰻,)至17 258 (恒河猴)不等(表1)。每個物種最大的基因家族由11 (火雞,)至601 (斑馬魚)個基因組成(表1),這顯示基因家族大小有著較大的跨物種變異程度。
進(jìn)一步統(tǒng)計顯示,除斑馬魚外,脊椎動物各物種基因組中半數(shù)以上的基因都以單拷貝的形式存在(圖1B)。與雙拷貝基因相比,單拷貝和多拷貝基因在各物種基因組中所占比例有更大差異。具體而言,雙拷貝基因家族中的基因數(shù)占各物種總基因數(shù)的比例從12.4% (大狐蝠)至21.1% (野豬)不等,斑馬魚基因組中有最多的多拷貝基因(34.2%)和最少的單拷貝基因(47.7%),而羊駝基因組中有最少的多拷貝基因(7.2%)和最多的單拷貝基因(80.1%) (圖1B)。
基因得失的似然法分析中,需要假定所分析的基因家族在所有物種最近共同祖先中至少含有一個基因。在57個脊椎動物物種包含的28 084個基因家族中,只有6857個基因家族符合這一要求,因此本研究只對這些基因家族的擴增與收縮模式進(jìn)行分析(圖2)。
脊椎動物最近共同祖先處6857個基因家族中有6712個都在至少一個種系中發(fā)生了擴增或收縮。在57個脊椎動物物種組成的系統(tǒng)發(fā)育樹的不同分支上基因家族擴增和收縮的模式來看,脊椎動物基因家族在大部分種系中都是收縮的,其中霍氏樹懶中有最大程度的收縮(發(fā)生擴增和收縮的基因家族分別有74個和2151個),而斑馬魚中有最大程度的擴增(發(fā)生擴增和收縮的基因家族分別有912個和343個) (圖2)。在鳥類中,除了斑胸草雀這一末端分支上發(fā)生了相對多的基因家族擴增以外,其他鳥類的基因家族均發(fā)生了較大收縮,這與鳥類基因組進(jìn)化過程中整體的基因組變小現(xiàn)象一致[32]。已知鳥類基因組是羊膜動物中最小的,研究表明廣泛的基因丟失比轉(zhuǎn)座子活性降低對維持鳥類較小的基因組有更重要的貢獻(xiàn)[33]。在輻鰭魚中,真骨附類進(jìn)化早期有大量的基因家族發(fā)生擴增,隨后又有較多的基因家族呈現(xiàn)出收縮的模式(圖2),這與真骨附類祖先物種發(fā)生了特有的全基因組復(fù)制以及復(fù)制后往往伴隨著大量的基因丟失現(xiàn)象基本吻合[34,35]。
似然法分析能夠識別基因家族大小的進(jìn)化速率顯著高于全基因組平均值的基因家族[28]。在所分析的6857個基因家族中,有148個是快速進(jìn)化的基因家族(<0.01%),其中22個快速進(jìn)化的基因家族在人這一末端分支上發(fā)生了顯著擴增。例如,CT抗原中CTAGE (cutaneous T-cell-lymphoma-associated antigen)基因家族是一類由生殖細(xì)胞系基因編碼的腫瘤/睪丸抗原,在人類的很多腫瘤中CT抗原會異常表達(dá)[36]。本研究的數(shù)據(jù)顯示,該基因家族在人類基因組中有10個拷貝,而在黑猩猩中的拷貝數(shù)為2,用CAFE軟件所推斷的人與黑猩猩最近共同祖先中的該基因家族拷貝數(shù)為2。之前有研究發(fā)現(xiàn)CTAGE基因家族在靈長類的進(jìn)化中發(fā)生了快速的擴增,人類基因組中的CTAGE基因家族包含了多個單外顯子基因拷貝,這些單外顯子拷貝基因受到明顯的正選擇作用,有可能對人類早期進(jìn)化中適應(yīng)性表型的產(chǎn)生有貢獻(xiàn)[37]。
圖1 脊椎動物系統(tǒng)發(fā)生關(guān)系及基因家族大小分布
A:66個物種的系統(tǒng)發(fā)育樹(數(shù)據(jù)來自Ensembl v.84 數(shù)據(jù)庫,圖中黑色節(jié)點及相應(yīng)的紅色文字表示物種分類);B:各物種全基因組水平的基因家族大小分布;C:各物種Orphan基因家族大小分布(條形圖中的藍(lán)、綠、紅分別表示單拷貝、雙拷貝及多拷貝基因)。
2.3.1 Orphan基因家族大小的跨物種分布模式
特定物種基因組中的基因指的是在其他物種基因組中找不到其同源基因的一類基因[38],它們被認(rèn)為與相應(yīng)物種具有的特異的發(fā)育模式,適應(yīng)特定的環(huán)境緊密相關(guān)[39]。本研究統(tǒng)計了上述66個物種基因組中各物種特異的基因家族及其成員基因的數(shù)量。結(jié)果表明,Orphan基因家族的數(shù)目和成員基因總數(shù)在這些物種中變異很大,如寬吻海豚基因組中僅有223個Orphan基因家族和相應(yīng)的226個基因;而玻璃海鞘則具有最多的4956個Orphan基因家族,共包含5383個成員基因。各物種基因組中基因所占比例從1.4% (寬吻海豚)到19.4% (鴨嘴獸)不等(表1,表2)。
圖2 脊椎動物中基因家族的擴增和收縮
分支上“/”線左右兩側(cè)的數(shù)字分別表示該分支上發(fā)生擴增及收縮的基因家族的數(shù)量;物種名稱之后的數(shù)字表示相應(yīng)物種基因組中發(fā)生擴增及收縮的基因家族的數(shù)量。黑色和紅色分支分別表示從整體來說基因家族在特定分支上是擴增或收縮的。右側(cè)橘色、藍(lán)色和綠色的豎線分別標(biāo)注了哺乳動物、鳥類及輻鰭魚類在系統(tǒng)發(fā)育樹中的位置。
進(jìn)一步統(tǒng)計顯示,基因在絕大部分物種中主要以單拷貝的形式存在,而斑馬魚、腔棘魚、熱帶爪蟾和馬中有相對較多的多拷貝的基因(圖1C)。例如,馬基因組有最高比例的多拷貝基因,這些基因分布在28個多拷貝的Orphan基因家族中,包含1055個基因,占該物種所有基因的67%。其中有兩個家族分別含有514和271個基因,GO功能注釋信息顯示這些基因富集于RNA介導(dǎo)的轉(zhuǎn)座這一功能類別。也就是說,馬中多拷貝基因的高比例很可能是由逆轉(zhuǎn)錄轉(zhuǎn)座產(chǎn)生了個別較大的基因家族而導(dǎo)致的。
表2 物種特異性O(shè)rphan基因家族及成員基因的數(shù)量
續(xù)表
物種名稱單拷貝基因家族雙拷貝基因家族多拷貝基因家族Orphan基因家族總數(shù)最大Orphan基因家族的大小 小棕蝠(M. lucifugus)97641 (82)25 (202)1042 (1260)65 大狐蝠(P. vampyrus)28212 (24)1 (4)295 (310)4 馬(E. caballus)49212 (24)28 (1055)532 (1571)514 家貓(F. catus)104910 (20)6 (26)1065 (1095)8 狗(C. l. familiaris)133416 (32)4 (27)1354 (1393)15 大熊貓(A. melanoleuca)7617 (14)0 (0)768 (775)2 雪貂(M. p. furo)20118 (16)4 (14)2023 (2041)4 北美鼠兔(O. princeps)53811 (22)6 (21)555 (581)4 穴兔(O. cuniculus)84131 (62)24 (137)896 (1040)17 豚鼠(C. porcellus)65725 (50)21 (108)703 (815)12 斑紋地松鼠(I. tridecemlineatus)45510 (20)6 (20)471 (495)4 奧氏更格盧鼠(D. ordii)51612 (24)6 (30)534 (570)9 褐家鼠(R. norvegicus)105459 (118)36 (218)1149 (1390)26 小鼠(M. musculus)75240 (80)39 (339)831 (1171)104 樹鼩(T. belangeri)83516 (32)13 (130)864 (997)78 小耳大嬰猴(O. garnettii)80515 (30)5 (40)825 (875)20 倭狐猴(M. murinus)57612 (24)3 (12)591 (612)5 菲律賓眼鏡猴(T. syrichta)57415 (30)8 (45)597 (649)16 狨猴(C. jacchus)159136 (72)12 (57)1639 (1720)8 綠猴(C. sabaeus)3591 (2)0 (0)360 (361)2 恒河猴(M. mulatta)169936 (72)26 (149)1761 (1920)12 東非狒狒(P. anubis)3590 (0)0 (0)359 (359)0 白頰長臂猿(N. leucogenys)4213 (6)1 (3)425 (430)3 蘇門答臘猩猩(P. abelii)81929 (58)1 (9)849 (886)9 西非低地大猩猩(G. g. gorilla)95025 (50)4 (18)979 (1018)6 黑猩猩(P. troglodytes)2976 (12)4 (13)307 (322)4 人(H. sapiens)33241 (82)15 (61)388 (475)12
括號中的數(shù)字表示成員基因的數(shù)量;基因家族的大小指基因家族中包含的基因個數(shù)。
2.3.2基因特征
以人類基因組中鑒定到的475個基因為例,分別從序列屬性、表達(dá)水平、基因表達(dá)的組織特異性、功能注釋等方面探究了基因的部分特征。
由圖3A可知,基因編碼的蛋白其序列長度顯著低于非基因編碼的蛋白(曼-惠特尼U檢驗,<2.20×10–16)。對該基因在16種人類組織的表達(dá)水平進(jìn)行分析,發(fā)現(xiàn)這475個基因中只有292個基因有可利用的表達(dá)譜數(shù)據(jù)。與非基因相比,這些基因的表達(dá)水平較低(曼-惠特尼U檢驗,<2.20×10–16) (圖3B);約60%的基因都是組織特異性表達(dá)(圖3C),且主要傾向于在淋巴結(jié)中特異性表達(dá)(圖3D),這暗示基因可能與免疫響應(yīng)密切相關(guān)。
為了揭示出這些基因可能的生物學(xué)功能,本研究對基因進(jìn)行功能富集分析。結(jié)果表明,盡管基因與非基因相比具有更高比例的未知功能基因(圖4A),但已知功能的基因主要參與角質(zhì)化、皮膚發(fā)育、上皮細(xì)胞分化、免疫響應(yīng)等生物學(xué)過程(圖4B)。
2.3.3 種系特異性基因家族的起源和進(jìn)化
上述分析只涉及單個物種的特異性基因,而種系特異性基因?qū)τ诶斫馓囟ǚ诸悓W(xué)階元的物種的基因組和表型進(jìn)化也具有重要的意義。因此本研究進(jìn)一步對種系特異性基因家族進(jìn)行了鑒定。參考文獻(xiàn)[40]中的方法,對于系統(tǒng)發(fā)育樹上感興趣的內(nèi)部節(jié)點,當(dāng)某基因家族包含了該節(jié)點下半數(shù)以上物種的基因時,該基因家族即被認(rèn)為是相應(yīng)節(jié)點起源的種系特異性基因家族。按照此原則,共有9488個種系特異性基因家族分布到脊椎動物主要類群系統(tǒng)發(fā)育樹的節(jié)點上(圖5)。
數(shù)據(jù)顯示,從64個脊椎動物物種共同祖先起源的基因家族有1854個,脊椎動物在進(jìn)化過程中,自有頜綱祖先物種起源的基因家族數(shù)量最多,為3839個。
圖3 orphan基因的序列長度與表達(dá)模式
A:人類基因組中基因、非基因編碼的氨基酸序列長度;B:基因及非基因的表達(dá)水平(該圖反映了特定表達(dá)水平(x軸)對應(yīng)的基因所占的比例(y軸),每個基因的表達(dá)水平以所有樣本中該基因表達(dá)水平的平均值取log來表示);C:基因與非基因中廣譜表達(dá)基因及組織特異性表達(dá)基因所占的比例;D:組織特異性表達(dá)的基因和非基因在各組織中的分布。
圖4 orphan基因的功能注釋
A:基因和非基因中有GO注釋的基因所占的比例;B:基因的功能富集。
圖5 脊椎動物不同種系中基因家族的數(shù)量
魚類在早期進(jìn)化中發(fā)生了一次該類群特異性的全基因組復(fù)制事件。數(shù)據(jù)顯示輻鰭魚特有的基因家族高達(dá)453個,推測這可能與魚類特異的全基因組復(fù)制事件有關(guān)(圖5)。當(dāng)把腔棘魚考慮在內(nèi)時,硬骨魚特有的基因家族則有183個,根據(jù)簡約法原理,這些基因家族很可能是四足動物進(jìn)化早期丟失的基因家族。為了調(diào)查這些基因是否對脊椎動物由水生到陸生的進(jìn)化方式有貢獻(xiàn),本研究利用ZFIN (The Zebrafish Information Network)數(shù)據(jù)庫中的基因表達(dá)、基因敲除、基因敲低數(shù)據(jù)對這些基因進(jìn)行了分析。結(jié)果發(fā)現(xiàn)有84個基因其功能與魚類特有的發(fā)育過程關(guān)系密切:分別有9個基因與鰭的發(fā)育有關(guān),11個基因與軀干、體節(jié)、尾巴發(fā)育有關(guān),7個基因與耳石及耳朵的發(fā)育有關(guān),15個基因與腎臟發(fā)育有關(guān),24個基因與眼睛及27個基因與大腦發(fā)育相關(guān)。這暗示脊椎動物從水生到陸生轉(zhuǎn)變中某些關(guān)鍵特征的形成,如鰭到肢的轉(zhuǎn)變、耳的重塑以及排氮形式的改變等與四足動物中特定基因的缺失有著密切聯(lián)系。Amemiya等[41]鑒定到的55個在四足動物早期進(jìn)化中丟失的基因中,有20個基因在本研究分析中得到了進(jìn)一步證實。
為了探究硬骨魚特有基因的表達(dá)特征,本研究以斑馬魚中的硬骨魚特有基因為對象進(jìn)行了分析。結(jié)果表明,斑馬魚中硬骨魚特有的基因通常比非特有基因的表達(dá)水平低(圖6A,曼-惠特尼U檢驗,< 2.20×10–16),但這些基因表達(dá)的組織特異性較高,且主要集中在鰓中特異性表達(dá)(圖6B),這反映了硬骨魚特有基因在硬骨魚特異的發(fā)育過程中發(fā)揮了至關(guān)重要的作用。
本研究還調(diào)查了鳥類特有的基因家族。在199個鳥類特有的基因家族中,有134個家族含有共151個雞的直系同源基因,GO功能富集分析(<0.05)顯示其中許多基因參與了對細(xì)菌的防御響應(yīng)以及與細(xì)胞骨架的結(jié)構(gòu)成分有關(guān)。這些基因中有7個注釋為羽毛角蛋白基因,分別是、、、、、和。與魚類中觀察結(jié)果相似,鳥類特有的基因相對非鳥類特有的基因通常表達(dá)水平更低(圖6C,曼-惠特尼U檢驗,= 1.65×10–8)、表達(dá)的組織特異性更高,但無顯著的組織偏好性(圖6D)。
本研究對跨約6億年進(jìn)化時間的64個脊椎動物物種及2個海鞘綱外群物種進(jìn)行了基因家族的鑒定和初步分析,揭示了脊椎動物基因家族大小的動態(tài)進(jìn)化,并對部分基因家族拷貝數(shù)變異與特定分類群的宏進(jìn)化之間的聯(lián)系進(jìn)行了推測。從全基因組水平來看,脊椎動物中的基因主要以單拷貝的形式存在,這與植物中觀察到的現(xiàn)象不同。植物基因組中的基因大都以多基因家族的形式存在[20],這主要是由于植物中除了小規(guī)模復(fù)制外,還發(fā)生了非常廣泛的全基因組復(fù)制事件。而脊椎動物中除了進(jìn)化早期發(fā)生的兩輪全基因組復(fù)制及真骨魚類中額外的全基因組復(fù)制外,只在兩棲類和輻鰭魚部分物種中發(fā)現(xiàn)獨立的全基因組復(fù)制事件[42,43]。
Demuth等[22]對人、黑猩猩、小鼠、大鼠和狗基因組中基因家族的擴增與收縮的研究發(fā)現(xiàn),在靈長類動物中,人的基因組中有最少的基因丟失,而且相比之下,黑猩猩在相同時期內(nèi)卻丟失了更多基因。本研究也得到一致的結(jié)果,這在一定程度上揭示了這兩個物種間表型差異背后的遺傳變化?;蚣易宓拇笮∈艿礁鞣N因素的影響?;驈?fù)制、基因的起源等會增加基因家族的大小;而基因缺失(包括單個基因或染色體片段中幾個基因的缺失)會使基因家族的大小減小[20]。除此之外,研究表明基因的功能也是決定基因家族大小的一個主要因素[22]。例如,脊椎動物中參與調(diào)控、信號轉(zhuǎn)導(dǎo)、轉(zhuǎn)錄、蛋白質(zhì)運輸和蛋白質(zhì)修飾的基因家族趨向于擴增,而參與新陳代謝過程的基因家族傾向于收縮。隨機過程與自然選擇是基因家族大小進(jìn)化的驅(qū)動力[22]。有研究表明不同真核生物中基因家族的大小與選擇壓力的關(guān)系有所差異,如在單細(xì)胞真核生物酵母中,選擇約束與基因家族的大小有很強的正相關(guān)關(guān)系,然而在多細(xì)胞真核生物中則呈現(xiàn)出弱的負(fù)相關(guān)[44]。
物種或種系特異性基因與其他物種中的基因序列不具有同源性,常被認(rèn)為可能對物種的適應(yīng)性進(jìn)化有重要貢獻(xiàn)[45~47]。本研究發(fā)現(xiàn)脊椎動物中的基因只在極個別物種中有較多的多拷貝,絕大多數(shù)仍以單拷貝的形式存在。與全基因組水平的基因家族大小分布相比,基因中單拷貝基因所占的比例高于全基因組中單拷貝基因的比例。這可能是由于脊椎動物中基因的復(fù)制能力低,或者是這些基因太“年輕”而沒有足夠的時間進(jìn)化出額外的拷貝。此外,基因的產(chǎn)生機制比較特殊,該基因的形成貫穿整個進(jìn)化歷程并且是一個持續(xù)不斷的過程,它不但可以通過復(fù)制和重排過程產(chǎn)生,也可以從基因組中的非編碼區(qū)起源[48]?;虮磉_(dá)數(shù)據(jù)與功能注釋等的結(jié)合進(jìn)一步揭示了脊椎動物中物種或種系特異性基因的一般屬性及其對物種適應(yīng)性的影響。詳細(xì)而言,這類基因通常編碼的蛋白質(zhì)序列長度較短、表達(dá)水平低、而表達(dá)的組織特異性高;硬骨魚特有的基因中包含了對魚類適應(yīng)水生環(huán)境的重要基因,鳥類特異性基因中富集了羽毛角蛋白基因,這些分析證實了該類基因?qū)ξ锓N或種系特異性表型創(chuàng)新的貢獻(xiàn)。其中,對鳥類特異性基因的研究中,增加鳥類樣本大小可能更有利于評估這類基因?qū)B類特異性適應(yīng)的影響。
圖6 硬骨魚、鳥類特有基因的表達(dá)分析
A:斑馬魚基因組中所包含的硬骨魚特有的基因及非特有基因的表達(dá)水平;B:組織特異性表達(dá)的硬骨魚特有基因和非特有基因在斑馬魚各組織中的分布;C:雞基因組中所含有的鳥類特有基因及非特有基因的表達(dá)水平;D:組織特異性表達(dá)的鳥類特有基因和非特有基因在雞不同組織中的分布。
綜上所述,本研究系統(tǒng)地闡述了脊椎動物進(jìn)化過程中動態(tài)的基因得失過程導(dǎo)致的不同種系間基因家族大小的差異及其蘊含的生物學(xué)意義,對物種或種系特異的基因的分析為理解脊椎動物間表型的多樣性提供了理論基礎(chǔ)。
[1] Huang S, Chen Z, Yan X, Yu T, Huang G, Yan Q, Pontarotti PA, Zhao H, Li J, Yang P, Wang R, Li R, Tao X, Deng T, Wang Y, Li G, Zhang Q, Zhou S, You L, Yuan S, Fu Y, Wu F, Dong M, Chen S, Xu A. Decelerated genome evolution in modern vertebrates revealed by analysis of multiple lancelet genomes, 2014, 5: 5896.
[2] Blomme T, Vandepoele K, de Bodt S, Simillion C, Maere S, van de Peer Y. The gain and loss of genes during 600 million years of vertebrate evolution, 2006, 7(5): R43.
[3] Bosch N, Cáceres M, Cardone MF, Carreras A, Ballana E, Rocchi M, Armengol L, Estivill X. Characterization and evolution of the novel gene family FAM90A in primates originated by multiple duplication and rearrangement events, 2007, 16(21): 2572–2582.
[4] Zhang J. Evolution by gene duplication: an update, 2003, 18(6): 292–298.
[5] Peng GZ, Chen LL, Tian DC. Progress in the study of gene duplication., 2006, 28(7): 886–892.彭貴子, 陳玲玲, 田大成. 基因重復(fù)研究進(jìn)展遺傳, 2006, 28(7): 886–892.
[6] Albalat R, Ca?estro C. Evolution by gene loss, 2016, 17(7): 379–391.
[7] Lin Q, Fan S, Zhang Y, Xu M, Zhang H, Yang Y, Lee AP, Woltering JM, Ravi V, Gunter HM, Luo W, Gao Z, Lim ZW, Qin G, Schneider RF, Wang X, Xiong P, Li G, Wang K, Min J, Zhang C, Qiu Y, Bai J, He W, Bian C, Zhang X, Shan D, Qu H, Sun Y, Gao Q, Huang L, Shi Q, Meyer A, Venkatesh B. The seahorse genome and the evolution of its specialized morphology, 2016, 540(7633): 395–399.
[8] Lespinet O, Wolf YI, Koonin EV, Aravind L. The role of lineage-specific gene family expansion in the evolution of eukaryotes, 2002, 12(7): 1048–1059.
[9] Li WH, Gu Z, Wang H, Nekrutenko A. Evolutionary analyses of the human genome, 2001, 409(6822): 847–849.
[10] Gu Z, Cavalcanti A, Chen FC, Bouman P, Li WH. Extent of gene duplication in the genomes of drosophila, nematode, and yeast, 2002, 19(3): 256– 262.
[11] Gilad Y, Man O, Glusman G. A comparison of the human and chimpanzee olfactory receptor gene repertoires, 2005, 15(2): 224–230.
[12] Johnson ME, Viggiano L, Bailey JA, Abdul-Rauf M, Goodwin G, Rocchi M, Eichler EE. Positive selection of a gene family during the emergence of humans and African apes, 2001, 413(6855): 514–519.
[13] McLysaght A, Baldi PF, Gaut BS. Extensive gene gain associated with adaptive evolution of poxviruses, 2003, 100(26): 15655–15660.
[14] Cheng CH, Chen L, Near TJ, Jin Y. Functional antifreeze glycoprotein genes in temperate-water New Zealand nototheniid fish infer an Antarctic evolutionary origin, 2003, 20(11): 1897–1908.
[15] Chen Z, Cheng CH, Zhang J, Cao L, Chen L, Zhou L, Jin Y, Ye H, Deng C, Dai Z, Xu Q, Hu P, Sun S, Shen Y, Chen L. Transcriptomic and genomic evolution under constant cold in antarctic notothenioid fish, 2008, 105(35): 12944–12949.
[16] Wang X, Grus WE, Zhang J. Gene losses during human origins, 2006, 4(3): e52.
[17] Fortna A, Kim Y, MacLaren E, Marshall K, Hahn G, Meltesen L, Brenton M, Hink R, Burgers S, Hernandez- Boussard T, Karimpour-Fard A, Glueck D, McGavran L, Berry R, Pollack J, Sikela JM. Lineage-specific gene duplication and loss in human and great ape evolution, 2004, 2(7): E207.
[18] Yu L, Wang GD, Ruan J, Chen YB, Yang CP, Cao X, Wu H, Liu YH, Du ZL, Wang XP, Yang J, Cheng SC, Zhong L, Wang L, Wang X, Hu JY, Fang L, Bai B, Wang KL, Yuan N, Wu SF, Li BG, Zhang JG, Yang YQ, Zhang CL, Long YC, Li HS, Yang JY, Irwin DM, Ryder OA, Li Y, Wu CI, Zhang YP. Genomic analysis of snub-nosed monkeys () identifies genes and processes related to high-altitude adaptation, 2016, 48(8): 947–952.
[19]Genome Project. Thegenome and the evolution of flowering plants, 2013, 342 (6165): 1241089.
[20] Guo YL. Gene family evolution in green plants with emphasis on the origination and evolution ofthaliana genes, 2013, 73(6): 941–951.
[21] Demuth JP, de Bie T, Stajich JE, Cristianini N, Hahn MW. The evolution of mammalian gene families, 2006, 1: e85.
[22] Prachumwat A, Li WH. Gene number expansion and contraction in vertebrate genomes with respect to invertebrate genomes, 2008, 18(2): 221–232.
[23] Meadows JRS, Lindblad-Toh K. Dissecting evolution and disease using comparative vertebrate genomics, 2017, 18(10): 624–636.
[24] Li L, Stoeckert CJJr., Roos DS. OrthoMCL: identification of ortholog groups for eukaryotic genomes, 2003, 13(9): 2178–2189.
[25] Enright AJ, van Dongen S, Ouzounis CA. An efficient algorithm for large-scale detection of protein families, 2002, 30(7): 1575–1584.
[26] de Bie T, Cristianini N, Demuth JP, Hahn MW. CAFE: a computational tool for the study of gene family evolution, 2006, 22(10): 1269–1271.
[27] Hedges SB, Dudley J, Kumar S. TimeTree: A public knowledge-base of divergence times among organisms, 2006, 22(23): 2971–2972.
[28] Hahn MW, de Bie T, Stajich JE, Nguyen C, Cristianini N. Estimating the tempo and mode of gene family evolution from comparative genomic data, 2005, 15(8): 1153–1160.
[29] Hahn MW, Han MV, Han SG. Gene family evolution across 12genomes, 2007, 3(11): e197.
[30] Yanai I, Benjamin H, Shmoish M, Chalifa-Caspi V, Shklar M, Ophir R, Bar-Even A, Horn-Saban S, Safran M, Domany E, Lancet D, Shmueli O. Genome-wide midrange transcription profiles reveal expression level relationships in human tissue specification, 2005, 21(5): 650–659.
[31] Ruiz-Orera J, Hernandez-Rodriguez J, Chiva C, Sabidó E, Kondova I, Bontrop R, Marqués-Bonet T, Albà MM. Origins ofgenes in human and chimpanzee, 2015, 11(12): e1005721.
[32] Zhang G, Li C, Li Q, Li B, Larkin DM, Lee C, Storz JF, Antunes A, Greenwold MJ, Meredith RW, ?deen A, Cui J, Zhou Q, Xu L, Pan H, Wang Z, Jin L, Zhang P, Hu H, Yang W, Hu J, Xiao J, Yang Z, Liu Y, Xie Q, Yu H, Lian J, Wen P, Zhang F, Li H, Zeng Y, Xiong Z, Liu S, Zhou L, Huang Z, An N, Wang J, Zheng Q, Xiong Y, Wang G, Wang B, Wang J, Fan Y, da Fonseca RR, Alfaro-Nú?ez A, Schubert M, Orlando L, Mourier T, Howard JT, Ganapathy G, Pfenning A, Whitney O, Rivas MV, Hara E, Smith J, Farré M, Narayan J, Slavov G, Romanov MN, Borges R, Machado JP, Khan I, Springer MS, Gatesy J, Hoffmann FG, Opazo JC, H?stad O, Sawyer RH, Kim H, Kim KW, Kim HJ, Cho S, Li N, Huang Y, Bruford MW, Zhan X, Dixon A, Bertelsen MF, Derryberry E, Warren W, Wilson RK, Li S, Ray DA, Green RE, O'Brien SJ, Griffin D, Johnson WE, Haussler D, Ryder OA, Willerslev E, Graves GR, Alstr?m P, Fjelds? J, Mindell DP, Edwards SV, Braun EL, Rahbek C, Burt DW, Houde P, Zhang Y, Yang H, Wang J, Avian GC, Jarvis ED, Gilbert MT, Wang J. Comparative genomics reveals insights into avian genome evolution and adaptation, 2014, 346(6215): 1311– 1320.
[33] Kapusta A, Suh A, Feschotte C. Dynamics of genome size evolution in birds and mammals, 2017, 114(8): E1460–E1469.
[34] Hoegg S, Brinkmann H, Taylor JS, Meyer A. Phylogenetic timing of the fish-specific genome duplication correlates with the diversification of teleost fish, 2004, 59(2): 190–203.
[35] van de Peer Y, Maere S, Meyer A. The evolutionary significance of ancient genome duplications, 2009, 10(10): 725–732.
[36] Simpson AJ, Caballero OL, Jungbluth A, Chen YT, Old LJ. Cancer/testis antigens, gametogenesis and cancer, 2005, 5(8): 615–625.
[37] Zhang Q, Su B. Evolutionary origin and human-specific expansion of a cancer/testis antigen gene family, 2014, 31(9): 2365–2375.
[38] Fischer D, Eisenberg D. Finding families for genomic ORFans, 1999, 15(9): 759–762.
[39] Long M, Betrán E, Thornton K, Wang W. The origin of new genes: glimpses from the young and old, 2003, 4(11): 865–875.
[40] Luis Villanueva-Ca?as J, Ruiz-Orera J, Agea MI, Gallo M, Andreu D, Albà MM. New genes and functional innovation in mammals, 2017, 9(7): 1886–1900.
[41] Amemiya CT, Alf?ldi J, Lee AP, Fan S, Philippe H, Maccallum I, Braasch I, Manousaki T, Schneider I, Rohner N, Organ C, Chalopin D, Smith JJ, Robinson M, Dorrington RA, Gerdol M, Aken B, Biscotti MA, Barucca M, Baurain D, Berlin AM, Blatch GL, Buonocore F, Burmester T, Campbell MS, Canapa A, Cannon JP, Christoffels A, de Moro G, Edkins AL, Fan L, Fausto AM, Feiner N, Forconi M, Gamieldien J, Gnerre S, Gnirke A, Goldstone JV, Haerty W, Hahn ME, Hesse U, Hoffmann S, Johnson J, Karchner SI, Kuraku S, Lara M, Levin JZ, Litman GW, Mauceli E, Miyake T, Mueller MG, Nelson DR, Nitsche A, Olmo E, Ota T, Pallavicini A, Panji S, Picone B, Ponting CP, Prohaska SJ, Przybylski D, Saha NR, Ravi V, Ribeiro FJ, Sauka-Spengler T, Scapigliati G, Searle SM, Sharpe T, Simakov O, Stadler PF, Stegeman JJ, Sumiyama K, Tabbaa D, Tafer H, Turner-Maier J, van Heusden P, White S, Williams L, Yandell M, Brinkmann H, Volff JN, Tabin CJ, Shubin N, Schartl M, Jaffe DB, Postlethwait JH, Venkatesh B, Di Palma F, Lander ES, Meyer A, Lindblad-Toh K. The African coelacanth genome provides insights into tetrapod evolution, 2013, 496(7445): 311–316.
[42] Mable BK, Alexandrou MA, Taylor MI. Genome duplication in amphibians and fish: an extended synthesis, 2011, 284(3): 151–182.
[43] Session AM, Uno Y, Kwon T, Chapman JA, Toyoda A, Takahashi S, Fukui A, Hikosaka A, Suzuki A, Kondo M, van Heeringen SJ, Quigley I, Heinz S, Ogino H, Ochi H, Hellsten U, Lyons JB, Simakov O, Putnam N, Stites J, Kuroki Y, Tanaka T, Michiue T, Watanabe M, Bogdanovic O, Lister R, Georgiou G, Paranjpe SS, van Kruijsbergen I, Shu S, Carlson J, Kinoshita T, Ohta Y, Mawaribuchi S, Jenkins J, Grimwood J, Schmutz J, Mitros T, Mozaffari SV, Suzuki Y, Haramoto Y, Yamamoto TS, Takagi C, Heald R, Miller K, Haudenschild C, Kitzman J, Nakayama T, Izutsu Y, Robert J, Fortriede J, Burns K, Lotay V, Karimi K, Yasuoka Y, Dichmann DS, Flajnik MF, Houston DW, Shendure J, DuPasquier L, Vize PD, Zorn AM, Ito M, Marcotte EM, Wallingford JB, Ito Y, Asashima M, Ueno N, Matsuda Y, Veenstra GJ, Fujiyama A, Harland RM, Taira M, Rokhsar DS. Genome evolution in the allotetraploid frog, 2016, 538(7625): 336–343.
[44] Conant GC, Wagner A. Genomehistory: a software tool and its application to fully sequenced genomes, 2002, 30(15): 3378–3386.
[45] Wilson GA, Bertrand N, Patel Y, Hughes JB, Feil EJ, Field D. Orphans as taxonomically restricted and ecologically important genes, 2005, 151(Pt8): 2499– 2501.
[46] Zhang YE, Long M. New genes contribute to genetic and phenotypic novelties in human evolution, 2014, 29: 90–96.
[47] Toll-Riera M, Bosch N, Bellora N, Castelo R, Armengol L, Estivill X, Albà MM. Origin of primate orphan genes: a comparative genomics approach, 2009, 26(3): 603–612.
[48] Tautz D, Domazet-Lo?o T. The evolutionary origin of orphan genes, 2011, 12(10): 692–702.
Comparative analysis of gene family size provides insight into the adaptive evolution of vertebrates
Yu Meng, Ruolin Yang
Copy numbers of homologous gene families vary greatly among different species, which is caused by the differences in the rates of gene gain and loss. It is well known that gene copy number variation can be responsible for the phenotypic novelties of particular species. In this study, 64 species that represent the main vertebrate groups spanning evolutionary period of about 600 million years were selected and the homology of gene families across these species were established, thereby revealing the evolutionary patterns of gene family size in vertebrates. The results show that among the 6857 gene families inferred to be present in the most recent common ancestor of the vertebrates, 6712 had changed their sizes in at least one lineage, and these gene families had contracted in most cases. Gene families inandhad undergone the greatest contraction and expansion, respectively. Based on the highly dynamic evolution of vertebrate gene family size, we sought to identify any genomic signals that might be related to the evolution of specific vertebrate populations from the perspective of the distinct gene family size changes. We observed a high proportion of gene family amplification occurred, probably due to genome-wide duplication in the recent common ancestral genome of teleosts, which was followed by contraction in the decedents due to the extensive gene fractionation. Furthermore, we found evidence that orphan genes in the bony fish might contribute to the adaptive evolution of fish in aquatic environment. For example, some orphan genes were involved in fin development, tail development and kidney physiology. Overall, our work provides novel insights into the evolution of vertebrate gene family size and provides several lines of evidence for understanding the relationship between the genome evolution and phenotypic diversity in vertebrates.
vertebrates; gene family; adaptive evolution;gene
2018-08-06;
2018-12-13
孟玉,碩士研究生,專業(yè)方向:遺傳學(xué)。E-mail: m1994yu@163.com
楊若林,教授,博士生導(dǎo)師,研究方向:進(jìn)化遺傳學(xué)和生物信息學(xué)。E-mail: desert.ruolin@gmail.com
10.16288/j.yczz.18-225
2019/1/14 13:15:21
URI: http://kns.cnki.net/kcms/detail/11.1913.R.20190114.1315.004.html
(責(zé)任編委: 于黎)