聶虎, 曹莎莎, 趙明朗, 杜林方
(四川大學(xué)生命科學(xué)學(xué)院, 生物資源與生態(tài)環(huán)境教育部重點實驗室,成都610065)
紅尾蚺和原矛頭蝮基因組微衛(wèi)星分布特征比較分析
聶虎, 曹莎莎, 趙明朗, 杜林方*
(四川大學(xué)生命科學(xué)學(xué)院, 生物資源與生態(tài)環(huán)境教育部重點實驗室,成都610065)
本研究分析比較了紅尾蚺Boaconstrictor和原矛頭蝮Protobothropsmucrosquamatus基因組微衛(wèi)星的分布特征,通過MISA分別鑒定出398 860個和422 364個微衛(wèi)星,其長度分別為8 550 741 bp和12 243 226 bp,分別占基因組序列總長度的0.59%和0.73%,在各自基因組中的豐度分別為275.46個/Mbp和252.33個/Mbp。紅尾蚺基因組中單堿基重復(fù)類型微衛(wèi)星最多,其次是四堿基、二堿基、三堿基、五堿基和六堿基,最豐富的5種微衛(wèi)星類型是A、AC、AAAT、AG、AAT;原矛頭蝮基因組中單堿基重復(fù)類型微衛(wèi)星最多,其次是三堿基、四堿基、二堿基、五堿基和六堿基,最豐富的5種微衛(wèi)星類型是A、AAT、AC、C、AAAT。紅尾蚺和原矛頭蝮微衛(wèi)星在基因組不同區(qū)域豐度不同,基因間區(qū)豐度最高,其次是內(nèi)含子和外顯子,編碼區(qū)微衛(wèi)星豐度最低,表明編碼區(qū)微衛(wèi)星受到的選擇壓力最大。紅尾蚺和原矛頭蝮在基因中微衛(wèi)星豐度分布的位置特征相似,即微衛(wèi)星在基因上下游500 bp豐度最高,在內(nèi)含子次之,在外顯子最低。紅尾蚺和原矛頭蝮基因編碼區(qū)所有6種重復(fù)類型微衛(wèi)星中,三堿基重復(fù)類型占絕對優(yōu)勢。紅尾蚺和原矛頭蝮基因組中含有微衛(wèi)星的編碼序列分別有1 480條和1 397條,被GO注釋的分別有736條和733條。它們的GO功能歸類結(jié)果類似,但是與其他物種相比存在種系差異。本研究結(jié)果為后續(xù)開發(fā)這2種蛇的高質(zhì)量微衛(wèi)星標(biāo)記提供了方便,也為進一步探索這些微衛(wèi)星在它們基因組中的生物學(xué)功能提供了有意義的基礎(chǔ)數(shù)據(jù)。
紅尾蚺; 原矛頭蝮; 基因組微衛(wèi)星; 豐度分布
微衛(wèi)星是由1~6個核苷酸為基本重復(fù)單元構(gòu)成的簡單串聯(lián)重復(fù)序列,廣泛分布于動植物基因組中,但其在基因編碼區(qū)、非翻譯區(qū)和內(nèi)含子的分布并不隨機,并且5’UTR、3’UTR和內(nèi)含子、外顯子微衛(wèi)星的收縮或擴張可通過多種方式引起基因功能的改變,從而影響細胞功能,最終導(dǎo)致表型變化和疾病發(fā)生(Lietal., 2004)?;蚪M層面的微衛(wèi)星分析有助于比較不同物種之間微衛(wèi)星的分布特征、了解基因組功能,并為開發(fā)微衛(wèi)星標(biāo)記提供方便(李午佼等,2014;Wangetal., 2016)。
紅尾蚺Boaconstrictor又稱紅尾蟒,蚺科Boidae卵胎生無毒蛇,主要分布于中美洲、南美洲以及加勒比海附近的一些島嶼。在某些地區(qū),紅尾蚺能調(diào)節(jié)負鼠Didelphisvirginiana的種群規(guī)模,防止利什曼病傳播給人類(Laurie & Janalee,2009);原矛頭蝮Protobothropsmucrosquamatus又稱龜殼花,蝰科Viperidae原矛頭蝮屬Protobothrops管牙類毒蛇,廣泛分布于中國大陸以及印度、孟加拉、緬甸等地,已被列入中華人民共和國國家林業(yè)局2000年8月1日發(fā)布的《國家保護的有益的或者有重要經(jīng)濟、科學(xué)研究價值的陸生野生動物名錄》。紅尾蚺和原矛頭蝮高質(zhì)量的全基因組測序和組裝已經(jīng)完成(Kajitanietal., 2014;Kerkkampetal., 2016),這為在基因組水平上開展紅尾蚺和原矛頭蝮微衛(wèi)星研究提供了可能。
本研究主要目的有:第一,比較有毒蛇原矛頭蝮和無毒蛇紅尾蚺基因組層面微衛(wèi)星數(shù)量、種類和豐度的異同;第二,比較2種蛇基因組不同區(qū)域(即基因間區(qū)、內(nèi)含子和外顯子)微衛(wèi)星的分布特征;第三,比較2種蛇基因區(qū)微衛(wèi)星豐度分布的位置特征;第四,探討含有微衛(wèi)星的編碼序列(coding sequence,CDS)的功能,分析含有微衛(wèi)星的編碼基因在2種蛇中的差異。本研究有助于加深對蚺科和蝰科基因組的認識和了解,也為后續(xù)篩選和開發(fā)大量高質(zhì)量的2種蛇類微衛(wèi)星標(biāo)記提供方便。
1.1數(shù)據(jù)來源
原矛頭蝮、人Homosapiens和小鼠Musmusculus的基因組從NCBI Genome數(shù)據(jù)庫下載,登錄號分別為GCF_001527695.2、GCF_000001405.36、GCF_000001635.25。紅尾蚺的基因組從http://platanus.bio.titech.ac.jp/Snake.tgz下載(Kajitanietal., 2014)。
1.2微衛(wèi)星鑒定
利用MISA在紅尾蚺和原矛頭蝮基因組中搜索1~6個核苷酸重復(fù)類型微衛(wèi)星(Thieletal., 2003)。運行MISA時,misa.ini文件def設(shè)置為“1-12 2-7 3-5 4-4 5-4 6-4”,int設(shè)置為100,即單核苷酸重復(fù)次數(shù)不小于12次,二核苷酸重復(fù)次數(shù)不小于7次,三核苷酸重復(fù)次數(shù)不小于5次,四核甘酸、五核苷酸和六核苷酸重復(fù)次數(shù)都不小于4次,如果2個微衛(wèi)星之間距離小于100 bp,則認為是1個復(fù)合型微衛(wèi)星。
1.3微衛(wèi)星分類
根據(jù)重復(fù)單元的序列,對微衛(wèi)星進行分類。如果2個微衛(wèi)星是循環(huán)排列或者反向互補,則認為這2個微衛(wèi)星屬于同一類。比如微衛(wèi)星ACG包括了微衛(wèi)星ACG、CGA、GAC、TGC、GCT和CTG(Jurka & Pethiyagoda,1995)。
1.4微衛(wèi)星在基因組中的分布
通過微衛(wèi)星與特定區(qū)域的位置重疊,計算出微衛(wèi)星在各個區(qū)域的分布。如果微衛(wèi)星的位置與編碼基因,或外顯子,或內(nèi)含子的位置完全重疊,則認為微衛(wèi)星位于編碼基因,或外顯子,或內(nèi)含子。否則,認為微衛(wèi)星位于基因間區(qū)。另外,若微衛(wèi)星位于基因上游或下游500 bp,則認為微衛(wèi)星位于基因上游或下游。
1.5微衛(wèi)星在基因組中的豐度分布
為計算微衛(wèi)星在基因組中的豐度分布,把基因中的外顯子和內(nèi)含子歸為以下13種元件:基因上游500 bp、第一個外顯子、第一個內(nèi)含子、第二個外顯子、第二個內(nèi)含子、中間左邊外顯子、中間內(nèi)含子、中間右邊外顯子、倒數(shù)第二個內(nèi)含子、倒數(shù)第二個外顯子、倒數(shù)第一個內(nèi)含子、倒數(shù)第一個外顯子和基因下游500 bp。微衛(wèi)星在某個類型元件中的相對位置為微衛(wèi)星到元件左端的距離除以元件長度與微衛(wèi)星長度的差。微衛(wèi)星的豐度為某個類型元件中微衛(wèi)星的數(shù)量除以元件長度,單位為個/Mbp (Fujimorietal., 2003)。具體的計算過程如圖1。
1.6含微衛(wèi)星的CDS的功能分析
對微衛(wèi)星坐標(biāo)和基因CDS的坐標(biāo)進行重疊,如果某個基因CDS含有微衛(wèi)星,則篩選出該CDS。將篩選出來的CDS通過BLASTx比對到NR蛋白質(zhì)數(shù)據(jù)庫,然后對注釋出的蛋白進行GO功能分析(Conesaetal., 2005)。使用OrthoMCL對含有微衛(wèi)星的CDS進行基因家族分析(Lietal., 2003)。
2.1紅尾蚺和原矛頭蝮基因組中微衛(wèi)星的分布特征
利用MISA搜索微衛(wèi)星,在紅尾蚺1.48 G全基因組序列中共搜索到398 860個微衛(wèi)星,總長度為8 550 741 bp,占基因組序列總長度的0.59%。在原矛頭蝮1.67 G全基因組序列中共搜索到422 364個微衛(wèi)星,總長度為12 243 226 bp,占基因組序列總長度的0.73%。紅尾蚺和原矛頭蝮基因組中微衛(wèi)星的豐度分別為275.46個/Mbp和252.33個/Mbp(表1),兩者比較相似。紅尾蚺基因組中最多的5種微衛(wèi)星類型為A、AC、AAAT、AG和AAT,原矛頭蝮基因組中最多的5種微衛(wèi)星類型為A、AAT、AC、C和AAAT(表2),兩者最常見的微衛(wèi)星類型有所不同。紅尾蚺基因組6種重復(fù)類型微衛(wèi)星中,最豐富的是單堿基重復(fù)類型,其次是四堿基、二堿基、三堿基、五堿基和六堿基重復(fù)類型。原矛頭蝮基因組6種重復(fù)類型微衛(wèi)星中,最豐富的也是單堿基重復(fù)類型,其次是三堿基、四堿基、二堿基、五堿基、六堿基重復(fù)類型。2個物種單堿基重復(fù)類型最豐富的都是(A)n,紅尾蚺(A)n類型占單堿基重復(fù)類型的88.86%,原矛頭蝮(A)n類型占單堿基重復(fù)類型的74.37%(表1,表3)。紅尾蚺基因組四堿基重復(fù)類型以(AAAT)n、(AAAC)n、(AATG)n和(AATG)n為主,原矛頭蝮基因組三堿基重復(fù)類型以(AAT)n、(AGG)n、(AAC)n、和(ATG)n為主。2個物種六堿基重復(fù)類型豐度最低,都以(ACATAT)n為主。
圖1 微衛(wèi)星豐度分布的計算方法Fig. 1 Method to calculate the distribution of microsatellites abundance
通過分析和比較微衛(wèi)星在紅尾蚺基因組和原矛頭蝮基因組中各個區(qū)域的分布,發(fā)現(xiàn)基因間區(qū)微衛(wèi)星數(shù)量最多、豐度最高,其次是內(nèi)含子和外顯子,編碼區(qū)數(shù)量最少、豐度最低。另外,還發(fā)現(xiàn)紅尾蚺基因組和原矛頭蝮基因組非翻譯區(qū)微衛(wèi)星的豐度比編碼區(qū)高(表4)。對人和小鼠基因組中的微衛(wèi)星進行鑒定和分析,發(fā)現(xiàn)這2種蛇基因組與這2種哺乳動物相比,編碼區(qū)微衛(wèi)星的數(shù)量和豐度差異很小,而在基因間區(qū)、外顯子和內(nèi)含子微衛(wèi)星的數(shù)量和豐度差異較大(表4)。
表1 紅尾蚺和原矛頭蝮基因組中微衛(wèi)星的分布Table 1 Distribution of microsatellites in the genomes of Boa constrictor and Protobothrops mucrosquamatus
注: 豐度=某類型微衛(wèi)星數(shù)量/基因組大小; 比例=某類型微衛(wèi)星數(shù)量/微衛(wèi)星總數(shù)。
Notes: Abundance=number of certain repeat microsatellites/genome size; percentage=number of certain repeat microsatellites/total number of microsatellites.
分析紅尾蚺和原矛頭蝮基因組編碼區(qū)、外顯子和內(nèi)含子中微衛(wèi)星的重復(fù)類型,發(fā)現(xiàn)兩者編碼區(qū)和外顯子主要是三堿基重復(fù)類型,紅尾蚺基因組編碼區(qū)三堿基重復(fù)類型占編碼區(qū)微衛(wèi)星的84.07%,原矛頭蝮編碼區(qū)三堿基重復(fù)類型占編碼區(qū)微衛(wèi)星的95.11%(圖2:B)。紅尾蚺和原矛頭蝮基因間區(qū)中微衛(wèi)星的類型主要是單堿基、四堿基、二堿基和三堿基重復(fù)類型,各種類型都不占主導(dǎo)優(yōu)勢(圖2:D),其分布和整個基因組中微衛(wèi)星的分布類似(圖2:A)。比較編碼區(qū)和外顯子微衛(wèi)星的重復(fù)類型(圖2:B,C),發(fā)現(xiàn)外顯子單堿基重復(fù)類型比編碼區(qū)多,而外顯子包括編碼區(qū)和非翻譯區(qū),說明非翻譯區(qū)以單堿基重復(fù)類型為主。
2.2基因中微衛(wèi)星豐度分布的位置特征
紅尾蚺基因組中有1 552個CDS含有微衛(wèi)星,其中只含有1個、2個、3個和4個微衛(wèi)星的CDS分別有1 480個、61個、8個和3個。原矛頭蝮基因組中有1 397個CDS含有微衛(wèi)星,其中只含有1個、2個、3個、4個和5個微衛(wèi)星的CDS分別有1 308個、69個、15個、4個和1個。紅尾蚺基因組中含有4個微衛(wèi)星的CDS有3個,分別來源于基因ZFP36L2、H1C1、JUND。原矛頭蝮基因組中含有5個微衛(wèi)星的CDS來源于基因WNK2,含有4個微衛(wèi)星的CDS分別來源于基因PRDM2、H1C1、LOC107297696、SKOR2。計算每個區(qū)域微衛(wèi)星的豐度,發(fā)現(xiàn)紅尾蚺和原矛頭蝮基因組中微衛(wèi)星豐度分布相似(圖3)。
表2 紅尾蚺和原矛頭蝮基因組中最豐富的10種微衛(wèi)星類型Table 2 Ten most abundant microsatellites in the genomes of Boa constrictor and Protobothrops mucrosquamatus
表3 紅尾蚺和原矛頭蝮基因組6種重復(fù)類型中最常見的4種微衛(wèi)星Table 3 The four common microsatellites of 6 types in the genomes of Boa constrictor and Protobothrops mucrosquamatus
注: 括號內(nèi)數(shù)字表示該重復(fù)類型在基因組中出現(xiàn)的次數(shù), 后面的百分數(shù)表示占所在重復(fù)類型的百分比。
Notes: Number in parenthesis indicates occurrence number of the repeat and the following percentage means the percentage in the repeat.
表4 紅尾蚺、原矛頭蝮、人和小鼠基因組不同區(qū)域微衛(wèi)星的數(shù)量和豐度Table 4 The number and abundance of microsatellites in different genomic regions of Boa constrictor,Protobothrops mucrosquamatus, Homo sapiens and Mus musculus
紅尾蚺基因上游500 bp、外顯子、內(nèi)含子和基因下游500 bp各個區(qū)域微衛(wèi)星的豐度分別為318.40個/Mbp、83.41個/Mbp、255.15個/Mbp和320.79個/Mbp。原矛頭蝮基因上游500 bp、外顯子、內(nèi)含子和基因下游500 bp各個區(qū)域微衛(wèi)星豐度分別為392.34個/Mbp、70.17個/Mbp、242.66個/Mbp和380.36個/Mbp。在轉(zhuǎn)錄起始位點附近的微衛(wèi)星豐度最高,而且越靠近轉(zhuǎn)錄起始位點,微衛(wèi)星豐度越高。在基因上游500 bp和下游500 bp內(nèi)微衛(wèi)星呈對稱豐度分布,內(nèi)含子微衛(wèi)星豐度比外顯子高,且在內(nèi)含子分布較均勻,內(nèi)含子5’-和3’-微衛(wèi)星豐度要比內(nèi)含子內(nèi)部區(qū)域高。我們也計算了人和小鼠基因及其上下游微衛(wèi)星的豐度分布(圖3),人基因上游500 bp、外顯子、內(nèi)含子和基因下游500 bp各個區(qū)域微衛(wèi)星豐度分別為307.79個/Mbp、71.92個/Mbp、379.03個/Mbp,324.40個/Mbp,小鼠基因上游500 bp、外顯子、內(nèi)含子和基因下游500 bp各個區(qū)域微衛(wèi)星豐度分別為388.44個/Mbp、115.23個/Mbp、391.02個/Mbp、386.06個/Mbp。人和小鼠內(nèi)含子微衛(wèi)星豐度比外顯子高,這與紅尾蚺和原矛頭蝮基因組微衛(wèi)星的豐度分布類似。4個物種的基因組中,基因的第一個外顯子和最后一個外顯子微衛(wèi)星的豐度比內(nèi)部外顯子高。紅尾蚺和原矛頭蝮基因上下游500 bp內(nèi)微衛(wèi)星的豐度比內(nèi)含子高,而人和小鼠基因上下游500 bp內(nèi)微衛(wèi)星的豐度和內(nèi)含子比較接近。
2.3含有微衛(wèi)星的編碼序列的功能分析
紅尾蚺和原矛頭蝮基因組中含有微衛(wèi)星的CDS分別有1 552條和1 397條,分別來源于1 431個和1 291個蛋白編碼基因。提取紅尾蚺和原矛頭蝮基因組中含有微衛(wèi)星的CDS,使用BLASTx比對到NR數(shù)據(jù)庫,其中分別有1 066 (68.69%)條和1 047 (74.95%)條能比對到NR數(shù)據(jù)庫,然后對結(jié)果進行GO注釋,分別有736條和773條CDS能夠被GO功能歸類。紅尾蚺含有微衛(wèi)星的CDS被分配到3 142個GO條目,原矛頭蝮含有微衛(wèi)星的CDS被分配到3 268個GO條目。圖4展示了紅尾蚺和原矛頭蝮含有微衛(wèi)星的編碼區(qū)的GO功能注釋的比較?!癇iological process”本體中,“biological regulation”和“cellular process”分配的CDS數(shù)量最多;“Cellular component”本體中,“organelle”“cell part”和“cell”分配的CDS數(shù)量最多;“Molecular function”本體中,“binding”和“catalytic activity”分配的CDS數(shù)量最多。紅尾蚺和原矛頭蝮基因組中分配到“biological regulation” (GO:0065007)條目的CDS最多,分別有185條和175條,占各自總數(shù)的25.14%和22.64%。相比之下,人和小鼠基因組中含有微衛(wèi)星的CDS分別有1 644條和1 458條,分別來源于1 443個和1 331個編碼基因,其中分別有1 320條和1 155條CDS能比對到NR數(shù)據(jù)庫,分別有1 116條和954條CDS能夠被GO功能歸類。人和小鼠基因組中分配到“biological regulation” (GO:0065007)條目的CDS也最多,分別有321條和251條,占各自總數(shù)的28.76%和26.31%??傮w來看,紅尾蚺和原矛頭蝮基因組含有微衛(wèi)星的CDS的功能歸類相似,與人和小鼠相比存在一定差異。
圖2 紅尾蚺和原矛頭蝮基因組不同區(qū)域的微衛(wèi)星類型的分布Fig. 2 The distribution of microsatellite types in different genomic regions of Boa constrictor and Protobothrops mucrosquamatus
圖3 紅尾蚺、原矛頭蝮、人和小鼠基因區(qū)及其上下游微衛(wèi)星的豐度分布Fig. 3 The microsatellite abundance in gene regions and their upstream and downstream regions of Boa constrictor,Protobothrops mucrosquamatus, Homo sapiens and Mus musculus
1~13同圖1。
1-13 as same as in Fig. 1.
對紅尾蚺、原矛頭蝮、人和小鼠4個物種含有微衛(wèi)星的CDS使用OrthoMCL進行直系同源分析,一共可以歸類到494個基因家族,其中紅尾蚺和原矛頭蝮含有微衛(wèi)星的CDS可以歸類到263個基因家族,人和小鼠含有微衛(wèi)星的CDS可以歸類到328個基因家族,并且只有3個基因家族在這4個物種之間共享。共享的3個基因家族分別為ONECUT2 (one cut homeobox 2)基因家族、LOC107401594(cyclin-dependent kinase 8)基因家族和HOXD8 (homeobox D8)基因家族。紅尾蚺和原矛頭蝮含有微衛(wèi)星的CDS相比,兩者共享155個基因家族,紅尾蚺特有的基因家族有42個,原矛頭蝮特有的基因家族有66個。人和小鼠含有微衛(wèi)星的CDS相比,兩者共享141個基因家族,人特有的基因家族有97個,小鼠特有的基因家族有90個。2個蛇類物種和2個哺乳類物種含有微衛(wèi)星的CDS相比,共享的基因家族有97個,蛇類特有的基因家族有166個,哺乳類特有的基因家族有231個。
本研究從紅尾蚺(基因組大小為1.48 G,Contig N50為47 kb)和原矛頭蝮(基因組大小為1.67 G,Contig N50為21 kb)全基因組中分別鑒定出398 860個和422 364個微衛(wèi)星,數(shù)量的差異可能和基因組的大小、組裝質(zhì)量和物種基因組的特異性有關(guān)。Wang等(2016)從亞利桑那州樹皮蝎Centruroidesexilicauda和馬氏正鉗蝎Mesobuthusmartensii的全基因組中分別鑒定出114 026個和211 868個微衛(wèi)星,而亞利桑那州樹皮蝎的基因組大小為926 Mbp (Contig N50為5 kb),馬氏正鉗蝎的基因組大小為925 Mbp (Contig N50為45 kb),兩者基因組大小相近,而且是近源物種,但是鑒定出來的微衛(wèi)星數(shù)量差距很大,說明測序的質(zhì)量對基因組中微衛(wèi)星的識別有較大影響。本研究選取已測序蛇類物種中Contig N50最高的2個物種來做分析,主要是為了更加全面地鑒定出全基因組中的微衛(wèi)星。紅尾蚺和原矛頭蝮基因組中微衛(wèi)星的含量比較相近,分別占基因組的0.59%和0.73%,與大型哺乳動物大熊貓Ailuropodamelanoleuca(0.64%)和北極熊Ursusmaritimus(0.79%)相似(李午佼等,2014)。紅尾蚺和原矛頭蝮基因組中微衛(wèi)星的豐度分別為275.46個/Mbp和252.33個/Mbp,與大熊貓(371.8個/Mbp)、北極熊(405.6個/Mbp)相比偏低(李午佼等,2014),與人(315.93個/Mbp)、小鼠(342.68個/Mbp)相比也偏低,這是否暗示了蛇類物種基因組中微衛(wèi)星的豐度比哺乳類物種低,有待進一步確認。
圖4 紅尾蚺、原矛頭蝮、人和小鼠基因組中含有微衛(wèi)星的編碼區(qū)的GO功能歸類
Fig. 4 GO classifications of coding sequences with microsatellites in the genomes ofBoaconstrictor,Protobothropsmucrosquamatus,HomosapiensandMusmusculus
紅尾蚺與原矛頭蝮基因組中6種重復(fù)類型微衛(wèi)星所占比例的排序不一致,且最豐富的前5種微衛(wèi)星也不一致。研究發(fā)現(xiàn)大熊貓和北極熊基因組中6種重復(fù)類型微衛(wèi)星比例的排序和最豐富的前5種微衛(wèi)星都表現(xiàn)出一致性(李午佼等,2014)。大熊貓和北極熊都是熊科Ursidae動物,相比之下,紅尾蚺屬于蚺科而原矛頭蝮屬于蝰科。說明了基因組中微衛(wèi)星組成特征差異在一定程度上可以反映物種間的親緣關(guān)系。
蛇亞目Serpentes的紅尾蚺和原矛頭蝮、哺乳綱Mammalia靈長目Primates的人和小鼠以及哺乳綱食肉目Carnivora的大熊貓和北極熊(李午佼等,2014)、節(jié)肢動物門Arthropoda的亞利桑那州樹皮蝎和馬氏正鉗蝎(Wangetal., 2016)都是單堿基重復(fù)類型數(shù)量最多。但在其他物種的基因組中,如中國對蝦Fenneropenaeuschinensis(高煥等,2004)、蜜蜂Apismellifera(魏朝明等,2007)等出現(xiàn)了二堿基重復(fù)類型為主的情況,而釀酒酵母Saccharomycescerevisiae(Kattietal., 2001)、粗糙脈孢菌Neurosporacrassa(李成云等,2004)等基因組中占主導(dǎo)地位的是三堿基重復(fù)類型,說明不同物種中不同重復(fù)類型的豐度差異較大。不同物種的優(yōu)勢微衛(wèi)星重復(fù)類型不一樣,反映了不同物種基因組特征。有研究認為(A)n類型微衛(wèi)星的高頻出現(xiàn)是由高密度散在分布的逆轉(zhuǎn)錄轉(zhuǎn)座子,如Alu和LINE,以及經(jīng)加工的假基因的Poly A尾所產(chǎn)生的(Tóthetal., 2000)。紅尾蚺中重復(fù)序列含量最高的類型為LINE,占基因組的13.03%(Yinetal., 2016),與這一推測相符。
本研究4個物種中,非翻譯區(qū)(包括5’UTR和3’UTR)微衛(wèi)星的豐度都比編碼區(qū)高,說明微衛(wèi)星在非翻譯區(qū)聚集,推測其可能影響基因的轉(zhuǎn)錄活性。紅尾蚺和原矛頭蝮2個蛇類物種與人類和小鼠2個哺乳類物種相比,編碼區(qū)微衛(wèi)星的數(shù)量和豐度相差很小,而在基因的內(nèi)含子、外顯子和基因間區(qū)相差很大。這表明了蛇類與哺乳類基因中編碼區(qū)微衛(wèi)星的數(shù)量和豐度相差較小,可能是因為CDS在不同物種中比較保守,受到的選擇壓力大。
微衛(wèi)星對擴張和收縮非常敏感,編碼區(qū)單個單堿基重復(fù)、二堿基重復(fù)、四堿基重復(fù)和五堿基重復(fù)單元的插入或缺失都會導(dǎo)致移碼。本研究發(fā)現(xiàn),紅尾蚺基因編碼區(qū)中三堿基重復(fù)類型占編碼區(qū)總數(shù)的84.07%,原矛頭蝮基因編碼區(qū)中三堿基重復(fù)類型占編碼區(qū)總數(shù)的95.11%,在編碼區(qū)6種重復(fù)類型中占絕對優(yōu)勢。原矛頭蝮基因編碼區(qū)三堿基重復(fù)類型比紅尾蚺高,可能因為紅尾蚺是一種比原矛頭蝮更古老的蛇類(Reyes-Velascoetal., 2015),單堿基、二堿基、四堿基和五堿基類型在進化過程中發(fā)生插入或缺失突變,導(dǎo)致蛋白功能改變,從而很可能在進化過程中被淘汰;另一種可能是編碼區(qū)三堿基重復(fù)類型的增加可以增加性狀的多樣性,有利于物種在進化過程中的適應(yīng)性改變,從而在進化過程中被保留。有研究表明在對人、大猩猩Pantroglodytes、紅毛猩猩Pongopygmaeus、獼猴Macacamulatta4個高等哺乳動物中微衛(wèi)星的比較分析,發(fā)現(xiàn)編碼區(qū)6種重復(fù)類型的進化速度超過非編碼區(qū)2倍多(Loireetal., 2013)。由此可見,編碼區(qū)微衛(wèi)星所受到的選擇壓力比非編碼區(qū)大,進化速度更快。
紅尾蚺和原矛頭蝮2種蛇類物種基因組微衛(wèi)星的豐度分布位置特征相似,并且與人和小鼠2種哺乳動物中微衛(wèi)星的豐度分布位置特征也相似,都是基因上下游500 bp豐度最高,內(nèi)含子次之,而外顯子最低。有研究報道擬南芥Arabidopsisthaliana和水稻Oryzasativassp. japonica cv. Nipponbare 2種植物中微衛(wèi)星的豐度沿著基因區(qū)5’到3’方向呈現(xiàn)出遞減的趨勢(Fujimorietal., 2003)。說明動物和植物基因組微衛(wèi)星的豐度分布特征存在差異。有研究對42個已經(jīng)測序的原核生物基因組編碼區(qū)微衛(wèi)星的差異和豐度進行分析,發(fā)現(xiàn)編碼區(qū)微衛(wèi)星的豐度呈“U型”分布,即基因左右末端微衛(wèi)星的豐度較高,中間區(qū)域微衛(wèi)星的豐度較低(Lin & Kussell,2012)。這說明真核生物和原核生物基因區(qū)微衛(wèi)星的豐度分布存在差異。
對紅尾蚺和原矛頭蝮基因組含有微衛(wèi)星的編碼序列進行GO注釋分析,可以看出這2個物種含有微衛(wèi)星的編碼區(qū)注釋出的功能分類基本一致,但是與人和小鼠2種哺乳動物以及2種蝎子的結(jié)果(Wangetal., 2016)差異較大。對紅尾蚺、原矛頭蝮、人和小鼠4個物種中包含微衛(wèi)星的CDS進行直系同源分析,發(fā)現(xiàn)只有3個基因家族被這4個物種共享,2個蛇類物種之間共享的基因家族比各自特有的基因家族多,2個哺乳類物種之間共享的基因家族也比各自特有的基因家族多。這說明含有微衛(wèi)星的CDS的功能在不同門類間存在種系差異。微衛(wèi)星的收縮或擴張為物種適應(yīng)性進化過程中的遺傳變異提供了豐富的原材料(Kashi & King,2006)。對群體之間、近源物種之間、種系之間基因組層面微衛(wèi)星的挖掘和比較分析,將有助于進一步了解微衛(wèi)星在基因組中的功能。
高煥, 劉萍, 孟憲紅, 等. 2004. 中國對蝦(Fenneropenaeuschinensis)基因組微衛(wèi)星特征分析[J]. 海洋與湖沼, 35(5): 249-254.
李成云, 李進斌, 周曉罡, 等. 2004. 粗糙脈孢菌基因組中的微衛(wèi)星序列的組成和分布[J]. 中國農(nóng)業(yè)科學(xué), 37(6): 851-858.
李午佼, 李玉芝, 杜聯(lián)明, 等. 2014. 大熊貓和北極熊基因組微衛(wèi)星分布特征比較分析[J]. 四川動物, 33(6): 874-878.
魏朝明, 孔光耀, 廉振民, 等. 2007. 蜜蜂全基因組中微衛(wèi)星的豐度及其分布[J]. 昆蟲知識, 44(4): 501-504.
Conesa A, G?tz S, García-Gómez JM,etal. 2005. Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research[J]. Bioinformatics, 21(18): 3674-3676.
Fujimori S, Washio T, Higo K,etal. 2003. A novel feature of microsatellites in plants: a distribution gradient along the direction of transcription[J]. FEBS Letters, 554(1): 17-22.
Jurka J, Pethiyagoda C. 1995. Simple repetitive DNA sequences from primates: compilation and analysis[J]. Journal of Molecular Evolution, 40(2): 120-126.
Kajitani R, Toshimoto K, Noguchi H,etal. 2014. Efficientdenovoassembly of highly heterozygous genomes from whole-genome shotgun short reads[J]. Genome Research, 24(8): 1384-1395.
Kashi Y, King DG. 2006. Simple sequence repeats as advantageous mutators in evolution[J]. Trends in Genetics, 22(5): 253-259.
Katti MV, Ranjekar PK, Gupta VS. 2001. Differential distribution of simple sequence repeats in eukaryotic genome sequences[J]. Molecular Biology and Evolution, 18(7): 1161-1167.
Kerkkamp HM, Kini RM, Pospelov AS,etal. 2016. Snake genome sequencing: results and future prospects[J]. Toxins, 8(12): 360-375.
Laurie JV, Janalee PC. 2009. Herpetology: an introduction biology of amphibians and reptiles (third edition)[M]. London: Academic Press: 551-578.
Li L, Stoeckert CJ, Roos DS. 2003. OrthoMCL: identification of ortholog groups for eukaryotic genomes[J]. Genome Research, 13(9): 2178-2189.
Li YC, Korol AB, Fahima T,etal. 2004. Microsatellites within genes: structure, function, and evolution[J]. Molecular Biology and Evolution, 21(6): 991-1007.
Lin WH, Kussell E. 2012. Evolutionary pressures on simple sequence repeats in prokaryotic coding regions[J]. Nucleic Acids Research, 40(6): 2399-2413.
Loire E, Higuet D, Netter P,etal. 2013. Evolution of coding microsatellites in primate genomes[J]. Genome Biology and Evolution, 5(2): 283-295.
Reyes-Velasco J, Card DC, Andrew AL,etal. 2015. Expression of venom gene homologs in diverse python tissues suggests a new model for the evolution of snake venom[J]. Molecular Biology and Evolution, 32(1): 173-183.
Thiel T, Michalek W, Varshney R,etal. 2003. Exploiting EST databases for the development and characterization of gene-derived SSR-markers in barley (HordeumvulgareL.)[J]. Theoretical and Applied Genetics, 106(3): 411-422.
Tóth G, Gáspári Z, Jurka J. 2000. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Research, 10(7): 967-981.
Wang C, Kubiak L, Du L,etal. 2016. Comparison of microsatellite distribution in genomes ofCentruroidesexilicaudaandMesobuthusmartensii[J]. Gene, 594(1): 41-46.
Yin W, Wang Z, Li Q,etal. 2016. Evolutionary trajectories of snake genes and genomes revealed by comparative analyses of five-pacer viper[J]. Nature Communications, 13107(7): 1-11.
ComparativeAnalysisofMicrosatelliteDistributionsinGenomesofBoaconstrictorandProtobothropsmucrosquamatus
NIE Hu, CAO Shasha, ZHAO Minglang, DU Linfang*
(Key Laboratory of Bio-Resources and Eco-Environment of Ministry of Education, College of Life Sciences,Sichuan University, Chengdu 610065, China)
In this study, we analyzed and compared the distributions of perfect microsatellites in the genomes ofBoaconstrictorandProtobothropsmucrosquamatus. Using the MISA tool, a total of 398 860 and 422 364 microsatellites were identified in genomes ofB.constrictorandP.mucrosquamatus, respectively. The total length of the identified microsatellites was 8 550 741 bp inB.constrictorand 12 243 226 bp inP.mucrosquamatus, accounting for 0.59% and 0.73% of each genome, respectively. The abundance of microsatellites was 275.46 no./Mbp inB.constrictorand 252.33 no./Mbp inP.mucrosquamatus. InB.constrictorgenome, mono-nucleotide repeat was the most abundant, followed by tetra-nucleotide, di-nucleotide, tri-nucleotide, penta-nucleotide and hexa-nucleotide repeat, and A、AC、AAAT、AG、AAT were the 5 most abundant repeat units. InP.mucrosquamatusgenome, mono-nucleotide repeat was the most abundant, followed by tri-nucleotide, tetra-nucleotide, di-nucleotide, penta-nucleotide and hexa-nucleotide, and A、AAT、AC、C、AAAT were the 5 most abundant repeat units. In both species, the abundances of microsatellites in intergenic region was the highest, followed by intron region and exon region, and the lowest was in coding region. These phenomena indicated that microsatellites in coding sequences were subject to the greatest selective pressure. The positional specificity of microsatellite abundance distributions in these 2 snakes were similar, that is, the abundance of microsatellites was the highest in the upstream and downstream 500 bp regions of genes, followed by intron regions and exon regions. Tri-nucleotide repeat was dominant among the 6 repeat units in the coding sequences of both genomes. The number of coding sequences containing microsatellites were 1 480 and1 397, among which 736 and 733 were assigned with GO terms of known function in genomes ofB.constrictorandP.mucrosquamatus, respectively. These coding sequences resulted the similar GO classification outputs, but behaved in a lineage manner comparing with other species. This study made a great convenience to develop large number of high-quality microsatellite markers for these two snakes and provided meaningful underlying data for further exploration of the biological function of microsatellites in their genomes.
Boaconstrictor;Protobothropsmucrosquamatus; genomic microsatellites; abundance distribution
10.11984/j.issn.1000-7083.20170070
2017-03-08接受日期2017-05-24
聶虎(1991—), 男, 碩士研究生, 主要從事生物信息學(xué)研究
*通信作者Corresponding author, E-mail:dulinfang@scu.edu.cn
Q959.6; Q915.864
A
1000-7083(2017)06-0639-010