宋琪, 劉金龍, 郭憲光*
(1.中國科學(xué)院成都生物研究所,成都610041; 2. 中國科學(xué)院大學(xué),北京100049)
微衛(wèi)星(microsatellite)又稱為簡短串聯(lián)重復(fù)(short tandem repeats,STRs)或簡單序列重復(fù)(simple sequence repeats,SSRs),Skinner等(1974)在寄居蟹Paguruspollicaris中發(fā)現(xiàn)微衛(wèi)星DNA序列開啟了對(duì)真核生物中微衛(wèi)星序列的了解。直到Powell等(1996)定義了微衛(wèi)星位點(diǎn),認(rèn)為微衛(wèi)星DNA序列一般是以1~6個(gè)核苷酸為重復(fù)單位的串聯(lián)重復(fù)序列,在從病毒到真核生物的基因組中均有分布,并且具有高度的長度多態(tài)性(Zaneetal.,2002)。由于微衛(wèi)星突變速率快、多態(tài)性高、分布廣泛、符合孟德爾遺傳、易于檢測(cè)等優(yōu)點(diǎn),被廣泛應(yīng)用于種群遺傳、譜系地理和親子鑒定等領(lǐng)域。據(jù)Guichoux等(2011)統(tǒng)計(jì),1990—2009年有關(guān)微衛(wèi)星的論文數(shù)量增長迅猛。而開發(fā)微衛(wèi)星標(biāo)記的傳統(tǒng)方法耗時(shí)、耗力(Abdelkrimetal.,2009),采用高通量測(cè)序技術(shù)獲得微衛(wèi)星序列已發(fā)展為主流方法(曾聰?shù)龋?013;黃杰等,2015;Zhouetal.,2016)。其中,二代測(cè)序技術(shù)——Roche 454 測(cè)序除高效、快捷外,其片段讀長更大,更適合微衛(wèi)星標(biāo)記的開發(fā)(Allentoftetal.,2009;程曉鳳等,2011)。
葉城沙蜥Phrynocephalusaxillaris隸屬于鬣蜥科Agamidae沙蜥屬Phrynocephalus,是我國特有的一種小型爬行動(dòng)物,分布于我國新疆天山山脈南部地區(qū),包括塔里木盆地及周邊的吐魯番-哈密盆地和敦煌盆地(趙爾宓等,1999)。其棲息生境為戈壁、荒漠或沙漠邊緣地帶以及固定沙丘的丘間平地(<3 000 m;趙爾宓等,1999)。有關(guān)葉城沙蜥種群遺傳結(jié)構(gòu),利用線粒體基因數(shù)據(jù)并未得到很好的解析,這可能與其分化時(shí)間太短或不完全譜系分選有關(guān)(Zhangetal.,2010;李俊,2013)。基于微衛(wèi)星位點(diǎn)變異速率快、多態(tài)性高等特點(diǎn),有望更全面地解析葉城沙蜥的種群遺傳結(jié)構(gòu)。
葉城沙蜥微衛(wèi)星標(biāo)記的研究僅見于Nie等(2015)運(yùn)用轉(zhuǎn)錄組測(cè)序?qū)η嗪I瞅酨.vlangalii開展的微衛(wèi)星位點(diǎn)開發(fā),跨物種在葉城沙蜥中檢測(cè)到17個(gè)可擴(kuò)增的微衛(wèi)星位點(diǎn)。本研究通過Roche 454 GS FLX高通量測(cè)序,對(duì)葉城沙蜥基因組進(jìn)行測(cè)序,同時(shí)用搜索軟件掃描基因組序列,搜索和輸出其微衛(wèi)星序列。本研究首次對(duì)葉城沙蜥核基因組微衛(wèi)星序列進(jìn)行了初步的統(tǒng)計(jì)和分析,旨在對(duì)其基因組水平上的微衛(wèi)星重復(fù)序列的種類、數(shù)量等進(jìn)行初步探索,以期為開發(fā)和篩選大量高質(zhì)量微衛(wèi)星標(biāo)記提供數(shù)據(jù)支持,也為利用微衛(wèi)星標(biāo)記研究葉城沙蜥的種群遺傳結(jié)構(gòu)和譜系地理模式奠定基礎(chǔ)。
用于基因組測(cè)序的葉城沙蜥標(biāo)本(標(biāo)本號(hào):WGXG08226)于2008年6月采于新疆維吾爾自治區(qū)吐魯番沙漠植物園(89.19°E,42.86°N),經(jīng)75%乙醇固定后,保存于中國科學(xué)院成都生物研究所兩棲爬行動(dòng)物標(biāo)本館。其肝臟組織樣品固定于95%乙醇中,-20 ℃保存。2013年11月將提取的基因組DNA送上海美吉生物信息科技有限公司,采用基于焦磷酸測(cè)序法的高通量基因測(cè)序系統(tǒng)——Roche 454 GS FLX進(jìn)行基因組測(cè)序。
采用Roche 454 GS FLX系統(tǒng)對(duì)測(cè)序數(shù)據(jù)進(jìn)行過濾、整理,使用Newbler 2.6(Roche,2011)對(duì)優(yōu)化后的原始數(shù)據(jù)從頭拼裝(denovoassembly),并將組裝出的contigs和未拼裝的single read序列合并。采用Krait(Duetal.,2018)對(duì)合并的總序列進(jìn)行微衛(wèi)星位點(diǎn)的查找,所使用的搜索標(biāo)準(zhǔn)如下:單堿基重復(fù)≥9次,其他堿基重復(fù)(二堿基、三堿基、四堿基、五堿基、六堿基)≥5次,其余參數(shù)采用默認(rèn)設(shè)置。
原始測(cè)序數(shù)據(jù)的每條read經(jīng)過質(zhì)量過濾后,對(duì)下機(jī)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得到91 190條reads,共47 982 924 bp,最短的27 bp,最長的1 168 bp,平均長度為526.2 bp,主要集中分布在550~750 bp(圖1)。
利用Newbler對(duì)reads拼接,得到715個(gè)contigs,共359 650 bp,最短的100 bp,最長的15 025 bp,平均為503 bp。未拼接上的reads有65 873個(gè),共34 820 132 bp。
將組裝出的contigs和未組裝的single read序列合并,得到合并序列66 588個(gè),共35 179 782 bp。對(duì)合并的總序列進(jìn)行微衛(wèi)星位點(diǎn)分析,獲得微衛(wèi)星重復(fù)序列29 890個(gè)。重復(fù)類型最多的為單堿基重復(fù)類型,占總重復(fù)類型的48.95%;其次是二堿基重復(fù)類型,占28.60%;最少的為六堿基重復(fù)類型,僅占0.32%(表1)。
圖1 Roche 454 GS FLX原始數(shù)據(jù)長度分布統(tǒng)計(jì)Fig. 1 Distribution of the sequence length for the raw reads data in Roche 454 GS FLX
A~C″代表不同的序列長度范圍 A to C″ means different ranges of sequence length; A. 1~40, B. 41~60, C. 61~80, D. 81~100, E. 101~120, F. 121~140, G. 141~160, H. 161~180, I. 181~200, J. 201~220, K. 221~240, L. 241~260, M. 261~280, N. 281~300, O. 301~320, P. 321~340, Q. 341~360, R. 361~380, S. 381~400, T. 401~420, U. 421~440, V. 441~460, W. 461~480, X. 481~500, Y. 501~520, Z. 521~540, A′. 541~560, B′. 561~580, C′. 581~600, D′. 601~620, E′. 621~640, F′. 641~660, G′. 661~680, H′. 681~700, I′. 701~720, G′. 721~740, K′. 741~760, L′. 761~780, M′. 781~800, N′. 801~820, O′. 821~840, P′. 841~860, Q′. 861~880, R′. 881~900, S′. 901~920, T′. 921~940, U′. 941~960, V′. 961~980, W′. 981~1 000, X′. 1 001~1 020, Y′. 1 021~1 040, Z′. 1 041~1 060, A″. 1 061~1 080, B″. 1 081~1 140, C″. 1 141~1 180
表1 不同重復(fù)類型的完美型微衛(wèi)星在葉城沙蜥基因組的分布Table 1 Distribution of perfect microsatellites for different repeat types in the genome of Phrynocephalus axillaris
2.3.1各重復(fù)拷貝類型的數(shù)量和相應(yīng)的比例同一種類型的重復(fù)序列中,各重復(fù)拷貝類型所占的比例不相同(表2)。二堿基重復(fù)類型中,AC重復(fù)拷貝類型最多,占二堿基重復(fù)序列總數(shù)的54.94%,有4 697個(gè),其次是AG(37.20%)和AT(6.84%),CG最少,只有87個(gè),占1.02%。三堿基重復(fù)類型中,有 9種重復(fù)拷貝類型,數(shù)量較多的是ATC和AAT,分別有588個(gè)和498個(gè),占三堿基重復(fù)序列總數(shù)的18.78%和15.90%,其他類型詳見表2。四堿基重復(fù)類型的重復(fù)拷貝類型有27種,最多的是AAAT,有1 288個(gè),占四堿基重復(fù)序列總數(shù)的40.16%,其次是ATAG,占15.06%,其他類型相對(duì)較少,占比均不超過10%。五堿基重復(fù)類型中,AAAAT重復(fù)拷貝類型最多,有87個(gè),占五堿基重復(fù)序列總數(shù)的31.75%;其次是AAAAC(16.42%)、AATAG(5.11%)、AAAAG(4.01%),其他類型均不超過10個(gè)。六堿基重復(fù)類型中,最多的是AATCCC,有20個(gè),占六堿基重復(fù)序列總數(shù)的20.62%,其他類型均不超過20個(gè)。
表2 葉城沙蜥基因組中分布頻率最高的微衛(wèi)星重復(fù)類型Table 2 The most frequent microsatellite motifs detected in the genome of Phrynocephalus axillaris
2.3.2各種重復(fù)類型微衛(wèi)星拷貝數(shù)的數(shù)量分布二堿基重復(fù)為5~186次,主要分布在5~9次,有6 248個(gè),占二堿基重復(fù)類型總數(shù)的73.08%;三堿基重復(fù)為5~36次,主要分布在5~10次,有2 162個(gè),占三堿基重復(fù)類型總數(shù)的69.03%;四堿基重復(fù)為5~43次,主要分布在5~14次,共2 625個(gè),占四堿基重復(fù)類型總數(shù)的81.85%;五堿基重復(fù)為5~11次,共261個(gè),占五堿基重復(fù)類型總數(shù)的95.26%;六堿基重復(fù)為5~17次,主要分布在5~9次,共87個(gè),占六堿基重復(fù)類型總數(shù)的89.69%(圖2)。
數(shù)量最多的前11個(gè)完美型微衛(wèi)星重復(fù)類型依次是C、A、AC、AG、AAAT、ATC、AT、AAT、ATAG、AGG、AAC,這些微衛(wèi)星在基因組中均出現(xiàn)400次以上,占完美型微衛(wèi)星總數(shù)的89.96%。
圖2 葉城沙蜥不同重復(fù)類型微衛(wèi)星拷貝數(shù)的分布Fig. 2 Distribution of the copy number in different microsatellite motifs for Phrynocephalus axillaris
由于單堿基重復(fù)難以準(zhǔn)確測(cè)定(Sunetal.,2006),通常在分析開始就被舍棄(Kimetal., 2008)。本研究表明,除單堿基重復(fù)外的所有重復(fù)類型中,二堿基重復(fù)最多,這與大熊貓Ailuropodamelanoleuca和北極熊Ursusmaritimus(李午佼等,2014)、褐菖鲉Sebastiscusmarmoratus(Songetal.,2017)和團(tuán)頭魴Megalobramaamblycephala(曾聰?shù)龋?013)等類似。這可能與微衛(wèi)星序列越長、突變率越高、穩(wěn)定性越差有關(guān)(Wierdletal.,1997)。在很多真核生物中,重復(fù)長度和重復(fù)頻率呈負(fù)相關(guān)(Kattietal.,2001)。本研究發(fā)現(xiàn)隨拷貝數(shù)增加,重復(fù)序列數(shù)量變少,也符合這一整體趨勢(shì)。此外,AC重復(fù)是葉城沙蜥基因組中二堿基重復(fù)中最多的類型,占54.94%,同時(shí)也是除單堿基重復(fù)外所有重復(fù)類型中最多的一類。脊椎動(dòng)物基因組的30%~67%微衛(wèi)星重復(fù)是二堿基重復(fù),而AC重復(fù)是最多的一種(Tóthetal.,2000),本研究結(jié)果也支持了此觀點(diǎn)。
表3 分布頻率最高的重復(fù)類型微衛(wèi)星的拷貝數(shù)分布Table 3 Distribution of the copy repeats number of the most frequent microsatellite motifs
二代測(cè)序出現(xiàn)前,對(duì)于非模式生物,微衛(wèi)星重復(fù)類型的獲得均是一個(gè)瓶頸(Guichouxetal.,2011)。隨著高通量測(cè)序技術(shù)的發(fā)展,測(cè)序成本逐漸降低,可獲得的數(shù)據(jù)越來越多,這為進(jìn)一步增進(jìn)對(duì)非模式物種的深度了解提供了契機(jī)。Nie等(2015)運(yùn)用高通量測(cè)序技術(shù)對(duì)青海沙蜥進(jìn)行轉(zhuǎn)錄組測(cè)序,鑒定、篩選出25個(gè)微衛(wèi)星位點(diǎn),其中17個(gè)可在葉城沙蜥中擴(kuò)增;而經(jīng)Bonferroni校正后,其中有9個(gè)顯著偏離哈迪-溫伯格平衡(P<0.01),且這些位點(diǎn)的擴(kuò)增適用性及多態(tài)性尚未在葉城沙蜥的不同種群中驗(yàn)證。本研究使用高通量測(cè)序技術(shù)對(duì)葉城沙蜥進(jìn)行基因組SSR分子標(biāo)記開發(fā)及分析,并基于Krait(Duetal.,2018)對(duì)基因組中完美型微衛(wèi)星進(jìn)行統(tǒng)計(jì),深化了對(duì)葉城沙蜥基因組的認(rèn)識(shí)和了解,并為下一步開發(fā)和篩選大量高質(zhì)量微衛(wèi)星標(biāo)記提供數(shù)據(jù)支持,還為利用微衛(wèi)星標(biāo)記研究葉城沙蜥種群遺傳結(jié)構(gòu)和譜系地理模式奠定了基礎(chǔ)。