梁 山,陳莉莉,李洪清
(廣東省植物發(fā)育工程重點實驗室,華南師范大學生命科學學院,廣東廣州 510631)
基于金釵石斛EST的短串聯(lián)重復序列的挖掘
梁 山,陳莉莉,李洪清*
(廣東省植物發(fā)育工程重點實驗室,華南師范大學生命科學學院,廣東廣州 510631)
利用計算機程序搜索了金釵石斛EST上的短串聯(lián)重復位點,共獲得2 122個基序長度2~7 bp,STR長度不小于12 bp且重復次數(shù)不小于3的STR位點.其中,3 bp-STR最為豐富,而 2 bp和6 bp基序的STR位點在可表達基因中富集.金釵石斛基因組存在439個基因特異分布的STR位點,暗示這些STR位點可能與特定的功能基因共進化.
金釵石斛; 短串聯(lián)重復; 表達序列標簽
短串聯(lián)重復序列(STR),也稱微衛(wèi)星(microsatllite),或Simple Sequence Repeat(SSR),是由長度為1~6bp的基序頭尾相接形成的串聯(lián)重復序列,多數(shù)重復10~100次.STR廣泛分布于基因組中,多見于非編碼區(qū)域,也有分布于具有編碼意義的外顯子區(qū)域.EST-STR就是在編碼序列中的STR分子標記.與基因組STR相比,EST-STR與功能基因連鎖,其多態(tài)性可能反應基因功能的變異和進化.H?FTE等提出,通過EST發(fā)掘擬南芥的分子標記有助于候選基因的突變體構建和圖位克隆[1].然而大多數(shù)的非模式物種與擬南芥不同,其研究由于基因組數(shù)據(jù)的缺失和遺傳操作的困難而面臨困境.近幾年,利用EST數(shù)據(jù)快速發(fā)掘分子標記成為了基因組研究的重要手段之一.EST-STR作為有效的分子標記已被用于非模式物種的基因組[2-3]、遺傳多樣性[4-5]和基因功能的研究[6-7].
金釵石斛(Dendrobiumnobile)屬蘭科石斛屬,是多年生單子葉植物,常用于藥用,也是深受喜愛的觀賞花卉.目前,對金釵石斛的研究主要集中在藥用成分的分離和藥效藥理研究[8]、與近緣種屬的遺傳多樣性等[9],也有調查石斛屬物種的染色體數(shù)目和類型的報道[10-11].鮮有對金釵石斛基因和基因組的研究.本研究利用生物信息學手段,對前期工作獲得的金釵石斛EST數(shù)據(jù)進行挖掘,搜索STR/STR位點,為進一步為研究金釵石斛和近緣種屬的基因組提供基礎.
1.1EST數(shù)據(jù)源
EST序列數(shù)據(jù)為本室通過前期研究收集獲得,一共包括13 098條EST序列(未發(fā)表數(shù)據(jù)).
1.2STR的搜索
將EST序列以FASTA格式保存于同一個文件中,利用STR Finder[12]搜索序列長度大于或等于12bp的短串聯(lián)重復序列(Simple Sequence Repeat,STR).設置參數(shù)為:Percentage cutoff=100,Min.base length=12,Max.motif size=7,即搜索重復基序長度小于或等于7 bp,且STR長度不小于12 bp的完全匹配的STR位點.
2.1金釵石斛中EST-STR的主要類型和特征
利用STR Finder[12],依據(jù)2個標準,本研究對13 098個金釵石斛EST Cluster的一致(consensus)序列上基序長度為2~7bp的STR位點進行了搜索.根據(jù)篩選標準1(STR長度≥12 bp,重復次數(shù)≥2),共篩選到6 544個STR位點(表 1),分布于3 772個(0.29%)EST序列中.EST-STR的數(shù)量按基序長度6 bp→3 bp→7 bp→2 bp→5 bp→4 bp的次序逐漸降低.根據(jù)標準2(STR長度≥12 bp,且重復次數(shù)≥ 3)篩選時,6 bp和7 bp基序的STR 數(shù)量急劇減少,STR總數(shù)僅為2 122個(表 1).EST-STR的數(shù)量按基序長度3 bp→2 bp→4 bp→6 bp→5 bp→7 bp的次序降低.
表1 金釵石斛STR的統(tǒng)計Table 1 Summary of D.nobile STRs
注:N為EST-STR位點的數(shù)量;P為EST-STR的百分數(shù)含量(下表同).
一般而言,金釵石斛中短基序的EST-STR的位點較多,而長基序STR較少.短基序(2~4 bp)占金釵石斛EST-STR總數(shù)的29.86% (標準1)或92.08%(標準2)(表 1),其中3 bp的STR是短基序重復中的主要類型.5~7 bp長基序的STR中,6 bp基序為主要類型,其含量遠高于5 bp和7 bp基序的STR序列.金釵石斛EST中最常見即分布最廣泛的STR基序包括了4種2 bp基序,5種3 bp基序(表 2).基序為AAGGTG的6 bp-STR較為常見,但以重復次數(shù)為2的STR最突出(表 2).
在金釵石斛EST-STR序列中,高度重復(不少于10次)的STR較少,而低度重復(小于10次)的STR較多.以2 bp-STR為例,低度重復(6~9次)的STR最多,占2 bp-STR的60.79%;重復次數(shù)高于25次的STR僅占1.37%.隨著重復度的增加,相應的STR的數(shù)量急劇減少(圖1).
各種長度的基序中均出現(xiàn)基因特異的基序類型,即僅在1個EST中存在的基序類型.7 bp基序類型中,基因特異的基序類型占72%,而6 bp基序中占70.59%,5、4、3 bp基序中分別占89.47%、41.12%、10.34%,2 bp基序中僅發(fā)現(xiàn)1個基因特異的基序類型GC.
表2 金釵石斛中10種最常見的STR基序Table 2 The top ten STR motifs in D.nobile EST
圖1 不同長度的2 bp-STR的豐度比較
Figure 1 Comparison on the abundance of 2 bp-STR in various lengths
2.2不同長度基序的STR的主要特征
2.2.1 2 bp-STR的特征 理論上,以4種脫氧核糖核苷酸(本文簡寫為A、T、G、C)中的2種可組成12種不同排列的2 bp的基序(如:以A、G構成的基序為例,本研究將AG和GA視為2種不同基序),然而僅在金釵石斛的EST序列中發(fā)現(xiàn)11種,缺乏CG排列的STR基序.不同基序類型的2 bp-STR的分布極不平衡.含量最豐富4種2 bp基序為GA、AG、TC、CT,占87.16%(表 2,圖 2).
圖2 2 bp-STR的基序類型
分析高含量的2 bp-STR結果表明:(1)它們在轉錄產物上的分布較廣,分別位于97~194個EST上(圖 2);(2)均單獨由嘌呤或嘧啶核糖核苷酸組成.其它基序類型的2 bp-STR由嘌呤和嘧啶脫氧核糖核苷酸組合構成.由G、C構成基序的STR極少,僅在1個EST上發(fā)現(xiàn)1個GC基序的STR,而未發(fā)現(xiàn)CG基序的2 bp-STR位點;(3)STR位點的豐度隨著其基序重復次數(shù)的增加而逐漸降低(圖1).計數(shù)表明,含有低度重復(10次重復以下)的2 bp-STR位點的EST數(shù)量較多,如重復數(shù)為6的2 bp-STR位點分布在152個EST上,重復數(shù)為10的2 bp-STR位點有40個,而重復數(shù)高達24的2 bp-STR的位點只有4個,而具有最高重復數(shù)的基序是AC,只有1個EST上含有長度高達98 bp(重復39次)的STR序列;(4)具有豐富的STR長度多樣性.以(AG)n為例,不同n值則代表不同長度的STR序列,而n值的分布(即某一個基序的長度的分布)可以指示這種基序在基因組上的擴展程度.在金釵石斛EST中,含量豐富的4種基序,各有16~21種STR類型,重復次數(shù)n介于6~35之間,顯示出豐富的長度多樣性;n≥25的基序也以4種常見類型為主.非常見基序構成的STR長度的多樣性也較低,限制在1~6種,以n<11次的重復為主,少數(shù)基序可形成較高度的重復(如AC最高可重復39次).這表明不同基序的擴展能力有差異.
2.2.2 3 bp-STR的特征 金釵石斛的EST中共發(fā)現(xiàn)58種3 bp基序,為常見的類型,其中含量最豐富的5種基序是GAA、AAG、GAT、CGT和GGT.這5種常見的3 bp基序的有以下特征:(1)分布廣,均在多于40個EST上存在(表 3);(2)重復次數(shù)n值較低,介于4~9次(表4),這與2bp-STR的常見基序的特征不同.另有6種基序(rare motif)僅在1個EST上存在,表現(xiàn)出基因特異性的分布模式(表3).
表3 3 bp基序在EST上的分布范圍Table 3 Distribution range of 3 bp motifs
注:*表示高重復次數(shù)的基序(下表同).
表4 6 bp基序在EST上的分布范圍Table 4 Distribution range of 6 bp motifs
3 bp-STR的基序重復次數(shù)較2 bp基序的低,介于4~14之間(表 5).重復次數(shù)n≥10次的基序分布在11~34個EST之間.n值越小,基序類型越多.值得注意的是,5種常見基序類型的重復次數(shù)僅為4~9次;而基因特異的3 bp基序均僅重復4次,構成12 bp長度的STR.
2.2.3 6 bp-STR的特征 重復次數(shù)n為2的6 bp-STR是金釵石斛STR的主要類型(表1).若僅考慮重復次數(shù)n>2時,可觀察到68種6 bp基序.EST上6 bp基序分布范圍較窄.在68中基序類型中,48種僅分布在1個EST上,13種分布在2個不同的EST位點上,而剩余的7種則分布在3~7個EST位點上(表4).可見,與2 bp和3 bp基序的STR比較,6 bp基序的基因特異性分布模式較為常見.基序AAGGTG雖然分布很廣,在43個EST上均有發(fā)現(xiàn)(表2),但是其重復次數(shù)僅有2次.
另一方面,6 bp基序的重復次數(shù)普遍較低,最高重復次數(shù)僅為6次 (表6);且重復次數(shù)低的基序類型占多數(shù)(表6).在所觀察到的6 bp-STR中,重復次數(shù)最高(n=6~5)的基序在EST上的分布受到限制,一般僅分布在1~2個EST中.
表5 不同重復次數(shù)的3 bp基序Table 5 Size distribution of 3 bp-STR
注:#指示5種最常見的基序,而△則指示罕見基序(下表同).
表6 不同重復次數(shù)的6 bp基序Table 6 Size distribution of 6bp-STR
3.1金釵石斛EST-STR以多態(tài)性的短基序串聯(lián)重復為主
使用不同的分析方法和標準時,通過生物信息學手段搜索STR位點的結果可能不同[13-14].本研究的結果表明,使用較為寬松的標準(表1,標準1),從0.29%的金釵石斛EST上可搜索到6 549個STR位點,然而其中大多數(shù)長基序STR的重復次數(shù)很低,多為2次,即使個別6 bp-STR的重復次數(shù)達到39次,這種高度重復的長基序STR在金釵石斛EST中非常稀少.不同于長基序STR,短基序則可以達到較高的重復次數(shù),如2 bp基序可重復6~35次,表明這種短基序易于在可轉錄基因中擴展.這種長、短基序STR的差異是由于STR擴展過程中基序滑動和復制的難易差異造成的[15].短基序(如2 bp基序),容易通過滑動錯配復制形成STR,而長基序則較為困難;另一方面,重復次數(shù)高的STR的滑動效率高,有利于滑動復制,易造成STR的形成和擴展[15-16].由于上述原因,精確且高度重復的長基序STR稀少,為對短基序STR的偏愛性.
3.23 bp和6 bp-STR是金釵石斛EST主要的微衛(wèi)星類型
金釵石斛EST-STR中3 bp和6 bp基序的類型是除2 bp-STR以外的主要類型,這種現(xiàn)象同樣也可以在擬南芥、水稻、小麥和大麥等植物[17-18]和其它真核生物[19-20]的編碼區(qū)或EST中觀察到.STR序列的擴展導致所在位點的突變,因此位于功能基因編碼區(qū)或表達調控區(qū)域的STR的擴展也會引起蛋白質結構和活性的改變,而非3整倍數(shù)比3整倍數(shù)的STR的擴展可引起更嚴重的突變后果.因此,進化過程中,3整倍數(shù)擴展的STR序列更容易被保留下來,而非3整倍數(shù)的STR擴增則容易被選擇性地清除.這可能是3 bp-STR和6 bp等具有3整倍數(shù)基序長度的STR在EST中含量豐富的原因之一.
3.3金釵石斛基因特異的STR
本研究從金釵石斛EST中分離到439種基因特異的STR基序類型.但是,由于EST數(shù)據(jù)的局限,本研究可能過高估計了基因特異的STR位點數(shù).這些STR位點的重復次數(shù)均較低;且基序長度越長,相應的基因特異基序類型的比例越高.此外,由于不同STR基序擴展的不均衡性,高度重復的長基序STR應該十分稀少; 如果同時考慮進化壓力的影響,STR的數(shù)量還可能進一步降低.那么,那些基因特異分布的且具有較高重復度的長基序STR(如GGCAAGA重復4次構成的28 bp的STR)在金釵石斛中得以保留,這種現(xiàn)象是否與基因的結構和功能的進化密切相關?這是值得關注的問題.
本研究結果為進一步分析金釵石斛基因組提供了一個有益的起點.所得數(shù)據(jù)可用于不同物種基因組之間的共線性分析、控制特定性狀的連鎖分析和基因位點的圖位克??;也可用于遺傳多態(tài)性分析,檢測相關基因位點的進化和功能變異,解釋物種性狀的進化,為物種進化研究提供線索.
[1] H?FTE H,DESPREZ T,AMSELEM J,et al.An inventory of 1152 expressed sequence tags obtained by partial sequencing of cDNAs fromArabidopsisthaliana[J].Plant J,1993,4:1051-1061.
[2] MOEN T,HAYES B,BARANSKI M,et al.A linkage map of theAtlanticsalmon(Salmo salar) based on EST-derived SNP markers[J].BMC Genomics,2008,9:223.
[3] STUDER B,K?LLIKER R,MUYLLE H,et al.EST-derived STR markers used as anchor loci for the construction of a consensus linkage map in ryegrass (Loliumspp.) [J].BMC Plant Biology,2010,10:177.
[4] CARUSO M,FEDERICI C T,ROOSE M L.EST-STR markers for asparagus genetic diversity evaluation and cultivar identification[J].Molecular Breed,2008,21(2):195-204.
[5] LURO F L,COSTANTINO G,TEROL J,et al.Transferability of the EST-SSRs developed onNulesclementine(Citrus clementina Hort ex Tan) to other citrus species and their effectiveness for genetic mapping[J].BMC Genomics,2008,9:287.
[6] ERCAN S,ERTUGRUL F,AYDIN Y,et al.An EST-STR marker linked with yellow rust resistance in wheat[J].Biologia Plantarum,2010,54:691-696.
[7] BLANCO A,GADALETA A,CENCI A,et al.Molecular mapping of the novel powdery mildew resistance gene Pm36 introgressed fromTriticumturgidumvar.dicoccoides in durum wheat[J].Theor Appl Genet,2008,117:135-142.
[8] YANG H,SUNG S H,KIM Y C.Antifibrotic phenanthrenes ofDendrobiumnobileStems[J].J Nat Prod,2007,70:1925-1929.
[9] 虞泓,和銳,倪念春,等.石斛屬4 種植物的AFLP 分析[J].中草藥,2004,35(7):808-810.
YU Hong,HE Rui,NI Nianchun,et al.Fingerprinting analysis of plants ofDendrobiumSWby AFLP[J].Chinese Traditional and Herbal Drugs,2004,35(7):808-810.
[10] 程式君,胡志衡,李秀蘭,等.國產石斛屬染色體研究初報[J].園藝學報,1985,12 (2) :119~124.
CHEN Shijun,HU Zhiheng,LI Xiulan,et al.A preliminary study on the chromosome ofDendrobiumin China[J].Acta Horticulturae Sinica,1985,12(2):119-124.
[11] TANAKA R,KAMEMOTO H.Chromosomes in orchids:counting numbers[C]∥Orchid biology,reviews and perspectives.Ithaca:Cornell University Press,1984:323-412.
[12] GAO L F,TANG J F,LI H W,et al.Analysis of microsatellites in major crops assessed by computational and experimental approaches[J].Mol Breed,2003,12:245-261.
[13] CARDLE L,RAMSAY L,MILBOURNE D,et al.Computational and experimental characterization of physically clustered simple sequence repeats in plants[J].Genetics,2000,156:847-854.
[14] MORGANTE M,HANAFEY M,POWELl W.Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes[J].Nature Genetics,2002,30:194-200.
[15] SCHL?TTERER C,TAUTZ D.Slippage synthesis of simple sequence DNA[J].Nucleic Acids Res,1992,20:211-215.
[16] LEVINSON G,GUTMAN G A.Slipped-strand mispairing:a major mechanism for DNA sequence evolution[J].Mol Biol Evol,1987,4:203-221.
[17] LAWSON M J,ZHANG L Q.Distinct patterns of STR distribution in theArabidopsisthalianaand rice genomes[J].Genome Biol,2006,7:R14.
[18] ROTA L M,KANTETY R V,YU J K,et al.Nonrandom distribution and frequencies of genomic and EST-derived microsatellite markers in rice,wheat,and barley[J].BMC Genomics,2005,6:23.
[19] METZGAR D,BYTOF J,WILLS C.Selection against frameshift mutations limits microsatellite expansion in coding DNA[J].Genome Res,2000,10:72-80.
[20] TOTH G,GASPARI Z,JURKA J.Microsatellites in different eukaryotic genomes:Survey and analysis[J].Genome Res,2000,10:967-981.
Keywords:Dendrobiumnobile; short tandem repeat (STR); EST
【責任編輯 成 文】
EST-STRMININGFROMDENDROBIUMNOBILE
LIANG Shan, CHEN Lili, LI Hongqing*
( Guangdong Key Lab of Biotechnology for Plant Development, School of Life Science, South China Normal University, Guangzhou 510631, China)
Dendrobiumnobileis a herb and floral plant, but the studies at the genomic scale on this species are rare.Through the computer-facilitated data mining, a total of 2 122 short tandem repeat (STR) loci that contain motifs in length ranged from 2bp to 7bp and with 3 or more repeats were identified from an EST collection ofDendrobiumnobile.Analysis on the STR frequency indicates that group of 3bp-STR is most abundant, while those with 2bp- and 6bp-motif also enriched in expressed genes.Generally, the number of repeats and the distribution range of STRs decreases with the length of motif.A total of 439 STRs are gene-specific hosted, suggesting a co-evolution between these STR loci and the specific functional genes.These results will facilitate the comparative studies betweenDendrobiumnobileand other plants at the genomic scale.
2010-11-09
國家自然科學基金-廣東省聯(lián)合基金項目(u0731006),廣東省博士啟動基金項目(10451063101005250),廣東省植物發(fā)育重點實驗室開放基金項目
*通訊作者,hqli@scnu.edu.cn
1000-5463(2011)02-0113-06
Q785
A