趙琪張琪李浩玲蘭月鄢行安趙貴軍*戚文華*
(1重慶三峽學院生物與食品工程學院,重慶 404100)(2四川大學生命科學學院,成都 610064)(3重慶市藥物種植研究所,重慶 408435)
麝屬動物(Moschusspp.)是鯨偶蹄目(Cetartiodactyla)反芻亞目(Ruminantia)麝科(Moschidae)中型哺乳動物(Montgelardet al.,1997)。麝屬動物雌雄分化明顯,始終保持較原始的特征,兼有原始型的鼷鹿科和進化型的鹿科的特征。麂屬動物(Muntiacusspp.)屬鹿科(Cervidae)麂亞科(Muntiacinae),主要分布于中國南部、南亞、東南亞(Ohtaishi and Gao,1990)。在我國,林麝(Moschus berezovskii)數(shù)量較多,分布范圍廣,主要分布于陜西、四川、青海、寧夏等地的針闊混交林、闊葉林或次生灌林;原麝(Moschus moschiferus)主要分布在黑龍江、吉林、內(nèi)蒙古等地的針闊混交林(劉志霄和盛和林,2000)。最近,我國首次完成了林麝和原麝全基因組序列測序,并繪制了林麝和原麝全基因組圖譜(Fanet al.,2018;Yiet al.,2020)。研究表明,我國林麝和原麝種群遺傳多樣性低,有待進一步加強種內(nèi)基因交流,防止近親繁 育(Fanet al.,2018;Yiet al.,2020)。小 麂(Muntiacus reevesi)在麂屬中體型最小,是我國特有的物種,主要分布于中國的亞熱帶地區(qū);赤麂(Muntiacus vaginalis)體型較大,也是我國重點保護野生動物,主要分布于中國東南、華南、西南等南部地區(qū),在東南亞國家也有分布(Ohtaishi and Gao,1990)。這些麂屬動物具有多變的染色體數(shù)目和核型,是由鹿科祖先染色體反復串聯(lián)融合而導致,但其分子機制尚不清楚(Yinet al.,2021)。隨著馬鹿(Cervus elaphus)基因組測序的完成,Bana等(2018)從馬鹿全基因組水平探索其與其他鹿科動物的系統(tǒng)進化關(guān)系。
微衛(wèi)星(Microsatellite),又稱簡單重復序列(Simple sequences repeats,SSRs),廣泛存在于真核生物中,也存在于原核生物和細菌的基因組中,多數(shù)分布于非編碼區(qū),少數(shù)分布于編碼區(qū)(戚文華等,2013)。SSRs具有高重復性、高多態(tài)性,參與染色體組成、蛋白質(zhì)功能、基因轉(zhuǎn)錄、表達與調(diào)控等過程。此外,SSRs與動物疾病的發(fā)生發(fā)展密切聯(lián)系,如三核苷酸SSRs與人類疾病密切相關(guān)(王希恒等,2016)。麝科和鹿科動物具有重要的經(jīng)濟價值,目前關(guān)于林麝全基因組以及外顯子區(qū)和基因間隔區(qū)SSR分布規(guī)律已有相關(guān)的研究(盧婷等,2017;Qiet al.,2020),原麝、小麂、赤麂和馬鹿全基因組以及編碼區(qū)SSR分布規(guī)律尚未有相關(guān)報道。因此,本文以林麝、原麝、小麂、赤麂和馬鹿為代表物種,利用生物信息學方法提取其基因組中的編碼區(qū)序列,從基因組水平分析編碼區(qū)SSR分布規(guī)律,比較其編碼區(qū)SSR分布規(guī)律的相似性和差異性,并對林麝及其近緣物種的CDS區(qū)SSR序列進行GO富集分析和KEGG通路分析,旨在從基因組水平探索林麝及其近緣物種的進化關(guān)系及進化特征,揭示富含微衛(wèi)星序列的基因功能及其富集的信號通路,并探索含SSR序列的關(guān)鍵免疫基因與疾病的關(guān)聯(lián)性。
林麝基因組序列和注釋文件由本實驗室提供,原麝、馬鹿、赤麂、小麂基因組序列從Ensembl Genome Browser數(shù)據(jù)庫(https://grch37.ensembl.org)下載,均以FASTA格式保存。使用Perl和R語言編程從林麝、原麝、小麂、赤麂和馬鹿基因組中提取CDSs序列,以FASTA格式保存。
1.2.1 微衛(wèi)星識別與鑒定
利用MSDBv2.4(Microsatellite search and building database)(Duet al.,2013)和Krait(Duet al.,2017)軟件對林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)中完整型微衛(wèi)星序列進行識別和鑒定,并分析其特征。搜索和統(tǒng)計標準為單核苷酸(Mononucleotide,Mono-)重復至少12次,二核苷酸(Dinucleotide,Di-)重復至少7次,三核苷酸(Trinucleotide,Tri-)重復至少5次,四核苷酸(Tetranucleotide,Tetra-)、五核苷酸(Pentanucleotide,Penta-)、六核苷酸(Hexanucleotide,Hexa-)重復至少4次;重復序列兩端的側(cè)翼序列為200 bp;因為1個氨基酸由3個堿基翻譯而來,所以我們將三核苷酸和六核苷酸稱為三倍體核苷酸,單核苷酸、二核苷酸、四核苷酸、五核苷酸稱為非三倍體核苷酸。其他統(tǒng)計標準及SSRs序列統(tǒng)計術(shù)語參考相關(guān)報道(戚文華等,2013;蔣雪梅等,2015)。
1.2.2 GO功能富集分析
將林麝及其近緣物種編碼區(qū)含有SSR的基因進行序列提取,保存為FASTA格式,并對這些序列進行同源性分析。使用TBtools(Chenet al.,2020)將含有SSR的基因與Swissprot蛋白質(zhì)庫進行比對,設置E-value<1E-5,其比對結(jié)果利用TBtools進行GO功能注釋。按照分子功能(Molecular function,MF)、細胞組成(Cellular component,CC)和生物學過程(Biological process,BP)進行GO功能富集分析。
1.2.3 KEGG通路分析
以分配到KEGG通路所有哺乳動物基因為背景,使用KAAS(Yukiet al.,2007)進行KEGG注釋,得到的ko文件再使用TBtools進行KEGG通路富集分析。將富集統(tǒng)計的P值進行Bonferroni校正,以矯正后P值為標準,當P<0.05時認定此KEGG通路為顯著富集,并具有統(tǒng)計學意義。從而將含有SSR的基因與相關(guān)通路關(guān)聯(lián)在一起,探討含SSR的基因參與的相關(guān)生物功能過程。
在林麝編碼區(qū)共計識別和鑒定24 352個基因,其中有1 696個基因包含完整型SSR序列,最多一個基因含有72個SSR位點,大多數(shù)基因包含1個SSR位點(1 327個,78.24%),較少基因包含2個及以上SSR位點(369個,21.76%)。在原麝編碼區(qū)識別和鑒定的29 305個基因中,有2 389個基因包含完整型SSR序列,其中最多一個基因含有11個SSR位點,大多數(shù)基因包含1個SSR位點(1 924個,80.54%),較少基因包含2個及以上SSR位點(465個,19.46%)。在小麂編碼區(qū)識別和鑒定的26 044個基因中,有1 916個基因包含完整型SSR序列,其中最多一個基因含有14個SSR位點,大多數(shù)基因包含1個SSR位點(1 510個,78.81%),較少基因包含2個及以上SSR位點(406個,21.19%)。在赤麂編碼區(qū)識別和鑒定的25 737個基因中,有1 924個基因包含完整型SSR序列,其中最多一個基因含有26個SSR位點,大多數(shù)基因包含1個SSR位點(1 545個,80.30%),較少基因包含2個及以上SSR位點(379個,19.70%)。在馬鹿編碼區(qū)共計識別和鑒定的28 103個基因中,有3 005個基因包含完整型SSR序列,其中最多一個基因含有9個SSR位點,大多數(shù)基因包含1個SSR位點(2 478個,82.46%),較少基因包含2個及以上SSR位點(527個,17.54%)(表1)。林麝編碼區(qū)序列數(shù)量、SSR序列的數(shù)量和長度、豐度和密度與其近緣物種有一定差異(P<0.05,ttest),而五者GC含量和SSR序列占編碼區(qū)基因組長度的比例基本一致。
表1 林麝及其近緣物種編碼區(qū)基因概況Table 1 Overview of the CDS of Moschus berezovskii and its closely related species
林麝和原麝編碼區(qū)完整型SSR豐度分布模式基本一致,均是三核苷酸SSR最多(93.47%vs.91.34%),其 次 是 六 核 苷 酸SSR(3.38%vs.3.53%),較少的均是單核苷酸(1.02%vs.1.80%)、二核苷酸(0.63%vs.1.96%)、四核苷酸(0.79%vs.0.96%)、五核苷酸(0.71%vs.0.41%)。小麂、赤麂和馬鹿編碼區(qū)完整型SSR豐度分布模式基本一致,均是三核苷酸SSR最多(63.46%vs.62.14%vs.85.55%),其次是二核苷酸(19.25%vs.18.82%vs.3.03%),較少的均是單核苷酸(11.48%vs.12.84%vs.6.60%)、四核苷酸(3.28%vs.3.30%vs.1.96%)、五核苷酸(0.54%vs.0.81%vs.0.37%)、六核苷酸(1.99%vs.2.09%vs.2.09%)。由此可見,林麝、原麝、小麂、赤麂和馬鹿的三倍體核苷酸SSRs(三核苷酸和六核苷酸SSRs)占比最高,分別為96.85%、94.87%、65.44%、64.23%和88.04%,非三倍體核苷酸SSRs(單核苷酸、二核苷酸、四核苷酸和五核苷酸SSRs)占比分別為3.15%、5.13%、34.56%、5.77%和11.96%(圖1)。
圖1 林麝及其近緣物種蛋白質(zhì)編碼區(qū)不同重復拷貝類別SSRs豐度比較Fig.1 Comparison of SSR frequency of different repeat types in the CDS regions of the Moschus berezovskii and its closely related species
在林麝及其近緣物種CDS區(qū),不同重復類型SSR序列GC含量的分布模式有所差別。林麝的GC含量的分布模式為三核苷酸SSRs(73.45%)>五核苷酸SSRs(72.39%)>六核苷酸SSRs(69.47%)>四核苷酸SSRs(72.31%)>二核苷酸SSRs(51.83%)>單核苷酸SSRs(38.95%)。原麝的GC含量的分布模式為六核苷酸SSRs(81.53%)>三核苷酸SSRs(75.97%)>四核苷酸SSRs(72.00%)>五核苷酸SSRs(63.70%)>二核苷酸SSRs(52.21%)>單核苷酸SSRs(6.66%)。小麂與赤麂的GC含量的分布模式相同,均為六核苷酸SSRs(79.50%vs.76.61%)>三核苷酸SSRs(73.44%vs.72.51%)>五 核 苷 酸SSRs(53.11%vs.54.95%)>二核苷酸SSRs(48.59%vs.48.72%)>四核苷酸SSRs(47.18%vs.46.10%)>單核苷酸SSRs(26.41%vs.33.76%)。馬鹿的GC含量的分布模式為六核苷酸SSRs(77.54%)>五核苷酸SSRs(74.24%)>三核苷酸SSRs(72.94%)>四核 苷 酸SSRs(63.06%)>二 核 苷 酸SSRs(52.66%)>單核苷酸SSRs(41.50%)。由此可知,在林麝及其近緣物種的CDS區(qū),SSR序列的豐度在三核苷酸SSR序列趨于最高,林麝的GC含量在三核苷酸SSR序列趨于最高,而原麝、小麂、赤麂和馬鹿的GC含量均在六核苷酸SSR序列趨于最高。
在林麝及其近緣物種CDS區(qū),單核苷酸至六核苷酸SSR序列重復拷貝類別的豐度有明顯差異(圖2,圖3)。在單核苷酸SSR重復拷貝類別中,A重復類別的豐度稍高于C重復類別的豐度;在二核苷酸SSR中,AC重復類別的豐度最高,林麝、原麝和馬鹿AT的重復類別的豐度最少,而小麂和赤麂CG重復類別的豐度最少。在三核苷酸SSR中,CCG重復類別的豐度最高,AAC重復類別的豐度最少;在四核苷酸SSR中,林麝、原麝和馬鹿豐度差異不大,赤麂和小麂CCCG重復類別的豐度為0(圖2,圖3)??傮w上,在CDS區(qū),林麝大部分重復拷貝類別的豐度高于其近緣物種,并且林麝和原麝的重復類別豐度更為相似,小麂、赤麂、馬鹿的重復類別豐度更為相似。
圖2 林麝和原麝蛋白質(zhì)編碼區(qū)不同重復拷貝類別SSRs豐度比較Fig.2 Comparison of SSR frequency of different repeat category in the CDS regions of the Moschus berezovskii and Moschus moschiferus
圖3 馬鹿、赤麂和小麂蛋白質(zhì)編碼區(qū)不同重復拷貝類別SSRs豐度比較Fig.3 Comparison of SSR frequency of different repeat category in the CDS regions of the Cervus elaphus,Muntiacus vaginalis and Muntiacus reeves
2.4.1 GO注釋和富集分析
GO富集分析表明,林麝、原麝、小麂、赤麂和馬鹿大部分GO功能主要集中在生物學過程,分別 為85.94%、83.52%、82.52%、83.91%和82.32%。具體如下:林麝GO功能富集結(jié)果共634條,其中涉及分子功能的有48條(占7.58%),主要涉及細胞核不同結(jié)構(gòu)的結(jié)合、DNA結(jié)合和DNA結(jié)合轉(zhuǎn)錄激活因子活性等;涉及細胞組成的有42條(占6.64%),主要有具膜細胞器、染色質(zhì)和染色體、轉(zhuǎn)錄調(diào)節(jié)復合物等;涉及生物學過程的有544條(占85.94%),主要包括生長發(fā)育、各種細胞的分化、代謝過程的調(diào)控和正負反饋調(diào)節(jié)等。原麝GO功能富集結(jié)果共634條,其中涉及分子功能的有170條(占9.87%),涉及細胞組成的有114條(占6.62%),涉及生物學過程的有544條(占83.52%)。小麂GO功能富集結(jié)果共727條,其中涉及分子功能的有64條(占8.80%),涉及細胞組成的有53條(占7.29%),涉及生物學過程的有610條(占83.91%)。赤麂GO功能富集結(jié)果共758條,其中涉及分子功能的有73條(占9.63%),涉及細胞組成的有61條(占8.05%),涉及生物學過程的有624條(占82.32%)。馬鹿GO功能富集結(jié)果共2 054條,其中涉及分子功能的有189條(占9.20%),涉及細胞組成的有170條(占8.28%),涉及生物學過程的有1 695條(占82.52%)。各類編碼區(qū)SSR序列的主要功能與林麝的相似,GO條目的顯著性有微小的差別。
通過林麝及其近緣物種蛋白質(zhì)編碼區(qū)SSR序列進行功能分析表明,在分子功能方面,林麝與原麝最顯著富集的轉(zhuǎn)錄調(diào)控區(qū)序列特異性DNA結(jié)合(Transcription regulatory region sequence-specific DNA binding)、順式調(diào)控區(qū)序列特異性DNA結(jié)合(Cis-regulatory region sequence-specific DNA binding)、調(diào)控區(qū)核酸結(jié)合(Regulatory region nucleic acid binding)等30個GO功能條目具有高度一致性,而這些功能條目在小麂、赤麂和馬鹿中僅有轉(zhuǎn)錄調(diào)控區(qū)序列特異性DNA結(jié)合、調(diào)控區(qū)核酸結(jié)合、分子功能監(jiān)管機制(Molecular function regulator)不顯著;與林麝、原麝相比較,小麂、赤麂和馬鹿在這30個最顯著富集GO功能條目中更具相似性。
在細胞組成方面,林麝與原麝最顯著富集的30個GO功能條目中僅在Viral outer capsid(GO:0039624)不顯著,其余29個顯著富集的GO功能條目完全一致;與林麝、原麝相比較,小麂、赤麂和馬鹿在核染色體(Nuclear chromosome)、生長錐(Growth cone)、樹突細胞質(zhì)(Dendrite cytoplasm)、樹突(Dendritic spine)、多線染色體(Polytene chromosome)和神經(jīng)元棘(Neuron spine)GO功能條目中不顯著,其余23個顯著富集的GO功能條目高度一致。
在生物學過程中,林麝與原麝最顯著富集的氮化合物代謝過程的正調(diào)控(Positive regulation of nitrogen compound metabolic process)、RNA生 物合成過程的正調(diào)控(Positive regulation of RNA biosynthetic process)、RNA生物合成過程的負調(diào)控(Negative regulation of RNA biosynthetic process)等30個GO功能條目在原麝中均顯著富集;與林麝、原麝相比較,小麂、赤麂和馬鹿在這30個顯著富集的GO功能條目高度一致,但有細微差別(表2)。由此可見,林麝與原麝更具親緣關(guān)系,小麂、赤麂和馬鹿親緣關(guān)系更近,這與生物學分類相符。
表2 林麝及其近緣物種蛋白質(zhì)編碼區(qū)SSR序列的生物學過程的功能富集(top 30)Table 2 The most significantly enriched biological process GO terms of coding SSRs of Moschus berezovskii and its closely related species(top 30)
續(xù)表2 Continued from table 2
2.4.2 KEGG富集分析
KEGG富集分析表明,林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)SSR序列富集到43個KEGG通路上,這些通路被分成5大類:遺傳信息調(diào)控(Genetic information processing)、環(huán)境信息調(diào)控(Environmental information processing)、機體系統(tǒng)(Organismal systems)、新陳代謝(Metabolism)和疾病(Diseases)。在遺傳信息調(diào)控通路中,這5種動物編碼區(qū)SSR序列共同顯著富集的通路是遺傳信息調(diào)控蛋白家族(Protein families:genetic information processing)、轉(zhuǎn)錄因子(Transcription factors)、染色體及相關(guān)蛋白(Chromosome and associated proteins)、剪接體(Spliceosome)和轉(zhuǎn)錄機制(Transcription machinery)。在環(huán)境信息通路中,這5種動物編碼區(qū)SSR序列共同顯著富集的通路僅有Notch信號通路(Notch signaling pathway)。在新陳代謝中,這5種動物編碼區(qū)SSR序列沒有共同顯著富集的通路,林麝、原麝、小麂和馬鹿共同顯著富集的通路是促性腺激素通路(GnRH secretion),而在赤麂中不顯著;在林麝、原麝、赤麂和馬鹿編碼區(qū)SSR序列共同顯著富集的通路是賴氨酸降解通路(Lysine degradation),而在小麂中不顯著;在原麝和小麂編碼區(qū)SSR序列中共同顯著富集的通路是甲狀旁腺激素的合成、分泌和作用通路(Parathyroid hormone synthesis,secretion and action),但在林麝、赤麂和馬鹿中不顯著;在小麂和馬鹿編碼區(qū)SSR序列顯著富集的通路是皮質(zhì)醇的合成和分泌通路(Cortisol synthesis and secretion),在林麝、原麝和赤麂中不顯著;在小麂和馬鹿編碼區(qū)SSR序列顯著富集的通路是胰島素分泌通路(Insulin secretion),但在林麝、原麝和赤麂中不顯著。在機體系統(tǒng)通路中,原麝和馬鹿編碼區(qū)SSR序列顯著富集的通路是細胞粘連通路(Cell adherens junction),而在林麝、小麂和赤麂中不顯著。在疾病通路中,這5種動物編碼區(qū)SSR序列共同顯著富集的通路是成體糖尿病(Maturity onset diabetes of the young)(表3)。由此可見,林麝及其近緣物種蛋白質(zhì)編碼區(qū)SSR序列具有共同顯著富集的KEGG通路,通過進一步比較發(fā)現(xiàn),林麝與原麝的編碼區(qū)SSR序列共有顯著富集的KEGG通路較多,小麂和赤麂的也較多,但馬鹿的編碼區(qū)SSR序列顯著富集的KEGG通路與其他4種動物相比差別較大,這與生物學分類相符合。
表3 林麝及其近緣物種編碼區(qū)SSR序列的KEGG通路富集(top 30)Table 3 The most significantly enriched KEGG pathway of coding SSRs of Moschus berezovskii and its closely related species(top 30)
通過對林麝編碼區(qū)含SSR關(guān)鍵免疫基因及其相關(guān)聯(lián)的KEGG通路進行分析,發(fā)現(xiàn)有10個含微衛(wèi)星序列的關(guān)鍵免疫基因?qū)腒EGG通路與疾病密切相關(guān)。其中CEBPB、ZEB1和Bcl2基因參與癌癥中的轉(zhuǎn)錄失調(diào)通路(Transcriptional misregulation in cancer,map05202),ZEB1、Bcl2、HDAC5和Notch4基因參與癌癥中的miRNA通路(MicroRNAs in cancer,map05206),Bcl2、JAG2和NOTCH4基因參與癌癥通路(Pathways in cancer,map05200)。在這10個基因中,Bcl2基因關(guān)聯(lián)的疾病相關(guān)通路較多,包括多重神經(jīng)退行性疾病通路(Map05022)、癌癥中的轉(zhuǎn)錄誤調(diào)節(jié)(Map05202)、結(jié)直腸癌(Map05210)、胰腺癌(Map05212)、小細胞肺癌(Map05222)、前 列 腺 癌(Map05215)、胃 癌(Map05226)和慢性骨髓白血病(Map05220)等通路(表4)。由分析推測,免疫基因中SSR的重復類型和重復次數(shù)與免疫疾病密切相關(guān),這可能由于SSR重復次數(shù)的增加或縮減導致原表達蛋白質(zhì)的功能喪失,從而產(chǎn)生相應疾病。
表4 林麝關(guān)鍵免疫基因所含SSR類型及其KEGG通路Table 4 SSR types of key immune genes in Moschus berezovskii and their KEGG pathways
本研究利用生物信息學方法測定和統(tǒng)計了林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)SSR序列的特征,并對CDS區(qū)的SSR序列的功能進行了系統(tǒng)分析。林麝、原麝、馬鹿、小麂和赤麂編碼區(qū)含SSR序列的基因數(shù)量分別是2 588個、5 772個、3 821個、9 397個和6 590個,其SSR序列所占的比例基本一致,分別為0.15%、0.12%、0.10%、0.12%和0.11%。林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)均以三倍體核苷酸SSRs最多,分別為96.85%、94.87%、65.44%、64.23%和88.04%,這與大熊貓(Ailuropoda melanoleuca)、北極熊(Ursus maritimus)(李午佼等,2014)、牛、綿羊(戚文華等,2013)、肩突硬蜱(Ixodes scapularis)(汪自立等,2013)、人類(Subramanianet al.,2003;O’Dushlaineet al.,2005)等物種編碼區(qū)中SSR序列研究基本一致。林麝編碼區(qū)SSRs的分布特征與盧婷等(2017)的研究基本一致。在三倍體核苷酸SSRs中,最多的是三核苷酸SSRs,重復拷貝類別多為AAC、ACC、ACG、AGC、AGG和CCG等,有利于RNA的轉(zhuǎn)錄和翻譯,可能與防止移碼突變的發(fā)生有關(guān);六核苷酸SSRs數(shù)量較少,可能是由于微衛(wèi)星長度越長越不穩(wěn)定,容易發(fā)生變異,承受較大的選擇壓力;而非三倍體核苷酸(即單核苷酸、二核苷酸、四核苷酸、五核苷酸)SSRs極少,非三倍體核苷酸SSRs可能受到強烈的選擇壓力,與已有研究認為的編碼區(qū)非三倍體核苷酸SSRs對移碼突變的選擇壓力影響較大相符(Metzgar and Wills,2000)。在CDS區(qū),林麝大部分重復拷貝類別的豐度高于其近緣物種,并且林麝和原麝的重復類別豐度更為相似,小麂、赤麂和馬鹿的重復類別豐度更為相似,由此可見林麝和原麝同屬麝科,小麂、赤麂和馬鹿同屬鹿科,具有一定的親緣性,但是不同物種在長期環(huán)境變化的適應中,遺傳物質(zhì)也發(fā)生了演化,逐漸產(chǎn)生差異。
隨著微衛(wèi)星研究的深入,發(fā)現(xiàn)微衛(wèi)星序列與蛋白質(zhì)的表達、功能以及疾病的發(fā)生有一定的關(guān)聯(lián)。微衛(wèi)星可作為染色質(zhì)折疊的密碼。由于核苷酸的差異,不同DNA序列形成的二級結(jié)構(gòu)形狀會有差異,一定條件下的GC/CG與甲基化的胞嘧啶及二核苷酸重復的CA/GT易形成Z-DNA結(jié)構(gòu),執(zhí)行重要的功能,如結(jié)構(gòu)基因的啟動子和重組熱點均富含ZDNA結(jié)構(gòu)(楊述林等,2003)。為研究林麝、原麝、小麂、赤麂和馬鹿5個物種的編碼區(qū)SSR序列的功能相似性,對其進行了GO功能富集分析和KEGG富集分析,結(jié)果表明編碼區(qū)SSR序列在林麝及其近緣物種遺傳效應上均具有重要的作用:在GO功能中顯著富集的均與核系統(tǒng)、遺傳物質(zhì)的成分與進程、機體系統(tǒng)的結(jié)構(gòu)與功能密切相關(guān);KEGG通路富集分析表明,在遺傳信息調(diào)控通路得到的通路共同顯著富集的最多,有遺傳信息調(diào)控蛋白家族、轉(zhuǎn)錄因子、染色體及相關(guān)蛋白、剪接體和轉(zhuǎn)錄機制,發(fā)現(xiàn)編碼區(qū)SSR序列在遺傳信息調(diào)控方面發(fā)揮重要的作用,可能是由于微衛(wèi)星序列可以產(chǎn)生多樣化的蛋白質(zhì)功能,影響相應蛋白質(zhì)的綁定性能(Kashiet al.,1997;Li,2004),進而影響其下游基因的表達,形成可調(diào)的功能變化和環(huán)境適應。
有研究表明,SSRs重復次數(shù)的增加或減少直接影響相關(guān)基因的表達,如CDS區(qū)域失活修復(MMR)基因(Duval and Hamelin,2002;Vassilevaet al.,2002)、轉(zhuǎn)錄調(diào)控基因(Duvalet al.,1999)、細胞凋亡基因(Schwartzet al.,1999)。在人類基因中,三核苷酸SSRs重復次數(shù)的增加與幾種神經(jīng)系統(tǒng)疾病有關(guān),例如脆性X綜合征(Jin and Warren,2000)、肌強直性營養(yǎng)不良(Timchenkoet al.,2001)、亨廷頓氏病和幾種共濟失調(diào)(Sermonet al.,2001)。蛋白質(zhì)翻譯過程中每3個核苷酸形成1個三聯(lián)體密碼,當編碼區(qū)SSR重復序列增加,會使其基因功能喪失,從而導致產(chǎn)生相關(guān)疾病。通過對林麝編碼區(qū)含SSR關(guān)鍵免疫基因及其相關(guān)聯(lián)的KEGG通路進行分析,發(fā)現(xiàn)有10個含SSR的關(guān)鍵免疫基因?qū)腒EGG通路與疾病密切相關(guān)。其中Bcl2基因關(guān)聯(lián)的疾病相關(guān)通路較多,包括多重神經(jīng)退行性疾病通路(Map05022)、癌癥中的轉(zhuǎn)錄誤調(diào)節(jié)(Map05202)、結(jié)直腸癌(Map05210)、胰腺癌(Map05212)、小細胞肺癌(Map05222)、前列腺癌(Map05215)、胃癌(Map05226)和慢性骨髓白血病(Map05220)等。此外,微衛(wèi)星與端粒和著絲粒相關(guān)(丁戈等,2008)。真核生物染色體端粒為重復序列,保護染色體末端。目前關(guān)于微衛(wèi)星功能的研究比較淺顯,沒有深入研究其中的分子機理,應采用多學科交叉協(xié)作,結(jié)合遺傳學、生物化學、分子生物學等學科知識,融會貫通深入研究其中機理。
致謝:感謝中國科學院成都生物研究所嚴超超助理研究員提供的幫助。