串聯(lián)重復(fù)序列在克萊門柚基因組中的特征研究

2018-09-11 01:26:32趙志新

西南農(nóng)業(yè)學(xué)報(bào) 2018年8期

趙志新，張蒙

(1.商洛學(xué)院生物醫(yī)藥與食品工程學(xué)院，陜西商洛 726000；2.福建農(nóng)林大學(xué)生命科學(xué)學(xué)院，福建福州 350000)

【研究意義】克萊門柚(Citrusclementina) 別名“文旦”,為蕓香科柑橘屬植物[1]。果皮甚厚而光滑，果肉酸甜可口，維生素C含量豐富，兼營(yíng)養(yǎng)、食用、藥用、加工等多種功效，是南方重要的經(jīng)濟(jì)熱帶水果，主產(chǎn)于福建省漳州、廈門，我國(guó)柚類種植面積和產(chǎn)量居世界首位[2]?！厩叭搜芯窟M(jìn)展】克萊門柚作為蕓香科植物,其單倍體基因組為301.37 Mbp，遺傳背景復(fù)雜，一直以來(lái)很難建立精確的物理圖譜[3]。DNA重復(fù)序列包括串聯(lián)重復(fù)序列、散在重復(fù)序和片段重復(fù)序列。串聯(lián)重復(fù)序列(Tandem repeats, TRs)，通常指1～200 bp的重復(fù)DNA單元組成，重復(fù)單元之間首尾依次相連成串排列[4]。根據(jù)重復(fù)單元和重復(fù)次數(shù)分為衛(wèi)星、小衛(wèi)星和微衛(wèi)星等[5]?！颈狙芯壳腥朦c(diǎn)】對(duì)重復(fù)序列的深入研究能進(jìn)一步了解重復(fù)序列在基因組進(jìn)化中的作用，及其在基因組中的生物學(xué)功能等[6-7]?！緮M解決的關(guān)鍵問(wèn)題】本實(shí)驗(yàn)通過(guò)研究串聯(lián)重復(fù)序列在克萊門柚全基因組的密度及模體特征，以便闡明重復(fù)序列在克萊門柚基因組中可能的生物學(xué)功能。

1 材料與方法

1.1 克萊門柚全基因組數(shù)據(jù)的獲得

從植物基因組數(shù)據(jù)庫(kù)Phytozome (http//www.Phytozome.net/)下載克萊門柚(C.clementina)的全基因數(shù)據(jù)及基因組注解(Gene annotation)數(shù)據(jù)，得到其全基因組(whole genome size)大小為301.37 Mbp。

真核生物的基因結(jié)構(gòu)包括啟動(dòng)子，轉(zhuǎn)錄起始點(diǎn)，增強(qiáng)子，編碼區(qū)，終止子及上下游區(qū)域。為了便于對(duì)克萊門柚基因組中串聯(lián)重復(fù)序列的分析，本研究依據(jù)圖1的真核基因結(jié)構(gòu)對(duì)每個(gè)區(qū)域分別進(jìn)行分析，主要包括基因內(nèi)區(qū)域(intragenic regions)和基因間區(qū)域(intergenic regions)，其中基因內(nèi)區(qū)域包括5′UTR(非翻譯區(qū))、CDS(編碼區(qū))、intron(內(nèi)含子)和 3′UTR(非翻譯區(qū))。串聯(lián)重復(fù)序列的密度(density)被定義為，每兆堿基對(duì)含有的串聯(lián)重復(fù)序列的堿基對(duì)數(shù)(bp/Mbp)，表示串聯(lián)重復(fù)序列長(zhǎng)度在總檢測(cè)序列長(zhǎng)度中所占的比例。依據(jù)圖1，分別計(jì)算、分析克萊門柚基因組UI1000、UI500、UI200、5′UTR、CDS、Intron、3′UTR、DI200、DI500、DI1000區(qū)域中的串聯(lián)重復(fù)序列特征。

1.2 串聯(lián)重復(fù)序列的檢測(cè)和分析

為了對(duì)健全和不完善的串聯(lián)重復(fù)序列的檢測(cè)，利用串聯(lián)重復(fù)序列的搜索工具(Phobos version 3.3.12)。考慮所需處理的基因組的計(jì)算資源和執(zhí)行時(shí)間，采用1～50 bp作為重復(fù)單位的大小，所需檢測(cè)重復(fù)的的最小長(zhǎng)度被設(shè)定為12。對(duì)于循環(huán)的串聯(lián)重復(fù)序列，按照字母表的順序只有一個(gè)基序被選擇為代表[6-7]，例如AAG、AGA和GAA為(AAG)n的重復(fù)單元，但只有AAG被選擇為代表的重復(fù)序列。此外，串聯(lián)重復(fù)序列以及它的反向互補(bǔ)序列(例如，AAG和CTT)應(yīng)該分別檢測(cè)，這是因?yàn)榛蜃⒔庠诓煌逆溕?正鏈和負(fù)鏈)，最近有大量報(bào)道許多基因的正義和反義轉(zhuǎn)錄[8]，強(qiáng)調(diào)在基因組注解基因定位的重要性，類似的策略已經(jīng)被他人采用[9]。

2 結(jié)果與分析

2.1 高粱全基因中1～50 bp串聯(lián)重復(fù)序列的密度分析

圖2顯示，在克萊門柚基因組中，從上游序列UI1000到5′UTR，重復(fù)密度緩慢上升，5′UTR處出現(xiàn)最高值7958 bp/Mbp，至CDS處出現(xiàn)最低值1628 bp/Mbp，其次3′UTR中密度也較低，為3737 bp/Mbp；在基因下游區(qū)域，重復(fù)密度在6500 bp/Mbp左右?，F(xiàn)在就重復(fù)序列的密度做以下分析。

圖3表示，在整個(gè)克萊門柚基因組(301.37 Mb)中，1～50 bp 串聯(lián)重復(fù)序列密度排在前7位從高到低分別是單堿基、二堿基、六堿基、三堿基、七堿基、四堿基、22堿基。其中單堿基、二堿基和六堿基為主要的重復(fù)單元(每種堿基的重復(fù)密度大于5 %)。單堿基、二堿基和六堿基的重復(fù)密度分別為33.13 %、9.50 %、6.66 %。單核苷酸重復(fù)單元以A及其互補(bǔ)模體T為主，占總重復(fù)模體的90.68 %。G及其互補(bǔ)模體C密度最小，占總重復(fù)模體的9.32 %。

圖1 串聯(lián)重復(fù)序列分析的基因Fig.1 The gene in TR analysis

圖2 克萊門柚基因組不同區(qū)域串聯(lián)重復(fù)序列密度Fig.2 The densities of TRs in different regions in C.clementina genome

圖3 克萊門柚基因組中1～50 bp串聯(lián)重復(fù)序列密度Fig.3 The densities of 1-50 bp TRs in C.clementina genome

2.2 串聯(lián)重復(fù)序列1-50 bp在基因內(nèi)的密度分布

2.2.1 串聯(lián)重復(fù)序列1～50 bp在5′UTR中的密度分布圖4顯示，單堿基、二堿基、六堿基、三堿基串聯(lián)重復(fù)序列密度較高，分別為2289、1238、1080和904 bp/Mbp。單堿基重復(fù)單元以A(1305 bp/Mbp)及其互補(bǔ)模體T(870 bp/Mbp)為主，占95.02 %。二堿基重復(fù)單元以CT(697 bp/Mbp)及其互補(bǔ)模體AG(291 bp/Mbp)為主，占79.94 %。六堿基中以CTTTTT(50 bp/Mbp)最高，以AAGATC(15 bp/Mbp)最低。三堿基重復(fù)單元以CTT(180 bp/Mbp)及其互補(bǔ)模體AAG(150 bp/Mbp)為主，占37.02 %，CGG最低(3 bp/Mbp)。5′UTRs的重復(fù)序列可能與啟動(dòng)子區(qū)的識(shí)別有關(guān)，轉(zhuǎn)錄起始點(diǎn)上游TATA區(qū)與CAAAT區(qū)(CAAT box)結(jié)合RNA聚合酶啟動(dòng)轉(zhuǎn)錄。

2.2.2 串聯(lián)重復(fù)序列1～50 bp在CDS中的密度分布 CDS (coding sequence),即編碼區(qū)，包含相間排列的Intron(內(nèi)含子)和Exon(外顯子)，兩者均可轉(zhuǎn)錄，轉(zhuǎn)錄后內(nèi)含子經(jīng)加工剪切，外顯子連接后翻譯出蛋白質(zhì)[4]。因此內(nèi)顯子突變，對(duì)生物無(wú)意義，生物主要靠外顯子起作用，因此不能輕易突變，否則對(duì)生物將會(huì)產(chǎn)生不可預(yù)測(cè)的影響。圖5顯示，三堿基和六堿基串聯(lián)重復(fù)密度最大，分別是414和337 bp/Mbp，在總密度的比例分別為25.43 %和20.71 %；其次就是三堿基倍數(shù)的重復(fù)單元密度較高，如9-bp (79 bp/Mbp)，12-bp (70 bp/Mbp)，33-bp (64 bp/Mbp)等。三堿基重復(fù)單元以AAG密度最高(57 bp/Mbp)，占13.80 %。六堿基中ACCGTG密度最高(14 bp/Mbp)。

圖4 5′UTR中1～50 bp串聯(lián)重復(fù)序列密度Fig.4 The densities of 1-50 bp TRs in 5′UTR s

圖5 CDS中1～50 bp串聯(lián)重復(fù)序列密度Fig.5 The densities of 1-50 bp TRs in CDS

2.2.3 串聯(lián)重復(fù)序列1～50 bp在內(nèi)含子中的密度分布 Intron為內(nèi)含子，即翻譯生成蛋白時(shí)需要被剪切掉的部分。單堿基和二堿基串聯(lián)重復(fù)密度最大，分別為2319和557 bp/Mbp，占總重復(fù)序列的42.06 %和10.10 % (圖6)。單堿基重復(fù)以T(1401 bp/Mbp)及其互補(bǔ)模體A(524 bp/Mbp)為主。二堿基重復(fù)中以AT(154 bp/Mbp)和CT最高(146 bp/Mbp)， CG最低(4 bp/Mbp)。

圖6 內(nèi)含子中1～50 bp串聯(lián)重復(fù)序列密度Fig.6 The densities of 1-50 bp TRs in introns

圖7 3′UTR中1～50 bp串聯(lián)重復(fù)序列密度Fig.7 The densities of 1-50 bp TRs in 3′UTRs

(A)UI200, (B)UI500, (C)UI1000圖8 上游基因間隔區(qū)1～50 bp串聯(lián)重復(fù)序列密度Fig.8 The densities of 1-50 bp TRs in upstream intergenic regions

2.2.4 串聯(lián)重復(fù)序列1～50 bp在3′UTR中的密度分布 3′UTR為結(jié)構(gòu)基因的3′-端非編碼區(qū)，包括促使轉(zhuǎn)錄終止的終止子序列和真核生物的加尾序信號(hào)[4]。單堿基串聯(lián)重復(fù)密度高達(dá)1337 bp/Mbp，其次為二堿基(350 bp/Mbp)、六堿基(261 bp/Mbp)和七堿基(248 bp/Mbp)重復(fù)(圖7)。單堿基重復(fù)單元以T(846 bp/Mbp)及其互補(bǔ)模體A(391 bp/Mbp)為主，占總的92.45 %。這可能與3′UTR末端聚腺苷酸化形成poly(A)尾巴有關(guān)。

2.3 串聯(lián)重復(fù)序列1～50 bp在基因間的密度分布

2.3.1 串聯(lián)重復(fù)序列1～50 bp在基因上游區(qū)域的密度分布在基因上游UI200、UI500和UI1000區(qū)域內(nèi)，單堿基串聯(lián)重復(fù)序列密度都是最高(>2400 bp/Mbp)，其次為2～7 bp的重復(fù)序列，相比較而言五堿基重復(fù)序列密度在這些微衛(wèi)星中則最低(<300 bp/Mbp)(圖8)。

(A)DI200, (B)DI500, (C)DI1000圖9 下游基因間隔區(qū)1～50 bp串聯(lián)重復(fù)序列密度 Fig.9 The densities of 1-50 bp TRs in downstream intergenic regions

在UI200區(qū)域中(圖8-A)，單堿基和二堿基串聯(lián)重復(fù)密度最大，分別是2532 bp/Mbp和1256 bp/Mbp。單堿基重復(fù)單元以A(1424 bp/Mbp)及其互補(bǔ)模體T(859 bp/Mbp)為主，占總的90.13 %。二堿基中以AT為最高(424 bp/Mbp)，占總的33.76 %。

UI500區(qū)域中(圖8-B)，單堿基和二堿基密度最大，分別為2686和805 bp/Mbp。單堿基重復(fù)單元以A(1267 bp/Mbp)及其互補(bǔ)模體T(1206 bp/Mbp)為主，占總的92.07 %。二堿基中以AT為最高(287 bp/Mbp)，占總重復(fù)模體的35.65 %。

UI1000區(qū)域中(圖8-C)，單堿基和二堿基密度最大，分別是2415 bp/Mbp和712 bp/Mbp。單堿基重復(fù)單元以A(1123 bp/Mbp)及其互補(bǔ)模體T(1090 bp/Mbp)為主，占總的91.64 %。二堿基中以AT為最高(316 bp/Mbp)，占總的44.38 %。

2.3.2 串聯(lián)重復(fù)序列1～50 bp在基因下游區(qū)域的密度分布類似于基因上游區(qū)域，在基因下游(DI200、DI500和DI1000)區(qū)域，單堿基密度最高(>2200 bp/Mbp)，其次為2～7 bp重復(fù)序列，而五堿基重復(fù)序列密度在這些微衛(wèi)星中則最低(<200 bp/Mbp)(圖9)。

在DI200區(qū)域中(圖9-A)，單堿基和二堿基串聯(lián)重復(fù)密度最大，分別為2695和937 bp/Mbp。單堿基重復(fù)以T(1428 bp/Mbp)及其互補(bǔ)模體A(1078 bp/Mbp)為主，占總的92.99 %。二堿基中以AT和CT最高，分別是300和256 bp/Mbp，占總的59.34 %。

在DI500區(qū)域中(圖9-B)，單堿基和二堿基串聯(lián)重復(fù)密度最大，分別是2439和722 bp/Mbp。單堿基重復(fù)單元以T(1130 bp/Mbp)及其互補(bǔ)模體A(1090 bp/Mbp)為主，占總的90.98 %。二堿基中以AT為最高(287 bp/Mbp)，占總的39.56 %。

在DI1000區(qū)域中(圖9-C)，單堿基和二單堿基串聯(lián)重復(fù)密度最大，分別是2211和505 bp/Mbp, 占總的34.15 %。單堿基重復(fù)單元以A(1075 bp/Mbp)及其互補(bǔ)模體T(969 bp/Mbp)為主，占總重復(fù)模體的92.49 %。

3 討論

在克萊門柚的基因組中，本文主要研究的特征區(qū)域包括UI1000、UI500、UI200、5′UTR、CDS、Intron、3′UTR、DI200、DI500和DI1000等。數(shù)據(jù)顯示克萊門柚基因組串聯(lián)重復(fù)序列高密度的主要為短序列重復(fù)單元(1～7 bp)，主要重復(fù)類別是單堿基、二堿基、六堿基、三堿基、七堿基、四堿基、22堿基等，且主要以A和T重復(fù)為主。研究顯示，克萊門柚基因組中最高和次高的串聯(lián)重復(fù)序列密度在5′UTR和它的直接上游區(qū)域，即UI500和UI200區(qū)，而這個(gè)區(qū)域通常為轉(zhuǎn)錄起始調(diào)控區(qū)域，大量重復(fù)序列的存在有利于保證轉(zhuǎn)錄起始的穩(wěn)定性[10]。5′UTR被認(rèn)為是串聯(lián)重復(fù)序列的熱點(diǎn)區(qū)域，之前的研究表明，5′UTR中的串聯(lián)重復(fù)序列可參與轉(zhuǎn)錄或翻譯的調(diào)控[6-7,11]；而在家蠶基因組中，5′UTR區(qū)域卻擁有最少的SSR數(shù)量[12]，這可能是物種差異造成的。CDS中串聯(lián)重復(fù)序列的密度最低，低密度的重復(fù)序列會(huì)降低蛋白質(zhì)的復(fù)雜性從而增強(qiáng)其保守度，已經(jīng)證實(shí)CDS的突變會(huì)導(dǎo)致蛋白功能改變，功能喪失和蛋白截短[13]；同時(shí)CDS中主要以3n模體 (如3、9、12 bp等)作為主要的重復(fù)單元,應(yīng)該與翻譯的三聯(lián)體密碼子有關(guān)，以避免框移。3′UTR和內(nèi)含子中的串聯(lián)重復(fù)序列密度也較低，可能暗示重復(fù)序列在這些區(qū)域保守度高，參與的生物學(xué)功能也可能較少[7]；3′UTR重復(fù)序列變異將會(huì)導(dǎo)致轉(zhuǎn)錄提前終止或延后[4]。

4 結(jié) 論

本文研究串聯(lián)重復(fù)序列在克萊門柚基因組不同區(qū)域的特征，結(jié)果顯示重復(fù)序列在基因不同區(qū)域具有明顯的數(shù)量(密度)及模體類型差異，說(shuō)明重復(fù)序列很可能參與克萊門柚不同區(qū)域基因表達(dá)與調(diào)控。生物能夠穩(wěn)定遺傳和進(jìn)化與串聯(lián)重復(fù)序列的存在有很重要的關(guān)系，而克萊門柚中串聯(lián)重復(fù)序列具體的生物學(xué)功能還有待進(jìn)一步研究。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看