周軍永 陸麗娟 劉茂 朱淑芳 仇鵬輝 孫其寶
摘要:為了簡單重復序列(simple sequence repeats,SSR)和單核苷酸多態(tài)性標記(single nucleotide polymorphism,SNP)開發(fā)等研究,以李府貢棗不同處理棗果實的轉(zhuǎn)錄組序列為基礎,分析了轉(zhuǎn)錄組數(shù)據(jù)中SSR和SNP位點的分布。結(jié)果表明:轉(zhuǎn)錄組數(shù)據(jù)共獲得了226 488條contig序列,其中有42 570條unigene在數(shù)據(jù)庫中得到注釋。利用鑒定簡單重復序列的軟件(MIcroSAtellite identification tool,MISA)進行SSR位點的搜索,共得到18 016個SSR位點,SSR位點的出現(xiàn)頻率為0.43個/kb。SSR位點共包含164種重復基元,其中以A/T類型為主的單核苷酸重復所占的比例最高(6 942個,38.44%),其次是AG/CT類型為主的二核苷酸重復(6 113個,33.85%)和以AAG/CTT為主的三核苷酸重復(4 242個,23.49%),四核苷酸重復、五核苷酸重復和六核苷酸重復基本相同。在轉(zhuǎn)錄組得到的unigene中共發(fā)現(xiàn)SNP位點163 360個,發(fā)生頻率為1/254 bp,6種單核普酸變異中以Transition類型的A/G和C/T發(fā)生頻率最高,分別為總數(shù)的30.80%和30.49%;其他4種Transversion類型的SNP為C/G、G/T、A/C和A/T,分別占到總數(shù)的9.83%、978%、9.78%和9.32%。其中Transition類型顯著高于Transversion類型,在轉(zhuǎn)換類型中A/G和C/T發(fā)生頻率基本一致,但以A/G發(fā)生頻率略高。
關鍵詞:棗;轉(zhuǎn)錄組;SSR;SNP;特征分析
中圖分類號: S665.101? 文獻標志碼: A? 文章編號:1002-1302(2019)04-0051-04
棗(Ziziphus jujuba Mill.)具有重要的經(jīng)濟價值和生態(tài)價值,在我國栽培歷史悠久,是許多省份和地區(qū)重要的經(jīng)濟林樹種,棗產(chǎn)業(yè)成為當?shù)氐闹еa(chǎn)業(yè)之一。我國棗種質(zhì)資源豐富、品種繁多,近年來國內(nèi)外學者利用簡單重復序列間擴增(inter-simple sequence repeat,ISSR)[1-2]、擴增片段長度多態(tài)性(amplified fragment length polymorphism,AFLP)[3]等分子標記技術(shù)在棗的品種分類、鑒別以及遺傳多樣性方面開展了相關研究工作。
簡單重復序列是由1~6個堿基組成的簡單串聯(lián)重復序列,普遍存在于真核生物基因組[4],SSR按來源可分為有基因組SSR和轉(zhuǎn)錄組來源的SSR[5],與基因組SSR相比,轉(zhuǎn)錄組來源的SSR無須構(gòu)建基因組文庫等工作。SSR標記具有影響轉(zhuǎn)錄、基因調(diào)節(jié)、蛋白質(zhì)功能以及基因組構(gòu)[6-7],被認為是遺傳學研究中最理想的分子標記手段之一[8],同時轉(zhuǎn)錄組來源的SSR反映了基因組的編碼區(qū)域,直接獲得物種基因表達信息,因此EST-SSR多態(tài)性可能與基因功能直接相關[9]。與常規(guī)的AFLP、隨機擴增多態(tài)性DNA(random amplified polymorphism DNA,RAPD)、ISSR等分子標記相比,SSR標記具有數(shù)量豐富、分布廣泛、共顯性遺傳、多態(tài)性豐富等特點,由于棗SSR標記開發(fā)較晚,目前SSR標記已被應用于棗指紋圖譜構(gòu)建、親緣關系、遺傳多樣性分析等研究領域[10-11]。SNP標記是指基因組DNA序列中由于單個核普酸替換或較短片段的插入缺失所引起的多態(tài)性,以其分布廣泛、穩(wěn)定性強等優(yōu)點已被廣泛應用于的遺傳分析領域,SNPs標記在蘋果、西瓜、柑橘、葡萄、柿等作物中得到了開發(fā)和利用[12-13]。目前,在棗中開發(fā)了一些基因組SSR[14]和轉(zhuǎn)錄組SSR標記[15],分別在基因組和轉(zhuǎn)錄組水平上分析了棗微衛(wèi)星的特點;而棗SNP研究處于標記發(fā)現(xiàn)階段,研究報道較少。
本研究利用轉(zhuǎn)錄組測序技術(shù)對李府貢棗不同處理果實進行轉(zhuǎn)錄組測序和數(shù)據(jù)組裝,通過分析其特征為SSR和SNP標記的開發(fā)和利用提供生物信息學基礎,同時為棗遺傳結(jié)構(gòu)和遺傳分化以及構(gòu)建遺傳圖譜奠定基礎,也將為其功能基因的開發(fā)利用、比較基因組學的研究等提供依據(jù)。
1 材料與方法
1.1 研究材料
材料取自安徽省農(nóng)業(yè)科學院園藝研究所棗種質(zhì)資源圃,2016年選取樹齡5年,處于盛果期的李府貢棗為試材,當棗果實進入白熟期后進行灌水處理,分別設置ZJ(未灌水)、ZJ1(灌水后8 h)、ZJ2(灌水后30 h)、ZJ3(開裂)等4個處理,處理后分別采集果實表皮各2份,液氮冷凍后在 -80 ℃ 保存。
1.2 總RNA的提取
采用TRIzol試劑提取棗果實總核糖核苷酸(RNA),提取后用瓊脂糖凝膠電泳檢測,然后利用安捷倫2100芯片生物分析儀(Agilent 2100 Bioanalyzer)檢測提取的RNA是否達到轉(zhuǎn)錄組測序(RNA-Seq)的試驗標準。
1.3 轉(zhuǎn)錄組測序及數(shù)據(jù)組裝
提取的棗果皮總RNA經(jīng)脫氧核糖核酸酶Ⅰ(DNase Ⅰ)處理后,用帶有多聚胸腺嘧啶[Oligo(dT)]的磁珠富集真核生物信使核糖核酸(messenger RNA,mRNA)。然后加入打斷試劑將mRNA打斷成短片段,并以打斷后的mRNA為模板用六堿基隨機引物(random hexamers)合成1鏈互補脫氧核糖核酸(complementary deoxyribonucleic acid,cDNA),加入緩沖液、三磷酸堿基脫氧核苷酸(deoxyribonucleoside triphosphates,dNTPs)和DNA聚合酶Ⅰ(DNA polymerase Ⅰ)合成cDNA第2鏈,經(jīng)試劑盒純化回收、黏性末端修復、3′末端加上堿基“A”和連接測序接頭,再將得到的片段進行大小選擇后PCR擴增富集。構(gòu)建好的文庫經(jīng)Agilent 2100 Bioanalyzer和美國應用生物系統(tǒng)公司的實時熒光定量PCR儀(ABI StepOnePlus Real-Time PCR System)質(zhì)檢合格后使用Illumina測序平臺進行測序。轉(zhuǎn)錄組測序工作由深圳市恒創(chuàng)基因科技有限公司完成。對4份棗果皮樣品測序得到的原始數(shù)據(jù)過濾掉里面含有帶接頭的、低質(zhì)量的測序序列(read)得到干凈序列(clean reads)。利用轉(zhuǎn)錄組Trinity組裝軟件對所有樣品的干凈序列進行混合拼接成轉(zhuǎn)錄本序列,取每條基因中最長的轉(zhuǎn)錄本為基因組數(shù)據(jù)庫,得到的基因組數(shù)據(jù)庫數(shù)據(jù)庫用于后續(xù)分析。
1.4 SSR和SNP分析方法
SSR位點搜索主要是利用MISA軟件(http://pgrc. ipk-gatersleben. de/misa/)搜索得到基因組數(shù)據(jù)庫,其參數(shù)設置:單堿基、二堿基、三堿基、四堿基、五堿基、六堿基的最短重復次數(shù)分別為12、6、5、5、4、4。
SNP位點的搜索通過Samtool和Picard-tools等工具對比對結(jié)果進行染色體坐標排序、去掉重復的序列等處理,最后通過變異檢測軟件UATK3進行單核苷酸多態(tài)性標記調(diào)用(SNP calling),并對原始結(jié)果進行過濾。
2 結(jié)果與分析
2.1 RNA質(zhì)量檢測
提取的總RNA樣品先進行電泳檢測,結(jié)果如圖1所示,28S和18S條帶明亮,無雜質(zhì)。
Aligent2100檢測總RNA樣品質(zhì)量,RNA完整值(RNA integrity number,RIN)都在7.0~8.0之間,總RNA的濃度和總量等指標均已達到測序要求,可用于后續(xù)轉(zhuǎn)錄組測序等試驗(表1)。
2.2 轉(zhuǎn)錄組數(shù)據(jù)組裝結(jié)果及統(tǒng)計
棗果實轉(zhuǎn)錄組測序共獲得41 471 760條干凈序列,對干凈序列進行組裝拼接獲得226 488條拼接序列。拼接序列長度范圍主要分布在200~2 000 bp之間,其中以200~300 bp序列數(shù)量居多,約占總拼接序列的61.70%,大于2 000 bp的序列約占總拼接序列的4.64%(表2)。
組裝拼接獲得42 570條基因組數(shù)據(jù)庫,序列長度主要分布在300~3 000 bp范圍內(nèi),平均長度為974 bp。300~2 000 bp 序列數(shù)量最多,占全部基因組數(shù)據(jù)庫序列的8739%;2 000~3 000 bp 的基因組數(shù)據(jù)庫序列有3 651條,占全部基因組數(shù)據(jù)庫序列的8.58%;≥3 000 bp的基因組數(shù)據(jù)庫序列有1 719條,占 4.04%(表3)。
2.3 微衛(wèi)星特征分析
2.3.1 微衛(wèi)星數(shù)量及分布特點 在轉(zhuǎn)錄組的42 570條基因組數(shù)據(jù)庫序列中發(fā)現(xiàn)18 016個SSR位點,其中包含1 442個混合型SSR和13 033個完整型SSR位點,完整型SSR占總SSR位點的72.3%,包含2個及以上SSR位點的基因組數(shù)據(jù)庫共有3 762條。SSR位點的出現(xiàn)頻率為0.43個/kb,即每2.3 kb就出現(xiàn)1個SSR位點。
SSR位點共包含164種重復基元,單核苷酸至六核苷酸分別有2、4、10、19、32、97種。其中SSR重復基元的重復次數(shù)均在4~35次,重復4~10次的SSR位點共有10 606個,占總SSR的58.87%,主要為二核苷酸和三核苷酸;重復11~16次的SSR位點有3 780個,占20.98%,主要為單核苷酸和二核苷酸;重復17~20、21~35次的SSR位點基本為單核苷酸(表4)。
在微衛(wèi)星中,單核苷酸重復(6 942個,38.53%)最多,其次是二核苷酸重復(6 113個,33.93%)和三核苷酸重復(4 242個,23.55%),四核苷酸重復、五核苷酸重復和六核苷酸重復基本相同(219、242、258個)(圖2)。
2.3.2 微衛(wèi)星不同優(yōu)勢重復單元堿基的特征分析 SSR位點共包含164種重復基元,單核苷酸至六核苷酸分別有2、4、10、19、32、97種。通過對棗不同類型SSR重復單元數(shù)量的變化的統(tǒng)計得出頻率最高的4類基序,依次為A/T(6 871個,38.14%)、AG/CT(3 713個,20.61%)、AT/AT(1 998個,1109%)和AAG/CTT(1 462個,8.12%)。
在2種單核苷酸重復微衛(wèi)星中,以A/T為最主要的重復單元,共有6 871個,占98.98%,而C/G只占1.02%。
二核苷酸重復類型有4種(AC/GT、AG/CT、AT/AT和CG/CG),其中AG/CT重復的數(shù)量最多,共有3 713個,占二核苷酸重復微衛(wèi)星總數(shù)的60.74%;其次是AT/AT(1 998個),占32.68%;再次是AC/GT(396個),占6.48%;而CG/CG只有6個,占0.10%(圖3)。
三核苷酸重復類型有10種,AAG/CTT重復的數(shù)量最多,共有1 462個,占4.46%;其次是AAT/ATT(645個)、ACC/GGT(521個)、ATC/ATG(477個);再次是AAC/GTT(360個)、AGG/CCT(298個)、AGC/CTG(283個),其他重復類型則相對較少。
在19種四核苷酸重復類型中,以AAAT/ATTT重復數(shù)量最多,共113個,占四核苷酸SSR總數(shù)的51.60%;其次為AAAG/CTTT,有27個,占12.33%。五核苷酸重復類型有32種,AAAAT/ATTTT重復數(shù)量最多,有104個,占42.98%。六核苷酸重復類型有97種,共258個,但每種重復類型數(shù)量都較少。
通過對棗果實轉(zhuǎn)錄組微衛(wèi)星數(shù)量分析可知,單核苷酸重復次數(shù)主要集中在12~20次,且隨著重復次數(shù)增加呈遞減趨勢,未發(fā)現(xiàn)重復24次以上的單核苷酸微衛(wèi)星序列。二核苷酸微衛(wèi)星重復次數(shù)集中在6~11次;三核苷酸微衛(wèi)星重復次數(shù)集中在5~8次;四核苷酸微衛(wèi)星重復次數(shù)集中在5~6次;而五核苷酸微衛(wèi)星和六核苷酸微衛(wèi)星重復次數(shù)最少,為4~5次。
2.3.3 微衛(wèi)星長度分布 微衛(wèi)星長度也存在極顯著變異,長度變化范圍為12~248 bp,平均長度為21 bp。以重復長度為10~20 bp的短序列最多,占80.12%;其次為長度在21~29 bp 的序列,占總數(shù)的12.18%;長度大于50 bp的長序列占微衛(wèi)星總數(shù)的4.36%(圖4)。
2.4 SNP位點的特征分析
在轉(zhuǎn)錄組得到的基因組數(shù)據(jù)庫中共發(fā)現(xiàn)SNP位點163 360個,發(fā)生頻率為1/254 bp,即每254 bp就會有1個SNP位點出現(xiàn),其中轉(zhuǎn)換100 122個,顛換63 238個。6種單核苷酸變異中以轉(zhuǎn)換類型的A/G和C/T發(fā)生頻率最高,分別為總數(shù)的30.80%和30.49%;其他4種顛換類型的SNP為C/G、G/T、A/C和A/T,分別占到總數(shù)的9.83%、9.78%、9.78%和932%。其中轉(zhuǎn)換類型顯著高于顛換類型,在轉(zhuǎn)換類型中 A/G 和C/T發(fā)生頻率基本一致,但以A/G發(fā)生頻率略高。
3 結(jié)論與討論
在李府貢棗轉(zhuǎn)錄組的42 570條基因組數(shù)據(jù)庫序列中發(fā)現(xiàn)18 016個SSR,其中包含1 442個混合型SSR和13 033個完整型SSR位點,SSR位點的出現(xiàn)頻率為0.43個/kb,比桃(0.31)、棗(0.36)出現(xiàn)頻率[15-16]低,與柿SSR位點出現(xiàn)頻率[13]相同,表明本研究中李府貢棗SSR標記的數(shù)量極其豐富,有望在SSR引物開發(fā)、遺傳多樣性等領域得到廣泛應用。
本研究通過轉(zhuǎn)錄組獲得的微衛(wèi)星中單核苷酸重復最多,占38.44%;其次是二核苷酸重復(33.85%)和三核苷酸重復(23.49%),四核苷酸重復、五核苷酸重復和六核苷酸重復基本相同,與前人關于棗轉(zhuǎn)錄組微衛(wèi)星特征基本相同,但本研究獲得258個六核苷酸重復類型?;蚪M序列的微衛(wèi)星特征與轉(zhuǎn)錄組微衛(wèi)星序列相比,六堿基重復微衛(wèi)星出現(xiàn)的頻率明顯高于其他類型,棗轉(zhuǎn)錄組比基因組低級基元頻率高,而高級基元比基因組的低,與前人研究[14-15]基本一致。
SSR位點共包含164種重復基元,單核苷酸至六核苷酸分別有2、4、10、19、32、97種。其中SSR重復基元的重復次數(shù)均在4~35次,重復4~10次的SSR位點共有10 606個,占總SSR的58.87%,主要為二核苷酸和三核苷酸;重復11~16次的SSR位點有3 780個,占20.98%,主要為單核苷酸和二核苷酸;重復17~20次和21~35次的SSR位點基本為單核苷酸。SSR長度變化范圍為10~248 bp,平均長度為 21 bp,以重復長度為10~20 bp的短序列最多,占80.07%。
通過對本研究結(jié)果分析可知,單核苷酸重復微衛(wèi)星為棗最優(yōu)勢微衛(wèi)星,所占比例最多,而且單核苷酸微衛(wèi)星重復單元次數(shù)的變化明顯高于其他重復類型,其次是二核苷酸微衛(wèi)星,說明單核苷酸在整個棗轉(zhuǎn)錄組中變異最為活躍。此外,SSR序列以重復長度為10~20 bp的短序列最多,此類SSR位點擁有高度多態(tài)性。SSR的長度和重復次數(shù)是影響分子標記多態(tài)性的重要因素[17],說明轉(zhuǎn)錄組獲得的SSR位點可為棗遺傳多樣性和親緣關系等研究有重要的價值。
單核苷酸多態(tài)性在植物基因組中廣泛存在[18-19]。本研究中共發(fā)現(xiàn)SNP位點163 360個,發(fā)生頻率為1/254 bp,與柿發(fā)生頻率[13]基本一致,但與水稻和玉米等作物相比發(fā)生頻率低。所獲得的SNP位點中Transition類型顯著高于Transversion類型。6種單核普酸變異中以Transition類型的A/G和C/T發(fā)生頻率最高。轉(zhuǎn)錄組來源的SSR、SNP多位于基因組的編碼區(qū)域,可直接獲得物種基因表達信息,可能與基因功能直接相關,轉(zhuǎn)錄組測序結(jié)果為SSR和SNP標記的開發(fā)和利用提供生物信息學基礎,同時為棗遺傳結(jié)構(gòu)和遺傳分化以及構(gòu)建遺傳圖譜奠定基礎,也將為其功能基因的開發(fā)利用、比較基因組學、分子輔助育種等研究提供依據(jù)。
參考文獻:
[1]孫 俊,孫雯雯,周軍永,等. 安徽及周邊地區(qū)棗種質(zhì)資源遺傳多樣性研究[J]. 園藝學報,2015,42(8):1569-1575.
[2]原勤勤,文亞峰,劉 儒,等. 棗優(yōu)良品種親緣關系的ISSR分析[J]. 經(jīng)濟林研究,2012,30(1):56-61.
[3]王永康,田建保,王永勤,等. 棗樹品種品系的AFLP分析[J]. 果樹學報,2007,24(2):146-150.
[4]Mrazek J,Guo X,Shah A. Simple sequence repeats inprokaryotic genomes[J]. PNAS,2007,10(4):8472-8477.
[5]王 東,曹玲亞,高建平. 黨參轉(zhuǎn)錄組中SSR位點信息分析[J]. 中草藥,2014,46(8):2390-2394.
[6]Kashi Y,King D G.Simple sequence repeat as advantageous mutators in evolution[J]. Trents in Gentic,2006,22(5):253-259.
[7]Lawson M J,Zhang L.Patterns of SSR distribution in the Arabidopsis thaliana and rice genomes[J]. Genome Biology,2006,7(2):R14.
[8]Liu T,Zhu S,F(xiàn)u L,et al. Development and characterization of 1827 expressed sequence tag-derived simple sequence repeat markers for ramie(Boehmeria nivea L. Gaud)[J]. PLoS One,2013,8(4):e60346.
[9]Eujayl I,Sorrells M,Banm M,et al.Isolation of EST-derived microsatellite markers for genotyping the A and B genomes of wheat[J]. Theoretical and Applied Genetics,2002,104(2):399-407.
[10]麻麗穎,孔德倉,劉華波,等. 36份棗品種SSR指紋圖譜的構(gòu)[J]. 園藝學報,2012,39(4):647-654.
[11]劉秀云,李 慧,劉志國,等. 基于SSR標記的255個棗品種親緣關系和群體遺傳結(jié)構(gòu)分析[J]. 中國農(nóng)業(yè)科學,2016,49(14):2772-2791.
[12]姚丹青,樓堅鋒,顧芹芹. SNP在農(nóng)作物遺傳分析中的應用[J]. 上海農(nóng)業(yè)科技,2015,6:26-27.
[13]杜改改,孫 鵬,索玉靜,等. 基于柿雌雄花芽轉(zhuǎn)錄組測序的SSR和SNP多態(tài)性分析[J]. 中國農(nóng)業(yè)大學學報,2017,22(10):45-55.
[14]馬秋月,戴曉港,陳贏男,等. 棗基因組的微衛(wèi)星特征[J]. 林業(yè)科學,2013,49(12):81-87.
[15]魏琦琦,林 青,賈寶光,等. 棗轉(zhuǎn)錄組序列的微衛(wèi)星特征分析[J]. 中南林業(yè)科技大學學報,2015,35(6):93-97.
[16]Wang L,Zhao S,Gu C.Deep RNA-Seq uncovers the peach transcriptome landscape[J]. Plant Molecular Biology,2013,83(4/5):365-377.
[17]趙雅楠,王 穎,張東杰,等. 小豆SSR-PCR反應體系優(yōu)化及引物篩選[J]. 江蘇農(nóng)業(yè)科學,2017,45(11):33-37.
[18]雷 雨,張雪芳,羅鑫磊,等. 不同成熟期桃品種NAC基因遺傳多樣性研究[J]. 江蘇農(nóng)業(yè)科學,2017,45(22):46-49.
[19]李貝貝,劉崇懷,姜建福,等. 葡萄品種分子鑒定研究進展及展望[J]. 江蘇農(nóng)業(yè)科學,2017,45(15):15-20.莊倩倩,陳少鵬,劉洪章. 紫萼玉簪HvGASA、HvFAD基因的克隆及表達分析[J]. 江蘇農(nóng)業(yè)科學,2019,47(4):55-60.