趙濤 王靜毅 劉菊華 徐碧玉 金志強(qiáng)
摘要:為發(fā)掘出一批香蕉的SNP位點、進(jìn)一步研究香蕉的遺傳關(guān)系、相關(guān)性狀的定位等打下基礎(chǔ),從美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的dbEST數(shù)據(jù)庫下載46 665條香蕉EST序列,經(jīng)生物信息學(xué)方法分析發(fā)掘EST-SNP位點,并對其所在核酸序列進(jìn)行功能注釋分析。通過對46 665條EST進(jìn)行拼接,共得到3 490條重疊群(contigs),在含有4條以上重疊群中發(fā)現(xiàn)有39條重疊群中含有SNP位點,從中篩選出127個候選SNP位點,其堿基突變類型中轉(zhuǎn)換、顛換分別占SNP位點總數(shù)的63.78%、36.22%。通過序列比對分析發(fā)現(xiàn)了34個與香蕉相關(guān)基因,證明NCBI中的香蕉EST數(shù)據(jù)庫數(shù)據(jù)量大,能夠發(fā)掘出SNP標(biāo)記對香蕉進(jìn)行品種鑒定、分類和遺傳多樣性分析。
關(guān)鍵詞:香蕉;EST序列;SNP位點;重疊群;轉(zhuǎn)換;顛換;序列比對分析;遺傳多樣性
中圖分類號: S668.101文獻(xiàn)標(biāo)志碼: A
文章編號:1002-1302(2019)21-0107-04
收稿日期:2018-08-03
基金項目:海南省重點研發(fā)計劃(編號:ZDYF2018097);國家自然科學(xué)基金(編號:31501043);國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)專項(編號:CARS-31);中央級公益性科研院所基本科研業(yè)務(wù)費項目(編號:1630052017018)。
作者簡介:趙濤(1990—),男,江蘇徐州人,碩士研究生,研究方向為園藝學(xué)。Tel:(0898)66890772;E-mail:2532450562@qq.com。
通信作者:金志強(qiáng),博士,研究員,博士生導(dǎo)師,研究方向為熱帶果樹分子遺傳學(xué),E-mail:zhiqiangjin2001@yahoo.com.cn;徐碧玉,博士,研究員,研究方向為熱帶園藝植物基因工程,E-mail:biyuxu@126.com。
單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)是指在基因組水平上,由單個核苷酸的變異導(dǎo)致等位基因的多態(tài)性,不同的等位基因在特定位置上含有不同的堿基對,等位基因頻率一般要大于1%。SNP變異類型有轉(zhuǎn)換(transition)、顛換(transversion)、插入(insert)和缺失(deletion)4種,通常只分析顛換和轉(zhuǎn)換。如果一個SNPs的次等位基因頻率大于0.1,便可用于關(guān)聯(lián)或者連鎖研究。單核苷酸多態(tài)性不僅分布在非編碼區(qū),在編碼區(qū)也有分布,存在于編碼區(qū)的SNP稱為cSNP,這為研究者提供了豐富的生物信息。同時,SNP相比SSR具有更高的遺傳穩(wěn)定性。因此,現(xiàn)在人們廣泛的將其稱為第3代分子標(biāo)記,同時被認(rèn)為是應(yīng)用前景最好的遺傳標(biāo)記[1-3]。
表達(dá)序列標(biāo)簽(expressed sequence tags,EST)是來源于功能基因表達(dá)的cDNA片段,是轉(zhuǎn)錄區(qū)域多態(tài)性識別的重要資源。隨著公共數(shù)據(jù)庫中EST序列的暴發(fā)式增長,以EST序列為基礎(chǔ)開發(fā)分子標(biāo)記變得越來越方便;同時,EST標(biāo)記還具有通用性好、信息量大、開發(fā)方法簡單快捷以及成本低等優(yōu)點。利用EST開發(fā)分子標(biāo)記可直接用于動植物分子育種等相關(guān)領(lǐng)域的研究[4]。
香蕉(Musa acuminata)屬于芭蕉科芭蕉屬,單子葉草本植物。目前,香蕉已經(jīng)成為我國熱帶地區(qū)主要農(nóng)業(yè)支柱產(chǎn)業(yè),同時也是世界6億人口的主食作物[5],更是世界四大水果之一。然而,近年來環(huán)境氣候的變化導(dǎo)致我國香蕉主產(chǎn)區(qū)經(jīng)常遭受冷、干旱等逆境脅迫,同時香蕉枯萎病使得香蕉產(chǎn)業(yè)正遭受著毀滅性威脅[6]。目前,香蕉主栽品種大多是三倍體,基因組高度復(fù)雜,通常狀況下都是高度不育的,難以通過傳統(tǒng)的雜交育種得到優(yōu)良品種?,F(xiàn)在香蕉育種中如何進(jìn)行品種鑒定是難點之一。近年來,SNP已廣泛應(yīng)用于品種鑒定和重要性狀的基因定位、遺傳連鎖圖譜構(gòu)建、遺傳多樣性分析等相關(guān)研究領(lǐng)域[7-13]。同時,國內(nèi)外在香蕉方面進(jìn)行開發(fā)SNP的文章鮮有報道。本研究利用NCBI中的dbEST數(shù)據(jù)庫,通過生物信息學(xué)分析開發(fā)SNP,以期獲得合適的分子標(biāo)記,為香蕉育種株系鑒定提供技術(shù)支持。
1材料與方法
1.1香蕉EST序列的獲取
從NCBI網(wǎng)站(http://www.ncbi.nlm.nih.gov/genbank/)通過關(guān)鍵詞“MUSA”搜索下載,共得到46 665條香蕉EST,所有EST序列均以FASTA格式保存。
1.2香蕉SNP的挖掘
利用SeqClean(http://compbio.dfci.harvard.edu/tgi/software)去除載體序列及冗余序列,之后使用CD-HIT(http://www.bioinformatics.org/cd-hit)和CAP3(http://seq.cs.iastate.edu/cap3.html)進(jìn)行序列的聚類與拼接。利用QualitySNP(http://www.bioinformatics.nUtools/snpweb/)尋找SNP位點。
1.3篩選原則
香蕉SNP位點篩選原則:(1)規(guī)定候選SNP位點兩側(cè)至少有5 bp堿基要完全保守;(2)候選SNP位點中的次要等位基因頻率至少為30%[14];(3)堿基判讀質(zhì)量與其所在的位置相關(guān),測序所得的序列前區(qū)段質(zhì)量普遍偏低,應(yīng)選擇序列100 bp 以后的候選SNP位點。
1.4BLAST比對
提取含有SNP位點的重疊群(contigs)在NCBI的BLASTn數(shù)據(jù)庫中進(jìn)行序列比對,提取與序列相似性最高的序列注釋信息,對SNP靶向基因產(chǎn)物和物種來源進(jìn)行分析。
2結(jié)果與分析
2.1EST文庫來源
由表1可知,香蕉EST文庫數(shù)量多,但其序列主要來源于14個EST文庫,其數(shù)量為44 829條,占總EST的96.06%。香蕉EST文庫主要來源于香蕉A基因組,在所有的EST文庫中,來源于香蕉葉片組織的高達(dá)49.48%,來源于菜花樣芽分生組織的占23.72%,來源于香蕉根系的占11.09%,來源于香蕉果實的僅占5.41%。在香蕉EST文庫中源于Cachaco品種的最多,高達(dá)23.72%,其次為Calcutta 4-AA,占比為2000%,Grande Naine品種占14.05%,Pisang Awak(ABB)Sukari Ndizi(AB)Mpologoma(AAA)占11.77%,Pisang Klutug Wulung(PKW)-BB僅占11.33%,其品種和主要組織來源見表1。
2.2香蕉EST序列SNP頻率分析
如表2所示,在GenBank數(shù)據(jù)庫中下載到46 665條香蕉EST序列,通過SeqClean去除序列冗余,得到有效的EST序列46 056條。使用CD-HIT和CAP3進(jìn)行序列的聚類與拼接,獲得3 490條重疊群,為了提高SNP位點的可靠性,本研究所用的重疊群EST條數(shù)均大于4,經(jīng)過QualitySNP軟件發(fā)掘SNP位點,在456條重疊群中發(fā)現(xiàn)39條中含有SNP位點,總計127個SNP位點。39條重疊群的堿基總數(shù)為35 743 bp,SNP出現(xiàn)的頻率為0.35%,即平均每281 bp含有1個SNP位點。39條重疊群中平均1條重疊群中含有3.2個SNP位點,含有SNP位點數(shù)最多的重疊群有14個位點,具體見表3。
如表4所示,本研究使用的EST序列包含SNP位點堿基轉(zhuǎn)換占比63.78%,顛換占比36.23%,堿基的插入、缺失不統(tǒng)計。在不同重疊群中不同突變類型SNP位點的數(shù)量差異較大,其分布密度變化也很大。
2.3SNP位點所在核苷酸序列同源性比對結(jié)果分析
提取39個含有SNP位點的重疊群在NCBI的BLASTn數(shù)據(jù)庫中進(jìn)行比對。本研究發(fā)現(xiàn)3個未知蛋白,可能是香蕉特有或尚未被發(fā)現(xiàn)的基因(表5),但須進(jìn)一步驗證。其他基因包括1個與抗逆有關(guān)的類熱休克蛋白,3個與蛋白質(zhì)降解、DNA損傷修復(fù)有關(guān)的泛素蛋白,1個CBS(cystathionine-beta-synthase)編碼胱硫醚-β-合成酶基因,4個與蛋白質(zhì)合成相關(guān)的核糖體蛋白,1個與信號傳導(dǎo)相關(guān)的鈣調(diào)蛋白,1個參與真核翻譯起始進(jìn)程的真核翻譯起始因子,1個含LIM結(jié)構(gòu)域的LIM蛋白,1個與DNA結(jié)合的組蛋白,1個參與細(xì)胞內(nèi)物質(zhì)運輸和信號轉(zhuǎn)導(dǎo)的ADP-核糖基化因子,1個運輸?shù)鞍祝?個過氧化物酶基因,1個韌皮部蛋白以及1個磷脂酰肌醇轉(zhuǎn)移蛋白質(zhì)家族成員等,其具體的SNP位點的比對結(jié)果見表5。
3討論與結(jié)論
目前,開發(fā)EST-SNP的軟件眾多,軟件的選取以及如何設(shè)置參數(shù)都是影響試驗結(jié)果的關(guān)鍵因素。如PolyPhred只能預(yù)測某一核苷酸位點上單個堿基的替換,SNPdetector假陽性率和假陰性率均低,novoSNP的假陽性率明顯偏高;在具有可靠的參考序列時,SOAPsnp正確率較高;AutoSNP正確率低;QualitySNP預(yù)測位點少但正確率高于AutoSNP,且QualitySNP運行速度更快[15];因此,本研究應(yīng)選取QualitySNP開發(fā)SNP。
在EST序列中進(jìn)行SNP位點開發(fā)時,研究者應(yīng)當(dāng)注意影響SNP開發(fā)質(zhì)量的各種篩選參數(shù)。其中最主要的因素為重疊群的規(guī)格(重疊群所包含EST序列的數(shù)量)和次要等位基因(等位基因中出現(xiàn)次數(shù)較少的堿基)的出現(xiàn)次數(shù)。李猛利用QualitySNP軟件對葡萄EST序列進(jìn)行候選SNP位點分析時發(fā)現(xiàn),為了得到高質(zhì)量的候選SNP位點,重疊群規(guī)格應(yīng)選擇拼接EST數(shù)量≥4條以上,同時次要等位基因至少出現(xiàn)2次[16]。因為錯配僅出現(xiàn)1次的話很可能是由序列差錯引起的,而同一堿基位置上發(fā)生2次序列差錯的概率則很小。因此在規(guī)格為4條,主次等位基因出現(xiàn)次數(shù)比為1 ∶1,即次要等位基因出現(xiàn)2次的重疊群中開發(fā)的候選SNP其可靠度較高。在規(guī)格大于4條的重疊群中,也應(yīng)當(dāng)盡量保證主次等位基因出現(xiàn)次數(shù)比近似為1 ∶1,即在規(guī)格為5~6條的重疊群中,次要等位基因應(yīng)至少出現(xiàn)2次。一般在聚類時為得到高的比對分值,通常須要在1條序列中加入空格,但這樣會被誤判為插入或缺失,為避免出現(xiàn)這種情況,在處理結(jié)果時可以不考慮插入或缺失,而只分析替換類型。
本研究從NCBI中dbEST公共數(shù)據(jù)庫下載46 665條EST序列,共有46 056條EST序列參與拼接,總計拼接成3 490條重疊群,所含EST序列≥4條的重疊群共456條,在39個重疊群中發(fā)現(xiàn)SNP位點。同時大于4條以上的重疊群主要由4~7條EST序列拼接而成,最多的1條重疊群也只有13條EST,8條以上EST拼接的重疊群比較少。同時,本研究中重疊群主要長度在800~1 500 bp,長度在1 500 bp以上的較少。一般為了提高SNP的可靠性,用于SNP分析的重疊群至少包含4條以上。
在39條重疊群中篩選出127個候選SNP位點,SNP頻率為0.35%,較甘蔗[14]、茶樹[17]等其他物種的SNP頻率低,可能是由于香蕉是三倍體植物自交高度不育,在生產(chǎn)上主要依靠吸芽和組培苗進(jìn)行繁殖生產(chǎn),香蕉無法通過基因交流產(chǎn)生新的基因變化,所以自身遺傳差異變化小,SNP位點相比其他植物少。
一般情況下堿基轉(zhuǎn)換的C/T比A/G更常發(fā)生。CpG二核苷酸的胞嘧啶(C)在基因組中最易發(fā)生突變,其中大多數(shù)是甲基化的,可自發(fā)地脫去氨基而形成胸腺嘧啶(T),因此轉(zhuǎn)換型變異的SNP約占2/3[17]。在本研究中,香蕉SNP位點堿基變異類型以G/A為主,占33.07%,C/T占30.70%,與甘蔗[14]、櫛孔扇貝[18]堿基變異類型相同,與小麥[19]、大麥[20]、辣椒[21]等物種的SNP堿基變異類型不符。轉(zhuǎn)換類型和顛換類型的數(shù)量分別占候選SNP位點總數(shù)的63.78%和36.22%,轉(zhuǎn)換與顛換比為1.76 ∶1.00,即轉(zhuǎn)換類型的數(shù)量明顯高于顛換,與檀小輝等的研究結(jié)果[14]存在差異。
本研究中,含有SNP位點最多的重疊群Contigs402和Contigs373分別有14、11個SNP位點,其EST構(gòu)成分別為5、4條,長度分別為852、863 bp。而只含有1個位點的Contigs97、Contigs287的EST組成分別為6、6條,長度分別為766、901 bp。由此看出,香蕉重疊群中EST序列數(shù)量與包含的SNP位點數(shù)量并無明顯規(guī)律,這可能與不同物種間SNP位點的分布差異有關(guān)。
參考文獻(xiàn):
[1]Collins F S,Guyer M S,Charkravarti A. Variations on a theme:cataloging human DNA sequence variations[J]. Science,1997,278(5343):1580-1581.
[2]Harding R M,F(xiàn)ullerton S M,Griffiths R C,et al. Archaic African and Asian lineages in the genetic ancestry of modern humans[J]. American Journal of Human Genetics,1997,60(4):772-789.
[3]Nickerson D A,Taylor S L,Weiss K M,et al. DNA sequence diversity in a 9.7kb region of the human lipoprotein lipase gene[J]. Nature Genetics,1998,19(3):233-240.
[4]梁芳,張繼,呂平,等. 基于EST序列的玫瑰EST-SNP位點發(fā)掘與分析[J]. 南方農(nóng)業(yè)學(xué)報,2016,47(3):325-331.
[5]張靜,孫秀秀,徐碧玉,等. 香蕉分子育種研究進(jìn)展[J]. 分子植物育種,2018,16(3):914-923.
[6]竇同心. 香蕉抗寒、抗病相關(guān)基因的遺傳轉(zhuǎn)化驗證[D]. 廣州:華南農(nóng)業(yè)大學(xué),2016:1-2.
[7]孟霞,曾興權(quán),其美旺姆,等. 西藏冬青稞種質(zhì)資源SNP標(biāo)記的遺傳多樣性分析[J]. 現(xiàn)代農(nóng)業(yè)科技,2018(1):40-41,43.
[8]姚丹青,樓堅鋒,朱文瑩,等. 基于SNP標(biāo)記的黃瓜遺傳多樣性分析[J]. 上海農(nóng)業(yè)學(xué)報,2017,33(1):21-30.
[9]劉凱,鄧志英,李青芳,等. 利用高密度SNP遺傳圖譜定位小麥穗部性狀基因[J]. 作物學(xué)報,2016,42(6):820-831.
[10]楊潤婷,吳波,李翀,等. 兩種SNP分型方法的比較及其在柚品種鑒定中的應(yīng)用[J]. 園藝學(xué)報,2013,40(6):1061-1070.
[11]毛建軍. 雜交水稻品種鑒定的SNP研究及東鄉(xiāng)野生稻兩個NBS序列的分析[D]. 長沙:湖南農(nóng)業(yè)大學(xué),2005:44-45.
[12]李勝杰,白俊杰,趙犖,等. 大口黑鱸EST-SNP標(biāo)記開發(fā)及其與生長性狀的相關(guān)性分析[J]. 海洋漁業(yè),2018,40(1):38-46.
[13]陰長發(fā). 甘藍(lán)型油菜EST-SNP開發(fā)及花色性狀的QTL定位[D]. 長沙:湖南農(nóng)業(yè)大學(xué),2013:38-40.
[14]檀小輝,張繼,梁芳,等. 基于EST序列的甘蔗SNP發(fā)掘及分析[J]. 江蘇農(nóng)業(yè)科學(xué),2016,44(7):64-66,67.
[15]李猛,郭大龍,劉崇懷,等. EST-SNP開發(fā)軟件特性分析及比較[J]. 生命的化學(xué),2011,31(6):906-911.
[16]李猛. 葡萄EST-SNP標(biāo)記的開發(fā)及應(yīng)用[D]. 洛陽:河南科技大學(xué),2012:24-25.
[17]王麗鴛,張成才,成浩,等. 茶樹EST-SNP分布特征及標(biāo)記開發(fā)[J]. 茶葉科學(xué),2012,32(4):369-376.
[18]李紀(jì)勤,包振民,李玲,等. 櫛孔扇貝EST-SNP標(biāo)記開發(fā)及多態(tài)性分析[J]. 中國海洋大學(xué)學(xué)報(自然科學(xué)版),2013,43(1):56-63.
[19]Chao S,Zhang W J,Akhunov E,et al. arker polymorphism in US wheat (Triticum aestivum L.) cultivars[J]. Molecular Breeding,2009,23(1):23-33.
[20]Sato K,Close T J,Bhat P,et al. Single nucleotide polymorphism mapping and alignment of recombinant chromosome substitution lines in barley[J]. Plant & Cell Physiology,2011,52(5):728-737.
[21]劉峰,謝玲玲,弭寶彬,等. 辣椒轉(zhuǎn)錄組SNP挖掘及多態(tài)性分析[J]. 園藝學(xué)報,2014,41(2):343-348.