方輝+蔣勝理+曲俊杰+周思泓+潘鳳英
摘要:利用毛葡萄葉片高通量轉(zhuǎn)錄組測(cè)序數(shù)據(jù)進(jìn)行簡(jiǎn)單重復(fù)序列(simple sequence repeat,簡(jiǎn)稱SSR)搜索并對(duì)其所在的序列進(jìn)行注釋,從而為毛葡萄分子標(biāo)記開(kāi)發(fā)提供有效信息。從35 238條質(zhì)量較高的unigene中搜索到4 428個(gè)SSR位點(diǎn),對(duì)這些序列進(jìn)行基因本體(gene ontology,簡(jiǎn)稱GO)、同源蛋白質(zhì)簇(cluster of orthologous groups of proteins,簡(jiǎn)稱COGs)和京都基因與基因組百科全書(Kyoto encyslopedia of genes and genomes,簡(jiǎn)稱KEGG)分類,給出功能注釋和Pathway注釋,共注釋了3 197條unigene。COG數(shù)據(jù)庫(kù)將SSR序列分成25類,通過(guò)GO分類和KEGG富集性分析,將SSR序列分別歸類于38個(gè)GO類別和103條通路。這些序列涉及了許多重要的生物功能和代謝途徑,預(yù)示著這些潛在的標(biāo)記可能與重要的生物功能有關(guān),這些信息為毛葡萄分子標(biāo)記的開(kāi)發(fā)和應(yīng)用奠定了基礎(chǔ)。
關(guān)鍵詞:毛葡萄;轉(zhuǎn)錄組;高通量測(cè)序;簡(jiǎn)單重復(fù)序列(SSR)
中圖分類號(hào): S663.101 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1002-1302(2017)20-0064-04
野生毛葡萄(Vitis quinquangularis Rehd)是葡萄科(Vitaceae)葡萄屬(Vitis)真葡萄亞屬(Euvitis)東亞種群的一個(gè)種,產(chǎn)于中國(guó),是我國(guó)葡萄屬東亞種群中分布最廣的一個(gè)野生種,主要集中分布在廣西的桂中、桂北、桂西的喀斯特地貌地區(qū)[1]。野生毛葡萄含有各種氨基酸、礦物質(zhì)、多種維生素,還含有豐富的超氧化物歧化酶、白藜蘆醇和花色素雙糖苷,具有抗衰老、防癌、軟化血管的作用[2]。大部分野生毛葡萄表現(xiàn)出抗逆性強(qiáng)、耐旱耐瘠、耐病性好、耐高溫潮濕天氣等優(yōu)良特性,是南方“石漠化治理、生態(tài)重建”的優(yōu)良樹種,具有重要的經(jīng)濟(jì)價(jià)值[3]。
簡(jiǎn)單重復(fù)序列(simple sequence repeat,簡(jiǎn)稱SSR)又名微衛(wèi)星(microsatellites),是基因組中以少數(shù)幾個(gè)核苷酸(一般為2~6個(gè))為重復(fù)單元串聯(lián)重復(fù)組成的長(zhǎng)度為幾十個(gè)堿基的核苷酸序列,其中最常見(jiàn)的是雙核苷酸重復(fù)[4]。SSR標(biāo)記廣泛分布于各種生物基因組上,因其重復(fù)單元不同和重復(fù)數(shù)的差異,構(gòu)成了SSR序列的多態(tài)性。SSR標(biāo)記具有多態(tài)性豐富、保守性高、共顯性遺傳的特點(diǎn),成為當(dāng)前應(yīng)用較廣泛的分子標(biāo)記之一。以往的SSR標(biāo)記開(kāi)發(fā)方法一般利用基因組文庫(kù)雜交測(cè)序,花費(fèi)時(shí)間長(zhǎng)且效率低,不適于短時(shí)間內(nèi)開(kāi)發(fā)大量的標(biāo)記用于遺傳學(xué)應(yīng)用研究。隨著高通量測(cè)序技術(shù)的快速發(fā)展,即使一次性對(duì)上百萬(wàn)條DNA分子進(jìn)行序列測(cè)定也不再是問(wèn)題。目前SSR標(biāo)記在葡萄遺傳多樣性、遺傳圖譜、品種鑒定和親緣關(guān)系等方面已經(jīng)得到了廣泛的應(yīng)用。
目前,國(guó)內(nèi)外對(duì)于高通量測(cè)序后檢測(cè)獲得的大量SSR序列,主要分析SSR重復(fù)基元分布特征和重復(fù)序列組成規(guī)律,對(duì)SSR序列進(jìn)行功能注釋和功能分類的研究較少。此外,對(duì)葡萄進(jìn)行種質(zhì)資源和親緣關(guān)系分析是利用已知或通用的SSR,沒(méi)有進(jìn)一步篩選和擴(kuò)展SSR分子標(biāo)記[5-6]。本研究數(shù)據(jù)來(lái)源于毛葡萄葉片的轉(zhuǎn)錄組數(shù)據(jù),轉(zhuǎn)錄組SSR源自基因組編碼可表達(dá)的序列,直接與功能基因相關(guān),保守程度更高,轉(zhuǎn)移概率較大。研究含有SSR的轉(zhuǎn)錄組序列信息,有利于獲得SSR序列相關(guān)功能注釋信息,從而獲得更有針對(duì)性的SSR分子標(biāo)記,以便更有效地為基因定位、遺傳多樣性研究及分子育種提供有效手段。
1 材料與方法
1.1 材料
植物材料為毛葡萄五峒-1,生長(zhǎng)于廣西壯族自治區(qū)河池市都安瑤族自治縣高嶺鎮(zhèn)五峒村,樹齡10年,生長(zhǎng)旺盛,葉片生長(zhǎng)狀況良好,果實(shí)產(chǎn)量高,經(jīng)調(diào)查與試驗(yàn)發(fā)現(xiàn)其對(duì)多種病害高抗或免疫。采集樣品后用液氮速凍,并轉(zhuǎn)移至-80 ℃保存?zhèn)溆谩?/p>
1.2 方法
1.2.1 野生毛葡萄測(cè)序 采取野生毛葡萄的嫩葉并提取總RNA,送到北京諾禾致源生物信息科技有限公司進(jìn)行文庫(kù)構(gòu)建和RNA高通量測(cè)序,測(cè)序平臺(tái)為Illumina HiSeqTM 2000,每個(gè)樣品的測(cè)序量約為4.75Gb。
1.2.2 測(cè)序數(shù)據(jù)的組裝 對(duì)測(cè)序后得到的原始數(shù)據(jù)進(jìn)行質(zhì)量分析,去除重復(fù)、含接頭、測(cè)序質(zhì)量低的reads,獲得clean reads。使用短序列組裝軟件Trinity[7]進(jìn)行轉(zhuǎn)錄組從頭組裝,首先將含有一定長(zhǎng)度區(qū)域重疊的reads連成更長(zhǎng)的片段,然后通過(guò)reads重疊關(guān)系得到組裝片段的contig,再將reads比對(duì)回contig,再通過(guò)paired-end reads來(lái)確定來(lái)自同一轉(zhuǎn)錄本的不同contig以及這些contig之間的距離,將這些contig連在一起,最后得到兩端不能再延長(zhǎng)的序列,即為unigene。
1.2.3 SSR位點(diǎn)的篩選 利用MISA軟件在所有unigene中搜索SSR位點(diǎn),設(shè)置二核苷酸重復(fù)次數(shù)最少為6次,三核苷酸重復(fù)次數(shù)最少為5次,四核苷酸、五核苷酸和六核苷酸重復(fù)次數(shù)都設(shè)置為至少4次。
1.2.4 功能注釋 利用BLASTx將含有SSR的unigene序列與GenBank中的無(wú)冗余(Nr)蛋白質(zhì)序列數(shù)據(jù)庫(kù)(non-redundant protein sequence database in GenBank)、Swiss-Prot(經(jīng)過(guò)注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù))、京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes,簡(jiǎn)稱KEGG)和同源蛋白質(zhì)簇(cluster of orthologous groups of proteins,簡(jiǎn)稱COGs)數(shù)據(jù)庫(kù)的優(yōu)先級(jí)順序進(jìn)行比對(duì)(E值<10-5),獲取最高序列相似性的蛋白,從而獲得該unigene的蛋白功能注釋信息。根據(jù)Nr注釋信息,使用Blast2GO軟件[8]進(jìn)行GO注釋,得到每個(gè)含有SSR的unigene的GO信息后,用WEGO軟件[9]進(jìn)行GO功能分類統(tǒng)計(jì)。endprint
2 結(jié)果與分析
2.1 轉(zhuǎn)錄組測(cè)序和組裝
通過(guò)Illumina HISeqTM 2000平臺(tái)測(cè)序,總計(jì)產(chǎn)出 56 374 280 條reads,去除低質(zhì)量的和含有接頭的reads以后,得到 53 697 490 條clean reads,共計(jì)5 369 749 000個(gè)核苷酸(nucleotides,簡(jiǎn)稱nt),GC含量45.52%、Q20(在高通量測(cè)序中,每測(cè)1個(gè)堿基會(huì)給出1個(gè)相應(yīng)的質(zhì)量值,用來(lái)衡量測(cè)序準(zhǔn)確度。堿基的質(zhì)量值為13、20、30時(shí),錯(cuò)誤率分別為5%、1%、0.1%。Q20則表示質(zhì)量值≥20的堿基所占百分比)為9563%。利用Trinity軟件對(duì)這些reads進(jìn)行組裝得到35 238條unigene,平均長(zhǎng)度為1 081 nt,N50[將所有unigene從長(zhǎng)到短排序,并依次累加長(zhǎng)度,當(dāng)累加片段長(zhǎng)度達(dá)到總片段長(zhǎng)度(所有unigene 的長(zhǎng)度)的50%時(shí),對(duì)應(yīng)那個(gè)片段的長(zhǎng)度即為N50]為1 735 nt。長(zhǎng)度大于1 000 nt的unigene有13 651條,占全部unigene的38.74%。這些數(shù)據(jù)說(shuō)明,本研究中轉(zhuǎn)錄組文庫(kù)的測(cè)序和組裝結(jié)果都較好,可以進(jìn)行后續(xù)生物信息學(xué)研究。
2.2 SSR分析
利用MISA軟件在毛葡萄的35 238條unigene中搜索發(fā)現(xiàn)3 571條unigene序列含有SSR,占unigene序列總數(shù)的 10.13%,共搜索到4 428個(gè)SSR位點(diǎn),平均每8.6 kb長(zhǎng)度出現(xiàn)1個(gè)SSR,其中包含2個(gè)及2個(gè)以上SSR的unigene共有576條,含有SSR序列的unigene序列平均長(zhǎng)度為1 684 nt,大于總unigene的平均長(zhǎng)度,其中大于1 000 nt的序列數(shù)為 2 419 個(gè)。從圖1的分布特征來(lái)看,含有SSR的序列分布較均勻,與總unigene的分布規(guī)律類似,說(shuō)明SSR是隨機(jī)分布的。由表1可知,二核苷酸和三核苷酸重復(fù)類型的SSR數(shù)量最多,其中二核苷酸1 906個(gè),三核苷酸1 762個(gè),而五核苷酸、六核苷酸重復(fù)類型在毛葡萄轉(zhuǎn)錄組序列中數(shù)量較少,分別僅有165、201個(gè),除此之外,不同核苷酸的重復(fù)次數(shù)也有很大的變化。在檢測(cè)到的SSR中出現(xiàn)頻率最高的5類基序?yàn)锳G/CT(1 425個(gè))、AAG/CTT(552個(gè))、AT/TA(345個(gè))、ATC/ATG(247個(gè))、AGC/CTG(235個(gè))。對(duì)上述SSR分布特征進(jìn)行分析有助于開(kāi)展毛葡萄及其同屬物種的通用性標(biāo)記開(kāi)發(fā)和遺傳圖譜構(gòu)建的研究。
2.3 功能注釋
為了預(yù)測(cè)含有SSR的unigene功能,分別將unigene與Nr、Swiss-Prot、COG、KEGG等生物學(xué)數(shù)據(jù)庫(kù)進(jìn)行比對(duì),通過(guò)BLAST搜索比對(duì)可知,共有3 197條unigene獲得了基因注釋,占所有unigene的86.06%,有518條unigene(13.94%)未被注釋(表2),這些未被注釋的基因被認(rèn)為可能是新基因。
將所有含有SSR的unigene基因與COG、GO數(shù)據(jù)庫(kù)比對(duì)進(jìn)行功能注釋與分類,有1 798條unigene被注釋到25個(gè)COG類別中(圖2),其中一般功能基因是最大類別,包含467條unigene,占被注釋unigene總數(shù)的25.98%;其次是信號(hào)轉(zhuǎn)
導(dǎo)機(jī)制類,包含313條unigene(占比為 17.41%);其余依次為轉(zhuǎn)錄類(263條,占總數(shù)的14.63%),以及翻譯后修飾、蛋白質(zhì)翻轉(zhuǎn)、分子伴侶類(235條,占總數(shù)的13.07%)。
在已經(jīng)得到的Nr注釋信息基礎(chǔ)上,通過(guò)Blast2GO數(shù)據(jù)庫(kù)獲得毛葡萄含有SSR的unigene的GO分類信息,共有 1 669 條unigene得到GO注釋。在GO分類體系中,生物學(xué)過(guò)程、細(xì)胞組分和分子功能這3個(gè)大的類別又被劃分為詳細(xì)的38個(gè)小的類別,其中“代謝過(guò)程”(1 050條,占比為 62.91%)、“細(xì)胞過(guò)程”(1 026條,占比為61.47%)和“結(jié)合”(977條,占比為58.54%)這3個(gè)類群占了主要部分,而“運(yùn)動(dòng)”(1條)、“胞外區(qū)”(1條)和“節(jié)律過(guò)程”(3條)僅有非常少的基因歸入,在細(xì)胞組件大類中缺少了病毒和病毒核心的部分,在分子功能大類中缺少了受體活性的相關(guān)序列。這一分類結(jié)果顯示的含有SSR的unigene序列基因表達(dá)譜的總體情況見(jiàn)圖3。
2.4 代謝通路分析
對(duì)野生毛葡萄葉片的轉(zhuǎn)錄組進(jìn)行KEGG分析發(fā)現(xiàn),有789條unigene被注釋到KEGG數(shù)據(jù)庫(kù)中,分布于103條已知的通路中。注釋序列數(shù)量較多的5個(gè)通路分別是代謝途徑(170條,ko01100)、次生代謝產(chǎn)物的生物合成(75條,ko01110)、植物激素信號(hào)轉(zhuǎn)導(dǎo)(42條,ko04075)、剪接體(35條,ko03040)和內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)處理(28條,ko04141)(表3)。新陳代謝途徑和次生代謝產(chǎn)物的生物合成涉及的序列最多,這2個(gè)途徑是生物體內(nèi)最重要的代謝途徑,往往涉及比較多的基因。
3 結(jié)論與討論
基于高通量測(cè)序技術(shù)的轉(zhuǎn)錄組學(xué)研究是一種高效、可靠的發(fā)掘功能基因的手段,Illumina高通量測(cè)序的數(shù)據(jù)量大、速度快、成本低、效率高,基于轉(zhuǎn)錄組數(shù)據(jù)信息進(jìn)行SSR分子標(biāo)記開(kāi)發(fā)是一種經(jīng)濟(jì)有效的方法。本研究在35 238條unigene中共搜索到4 428個(gè)SSR位點(diǎn),二核苷酸、三核苷酸重復(fù)類型的SSR數(shù)量最多,其中二核苷酸1 906條(43.04%),三核苷酸1 762條(39.79%)。前人的研究結(jié)果顯示,有些物種二核苷酸占優(yōu)勢(shì),另一些物種三核苷酸占優(yōu)勢(shì),這種現(xiàn)象的出現(xiàn)與MISA搜索時(shí)相關(guān)參數(shù)的設(shè)置有很大的關(guān)系[10]。
結(jié)合生物信息學(xué)分析方法對(duì)毛葡萄unigene中含有SSR的基因序列與Nr、Swiss-Prot、COG、KEGG數(shù)據(jù)庫(kù)進(jìn)行比對(duì),進(jìn)行序列相似性比對(duì)和功能注釋分析。在KEGG分析中,有789條unigene被注釋到103條代謝通路。這些標(biāo)記如果能夠用于感興趣的性狀定位,則可以賦予它們對(duì)應(yīng)的基因轉(zhuǎn)錄產(chǎn)物的相關(guān)信息,此外,在對(duì)這些數(shù)據(jù)庫(kù)的分析中,含有SSR的基因轉(zhuǎn)錄產(chǎn)物在各個(gè)功能組中的注釋比例和所有基因轉(zhuǎn)錄產(chǎn)物在各個(gè)功能組中的注釋比例非常接近,說(shuō)明SSR并沒(méi)有集中在某一類功能的基因轉(zhuǎn)錄產(chǎn)物的分布偏好,而是隨著某一類功能的基因轉(zhuǎn)錄產(chǎn)物的增加而增加。endprint
在毛葡萄葉片轉(zhuǎn)錄組中這些SSR信息為開(kāi)發(fā)基因內(nèi)部SSR標(biāo)記奠定了基礎(chǔ),而且對(duì)含有這些SSR的序列進(jìn)行注釋為后續(xù)研究提供了相關(guān)基因信息。在注釋中筆者發(fā)現(xiàn),這些序列涉及了許多生物功能和重要代謝途徑,預(yù)示著這些潛在的標(biāo)記可能與重要的生物功能有關(guān)[11]。這些潛在的標(biāo)記還將豐富葡萄的分子標(biāo)記類型,由于其來(lái)自于基因內(nèi)部,所以具有很好的可轉(zhuǎn)移性,甚至可以廣泛地應(yīng)用于葡萄屬種間的更多物種。在遺傳多樣性研究中,這些SSR標(biāo)記將幫助研究者了解樣本中相關(guān)基因資源的多樣性。在基因定位上,一旦某一標(biāo)記與感興趣的性狀相關(guān),此標(biāo)記所在的基因以及基因相關(guān)信息會(huì)幫助研究者更快地了解此基因與表現(xiàn)型的內(nèi)在聯(lián)系。因此,本研究結(jié)果對(duì)葡萄屬植物的遺傳學(xué)研究具有重要意義。后續(xù)可對(duì)這些SSR序列進(jìn)行引物設(shè)計(jì)和擴(kuò)增檢測(cè),篩選出多態(tài)性好、擴(kuò)增穩(wěn)定、條帶清晰的引物,為進(jìn)一步開(kāi)發(fā)新的SSR標(biāo)記奠定基礎(chǔ)。
參考文獻(xiàn):
[1]林 玲,張 瑛,盧 江,等. 中國(guó)葡萄屬野生資源毛葡萄的研究與利用進(jìn)展[J]. 中外葡萄與葡萄酒,2015,2(2):66-69.
[2]涂 佳,鄧學(xué)良,周文化,等. 野生毛葡萄常規(guī)營(yíng)養(yǎng)成分和原花青素含量分析[J]. 食品與機(jī)械,2010,26(2):82-85.
[3]鄒 瑜. 野生毛葡萄種質(zhì)資源及利用研究進(jìn)展[J]. 廣西農(nóng)業(yè)科學(xué),2008,39(5):664-667.
[4]尹 玲,張 晨,向 江,等. 我國(guó)新育成葡萄品種SSR指紋圖譜的建立[J]. 果樹學(xué)報(bào),2015,32(3):366-373.
[5]Jiang B,Xie D,Liu W,et al. De novo assembly and characterization of the transcriptome,and development of SSR markers in wax gourd (Benicasa hispida)[J]. PLoS One,2013,8(8):e71054.
[6]郭 磊,上官凌飛,房經(jīng)貴,等. 葡萄EST-SSR標(biāo)記的開(kāi)發(fā)及其應(yīng)用[J]. 南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2011,34(4):23-30.
[7]Haas B J,Papanicolaou A,Yassour M,et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis[J]. Nature Protocols,2013,8(8):1494-1512.
[8]Conesa A,Gítz S,García-Gómez J M,et al. Blast2GO:a universal tool for annotation,visualization and analysis in functional genomics research[J]. Bioinformatics,2005,21(18):3674-3676.
[9]Ye J,F(xiàn)ang L,Zheng H,et al. WEGO:a web tool for plotting GO annotations[J]. Nucleic Acids Research,2006,34(Web Server issue):W293-W297.
[10]Wei W,Qi X,Wang L,et al. Characterization of the sesame (Sesamum indicum L.) global transcriptome using Illumina paired-end sequencing and development of EST-SSR markers[J]. BMC Genomics,2011,12(1):451.
[11]李小白,向 林,羅 潔,等. 建蘭轉(zhuǎn)錄本的微衛(wèi)星序列和單核苷酸多態(tài)性信息分析[J]. 浙江大學(xué)學(xué)報(bào)(農(nóng)業(yè)與生命科學(xué)版),2014,4(4):463-472.endprint