陳玲慧,王 慧,劉 巖,錢關(guān)澤
(1.聊城大學(xué) 生命科學(xué)學(xué)院,山東 聊城 252059;2.聊城大學(xué) 學(xué)報(bào)編輯部,山東 聊城 252059)
葉綠體是植物進(jìn)行光合作用的細(xì)胞器,為植物生活提供能量,葉綠體基因組(cpDNA)通常大小為110~170 kb[1]。葉綠體基因組在進(jìn)行物種鑒定與親緣關(guān)系分析時(shí)通常有以下優(yōu)勢:其基因組較小、序列簡單,較易通過測序組裝后獲得;同時(shí)其基因序列高度保守、且屬于母系遺傳,使得葉綠體基因組適用于親緣關(guān)系與系統(tǒng)發(fā)育分析[2]。目前NCBI數(shù)據(jù)庫中的葉綠體基因組數(shù)據(jù)不斷被補(bǔ)充,包括但不限于蘋果屬(Malus)[3]、蕨麻屬(Argentina)[4]、淫羊藿屬(Epimedium)[5]等屬內(nèi)植物,這也從側(cè)面表明葉綠體基因組的廣泛應(yīng)用。
蛋白質(zhì)由氨基酸組成,20種氨基酸又由61個(gè)密碼子和3個(gè)終止密碼子所編碼[6],編碼同一種氨基酸的密碼子為同義密碼子。在蛋白質(zhì)翻譯的過程中,盡管幾種不同密碼子可以編碼同種氨基酸,但是會出現(xiàn)某一氨基酸頻繁被同一密碼子編碼的現(xiàn)象,即密碼子偏好性[7],而不同密碼子會對基因的功能及表達(dá)產(chǎn)生影響[8]。不同物種葉綠體基因組密碼子偏好性具有差異,一般基因表達(dá)越強(qiáng),其密碼子偏好性也越強(qiáng),反之其偏好性則低[9]。此前研究表明,密碼子偏好性主要通過自然選擇與突變來進(jìn)行平衡[10],因此對密碼子偏好性的研究在基因組水平,如分子進(jìn)化等方面具有重要意義?,F(xiàn)已在云南油杉(keteleeria evelyniana)[11]、澳洲堅(jiān)果光殼種(Macadamia integrifolia)[12]、菠蘿(Ananas comosus)[13]、睡蓮屬(Nymphaea)[14]等多種植物中展開密碼子偏好性分析。
錫金海棠(Malus sikkimensis)是蘋果屬(Malus)植物,屬于薔薇科(Rosaceae)蘋果亞科(Subfam.Maloideae Weber),主要分布于我國云南、四川西部及西藏地區(qū)。錫金海棠在《中國珍稀瀕危植物名錄》中被列為國家二級保護(hù)物種,同時(shí)還被IUCN(國家自然保護(hù)聯(lián)盟)分別評為易危物種,以及被《中國物種紅色名錄》收錄[15]。梁國魯[16]對錫金海棠進(jìn)行帶型分析后發(fā)現(xiàn)其以著絲粒帶(C)為主,華利源[17]在染色體層面進(jìn)行核型分析后發(fā)現(xiàn)錫金海棠染色體數(shù)目為68條,為四倍體。到目前錫金海棠葉綠體基因組結(jié)構(gòu)及密碼子偏好性的研究還未見報(bào)道,因此,本文對錫金海棠的葉綠體基因組結(jié)構(gòu)及密碼子偏好性進(jìn)行分析,篩選出最優(yōu)密碼子,為今后對錫金海棠葉綠體基因組、系統(tǒng)發(fā)育研究及開發(fā)應(yīng)用提供科學(xué)依據(jù)和理論參考。
從NCBI數(shù)據(jù)庫中下載錫金海棠(M.sikkimensis)原始測序數(shù)據(jù),SRR登錄號為SRR15691192。通過NOVOPlasty 4.3.1[18]組裝,PGA注釋后獲得其葉綠體全基因組。
將所獲數(shù)據(jù)導(dǎo)入geneious 2021.2.2[19],根據(jù)注釋結(jié)果,統(tǒng)計(jì)錫金海棠(M.sikkimensis)的蛋白編碼基因(CDS)數(shù)目、tRNA數(shù)目、r RNA數(shù)目以及GC含量。利用Chloroplot軟件繪制其葉綠體基因組物理圖譜。
使用geneious 2021.2.2篩選出53條長度大于300 bp的CDS序列。通過在線軟件CUSP(http:∥emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)統(tǒng)計(jì)各基因密碼子的第1位(GC1)、第二位(GC2)及第三位(GC3)的GC含量。使用codonW(http:∥codonw.sourceforge.Net)獲得GC含量、相對同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)以及有效密碼子數(shù)(Effective Number of Codon,ENC)。當(dāng)RSCU值大于1時(shí),表明密碼子使用頻率較其他密碼子高,為高頻密碼子,并且偏好性強(qiáng),反之偏好性則弱;當(dāng)RSCU值等于1時(shí),該密碼子無偏好性[20]。最終結(jié)果使用Excel和SPSS進(jìn)行統(tǒng)計(jì)分析。
以GC3為橫坐標(biāo)、GC12為縱坐標(biāo)進(jìn)行中性繪圖分析,散點(diǎn)圖中的每一個(gè)點(diǎn)均代表一個(gè)基因,當(dāng)其沿對角線分布時(shí)則代表堿基未有顯著差異,此時(shí)的偏好性是由基因突變所導(dǎo)致,反之則是由選擇壓力所導(dǎo)致[11]。以GC3為橫坐標(biāo)、ENC值為縱坐標(biāo)做ENC-plot繪圖分析,并以公式ENC=2+GC3+29/[GC32+(1-GC3)2]繪制ENC期望值標(biāo)準(zhǔn)曲線。該標(biāo)準(zhǔn)曲線代表在沒有自然選擇時(shí)的ENC值[12]。以G3/(G3+C3)為橫坐標(biāo)、A3/(A3+T3)為縱坐標(biāo)進(jìn)行PR2-plot分析,其平面中心代表密碼子無偏倚情況出現(xiàn),即A=T,C=G[13]。
為確定錫金海棠(M.sikkimensis)的最優(yōu)密碼子,根據(jù)53條CDS序列的ENC值,提取最低10%與最高值10%的基因,分別建立高、低表達(dá)基因庫,計(jì)算出二者的ΔRSCU值,當(dāng)ΔRSCU≥0.08時(shí)的密碼子被定義為高表達(dá)優(yōu)越密碼子,若該密碼子同時(shí)為高頻密碼子,則將其定義為最優(yōu)密碼子[21]。
通過對錫金海棠組裝后分析,其cpDNA呈典型的環(huán)狀四分體結(jié)構(gòu),包括兩個(gè)反向重復(fù)區(qū)(IRA和IRB,26 358 bp),一個(gè)大單拷貝區(qū)(LSC,88 188 bp)和一個(gè)小單拷貝區(qū)(SSC,19 184 bp),全長為160 088 bp,總的GC含量為36.6%(圖1)。注釋結(jié)果顯示,錫金海棠葉綠體基因組含有132個(gè)基因,包括87個(gè)蛋白編碼基因,37個(gè)tRNA基因以及8個(gè)rRNA基因,其中有重復(fù)基因18個(gè)(7個(gè)為蛋白編碼基因,7個(gè)為tRNA基因,4個(gè)為r RNA基因)。
圖1 錫金海棠葉綠體基因組物理圖譜
2.2.1 密碼子組成分析。通過CodonW分析錫金海棠53條CDS序列的GC含量及ENC值(表1)發(fā)現(xiàn),其葉綠體基因組各基因GC含量平均為38.25%,其中第一位堿基GC平均含量為46.98%、第二位GC平均含量為39.46%、第三位GC平均含量為28.30%。GC3平均含量最低,這表明第三位堿基更傾向于以A/U結(jié)尾。
表1 錫金海棠葉綠體基因組53個(gè)CDS密碼子的GC含量及ENC值
ENC值可以用于衡量同義密碼子的偏好程度,取值范圍通常在20~61之間,以ENC值為45作為分界點(diǎn),大于45說明密碼子偏好性低,反之則說明其偏好性較高。錫金海棠ENC值取值范圍為34.30~56.39,平均值為47.51,且53條CDS序列中存在41條ENC值大于45,表明錫金海棠的密碼子偏好性偏弱。
對密碼子GC含量、ENC值進(jìn)行相關(guān)性分析后發(fā)現(xiàn)(表2),GC1、GC2、GC3均與GC呈極顯著相關(guān),GC1與GC2也呈極顯著相關(guān),但GC1、GC2均為表現(xiàn)出與GC3的顯著相關(guān)性。這表明密碼子第3位堿基組成有差異,錫金海棠密碼子偏好性受自然選擇影響較大。而ENC值與GC2、GC3呈極顯著相關(guān)關(guān)系,表明密碼子第2、3位對偏好性有一定影響。
表2 錫金海棠密碼子的GC含量及各參數(shù)相關(guān)性分析
進(jìn)一步對錫金海棠53條CDS序列的密碼子(除甲硫氨酸與色氨酸)進(jìn)行RSCU分析后顯示(表3),有29個(gè)密碼子的RSCU值大于1.00,其中15個(gè)以U結(jié)尾,13個(gè)以A結(jié)尾,1個(gè)以G結(jié)尾,這表明更多密碼子偏好以A和U結(jié)尾。
表3 錫金海棠葉綠體基因組氨基酸相對同義密碼子使用度
2.2.2 中性繪圖分析。中性繪圖分析(圖2)表明,錫金海棠密碼子GC12的值介于0.317 6~0.539 6之間,GC3的值介于0.222 1~0.365 8之間。其相關(guān)系數(shù)為0.146 8,未呈現(xiàn)顯著相關(guān)性,回歸系數(shù)為0.021 5,表明GC12與GC3未有明顯相關(guān)性,密碼子第1、2位堿基與第3位堿基存在一定差異,說明自然選擇對錫金海棠葉綠體基因密碼子偏好有較大影響。
圖2 錫金海棠葉綠體基因組中性繪圖分析
2.2.3 ENC-plot繪圖分析。ENC-plot繪圖分析(圖3)顯示,部分基因的實(shí)際ENC值與預(yù)期ENC值趨于一致,但也有部分基因的實(shí)際ENC值偏離標(biāo)準(zhǔn)曲線,位于標(biāo)準(zhǔn)曲線下方。為比較實(shí)際ENC值與預(yù)期ENC值之間的差異,計(jì)算ENC比值并得到以下結(jié)果(表4)。ENC值在-0.05~0.05區(qū)間內(nèi)的基因有23個(gè),在-0.05~0.05區(qū)間外的基因有30個(gè),這表明大部分基因與預(yù)期ENC值存在一定差異,表明錫金海棠葉綠體基因密碼子偏好更受自然選擇影響。
圖3 錫金海棠葉綠體基因的ENC-plot分析
表4 ENC比值頻數(shù)分布
2.2.4 PR2-plot分析。通過PR2-plot分析編碼基因中密碼子A、G和T、C的使用頻率關(guān)系。結(jié)果如圖4所示,錫金海棠葉綠體基因多數(shù)分布于右下象限,這表明密碼子堿基的使用頻率有差異且T>A、G>C,這也說明錫金海棠密碼子偏好性不僅受自然選擇影響,同時(shí)也可能受其他因素影響。
圖4 錫金海棠葉綠體基因的PR2-plot分析
2.2.5 最優(yōu)密碼子的確定。通過分析錫金海棠葉綠體基因組氨基酸相對同義密碼子使用度,有29個(gè)密碼子RSCU值大于1,被確定為高頻密碼子。結(jié)合表5,篩選出22個(gè)ΔRSCU≥0.08的密碼子,被定為高表達(dá)密碼子,其中以A結(jié)尾的密碼子有5個(gè),以U結(jié)尾的密碼子有8個(gè),以C結(jié)尾的密碼子有6個(gè),以G結(jié)尾的密碼子有3個(gè)。當(dāng)密碼子滿足RSCU>1且ΔRSCU≥0.08條件時(shí),我們將其確定為最優(yōu)密碼子。通過結(jié)合表3與表5分析,共確定14個(gè)最優(yōu)密碼子,分別為UAU、UUG、CUU、CAA、AUU、GUU、GAA、UCU、CGU、CGA、AGA、GGU、ACA、GCU,其中有8個(gè)以U結(jié)尾,有5個(gè)以A結(jié)尾,1個(gè)以G結(jié)尾。
表5 錫金海棠葉綠體基因組最優(yōu)密碼子的確定
cpDNA較小、結(jié)構(gòu)保守,易于測序和組裝,同時(shí)葉綠體屬于單親遺傳,其基因組包含豐富的核苷酸信息,因此通常被認(rèn)為是研究植物進(jìn)化關(guān)系、系統(tǒng)發(fā)育的理想模型。密碼子在基因組與蛋白質(zhì)的聯(lián)系中有重要作用,在物種進(jìn)化過程中,其通常會形成特有的使用模式,因此不同物種的密碼子在使用偏性方面存在一定差異。密碼子的第3位具有兼并性特點(diǎn),通常第3位堿基所受到的選擇壓力較前兩位堿基要小,因此,分析密碼子的第3位堿基對研究密碼子偏好性具有重要意義。
本研究通過對錫金海棠的cpDNA結(jié)構(gòu)和密碼子使用模式進(jìn)行分析,發(fā)現(xiàn)錫金海棠葉綠體基因組呈環(huán)狀四分體結(jié)構(gòu),包括兩個(gè)反向重復(fù)區(qū)(IRA和IRB)、一個(gè)大單拷貝區(qū)(LSC)和一個(gè)小單拷貝區(qū)(SSC),葉綠體基因組大小為160 088 bp,GC含量為36.6%。錫金海棠共含有132個(gè)基因,包括87個(gè)蛋白編碼基因,37個(gè)tRNA基因和8個(gè)r RNA基因。
在密碼子偏好性方面,發(fā)現(xiàn)錫金海棠葉綠體基因組密碼子第3位堿基的GC3含量為28.30%,遠(yuǎn)低于GC1和GC2,即GC1(46.98%)>GC2(39.46%)>GC3(28.30%),這與西藏凹乳芹(Vicatia thibeticade Boiss)[22]、滇楸(Catalpa fargesiiBur.f.duclouxii)[23]植物一致,說明不同物種密碼子的使用特征具有相似性。中性繪圖分析顯示,GC12與GC3未有明顯相關(guān)性,說明自然選擇對其偏性影響更大,這與大山櫻(Prunus sargentii)[24]所得結(jié)果一致。在PR2-plot分析中發(fā)現(xiàn)堿基使用頻率T>A、G>C,這表明基因在受到選擇影響的同時(shí)還受到其他因素作用,這與杧果(Mangifera indica)[25]葉綠體基因組堿基使用頻率一致。在ENC-plot分析結(jié)果中顯示,有30個(gè)基因的ENC頻數(shù)比值在-0.05~0.05區(qū)間之外,說明錫金海棠的密碼子偏好性的產(chǎn)生更受由自然選擇影響。結(jié)合錫金海棠葉綠體基因組最優(yōu)密碼子分析,最終確定UAU、UUG、CUU、CAA、AUU、GUU、GAA、UCU、CGU、CGA、AGA、GGU、ACA、GCU共14個(gè)密碼子為錫金海棠葉綠體基因組的最優(yōu)密碼子。
本研究發(fā)現(xiàn)其葉綠體基因組結(jié)構(gòu)與大多數(shù)被子植物的結(jié)構(gòu)一致,在對密碼子偏好性進(jìn)行分析后發(fā)現(xiàn),錫金海棠密碼子偏好性的產(chǎn)生主要受自然選擇影響,同時(shí)也篩選出錫金海棠葉綠體最優(yōu)密碼子。葉綠體基因組數(shù)據(jù)對今后研究錫金海棠親緣關(guān)系、系統(tǒng)發(fā)育、物種鑒定提供了數(shù)據(jù)支持,此后可通過結(jié)合屬內(nèi)其它物種葉綠體基因組數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育樹,分析錫金海棠在屬內(nèi)種間的親緣關(guān)系與系統(tǒng)發(fā)育關(guān)系。最優(yōu)密碼子的確定也為優(yōu)化目標(biāo)基因、種源鑒定以及異源表達(dá)基因改造提供了理論依據(jù)。