仇學(xué)文 李 丹 甘玉迪 楊有新 程柳洋 徐夢怡 吳才君
(江西農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,江西 南昌 330000)
生物體內(nèi)的DNA 序列表達(dá)與信息傳遞主要借助64個密碼子進(jìn)行,而大多數(shù)氨基酸有不止一個密碼子對應(yīng),稱為密碼子的簡并性[1]。編碼同一個氨基酸的多個密碼子稱為同義密碼子,除色氨酸與蛋氨酸之外,其余18 個氨基酸都有多個同義密碼子。而某些同義密碼子被高頻使用的現(xiàn)象被稱為密碼子使用偏好性(codon usage bias,CUB)[2]。這種現(xiàn)象在轉(zhuǎn)錄、維持mRNA 穩(wěn)定性、提高翻譯效率和準(zhǔn)確性等細(xì)胞活動中發(fā)揮著重要作用[3]。有研究認(rèn)為密碼子使用偏好性可以揭示不同生物之間的基因轉(zhuǎn)移與進(jìn)化關(guān)系,密切相關(guān)的生物間具有類似的密碼子使用模式[4]。還有研究發(fā)現(xiàn)蛋白產(chǎn)物的表達(dá)與密碼子使用模式也存在關(guān)聯(lián),如高表達(dá)的蛋白質(zhì)主要由具有最佳密碼子的基因進(jìn)行編碼[5]。因此,研究密碼子使用偏好性可為基因工程和DNA重組技術(shù)提供參考意義,尤其可對外來的基因進(jìn)行密碼子優(yōu)化,從而有效增強(qiáng)異源基因的蛋白質(zhì)表達(dá)[6]。
在植物體內(nèi),葉綠體是十分活躍的代謝中心,可以通過光合作用將太陽能和二氧化碳轉(zhuǎn)換為氧氣和碳水化合物,從而維持地球上各種各樣的生命活動[7]。通過對葉綠體基因組的研究,可以增強(qiáng)對植物生物學(xué)多樣性的理解,對不同科植物系統(tǒng)發(fā)育與進(jìn)化的分析,還可以揭示植物物種內(nèi)部與植物物種之間在序列和結(jié)構(gòu)變異方面的變化[8]。目前對植物葉綠體基因組密碼子偏好性的研究已有很多的相關(guān)報道[9-11]。通過對葉綠體密碼子偏好性的研究,可以為相關(guān)葉綠體目的基因的轉(zhuǎn)化與高效表達(dá)提供幫助,也可以為研究葉綠體分子的起源與進(jìn)化提供參考依據(jù)[12]。
豇豆(Vigna unguiculata)是一種豆科植物,具有較高含量的蛋白質(zhì)與碳水化合物,在人類的飲食結(jié)構(gòu)中占據(jù)著重要地位[13]。但目前關(guān)于豇豆的研究主要集中在脅迫耐受、基因功能挖掘等方面,鮮有關(guān)于豇豆葉綠體基因組密碼子偏好性的研究。因此,本研究通過對豇豆葉綠體基因組密碼子使用組成及相關(guān)參數(shù)進(jìn)行分析,篩選出最優(yōu)密碼子,并揭示不同功能基因的密碼子使用偏好性,旨在為豇豆的基因表達(dá)檢測、適應(yīng)性變化以及進(jìn)化方向等研究提供參考依據(jù)。
在NCBI數(shù)據(jù)庫中檢索豇豆葉綠體基因組信息,登錄號為NC_018051.1。下載獲得85 條基因序列,之后對基因序列進(jìn)行篩選,刪除重復(fù)序列、長度小于300 bp的序列以及同時包含起始密碼子與終止密碼子的序列,最終獲得50 條完整的葉綠體基因序列以供后續(xù)分析。
將篩選好的序列整理后,分別利用CodonW 和CUSP 進(jìn)行分析,獲得50 條序列的RSCU、T3s、C3s、A3s、G3s、CG1、CG2、CG3、GCall、L_sym、L_aa、Gravy、Aromo、CAI、CBI、Fop、ENc、RFSC 等參數(shù)。其中,RSCU為密碼子的相對使用度(relative synonymous codon usage),RSCU>1 表明該密碼子為高頻密碼子,RSCU<1表明該密碼子為低頻密碼子;RFSC為密碼子的相對使用頻率(relative frequency of synonymous codon),指在給定輸入序列中,每1 000 個堿基的預(yù)期密碼子數(shù)[14]。利用SPSS 26 對這些參數(shù)進(jìn)行相關(guān)性分析,利用Origin 2021 作圖。利用TBtools-Ⅱ v1.108 對密碼子RSCU 進(jìn)行熱圖繪制與聚類分析。
以GC3 值為橫坐標(biāo),ENc 值為縱坐標(biāo),繪制散點(diǎn)圖,得到ENc-plot 圖。理論ENc 值采用公式(1)計算。以GC3 為橫坐標(biāo),理論ENc 值為縱坐標(biāo),繪制標(biāo)準(zhǔn)曲線。為了更明顯地觀察理論ENc與實(shí)際ENc之間的差異,常采用公式(2)計算兩者比值,得到ENc 比值頻數(shù)分布表。公式如下:
對各密碼子的第3 位上的A、T、C、G 進(jìn)行定量分析,再以G3/(G3+C3)為橫坐標(biāo),A3/(A3+T3)為縱坐標(biāo),繪制散點(diǎn)圖,得到PR2-plot 圖。再繪制X=0.5,Y=0.5兩條參考線,用于分析各密碼子堿基的使用差異。
以GC3為橫坐標(biāo),GC12為縱坐標(biāo),繪制散點(diǎn)圖,得到中性圖。再繪制y=x函數(shù)曲線,作為參考線,用于后續(xù)分析。使用Excel 2016 對相關(guān)點(diǎn)進(jìn)行擬合,得到相關(guān)系數(shù),回歸系數(shù)與擬合函數(shù)。
上述步驟均采用Origin 2021完成。
采用Wright[15]的方法確定最優(yōu)密碼子。
使用對應(yīng)分析(correspondence analysis,COA)的方法進(jìn)行密碼子偏好性分析。將50 條基因中,除AUG、UGG、UGA、UAA、UAG 外的其他59個密碼子RSCU,用SPSS 26 進(jìn)行對應(yīng)分析,共生成49 軸,其中第一軸攜帶的信息最多,其他軸攜帶的信息依次遞減。再采用Origin 2021 分別以第一、第二軸為橫、縱坐標(biāo)軸作圖,將各基因分布在坐標(biāo)軸上。根據(jù)各基因離原點(diǎn)的距離以及各基因間的距離判斷密碼子偏好性變化趨勢。
將篩選出的50 條序列上傳至cusp 網(wǎng)站(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp),計算豇豆葉綠體基因的RFSC。再在Kazusa DNA 研究所網(wǎng)站(http://www.kazusa.or.jp/codon/chlorplast.html)下載擬南芥葉綠體(chloroplastArabidopsis thaliana)、水稻葉綠體(chloroplastOryza sativa)、番茄葉綠體(chloroplastSolanum lycopersicum)以及白菜葉綠體(chloroplastBrassica rapa)基因的密碼子相對使用頻率。并將這些物種密碼子相對使用頻率與豇豆進(jìn)行比較以及聚類分析,從而進(jìn)一步分析豇豆葉綠體密碼子使用偏好性模式。采用Origin 2021作圖。
豇豆葉綠體基因組全長為152 415 bp,共85 條基因,CG 總含量為35%。將篩選后得到的50 條基因進(jìn)行分類,可分為四大類(表1)。第一類為光合系統(tǒng)基因,包括6 個光系統(tǒng)Ⅰ基因(photosystem I)、3 個光系統(tǒng)Ⅱ基因(photosystem Ⅱ)、5 個細(xì)胞色素b/f 復(fù)合體基因(cytochrome b/f complex)以及10 個三磷酸腺苷合成酶基因(ATP synthesis)。第二類主要為遺傳系統(tǒng)基因,包括1 個煙酰胺腺嘌呤二核苷酸氧化還原酶基因(NADH dehydrogenase)、4個二磷酸核酮糖羧化酶大亞基基因(Rubisco large subunit)、9個RNA聚合酶亞基基因(RNA polymerase)以及4 個核糖體蛋白小亞基基因(small ribosomal protein)。第三類主要為其他功能基因,主要包括1 個成熟酶K 基因(maturase K)、1 個乙酰輔酶A 羧化酶基因(acetyl CoA carboxylase)、1 個膜蛋白基因(chloroplast envelope membrane protein)、1個細(xì)胞色素合成基因(chloroplast cytochrome synthesis)、1個酪蛋白分解蛋白酶基因(caseinolytic protease)。第四類為未知功能基因,主要包括3 個假定葉綠體閱讀框(hypothetical reading frame)。
用CondonW 對篩選后的50 條葉綠體基因組序列進(jìn)行分析,結(jié)果如電子附表1所示。去除序列中的非同義密碼子及終止密碼子后,各基因編碼氨基酸的同義密碼子T3s 范圍為38.24%~59.85%,平均值為49.37%;以C 結(jié)尾的C3s 范圍為8.39%~21.57%,平均值為13.87%;以A 結(jié)尾的A3s 范圍為29.88%~58.59%,平均值為46.32%;以G 結(jié)尾的G3s 范圍為7.14%~25.27%,平均值為14.29%。由此可見,在編碼氨基酸的同義密碼子中,更偏向于以A或T結(jié)尾。
電子附表1 豇豆葉綠體基因組密碼子組成分析Electronic Table S1 Analysis of the codon composition of the cowpea chloroplast genome
電子附表1(續(xù))
用Cusp處理50條葉綠體基因的全部密碼子后,通過分析發(fā)現(xiàn)所有編碼氨基酸的密碼子CG1 范圍為28.57%~57.14%,平均值為45.64%;CG2 范圍為25.97%~53.96%,平均值為38.21%;CG3 范圍為18.43%~35.61%,平均值為24.71%;平均值GCall范圍為25.80%~44.30%,平均值為36.31%。由此可見,堿基C與G更偏向于出現(xiàn)在各密碼子的中位。
在豇豆葉綠體基因組中,經(jīng)篩選后的各基因同義密碼子數(shù)(L_sym)范圍為96~2 195,平均值為390.1;氨基酸數(shù)目(L_aa)范圍為100~2 285,平均值為406.1;蛋白質(zhì)的疏水性(gravy)范圍為-0.89~1.07,平均值為-0.03;蛋白質(zhì)的芳香性(aromo)范圍為0.02~0.21,平均值為0.11。
運(yùn)行CodonW 軟件分析篩選后的50 條基因序列,得出CAI、CBI、Fop、ENc 值,并用Excel 2016 對數(shù)值進(jìn)行分析。CAI 值代表著密碼子適應(yīng)指數(shù),在一定程度上可以預(yù)測基因的表達(dá)情況[16]。CAI 值一般在0~1之間,越接近于1,表明密碼子的偏好性越強(qiáng)。豇豆葉綠體基因的CAI 值范圍在0.11~0.28,平均值為0.17,表明豇豆葉綠體各基因的密碼子偏好性整體較弱。CBI 值代表密碼子偏愛指數(shù),反映了某基因中高表達(dá)密碼子的組分情況,若CBI 值在0~1 之間,值越大則表明密碼子偏好性越強(qiáng);CBI 值小于0 時,則表明密碼子偏好性更弱,已低于平均密碼子使用頻率[17-18]。豇豆葉綠體基因的CBI值范圍在-0.24~0.11,平均值為-0.11,除atpI、psbA、psbD、rbcL4個基因外,其他基因CBI 值均小于0,表明密碼子偏好性較低。Fop 值指最優(yōu)密碼子使用頻率,代表最優(yōu)密碼子與其同義密碼子之間的比值,取值范圍也在0~1 之間,值越大,則密碼子偏好性越強(qiáng),當(dāng)值為0 時,代表未使用到最優(yōu)密碼子,而當(dāng)值為1 時,則意味著只使用了最優(yōu)密碼子。豇豆葉綠體基因的Fop 值取值范圍在0.26~0.48,平均值為0.35,同樣表明密碼子使用偏好性較弱。ENc 值代表著有效密碼子數(shù),主要描述了密碼子使用時偏離隨機(jī)選擇的程度,當(dāng)ENc值越小,密碼子使用偏愛程度越大,ENc 值越大時,密碼子使用偏愛程度越小,一般ENc 取值范圍為20~61[2],當(dāng)ENc 值大于40 時,通常被視為低使用偏好性[19]。豇豆葉綠體基因的ENc 值范圍為33.23~52.54,平均值為44.90,小于40的基因僅有petB、rpl16、rps18、rps84 個,因此豇豆葉綠體基因密碼子使用整體偏好性較弱(電子附表2)。
電子附表2 豇豆葉綠體基因組密碼子偏好性分析Electronic Table S2 Analysis of codon bias in the chloroplast genome of cowpea
利用SPSS 26 分析軟件對豇豆葉綠體基因密碼子使用偏好性各參數(shù)進(jìn)行顯著性差異分析,結(jié)果如圖1所示。T3s 與C3s、CG1、CG2、CG3 呈顯著負(fù)相關(guān)(P<0.05);與A3s、GCall呈極顯著負(fù)相關(guān)(P<0.01);與CAI呈極顯著正相關(guān)(P<0.01)。C3s 與A3s 呈顯著負(fù)相關(guān)(P<0.05);與CAI 呈極顯著正相關(guān)(P<0.01);與CG3、CBI、Fop 呈極顯著正相關(guān)(P<0.001)。A3s 與CG1、CBI 呈顯著負(fù)相關(guān)(P<0.05),與GCall呈極顯著負(fù)相關(guān)(P<0.01),與CG3、CAI 呈極顯著負(fù)相關(guān)(P<0.001)。G3s 與CBI 呈顯著負(fù)相關(guān)(P<0.05);與CG3、ENc 呈極顯著正相關(guān)(P<0.001)。CG1 與CG3、ENc 呈顯著正相關(guān)(P<0.05);與CAI、CBI、Fop 呈極顯著正相關(guān)(P<0.01);與CG2、GCall呈極顯著正相關(guān)(P<0.001)。CG2 與GCall呈極顯著正相關(guān)(P<0.001),與Fop 呈顯著正相關(guān)(P<0.05)。CG3 與GCall呈極顯著正相關(guān)(P<0.001),與ENc 呈極顯著正相關(guān)(P<0.01)。GCall與CAI 呈顯著正相關(guān)(P<0.05),與CBI、Fop 呈極顯著正相關(guān)(P<0.01)。CAI 與CBI、Fop 均呈極顯著正相關(guān)(P<0.001)。CBI 與Fop 呈極顯著正相關(guān)(P<0.001)。
圖1 豇豆葉綠體基因組密碼子使用偏好性各參數(shù)相關(guān)性分析Fig.1 Correlation analysis of various parameters of codon usage bias in the cowpea chloroplast genome
表2 為豇豆葉綠體基因組氨基酸同義密碼子相對使用度的分析結(jié)果。去除3 個不編碼任何蛋白的終止密碼子UAA、UGA、UAG 以及僅編碼蛋氨酸(Met)的密碼子UAG 和僅編碼色氨酸(Trp)的密碼子UGG 后,對剩余密碼子進(jìn)行分析。依據(jù)RSCU 值的大小劃分高使用度同義密碼子與低使用度同義密碼子。結(jié)果顯示,RSCU>1 的密碼子共有30 個,占參與分析密碼子總數(shù)的50.85%。在所有RSCU>1 的密碼子中,以A 結(jié)尾的密碼子為13 個,占比43.33%;以G 結(jié)尾的密碼子僅1個,占比3.33%;以U 結(jié)尾的密碼子為16 個,占比53.33%;無以C 結(jié)尾的密碼子。第三位以A 或U 結(jié)尾的密碼子占總數(shù)的96.67%。這表明在豇豆葉綠體基因中,使用度較高的同義密碼子更偏向以A 與U(T)結(jié)尾,而RSCU<1的低使用度同義密碼子更偏向以C與G結(jié)尾。
表2 豇豆葉綠體各氨基酸RSCU分析結(jié)果Table 2 RSCU analysis result of individual amino acids in cowpea chloroplasts
以各密碼子RSCU 值作為變量,利用TBtools 對豇豆葉綠體篩選后的50 條基因進(jìn)行熱圖繪制以及聚類分析,結(jié)果如圖2所示。對密碼子進(jìn)行聚類分析可以看出,所有密碼子可分為兩大類,以C 和G 結(jié)尾的可分為一大類,以A 和U 結(jié)尾的可分為另一類。但有部分密碼子卻有所不同,第一大類中有終止密碼子UGA、編碼亮氨酸的密碼子CUA 和編碼異亮氨酸的密碼子AUA 以A 結(jié)尾;第二大類中有編碼亮氨酸的密碼子UUG 以G 結(jié)尾。對各基因進(jìn)行聚類分析發(fā)現(xiàn),所有基因可分為兩大類四小類,以密碼子UGA 結(jié)尾的9 個基因為一小類;除ndhE 以外,其他4 個以UAG 結(jié)尾的基因為一小類;剩余以UAA 結(jié)尾的基因依據(jù)其他密碼子的RSCU 再分為兩小類。從整體來看,豇豆葉綠體各基因使用的密碼子都偏好以A和U(T)結(jié)尾。
以GC3為橫坐標(biāo),ENc為縱坐標(biāo),對豇豆葉綠體基因組篩選后的各基因進(jìn)行ENc-plot 繪圖分析,結(jié)果如圖3所示。ENc-plot 圖中的標(biāo)準(zhǔn)曲線表示在無選擇壓力的情況下,ENc 與GC3 之間的關(guān)系。若基因位于標(biāo)準(zhǔn)曲線的上方,則表明該基因的密碼子偏好性僅受突變的影響;若位于標(biāo)準(zhǔn)曲線的下方,則表明該基因的密碼子偏好性受到自然選擇的影響更多[20]。圖3中豇豆葉綠體各基因大多數(shù)落在標(biāo)準(zhǔn)曲線的下方,離標(biāo)準(zhǔn)曲線距離較遠(yuǎn),說明大多數(shù)基因密碼子偏好性主要受到自然選擇的影響,但有少部分基因緊靠標(biāo)準(zhǔn)曲線上方,表明這部分基因密碼子偏好性受到突變影響更多。
由表3 可知,ENc 比值集中在-0.05~0.05 之間的頻數(shù)有20 個,表明這些基因的實(shí)際ENc 值與理論ENc值較為接近,受自然選擇的壓力較小,受突變的壓力較大。但在-0.05~0.05 組段之外的基因數(shù)目有30 個,表明這些基因受自然選擇壓力較大。綜上,豇豆的葉綠體基因組密碼子使用偏好性同時受到突變和自然選擇壓力的影響,但自然選擇對其影響更為主要。
表3 ENc比值頻數(shù)分布Table 3 Frequency distribution of ENc ratios
PR2-plot 圖可大致看出第三位密碼子的A、T 與C、G 之間的使用是否平衡,若各基因在PR2-plot 圖內(nèi)平均分布,則表明密碼子各堿基在使用中的頻率相同,因此PR2-plot分析可以用來分析突變和自然選擇對密碼子偏好性的影響[21]。由圖4 可知,豇豆葉綠體基因組的大部分基因分布在右下方區(qū)域,表明密碼子在堿基的使用中,堿基T 的使用頻率高于堿基A,堿基G 的使用頻率高于堿基C。但在其他區(qū)域也有部分基因散落,這表明豇豆葉綠體基因組密碼子的使用偏好性受到多種因素的綜合影響。
圖4 豇豆葉綠體基因密碼子PR2-plot繪圖Fig.4 Mapping of the codon PR2-plot of the cowpea chloroplast gene
中性繪圖可以用于闡明3 個密碼子位置之間的相關(guān)性,并確定在密碼子使用偏好性上是否存在選擇性突變,并量化自然選擇和突變壓力的之間的關(guān)系[22]。若基因均勻地分布在坐標(biāo)軸對角線兩側(cè),且回歸系數(shù)接近1,則表明GC12 與GC3 的變異更多的是受到突變的影響,自然選擇對其影響較?。?3];若基因呈現(xiàn)不對稱分布,且回歸系數(shù)離1 較遠(yuǎn),則表明GC12 與GC3 的變異更多的是受到自然選擇的影響,突變對其的影響較?。?4]。由圖5 可知,縱坐標(biāo)GC12 的取值范圍在0.278~0.514之間,橫坐標(biāo)GC3的取值范圍在0.184~0.356 之間。所有基因均落于坐標(biāo)軸對角線的上方,密碼子GC12 與密碼子GC3 之間的線性相關(guān)系數(shù)值為0.28,呈現(xiàn)正相關(guān)關(guān)系,但不顯著,數(shù)據(jù)擬合后的回歸系數(shù)為0.461 8,說明密碼子使用偏好性受自然選擇影響較大,受突變的影響較小。
圖5 豇豆葉綠體基因密碼子中性繪圖Fig.5 Neutral mapping of the codon of the cowpea chloroplast gene
最優(yōu)密碼子的定義是同時滿足高頻率和高表達(dá)的密碼子[25]。由表4 可知,豇豆葉綠體基因最優(yōu)密碼子共有20 個,分別是編碼丙氨酸的GCU,編碼精氨酸的AGA、CGA、CGU,編碼谷氨酰胺的CAA,編碼谷氨酸的GAA,編碼甘氨酸的GGU,編碼組氨酸的CAU,編碼異亮氨酸的AUA、AUU,編碼亮氨酸的UUA,編碼賴氨酸的AAA,編碼苯丙氨酸的UUU,編碼脯氨酸的CCU,編碼絲氨酸的AUG、UCA,編碼蘇氨酸的ACU,編碼酪氨酸的UAU,編碼纈氨酸的GUA、GUU。其中以U 結(jié)尾的密碼子有10個,以A 結(jié)尾的密碼子有9個,以G結(jié)尾的密碼子有1個,無以C結(jié)尾的最優(yōu)密碼子。
表4 豇豆葉綠體基因組最優(yōu)密碼子分析Table 4 Analysis of the optimal codons of the cowpea chloroplast genome
對豇豆葉綠體各基因密碼子的RSCU分布在49維的向量空間中,結(jié)果如圖6、7所示。第一軸的貢獻(xiàn)率為11.2%,第二軸的貢獻(xiàn)率為9.5%。前兩軸的累計貢獻(xiàn)率為20.7%,相關(guān)性系數(shù)為0.025。以第一軸為橫坐標(biāo),第二軸為縱坐標(biāo),繪制不同功能基因的散點(diǎn)圖。由圖6 可知,未知功能基因和其他基因均距離原點(diǎn)較近,表明這些基因與一維二維之間傾向性較小,關(guān)聯(lián)性較低。從圖7 可以看出,以A 和U 結(jié)尾的密碼子明顯比C 和G 結(jié)尾的密碼子距離第一軸的位置更近,表明不同堿基結(jié)尾的密碼子在使用上存在著偏好性。在四個象限中,每種密碼子都有一定程度的分布,且離軸的距離也長短不一,表明以不同堿基結(jié)尾的密碼子在使用偏好性上受多種因素的綜合影響,以G 結(jié)尾的密碼子主要受一軸的影響,以C 結(jié)尾的密碼子主要受二軸的影響。
圖6 不同功能基因?qū)?yīng)分析Fig.6 Correspondence analysis of different functional genes
將豇豆葉綠體密碼子與在Kazusa DNA 研究所下載的模式植物擬南芥、茄科植物番茄、禾本科植物水稻、十字花科植物白菜的葉綠體的密碼子使用頻率進(jìn)行比較,結(jié)果如圖8所示。豇豆與其他植物的葉綠體基因密碼子使用頻率的差異較小。除終止密碼子外,豇豆僅與擬南芥在密碼子GUC 使用上存在差異,與白菜在密碼子ACA 與密碼子UAC 使用上存在差異。對這物種植物的葉綠體密碼子使用頻率進(jìn)行聚類分析(圖9),發(fā)現(xiàn)豇豆與番茄、擬南芥的相似度較高,與白菜的相似度較低,這與上述密碼子使用頻率比值的結(jié)果較為一致。
圖8 豇豆葉綠體基因與其他科植物葉綠體基因密碼子使用頻率比較Fig.8 Comparison of codon usage frequency between chloroplast genes of cowpea and chloroplast genes of other families
圖9 豇豆與其他植物葉綠體密碼子使用頻率聚類分析Fig.9 Cluster analysis of codon usage frequency in chloroplasts of cowpea and other plants
本研究對豇豆葉綠體基因CDS 所使用的密碼子的最后一個堿基進(jìn)行分析,發(fā)現(xiàn)大多數(shù)堿基都偏好以T/A 結(jié)尾,且T 的使用幾率大于A。此外,本研究還發(fā)現(xiàn)GC1、GC2、GC3 以及三個位置的平均GC 含量均小于50%,表明豇豆葉綠體基因密碼子在堿基選擇時,會更多地使用A 與T 并以其結(jié)尾。前人已對蒙古韭[26]、中華仙人草[27]等單子葉和雙子葉植物葉綠體基因密碼子偏好性進(jìn)行了研究,均發(fā)現(xiàn)GC1>GC2>GC3,且均小于50%,與本研究結(jié)果基本一致。
ENc、CAI、CBI 和Fop 值均可表示密碼子使用偏好性的強(qiáng)弱,豇豆葉綠體的各基因分析結(jié)果表明密碼子偏好性較弱,這與前人在山麥冬[28]的結(jié)果一致。對各項指標(biāo)進(jìn)行相關(guān)性分析,發(fā)現(xiàn)CG1 與CG2 之間有極顯著相關(guān)性,CG1與CG3之間有統(tǒng)計學(xué)相關(guān)性,但相關(guān)性較弱,CG2 與CG3 之間無相關(guān)性。Kawabe 等[29]研究認(rèn)為,如果密碼子堿基的使用受到自然選擇的影響,則CG3會在一個小范圍內(nèi),CG12與CG3之間無顯著相關(guān)性,但本研究中CG1 與CG3 之間存在相關(guān)性,這表明豇豆葉綠體基因的密碼子使用偏好性不僅受自然選擇的影響,也受到堿基突變的影響。
從ENc-plot 圖、PR2-plot 圖和中性繪圖分析同樣發(fā)現(xiàn),豇豆葉綠體基因可能受到基因突變和自然選擇的多重影響,但自然選擇影響更大,這與阿拉伯咖啡[30]、秋茄[31]、楸樹[32]等的研究結(jié)果一致,但在部分植物中則是受到突變的影響較大,如中華仙人草[27]等,表明不同的葉綠體基因密碼子偏好性影響因素可能會因物種不同而不同。
RSCU 值是評價密碼子偏好性的一個重要參數(shù)。較高的RSCU 值表示密碼子在基因表達(dá)中使用的頻率更高,而較低的RSCU 值則表示密碼子使用的頻率更低[33],當(dāng)RSCU 值等于1 時,可認(rèn)為影響密碼子使用模式的僅為突變因素[34]。對豇豆葉綠體的50 條基因進(jìn)行RSCU 值計算,發(fā)現(xiàn)共有30 個密碼子的RSCU 值大于1,這與燈盞花[35]等植物中的結(jié)果一致,但在云南藍(lán)果樹[36]等植物的葉綠體基因組中,最優(yōu)密碼子僅有29個,這或許與植物種類以及入選的基因總數(shù)的不同有關(guān)。對RSCU 值進(jìn)行熱圖繪制以及聚類分析,可以看出密碼子可歸為兩類,一類以G、C 結(jié)尾,一類以A、U結(jié)尾,且以A、U 結(jié)尾的密碼子RSCU 值明顯高于C、G結(jié)尾的,這也表明豇豆葉綠體基因更偏向于使用以A、U 結(jié)尾的密碼子。利用ENc 值以及RSCU 值構(gòu)建最優(yōu)密碼子的表達(dá)庫后,發(fā)現(xiàn)豇豆葉綠體基因組中符合最優(yōu)密碼子共有20個,而前人研究發(fā)現(xiàn)29種木蘭科植物的葉綠體基因最優(yōu)密碼子數(shù)在14~22 之間[9],這表明葉綠體基因中最優(yōu)密碼子的數(shù)量可能因植物不同而異。在最優(yōu)密碼子使用上,結(jié)合本研究與前人結(jié)果,未發(fā)現(xiàn)某個密碼子具有普遍性,即不同植物的最優(yōu)密碼子也會因植物的不同而不同,但通過第三位堿基可以看出,大多數(shù)植物的最優(yōu)密碼子都偏向使用A 或U結(jié)尾。
利用RSCU 值進(jìn)行對應(yīng)分析,結(jié)果發(fā)現(xiàn)豇豆葉綠體基因中,遺傳系統(tǒng)基因大多數(shù)都落在了一維的右側(cè),在二維的正方向上分布,在天山雪蓮[37]等植物關(guān)于基因功能的對應(yīng)分析中也出現(xiàn)了類似現(xiàn)象,推測在植物葉綠體中,不同功能基因在密碼子使用偏好性方面存在一定的同質(zhì)性。在以不同堿基結(jié)尾的密碼子對因分析中,多種植物葉綠體中以C 結(jié)尾的密碼子集中在一維的右側(cè),二維的正方向上,在一定程度上驗證了上面的猜想。
本研究對用豇豆葉綠體基因密碼子相對使用頻率與擬南芥、番茄、水稻、白菜的葉綠體基因密碼子相對使用頻率進(jìn)行比較,結(jié)果發(fā)現(xiàn)僅個別密碼子在使用上存在較大差異,對這些植物葉綠體密碼子的RFSC 進(jìn)行聚類分析,結(jié)果發(fā)現(xiàn)除白菜外,其他植物均有較高的相似度,這表明若豇豆葉綠體中功能基因在擬南芥、番茄、水稻等植物中驗證,對密碼子改造的程度較小,這與前人研究基本一致[38]。前人研究同樣證明了密碼子使用偏好性強(qiáng)弱與物種間的親緣關(guān)系遠(yuǎn)近相關(guān),若密碼子使用偏好性相似,則親緣關(guān)系較近,反之則較遠(yuǎn)[39]。通過研究生物體內(nèi)密碼子的使用偏好性,可以提高外源基因在其他物種體內(nèi)的高效表達(dá),目前已有很多相關(guān)研究[40-41]。從本研究結(jié)果可以看出,豇豆葉綠體基因組密碼子使用頻率與番茄更接近,因此若后續(xù)進(jìn)行異源基因表達(dá),可優(yōu)先考慮使用番茄作為受體植物。
本研究對豇豆的葉綠體基因進(jìn)行密碼子偏好性的分析,發(fā)現(xiàn)豇豆葉綠體基因組密碼子偏好性較弱,傾向以A 或T 結(jié)尾,這種現(xiàn)象主要由自然選擇與突變共同影響,但自然選擇的影響更大。本研究還確定了20 個最優(yōu)密碼子,將豇豆RFSC 與其他生物的進(jìn)行比較,推薦以番茄作為豇豆異源基因表達(dá)的受體植物。