田春育, 武自念, 李賢松, 李志勇*
(1.中國農(nóng)業(yè)科學(xué)院草原研究所, 內(nèi)蒙古 呼和浩特 010010; 2.內(nèi)蒙古大學(xué)生態(tài)與環(huán)境學(xué)院, 內(nèi)蒙古 呼和浩特 010021)
遺傳信息從mRNA流向蛋白過程中,密碼子發(fā)揮至關(guān)重要的作用。64種密碼子中,除3種編碼終止密碼子外,其余61種共編碼20種氨基酸,其中蛋氨酸(Met)和色氨酸(Trp)只由一種密碼子編碼,其余18種氨基酸由2~6種密碼子進(jìn)行編碼,編碼同種氨基酸的不同密碼子被稱為同義密碼子。同義密碼子在不同基因組、甚至在同一基因組不同基因中使用的概率存在有一定的差異,同義密碼子的不均等使用現(xiàn)象即為同義密碼子的使用偏好性[1]。研究表明突變以及選擇壓力是影響密碼子使用偏好性的主要因素[2]。密碼子使用偏好性不僅有助于物種進(jìn)化研究[3],同時還可作為基因表達(dá)標(biāo)尺預(yù)測基因的表達(dá)水平,從而可從分子水平上了解進(jìn)化過程[2]。
葉綠體是一個重要的半自主細(xì)胞器,能夠吸收二氧化碳釋放氧氣,同時將光能轉(zhuǎn)變?yōu)榛瘜W(xué)能為綠色植物提供能量[4]。由于葉綠體基因組母系遺傳的特點(diǎn),其基因組較為穩(wěn)定,在闡明物種間遺傳進(jìn)化關(guān)系,探索植物系統(tǒng)發(fā)育關(guān)系方面起著關(guān)鍵的作用[5]。由于其基因組的高度保守性,葉綠體的一些區(qū)域常作為DNA編碼被使用[2]。目前,葉綠體基因組的各種研究已得到廣泛應(yīng)用,如利用葉綠體基因組對物種進(jìn)行親緣關(guān)系發(fā)育分析[6]以及對物種葉綠體基因組進(jìn)行密碼子偏好性分析以闡明影響物種進(jìn)化的主要因素[2]。
扁蓿豆(Medicagoruthenica)營養(yǎng)價值高,適口性好,抗逆性強(qiáng),是一種優(yōu)良的多年生牧草,廣泛分布于溫帶和寒溫帶的典型草原、沙質(zhì)草原等植被類型區(qū)[7]。研究表明扁蓿豆可為苜蓿的遺傳改良提供有價值的基因[8]。外源基因的表達(dá)是葉綠體工程育種的關(guān)鍵環(huán)節(jié),而外源基因的表達(dá)又會受到密碼子偏好性的影響[9]。前人已對扁蓿豆葉綠體基因組進(jìn)行了充分研究,其基因組全長126 939 bp,屬蝶形花亞科IRL(Inverted repeat lacking)分枝。該基因組含有30個tRNA,4個rRNA及73個蛋白編碼基因即共107個基因。因此,本文基于扁蓿豆葉綠體基因組已公開的數(shù)據(jù)對偏好性特征以及影響因素進(jìn)行分析,以期為扁蓿豆葉綠體基因組優(yōu)良基因的選擇與利用提供一定的理論依據(jù)。
從NCBI數(shù)據(jù)庫下載扁蓿豆完整的葉綠體基因組(GenBank登錄號為NC_053371.1)。為了更加準(zhǔn)確進(jìn)行密碼子偏好性分析及其影響因素,本研究剔除掉長度小于300 bp基因編碼序列,并挑選起始密碼子為ATG,終止密碼子為TAG,TGA,TAA的50條蛋白編碼序列進(jìn)行后續(xù)分析[9]。
1.2.1密碼子堿基組成分析 將篩選后的50條蛋白編碼序列整合到一個.fasta文件中,利用軟件CodonW 1.4.2分析密碼子適應(yīng)指數(shù)(Codon adaptation index,CAI)、最優(yōu)密碼子使用頻率(Frequency of optimal codons,F(xiàn)op)、密碼子偏愛指數(shù)(Codon bias index,CBI)、相對同義密碼子(Relative synonymous codons usage,RSCU)和有效密碼子字?jǐn)?shù)(Effective number of codon,ENC);利用在線程序CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)計(jì)算密碼子各位置的GC含量(GC1,GC2,GC3,GCall)。
同義密碼子的使用偏度一般用ENC值進(jìn)行衡量,其取值范圍為20~61,值越大表示密碼子使用偏性越弱,即20表示每個氨基酸只使用了一個密碼子,61表示每個密碼子都被平均使用。RSCU表示某個密碼子的實(shí)際值與理論值間的比值,當(dāng)RSCU>1時表明該密碼子實(shí)際值高于理論值,RSCU<1時表明其實(shí)際值低于理論值,RSCU=1該密碼子無偏好性[10]。
利用軟件SPSS 24對扁蓿豆葉綠體基因組中密碼子不同位置的GC1,GC2,GC3,GCall以及ENC進(jìn)行相關(guān)性分析,以此作為判斷密碼子偏好性的依據(jù)。
1.2.2中性繪圖分析 中性繪圖分析可以初步用來判斷密碼子使用偏好性影響因素[11]。對密碼子每個位置的GC含量進(jìn)行統(tǒng)計(jì),分別用GC1,GC2,GC3表示密碼子第1位,第2位以及第3位的GC含量,以GC12(第1位和第2位GC含量的平均值)為縱坐標(biāo),GC3為橫坐標(biāo)繪制散點(diǎn)圖進(jìn)行中性繪圖,其中每一散點(diǎn)代表一個基因。同時進(jìn)行回歸分析并在圖中添加回歸線,若回歸回系數(shù)接近于1,表明密碼子三個位置的堿基組成相似,密碼子的偏好性主要以突變影響為主,反之說明密碼子第1,2位與第3位的堿基組成有差異且偏好性主要以選擇影響為主[12]。
1.2.4PR2-plot分析 以G3/(G3+C3)為橫坐標(biāo),A3/(A3+T3)為縱坐標(biāo)繪制平面圖進(jìn)行PR2-plot分析。該圖中心點(diǎn)表示A=T且C=G,當(dāng)A=T且C=G,密碼子的偏好型完全受突變影響。該分析可用于表示第三位堿基嘌呤和嘧啶的突變是否平衡[15]。
1.2.5最優(yōu)密碼子確定 依據(jù)表1得到的結(jié)果,對扁蓿豆50條蛋白編碼序列的ENC值進(jìn)行排序,從兩端各挑選10%(5個基因)構(gòu)建高低表達(dá)庫。將高低表達(dá)庫的所有序列整合到一個.fasta文件中再次利用軟件Codon W 1.4.2 計(jì)算RSCU。RSCU>1的密碼子為高頻率密碼子,△RSCU(RSCU高表達(dá)- RSCU低表達(dá))≥ 0.08的密碼子為高表達(dá)密碼子,同時滿足以上兩個條件的密碼子即為扁蓿豆的最優(yōu)密碼子[16]。
利用Codon W 1.4.2對扁蓿豆葉綠體基因組進(jìn)行分析,結(jié)果表明,GCall的平均含量為40.58%。不同位置的密碼子含量并不相同,密碼子第1位、第2位以及第3位的GC平均含量分別為46.33%,38.30%和37.10%(表1),GC3的平均含量最低,表明密碼子第三位偏好以A/U結(jié)尾。
有效密碼子數(shù)ENC表示基因中使用的有效密碼子的數(shù)量。ENC值介于20~61之間,值越大表示每個密碼子被平均使用,使用偏好性越弱,一般以ENC值為35作為區(qū)分密碼子使用偏好性強(qiáng)弱的標(biāo)志[17]。Codon W 1.4.2分析結(jié)果表明,扁蓿豆50條CDS序列ENC值介于35.77~56.62之間且全部大于35,表明扁蓿豆的密碼子使用偏好性較弱(表1)。
表1 扁蓿豆葉綠體基因組GC含量以及ENC值
對扁蓿豆葉綠體密碼子各項(xiàng)系數(shù)進(jìn)行相關(guān)性分析,如表2所示,GCall與GC1,GC2,GC3均極顯著相關(guān);GC1與GC2呈極顯著正相關(guān),表明密碼子第一位與第二位的堿基組成具有一定的相似性,但與第三位有差異;ENC與GC3達(dá)到顯著相關(guān)水平,與GC1,GC2,GCall相關(guān)性不顯著,表明ENC值主要受GC3影響(表2)。
表2 扁蓿豆葉綠體密碼子50條CDS序列的相關(guān)系數(shù)分析
對扁蓿豆葉綠體密碼子RSCU值分析表明,RSCU>1的密碼子有30個,其中16個以U結(jié)尾,13個以A結(jié)尾,1個以G結(jié)尾(表3)。
表3 扁蓿豆葉綠體基因組相對同義密碼子使用度
中性繪圖分析(圖1)表明,GC3的取值范圍介于0.19~0.34之間,GC12的取值范圍介于0.30~0.53之間?;蛉柯湓趯蔷€以上,GC12與GC3的相關(guān)系數(shù)為0.1685,回歸系數(shù)為0.2634,表明密碼子第1,2位堿基和第3位堿基組成存在差異但相關(guān)性不顯著,表明密碼子偏好性以選擇影響為主。
圖1 中性繪圖分析
ENC-plot分析結(jié)果表明,大部分基因位于回歸曲線下方且據(jù)標(biāo)準(zhǔn)曲線的距離較遠(yuǎn),表明扁蓿豆密碼子偏好性主要以選擇影響影響(圖2)。ENC頻數(shù)分布表(表4)顯示,22個基因分布在—0.05~0.05之間,其ENC值與預(yù)期接近,接近標(biāo)準(zhǔn)曲線;28個基因分布在—0.05~0.05之外,其ENC值與預(yù)期相差較大,距離標(biāo)準(zhǔn)曲線較遠(yuǎn)。頻數(shù)分布分析進(jìn)一步表明扁蓿豆葉綠體基因組密碼子的偏好性受選擇影響較大,受突變壓力影響較小。
圖2 ENC-plot分析
表4 ENC頻數(shù)分布表
對扁蓿豆葉綠體密碼子進(jìn)行PR2-plot分析,結(jié)果如圖3所示。其中只有1個基因位于中線上,位于右下方的基因最多,從而表明密碼子第三位的使用具有偏好性,并且堿基T的使用頻率大于堿基A,堿基G的使用頻率大于堿基C。以上結(jié)果進(jìn)一步表明扁蓿豆葉綠體密碼子使用偏好性不僅受到突變的影響,同時也受到其他因素的影響。
圖3 PR2-plot分析
將扁蓿豆葉綠體50條CDS序列的ENC值由高到低排列,從兩端分別選取10%(各5個)構(gòu)建高低表達(dá)庫,利用Codon W 1.4.2分析高低表達(dá)庫的RSCU,并計(jì)算ΔRSCU值(ΔRSCU=RSCU高表達(dá)庫- RSCU低表達(dá)庫)(表5)。分析結(jié)果表明,ΔRSCU≥0.08,即高表達(dá)優(yōu)越密碼子共有17個,其中5個以A結(jié)尾,6個以U結(jié)尾,5個以G結(jié)尾,1個以C結(jié)尾(以*標(biāo)注)。ΔRSCU≥0.08且RSCU≥1的密碼子為最優(yōu)密碼子。在扁蓿豆葉綠體基因組中最優(yōu)密碼子共11個(下劃線標(biāo)注),分別為UUU,UUA,CUU,ACU,GCU,AAU,AAA,GAA,AGU,GGA以及CGA,其中6個密碼子以U結(jié)尾,5個以A結(jié)尾。
表5 扁蓿豆葉綠體基因組最優(yōu)密碼子分析
葉綠體基因的堿基組成在植物的進(jìn)化過程中起著十分關(guān)鍵的作用[18]。同義密碼子偏好性使用現(xiàn)象在各類植物中都有存在,研究表明,GC含量、tRNA豐度、蛋白質(zhì)的結(jié)構(gòu)與氨基酸的組成等都會對密碼子使用偏好性產(chǎn)生一定的影響[19]。GC含量是衡量生物體密碼子堿基組成重要指標(biāo)[20]。在本研究中,扁蓿豆葉綠體基因組密碼子GC平均含量為40.58%,且GC1(46.33%)> GC2(38.30%)> GC3(37.10%),研究結(jié)果表明該物種傾向使用NNU/NNA類型的密碼子,該研究結(jié)果與蒺藜苜蓿的研究結(jié)果一致[21]。對扁蓿豆葉綠體基因組進(jìn)行RSCU分析,RSCU值>1的30個密碼子中,只有一個以G結(jié)尾,無以C結(jié)尾的密碼子,該結(jié)果再次證明扁蓿豆葉綠體傾向使用NNU/NNA類型的密碼子。
密碼子ENC值通常介于20~61之間,ENC值越小表明密碼子的使用偏好性越弱,當(dāng)ENC值為35時表明密碼子無偏好性[17]。分析表明,扁蓿豆葉綠體基因組密碼子最低ENC值為35.77,密碼子使用偏好性較弱。RSCU是指對于某一特定的密碼子在編碼對應(yīng)氨基酸的同義密碼子間的相對概率,它去除了氨基酸組成對密碼子使用的影響。當(dāng)某一密碼子的RSCU>1時,表示該密碼子使用頻率較高。扁蓿豆葉綠體基因組中,RSCU>1的密碼子共有30個,該研究結(jié)果與Liu和Xue對擬南芥以及Zhou等人對銀白楊的研究結(jié)果高度一致,該二者葉綠體基因組中RSCU>1的密碼子均為30個[22-23]。但不同物種高頻率密碼子并不保守,如蒺藜苜蓿、紫花苜蓿以及本研究中的扁蓿豆使用頻率最高的密碼子均為UUA[9,20],而在一些單子葉植物中,UCC為使用頻率最高的密碼子[24]。
中性繪圖及ENC-plot分析表明扁蓿豆葉綠體基因組的偏好性較弱,并且主要受到選擇壓力的影響。PR2-plot分析表明扁蓿豆葉綠體基因組的偏好性除受到選擇壓力的影響外,其余因素也會影響葉綠體密碼子的偏好性。因此,在扁蓿豆的進(jìn)化過程中,其葉綠體密碼子偏好性主要以選擇影響為主,該結(jié)果與前人對燈盞花[25]、紫花苜蓿[9]、馬尾松[26]等的研究結(jié)果相類似,而籽粒莧[9]主要以突變影響為主,芒果[27]、圓錐南芥[28]等則受到突變和選擇等因素共同作用的影響。以此推斷密碼子偏好性影響因素可能與物種有一定的關(guān)系,但具體影響機(jī)制還需進(jìn)一步探究。
通過分析,扁蓿豆葉綠體基因組中最優(yōu)密碼子共11個,其中6個以A結(jié)尾,其余5個以U結(jié)尾,最優(yōu)密碼子中沒有以G/C結(jié)尾的密碼子,以上結(jié)果與紫花苜蓿[9]、蒺藜苜蓿[20]等多數(shù)物種葉綠體基因組中最優(yōu)密碼子的分析結(jié)果一致。最優(yōu)密碼子結(jié)果表明在利用扁蓿豆進(jìn)行基因工程研究設(shè)計(jì)外源基因時,選用以A/U結(jié)尾的密碼子在某種程度上可以提高外源基因的表達(dá)轉(zhuǎn)化效率,為科學(xué)制定種質(zhì)保存和更新策略提供理論依據(jù)和實(shí)踐指導(dǎo)[29]。
扁蓿豆葉綠體基因組密碼子偏好性主要受到選擇壓力的影響,但其他因素也會影響扁蓿豆葉綠體基因組密碼子偏好性。該研究確定了11個最優(yōu)密碼子,可為優(yōu)良基因的選擇與利用提供一定的依據(jù)。