何亞玲,彭業(yè)軍,李錦,馮斌,秦玉杰,王愛英,祝建波
(石河子大學生命科學學院,新疆 石河子 832003)
密碼子是傳遞生命遺傳信息的關鍵紐帶,“中心法則”指出遺傳信息從DNA傳遞到mRNA,再由mRNA以密碼子的形式傳遞給氨基酸,最后形成具有功能的蛋白質。編碼相同氨基酸的密碼子稱為同義密碼子(synonymous codon),即存在密碼子的簡并性。在長期的進化過程中,不同物種、不同生物體的基因密碼子使用存在著很大的差異稱為密碼子使用偏性(codon usage bias)。密碼子偏倚廣泛存在于各類生命體中,且受到多種因素的影響,如轉錄、堿基突變[1]、GC含量[2]以及tRNA豐度等。研究密碼子的分析不僅可以有助于更好的了解各基因組在分子水平上的進化機制,對于優(yōu)化基因表達系統(tǒng)中蛋白質的生產(chǎn)非常重要[3],而且可以通過對基因密碼子偏性分析,預測外源基因在宿主中的表達水平或者通過基因工程技術提高外源基因在宿主中的表達效率。
葉綠體基因組由特有的四段結構組成,并且高度保守,母系遺傳的特性使其能夠更穩(wěn)定地保留其特點,而不受環(huán)境影響[4]。葉綠體基因序列具有高保守性和進化速率低的特點,在物種鑒定以及植物系統(tǒng)進化方面發(fā)揮著重要作用。通過對葉綠體基因組密碼子偏性的分析,將有助于理解進一步揭示葉綠體的起源與分子進化[5]。目前,植物葉綠體基因組密碼子偏好性的研究,在大花香水月季[6]、陸地棉、禾本科植物和柿屬植物[7]中均有報道。
天山雪蓮(S.involucrate)是菊科多年生草本植物,是我國西部高山地區(qū)特有的名貴中草藥植物[8],富含多種對人體健康有益的化學成分。已從雪蓮中分離和鑒定出70多種化合物[9],包括黃酮類,類固醇、生物堿、木脂素類以及多糖類等,它們對于提高人體健康水平有很大的影響,尤其是在對人體機能方面起到很好的調理及保健作用。關于雪蓮的傳統(tǒng)用途已通過植物化學和現(xiàn)代藥理學研究得到驗證,其藥用價值已被證明具有抗腫瘤、抗氧化[10]、抗衰老、抗炎[11]、鎮(zhèn)痛、抗疲勞、清除自由基、治療慢性支氣管炎和神經(jīng)保護等作用。天山雪蓮葉綠體基因組的測序已經(jīng)完成,但是對于其密碼子偏好性的系統(tǒng)比較和分析至今尚未進行。本研究首次針對天山雪蓮葉綠體基因組密碼子偏好性進行分析,將為研究密碼子的分布和進化機制提供參考。
完整的天山雪蓮葉綠體基因組(登錄號:NC_029465)從NCBI(https://www.ncbi.nlm.nih.gov)中獲得,手動提取基因組中的蛋白編碼序列。共下載到不含重復的80條編碼序列(CDS),由于短長度的CDS通常導致密碼子使用的估計誤差很大,因此為了避免樣本誤差,該研究選擇以ATG為起始密碼子的非重復且長度大于300 bp的50條CDS用于后面的數(shù)據(jù)分析。
1.2.1 密碼子偏好性分析
以選取的50條CDS為研究對象,運用CodonW1.4.2軟件分析和統(tǒng)計密碼子偏好參數(shù):基因GC總含量,記為GC。ENC用于測量密碼子使用偏倚程度,值在20~61之間,值越小,說明編碼氨基酸的同義密碼子越少,密碼子使用的偏好程度就越強、RSCU指實際密碼子出現(xiàn)的頻率除以預期的頻率,是CUB的重要指標。RSCU大于1時,表示同義密碼子比預期使用頻率更高;RSCU小于1時,該密碼子的使用頻率低于同義密碼子。密碼子適應指數(shù)(CAI),取值從0到1,基因表達水平越高,同時密碼子的偏好使用度也就越強、密碼子偏好性指數(shù)(CBI)、最優(yōu)密碼子使用頻率(FOP),該基因表達為蛋白質的疏水性(Gravy),密碼子第3位堿基中出現(xiàn)的G或C的頻率記為GC3 s。通過EMBOSS(http://imed.med.ucm.es/EMBOSS/)中的CUSP程序分析天山雪蓮葉綠體基因組中各基因密碼子的第1、2、3位的GC含量,分別記為GC1、GC2和GC3。天山雪蓮葉綠體基因組中各基因的部分參數(shù)的相關性及顯著性用SPSS 22.0軟件分析。
1.2.2 中性繪圖分析
為了初步判斷是突變還是選擇主要影響密碼子偏好性,中性繪圖分析以GC3為橫坐標,依據(jù)GC1和GC2的平均值GC12為縱坐標,繪制散點圖,每一個散點代表一個基因。若GC12與GC3之間顯著相關,且回歸線斜率接近1,表示3個位置上的堿基組成無明顯差異,密碼子偏好性主要受突變的影響。若GC12與GC3之間相關性不顯著,說明第1,2位和第3位堿基使用模式存在差異,選擇是影響密碼子偏好性的主要因素。
1.2.3 ENC-plot繪圖分析
有效密碼子經(jīng)常用于量化一個特定基因中的密碼子偏好性,是反映同義密碼子非均衡使用的偏好性評估指標。ENC的報告值總是在20和61之間。為了進一步了解影響基因組密碼子偏好性的因素,ENC-plot繪圖分析以GC3S為橫坐標,ENC為縱坐標,構建二維散點圖,并在坐標系中添加ENC的標準曲線,標準曲線方程為:
ENC=2+GC3S+29/(GC3S2+(1-GC3S)2)。
標準曲線代表無選擇壓力時,密碼子偏好性完全由突變決定。
1.2.4 PR2-plot分析
奇偶校驗規(guī)則2(PR2-bias plot analysis)是為了揭示不對稱突變和選擇壓力存在的有用方法。PR2是對密碼子第3位上A、T、C和G這4種堿基的組成情況進行分析,并以G3/(G3+C3)為橫坐標,以A3/(A3+T3)為縱坐標繪圖。在該圖中,圖中心點是A=T和G=C的位置,表示在突變和選擇中兩個互補的DNA鏈之間沒有偏差。
1.2.5 對應性分析
對應性分析是一種常用的多變量統(tǒng)計技術,廣泛用于分析多維數(shù)據(jù)將樣本中所有基因繪制在59維空間中,然后分析其所有指標的相關性。通過分析基因向量以及基因間值的變異情況,可判斷密碼子偏好性的主要影響因素。
1.2.6 最優(yōu)密碼子確定
本研究通過對高頻率和高表達密碼子的分析,篩選出最優(yōu)密碼子。以ENC參數(shù)為標準對所有樣本基因排序,兩端各取10%基因,分別建立高低表達庫,取兩庫中ΔRUCS>0.08的密碼子作為高表達密碼子。篩選出RSCU>1的高頻密碼子和ΔRUCS>0.08的高表達優(yōu)越密碼子共有的作為雪蓮葉綠體基因組中的最優(yōu)密碼子。
通過CodonW軟件計算出天山雪蓮葉綠體基因組的50條DNA編碼序列參數(shù)(表1)。葉綠體基因組密碼子3個堿基的平均GC含量為38.50%,且密碼子上不同位置GC并不是均勻分布的,分布趨勢為GC1(46.70%)>GC2(39.90%)>GC3(27.70%)。此外,GC含量的差異在第1密碼子位置最大,其次是第2和第3位置。同義密碼子的平均GC含量為24.90%,說明第3位密碼子偏好使用A、U堿基。ENC被廣泛用于測量單個基因的密碼子偏倚水平,其變化范圍在35.59~57.43之間,大多數(shù)ENC值顯示該基因組密碼子偏性較弱。
密碼子參數(shù)的相關性分析結果顯示:GC與GC1、GC2、GC3之間的相關性均達到了極顯著水平,其相關系數(shù)分別為0.836、0.723、0.369,GC1和GC2顯著相關,而GC3與GC1和GC2相關均不顯著(表2),說明葉綠體基因組密碼子堿基組成中,第1位和第2位使用模式相似,與第3位差異較大。GC和GC1兩個參數(shù)與CAI、CBI、FOP呈顯著相關。蛋白質長度與GC3含量呈極顯著相關,表明更明顯的GC3含量差異可能在于較短的蛋白質。
表2 密碼子參數(shù)的相關性分析
為了分析密碼子的使用模式,該研究進一步研究了RSCU(表3)。結果表明第三位置具有A或U密碼子的偏差,其RSCU值大于1的密碼子數(shù)目為30個,有29個以A/U結尾,還有一個以G結尾,說明葉綠體基因組密碼子的偏好堿基為A或U。
表3 天山雪蓮葉綠體基因同義密碼子相對使用度分析
中性繪圖分析結果顯示:雪蓮葉綠體基因組具有窄的GC分布,GC3的變化范圍為20.10%~37.00%,GC12的取值范圍為34.10%~56.20%。絕大多數(shù)基因都落在對角線上方,GC12大多數(shù)高于GC3。GC12和GC3之間的相關系數(shù)為0.062,無顯著相關性,并且回歸曲線近乎平行于x軸,說明密碼子不同位置堿基第1、2和3位之間的關聯(lián)性不大,在進化方式之間存在一定的差異,突變對密碼子偏好性的影響較弱,選擇可能在葉綠體密碼子使用形成中起主導作用(圖1)。
圖1 天山雪蓮葉綠體基因中性繪圖分析
通過ENC-plot繪圖分析核苷酸含量和密碼子使用之間的關系,結果顯示:大多數(shù)基因的ENC與基于GC3S的預期ENC相似,都遵循拋物線軌跡,但是有幾個基因的ENC值遠遠低于標準曲線(圖2)。標準曲線代表無選擇壓力存在時,密碼子偏好性完全由突變決定。為了更進一步的顯示ENC值遠低于標準曲線的部分非基因,計算了其ENC比值(即(預期ENC值-實際ENC值)/預期ENC值),在此基礎上分析所有樣本基因的ENC頻數(shù)分布(表4)。結果顯示,88.00%的基因分布在-0.1~0.1之間,這一范圍內實際ENC與預期ENC值相差較小,因此雪蓮葉綠體基因組的偏好性與GC3的差異相關。說明影響其偏好性主要因素為選擇。
圖2 ENC-plot繪圖分析
表4 ENC 比值頻數(shù)分布
為了研究這些有偏向性的密碼子是否僅在高度偏向的蛋白質編碼基因中出現(xiàn),通過PR2偏差分析了四個密碼子氨基酸家族中第3位上嘌呤(A和G)和嘧啶(T和C)之間的關聯(lián)。結果如圖3所示:整個范圍內的密碼子使用情況,G3/G3+C3(平均值為0.501)要高于A3/A3+T3(平均值為0.476)。PR2的偏差程度使我們能夠估計受突變、選擇二者影響的偏差。從圖3可以看出基因是不均勻地分布在平面內的4個區(qū)域中的,大多數(shù)基因落在平面的左下區(qū)域或右下區(qū)域,而且富集基因組使用T和G的頻率大于A和C。這些結果顯示出雪蓮葉綠體基因組密碼子的使用在第3個堿基上的不平衡,并表明不僅突變,選擇和其他因素同樣也會決定密碼子的使用模式。
圖3 PR2-plot 分析
基于相對同義密碼子(RSCU)的COA可以產(chǎn)生一系列正交軸以反映導致密碼子使用變化的趨勢[22],前4軸的貢獻率分別為17.61%、11.59%、7.97%和5.8%,這4條向量軸的總貢獻率為42.97%。為了更直觀的觀察密碼子偏好,建立以第1軸為x軸,第2軸為y軸的平面系。根據(jù)天山雪蓮葉綠體基因的功能,可將分析的50條序列分為5類:第1類是編碼光合系統(tǒng)蛋白的基因25個,包括psa、psb、ndh、pet、atp和rbcL基因;第2類是編碼核糖體蛋白的基因13個,包括rpl和rps基因;第3類是和遺傳結構相關的基因4個,即rpo基因家族;第4類是保守的ycf基因3個;第5類是編碼其他蛋白的基因5個。將所有樣本基因添加于坐標系中,結果如圖4所示:遺傳系統(tǒng)基因和核糖體蛋白基因分布相對集中,說明這些基因的密碼子使用模式相近;而其他基因分布相對比較分散,可能是由于密碼子使用模式存在差異導致密碼子偏好性相差較大。在4個軸中,由于第1軸是引起變異的主要因素,且貢獻率要遠高于其他3個軸,因此本研究著重分析第1軸(表5)。第1軸與CAI、CBI、FOP、GC3S和GC均達到了極顯著水平,而與ENC的相關性較弱,由此說明密碼子的偏好性并非由單一因素引起,而是受到突變,選擇等其他多種因素的影響共同造成。
圖4 基于RSCU的對應性分析
表5 第一軸與各度量指標的相關性分析
對50個樣本基因的ENC值進行排序,從兩端各取10%建立高低表達庫,然后比較兩個偏差庫的RSCU值(表6),從中篩選出△RSCU≥0.08的氨基酸。最終確定了AUA、GUA等28個高表達優(yōu)越密碼子(表6中標記*的密碼子)。對這28個高表達密碼子的第3位堿基進行分析,發(fā)現(xiàn)有24個以A/U結尾,4個以G結尾。如表6所示:RSCU>1的密碼子有30個,其中29個以A/U結尾,1個以G結尾,說明密碼子偏好以A或U堿基結尾基。最終確定了UUU、UUA等30個密碼子為天山雪蓮葉綠體基因組的高頻密碼子。
表6 天山雪蓮葉綠體基因同義密碼子相對使用度
對28個高表達優(yōu)越密碼子和30個高頻密碼子進行分析,篩選出兩者共有的密碼子作為最優(yōu)密碼子。最終確定出22個密碼子作為天山雪蓮葉綠體基因組的最優(yōu)密碼子,分別為UUU、UUA、GUA、UCU、UCA、CCU、CCA、ACU、ACA、GCU、UAA、CAU、AAU、AAA、GAA、UGU、CGU、CGA、AGU、AGA、GGU、GGA,這22個最優(yōu)密碼子的第3位堿基有11個以A結尾,有11個以U結尾,沒有以C或G結尾的。
密碼子使用偏差(CUBs)是基因組中的一個重要進化特征,密碼子使用偏好性是物種不斷進化適應的結果,其形成機制受各種生物因素的影響,例如基因長度[12]、基因表達水平、突變偏倚和GC含量[13]。在植物中,核酸組成成分在核基因密碼子偏好性中起主要影響作用[14],而自然選擇和突變壓在對葉綠體和線粒體基因組密碼子使用的偏好程度中影響顯著,并且它們已經(jīng)被廣泛用于解釋基因組內密碼子使用的特異性和內變性[15]。
根據(jù)CAI和ENC,雪蓮大多數(shù)最佳和優(yōu)選密碼子葉綠體基因組以A或U結尾。雪蓮葉綠體基因組的這種A/U端偏向可能與其基因組低GC含量相符,尤其是與其第三密碼子的低GC含量平均值約為27%相關。它與大多數(shù)生物體的模式相似,即富含G/C的物種傾向于擁有富含G/C的最佳密碼子,而富含A/U的物種則更喜歡富含A/U的最佳密碼子,從而揭示了確定雪蓮葉綠體CUB的核苷酸組成。
基因組CDS序列分析顯示,雪蓮葉綠體基因組編碼蛋白密碼子偏好以A/T堿基結尾,A/T含量越高。這與多數(shù)植物,如樟樹、普通油茶[16]、金蓮花[17]、蒺藜苜蓿[18]等物種的研究結果類似。突變和自然選擇等因素的影響導致同義密碼子編碼氨基酸的概率是不一樣的,這種現(xiàn)象很明顯的表現(xiàn)在:1)不同物種的同一基因其密碼子使用存在偏好性,2)同一物種不同基因其密碼子使用偏好性也各不相同。
第3位堿基在密碼子偏性以及物種進化中的自我保護機制中起著主導作用[19];ENC-plot和PR2-plot分析均發(fā)現(xiàn)雪蓮葉綠體基因組的偏好性較弱,主要受選擇的影響,同時也受其他因素的綜合影響。
盡管已知植物葉綠體基因組的CUB傾向于A/U偏好結尾,主要受核苷酸組成和選擇壓力的因素影響[20],比較了光合作用相關基因和遺傳系統(tǒng)之間的CUB基因。我們發(fā)現(xiàn):光基因的CAI值總是比遺傳相關基因高。作為分析CUB的最廣泛使用的指標之一,CAI衡量給定程度相對于一組參考基因使用高密碼子的基因。雪蓮葉綠體基因組的光基因組始終具有較高的CAI值,因此存在較高的基因表達。這些結果可能支持光基因具有更高表達的觀點,植物的快速生長需要與光合作用相關的高表達基因。
同義密碼子的使用模式通常與基因的表達水平相關,通過分析高表達水平的基因與低表達水平的基因密碼子的組成,即整合高表達優(yōu)越密碼子分析法以及高頻密碼子分析法二者共有的密碼子,為防止由于單方面出現(xiàn)問題而導致結果偏差,最終從雪蓮葉綠體基因組中鑒定了UUU、UUA、GUA等22個最優(yōu)密碼子,且所有這些密碼子都是以A或U殘基結束,這與樟樹[21]、水稻、糜子[5]以及抽筒竹[22]的分析結果相似。這些最優(yōu)密碼子對于點突變的引入以及探索和理解物種的分子進化機制提供有用信息。此外,對這些密碼子通過基因工程技術加以改造,可以提高目的基因在宿主中的表達量。
本研究首次系統(tǒng)分析了天山雪蓮葉綠體基因組密碼子的使用模式,并確定了影響密碼子使用偏差的因素,為理解同義密碼子的偏向使用機制及藥用植物葉綠體基因工程利用提供了參考依據(jù)。