李凌烜,陳安琪,黃 凱,郝博新,周嘉裕,廖 海
(西南交通大學(xué) 生命科學(xué)與工程學(xué)院,成都 610097)
萜類與蒽醌化合物具有多種重要的藥用價值。植物萜類與蒽醌類化合物的合成均依賴2-甲基-D-赤蘚糖醇-4-磷酸(MEP)途徑[1]。1-脫氧-D-木酮糖-5-磷酸還原異構(gòu)酶(1-deoxy-D-xylulose-5-phosphate reductoisomerase,DXR)是催化MEP途徑中第二步反應(yīng)的酶,即磷酸木酮糖在1-脫氧-D-木酮糖-5-磷酸還原異構(gòu)酶的作用下形成二甲基四磷酸,經(jīng)后續(xù)反應(yīng)形成MEP。DXR被認(rèn)為是萜類與蒽醌化合物合成的關(guān)鍵酶之一。在MEP途徑中,DXR被認(rèn)為是萜類合成途徑中發(fā)揮“限流”作用的關(guān)鍵酶,對萜類生物合成的重要中間體MEP的積累起決定性作用。陽春砂、丹參、紅豆杉、喜樹與青蒿等藥用植物中dxr基因的表達(dá)量與萜類產(chǎn)物的積累表現(xiàn)為正相關(guān)。應(yīng)用轉(zhuǎn)基因技術(shù)在薄荷、長春花與丹參中超量表達(dá)dxr基因,導(dǎo)致萜類物質(zhì)含量顯著提高,表明該步驟是萜類代謝工程的重要調(diào)控靶點(diǎn)[2]。Walter等發(fā)現(xiàn),用真菌作為誘導(dǎo)子,能同時提高dxr基因的轉(zhuǎn)錄水平與蒽醌的含量,認(rèn)為DXR可能是蒽醌合成的一種關(guān)鍵酶[3]。較多豆科植物如決明、番瀉葉等含有萜類和(或)蒽醌,并且已有多個dxr基因在豆科植物中被發(fā)現(xiàn)以及克隆,這為認(rèn)識萜類與蒽醌等化合物在豆科植物中的合成打下了重要基礎(chǔ)。
不同物種對密碼子使用具有偏好性[4]。如果外源基因密碼子與宿主表達(dá)系統(tǒng)中密碼子的使用頻率有顯著差異,將直接影響外源基因的表達(dá)與翻譯[5]。由此,研究密碼子偏好性有助于為外源基因選擇更優(yōu)的宿主表達(dá)系統(tǒng),這對于提高基因的表達(dá)效率必不可少。
本文利用CodonW和EMBOSS程序分析11種豆科植物dxr基因的密碼子偏好性。利用SPSS軟件進(jìn)行聚類分析,以確定基因表達(dá)的最佳模式植物。并與大腸桿菌、酵母基因組的密碼子偏好性比較,確定最適外源宿主表達(dá)系統(tǒng),最后利用本課題組克隆的決明dxr基因進(jìn)行驗(yàn)證。
11種豆科植物的dxr基因均來自NCBI數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/),見表1。決明dxr基因序列由實(shí)驗(yàn)室克隆獲得,尚未錄入NCBI數(shù)據(jù)庫。大腸桿菌與酵母基因組的密碼子偏好性數(shù)據(jù)來源于 Codon Usage Database(http://www.kazusa.or.jp/codon/)。采用EMBOSS在線程序(http://emboss.toulouse.inra.fr.)中的CUSP(Create a codon usage table)和CHIPS(Codon heterozygosity in a protein coding sequence)以及CodonW 程序分析密碼子的偏好性,并用SPSS對相關(guān)基因及基因組密碼子使用偏好性進(jìn)行聚類分析。
1.2.1dxr基因同義密碼子偏好性分析
首先,通過 CodonW程序分析dxr基因的相對密碼子使用度 (Relative synonymous codon usage,RSCU)、密碼子適應(yīng)指數(shù)(Codon adaptation index,CAI)、同義密碼子第3位堿基的GC含量(GC3s)以及同義密碼子GC含量;其次,根據(jù)所得到的dxr基因編碼序列,利用CUSP和CHIPS在線分析程序,計算決明dxr基因密碼子出現(xiàn)頻率以及有效密碼子數(shù)(Effective number of codons,ENc)。
1.2.2 基于密碼子偏好性的聚類分析
參照李娟娟等[6]的方法,利用SPSS對13種植物的dxr基因進(jìn)行聚類分析來確定豆科植物dxr基因的最佳模式植物。
1.2.3 決明dxr基因密碼子偏好性分析
通過 CodonW 和 CUSP程序分析決明dxr基因的RSCU值和密碼子使用頻率。將其密碼子出現(xiàn)頻率同大腸桿菌和酵母基因組密碼子的偏好性進(jìn)行比較,以確定其最適外源表達(dá)系統(tǒng)。
表1 11種豆科植物dxr基因信息
若某一密碼子的RSCU值為1,表明無偏好性[7]。若RSCU值>1,則該密碼子使用頻率相對較高;若RSCU值<1,該密碼子使用頻率相對較低[8]。
如表2所示,11種豆科植物中偏好性較強(qiáng)的密碼子有8個,包括GAU(紅豆除外)、GAA(木豆除外)、UCA(花生除外)、ACU(綠豆除外)、UAU(蔓花生除外)、GUU、UUG與AGA,其中有4個密碼于U結(jié)尾,3個密碼子于A結(jié)尾。AUG和UGG密碼子無偏好性。而GCG等10個密碼子的偏好性極低。由于AGA密碼子具有最大的RSCU值,可認(rèn)為AGA是最優(yōu)密碼子。
ENc能有效衡量密碼子家族中同義密碼子非均衡使用的偏好性。其值處于20~61,偏好性越強(qiáng)的密碼子其ENc值越接近20[9]。GC3s能反映密碼子第三位堿基的偏好性。CAI則指實(shí)際編碼該蛋白的所有密碼子對于完全使用最優(yōu)密碼子編碼該蛋白質(zhì)情況下的適應(yīng)性指數(shù),常用來衡量基因表達(dá)水平[10]。其取值為0~1,偏好程度越低的密碼子其CAI值越接近0[11]。
表2 11種豆科植物dxr基因的RSCU值
續(xù)表1(Continued table 1)
密碼子Codon氨基酸AA1234567891011GAAE(Glu)1.581.561.220.821.671.051.161.291.051.241.43GAGE0.420.440.781.180.330.950.840.710.950.760.57UUCF(Phe)1.040.960.710.910.920.851.000.921.110.480.72UUUF0.961.041.291.091.081.151.001.080.891.521.28GGAG(Gly)1.091.220.830.941.300.761.751.221.431.651.78GGCG0.971.111.172.120.971.710.381.041.140.240.56GGGG1.090.781.330.940.860.570.751.041.140.470.78GGUG0.850.890.670.000.860.951.130.700.291.650.89CACH(His)0.750.551.000.960.671.150.670.401.040.830.53CAUH1.251.451.001.041.330.851.331.600.961.171.47AUAI(Ile)0.580.581.271.500.430.920.950.880.810.740.89AUCI0.830.690.670.680.860.920.611.130.690.910.64AUUI1.581.731.070.821.711.171.431.001.501.361.47AAAK(Lys)1.871.431.001.131.440.941.081.271.091.001.36AAGK0.130.571.000.880.561.060.920.730.911.000.64CUAL(Leu)0.800.780.440.190.800.350.550.690.410.390.41CUCL0.700.910.660.820.930.450.981.200.530.190.52CUGL0.700.781.711.650.931.540.440.171.880.290.52CUUL1.601.170.720.920.930.602.181.540.762.031.86UUAL0.800.520.880.680.531.190.761.200.821.261.34UUGL1.401.831.601.741.871.881.091.201.591.841.34AUGM(Met)1.001.001.001.001.001.001.001.001.001.001.00AACN(Asn)0.690.651.000.760.631.120.840.841.400.530.80AAUN1.311.351.001.241.370.881.161.160.601.471.20CCAP(Pro)1.271.201.742.141.002.461.701.001.431.881.76CCCP0.551.000.520.711.000.620.481.250.860.710.59CCGP0.180.200.870.140.250.310.240.250.290.120.12CCUP2.001.600.871.001.750.621.581.501.431.291.53CAAQ(Gln)1.331.650.690.771.670.891.201.570.951.471.13CAGQ0.670.351.311.230.331.110.800.431.050.530.88AGAR(Arg)3.411.912.462.182.002.231.763.193.113.673.43AGGR2.051.911.852.181.731.541.761.882.221.000.86CGAR0.000.950.620.551.070.171.410.560.000.000.57CGCR0.140.000.310.360.001.030.350.380.220.330.57CGGR0.140.270.620.360.270.690.350.000.440.330.00CGUR0.270.950.150.360.930.340.350.000.000.670.57AGCS(Ser)0.801.250.930.871.270.900.611.221.030.790.48AGUS1.301.160.621.201.010.600.611.501.030.791.20UCAS1.080.991.861.851.012.401.591.031.892.051.80UCCS1.080.991.030.761.100.900.861.031.370.160.48UCGS0.140.450.930.110.420.300.490.090.170.320.12UCUS1.591.160.621.201.180.901.841.130.511.891.92ACAT(Thr)1.251.471.280.951.571.101.001.201.831.941.94ACCT0.880.930.641.140.710.690.861.070.830.770.61ACGT0.130.000.320.190.000.690.430.130.330.000.12ACUT1.751.601.761.711.711.521.711.601.001.291.33GUAV(Val)0.410.710.190.430.270.500.840.570.160.861.00GUCV0.550.940.950.860.800.830.320.860.800.570.20GUGV0.830.471.331.290.531.500.630.291.440.760.90GUUV2.211.881.521.432.401.172.212.291.601.811.90UGGW(Trp)1.001.001.001.001.001.001.001.001.001.001.00UACY(Tyr)0.640.601.430.440.450.750.290.380.750.130.25UAUY1.361.400.571.561.551.251.711.621.251.871.75UAATER0.891.131.661.341.240.970.430.541.061.711.50UAGTER0.390.310.630.870.331.140.430.381.060.000.00UGATER1.721.560.710.791.430.892.142.080.871.291.50
注: 1為大豆;2為花生;3為蔓花生;4為木豆;5為伊犁花生;6為鷹嘴豆;7為羽扇豆;8為紅豆;9為綠豆;10為苜蓿;11為山葛。下劃線表示大于1的RSCU值。下同
Note: 1.Glycinemax; 2.Arachishypogaea; 3.Arachisduranensis; 4.Cajanuscajan; 5.Arachisipaensis; 6.Cicerarietinum; 7.Lupinusangustifolius; 8.Vignaangularis; 9.Vignaradiata; 10.Medicagotruncatula; 11.Puerariamontanavar.lobata. The RSCU value greater than 1 is underlined. The same below
由表3可知,dxr基因的ENc值處于42.71~54.61,平均為50.33,標(biāo)準(zhǔn)偏差為3.82,可判斷以上11個物種的dxr基因密碼子的偏好性整體偏低。dxr基因的CG3s值處于0.268~0.501,平均值為0.393,標(biāo)準(zhǔn)偏差0.082,表示同義密碼子使用方式比較均一,也意味著dxr基因的密碼子多以A/U結(jié)尾。
表3 11個物種 dxr基因的ENc、CAI、GC3s和GC
基因的表達(dá)水平和偏好性往往呈正相關(guān)[12]。dxr基因的CAI值為0.116~0.206,平均值0.178,標(biāo)準(zhǔn)偏差0.027,CAI值偏低,說明dxr基因的表達(dá)水平較低,會影響到MEP途徑的效率。
選取11種豆科植物以及煙草,擬南芥進(jìn)行聚類分析。除木豆、鷹嘴豆、蔓花生、綠豆這4種豆科植物外,其他大部分豆科植物的dxr基因偏好性與兩種模式植物相近(圖1),表明煙草和擬南芥均可作為研究豆科植物dxr基因功能的模式植物。
圖1 13種植物dxr基因的聚類樹狀圖
對決明dxr基因展開分析,以驗(yàn)證密碼子偏好性數(shù)據(jù)的可信度。如表4所示,決明dxr基因中,有27個密碼子的RSCU值大于1。其中有21個密碼子以A/U結(jié)尾,而且比值也較高,可認(rèn)為是決明dxr基因的偏好性密碼子。同時決明dxr基因的 ENc、CAI、GC3s結(jié)果分別為46.38、0.236和0.2147,3個指數(shù)均偏低。此結(jié)果與豆科植物的密碼子偏好性結(jié)果一致,說明豆科植物dxr基因密碼子偏好性分析結(jié)果可信度較高。
表4 CUSP和CodonW程序分析決明dxr基因的密碼子偏好性
續(xù)表4(Continuedtable4)密碼子Codon氨基酸AA比例Fraction頻率Frequency個數(shù)Number相對密碼子使用度RSCUCGAR0.0000.00000.00CGCR0.1254.23720.75CGGR0.0000.00000.00CGUR0.1886.35631.13AGCS(Ser)0.0614.23720.36AGUS0.0614.23720.36UCAS0.21214.83171.27UCCS0.21214.83171.27UCGS0.0302.11910.18UCUS0.42429.661142.55ACAT(Thr)0.46225.424121.85ACCT0.1548.47540.62ACGT0.0774.23720.31ACUT0.30816.94981.23GUAV(Val)0.21616.94980.86GUCV0.1088.47540.43GUGV0.16212.71260.65GUUV0.51440.254192.05UGGW(Trp)1.00016.94981.00UACY(Tyr)0.1112.11910.22UAUY0.88916.94981.78UAA?0.0000.0000?UAG?0.0000.0000?UGA?1.0002.1191?
注:*為終止密碼子(Note: * .Terminate codons)
如果外源基因與宿主基因組之間的密碼子使用頻率比值在0.5~2.0,說明二者密碼子使用比較相近[13]。豆科植物dxr基因與大腸桿菌有31個密碼子的使用頻率比值大于2.0,而與酵母菌差別較大的密碼子僅有14個,說明酵母菌更加適合豆科植物dxr基因的外源表達(dá)。但是要實(shí)現(xiàn)高效表達(dá)還需要對密碼子進(jìn)行優(yōu)化。
本文對11種豆科植物的dxr基因密碼子進(jìn)行了可信度較高的偏好性分析,分析結(jié)果是豆科植物dxr基因的密碼子偏好性和表達(dá)水平偏低,同義密碼子使用方式比較均一,且序列中A+T含量大于G+C含量。推測dxr基因的低表達(dá)水平與豆科植物萜類及蒽醌類物質(zhì)的低含量密切相關(guān)。Xing等[14]也認(rèn)為dxr比MEP 途徑上的第1個基因dxs更為關(guān)鍵。
豆科植物dxr基因中偏好性較強(qiáng)的密碼子有8個,其中3個密碼子(UCA、GUU與UUG)分別編碼Ser、Val與Leu,它們在DXR的氨基酸組成中也是屬于含量較豐富的氨基酸殘基。由于豆科植物dxr基因密碼子主要以A/U結(jié)尾,而單子葉植物密碼子偏好以C/G結(jié)尾,因此豆科植物dxr基因更適合導(dǎo)入到雙子葉植物中,而進(jìn)一步的聚類分析表明擬南芥和煙草適合作為研究dxr基因功能的模式植物,但其中只有擬南芥是雙子葉植物,說明擬南芥更適合作為模式植物。
相比于大腸桿菌,酵母菌更適合作為豆科植物dxr基因的表達(dá)系統(tǒng)。豆科植物dxr基因有31個密碼子,與大腸桿菌基因組偏好性差異較大,表明它們在進(jìn)化上距離較遠(yuǎn),這一結(jié)果與童宇茹等[15]的研究結(jié)果相近,他們發(fā)現(xiàn)來源于細(xì)菌、藻類與高等植物的dxr基因在進(jìn)化樹中分別聚類,有較大的遺傳距離。但是由于豆科植物dxr基因與酵母菌仍然有一定差異,所以要實(shí)現(xiàn)其在外源系統(tǒng)中高效表達(dá),還需要對密碼子進(jìn)行優(yōu)化。