金 剛, 覃 旭, 龍凌云, 王麗萍, 覃劍峰, 危丹妮, 陳 濤, 蔡中全
(1.廣西壯族自治區(qū)亞熱帶作物研究所,廣西 南寧 530001;2.廣西大學(xué)農(nóng)學(xué)院,廣西 南寧 530004)
生物體遺傳密碼的功能完整性是由同義密碼子維持的,它提供了基因表達(dá)和蛋白質(zhì)進(jìn)化之間的聯(lián)系[1].大量研究表明,不同物種、同一物種的不同基因在同義密碼子的使用偏好性上存在較大差異[2].這種偏好性保證了最優(yōu)密碼子可以與豐度最大的tRNA基因的反密碼子配對(duì).雖然同義密碼子使用偏好對(duì)蛋白質(zhì)序列沒有直接影響,但由于密碼子使用偏好已被證明是一種重要的進(jìn)化力量,因此它可能影響蛋白質(zhì)產(chǎn)物和細(xì)胞過程[3].
在植物分子進(jìn)化研究中,葉綠體基因組因分子量較小、拷貝數(shù)較多且許多基因的功能已被注釋而備受生物學(xué)家重視[4].葉綠體基因組中的翻譯過程與單細(xì)胞生物相似,表明其同義密碼子的使用可能與大腸桿菌相同[5].完整的葉綠體基因組可以為認(rèn)識(shí)進(jìn)化和自然選擇提供機(jī)理性的啟示,并已在認(rèn)知物種和葉綠體進(jìn)化機(jī)制上做出重大貢獻(xiàn)[6].
劍麻又名龍舌蘭麻,是龍舌蘭科(Agavaceae)所屬單子葉植物的統(tǒng)稱.龍舌蘭屬是該科中最有經(jīng)濟(jì)價(jià)值的一個(gè)屬,包含257個(gè)種,被廣泛應(yīng)用于纖維加工、釀酒、觀賞等領(lǐng)域.東非坦桑尼亞劍麻試驗(yàn)站于1935—1957年將藍(lán)劍麻與假菠蘿麻雜交,并從回交后代中選育出了高產(chǎn)且抗寒性好的龍舌蘭栽培種H.11648.其生命周期可產(chǎn)葉560~600片,出纖率高且葉緣無刺,現(xiàn)被廣泛種植于華南地區(qū)[7].近年來,現(xiàn)代分子生物學(xué)技術(shù)在龍舌蘭屬植物中得以廣泛應(yīng)用,如抗旱性的轉(zhuǎn)錄組研究[8],以及屬內(nèi)分類的分子標(biāo)記研究等[9].但未見有關(guān)于龍舌蘭屬植物葉綠體基因組密碼子生物學(xué)和基因組進(jìn)化的研究報(bào)道.對(duì)劍麻H.11648葉綠體基因組密碼子使用偏好性的詳盡分析,有利于更深入地揭示龍舌蘭屬植物的系統(tǒng)進(jìn)化地位.本研究系統(tǒng)地分析了劍麻H.11648葉綠體基因組編碼序列的密碼子使用特征,探討導(dǎo)致其密碼子偏好性發(fā)生的重要因素.
完整的劍麻H.11648葉綠體基因組序列來源于高通量測(cè)序結(jié)果,GenBank登錄號(hào)為MG642741.剔除重復(fù)基因序列和長(zhǎng)度小于300 bp的編碼序列,最終用于分析的編碼序列有52條.
1.2.1 中性繪圖分析 分別統(tǒng)計(jì)密碼子3個(gè)位置上堿基的GC含量,密碼子第1位、第2位和第3位GC含量循序表示為GC1、 GC2和GC3.以GC12為縱坐標(biāo),以GC3為橫坐標(biāo)作圖,其中GC12定義為GC2和GC1的平均值.同義密碼子第3位堿基的GC含量表示為GC3s.
1.2.2 相對(duì)同義密碼子使用度分析 利用CodonW 軟件對(duì)劍麻H.11648葉綠體基因組的52個(gè)編碼基因的相對(duì)同義密碼子使用度(relative synonymous codon usage, RSCU)進(jìn)行分析.
1.2.3 Nc-plot 繪圖分析 為檢測(cè)堿基組成對(duì)密碼子偏好性的影響,以有效密碼子數(shù)(Nc值)為縱坐標(biāo),GC3s為橫坐標(biāo),作二維散點(diǎn)圖;以密碼子偏好性僅由堿基組成決定時(shí)的預(yù)期值作為標(biāo)準(zhǔn)曲線,其計(jì)算公式為:Nc=2+GC3s+29/[GC3s2+(1-GC3s)2].
1.2.4 奇偶偏好分析 PR2(parity rule 2, PR2)分析,為了避免密碼子第3位堿基的A/T或T/A和G/C或C/G的突變不均衡,僅選擇4種密碼子編碼的氨基酸,即絲氨酸、亮氨酸、脯氨酸、精氨酸、蘇氨酸、纈氨酸、丙氨酸和甘氨酸.計(jì)算每個(gè)基因A3/(A3+T3)和G3/(G3+C3),分別作縱坐標(biāo)和橫坐標(biāo),以平面圖顯示各基因堿基組成[10].
劍麻H.11648的52條編碼序列的總體GC含量為38.21%.GC1、GC2、GC3含量分別為46.03%、38.36%和30.22%.GC并非均勻地分布在密碼子的3個(gè)位置上,其呈現(xiàn)出的分布趨勢(shì)為GC1>GC2>GC3.
有效密碼子數(shù)(Nc)其理論取值范圍為20~61,當(dāng)Nc值為20時(shí),表示每種氨基酸僅使用每組同義密碼子中的1個(gè);當(dāng)Nc值為61時(shí),表示各種同義密碼子的使用機(jī)會(huì)完全均等.劍麻葉綠體基因組編碼序列的Nc值分布于41.34~61.00,且均在41以上(表1).所有基因Nc值均大于40,可以判斷劍麻葉綠體基因密碼子偏好性較弱.劍麻H.11648葉綠體clpP基因的Nc值為61,其同義密碼子的使用沒有偏好性.
表1 劍麻葉綠體基因組密碼子不同位置GC含量Table 1 GC content in different positions of codons in chloroplast coding sequences of H.11648
續(xù)表1
基因GC含量/%GCallGC1GC2GC3GC3s有效密碼子數(shù)個(gè)psbC44.3753.5946.4133.1229.4644.99rps1441.2545.5446.5331.6829.9041.92psaB41.4148.1643.1332.9328.5950.11psaA42.8852.0643.4133.1629.1450.21ycf339.6147.0640.0031.7629.4551.91rps438.1247.0338.6128.7127.4149.24ndhJ39.6247.1738.9932.7028.8658.38ndhK37.8942.7444.4426.5024.0050.48ndhC38.5750.4134.7130.5824.3258.79atpE43.2152.5941.4835.5632.5651.62atpB42.8856.6541.7330.2428.2748.30rbcL43.1757.1743.2429.1026.1248.63accD34.3938.6136.8327.7224.1246.35ycf440.1843.7842.1634.5930.2351.71cemA33.3340.0027.3932.6128.7053.86petA39.6754.2135.8328.9727.6249.87rps1834.9737.2542.1625.4923.2341.34rpl2037.5738.9842.3731.3629.2050.40clpP41.7958.5435.6131.2227.0861.00psbB44.3454.8146.7631.4327.6549.13petD38.8349.4739.3627.6624.0245.82rpoA36.2745.5934.7128.5327.1150.67rps1145.5558.7855.7322.1419.2046.15rps835.0939.8541.3524.0621.2641.41rpl1439.0255.2836.5925.2022.8846.87rpl1643.5550.3653.2827.0122.6642.00rps335.6047.0634.8424.8922.5442.70rpl2238.7342.8641.9031.4329.0056.26rpl244.6150.9149.4533.4531.7252.93ndhB38.1042.2739.9232.0928.3147.05rps740.6053.2145.5123.0820.6747.32ndhF32.7937.0136.0725.3021.2845.04ccsA32.9232.2038.7027.8622.9252.73ndhD36.9940.8436.2533.8629.3651.42ndhE35.2940.2032.3533.3329.9060.44ndhG33.3341.8134.4623.7320.7145.20ndhI34.6240.3336.4627.0724.7153.96ndhA36.2444.9638.6925.0721.9445.23ndhH37.6549.4936.5526.9021.8047.93ycf131.4336.8029.3428.1524.9448.70ycf238.1141.8535.3037.1834.6453.24
GCall和GC1、GC2、GC3的相關(guān)性呈極顯著水平.GC1與GC2的相關(guān)性也達(dá)到極顯著水平, 但GC3與GC1、GC2的相關(guān)性均未達(dá)顯著水平(表2).表明劍麻H.11648葉綠體編碼基因密碼子第1位和第2位堿基組成比較相似,但與第3位堿基組成顯著不同.此外,有效密碼子數(shù)(Nc)與GC3的相關(guān)性達(dá)到極顯著水平,但與GC1、GC2之間的相關(guān)性未達(dá)到顯著水平,說明第3位上的堿基組成對(duì)密碼子偏好性影響顯著.
中性繪圖顯示各基因坐標(biāo)點(diǎn)未沿對(duì)角線分布或落在對(duì)角線上(圖1).GC12分布于0.3307~0.5725,GC3分布于0.2214~0.3718.GC12和GC3的相關(guān)系數(shù)為0.067,雙尾檢驗(yàn)表明其相關(guān)性未達(dá)到顯著水平.回歸曲線斜率為0.0963.說明密碼子第1、2位與第3位堿基組成不相似,自然選擇對(duì)密碼子使用偏好性的影響較大,而其他因素(例如突變)可能對(duì)密碼子偏好性形成的影響較弱.
表2 劍麻葉綠體基因組中各基因相關(guān)參數(shù)的相關(guān)性分析1)Table 2 Correlation analysis of parameters related to genes
1)CC表示密碼子數(shù)目;GCall表示各基因GC總含量;**表示在0.01水平(雙側(cè))上顯著相關(guān);*表示在0.05水平(雙側(cè))上顯著相關(guān).
圖1 中性繪圖分析Fig.1 Analysis of neutrality plot
為了進(jìn)一步判斷選擇或突變等因素對(duì)劍麻葉綠體基因組密碼子偏好性形成的影響,以各基因Nc值為縱坐標(biāo),GC3s為橫坐標(biāo)繪制Nc-plot曲線.標(biāo)準(zhǔn)曲線反映了在突變壓力下的Nc和GC3s的函數(shù)關(guān)系.部分基因坐標(biāo)點(diǎn)沿標(biāo)準(zhǔn)曲線分布或落在標(biāo)準(zhǔn)曲線附近,說明Nc實(shí)際值和預(yù)期值接近,暗示了這些葉綠體基因的密碼子偏好性主要受到突變壓力影響;而另外一部分基因坐標(biāo)點(diǎn)偏離標(biāo)準(zhǔn)曲線(圖2),說明Nc實(shí)際值和預(yù)期值之間相差較大,偏好性較強(qiáng),暗示堿基組成并不是這部分葉綠體基因密碼子偏好性形成的主要因素,自然選擇也起到重要作用.
采用PR2-plot方法分析了劍麻H.11648葉綠體基因組各編碼序列由4種密碼子編碼的氨基酸家族中密碼子第3位嘧啶(T和C)以及嘌呤(A和G)之間的關(guān)系(圖3).結(jié)果表明,坐標(biāo)點(diǎn)并非均勻地分布于4個(gè)區(qū)域內(nèi),大多數(shù)基因分布于平面圖的左下方,說明在密碼子第3位A的使用頻率低于T,G的使用頻率低于C,即嘌呤使用頻率相對(duì)較低.假如密碼子使用偏好性僅受突變壓影響時(shí),則理論上4種堿基的使用頻率相等.而本研究中4種堿基的使用不均衡,暗示了劍麻H.11648葉綠體密碼子的使用偏好性除了受突變因素影響之外,還受到如選擇等其它因素的影響.
圖2 Nc-plot分析Fig.2 Analysis of Nc-plot
利用CAI程序統(tǒng)計(jì)52條劍麻葉綠體CDS各密碼子出現(xiàn)次數(shù),再手動(dòng)計(jì)算RSCU值(表3).RSCU>1的密碼子多以A或T結(jié)尾,暗示以A或T結(jié)尾的密碼子出現(xiàn)頻率相對(duì)較高,這些是基因組偏愛的密碼子.而以G或C結(jié)尾的密碼子RSCU值多小于1,暗示以G或C結(jié)尾的密碼子出現(xiàn)的頻率較低,是基因組非偏愛的密碼子.劍麻葉綠體基因在終止密碼子的使用上偏好TAA.
表3 劍麻葉綠體基因編碼序列的同義密碼子使用相對(duì)頻率Table 3 RSCU analysis of protein coding region in H.11648 chloroplast genome
最佳密碼子有助于實(shí)現(xiàn)更快的翻譯速度和更高的準(zhǔn)確度.研究表明,同義密碼子的使用偏好性受多重因素影響,例如CpG島、基因組大小、基因長(zhǎng)度、基因表達(dá)水平、蛋白質(zhì)二級(jí)結(jié)構(gòu)和基因密度等[11,12].同義的三聯(lián)體密碼子產(chǎn)生這種偏好性的主要?jiǎng)恿κ亲匀贿x擇和突變[13].突變壓力對(duì)葉綠體基因組同義密碼子使用偏好性形成的重要性也已明確[14].然而,在植物和藻類中自然選擇也是同義密碼子使用變異的驅(qū)動(dòng)力[15].密碼子偏好反映了翻譯優(yōu)化中突變偏好與自然選擇的平衡[16].
本研究中以劍麻H.11648葉綠體基因組中的52條蛋白編碼序列為研究對(duì)象,對(duì)其密碼子使用特征進(jìn)行了系統(tǒng)分析.劍麻H.11648葉綠體基因組密碼子第3位GC含量為30.22%,這與柿屬葉綠體基因組密碼子GC3含量(30.43%)接近[17].PR2-plot分析表明,劍麻H.11648葉綠體基因組密碼子第3位偏好使用嘧啶,該研究結(jié)果與前人對(duì)于棉花和糜子相關(guān)研究的結(jié)論類似[18,19].劍麻H.11648葉綠體基因組Nc值分布于41.34~61.00,表明密碼子偏好性較弱;GC12和GC3的相關(guān)性未達(dá)到顯著水平,表明選擇在此過程起的作用更大;密碼子第3位嘌呤出現(xiàn)頻率低于嘧啶,表明密碼子使用模式同時(shí)受到突變和選擇壓力的影響.劍麻H.11648葉綠體基因組密碼子的使用偏好性是受到選擇和突變等多重因素共同作用影響而形成的.這一結(jié)論與前人在其他植物葉綠體基因組中的研究結(jié)論相一致[17-19],可能與植物葉綠體基因組進(jìn)化的相對(duì)保守性有關(guān).本研究揭示了劍麻H.11648葉綠體基因組進(jìn)化以及基因表達(dá)的重要信息.在今后開展劍麻H.11648葉綠體基因工程時(shí),可以參考其偏好密碼子對(duì)異源表達(dá)基因進(jìn)行修飾,以提高其表達(dá)效率,也為探索在葉綠體基因組水平上建立龍舌蘭屬植物分類的新方法提供依據(jù).