李慧姬,吉雪花,朱冉冉,張中榮,張海英,呂 慧
( 石河子大學(xué) 農(nóng)學(xué)院,特色果蔬栽培生理與種質(zhì)資源利用兵團(tuán)重點(diǎn)實(shí)驗(yàn)室,新疆石河子 832000)
八氫番茄紅素合成酶 (PSY)是植物類胡蘿卜素生物合成途徑中的關(guān)鍵酶,對(duì)于番茄紅素的合成具有重要作用,PSY基因表達(dá)量高低顯著調(diào)控著植物類胡蘿卜素的合成和積累[1],敲除番茄SlPSY1基因?qū)е路阎蓄惡}卜素缺失[2],PSY基因在煙草[3]、玉米[4]和番茄中超表達(dá)提高了胡蘿卜素含量和其他次級(jí)代謝物。PSY基因不僅限制了類胡蘿卜素的生物合成,而且在非生物脅迫中也起到作用。比如脫落酸、茉莉酸甲酯和鹽脅迫[5-7]。在香菜中,茉莉酸甲酯處理后導(dǎo)致PSY基因表達(dá)增強(qiáng)[8]。
所有的生物共用一整套密碼子,密碼子是信使核糖核酸上編碼氨基酸的三聯(lián)體核苷酸序列,編碼同一個(gè)氨基酸的密碼子稱為同義密碼子[9]。密碼子在生物體遺傳信息的傳遞過程中起著關(guān)鍵作用。研究發(fā)現(xiàn),密碼子的使用存在著不均等現(xiàn)象,即使是同一物種,其不同蛋白質(zhì)中相同氨基酸對(duì)密碼子的選用頻率也不同,即密碼子的使用具有偏好性[10]。密碼子使用的偏差存在于廣泛的生物系統(tǒng)中,包括原核生物和真核生物。影響密碼子偏好性的因素有很多,如突變壓力、自然選擇、基因功能等。在多細(xì)胞真核生物中,如果蠅和秀麗隱桿線蟲中密碼子的偏好性主要取決于翻譯效率[11-12]。在病毒中,如TTSuV1或細(xì)小病毒科主要通過突變壓力和自然選擇之間的相互作用確定同義密碼子的使用模式[13-15]。在植物中,揭示擬南芥、水稻、玉米的密碼子使用偏好性主要由基因組成,CDS長度和基因表達(dá)水平等因素決定[16]。研究表明谷子類甜蛋白家族基因密碼子使用進(jìn)化過程中主要受自然選擇壓力影響[17],而莧菜AmMYB2基因的密碼子偏好性受突變壓力的影響較大[9]。由于這種密碼子使用偏好性的存在會(huì)導(dǎo)致外源基因密碼子與宿主表達(dá)系統(tǒng)中密碼子的使用頻率差異顯著,直接影響外源基因的表達(dá)與翻譯,因此,研究密碼子偏好性有助于為外源基因選擇更優(yōu)的表達(dá)系統(tǒng),這對(duì)于提高基因的表達(dá)效率必不可少[18]。
密碼子優(yōu)化在增強(qiáng)異源系統(tǒng)中的蛋白質(zhì)和DNA表達(dá)的過程中起著重要作用[19]。辣椒中含有豐富的類胡蘿卜素[20],是研究植物類胡蘿卜素化學(xué)和生物合成的重要植物,成熟的辣椒果實(shí)中含有α-胡蘿卜素、β-胡蘿卜素、玉米黃質(zhì)、葉黃素、隱黃質(zhì)、辣椒紅素及辣椒玉紅素等多種不同的類胡蘿卜素,其種類和含量決定辣椒成熟果實(shí)的顏色,從而影響果實(shí)品質(zhì)[21]。因此本研究以辣椒PSY基因?yàn)槔?,預(yù)測最合適PSY基因的宿主。借助生物信息學(xué)的分析方法,提取番茄、辣椒、煙草等10種植物PSY基因的CDS序列,計(jì)算其堿基組成、有效密碼子數(shù)、同義密碼子相對(duì)使用度等參數(shù),以揭示10種植物對(duì)PSY基因密碼子的使用偏好性。
10種植物PSY基因的全長編碼區(qū)序列 (coding DNA sequence,CDS) 均來源于NCBI(http:∥www.ncbi.nlm.nih.gov) 的GenBank數(shù)據(jù)庫,登錄號(hào)見表1。
表1 PSY基因序列登錄號(hào)Table 1 Accession number of PSY genes
借助于Codon W1.4.4軟件分析比較10種植物PSY基因密碼子使用特性的參數(shù),統(tǒng)計(jì)同義密碼子第3位上的各個(gè)堿基含量(A3s、C3s、G3s和U3s)、密碼子整體GC含量、編碼同一氨基酸同義密碼子第3位上的GC含量(GC3s),用于衡量堿基組成偏好程度。同時(shí)運(yùn)用EMBOSS(http://vmbio-info.toulouse.inra.fr/emboss)中的CUSP和CHIP在線程序計(jì)算10種植物PSY基因的有效密碼子數(shù)(effective number of codon,ENC)用于評(píng)價(jià)基因整體密碼子使用偏好性的程度。FOP值用于衡量最優(yōu)密碼子在同義密碼子中的使用頻率,其值在0.360~1.000,F(xiàn)OP值越大密碼子使用頻率越強(qiáng)[22]。密碼子適應(yīng)指數(shù)(CAI)用于估計(jì)高表達(dá)基因中首選密碼子的傾向程度。CAI 值介于 0 和 1.0 之間,密碼子的CAI值越接近于1表示某基因中該密碼子使用偏好性越強(qiáng),表達(dá)水平較高[23]。
通過計(jì)算59 個(gè)同義密碼子的相對(duì)使用度(不包括 Met、Trp 和 3 個(gè)終止密碼子),來衡量10種植物PSY密碼子使用偏好性。RSCU 值小于 1.0時(shí)表示該密碼子使用頻率低;等于1.0時(shí)表示該密碼子使用無差別;大于 1.0時(shí)表示對(duì)該密碼子具有強(qiáng)的使用性[24]。
ENC用于測量密碼子偏倚于單個(gè)基因的程度。ENC的值從20(對(duì)于具有極端偏差的基因,僅使用一個(gè)每個(gè)氨基酸的密碼子)至61(對(duì)于沒有使用同義密碼子的偏差的基因)。ENC繪圖分析揭示ENC值和GC3s分布的關(guān)系,反映堿基組成對(duì)密碼子偏好性的影響程度。
基于PSY基因密碼子第3 位上的4 種堿基含量,以A3/(A3+T3)值為縱坐標(biāo),G3/(G3+C3)值為橫坐標(biāo)繪圖,以坐標(biāo)(0.5,0.5)為中心,從該中心出發(fā)的矢量表示了奇偶偏好(parity rule 2, PR2)的程度和方向。利用 DNAMAN 8軟件對(duì)PSY基因的 CDS 序列進(jìn)行保守性分析。
密碼子參數(shù)的相關(guān)性系數(shù)采用SPSS 18.0軟件分析,使用MEGA 5.0軟件根據(jù)10個(gè)物種的CDS序列構(gòu)建遺傳進(jìn)化樹。使用TBtools對(duì)10種植物密碼子的RSCU值進(jìn)行物種間聚類。CaPSY基因的密碼子頻率是使用CUSP程序計(jì)算(http://mobyle.pasteur.fr/cgibin/portal.py?#forms::cusp)。擬南芥、釀酒酵母、煙草、大腸桿菌和玉米基因組的頻率從密碼子使用數(shù)據(jù)庫(http://www.kazusa.or.jp/codon/) 獲得。
表2列出了10種植物的PSY基因編碼區(qū)核苷酸序列中A3s、C3s、U3s、G3s、GC和GC3s的含量。GC含量為0.419~0.452。與A3s、U3s、C3s和G3s的值相比,10種植物對(duì)于PSY密碼子使用優(yōu)先選擇A和U末端密碼子。這表明U末端或A末端同義密碼子優(yōu)先用于PSY編碼區(qū)。GC3s含量為0.342~0.409,F(xiàn)OP含量為 0.312~0.424。其中擬南芥、胡蘿卜和番木瓜的FOP值偏離0.360程度高,表明這3種植物對(duì)PSY基因密碼子的使用偏好性更強(qiáng)。CAI 值為0.145~0.184,其中擬南芥CAI與FOP的預(yù)測值為0.184與0.424,表明擬南芥對(duì)PSY基因密碼子的使用偏好性強(qiáng)于其他9種植物。
表2 10種植物中PSY基因密碼子使用參數(shù)Table 2 Codon usage parameters of PSY gene in ten plant species
圖1-a顯示10種植物中PSY基因的ENC與GC3s的分布圖。通過計(jì)算 ENC 值與 GC3s 兩個(gè)參數(shù)之間的相關(guān)性,可以檢驗(yàn)突變壓力對(duì)PSY基因密碼子偏好性的影響程度。PSY基因序列的ENC值從46.93波動(dòng)到52.57,平均值為 50.43。從ENC對(duì)GC3s的分布圖中可以看出10個(gè)物種中的PSY基因均低于該曲線,但PSY基因分布范圍不大,表明PSY基因密碼子偏好性現(xiàn)象不僅僅受突變壓力的影響,且10種植物PSY基因受突變壓力影響程度相近。奇偶性結(jié)果顯示(圖1-b),AtPSY、FaPSY、CmPSY、DcPSY、ClPSY、CkPSY位于y軸0.5以上,矢量向上及左側(cè)(大多數(shù)偏左),2個(gè)方向偏倚,說明這6種植物基因密碼子第3位A和T的含量較高,LcPSY、CaPSY、NtPSY、SIPSY的G3/G3+C3位于x軸0.5右側(cè),說明該基因密碼子第3位堿基G的使用頻率大于C堿基。若PSY基因密碼子的偏好性的形成完全受突變壓力影響,則嘌呤堿基的使用頻率與嘧啶堿基的使用頻率應(yīng)該相等,即 A 堿基與 T 堿基,G 堿基與 C 堿基的使用頻率相等。這說明突變壓力與自然選擇都會(huì)影響這10種植物PSY基因的密碼子偏好性。
為了研究PSY基因的密碼子使用模式,理解10種植物PSY基因的密碼子偏好性使用差異,使用TBtools構(gòu)建了不同物種PSY基因RSCU的層次聚類分析(圖2)。結(jié)果表明,有幾個(gè)同義密碼子在物種間保持密碼子使用的顯著差異。不同物種中對(duì)于UUG、AGA、AGG、GGA、GAU、ACA、GUU、CCU、GCU、UCU、UCA的偏好性超過其他密碼子。
基于PSY基因的RSCU值的聚類樹(圖3)。顯示出基于PSY基因CDS區(qū)序列而構(gòu)建的系統(tǒng)發(fā)育樹不相同的結(jié)果(圖4),例如,DcPSY與FaPSY在系統(tǒng)發(fā)育樹中位于同一族,而在聚類數(shù)中,CkPSY與FaPSY在一個(gè)組中。表明 10種植物PSY基因密碼子使用模式存在一定差異。利用 DNAMAN軟件對(duì)10種植物PSY基因的CDS區(qū)進(jìn)行多序列比對(duì)來分析其序列保守性(圖5),在902~1 010 bp 發(fā)現(xiàn)1個(gè)具有較多堿基的序列保守區(qū)(圖 5紅方框內(nèi)序列),利用此位置的序列設(shè)計(jì)引物,有利于準(zhǔn)確的克隆PSY基因。
圖1 10種植物的PSY基因的同義第3密碼子位置(GC3s)與有效密碼子數(shù)(ENC)含量的分布及奇偶性分析Fig.1 Distribution of effective number of codons (ENC) and GC content at third synonymous codon position (GC3s) and parity analysis of PSY genes for the plant species
組織圖上的每個(gè)長方形表示對(duì)應(yīng)于物種的密碼子(以列顯示)的RSCU值(以行顯示) Each square on self-organizing map represents the RSCU value of a codon (shown in columns) corresponding to the species (shown in rows) ;顏色編碼從藍(lán)色到紅色不等,RSCU的值分別從0到3.45 Colorcoding varies from blue to red,with low to high values of the RSCU,respectively
圖2PSY基因的同義密碼子相對(duì)使用度(RSCU)的分層聚類分析
Fig.2 Hierarchal cluster analysis of relative synonymous codon usage (RSCU) for thePSYgenes
標(biāo)尺代表歐氏距離系數(shù) Ruler represents the coefficient of Euclidean distance
圖4 由PSY基因編碼的CDS序列的系統(tǒng)發(fā)育樹Fig.4 Phylogenetic trees of protein sequences encoded by PSY genes
圖5 10種植物的PSY基因編碼區(qū)序列的聯(lián)配( 部分展示)Fig.5 PSY gene coding region sequences of ten plant species(partial display)
為了選擇PSY基因的合適表達(dá)宿主,以辣椒PSY基因密碼子為代表,計(jì)算密碼子使用頻率與多個(gè)物種基因組之間的關(guān)系(表3)。結(jié)果表明,辣椒PSY基因在大腸桿菌(Escherichiacoli)和釀酒酵母(Saccharomycescerevisiae)中的使用頻率高于其他物種,表明大腸桿菌和釀酒酵母是最合適PSY基因的宿主。
研究發(fā)現(xiàn)有許多因素影響植物對(duì)PSY基因密碼子的偏好性使用,可能涉及的有基因表達(dá)水平、自然選擇、基因長度或GC的組成成分等[25-26]。本研究通過分析10種植物對(duì)PSY基因的密碼子使用,發(fā)現(xiàn)10種植物對(duì)于PSY基因密碼子優(yōu)先選擇含有A和U末端密碼子。定向突變壓力和自然選擇是決定密碼子偏好性的兩個(gè)主要因素[27]。密碼子適應(yīng)指數(shù)(CAI)用于估計(jì)高表達(dá)基因中首選密碼子的傾向程度。CAI 值介于 0 和 1.0 之間,較高的值可能表示密碼子使用偏好性更強(qiáng),表達(dá)水平更高。本研究中發(fā)現(xiàn)擬南芥的CAI值比其他植物更高,預(yù)測擬南芥對(duì)PSY基因密碼子的使用偏好性更強(qiáng),但通過對(duì)10種植物PSY基因RSCU值分析,當(dāng)以RSCU值>1.6為標(biāo)準(zhǔn)時(shí),發(fā)現(xiàn)煙草對(duì)PSY基因密碼子的使用偏好性強(qiáng)于擬南芥。前人研究發(fā)現(xiàn),在高表達(dá)基因中,密碼子適應(yīng)指數(shù)與密碼子使用偏好性具有密切聯(lián)系,而在低表達(dá)基因中,突變決定密碼子使用的偏好性[28-30]。研究發(fā)現(xiàn)所有PSY基因都具有低表達(dá)水平,表明植物對(duì)PSY基因密碼子的使用偏好性可能與突變有關(guān)[31]。
ENC與GC3s的繪圖分析已被廣泛用于研究各種物種間基因的密碼子使用[32-35]。本研究發(fā)現(xiàn)10種植物中的PSY基因ENC值均低于標(biāo)準(zhǔn)曲線,但PSY基因分布范圍不大,表明PSY基因密碼子偏好性現(xiàn)象不僅僅受突變壓力的影響。奇偶性結(jié)果顯示,大部分點(diǎn)位于y軸0.5以上,矢量向上及左側(cè)(大多數(shù)偏左)兩個(gè)方向偏倚,結(jié)果顯示10種植物基因密碼子第3位A和T的含量較高,表明密碼子使用偏性現(xiàn)象不僅僅由突變壓力引起,還受其他因素的影響?;赑SY基因密碼子的RSCU值的聚類樹PSY基因的CDS區(qū)序列而構(gòu)建的系統(tǒng)發(fā)育樹不相同的結(jié)果,表明 10種植物PSY基因密碼子使用偏好性存在一定的差異。利用 DNAMAN軟件對(duì) 10種植物的PSY基因的 CDS 進(jìn)行了序列聯(lián)配,在 902~ 1 010 bp處發(fā)現(xiàn)1個(gè)具有較多堿基的序列保守區(qū),利用此位置的序列設(shè)計(jì)引物,有利于準(zhǔn)確的克隆PSY基因。
表3 辣椒PSY基因密碼子使用頻率與多個(gè)物種基因組之間的關(guān)系Table 3 Relationship between codon usage frequency of pepper PSY gene and genome of multiple species
基因的表達(dá)效率與受體系統(tǒng)密碼子使用偏好性息息相關(guān)。根據(jù)受體生物密碼子使用偏好性,對(duì)目標(biāo)基因進(jìn)行序列改造和修飾,是提高表達(dá)效率的有效途徑之一[36]。辣椒(CapsicumannuumL.) 是一種重要的蔬菜作物, 在世界各地廣泛栽培,同時(shí)辣椒中含有豐富的類胡蘿卜素[20]。類胡蘿卜素含量和成分的不同影響果實(shí)的品質(zhì)進(jìn)而影響商品價(jià)值;類胡蘿卜素作為抗氧化劑,對(duì)人類癌癥和心血管疾病預(yù)防能起到一定作用。PSY基因作為類胡蘿卜素合成的關(guān)鍵酶基因,了解辣椒PSY基因密碼子的使用偏好性并選擇合適的表達(dá)宿主顯得尤為重要,本研究以辣椒為例,計(jì)算密碼子使用頻率與多個(gè)物種基因組之間的關(guān)系。結(jié)果表明,辣椒PSY基因在大腸桿菌(E.coli)和釀酒酵母(S.cerevisiae)中的使用頻率高于其他物種,表明大腸桿菌和釀酒酵母是最合適PSY基因的宿主。