楊春亮,王 良,武 斌,趙 琳,張曉麗,鐘淑琦
(1.哈爾濱醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,哈爾濱 150081;2.東北農(nóng)業(yè)大學(xué)大豆研究所,哈爾濱 150030;3.黑龍江生物科技職業(yè)學(xué)院食品系,哈爾濱 150025;4.哈爾濱市農(nóng)業(yè)科學(xué)院,哈爾濱 150070)
RAV(Related to ABI3/VP1)轉(zhuǎn)錄因子首先是在擬南芥中被克隆出來的,含有AP2/ERF與B3兩種DNA結(jié)合結(jié)構(gòu)域[1]。大豆屬于光周期敏感的短日照作物,短日照促進其開花。據(jù)報道,在大豆中,雖然短日照能夠強烈誘導(dǎo)大豆葉片GmRAV基因表達,但該基因同時受多個信號調(diào)控,由日長和其他因素共同調(diào)控開花時間,過量表達該基因的煙草植株開花時間明顯延遲,說明GmRAV基因為大豆光周期抑制開花的重要抑制因子[2]。Castillejo等報道,長日照植物擬南芥AtRAV(At1g25560)(也稱為TEM1)基因抑制FT的表達從而抑制開花[3]??梢?,RAV轉(zhuǎn)錄因子為短日照和長日照植物中光周期開花途徑的關(guān)鍵抑制因子。此外,有報道RAV蛋白作為一種轉(zhuǎn)錄激活物,定位在細胞核中,能夠被病原、植物激素以及環(huán)境壓力所誘導(dǎo),誘導(dǎo)防衛(wèi)基因表達[4]。
根據(jù)中心法則,遺傳信息傳遞是由DNA到mRNA,再由mRNA到蛋白質(zhì)。遺傳信息在由mRNA到蛋白質(zhì)的傳遞過程中是以三聯(lián)體密碼子的形式傳遞。編碼天然蛋白質(zhì)20種氨基酸的密碼子共61種,每種氨基酸至少對應(yīng)1種密碼子,最多的有6種對應(yīng)的密碼子。編碼同1種氨基酸的密碼子稱為同義密碼子。在已經(jīng)研究過的物種中,基因?qū)νx密碼子的使用不是隨機的,而是優(yōu)先使用其中的一些密碼子,即存在密碼子使用偏好[5]。對不同物種的密碼子使用偏好性進行研究,發(fā)現(xiàn)不同物種的基因在密碼子使用上存在著明顯的偏好性;不同功能的基因其密碼子使用偏好性也存在較大差異。分析密碼子的偏好性對于外源基因選擇合適的宿主表達系統(tǒng),進行基因體外表達具有重要意義。如果外源基因含有大量宿主表達系統(tǒng)的稀有密碼子,尤其是這些稀有密碼子呈連續(xù)分布時,就會造成表達量降低或翻譯提前終止,阻礙基因工程和酶工程的發(fā)展[6-7]。通過密碼子偏好性分析,可選擇合適的表達系統(tǒng)或通過改造密碼子來提高外源基因的表達。本研究利用大豆GmRAV基因的cDNA序列[8],通過EMBOSS和CodonW在線程序,分析該基因的密碼子偏好性,并與擬南芥等11種植物的RAV基因密碼子偏好性進行比較,以期為該基因在作物遺傳改良中選擇合適的受體植物提供參考。
大豆GmRAV轉(zhuǎn)錄因子(GenBank登錄號DQ147914)cDNA全序列為1380 bp,ORF為1056 bp,編碼351個氨基酸,含有B3(53-108氨基酸)和AP2(172-286氨基酸)DNA結(jié)合結(jié)構(gòu)域,不含有內(nèi)含子,與大豆基因組數(shù)據(jù)庫(www.phytozome.com)中大豆Williams 82 Glyma10g34760序列完全一致,位于Gm10上,另外在大豆基因組數(shù)據(jù)庫找到另外3個拷貝Glyma01g22260、Glyma20g32730和Glyma02g-11060。東方山羊豆、水稻、高粱、鹽芥、擬南芥、玉米RAV基因的完整編碼區(qū)序列來源于GenBank,苜蓿、毛果楊、木薯、甜橙、蓖麻RAV基因的完整編碼區(qū)序列來源于Phytozome,序列登錄號見表1。
表1 RAV基因的完整編碼區(qū)序列來源Table 1 Sources of coding sequences of RAV genes
1.2.1DNAMAN軟件
利用DNAMAN軟件(http://www.ibioo.com/soft/biosoft/2011/11535.html)對大豆GmRAV序列DQ14-7914與另外3個拷貝Glyma20g32730、Glyma01g22-260、Glyma02g11060 RAV氨基酸同源性進行分析。
1.2.2 CodonW軟件
利用CodonW軟件(http://codonw.sourceforge.net/)計算有效密碼子數(shù)(Enc)、計算CDS區(qū)的GC含量、密碼子中第3位堿基的GC含量(GC3s)和相對同義密碼子使用概率RSCU(Relative synonymous codon usage)。
1.2.3 CUSP程序
利用EMBOSS中的CUSP程序(http://150.185.138.86/cgi-bin/emboss/cusp)計算密碼子使用概率。
1.2.4 基于密碼子使用偏好性的聚類分析
利用SPSS 11.5(http://www.ibioo.com/soft/netsoft/2009/7573.html)對不同物種的15條RAV基因基于密碼子使用偏好性進行聚類分析。在此過程中,將每一條基因作為一個對象,將密碼子的RSCU值作為變量。除去值始終為1的編碼Trp和Met的密碼子UGG和AUG,再除去3個不編碼氨基酸的終止密碼子,取余下的59個密碼子的值對基因的密碼子使用偏好性進行分析。
根據(jù)大豆基因組網(wǎng)站Phytozome提供的基因相關(guān)信息,使用DNAMAN軟件對其氨基酸同源性比較發(fā)現(xiàn),該大豆GmRAV序列DQ147914與另外3個拷貝高度同源,都不含有內(nèi)含子。與Glyma20g32730、Glyma01g22260和Glyma02g11060 RAV序列同源性分別為82.04%、65.90%和66%。
ENc值(Effective number of codons)為基因的密碼子偏好性程度提供了一個客觀的評判標(biāo)準(zhǔn),代表特定基因中同義密碼子非均衡使用的偏好程度。該值的范圍在20(每個氨基酸只使用一個密碼子的極端情況)到61(各個密碼子均被平均使用)之間,越靠近20偏好性越強。GC3s則表示密碼子的第3位堿基中G+C的含量在第3位堿基總量中所占的比率[9]。本研究應(yīng)用CodonW在線程序計算大豆GmRAV基因的ENc值、GC含量和GC3s值(見表2)分別為52.09、0.580和0.686,并且另外3個大豆RAV拷貝ENc值均大于50,可見ENc值偏大,表明大豆RAV基因各密碼子在編碼氨基酸時出現(xiàn)的頻率比較一致;大豆RAV基因編碼區(qū)GC含量較高,而GC3s值則更高,表明大豆偏好使用以C、G結(jié)尾的密碼子,且在整個編碼區(qū)序列中G+C含量大于A+T。
表2 12個物種RAV的Enc、GC和GC3sTable 2 ENc values and contents of GC and GC3s for RAV in 12 species
相對同義密碼子使用度(RSCU)是指對于某一特定的密碼子在編碼對應(yīng)氨基酸的同義密碼子中的相對概率。RSCU值與氨基酸的使用及密碼子的豐度無關(guān),它能直觀地反映出密碼子使用的偏好性程度[10]。如果密碼子的使用沒有偏好,則該密碼子的RSCU=1。當(dāng)某一密碼子的RSCU值大于1,則表明該密碼子的使用頻率相對較高,反之亦然。Fraction(比例)表示各個密碼子在編碼該氨基酸的密碼子中所占的比例(各個比例相加總和等于1)。Frequency(頻率)代表該密碼子在編碼基因總密碼子中出現(xiàn)的頻率,即在1000個密碼子中出現(xiàn)的次數(shù)[9]。CUSP和CodonW在線程序計算結(jié)果(見表3)表明,在大豆GmRAV基因的密碼子中,26個密碼子(不包括終止子)的RSCU值大于1,其中,24個密碼子是以C或G堿基結(jié)尾的,且Fraction值也較大,為大豆GmRAV基因的偏好密碼子。大多數(shù)A或U堿基結(jié)尾的密碼子的RSCU值和Fraction值均較低,表明這些密碼子在該基因中的使用頻率較低。
表3 CUSP和CodonW程序分析大豆GmRAV基因的密碼子偏好性Table 3 Condon bias of GmRAV gene analyzed by CUSP and CodonW program
續(xù)表
2.4.1 ENc、RSCU及GC含量分析
各物種RAV基因的ENc值、GC和GC3s含量計算結(jié)果見表2。結(jié)果顯示,大豆4個拷貝RAV基因ENc值相似,為50~52。東方山羊豆、鹽芥、擬南芥、苜蓿、毛果楊、木薯、甜橙和蓖麻在密碼子使用上與大豆相似,ENc均值>40;而單子葉植物水稻、高粱和玉米的ENc<40分別為33.17、36.45和35.20。一般來說,ENc值越小表明該基因的表達水平越高,ENc<30和ENc>55的基因可被預(yù)測為高表達和低表達基因[10]。由數(shù)據(jù)分析得出,大豆、東方山羊豆、鹽芥、擬南芥、毛果楊、甜橙6個雙子葉植物的RAV基因表達水平一般,苜蓿、木薯和蓖麻表達水平很低,而水稻、高粱和玉米這3個單子葉植物表達水平偏高。大豆等共9種雙子葉植物的GC和GC3s含量明顯低于單子葉植物水稻、高粱和玉米,表明單子葉植物比雙子葉植物對C或G的偏好性更強。
為了解這幾個物種RAV基因密碼子使用的具體情況,表4列出了59個密碼子[去除編碼蛋氨酸(M)的起始密碼子ATG、編碼色氨酸(W)的密碼子TGG以及3個終止密碼子]的相對使用度。由表4可知,大豆GmRAV有26個RSCU值均大于1的密碼
子,大豆Glyma02g11060有25個,大豆Glyma01g-22260有29個,大豆Glyma20g32730有24個,雙子葉植物擬南芥有27個,東方山羊豆有25個,鹽芥有25個,苜蓿有28個,毛果楊有28個,木薯有24,甜橙有24個,蓖麻有28個密碼子的RSCU>1。單子葉植物水稻有25個,高粱有27個,玉米有28個密碼子的RSCU>1,其中以G或C堿基結(jié)尾RSCU>1的密碼子,大豆GmRAV有24個,大豆Glyma02g11060有21個,大豆Glyma01g22260有25個,大豆Glyma20g32730有21個,雙子葉植物擬南芥有17個,鹽芥有15個,甜橙有21個,占大多數(shù)。而東方山羊豆有9個,苜蓿有12個,毛果楊有7個,木薯有12,蓖麻有7個密碼子RSCU>1,占比例較少。但單子葉植物水稻和高粱的密碼子全部以G或C堿基結(jié)尾且RSCU>1,玉米有27個密碼子的RSCU>1。
2.4.2 基于密碼子使用偏好性的系統(tǒng)聚類
親緣關(guān)系較近的物種常表現(xiàn)出相似的密碼子使用頻率[11]。因此,基于密碼子使用頻率的聚類樹狀圖常可用于推測不同物種、不同基因,以及物種和基因之間在密碼子使用方面的相似度或親緣性,也可推測不同物種之間的進化關(guān)系。為進一步了解幾個物種RAV基因密碼子使用差異的大小,根據(jù)表4中各密碼子的相對使用度(RSCU)進行聚類分析,結(jié)果見圖1。9個雙子葉植物12個RAV基因聚為一大類,3個單子葉植物聚為一大類?;诖蠖筊AV基因的相對同義密碼子使用度進行的聚類分析表明大豆GmRAV和Glyma20g32730聚為一類,Glyma01g22260和Glyma02g11060聚為一類,這與氨基酸同源性比較結(jié)果一致:GmRAV和Glyma20g32730同源性最高,而Glyma01g22260和Glyma02g11060 RAV序列同源性高。另外兩種豆科植物東方山羊豆和苜蓿聚為一小支,與豆科植物大豆距離較遠,而大豆卻與甜橙較近,這還反映在這兩者均具有較大GC3s值上。十字花科擬南芥和鹽芥聚為一小支,再與大豆和甜橙聚為一支。
表4 各物種RAV基因相對同義密碼子使用度(RSCU)Table 4 Relatively synonymous codon usage(RSCU)of RAV
續(xù)表
圖1 基于RAV基因的相對同義密碼子使用度的聚類樹狀Fig.1 Cluster analysis dendrogram of RSCU values of RAV genes
核酸是生物遺傳信息的載體,蛋白質(zhì)是發(fā)揮生物功能的主要分子,密碼子作為聯(lián)系二者的紐帶,其使用情況具有重要的生物學(xué)意義,所以密碼子偏好性現(xiàn)象在許多生物學(xué)領(lǐng)域中受到關(guān)注。不同物種或同一物種的不同基因?qū)γ艽a子的偏好性有所不同。對于密碼子具有偏好性的解釋,目前獲得較為廣泛認(rèn)可的是“突變—選擇平衡”假說(Mutation-selection balance)[12],由于選擇壓力的存在,生物體傾向于選用最優(yōu)密碼子來編碼氨基酸,但由于突變的發(fā)生,仍會有非最優(yōu)密碼子的存在,不同物種的基因組的密碼子偏好情況主要就是在這兩個力量的動態(tài)平衡中形成的。
通過分析大豆GmRAV基因的密碼子偏好性,發(fā)現(xiàn)該基因主要偏好以C或G結(jié)尾的密碼子,較少使用以A或T結(jié)尾的密碼子。已有研究表明,單子葉植物的密碼子偏好性明顯不同于雙子葉植物[13]。雙子葉植物的GC3s<50%,而單子葉植物往往具有較高的GC3s值。本研究中單子葉植物水稻、玉米和高粱RAV的GC3s>90%與該結(jié)論相一致,但雙子葉植物中大豆、擬南芥、鹽芥和甜橙GC3s>50%,其他5種雙子葉植物RAV的GC3s<50%。
要實現(xiàn)目的基因在外源表達系統(tǒng)中的成功表達和提高其表達量,可通過增加目的基因劑量,目的基因密碼子優(yōu)化,改善培養(yǎng)條件等方法實現(xiàn),其中目的基因密碼子優(yōu)化起到關(guān)鍵作用。本研究分析了該基因在大豆和其他植物中密碼子偏好性,以期為該基因在作物遺傳改良中選擇合適的受體植物提供依據(jù)?;赗AV基因的密碼子使用偏性的系統(tǒng)聚類分析表明,大豆等共9種雙子葉植物聚為一類,玉米、高粱和水稻這3種單子葉植物聚為一類,預(yù)示大豆GmRAV基因更適合導(dǎo)入雙子葉植物。
[1] Kagaya Y,Ohmiya K,Hattori T.RAV1,a novel DNA-binding protein,binds to bipartite recognition sequence through two distinct DNA-binding domains uniquely found in higher plants[J].Nucleic Acids Res,1999,27:470-478.
[2] Zhao L,Luo Q,Yang C,et al.A RAV-like transcription factor controls photosynthesis and senescence in soybean[J].Planta,2008,227:1389-1399.
[3] Castillejo C,Pelaz1 S.The balance between constans and tempranillo activities determines FT expression to trigger flower-ing[J].Current Biology,2008,18:1338-1343.
[4] Sohn K H,Lee S C,Jung H W,et al.Expression and functional roles of the pepper pathogen-induced transcription factor RAV1 in bacterial disease resistance,and drought and salt stress tolerance[J].Plant Mol Biol,2006,61:897-915.
[5] 徐利娟,鐘金城,陳智華,等.流感病毒基因的密碼子偏好性及聚類分析[J].生物信息學(xué),2010,8(2):175-180.
[6] Wu X M,Wu S F,Ren D M,et al.The analysis method and progress in study of codon bias[J].Hereditas,2007,29(4):420-426.
[7] Li J,Xue Q Z.Comparison of MADS transcriptional factor on codon bias in arabidopsis and rice[J].J Zhejiang Univ Agric&Life Sci,2005,31(5):513-517.
[8] Li P,Bai Y F,Zhang W F.Cloning and analysis of NAD-ME gene of amaranthus hypochondriacus[J].Acta Bot Bor-Occid Sin,2010,30(2):229-236.
[9] 李平,白云鳳,馮瑞云,等.籽粒莧蘋果酸酶(NAD-ME)基因密碼子偏好性分析[J].應(yīng)用與環(huán)境生物學(xué)報,2011,17(1):12-17.
[10] Sharp P M,Li W H.An evolutionary perspective on synonymous codon usage in unicellular organisms[J].J Mol Evol,1986,24(1-2):28-38.
[11] Sharp P M,Cowe E,Higgins D G,et al.Codon usage patterns in Escherichia coli,Bacillus subtilis,Saccharomyces cerevisiae,Schizosaccharomyces pombe,Drosophila melanogaster and Homo sapiens:A review of the considerable within species diversity[J].Nucl Acids Res,1988,16(17):8207-8211.
[12] Bulmer M.The selection-mutation-drift theory of synonymous codon usage[J].Genetics,1991,129:897-907.
[13] Murray E E,Lotzer J,Eberle M.Codon usage in plant genes[J].Nucl Acids Res,1989,17(2):477-498.