李慧娟 潘思皓 杜函圳
摘要:為了解川芎(Ligusticum chuanxiong Hort.)阿魏酸生物合成相關(guān)基因的密碼子使用偏好性特點(diǎn),為運(yùn)用基因工程技術(shù)實(shí)現(xiàn)阿魏酸的異源生物合成提供理論依據(jù),對(duì)川芎轉(zhuǎn)錄組中共50 108條Unigenes使用CodonW、Cusp和Chips進(jìn)行在線分析。結(jié)果表明,總GC含量為41.4%,有效密碼子占總數(shù)的16.17%,最優(yōu)密碼子偏好以A/U結(jié)尾,表明川芎轉(zhuǎn)錄組Unigenes密碼子偏好程度整體水平不高。比較分析了川芎轉(zhuǎn)錄組中阿魏酸生物合成相關(guān)基因(PAL、C4H、C3H與COMT)與不同模式生物的稀有密碼子,表明與大腸桿菌基因組密碼子使用頻率差值較大的有4個(gè),與酵母、煙草和擬南芥基因組差值較大的均有3個(gè),這預(yù)示著川芎阿魏酸生物合成相關(guān)基因在酵母、煙草和擬南芥中的表達(dá)效率較高。
關(guān)鍵詞:川芎(Ligusticum chuanxiong Hort.);阿魏酸;生物合成相關(guān)基因;密碼子偏好性分析
中圖分類號(hào):S567.23+9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2017)18-3549-05
DOI:10.14088/j.cnki.issn0439-8114.2017.18.040
Abstract: In order to understand the codon usage preference of genes involved in the biosynthesis of ferulic acid in Ligusticum chuanxiong Hort.,and thereby providing a theoretical basis for the application of genetic engineering technology to achieve heterologous biosynthesis of ferulic acid,50 108 unigenes of L. chuanxiong transcriptome were analyzed on-line using CodonW,Cusp and Chips at first. As a result,the total GC content was 41.4%,valid codons was 16.17% and the optimal codon preferred A/U as end. Furthermore,the rare codons of PAL,C4H,C3H and COMT were compared with those of candidate expressed hosts,including E. coli,yeast,tobacco and Arabidopsis thaliana. As a result,4 codons were found between E. coli and L. chuanxiong,and 3 codons were found among yeast,tobacco and Arabidopsis thaliana. It suggests high expressional ratio of PAL,C4H,C3H and COMT might take place in yeast,tobacco and Arabidopsis thaliana.
Key words: Ligusticum chuanxiong Hort.; ferulic acid; genes involved in biosynthesis; codon preference analysis
川芎為傘形科植物川芎(Ligusticum chuanxiong Hort.)的干燥根莖,為“血中之氣藥”,有活血行氣、祛風(fēng)止痛之功效[1]。根據(jù)《中國(guó)藥典》規(guī)定,阿魏酸是川芎的主要指標(biāo)成分,具有獨(dú)特的藥理作用和生物活性,且毒性較低,因而在醫(yī)藥、保健品、化妝品原料和食品添加劑等領(lǐng)域有極其廣泛的應(yīng)用前景[1]。目前,阿魏酸可通過(guò)提取、化學(xué)合成、水解及微生物培養(yǎng)等4種方法獲得。提取法與化學(xué)合成法均需使用大量的化學(xué)溶劑,易污染環(huán)境;水解法需要首先提取獲得阿魏酸酯,再利用水解制備阿魏酸,也會(huì)使用大量的化學(xué)溶劑,易造成環(huán)境污染;微生物培養(yǎng)法由于阿魏酸含量很低因而分離純化成本高[2]。
植物體內(nèi)阿魏酸的生物合成以苯丙氨酸為原料,經(jīng)過(guò)苯丙氨酸解氨酶(PAL)、肉桂酸-4-羥基化酶(C4H)、香豆酸-3-O-羥基化酶(C3H)與咖啡酸-3-O-甲基轉(zhuǎn)移酶(COMT)的有序催化,最后生成阿魏酸(Ferulic acid)(圖1)。
在通過(guò)基因工程生產(chǎn)阿魏酸的研究過(guò)程中,密碼子使用偏好性對(duì)于基因異源表達(dá)效率具有至關(guān)重要的作用。密碼子是遺傳信息從堿基序列到氨基酸序列傳遞的基本單位。在蛋白質(zhì)合成過(guò)程中同義密碼子并不被隨機(jī)使用,某一物種或某一基因往往傾向于使用一種或幾種特定的同義密碼子,這種現(xiàn)象被稱為密碼子使用偏好性(Codon usage bias)。密碼子使用偏好性是生物在長(zhǎng)期進(jìn)化過(guò)程中形成的,具有種族特異性,該現(xiàn)象常導(dǎo)致外源基因在宿主中的表達(dá)降低,因此在研究基因異源表達(dá)的時(shí)候,密碼子偏好性研究具有重要作用,使用密碼子的偏好性可利于選擇合適的宿主表達(dá)系統(tǒng),或者通過(guò)改造密碼子來(lái)提高外源基因的表達(dá)。在前期研究中,本實(shí)驗(yàn)室已獲得了川芎根莖的轉(zhuǎn)錄組數(shù)據(jù),共50 108條Unigenes。本研究首先對(duì)川芎轉(zhuǎn)錄組中共50 108條Unigenes使用CodonW、Cusp和Chips進(jìn)行在線分析,獲得其總GC含量、有效密碼子及最優(yōu)密碼子等信息。比較分析川芎阿魏酸生物合成相關(guān)基因(PAL、C4H、C3H與COMT)與不同候選宿主(大腸桿菌、酵母、煙草和擬南芥)的稀有密碼子比例,篩先最適宿主,為利用基因工程方法生產(chǎn)阿魏酸奠定理論基礎(chǔ)。endprint
1 材料與方法
研究所采用的COMT基因轉(zhuǎn)錄組50 108條全長(zhǎng)轉(zhuǎn)錄序列為前期所獲川芎根莖轉(zhuǎn)錄組數(shù)據(jù),該轉(zhuǎn)錄組原始Reads序列已提交NCBI,登錄號(hào)SRP043485。大腸桿菌、酵母、煙草和擬南芥基因組的密碼子偏好性數(shù)據(jù)來(lái)自于Codon Usage Databas(http://www.kazusa.or.jp/codon/)。利用CodonW軟件(http://codonw.sourceforge.net/)計(jì)算有效密碼子數(shù)(Effective number of codons,ENC)、計(jì)算CDS區(qū)的GC含量、密碼子中第3位堿基的GC含量(GC3s)和相對(duì)同義密碼子使用概率(Relative synonymous codon usage,RSCU),利用EMBOSS中的CUSP(Create a codon usage table)和CHIPS(Codon heterozygosity in a protein coding sequence)計(jì)算密碼子使用概率。
1.1 密碼子使用偏好性分析
使用CodonW軟件對(duì)川芎密碼子組成進(jìn)行分析[3-5],然后對(duì)所得結(jié)果進(jìn)行統(tǒng)計(jì)分析。計(jì)算分析指標(biāo)為樣本總GC含量、樣本密碼子第3位核苷酸的GC含量(GC3)、有效密碼子數(shù)(Effective number of codons,ENC)、同義密碼子相對(duì)使用頻率(Relative synonymous codon usage,RSCU)。有效密碼子數(shù)指密碼子使用偏離隨機(jī)選擇的程度,用于反映同義密碼子非均衡使用的偏好程度;同義密碼子相對(duì)使用頻率指對(duì)于某一特定的密碼子在編碼對(duì)應(yīng)氨基酸的同義密碼子間的相對(duì)概率。
1.2 最優(yōu)密碼子分析
通過(guò)Jiang[6]的方法來(lái)計(jì)算川芎的最優(yōu)密碼子含量。選取從小到大排序的ENC數(shù)據(jù)的上限區(qū)域10%和下限區(qū)域10%的基因編碼區(qū)序列為子數(shù)據(jù)集,分別對(duì)其RSCU進(jìn)行計(jì)算和比較,如果兩者差異大于0.3,且RSCU在高表達(dá)基因子集中大于1.0,在低表達(dá)基因子集中小于1.0,則該密碼子為最優(yōu)密碼子[7]。
2 結(jié)果與分析
2.1 GC含量分析
使用CodonW對(duì)已經(jīng)獲得的川芎轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行密碼子使用偏好性分析,分析結(jié)果表明,川芎中所有Unigenes的平均總GC量為41.4%,總GC含量分布范圍為13.3%~80.6%。密碼子第3位核苷酸的平均GC含量(GC3)為37.43%,平均GC3含量分布范圍為0~100%。以上分析表明,川芎密碼子第3位核苷酸無(wú)明顯偏好性,但不同基因間GC3含量分布范圍較總GC含量分布范圍大。
2.2 有效密碼子數(shù)分析
有效密碼子數(shù)ENC用于定量分析基因的密碼子使用偏好性,其值范圍一般在20~61之間,其值越小,其偏好性程度越大。該值是描述密碼子使用偏離隨機(jī)選擇的程度,并不是某個(gè)特殊密碼子的使用頻率與其他密碼子的比較,能反映密碼子中同義密碼子非均衡使用的偏好程度。川芎基因ENC的分布范圍為20~61,平均ENC為46.09。根據(jù)Wright[5]和Sharp等[8]的方法將ENC為35作為區(qū)分偏好性強(qiáng)弱的標(biāo)準(zhǔn),川芎基因中ENC<35的有7 742條,占總數(shù)的16.17%,ENC>35的有40 145條,占總數(shù)的83.83%。說(shuō)明川芎基因密碼子偏好程度不高,但不同基因間密碼子使用偏好性仍然存在差異。
2.3 密碼子使用頻率分析及最優(yōu)密碼子分析
同義密碼子相對(duì)使用頻率RSCU,是衡量密碼子使用偏好性的另一個(gè)指標(biāo),如果密碼子的使用沒(méi)有偏好性,則該密碼子的RSCU=1,當(dāng)某一密碼子的RSCU>1時(shí),代表該密碼子為使用相對(duì)較多的密碼子,反之亦然。通過(guò)對(duì)高ENC值和低ENC值的基因子集的比較和統(tǒng)計(jì)分析,計(jì)算川芎轉(zhuǎn)錄組樣本的最優(yōu)密碼子,確定6個(gè)密碼子為川芎的最優(yōu)密碼子UUU、UUC、UUA、CCU、AGU與AGA,分別編碼Phe、Leu、Pro、Ser與Arg等5種氨基酸,其中編碼Phe的密碼子有兩個(gè)(UUU與UUC),6個(gè)最優(yōu)密碼子中,除UUC外,其余密碼子都以A/U結(jié)尾(表1)。說(shuō)明川芎最優(yōu)密碼子偏好以A/U結(jié)尾的密碼子。
2.4 基因表達(dá)的稀有密碼子分析
根據(jù)Codon Usage Database數(shù)據(jù),B型大腸桿菌中最稀有的6個(gè)密碼子分別為UGA、UAA、AGG、CCC、CGA與AGA。酵母中最稀有的6個(gè)密碼子分別為UAG、UGA、UAA、CGG、CGC與CGA。煙草中最稀有的6個(gè)密碼子為UAG、UGA、UAA、CGG、CGC與ACG。而擬南芥中最稀有的6個(gè)密碼子為UAG、UAA、UGA、CGC、CGG與CCC。
根據(jù)CodonW分析結(jié)果,川芎50 108條Unigenes中有24個(gè)偏好性較強(qiáng)的密碼子,包括UUU、UCU、UAU、UGU、UCA、UUG、CUU、CCU、CAU、CCA、CAA、AUU、ACU、AAU、AGU、ACA、AAA、AGA、GUU、GCU、
GAU、GGU、GCA與GAA。經(jīng)過(guò)對(duì)比發(fā)現(xiàn),大腸桿菌中有一個(gè)稀有密碼子(AGA)是川芎偏好使用的密碼子,如果需要克隆表達(dá)的川芎基因含有較多的AGA密碼子,則該基因可能會(huì)在大腸桿菌中表達(dá)困難。而酵母、煙草與擬南芥均不含有川芎偏好使用的密碼子。因此,與酵母、煙草、擬南芥相比,大腸桿菌的密碼子使用偏好性與川芎的略有差異,但差別不大。
經(jīng)過(guò)對(duì)川芎轉(zhuǎn)錄組數(shù)據(jù)的功能注釋,從中發(fā)現(xiàn)16條與阿魏酸生物合成相關(guān)的Unigenes,包括5條PAL、1條C4H、2條C3H與8條COMT(表2)。計(jì)算這16條Unigenes與4種不同宿主的稀有密碼子比例,結(jié)果發(fā)現(xiàn)大腸桿菌分值最高,表明大腸桿菌中含有最多的稀有密碼子(圖2)。如果選擇大腸桿菌為宿主,C54052的稀有密碼子數(shù)目最多,為50;C57565次之,為27。如果以酵母為宿主,C54052的稀有密碼子數(shù)目同樣最多,為15;C57565次之,為5。如果以煙草與擬南芥為宿主,C54052含有的稀有密碼子最多,分別為11與15;C55080次之,分別為6與6(表3)。這個(gè)分析結(jié)果與前面的轉(zhuǎn)錄組總體分析結(jié)果吻合,即大腸桿菌是表達(dá)最困難的宿主,而酵母、煙草與擬南芥的表達(dá)難度相對(duì)較低。endprint
當(dāng)宿主中稀有密碼子比例偏高,在對(duì)某個(gè)具體基因表達(dá)時(shí),可以根據(jù)密碼子偏性部分改造密碼子,來(lái)適應(yīng)大腸桿菌或酵母、煙草或擬南芥的密碼子使用偏好性,來(lái)提高表達(dá)效率。為了提升在異源體系中目的基因的表達(dá)量,可對(duì)目的基因的密碼子進(jìn)行優(yōu)化改造,將異源體系中稀有密碼子替換為優(yōu)勢(shì)密碼子。大腸桿菌稀有密碼子為編碼TER的UGA、UAA,編碼Met的AGG,編碼Arg的CCC、AGA,編碼Gln的CGA。酵母的稀有密碼子為編碼TER的UAG、UGA、UAA,編碼Arg的CGG、CGC、CGA,在不改變氨基酸序列的前提下,可將其修飾為更加優(yōu)勢(shì)的密碼子AGA(Arg)。煙草的稀有密碼子為編碼TER的UAG、UGA、UAA,編碼Arg的CGG、CGC,編碼Thr的ACG,其中可替換為更優(yōu)勢(shì)的密碼子AGA(Arg)。擬南芥的稀有密碼子為編碼TER的UAG、UGA、UAA,編碼Arg的CGC、CGG,編碼Pro的CCC,其中可修飾為更優(yōu)勢(shì)的密碼子AGA(Arg)、CCU(Pro)。
3 小結(jié)與討論
密碼子使用偏好性是在生命體翻譯過(guò)程中廣泛存在的自然現(xiàn)象,導(dǎo)致這種現(xiàn)象的原因是物種在漫長(zhǎng)進(jìn)化過(guò)程中突變、選擇的綜合結(jié)果。已有研究表明,密碼子使用偏好性與基因的表達(dá)水平相關(guān),高表達(dá)基因傾向使用最優(yōu)密碼子,從而可以保證其翻譯的效率和準(zhǔn)確率。為了在異源體系中,更好地提高目的基因的表達(dá)量,可對(duì)目的基因的密碼子進(jìn)行優(yōu)化改造,將異源體系中稀有密碼子替換為優(yōu)勢(shì)密碼子。
酵母常作為真核表達(dá)系統(tǒng),而原核表達(dá)系統(tǒng)常常為大腸桿菌。在確定了宿主表達(dá)系統(tǒng)的前提下,要實(shí)現(xiàn)目的基因的高效表達(dá),對(duì)目的基因密碼子進(jìn)行優(yōu)化是行之有效的方法。比如,構(gòu)建產(chǎn)咖啡酸基因工程菌時(shí),對(duì)所涉及的酪氨酸脫氨酸(TAL),C3H與CYP199A2基因均開(kāi)展了密碼子偏好性分析與優(yōu)化,使其能夠適應(yīng)在大腸桿菌中表達(dá)。
通過(guò)對(duì)川芎轉(zhuǎn)錄組密碼子的偏好性分析,可以發(fā)現(xiàn)川芎轉(zhuǎn)錄組密碼子對(duì)以A或T結(jié)尾的密碼子有明顯的使用偏好性。大腸桿菌是表達(dá)最困難的宿主,這與它們來(lái)源于真核生物有著密切的聯(lián)系。本研究發(fā)現(xiàn)對(duì)于川芎阿魏酸生物合成相關(guān)基因來(lái)說(shuō),其密碼子偏好性同酵母基因組較為接近。這就表明相較于大腸桿菌,酵母更加適合作為川芎基因的表達(dá)系統(tǒng)。但決明基因密碼子與酵母基因組密碼子的使用頻率仍存在差異(如C54052),若要使川芎基因能夠在酵母表達(dá)系統(tǒng)中高效表達(dá),需要對(duì)其密碼子進(jìn)行優(yōu)化。
已成功克隆了2條川芎COMT基因(C41658與C55080,登錄號(hào)分別為Q6T1F5和KU942388),其中C41658在大腸桿菌中獲得了成功表達(dá),并完成了功能鑒定;而C55080在大腸桿菌中未獲得表達(dá)。比較兩者的稀有密碼子數(shù)目(以大腸桿菌為宿主),發(fā)現(xiàn)C41658稀有密碼子數(shù)目較少,只有4個(gè),而C55080稀有密碼子數(shù)目較多,有7個(gè),這表明密碼子偏好性分析結(jié)果與具體的試驗(yàn)驗(yàn)證結(jié)果高度吻合,可信度較高,能夠用于指導(dǎo)相關(guān)基因的異源表達(dá)。
參考文獻(xiàn):
[1] 周禎祥,唐德才.中藥學(xué)[M].新世紀(jì)第二版.北京:中國(guó)中醫(yī)藥出版社,2007
[2] QUAX T F,CLAASSENS N J,S?魻LL D,et al. Codon bias as a means to finetune gene expression[J].Molecular Cell,2015,59(2):149-161.
[3] ACOSTA-RIVERO N,S?魣NCHEZ J C,MORALES J. Improvement of human interferon HU IFNα2 and HCV core protein expression levels in Escherichia coli but not of HU IFNα8 by using the tRNA(AGA/AGG)[J].Biochem Biophys Res Commun,2002,296(5):1303-1309.
[4] DURET L,MOUCHIROUD D. Expression pattern and,surprisingly,gene length shape codon usage in Caenorhabditis,Drosophila and Arabidopsis[J].Proc Natl Acad Sci,1999,96(8):4482.
[5] WRIGHT F. The deffective number of codons T used in a gene[J].Gene,1990,87(1):23-29.
[6] JIANG Y,DENG F,WANG H L,et al. An extensive analysis on the global codon usage pattern of baculoviruses[J].Arch Virol,2008,153(12):2273-2282.
[7] 李 瀅,匡雪君,孫 超,等.川貝母轉(zhuǎn)錄組密碼子使用偏好性分析[J].中國(guó)中藥雜志,2016,41(11):2055-2060.
[8] SHARP P M,LI W H. An evolutionary perspective on synonymous codon usage in unicellular organisms[J].J Mol Evol,1986, 24(1-2):28-38.endprint