屈亞亞,辛 靜,馮發(fā)玉,董章宏,瞿紹宏,王海洋,李 斌,辛培堯*
(1.西南林業(yè)大學(xué) 園林園藝學(xué)院 國家林業(yè)和草原局西南風(fēng)景園林工程技術(shù)研究中心,云南 昆明 650224;2.西南林業(yè)大學(xué) 西南山地森林資源保育與利用教育部重點(diǎn)實驗室,云南 昆明 650224;3.畢節(jié)市林業(yè)科學(xué)研究所,貴州 畢節(jié) 551700)
自然界共存在20種標(biāo)準(zhǔn)氨基酸,其中,除甲硫氨酸(AUG)和色氨酸(UGG)外,均由2~6個密碼子編碼[1],這些編碼同種氨基酸的密碼子互為同義密碼子。而密碼子使用偏性(codon usage bias,CUB)這一概念主要指對某一種或幾種特定的密碼子的使用頻率高于其他同義密碼子的統(tǒng)計結(jié)果[2]。研究結(jié)果表明,物種之間、不同器官和組織之間、甚至基因之間都存在密碼子使用偏性,這種由于密碼子偏性造成的不同會在高表達(dá)基因中被檢測到,也會對基因功能、蛋白質(zhì)表達(dá)等產(chǎn)生影響[3-5]。在蛋白質(zhì)的翻譯過程中,密碼子的末尾堿基很容易發(fā)生突變,因此在探究密碼子偏性時,常注重于密碼子末尾堿基的使用,或?qū)⑵渑c第1、第2位堿基的使用模式進(jìn)行對比分析。
不同于核遺傳方式,葉綠體基因組物質(zhì)主要源于母本細(xì)胞質(zhì),具有相對穩(wěn)定的基因組系統(tǒng)和環(huán)境,且基因組長度小、基因拷貝數(shù)多[6-7],基因組結(jié)構(gòu)相對保守,是很好的研究材料,被廣泛應(yīng)用于物種鑒定和植物系統(tǒng)發(fā)育領(lǐng)域。隨著測序技術(shù)的不斷發(fā)展,越來越多植物的葉綠體基因組數(shù)據(jù)被相繼發(fā)表,為基于植物葉綠體基因組的相關(guān)研究提供了儲備資料。關(guān)于高等植物密碼子使用偏性的研究,目前主要集中于核基因密碼子,葉綠體密碼子方面的研究仍具有很大潛力。分析葉綠體基因組密碼子的使用偏性特征及其影響因素,一方面能夠在一定程度上反映物種或基因的起源、進(jìn)化規(guī)律及突變方式,且有助于研究生物適應(yīng)外界環(huán)境的分子機(jī)制;另一方面,通過分析確定的最優(yōu)密碼子,可以為基因表達(dá)載體的設(shè)計提供參考,提高葉綠體基因組中基因的表達(dá)量[1,8-10]。
香花枇杷(Eriobotryafragrans)是薔薇科枇杷屬中一種極具藥用潛力的常綠灌木,光和能力在枇杷屬中最強(qiáng),廣泛分布于廣東、廣西、西藏及中國南部。它被報道含有次生代謝物多酚和黃酮類化合物,具有抗菌和抗氧化活性等藥性[11]。關(guān)于香花枇杷葉綠體基因組方面的研究很少,僅見Dong等[12]對香花枇杷葉綠體基因組結(jié)構(gòu)進(jìn)行了報道,并以葉綠體基因組為基礎(chǔ),確定香花枇杷在其近緣物種中的系統(tǒng)發(fā)育位置。本研究在香花枇杷葉綠體基因組測序的基礎(chǔ)上,分析其葉綠體基因組密碼子的使用特征及其形成的影響因素,為香花枇杷這一物種的深入研究與應(yīng)用奠定前期基礎(chǔ)。
香花枇杷葉綠體基因組數(shù)據(jù)來源于中國科學(xué)院西雙版納熱帶植物園綜合保護(hù)中心(Lauraceae Chloroplast Genome Database)構(gòu)建的樟科植物葉綠體基因組數(shù)據(jù)庫(https://lcgdb.wordpress.com/)登錄號為LAU10001。另外,香花枇杷材料采集于云南省勐臘縣(101.2546 E,21.9263 N,564 m)。
1.2.1 密碼子組成和偏好性分析 通過Geneious 8.1.3、BioEdit 7.0.9.0、ORFfinder(https://www.ncbi.nlm.nih.gov/orffinder)等軟件對香花枇杷葉綠體基因組進(jìn)行分析。結(jié)果顯示,香花枇杷葉綠體基因組全長159 286 bp,包含89條CDS(Coding DNA Sequence)、37個tRNA和8個核糖體rRNA[12]。為了減少分析誤差,從89條CDS中剔除了重復(fù)序列和長度<300 bp的序列,篩選出37條具有起始密碼子(ATG)和終止密碼子(TAA、TAG、TGA)的基因序列進(jìn)行后續(xù)分析。將篩選好的37條CDS整合到一個.fasta文件中,利用Codon W 1.4.2軟件和在線程序cusp(http://www.bioinformatics.nl/emboss-explorer/)對37個編碼基因序列進(jìn)行密碼子的堿基組成分析和偏好性參數(shù)分析。描述密碼子組成的指標(biāo)有:密碼子第1、第2、第3位堿基的鳥嘌呤和胞嘧啶含量(GC1、GC2、GC3)及密碼子的G、C含量(GCall),全部通過在線程序cusp分析獲得;同義密碼子中第3位堿基的G、C含量(GC3S)、密碼子適應(yīng)指數(shù)(codon adaptation index,CAI)、密碼子偏好指數(shù)(codon bias index,CBI)、最優(yōu)密碼子頻率(frequency of optimal codons,Fop),可通過軟件包Codon W 1.4.2獲得。密碼子使用偏好性的度量指標(biāo)包括有效密碼子數(shù)(effective number of codons,ENC)、同義密碼子相對使用度(relative synonymous codon usage,RSCU),可由Codon W 1.4.2軟件計算得到[1]。其中,ENC可檢測單個基因密碼子使用偏好程度,取值范圍為20~61。當(dāng)ENC=20時,表示在某一特定基因中,使用的密碼子種類為20,即每個氨基酸都只使用1個特定的密碼子,偏好性強(qiáng);當(dāng)ENC=61時,表示每個氨基酸的各個同義密碼子均衡使用,無偏性, ENC值從小到大表示偏性逐漸變?nèi)?,通常以ENC=45作為判斷偏性強(qiáng)弱的標(biāo)準(zhǔn)[13];RSCU衡量的是某個特定密碼子在其同義密碼子中的相對使用概率,它去除了由于氨基酸組成不同而引起的背景差異。無偏性時,RSCU=1;若RSCU>1代表該密碼子使用頻繁;RSCU<1代表該密碼子使用頻率較低。
1.2.2 密碼子使用偏性影響因素分析
1.2.2.1 中性繪圖分析 為了解析編碼基因密碼子3個位置堿基組成的差異,以GC3為橫坐標(biāo),GC12(GC1與GC2的均值)為縱坐標(biāo)進(jìn)行中性繪圖。中性繪圖可以清晰地展示出的相關(guān)程度,兩者之間有無相關(guān)性用以指示密碼子的使用是否具有偏性。若二者顯著相關(guān),表明密碼子各個位置的堿基變異模式相同,即密碼子使用無偏性,完全受到突變影響作用,反之則說明密碼子各個位置堿基使用模式不同,受到選擇壓力的影響更大[14]。
1.2.2.2 ENC-plot分析 以各基因GC3S和ENC分別作X和Y軸,探討兩者之間的分布關(guān)系。其中的標(biāo)準(zhǔn)曲線代表密碼子偏好性完全受突變影響時,同義密碼子第3位上的G、C含量與ENC含量之間的關(guān)系,標(biāo)準(zhǔn)曲線公式如下:
(1)
具體判斷標(biāo)準(zhǔn)為圖中散點(diǎn)與標(biāo)準(zhǔn)曲線的距離。若點(diǎn)落在標(biāo)準(zhǔn)曲線附近,表明實際ENC與期望ENC值接近,密碼子偏好性主要受突變影響作用;若點(diǎn)落在下方較遠(yuǎn)位置,說明其偏性受到其他作用的影響,比如選擇。為了更具體地顯示實際ENC值(ENCobs)和預(yù)期ENC值(ENCexp,由標(biāo)準(zhǔn)曲線公式得出)之間的差異大小,計算了ENC比值即[(ENCexp-ENCobs)/ENCexp]并統(tǒng)計了ENC比值頻數(shù),結(jié)合ENC比值頻數(shù)對差異進(jìn)行量化分析[9],可以較為準(zhǔn)確地判斷突變和選擇壓力的影響程度。
1.2.2.3 PR2- plot分析 為了避免由第3位堿基A、T、C、G之間的突變不均衡,分析時僅選擇由“>=4”種密碼子編碼的共8種氨基酸,對其密碼子上末尾堿基組成情況進(jìn)行分析[13],具體選擇的氨基酸有脯氨酸、蘇氨酸、纈氨酸、丙氨酸、甘氨酸、亮氨酸(6種中選CUA、CUU、CUG、CUC)、絲氨酸(6種中選TCA、TCC、TCG、TCT)、精氨酸(6種中選CGA、CGC、CGG、CGT)。具體方式為:分別計算每條CDS上編碼以上8種氨基酸的密碼子的A、T、C、G數(shù)目,進(jìn)一步計算出每條CDS對應(yīng)的G3/(G3+C3)值、A3/(A3+T3)值,并以此為橫、縱坐標(biāo)進(jìn)行PR2偏倚分析(PR2-bias plot analysis),圖中的中心點(diǎn)(0.5,0.5,即A=T且C=G)代表無使用偏性時的密碼子狀態(tài),表明4種堿基使用均衡,密碼子的使用完全由突變造成,其余點(diǎn)與中心點(diǎn)的矢量距離則代表其偏倚程度和方向[15]。
1.2.2.4 最優(yōu)密碼子確定 根據(jù)△RSCU法預(yù)測最優(yōu)密碼子(the mostpreferred codon),將各基因按ENC大小排序,取兩端各10%(各4條)的基因組成高(ENC值小的一端)、低表達(dá)庫(ENC值大的一端)[16],計算出△RSCU。RSCU>1的密碼子為高頻密碼子,這些密碼子在同義密碼子中被偏愛,使用頻繁;△RSCU>0.08的密碼子為高表達(dá)優(yōu)越密碼子,同時滿足2個條件的密碼子既被偏愛使用,又具有高表達(dá)性,因此被作為香花枇杷葉綠體基因組的最優(yōu)密碼子[17]。
香花枇杷37個葉綠體基因的G、C含量及ENC值見表1。GCall為39.08%,3個位置G、C含量由高到低依次為GC1(48.79%)>GC2(40.18%)>GC3(28.44%)。這表明,在香花枇杷葉綠體基因組中,A、U(T)含量相對較高,且末位堿基以A、U(T)為主;而ENC值介于32.55~52.74,平均值為47.02,ENC>45的密碼子高達(dá)29個,說明香花枇杷大部分基因編碼序列的同義密碼子的偏性較弱。
對密碼子各參數(shù)之間的相關(guān)性進(jìn)行分析(表2),繼而判斷各因子對密碼子偏好性的影響。表2顯示,GC1、GC2顯著相關(guān),但與GC3的相關(guān)性均不高,表明香花枇杷葉綠體基因組密碼子第1、第 2位堿基的使用較為相似,但與第3位不同。ENC與GC1相關(guān)性不顯著,與GC2呈現(xiàn)顯著負(fù)相關(guān),與GC3、GC3S呈現(xiàn)顯著正相關(guān),說明密碼子第2、第3位的GC含量與基因同義密碼子使用偏好性程度顯著相關(guān),進(jìn)一步說明同義密碼子使用偏好性與堿基組成有關(guān);CAI、CBI、Fop與 GCall及GC1間存在顯著正相關(guān)關(guān)系,這說明香花枇杷葉綠體基因密碼子的G、C含量與基因的表達(dá)水平、最優(yōu)密碼子使用頻率、密碼子偏愛指數(shù)之間呈顯著正相關(guān)關(guān)系,且GC1含量越大,基因表達(dá)水平、密碼子偏愛指數(shù)及最優(yōu)密碼子適應(yīng)頻率越高;ENC與CAI、CBI及Fop之間不存在顯著相關(guān)性,且相關(guān)系數(shù)也不高,側(cè)面揭示了基因的表達(dá)水平、最優(yōu)密碼子使用頻率、密碼子偏愛指數(shù)與同義密碼子偏性之間可能不存在顯著關(guān)聯(lián)。
表1 香花枇杷37個葉綠體基因的GC含量及ENC值
表2 香花枇杷葉綠體基因密碼子相關(guān)參數(shù)相關(guān)性
由中性繪圖分析可知,GC12的取值略大,介于0.335~0.54,GC3的取值范圍較小,介于0.2~0.37,各基因均落在對角線上方。GC12與GC3的相關(guān)系數(shù)r=-0.09,回歸曲線斜率為-0.127,表明二者不具有顯著的相關(guān)性(P=0.597),香花枇杷葉綠體基因組密碼子的第1、第2位與第3位上的堿基組成有差異,說明G、C含量保守性較高,密碼子第3位的G、C含量較低,選擇壓力對香花枇杷葉綠體基因組中密碼子使用的影響較大(圖1)。
ENC與GC3S關(guān)聯(lián)分析見圖2,標(biāo)準(zhǔn)曲線代表密碼子偏好性完全受突變影響時,同義密碼子第3位上的G、C含量與ENC含量之間的關(guān)系。結(jié)合ENC比值頻數(shù)分布表(表3)可知,62%(23)的ENC比值分布在-0.05~0.05,表明至少有23個位點(diǎn)落在標(biāo)準(zhǔn)曲線附近,即香花枇杷質(zhì)體基因組密碼子的偏性受突變的影響較其他影響因素大;至少4個位點(diǎn)落在標(biāo)準(zhǔn)曲線下方較遠(yuǎn)位置,提示這些序列編碼基因可能還受到弱的選擇作用。
采用PR2-plot繪圖法分析了部分氨基酸嘌呤(A、G)與嘧啶(T、C)之間的關(guān)系(圖3)。當(dāng)密碼子的使用僅受突變影響時,4種堿基使用頻率應(yīng)該一致,位點(diǎn)集中于中心。圖3顯示,多數(shù)位點(diǎn)偏離了中心點(diǎn)(0.5,0.5),落在平面圖的左下方,說明A、T及G、C的使用不均衡,且在密碼子第3位的使用頻率上,T>A,C> G,嘧啶的使用頻率高于嘌呤。由此也可推斷影響香花枇杷葉綠體密碼子的使用模式的因素除了突變外,還包括其他(比如選擇),這與中性繪圖分析的結(jié)果具有一致性,且很好地解釋了ENC-plot繪圖分析的結(jié)果。
圖1 中性繪圖分析
圖2 密碼子使用的有效密碼子數(shù)繪圖分析
表3 ENC比值頻數(shù)分布
由表4和表5可知,RSCU>1的UUU、UUA、UUG等29個高頻率密碼子中,1個以G結(jié)尾,28個以A、U 結(jié)尾;表5中△RSCU>0.08的UUU、UUG、CUU等24個高表達(dá)優(yōu)越密碼子中,以A、U結(jié)尾的密碼子有15個,以C、G結(jié)尾的密碼子有9個。結(jié)合高頻密碼子和高表達(dá)優(yōu)越密碼子,同時滿足2個條件的香花枇杷葉綠體基因組的最優(yōu)密碼子有ACA、CAA、CUU、UUU、UUG、CCA、AUU、GGU、GUU、UCU、GCA、GAA、UAU、CGU、CGA共15個,其中只有1個以G結(jié)尾,其余均以A或U結(jié)尾。
圖3 PR2-plot繪圖分析
在關(guān)于密碼子偏性的相關(guān)研究中,越來越多的研究表明,密碼子的使用差異并非由單一因素決定,而是不同物種在不同的環(huán)境中,經(jīng)過幾百萬年的繁衍,經(jīng)歷環(huán)境選擇、堿基突變、遺傳漂變等多因素疊加起作用的,此外,還可能受到基因組長度、tRNA豐度、密碼子變異偏好性、堿基組成、基因表達(dá)水平等因素的影響[18-23];本研究以GC3為主要對象進(jìn)行了中性繪圖分析、ENC-plot繪圖分析,是因為密碼子的第3位堿基的突變經(jīng)常不會引起所編碼氨基酸種類的改變,因此可能面臨較小的選擇壓力,且相關(guān)性分析表明GC3含量與密碼子使用偏性之間存在顯著相關(guān)性。
本研究結(jié)果顯示,香花枇杷葉綠體基因組同義密碼子的使用偏好以A(U)堿基結(jié)尾,這與前人的研究相符[24],如:劍麻(AgavehybridNo.11648)[25]、蝴蝶蘭(Phalaenopsisaphroditesubsp.formosana)[26]、蒺藜苜蓿(Medicagotruncatula)[27]、糜子(Panicummiliaceum)[9]、陸地棉(Gossypiumhirsutum)[13]、馬尾松(Pinusmassoniana)[10]、降香黃檀(Dalbergiaodorifera)[8]等植物,可能是由于陸地植物葉綠體基因組中富含A、T堿基,且進(jìn)化相對保守導(dǎo)致;本研究中,香花枇杷葉綠體基因組密碼子模式的形成受到選擇和突變等多因素共同影響作用,在關(guān)于陸地棉(Gossypiumhirsutum)[13]和糜子(Panicummiliaceum)[9]的相關(guān)研究中,也得出類似結(jié)論,但在關(guān)于樟(Cinnamomumcamphora)[14]、降香黃檀(Dalbergiaodorifera)[8]、馬尾松(Pinusmassoniana)[10]等植物的研究結(jié)果則表示,這些植物的葉綠體密碼子的使用更偏向于受某一種主要因素(選擇或突變)的影響,這說明不同植物種之間影響其葉綠體密碼子使用模式的主要因素存在差異,且這些影響因素發(fā)揮作用的程度也各不相同。除選擇壓力和突變之外,香花枇杷葉綠體基因組同義密碼子的使用可能還受到堿基組成的影響,這與葉友菊等[10]、Romero等[19]的研究結(jié)果具有一致性,本研究相關(guān)性分析也可以從側(cè)面證明這一點(diǎn)。相關(guān)性分析還顯示,ENC與CAI、CBI及Fop之間相關(guān)性不顯著,說明基因的表達(dá)水平與密碼子偏性之間可能不存在緊密關(guān)聯(lián),所以在確定最優(yōu)密碼子時,以ENC來衡量密碼子的高表達(dá)性可能存在局限性,在葉友菊等[10]的研究中也提出了類似看法。
表4 香花枇杷葉綠體基因組氨基酸相對同義密碼子使用度
表5 香花枇杷葉綠體基因組最優(yōu)密碼子確定
本研究最終分析確定了15個香花枇杷葉綠體基因組最優(yōu)密碼子,其中14個均以A、U堿基結(jié)尾。而在糜子(Panicummiliaceum)[9]、巨桉(Eucalyptusgrandis)[28]、美麗梧桐(Firmianapulcherrima)和云南梧桐(Firmianamajor)[29]等植物最優(yōu)密碼子的研究中,最優(yōu)密碼子幾乎都以A、U結(jié)尾,同樣可能是由于葉綠體基因組中富含A、T堿基,且葉綠體基因組密碼子在進(jìn)化關(guān)系上比較保守的緣故;最優(yōu)密碼子的確定為以后香花枇杷葉綠體基因組改造、密碼子優(yōu)化以及提高光合作用效能等相關(guān)研究提供一定的理論依據(jù)。