李江飛,王 瑜,顏廷雨,汪啟波,陳 詩(shī),蔡年輝,許玉蘭,唐紅燕
(1.西南林業(yè)大學(xué) a.云南省高校林木遺傳改良與繁育重點(diǎn)實(shí)驗(yàn)室;b.西南山地森林資源保育與利用教育部重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650224;2.普洱市林業(yè)和草原科學(xué)研究所,云南 普洱 665099)
云南油杉keteleeria evelyniana屬于松科Pinaceae油杉屬Keteleeria常綠針葉樹(shù)種,高大喬木,樹(shù)高可達(dá)40 m,分布于我國(guó)云南、貴州西部及西南部海拔700~2 600 m 的地區(qū),地處南亞熱帶至中亞熱帶邊緣,是東南亞特有的松科孑遺植物,亦是云南重要的鄉(xiāng)土樹(shù)種,其木材結(jié)構(gòu)細(xì)密,物理性質(zhì)優(yōu)越,耐水濕、抗腐性好,易加工,是良好的家具、建筑用材[1-3]。云南油杉作為西南地區(qū)風(fēng)景林樹(shù)種之一,具有良好的經(jīng)濟(jì)和生態(tài)效益[4]。
密碼子是識(shí)別和傳遞生物體遺傳信息的載體,在生物遺傳和變異中有著重要作用[5]。不同物種根據(jù)自身特有的進(jìn)化方式,偏向于使用某一特定密碼子,從而形成該物種特有的使用模式[6],密碼子的使用模式會(huì)影響特定基因的功能和表達(dá)水平等[7]。密碼子偏好性跟基因的表達(dá)和性能相關(guān)聯(lián),基因表達(dá)性越高密碼子的偏好性越強(qiáng),最優(yōu)密碼子出現(xiàn)頻率也越多,反之則表達(dá)性低,利用葉綠體基因組來(lái)完成功能基因的比較分析則成為當(dāng)前的難點(diǎn)和重點(diǎn)[8]。
葉綠體結(jié)構(gòu)的完整性是植物生長(zhǎng)的前提,葉綠體亦是光合作用進(jìn)行的場(chǎng)所,是陸地植物細(xì)胞中的重要的質(zhì)體類(lèi)型,其葉綠體細(xì)胞器中有著獨(dú)特的遺傳復(fù)制規(guī)律[9-10]。葉綠體基因組作為植物特有的遺傳系統(tǒng),可獨(dú)立對(duì)基因進(jìn)行轉(zhuǎn)錄和翻譯,有著分子量小、多拷貝、分子結(jié)構(gòu)相對(duì)較為保守、序列獲得容易、進(jìn)化速率較快等特點(diǎn),被廣泛運(yùn)用于分子進(jìn)化、植物多樣性、系統(tǒng)發(fā)育和DNA條碼開(kāi)發(fā)等領(lǐng)域[11-13]。通過(guò)對(duì)葉綠體基因組中密碼子使用模式比較基因組學(xué)進(jìn)行研究,能對(duì)選擇與目的基因契合度高的葉綠體基因進(jìn)行轉(zhuǎn)化提供幫助,從而提高轉(zhuǎn)化效率,來(lái)促進(jìn)目的基因的高效穩(wěn)定表達(dá)[14-15]、也能為揭示葉綠體分子的起源與進(jìn)化提供參考依據(jù)?,F(xiàn)已在迎春櫻桃Prunusdiscoidea[16]、蒜頭果Malania oleifera[17]、杜仲Eucommia ulmoides Oliver[18]、薔薇科Rosaceae[19]等多種植物中開(kāi)展關(guān)于葉綠體基因組密碼子偏好性的研究。目前,對(duì)云南油杉的研究主要在群落結(jié)構(gòu)特征及其多樣性分析[20]、外生菌根真菌多樣性[2]、苗木培育[21]等方面,雖有對(duì)云南油杉葉綠體基因組進(jìn)行測(cè)序、拼裝和注釋?zhuān)形窗l(fā)現(xiàn)有關(guān)云南油杉葉綠體基因組密碼子偏好性方面的研究報(bào)道。因此,本研究對(duì)云南油杉葉綠體基因組密碼子的堿基組成以及密碼子使用偏性的影響因素進(jìn)行分析,并篩選出云南油杉的最優(yōu)密碼子,旨在為云南油杉葉綠體基因組的應(yīng)用與研究提供參考依據(jù)。
從昆明西南林業(yè)大學(xué)采集新鮮健康的云南油杉嫩葉,放在液氮中帶回實(shí)驗(yàn)室,并送到浙江優(yōu)諾金生物工程有限公司進(jìn)行葉綠體基因組的測(cè)序;其結(jié)果提交至NCBI 數(shù)據(jù)庫(kù)中(GenBank 登錄號(hào)為MW043479),從中共獲得75 條CDS(coding DNA sequence,CDS)序列。為降低其誤差,將長(zhǎng)度小于300 bp、重復(fù)的并且不是以ATG 為起始,以TAA、TAG、TGA 為結(jié)尾的序列剔除,處理后留存41 條基因序列,并用于后續(xù)分析[22-23]。
1.2.1 密碼子堿基組成分析
將挑選出的41 條CDS 整合到一個(gè)fasta 文件中,利用Codon W 1.4.2(http://codonw.sourceforge.net) 計(jì)算相對(duì)同義密碼子使用度(relative synonymous codon usage,RSCU),RSCU 值能反映密碼子的偏好性程度。當(dāng)RSCU=1 時(shí),表明該密碼子沒(méi)有偏好性;當(dāng)RSCU>1 時(shí),表示其密碼子的使用頻率比其他密碼子高,偏性強(qiáng),反之亦然[24]。使用在線(xiàn)軟件CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)計(jì)算各個(gè)CDS密碼子第1 位、第2 位、第3 位堿基組成的GC 含量(分別用GC1,GC2,GC3表示)[25],以及其平均GC 含量(用GCall表示)等參數(shù)。
1.2.2 中性繪圖分析
以GC1和GC2的平均值為縱坐標(biāo)、以GC3為橫坐標(biāo)繪制的散點(diǎn)圖,剖析GC3與GC12的相關(guān)性,其中每個(gè)散點(diǎn)則代表1個(gè)基因。以此來(lái)判斷密碼子使用偏性受自然選擇及突變壓力的影響程度[19]。若GC3與GC12呈顯著相關(guān)關(guān)系,說(shuō)明堿基組成無(wú)差異,突變是其主要影響因素;反之,則說(shuō)明基因組中GC 含量有較高保守性,選擇對(duì)密碼子使用偏性有較大影響[26]。
1.2.3 ENC-plot 繪圖分析
ENC-plot 繪圖包含散點(diǎn)圖和標(biāo)準(zhǔn)曲線(xiàn),以有效密碼 子數(shù)(ENC,effective number of codon) 為縱坐標(biāo),GC3為橫坐標(biāo)進(jìn)行二維散點(diǎn)圖的繪制,ENC=2+GC3+29/(GC32+(1-GC3)2) 為標(biāo)準(zhǔn)曲線(xiàn)公式[27];散點(diǎn)圖可區(qū)分開(kāi)密碼子使用偏性和基因堿基組成之間的關(guān)系。當(dāng)散點(diǎn)靠近標(biāo)準(zhǔn)曲線(xiàn),表示堿基組成決定其密碼子偏好性,不會(huì)受到選擇影響;反之則說(shuō)明密碼子的ENC 值較低,在基因表達(dá)水平上具有顯著性,密碼子偏好性較強(qiáng)[28]。20~61 之間為ENC 的取值范圍,其值越接近20偏性越強(qiáng),當(dāng)ENC 值=61,則說(shuō)明每個(gè)密碼子都被均勻使用[29]。
1.2.4 PR2-plot 偏倚分析
對(duì)各密碼子第3 位堿基上的A、T、G、C 含量進(jìn)行分析,分別以G3/(G3+C3)、A3/(A3+T3),為橫縱坐標(biāo)進(jìn)行繪圖分析[30],平面圖中心位置表示A=T 且C=G,即說(shuō)明密碼子無(wú)偏性,其余點(diǎn)與中心點(diǎn)的矢量距離表示偏性程度和方向[31]。
1.2.5 最優(yōu)密碼子的確定
以云南油杉每個(gè)葉綠體基因的ENC 值為參考標(biāo)準(zhǔn),從兩端各選取10%的基因,建立高低表達(dá)庫(kù),將高低偏性庫(kù)間同義密碼子相對(duì)使用度的差值(ΔRSCU)≥0.08的密碼子作為高表達(dá)密碼子[25];將RSCU 值>1 的密碼子作為高頻密碼子,同時(shí)滿(mǎn)足上述兩個(gè)條件的定義為最優(yōu)密碼子[31]。
1.2.6 對(duì)應(yīng)分析
對(duì)應(yīng)分析(Correspondence analysis,COA)被廣泛應(yīng)用于研究基因間密碼子使用變化的主要趨勢(shì)[32],根據(jù)基因不同功能進(jìn)行分類(lèi),再使用Codon W 1.4.2 軟件進(jìn)行對(duì)應(yīng)分析,基于59 個(gè)有義密碼子的使用情況(不包括AUG、UGG 和3 個(gè)終止密碼子)生成正交軸,第一軸(Axis)的占比表示密碼子使用的大部分變化,隨后的58 個(gè)軸表示變化量的減少的影響因素[33]。COA 可以檢測(cè)基因之間密碼子使用的差異,識(shí)別相關(guān)的密碼子及揭示影響密碼子使用模式的主要因素。
通過(guò)在線(xiàn)軟件CUSP 和Codon W 1.4.2 軟件分析云南油杉葉綠體基因中各基因的蛋白編碼序列,由表1可知:云南油杉葉綠體基因密碼子不同位置上的GC 平均含量為40.07%,GC1、GC2、GC3的GC 含量分別是49.65%、40.66%、29.79%,表明不同密碼子位置的GC 含量有差異,其分布頻率也會(huì)不同,各位置上的GC 含量平均值由高到低依次為第1 位>第2 位>第3 位,多數(shù)密碼子中第3 位密碼子的GC 含量顯著低于前兩位密碼子,說(shuō)明云南油杉葉綠體編碼基因多為A/U(T)堿基。其ENC 均值為49.53,介于41.73~61.00 之間,41條CDS 密碼子中有35 條ENC 值>45;可推斷出其密碼子的偏性較弱。
云南油杉葉綠體基因組中密碼子參數(shù)相關(guān)性分析表明(表2),GC1、GC2與GCall在0.01 水平上達(dá)到極顯著相關(guān),GC3和GC1、GC2之間不存在相關(guān)性,表明密碼子第3 位堿基的組成存在差異性,其密碼子偏性受選擇影響較大。ENC與GC2為顯著相關(guān)(P<0.05),其相關(guān)系數(shù)為0.365,與GC1、GC3、GCall相關(guān)性不顯著,說(shuō)明GC2的堿基組成會(huì)影響密碼子的偏向性。密碼子數(shù)與GC1、GC2和GCall顯著相關(guān),說(shuō)明有效密碼子數(shù)會(huì)受到不同位置上密碼子的影響;密碼子數(shù)與ENC 之間不存在相關(guān)性,說(shuō)明基因序列長(zhǎng)度對(duì)密碼子偏好性影響較小。RSCU 分析表明(表3),有31 個(gè)密碼子RSCU>1,以A 和U 結(jié)尾的較多,其中以U 結(jié)尾的有16 個(gè),以A 結(jié)尾的為13 個(gè),有1 個(gè)以G 結(jié)尾,1 個(gè)以C 結(jié)尾,表明云南油杉葉綠體基因組傾向于以A 和U 結(jié)尾。
由中性繪圖分析(圖1)可知,0.345 0~0.522 2為GC1和GC2平均值GC12的取值范圍,0.231 3~0.409 6 為GC3的取值范圍,圖中各基因都分布在對(duì)角線(xiàn)的上方,GC12和GC3相關(guān)系數(shù)為-0.208,說(shuō)明GC12和GC3的相關(guān)性不顯著,回歸系數(shù)為-0.206,說(shuō)明云南油杉葉綠體基因組中GC12和GC3的相關(guān)性不高,其堿基組成存在差異,基因組中GC 含量較為保守,說(shuō)明云南油杉葉綠體基因密碼子偏好更多的是受自然選擇的影響。
表1 云南油杉葉綠體基因組密碼子各位置的GC 含量及ENC 值?Table 1 GC proportions and ENC values of the CDS of K.evelyniana chloroplast genome
表2 云南油杉葉綠體基因組中相關(guān)參數(shù)的相關(guān)性分析?Table 2 Correlation analysis of related parameters of K.evelyniana chloroplast genome
云南油杉葉綠體基因組密碼子的ENC-plot 分析由圖2看出,在標(biāo)準(zhǔn)曲線(xiàn)周?chē)植剂嗽颇嫌蜕嫉牟糠只?,表明云南油杉的?shí)際ENC 值與期望ENC 值接近,而大部分基因匯聚在了標(biāo)準(zhǔn)曲線(xiàn)下方,離曲線(xiàn)位置較近,表示云南油杉葉綠體基因組密碼子偏好性受突變影響較大。通過(guò)對(duì)ENC 比值進(jìn)行計(jì)算(表4),ENC頻數(shù)比值分布在-0.05~0.05間的有21 個(gè),其基因頻率占比51.2%,且與預(yù)期ENC 值較為接近,而有20 個(gè)基因則分布在這個(gè)區(qū)間以外,且離預(yù)期ENC 值較遠(yuǎn),表示離標(biāo)準(zhǔn)曲線(xiàn)較遠(yuǎn),表明云南油杉密碼子有較強(qiáng)的偏性,其偏好性主要受到突變的影響。
采用PR2-plot 軟件繪圖分析各編碼基因部分氨基酸A、G 和T、C 之間的關(guān)系,結(jié)果顯示(圖3),在4 個(gè)區(qū)域內(nèi)云南油杉葉綠體基因分布不均,且大部分基因分布在平面圖的右下方,這說(shuō)明在堿基使用頻率上,4 個(gè)堿基使用頻率存在不一致性,即T>A,G>C;說(shuō)明了在云南油杉葉綠體基因組密碼子使用模式上,其偏好性在受到選擇影響的同時(shí)亦會(huì)受到突變影響。
表3 云南油杉各氨基酸的RSCU 分析?Table 3 RSCU analysis of the amino acids of K.evelyniana
圖1 中性繪圖分析Fig.1 Neutral plotting analysis
圖2 ENC 與GC3 關(guān)聯(lián)分析Fig.2 The correlation of ENC and GC3
表4 ENC 比值頻數(shù)分布Table 4 Distribution of ENC ratios
圖3 PR2-plot 繪圖分析Fig.3 Analysis of PR2-plot
對(duì)41 條CDS 的ENC 值進(jìn)行排序,從兩端各選出10%的基因創(chuàng)建高低表達(dá)庫(kù),計(jì)算密碼子的RSCU 值、ΔRSCU 值,將同時(shí)滿(mǎn)足RSCU>1、ΔRSCU ≥0.08 兩個(gè)條件的密碼子確定為最優(yōu)密碼子,根據(jù)表3得出RSCU>1的高頻密碼子有31個(gè);從表5可以看出,ΔRSCU ≥0.08 的密碼子有27 個(gè),其中有7 個(gè)以U 結(jié)尾,有7 個(gè)以A 結(jié)尾,有8 個(gè)以C 結(jié)尾,有5 個(gè)以G 結(jié)尾;最終篩選出最優(yōu)密碼子共有15 個(gè),為UUA、CUU、AUU、GUA、UCC、ACA、GCA、UAU、CAU、CAA、GAU、UGU、UGG、AGA、GGU,其中有7 個(gè)以U 結(jié)尾,有6 個(gè)以A 結(jié)尾,以G 和C 結(jié)尾的分別各有1 個(gè)。
表5 云南油杉葉綠體基因組最優(yōu)密碼子的確定?Table 5 Preferred codons in the chloroplast genome of K.evelyniana
基于云南油杉葉綠體基因的RSCU 值對(duì)應(yīng)分析表明(圖4),第1 軸存在16.57%的差異,第2軸存在15.93%的差異,第3 軸和第4 軸基因間的差異分別為7.68%、6.06%,累計(jì)差異為46.24%,第1 軸和第2 軸的差異水平均大于10%,說(shuō)明第1軸和第2 軸均為云南油杉密碼子偏好的主要影響因素,第1 軸和第2 軸分別為選擇壓力和突變,其密碼子偏好受到選擇和突變等多種因素的共同影響;第1 軸為主向量軸,但與第2 軸變異水平無(wú)明顯差異,結(jié)果也表明該密碼子偏好影響因素不是單一的。為進(jìn)一步揭示密碼子偏好的影響因素,對(duì)4 個(gè)向量軸與ENC、GC3進(jìn)行相關(guān)性分析,相關(guān)系數(shù)為0.097、0.142,均無(wú)顯著相關(guān)關(guān)系,說(shuō)明其影響因素不只有GC3,還受到其他因素影響?;诟骰蚍诸?lèi)以第1、2 向量軸為橫縱坐標(biāo)作圖,由圖4看出,核糖體蛋白基因和光合系統(tǒng)基因集中分布于上半軸,說(shuō)明該類(lèi)基因的密碼子使用模式較為相似;遺傳系統(tǒng)基因分布較分散,說(shuō)明該類(lèi)基因的密碼子的偏好性是由多種因素決定的。
圖4 基于RSCU 的對(duì)應(yīng)性分析Fig.4 Correspondence analysis based on RSCU
同義密碼子的相應(yīng)分布顯示(圖5),以A、U 結(jié)尾的密碼子和以G、C 結(jié)尾的密碼子均沿主軸分布,A、U 結(jié)尾的密碼子集中分布于第1 軸附近,這表明,云南油杉基因之間同義密碼子使用的差異是基于基因的核苷酸含量,而以G、C 結(jié)尾的密碼子在第2 軸上較為分散,這在很大程度上與表達(dá)水平有關(guān)。說(shuō)明少數(shù)密碼子偏好除受堿基組成影響外,亦受到其他因素影響。
圖5 同義密碼子用法與云南油杉葉綠體基因組密碼子的對(duì)應(yīng)分析Fig.5 Correspondence analysis of synonymous codon usage and the codons of K.evelyniana chloroplast genome
隨著測(cè)序技術(shù)的進(jìn)步與更新,基因組數(shù)據(jù)的應(yīng)用對(duì)密碼子的偏好性能提供一定的支持,堿基組成對(duì)密碼子的使用具有重要作用,核苷酸的使用頻率也會(huì)受到自然選擇或突變的影響[22],密碼子在基因組與蛋白質(zhì)的聯(lián)系中發(fā)揮著重要作用[34],葉綠體母體遺傳信息具有獨(dú)立性,物種進(jìn)化、物種親緣關(guān)系、物種鑒定可通過(guò)葉綠體基因組來(lái)進(jìn)行,基因研究也可根據(jù)葉綠體基因工程安全、高效表達(dá)的特點(diǎn)來(lái)進(jìn)行[35],物種在漫長(zhǎng)進(jìn)化過(guò)程中形成特有的使用模式,故在不同物種間,其密碼子使用偏性存在差異性,葉綠體基因組中的密碼子偏性可揭示物種基因組的進(jìn)化關(guān)系,對(duì)研究基因進(jìn)化和功能鑒定具有重要意義[5]。由于密碼子第3 位上的堿基組成受到較小的選擇壓力,因此常用GC3來(lái)是衡量密碼子使用偏好性[36]。
本研究通過(guò)對(duì)云南油杉葉綠體基因組密碼子使用特征進(jìn)行分析,發(fā)現(xiàn)其葉綠體基因組密碼子GC1、GC2的含量高于GC3,即GC1(49.65%)>GC2(40.66%)>GC3(29.79%),由此可見(jiàn)其密碼子在3 個(gè)位置上并不是均勻分布的;在云南油杉葉綠體基因組中,GC3和GC1、GC2之間不存在相關(guān)性,表明密碼子第3 位堿基的組成存在差異性,其密碼子偏性可能受選擇影響較大。這與迎春櫻桃Prunus discoidea[16]、燈盞花Erigeron breviscapus[22]、降香黃檀Dalbergia odorifera[31]、蒜頭果Malania oleifera[17]研究結(jié)果一致,說(shuō)明在不同物種之間其密碼子使用特征具有相似性。云南油杉葉綠體基因組中大部分編碼基因的ENC 值>45;可推斷出其密碼子的偏性較弱。中性繪圖分析顯示,云南油杉密碼子GC12和GC3的相關(guān)性不顯著,基因組中GC 含量較為保守,說(shuō)明其葉綠體基因密碼子偏好更多的是受自然選擇的影響,這與巨桉Eucalyptus grandis[37]研究結(jié)果一致;通過(guò)對(duì)ENC-plot 分析顯示有21 個(gè)ENC 頻數(shù)比值分布在-0.05~0.05 間,說(shuō)明突變是影響密碼子偏好性主要原因。PR2-plot 分析結(jié)果發(fā)現(xiàn),T>A、G>C;說(shuō)明了在云南油杉葉綠體基因組密碼子使用模式上,其偏好性受到突變和選擇影響;其結(jié)果與蒜頭果Malania oleifera[17]研究結(jié)果一致;而在某些植物的葉綠體基因組堿基使用頻率上發(fā)現(xiàn)T>A,C>G;比如芒果(Mango)[27]、杧果Mangifera indica[38]、薔薇科Rosaceae[19]等植物,這與本研究結(jié)果不一致??梢?jiàn),不同植物中的葉綠體基因堿基組成存在差異,從而致使密碼子偏好性亦不相同。結(jié)合ENC-plot 和PR2-plot 分析表明云南油杉密碼子偏好性主要受到自然選擇因素的影響;其在受到自然選擇影響的同時(shí)亦會(huì)受到突變因素的影響,表明云南油杉葉綠體基因組在一定程度上較為保守。這與燈盞花Erigeron breviscapus[22]、藿香Agastache rugosa[36]等植物的研究結(jié)果一致;而對(duì)于坡壘Hopea hainanensis,青梅Vatica mangachapoi[12],乳油木Vitellaria paradoxa[39]等植物來(lái)說(shuō),影響其密碼子偏好的主要因素是堿基突變。對(duì)應(yīng)性分析也表明,云南油杉密碼子偏好影響因素不是單一的,其偏好性受到選擇和突變等多種因素的共同影響。核糖體蛋白基因和光合系統(tǒng)基因分布較為集中,說(shuō)明該類(lèi)基因的密碼子偏性較為相似,這與沙棗Elaeagnus angustifolia[29]研究相似;綜上所述,不同植物葉綠體基因密碼子偏好性受到的影響因素有所差異,并不只是受單一因素的影響,而是受到多個(gè)因素一起作用的結(jié)果。把同時(shí)滿(mǎn)足RSCU>1、ΔRSCU ≥0.08 兩個(gè)條件的密碼子作為云南油杉的最優(yōu)密碼子,最終得出了15 個(gè)最優(yōu)密碼子,其中有7 個(gè)以U 結(jié)尾,有6 個(gè)以A 結(jié)尾,以G 和C 結(jié)尾的分別各有1 個(gè),其密碼子的表現(xiàn)形式為NNA、NNU 的模式,與柿屬植物Diospyrosspp.[40]、‘玉鈴鐺’棗Yulingdang Jujuba[41]、紫九牛Ventilago leiocarpa[42]的表現(xiàn)形式一致。最優(yōu)密碼子的確立,能有效提高外源基因的表達(dá)效率,為優(yōu)化目標(biāo)基因及開(kāi)展云南油杉葉綠體基因工程、異源表達(dá)基因改造、種源鑒定等研究提供了參考依據(jù),同時(shí)也能在分子水平研究建立油杉屬植物的進(jìn)化機(jī)制提供理論基礎(chǔ)。
本研究中分析了云南油杉葉綠體基因組密碼子使用特征,未進(jìn)行云南油杉與油杉屬間和種間其他物種的密碼子使用特征分析,故不能確定云南油杉與其他物種的葉綠體基因組密碼子偏好性是否相似。因此,可進(jìn)一步研究油杉屬物種間密碼子偏好性的影響因素是否一致,研究其內(nèi)在機(jī)制,以此來(lái)確定密碼子偏好影響因素的強(qiáng)弱在種間是否具有差異性。