張玉波 周正湘 吳小玉
摘要:使用Codon W軟件分析大頭金蠅[Chrysomya megacephala(Fabricius,1794)]轉錄組10 923條全長轉錄序列的密碼子偏好性。結果表明,大頭金蠅轉錄組中的AT含量(61.81%)遠大于GC含量(38.19%);PR2(parity rule 2,即密碼子偏好性)繪圖結果顯示,密碼子第3位堿基A的使用頻率大于堿基T,堿基G的使用頻率大于堿基C;中性繪圖結果顯示,該序列密碼子的使用更多地受到選擇壓力的影響;有效密碼子數(effective number of codons,簡稱ENC)在25.17~61.00個之間,均值為43.16個;密碼子適應指數(codon adaptation index,簡稱CAI)在0.099~0.554之間,均值為0.215 8。結果共篩選出29個同義密碼子相對使用度(relative synonymous codon usage,簡稱RSCU)>1的密碼子和28個最優(yōu)密碼子。
關鍵詞:大頭金蠅;轉錄組;密碼子偏好性;同義密碼子
中圖分類號: Q969.451.9;S186? 文獻標志碼: A? 文章編號:1002-1302(2019)11-0078-04
轉錄組測序(RNA sequencing)是指利用第二代高通量測序技術進行的cDNA測序,是一類專注于功能位點的測序策略,能全面快速地獲取研究材料的特定組織在某一狀態(tài)下的全部轉錄本信息[1]。隨著高通量測序技術的應用[2],轉錄組測序以其較高的性價比而廣受各位學者歡迎,被廣泛應用于動植物的基因挖掘、功能鑒定等方面的研究,成為當前生物學研究的熱點[3]。密碼子偏好性指在編碼氨基酸合成蛋白時,往往優(yōu)先使用某一種或幾種密碼子[4],被優(yōu)先選用的密碼子稱為最優(yōu)密碼子,這一現象廣泛存在于生物類群中[5]。密碼子偏好性具有物種特異性,不同基因組在進化過程中承受不同的選擇壓力,因此不同物種間密碼子的使用偏好性不同[6-7]。分析密碼子的偏好性可以深入了解編碼序列的堿基含量、二核苷酸偏向性和隱藏的剪接信號等基因序列特征,這些都與密碼子使用偏好性相關,都可以影響基因合成的設計與蛋白表達[7]。? 大頭金蠅[Chrysomya megacephala (Fabricius,1794)]為重要的衛(wèi)生昆蟲,隸屬于麗蠅科(Calliphoridae)金蠅屬(Chrysomya)[8]。研究大頭金蠅轉錄組密碼子偏好性,可以揭示氨基酸翻譯過程中高表達與低表達基因對密碼子的偏好選擇,有助于解釋其特殊生理效應的遺傳機制,進一步為相關基因的克隆與表達奠定基礎。
1 材料與方法
1.1 序列的獲取
本研究數據來源于美國國立生物技術信息中心(National Center for Biotechnology Information,簡稱NCBI)網站,序列號為SRP050024,利用Codon W 1.4.2軟件分析大頭金蠅轉錄組10 923條序列的密碼子偏好性。大頭金蠅轉錄組測序數據見表1。
1.2 數據分析
1.2.1 堿基含量及PR2(parity rule 2,即密碼子偏好性)的繪圖分析 利用Codon W(version 1.4,http://bioweb.pasteur.fr/seqanal/ interfaces/codonw.html)軟件對大頭金蠅的轉錄組基因序列進行分析,計算每條序列的密碼子總GC含量、第3位密碼子的GC含量(GC3)、有效密碼子數(effective number of codons,簡稱ENC或Nc)及密碼子適應指數(codon adaptation index,簡稱CAI)。分別統計密碼子3個位置上的GC含量,密碼子第1位的GC含量表示為GC1,第2、3位的GC含量依次表示為GC2、GC3。GC1、GC2的平均值記為GC12。以GC12為縱坐標、GC3為橫坐標進行中性繪圖(neutrality plot),分析密碼子第1、2位與第3位堿基組成的相關性,研究密碼子偏性的影響因素。選擇絲氨酸(TCA、TCC、TCG、TCT)、亮氨酸(CTA、CTC、CTG、CTT)、脯氨酸、精氨酸(CGA、CGC、CGG、CGT)、蘇氨酸、纈氨酸、丙氨酸和甘氨酸,計算每個基因的A3/(A3+T3)和G3/(G3+C3),分析各基因密碼子中4個堿基組分嘌呤(A和G)與嘧啶(T和C)之間的關系。
1.2.2 ENC及中性繪圖分析 有效密碼子數ENC用于檢測單個基因密碼子的使用偏好程度,取值范圍在20~61之間,其值越低,表明該基因的密碼子使用偏好性越強[9]。以密碼子第3位上同義密碼子GC的含量GC3s為橫坐標、ENC為縱坐標,作二維散點圖,探討各基因密碼子的使用偏性情況,并檢測堿基組成對密碼子偏性的影響。
1.2.3 同義密碼子相對使用度及最優(yōu)密碼子分析 參照Sharp等的方法[10],同義密碼子相對使用度(relative synonymous codon usage,簡稱RSCU)是對同義密碼子使用偏好的評估[10],該值等于同義密碼子的實際觀測值與同義密碼子平均使用期望值的比值。如果密碼子的使用無偏好性,則RSCU值為1;如果該密碼子比其他同義密碼子的使用更頻繁,則其RSCU值大于1,反之,RSCU值小于1。
利用高表達優(yōu)越密碼子分析方法[11],統計所有基因的ENC值、有序數據集上下10%區(qū)間內形成的高RSCU集合和低RSCU集合,進行最優(yōu)密碼子分析。根據2個子集的ΔRSCU值及卡方檢驗結果確定最優(yōu)密碼子。
2 結果與分析
2.1 堿基含量及PR2、中性繪圖分析
對已經得到的大頭金蠅轉錄組數據進行篩選,共獲得長度為300 bp以上的10 923條完全閱讀框序列(全長CDS)。用Codon W軟件進行密碼子偏好性分析,結果表明,大頭金蠅轉錄組序列中平均總GC量為38.19%,分布范圍為 24.40%~62.90%,其中第3位點GC3s的平均值為25.67%,范圍為10.20%~83.70%;總A、T、C、G 4種堿基含量分別為 32.9%、28.9%、18.4%、19.7%,密碼子第3位點T3s、C3s、A3s和G3s含量的平均值分別為50.82%、17.97%、43.10%和 15.65%;GC12含量的均值為44.14%(23.40%~79.40%)(表2)??梢钥闯?,在大頭金蠅轉錄組序列中的AT堿基含量遠高于GC。由圖1可以看出,經PR2分析,大頭金蠅轉錄組序列密碼子第3位點堿基使用不均衡,密碼子第3位堿基A的使用頻率小于堿基T,堿基G的使用頻率小于堿基C,表明大頭金蠅轉錄組序列中基因密碼子的使用模式受到突變壓力和自然選擇等多重因素的影響。
由圖2的中性繪圖結果可以看出,GC12含量與GC3含量呈現出負相關,但相關性不明顯(r2=0.008 28),說明大頭金蠅轉錄組序列的密碼子受到的突變壓力較小,GC含量較為保守,其密碼子的使用更多地受到選擇壓力的影響[12-14]。
2.2 ENC、CAI的分析結果
有效密碼子數是衡量基因密碼子偏好性的一個重要指標,數值范圍為20個(每個氨基酸只使用1個同義密碼子的極端偏好情況)~61個(每個同義密碼子被平均使用的無偏好情況)。研究表明,當ENC≤35個時,基因密碼子的使用偏好性隨ENC值的降低而增強[15]。大頭金蠅轉錄組序列的ENC在25.17~61.00個之間,均值為43.16個(表2),在 10 923 條序列中僅有359條序列的ENC小于35個[16]。CAI在0.099~0.554之間,均值為0.215 8。說明大頭金蠅轉錄組中整體密碼子偏好性較低,只有極少部分序列具有較強的
密碼子偏好性。以ENC為縱坐標、GC3為橫坐標進行ENC繪圖分析發(fā)現,大部分序列沿標準曲線分布,小部分序列位于標準曲線以下較遠的位置(圖3), 說明大頭金蠅轉錄組的密碼子偏好性主要是受突變的影響,而選擇壓力僅在小部分序列中表現得比較明顯。
2.3 同義密碼子及最優(yōu)密碼子分析
經過計算可知,13條編碼蛋白基因密碼子中RSCU大于1的共有29個,除色氨酸(Trp)外,其他19種氨基酸及終止子均有RSCU值大于1的密碼子。在這29個使用度較高的密碼子中,第3位點嘌呤為U的有15個,為A的有12個,為G的有1個,為C的有1個,可以看出,在使用度較高的密碼子中,絕大部分以A或U結尾(表3)。
采用ΔRSCU值法對大頭金蠅轉錄組序列進行最優(yōu)密碼子的確定,共篩選出UUC、UUG、CUC、AUU、AUC、GUU、GUC、UAC、CAC、CAA、AAC、AAG、GAC、GAA、UCU、UCC、AGC、CCU、CCC、ACU、ACC、GCU、GCC、UGC、CGU、CGC、GGU、GGC共28個最優(yōu)密碼子,分別編碼Phe、Leu、Ile、Val、Tyr、His、Gln、Asn、Lys、Asp、Glu、Ser、Pro、Thr、Ala、Cys、Arg、Gly共18種氨基酸(表4)。這28個最優(yōu)密碼子中以C結尾的有16個,以U結尾的有8個,以A、G結尾的均為2個,這與高頻密碼子的統計結果相似,說明大頭金蠅最優(yōu)密碼子偏向于以C、U結尾。
3 討論
目前已完成的雙翅目類群轉錄組的測序工作不多,基于昆蟲轉錄組的密碼子偏好性分析結果更少,本研究結果與其他昆蟲類群轉錄組密碼子的使用模式是否一致,還需進一步分析確定。因此,若需要明確昆蟲基因組密碼子的使用模式及其與基因表達等之間的深入關系,則需要對昆蟲線粒體基因組數據進行大量統計分析,而目前各數據庫中有關昆蟲線粒體基因組的數據相對較少,是否可以借鑒真菌、植物等真核生物線粒體成功測序的經驗完成大量昆蟲基因組的測序,進而為其密碼子的真正“解密”提供原始材料,有待進一步研究。
參考文獻:
[1]賈新平,孫曉波,鄧衍明,等. 鳥巢蕨轉錄組高通量測序及分析[J]. 園藝學報,2014,41(11):2329-2341.
[2]Margulies M,Egholm M,Altman W E,et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature,2005,437(757):376-380.
[3]張棋麟,袁明龍. 基于新一代測序技術的昆蟲轉錄組學研究進展[J]. 昆蟲學報,2013,56(12):1489-1508.
[4]Olejniczak M,Uhlenbeck O C. tRNA residues that have coevolved with their anticodon to ensure uniform and accurate codon recognition[J]. Biochimie,2006,88(8):943-950.
[5]Campos J L,Zeng K,Parker D J,et al. Codon usage bias and effective population sizes on the X chromosome versus the autosomes in Drosophila melanogaster[J]. Molecular Biology and Evolution,2013,30(4):811-823.
[6]時 慧,王 玉,楊路成,等. 茶樹抗寒調控轉錄因子ICE1密碼子偏性分析[J]. 園藝學報,2012,39(7):1341-1352.
[7]Quax T E F,Claassens N J,Sll D,et al. Codon bias as a means to fine-tune gene expression[J]. Molecular Cell,2015,59(2):149-161.
[8]薛萬琦,趙建銘. 中國蠅類(下冊)[M]. 沈陽:遼寧科學技術出版社,1998:1438-1452.
[9]Wright F.The ‘effective number of codons used in a gene[J]. Gene,1990,87(1):23-29.
[10]Sharp P M,Li W H. The codon adaptation index-a measure of directional synonymous codon usage bias,and its potential applications[J]. Nucleic Acids Research,1987,15(3):1281-1295.
[11]Bellgard M,Schibeci D,Trifonov E,et al. Early detection of G+C differences in bacterial species inferred from the comparative analysis of the two completely sequenced Helicobacter pylori strains[J]. Journal of Molecular Evolution,2001,53(4/5):465-468.
[12]Sueoka N. Directional mutation pressure and neutral molecular evolution[J]. Proceedings of the National Academy of Sciences of the United States of America,1988,85(8):2653-2657.
[13]Sueoka N. Two aspects of DNA base composition:G+C content and translation-coupled deviation from intra-strand rule of A=T and G=C[J]. Journal of Molecular Evolution,1999,49(1):49-62.
[14]Nie X J,Deng P C,Feng K W,et al. Comparative analysis of codon usage patterns in chloroplast genomes of the Asteraceae family[J]. Plant Molecular Biology Reporter,2014,32(4):828-840.
[15]Comeron J M,Aguadé M. An evaluation of measures of synonymous codon usage bias[J]. Journal of Molecular Evolution,1998,47(3):268-274.
[16]Rai A,Yamazaki M,Takahashi H,et al. RNA-seq transcriptome analysis of Panax japonicus,and its comparison with other panax species to identify potential genes involved in the saponins biosynthesis[J]. Frontiers in Plant Science,2016,7:481.