馮 雪, 李瑞芳, 楊薩如拉, 程永霞, 趙瑞峰
(內(nèi)蒙古師范大學(xué) 物理與電子信息學(xué)院,內(nèi)蒙古 呼和浩特 010022)
內(nèi)含子是真核生物基因組的重要組成部分[1-2],在真核生物體內(nèi)普遍存在。內(nèi)含子作為一類特殊的非編碼序列,與基因表達、細胞骨架構(gòu)建和動態(tài)變化密切相關(guān)[3-4]。例如,內(nèi)含子可以通過剪接來提高mRNA穩(wěn)定性、促進mRNA的輸出、增強mRNA的翻譯,進而提高基因的表達[5]。許多研究表明內(nèi)含子中存在基因表達的重要調(diào)控元件[6]。且內(nèi)含子不僅參與基因的轉(zhuǎn)錄調(diào)控、前體mRNA的加工(主要是選擇性剪接),也參與多種非編碼RNA的功能活動[7-8]。
內(nèi)含子的突變與許多疾病的產(chǎn)生、發(fā)展都有著重要的聯(lián)系。例如,內(nèi)含子的保留也會出現(xiàn)在如白血病、乳腺癌等許多腫瘤細胞中[9],且內(nèi)含子的突變能夠誘導(dǎo)很多疾病[10-11],重型血友病患者中最常見的突變類型就是凝血因子VIII基因中的內(nèi)含子22倒位突變[10]。同一基因中的內(nèi)含子之間存在具有某種生物學(xué)功能的相互作用,內(nèi)含子可以通過配對驅(qū)動環(huán)化的形式形成circRNA[12-15],也能通過與mRNA的序列匹配來控制結(jié)合蛋白因子在mRNA上的結(jié)合[16]。并且mRNA的序列功能區(qū)和內(nèi)含子的匹配有著特殊的存在形式,其中序列功能區(qū)包括翻譯終止位點、翻譯起始位點及外顯子連接處[17-18]。所以,內(nèi)含子之間的相互匹配特性分析有著重要的生物學(xué)意義。
核糖體蛋白基因在進化時具有高度保守性[19],所以本文選用線粒體核糖體蛋白基因序列作為研究樣本。將所有基因序列整合,研究其內(nèi)含子序列,并采用Smith-Waterman局域比對方法,得到最佳匹配區(qū)域。分析其內(nèi)含子序列之間的相互匹配特征,希望揭示的這些特性能為進一步研究內(nèi)含子的功能提供基礎(chǔ)數(shù)據(jù)。
本文以核糖體蛋白質(zhì)基因數(shù)據(jù)庫(RPG:Ribosomal Protein Gene Database)中收錄的所有物種的線粒體核糖體蛋白基因序列為樣本,獲取并整合所有基因序列數(shù)據(jù),從411條線粒體核糖體蛋白基因中統(tǒng)計得到1 499條內(nèi)含子序列。具體信息見表1。
1.2.1 比對方法 考慮到內(nèi)含子序列之間最基本的相互作用體現(xiàn)在堿基互補上,為分析第一內(nèi)含子與其它內(nèi)含子的匹配特征,首先對每個蛋白基因中的非第一內(nèi)含子進行反向互補,然后采用Smith-Waterman局域比對方法,將得到的反向互補序列與相應(yīng)第一內(nèi)含子序列進行局域相似性比對,得到最佳匹配片段[20]。
1.2.2 長度、GC含量及配對率頻率函數(shù) 序列的長度和GC含量體現(xiàn)了序列的基本特性,對每個物種的每個線粒體核糖體蛋白基因中的第一內(nèi)含子和最佳匹配片段,依據(jù)公式(1)至公式(5)計算了第一內(nèi)含子長度分布頻率(FL)、最佳匹配片段長度分布頻率(FLm)、第一內(nèi)含子GC含量分布頻率(FGC)、最佳匹配片段GC含量分布頻率(FGCm),以及最佳匹配片段配對率頻率(Fmat)。每種頻率值的計算方法如下:
(1)
(2)
(3)
(4)
(5)
其中:FL是第一內(nèi)含子長度頻率函數(shù);NL是長度為L的第一內(nèi)含子個數(shù),由于五個物種所有基因中的第一內(nèi)含子長度最短為43 bp,所以統(tǒng)計長度頻率從L=43開始計算;FLm是最佳匹配片段長度頻率函數(shù);NLm是長度為L的最佳匹配片段的個數(shù),考慮到長的最佳匹配片段更有可能具有某種生物學(xué)意義,因此在統(tǒng)計最佳匹配片段時,去掉了太短的片段,從長度為6 bp的片段開始計數(shù);FGC是第一內(nèi)含子GC含量頻率函數(shù);NGCi是GC含量為i的內(nèi)含子個數(shù);FGCm是最佳匹配片段GC含量的頻率函數(shù);NGCmi是GC含量為i的最佳匹配片段個數(shù);Fmat為最佳匹配片段配對率頻率函數(shù);Nmati為GC含量為i的最佳匹配片段個數(shù)。
1.2.3 匹配頻率的分布 由于基因組內(nèi)的所有第一內(nèi)含子序列長度各不相同,為了方便對比,對基因組內(nèi)的所有第一內(nèi)含子序列進行標(biāo)準(zhǔn)化處理,由此得到最佳匹配片段在序列標(biāo)準(zhǔn)化長度為100 bp的第一內(nèi)含子的相對位置分布。具體計算方法如公式(6)和公式(7)[20]:
(6)
其中:nij為序列每個位點的相對位置函數(shù);Li為第i條第一內(nèi)含子的長度;l為最佳匹配片段在序列標(biāo)準(zhǔn)化的長度(l=100 bp);Nij為第i條內(nèi)含子序列的第j個堿基位點。
對每條第一內(nèi)含子位點上定義賦值函數(shù),計算方法如公式(7)[20]:
(7)
其中:fi j為基因組第i條序列中第j位點的賦值函數(shù)(j=1,2,…,99,100);nia和nib分別為最佳匹配片段起始堿基相對位點和終止堿基相對位點(i=1,2,…,n)。fi j對最佳匹配區(qū)域內(nèi)的位點賦值為1,對最佳匹配區(qū)域外的位點賦值為0,由此得到內(nèi)含子序列的位點數(shù)據(jù)。由此,定義表示內(nèi)含子各位點參與匹配頻率的參量——相對頻率函數(shù),具體計算方法如公式(8)[20]:
(8)
其中:Fr為標(biāo)準(zhǔn)化后的相對頻率函數(shù);Ni a和Ni b分別為最佳匹配片段起始堿基位點和終止堿基位點(i=1,2,…,n),m為最佳匹配片段總個數(shù)。
統(tǒng)計線粒體核糖體蛋白基因序列中所有的第一內(nèi)含子。由公式(1)和公式(3)計算出其長度、GC含量及相應(yīng)的頻率函數(shù)。由于第一內(nèi)含子長度的分布范圍非常廣泛,個別內(nèi)含子長度達到50 000 bp,統(tǒng)計發(fā)現(xiàn)大部分內(nèi)含子的長度在0~1 400 bp。為了體現(xiàn)大部分第一內(nèi)含子長度分布特征,圖1(a)只體現(xiàn)了0~1 400 bp長度范圍內(nèi)內(nèi)含子的分布規(guī)律。
由1圖可知,線粒體核糖體蛋白基因第一內(nèi)含子的長度主要分布在0~200 bp之間,在40 bp處出現(xiàn)峰值。Halligan以80 bp為界限將內(nèi)含子分為短內(nèi)含子和長內(nèi)含子[18],說明雖然樣本基因中包含人類和家鼠的基因序列(有較多長內(nèi)含子),但統(tǒng)計結(jié)果發(fā)現(xiàn)第一內(nèi)含子主要分布在較短的長度范圍內(nèi)。而GC含量分布接近于正態(tài)分布,在GC含量為0.40處出現(xiàn)最高頻率。
對每個線粒體核糖體蛋白基因中的非第一內(nèi)含子進行反向互補,采用Smith-Waterman局域比對方法,將同一基因中的第一內(nèi)含子與得到的反向互補序列進行局域相似性比對,得到最佳匹配片段。在此基礎(chǔ)上,依據(jù)公式(2)、公式(4)和公式(5)計算出最佳匹配片段的長度、GC含量和配對率頻率函數(shù),結(jié)果如圖2所示。
圖2可看出,最佳匹配片段的長度范圍分布在0~100 bp之間,長度為22 bp左右的最佳匹配片段的占最大比重,且在長度為100 bp也有較高的比重。對于最佳匹配片段配對率,分布在40%到100%之間。配對率在 60%處出現(xiàn)峰值,也有部分達到100%。最佳匹配片段GC含量分布在0.1和0.9之間,且在0.2和0.5處出現(xiàn)兩個峰值。
圖2 線粒體核糖核蛋白基因最佳匹配片段分布圖Fig.2 The distribution of the optimal matched segment of mitochondrial ribosomal protein genes
由于不同基因序列第一內(nèi)含子的長度相差很大,為方便對比,根據(jù)公式(6)把第一內(nèi)含子序列長度標(biāo)準(zhǔn)化到100 bp,并根據(jù)公式(7)和(8)中計算第一內(nèi)含子序列各位點的相對位置和相對頻率。此外,考慮到GC含量可能對內(nèi)含子之間的相互匹配起到關(guān)鍵作用,把第一內(nèi)含子最佳匹配片段按照GC含量的不同分成三組,分別為高GC含量組(CGC>50%),中GC含量組(30% 圖3 線粒體核糖體蛋白基因最佳匹配片段在第一內(nèi)含子序列的相對位置分布圖Fig.3 Distributions of relative position of matching segments in the first intron sequence of mitochondrial ribosomal protein genes 由圖3可看出,線粒體核糖體蛋白基因內(nèi)含子間最佳匹配片段在第一內(nèi)含子序列的相對位置分布中出現(xiàn)了多個峰值。分析不同GC含量的3組最佳匹配片段的相對位置分布。發(fā)現(xiàn)低GC片段分布連續(xù),沒有明顯的極大值,中GC片段在10 bp,37 bp,45 bp,58 bp,93 bp左右出現(xiàn)極大值,高GC片段在10 bp,26 bp,87 bp,96 bp左右出現(xiàn)極大值。表明了不同GC含量組的最佳匹配片段在第一內(nèi)含子中的相對位置的分布具有明顯差異。這意味著片段的GC含量在內(nèi)含子之間相互作用中可能起著關(guān)鍵性的作用。 線粒體核糖體蛋白基因第一內(nèi)含子的長度主要分布在0~200 bp之間,在40 bp處出現(xiàn)峰值。說明線粒體核糖體蛋白基因序列中第一內(nèi)含子主要分布在較短的長度范圍內(nèi)。Castillo-Davis等人對內(nèi)含子偏短的現(xiàn)象進行了解釋:也許短內(nèi)含子是高表達基因的一個原始特征,所以自然選擇的精煉作用阻止它們變長。在進化過程中,由于積極選擇壓力導(dǎo)致高表達基因的內(nèi)含子長度逐漸變短[21-22],這也解釋了線粒體核糖核蛋白基因序列中雖然有高等生物人類和家鼠的基因序列,但還主要分布在較短的長度范圍內(nèi)。而GC含量分布接近于正態(tài)分布,在0.40處出現(xiàn)最高頻率。而這些GC含量的不同有可能在基因調(diào)控表達以及發(fā)生突變時發(fā)揮重要的作用。 對第一內(nèi)含子與其它內(nèi)含子最佳匹配片段特征結(jié)果分析發(fā)現(xiàn),最佳匹配片段的長度范圍分布在0~100 bp之間,在長度為22 bp左右的最佳匹配片段的占最大比重,且在長度為100 bp也有較高的比重。而最佳匹配片段配對率的分析結(jié)果表明,最佳匹配片段配對率分布在40%到100%之間,在60%處出現(xiàn)峰值,也有部分達到100%。目前已發(fā)現(xiàn)的微小RNA分子包括微小RNA(microRNA,miRNA)和小干擾RNA(siRNA),它們也是真核生物中兩種主要的非編碼RNA(non-coding RNA),在真核生物中發(fā)揮重要作用[23]。微小RNA是近年來在多種真核生物及病毒中發(fā)現(xiàn)的一類長度為19~26 bp、且具有基因表達調(diào)控作用的單鏈或雙鏈RNA分子[24]。siRNA通過與靶mRNA[25]的完美互補,引導(dǎo)mRNA沉默。并通過不同程度的互補來抑制靶mRNA的轉(zhuǎn)錄和表達[26]。有研究發(fā)現(xiàn),miRNA與靶mRNA的匹配率范圍在65%~95%之間[27],這些研究結(jié)果與本文的統(tǒng)計結(jié)果的對比暗示著內(nèi)含子與內(nèi)含子相互匹配的部分最佳匹配片段可能與siRNA或miRNA一樣,是一類具有特殊生物學(xué)功能的非編碼RNA。 分析GC含量不同的3組最佳匹配片段的相對位置分布,發(fā)現(xiàn)低GC片段分布連續(xù),沒有明顯的極大值,中GC片段在37 bp,58 bp,93 bp左右出現(xiàn)極大值,高GC片段在10 bp,26 bp,87 bp,96 bp左右出現(xiàn)極大值。表明了不同GC含量組的最佳匹配片段在第一內(nèi)含子中的相對位置的分布是有明顯差異的。這表明最佳匹配片段GC含量會影響最佳匹配片段的位置分布,所以,片段GC含量在內(nèi)含子序列之間相互作用中很可能起著關(guān)鍵性的作用。 內(nèi)含子之間通過堿基互補配對,部分可能反向剪接環(huán)化形成circRNA,說明內(nèi)含子的序列特征和內(nèi)含子序列之間的相互作用可能在circRNA的形成,調(diào)控元件的協(xié)作和競爭等過程中起到很關(guān)鍵的作用。另外,內(nèi)含子繁多的種類增加了生物生命活動調(diào)控的復(fù)雜性。所以對內(nèi)含子的生物功能的深入探討是非常有意義的研究工作。隨著研究的進一步深入,會有內(nèi)含子的更多生物學(xué)功能被掲示出來。3 討論