丁雪梅
(曲靖師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,云南 曲靖 655011)
含內(nèi)含子的核糖體蛋白基因轉(zhuǎn)錄起始位點情況分析
丁雪梅
(曲靖師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,云南 曲靖 655011)
選取69個含內(nèi)含子的核糖體蛋白基因,抽取其中每個基因轉(zhuǎn)錄起始位點附近長度為100個堿基的序列,發(fā)現(xiàn)轉(zhuǎn)錄起始位點為堿基A的占92.8%,給出由位點狀態(tài)轉(zhuǎn)移到位點后與位點相鄰狀態(tài)的一步轉(zhuǎn)移概率矩陣P以及由位點前與位點相鄰狀態(tài)轉(zhuǎn)移到位點狀態(tài)的一步轉(zhuǎn)移概率矩陣 .含內(nèi)含子的核糖體蛋白基因中富含堿基A,T的序列可能有利于基因的轉(zhuǎn)錄.
內(nèi)含子;核糖體蛋白基因;轉(zhuǎn)錄起始位點
合成基因的RNA(核糖核酸)拷貝的過程就是轉(zhuǎn)錄(transcription),轉(zhuǎn)錄起始(initiation of transcription)是指在基因上游負責將基因拷貝成RNA的蛋白復(fù)合物的組裝過程,位點(locus)是染色體上遺傳標記或DNA標記的位置,轉(zhuǎn)錄起始位點(TSS)是研究真核生物轉(zhuǎn)錄調(diào)控的一個重要方面.我們對含內(nèi)含子的核糖體蛋白基因轉(zhuǎn)錄起始位點情況進行分析.
2.1 選取樣本
我們從酵母內(nèi)含子數(shù)據(jù)庫(YIDB,http://www. imb-jcna.de/RNA.html)中選出含內(nèi)含子的核糖體蛋白基因,共計69個基因.為了探尋轉(zhuǎn)錄起始位點,人們已做了多次實驗,每個核糖體蛋白基因至少給出了一個可能的轉(zhuǎn)錄起始位點,選取其中每個基因?qū)嶒灲Y(jié)果為出現(xiàn)次數(shù)最多的轉(zhuǎn)錄起始位點附近長度為100個堿基的序列,該位點位于這100個堿基序列的第51個位置,若每個基因?qū)嶒灣霈F(xiàn)次數(shù)最多的轉(zhuǎn)錄起始位點不止一個,只取其中的一個位點,抽取情況見表1.表1中sample表示樣本,gene表示基因,experiment number表示實驗次數(shù),TSS(frequency)表示實驗中核糖體蛋白基因上游(upstrean)的轉(zhuǎn)錄起始位點(轉(zhuǎn)錄起始位點出現(xiàn)的次數(shù)).
表1 含內(nèi)含子的核糖體蛋白基因及轉(zhuǎn)錄起始位點
表1 含內(nèi)含子的核糖體蛋白基因及轉(zhuǎn)錄起始位點
2.2 一步轉(zhuǎn)移概率矩陣
我們選取的69個基因中,轉(zhuǎn)錄起始位點出現(xiàn)堿基A的有64個基因,轉(zhuǎn)錄起始位點出現(xiàn)堿基T的有3個基因,轉(zhuǎn)錄起始位點出現(xiàn)堿基C的有2個基因.為了敘述方便,我們給出堿基“前”與“后”的定義,如有序列5'-ATG-3',堿基T前面是堿基A,堿基T后面是堿基G.表2給出了抽取出的69個基因序列樣本中轉(zhuǎn)錄起始位點及位點前后與位點相鄰的堿基分布情況.表2中site before site表示位點前與位點相鄰堿基,TSS表示轉(zhuǎn)錄起始位點,site after site表示位點后與位點相鄰堿基,sample number表示樣本個數(shù).
表2 轉(zhuǎn)錄起始位點及位點前后與位點相鄰的堿基分布情況
若Xm表示位點的狀態(tài),Xm-1表示位點前與位點相鄰的狀態(tài),xm+1表示位點后與位點相鄰的狀態(tài),引入轉(zhuǎn)移概率
Pij表示在位點處于狀態(tài)i的條件下,位點后與位點相鄰的狀態(tài)為j的轉(zhuǎn)移概率,例如
類似地,可以計算PAG,PTA,PTT,PTG,PCA,由它們組成的一步轉(zhuǎn)移概率矩陣P為
矩陣P反映了由位點的狀態(tài)i經(jīng)一步轉(zhuǎn)移到位點后與位點相鄰的狀態(tài)j的概率.引入轉(zhuǎn)移概率
P'ij表示在位點前與位點相鄰的狀態(tài)為i的條件下,位點的狀態(tài)為j的轉(zhuǎn)移概率,例如
類似地,可以計算P'TA,P'TT,P'GA,P'GT,P'GC,由它們組成的一步轉(zhuǎn)移概率矩陣P'為
矩陣P'反映了由位點前與位點相鄰的狀態(tài)i經(jīng)一步轉(zhuǎn)移到位點的狀態(tài)j的概率.
我們選取了69個含內(nèi)含子的核糖體蛋白基因,抽取其中每個基因轉(zhuǎn)錄起始位點附近長度為100個堿基的序列,發(fā)現(xiàn)轉(zhuǎn)錄起始位點為堿基A的占了92.8%,給出了由位點狀態(tài)轉(zhuǎn)移到位點后與位點相鄰狀態(tài)的一步轉(zhuǎn)移概率矩陣P,以及由位點前與位點相鄰狀態(tài)轉(zhuǎn)移到位點狀態(tài)的一步轉(zhuǎn)移概率矩陣P'.這可能預(yù)示著含內(nèi)含子的核糖體蛋白基因中富含堿基A,T的序列有利于基因的轉(zhuǎn)錄.
〔1〕張新生,王梓坤.生命信息遺傳中的若干數(shù)學(xué)問題[J].科學(xué)通報,2000,45(2):113~119.
〔2〕[英]T.A.布朗.基因組[M].北京:科學(xué)出版社,2004.
〔3〕盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(第三版)[M].北京:高等教育出版社,2004.
〔4〕復(fù)旦大學(xué).概率論[M].北京:高等教育出版社,1995.
〔5〕張靜,石秀凡.酵母基因中轉(zhuǎn)錄正調(diào)控內(nèi)含子序列特征的統(tǒng)計分析[J].生物化學(xué)與生物物理進展,2003,30(2):231~238.
Q 503;Q 522
A
1673-260X(2013)02-0005-03