邢婧
(湖北經(jīng)濟學(xué)院統(tǒng)計學(xué)院 湖北武漢 430205)
耗時13年的人類基因工程的完成是生命科學(xué)發(fā)展的一個里程碑,標(biāo)志著生命科學(xué)走向后基因組時代。事實上,基因表達的復(fù)雜性要遠超過人們的想象。已知可增加蛋白質(zhì)種類和數(shù)量的方式有DNA重組、RNA編輯和pre-mRNA的選擇性剪接等,其中pre-mRNA的選擇性剪接是產(chǎn)生如此眾多蛋白質(zhì)的主要機制。以下簡介premRNA剪接調(diào)控因子的檢測與估計研究現(xiàn)狀分析
(1)利用調(diào)控因子在外顯子與內(nèi)含子分布的不同以及在不同類型的剪接位點鄰域分布的不同進行估計。W.G.Fairbrother等首先提出了RESCUE方法,該方法利用以下兩個性質(zhì)估計ESE:(a)ESE在外顯子分布高于在內(nèi)含子的分布;(b)ESE在強的剪接位點鄰域的分布密度低于弱的剪接位點鄰域的分布密度。
(2)利用調(diào)控因子在真外顯子與偽外顯子分布密度的不同以及在外顯子和非轉(zhuǎn)錄區(qū)分布密度的不同。X.H.F.Zhang等利用兩個具有代表性的統(tǒng)計屬性來識別ESE和ESS。這兩種屬性是:(a)ESE以及ESS在組成性剪接的非編碼的外顯子內(nèi)部分布對比在未剪接的偽外顯子中的分布;(b)ESE以及ESS在組成性剪接的非編碼的外顯子內(nèi)部分布對比無內(nèi)含子的5’未翻譯區(qū)域的分布。
(3)利用近鄰ESE或ESS分布強度來檢測新的ESE以及ESS。M.B.Stadler等提出了一種基于近鄰方法的ESE以及ESS識別模型,通過對輸入序列鄰域已知的ESE或ESS分布強度進行測定并對輸入序列進行打分,正分表示該序列周圍有較多已知的ESE,負分表示該序列周圍有較多已知的ESS。
(4)基于支持向量機的分類估計。B.Mersch等通過已有的生物信息應(yīng)用啟發(fā)式規(guī)則構(gòu)造了兩類數(shù)據(jù)集,一類是中立集,一類是基于模體的數(shù)據(jù)集,分別用局部改進的支持向量機和基于組合級聯(lián)核函數(shù)的支持向量機對兩類數(shù)據(jù)集進行檢測和估計,具有較高的ESE識別率。
(5)利用直系同源不同生物進化較為保守的外顯子或與外顯子鄰近的內(nèi)含子區(qū)域的序列頻率分布差異估計。
(6)利用序列在包含內(nèi)含子的基因與不包含內(nèi)含子的基因的分布差別進行估計。
(1)主要針對一種調(diào)控因子進行估計。目前大部分算法設(shè)計均僅針對單一的一種調(diào)控因子進行估計,較少利用多種調(diào)控因子分布的相關(guān)特征,難以做到針對多種調(diào)控因子進行系統(tǒng)的同時估計。
(2)主要針對固定長度的一種調(diào)控因子進行估計。已有大多數(shù)算法在估計調(diào)控因子時往往固定調(diào)控因子的長度在6-10范圍內(nèi),僅僅針對其中一種長度的調(diào)控因子進行估計,較少考慮多種長度情形下的估計。
(3)必須依靠確定的閾值來進行估計。目前大部分算法均是基于調(diào)控因子在不同區(qū)域的分布差異設(shè)立某個確定的閾值,將超過臨界閾值的固定長度的序列作為調(diào)控因子的估計結(jié)果。然而固定的閾值設(shè)定可能漏掉一些真正的調(diào)控因子或者得到一些錯誤的估計。
將不同長度、不同類型、不同特征的pre-mRNA剪接調(diào)控因子在pre-mRNA上的分布特征以及相關(guān)特征進行綜合考慮,利用隱Markov模型建立不同類型的pre-mRNA剪接調(diào)控因子與其觀測特征之間概率估計的內(nèi)在聯(lián)系。可彌補了目前對于pre-mRNA剪接調(diào)控因子估計方法單調(diào)、檢測長度單一以及檢測種類單一等不足,通過引入隱Markov模型對pre-mRNA剪接調(diào)控因子進行系統(tǒng)的綜合的考慮,有利于提高估計的準(zhǔn)確率,發(fā)現(xiàn)新的調(diào)控因子。
[1]B.Modrek and C.Lee,A genomic view of alternative splicing,Nature Genetics,2002,30:13-19.
[2]S.M.Berget,Exon recognition in vertebrate splicing, J Biol Chem,1996,270:2411-2414.
[3]A.Churbanov,I.Vorechovsk and C.Hicks,Computational prediction of splicing regulatory elements shared by Tetrapoda organisms,BMC genomics,2009,10:508.
[4]A.P.Dempster,N.M.Laird and D.B.Rubin,Maximum likelihood from incomplete data via the EM algorithm,J R Stat Soc B,1977,39:1-38.
[5]J.C.Rajapakse and L.S.Ho,Markov encoding for detecting signals in genomic sequences,IEEE/ACM Trans Comput Biol Bioinform,2005,2(2):131-142.