渤海大學(xué) 數(shù)理學(xué)院 數(shù)學(xué)系 王 宇
蛋白質(zhì)結(jié)構(gòu)類的概念最初是由Levitt 和Chothia 在1976年提出的,他們根據(jù)蛋白質(zhì)序列中二級(jí)結(jié)構(gòu)片段的排列和拓?fù)浣Y(jié)構(gòu)的不同,將蛋白質(zhì)序列分為4 個(gè)主要的類:一是all-α類,序列中主要包含α螺旋;二是all-β類,序列中主要包含β折疊;三是α/β類,序列中α螺旋和β折疊交替出現(xiàn),而且β折疊是平行結(jié)構(gòu);四是α+β類,序列中α螺旋和β折疊被大距離地分開,而且β折疊是反平行結(jié)構(gòu)。自此以后,蛋白質(zhì)結(jié)構(gòu)類預(yù)測(cè)得到了廣泛發(fā)展。
目前,多數(shù)預(yù)測(cè)方式是基于蛋白質(zhì)的一級(jí)結(jié)構(gòu)序列——氨基酸序列來(lái)進(jìn)行預(yù)測(cè),主要是用氨基酸組成來(lái)表示蛋白質(zhì)序列,無(wú)法反映蛋白質(zhì)的其他信息。本文,筆者提出了一種新的基于氨基酸的12 種重要的物理化學(xué)性質(zhì)和氨基酸的17 種分類的蛋白質(zhì)序列表示方法,以及氨基酸在蛋白質(zhì)序列中出現(xiàn)的位置來(lái)構(gòu)造特征向量,然后利用貝葉斯決策作為分類工具,對(duì)同源性不超過(guò)25%的包含640 個(gè)蛋白質(zhì)的數(shù)據(jù)集進(jìn)行結(jié)構(gòu)類型預(yù)測(cè)。
基于氨基酸在蛋白質(zhì)序列中出現(xiàn)的位置和氨基酸的12 種重要的物理化學(xué)性質(zhì),以及氨基酸的17 種分類,構(gòu)造出77-D特征向量來(lái)表示蛋白質(zhì)序列,然后借助于貝葉斯決策對(duì)于同源性不超過(guò)25%的數(shù)據(jù)集進(jìn)行蛋白質(zhì)結(jié)構(gòu)類型的預(yù)測(cè)研究,正確率達(dá)到 81.24%。
1.提取氨基酸位置記數(shù)矩陣的不變量。對(duì)于任一氨基酸序列,要在蛋白質(zhì)序列中考察某個(gè)氨基酸,當(dāng)遇到該氨基酸時(shí)就需要對(duì)其在蛋白質(zhì)序列中出現(xiàn)的位置進(jìn)行計(jì)數(shù),從而得到一個(gè)計(jì)數(shù)序列。對(duì)于某氨基酸序列:GKGDPKKPRGKMSSYAFFVQTSREEHKKKH,以K 為例,位置計(jì)數(shù)序列pk=(2,6,7,11,27,28,29)。對(duì)于蛋白質(zhì)序列中每一個(gè)氨基酸都這樣操作,從而一個(gè)蛋白質(zhì)序列本質(zhì)上就可以對(duì)應(yīng)19 個(gè)計(jì)數(shù)序列。對(duì)每個(gè)氨基酸的計(jì)數(shù)序列,建立一個(gè)矩陣,其元素aij=|pjpi|。這樣得到的矩陣是一個(gè)實(shí)對(duì)稱的矩陣,通常稱為線性矩陣。這樣得到的19 個(gè)矩陣能反映序列中氨基酸前后的相關(guān)性。有了矩陣,就可以從中提取不變量,這里選用矩陣的最大特征值作為序列不變量。相應(yīng)于19 個(gè)的最大特征值就可以構(gòu)造一個(gè)19 維的向量。該氨基酸序列中,字母K 的線性矩陣見表1。
表1 字母K 的線性矩陣
2.基于氨基酸的12 種重要性質(zhì)的(0.1)序列構(gòu)造的向量。氨基酸是蛋白質(zhì)的基本組成單位,其自身的特性必然會(huì)對(duì)蛋白質(zhì)產(chǎn)生重要的影響。表2給出了20 種氨基酸的12 種重要性質(zhì)。
表2 20 種氨基酸的12 種重要性質(zhì)
對(duì)于一條長(zhǎng)為n的蛋白質(zhì)序列S=x1,x2,…,xn,根據(jù)氨基酸間的先后位置和以上12 種性質(zhì)可以定義12 個(gè)映射(φ1,…,φ12),得到12 條(0,1)序列 (l1,l2,…,l12),構(gòu)造如下映射。
式(1)中,若Sk(xi)>Sk(xi+1),φk(xi)=0;反之,φk(xi)=1。特別的,當(dāng)i=n時(shí),φ(xn)=1;Sk為第K種性質(zhì)(k=1,2,…,12),xi為蛋白質(zhì)序列中的氨基酸。對(duì)于每條(0,1)序列,計(jì)算其LZ 復(fù)雜度及反LZ 復(fù)雜度,這樣每條氨基酸序列就會(huì)有24 個(gè)特征向量。
3.基于17 個(gè)不同分類模型構(gòu)造的向量。后34 維是基于20種氨基酸的17 個(gè)不同分類模型,結(jié)合生物信息學(xué)中LZ 復(fù)雜度和相對(duì)熵的相關(guān)理論構(gòu)造而成的34 維特征向量V,表示如下。
式(3)中,fk(k=1,2,…,19)表示位置矩陣的最大特征值,pk(k=20,21…,43)表示蛋白質(zhì)序列轉(zhuǎn)化成(0,1)序列的LZ 復(fù)雜度和反LZ 復(fù)雜度,mk(k=44,45,…,47)表示由17 種分類得出的34-D 向量,w1,w2和w3為權(quán)重系數(shù)。依據(jù)上述方法可將這640 條長(zhǎng)度不同的氨基酸序列轉(zhuǎn)化成640 個(gè)34-D 向量。
貝葉斯統(tǒng)計(jì)理論是貝葉斯在1763年創(chuàng)立的,是將歸納推論法用于概率論基礎(chǔ)理論實(shí)現(xiàn)的。貝葉斯統(tǒng)計(jì)理論方法是統(tǒng)計(jì)模型決策中的一個(gè)基本方法,其基本思想為:根據(jù)已知類條件概率密度參數(shù)表達(dá)式和先驗(yàn)概率,利用貝葉斯公式轉(zhuǎn)換成后驗(yàn)概率,根據(jù)后驗(yàn)概率大小進(jìn)行決策分類。
據(jù)此,對(duì)于給定的一個(gè)未知類別樣本,可先計(jì)算出其屬于每類的概率,然后選擇概率中最大的那個(gè)值所對(duì)應(yīng)的類別作為這個(gè)未知類別樣本的類別。對(duì)all-α類的138 個(gè)向量、all-β的154 個(gè)向量、α/β的177 個(gè)向量、α+β的171 個(gè)向量分別平均分成5 份,然后依次以這5 份中的一份作為測(cè)試集,其余作為訓(xùn)練集。這樣分5 次算出預(yù)測(cè)的結(jié)果,然后再取平均值,這個(gè)平均值作為這次的最后結(jié)果。基于上述的分類方法,隨機(jī)做20次試驗(yàn),試驗(yàn)的準(zhǔn)確度見表3。同時(shí),將該方法與其他其他方法進(jìn)行了比較,比較結(jié)果見表4。
表3 隨機(jī)20 次試驗(yàn)的準(zhǔn)確度
表4 多種方法預(yù)測(cè)準(zhǔn)確度的比較
對(duì)于方法2,3,4,在all-α類上差距比較大;在all-β類上的精度比方法2,3,4 高出很多;在α/β類上與方法(2)比較接近,與方法3,4 分別相差2.63%,3.74%;在α+β類精度上比法2,3,4 分別高出8.62%,3.92%,1.05%。在總精度上我們比法2 高出0.44%,與法2,3 相差1.86%,2.20%。與方法5,6,7,8,9,10,11 相比,除了方法比9,11 的all-α類上略低了一點(diǎn),其余無(wú)論是在總精度,還是在各個(gè)分類的精度都有較大挺高。