• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      加權(quán)貝葉斯線性B細胞表位特征提取方法

      2015-12-29 05:08:26劉威郭紅
      福州大學學報(自然科學版) 2015年1期
      關鍵詞:肽鏈表位貝葉斯

      劉威,郭紅

      (福州大學數(shù)學與計算機科學學院,福建福州 350116)

      0 引言

      表位是蛋白質(zhì)抗原性的基礎,深入研究蛋白質(zhì)表位對多肽和新型疫苗分子的設計及診斷試劑的開發(fā)具有重要意義[1].線性B細胞表位是抗原序列上能與抗體結(jié)合的一段連續(xù)的區(qū)域[2].早期的表位預測工作主要通過生物實驗進行鑒別,但這種方法耗時耗力而且得到的數(shù)據(jù)較少,針對標準的數(shù)據(jù)集開發(fā)自動評價工具將是未來的發(fā)展方向[3].

      線性B細胞表位預測問題可以看作一個二分類問題:給定若干肽鏈序列,指出哪些肽鏈序列屬于表位,哪些屬于非表位.表位和非表位在某些生物特性、序列結(jié)構(gòu)、氨基酸組成上存在一定的差異,通過對這些差異提取特征進行分類能夠有效地對表位進行預測.B細胞表位數(shù)據(jù)庫的建立,提供了大量的表位序列片段,通過對表位和非表位序列分析,找出表位和非表位的特征,從而進行分類.通常的研究方法是使用一種特征提取方法將肽鏈序列轉(zhuǎn)化為相應的編碼,將編碼作為輸入再使用分類器進行分類,從而得出預測結(jié)果.文獻[4]提出了一種氨基酸對抗原性量表(AAPantigenicity scale),并將這種量表作為一種新的編碼,該編碼反映了表位與非表位中某些特定氨基酸對片段出現(xiàn)頻率的差異性,最后使用SVM作為分類器進行預測.文獻[5]在AAP編碼的基礎上提出了長度為3和4的抗原性量表的概念,結(jié)合LEP方法,將3種長度的抗原性量表作為分類器的輸入?yún)?shù)得出預測模型,這表明AAP編碼是一種不錯的特征編碼.文獻[6]中引入貝葉斯中先驗概率,提出在線性B細胞表位上的一種貝葉斯特征提取方法,結(jié)合氨基酸在肽鏈序列中的位置形成貝葉斯編碼,最后使用SVM進行預測.AAP編碼包含了氨基酸對信息,考慮了氨基酸對在表位和非表位數(shù)據(jù)中的出現(xiàn)頻率,但AAP編碼對缺少了單個氨基酸的出現(xiàn)頻率對肽鏈序列的影響,這導致肽鏈信息的缺失.單個氨基酸的貝葉斯編碼只包含單個氨基酸與分類結(jié)果的關系,沒有考慮到氨基酸之間的關系,不符合表位與非表位序列間存在一定結(jié)構(gòu)差異.

      受文獻[6]的啟發(fā),提出一種基于氨基酸對量表加權(quán)的貝葉斯特征提取方法,在貝葉斯特征提取方法的基礎上,引入氨基酸對抗原性量表的概念,有效地提取肽鏈序列的組成和結(jié)構(gòu)信息,提高序列與所屬類別的相關性.

      1 貝葉斯特征提取方法

      1.1 貝葉斯特征提取方法的原理

      文獻[5]中使用貝葉斯方法(Bi-profile Bayes feature extraction)來提取氨基酸序列的特征,并提出貝葉斯特征提取方法的蛋白質(zhì)甲基化位點預測(BPB-PPM).文獻[7]構(gòu)造了Px用于描述表位和非表位數(shù)據(jù)中不同氨基酸在不同位置上的差異,將bayes方法應用到線性B細胞表位上.

      每條肽鏈的貝葉斯編碼是一個長度2n的向量,其中n表示肽鏈的長度,每個位置上的氨基酸編碼由兩個部分構(gòu)成:對表位數(shù)據(jù)的先驗概率,對非表位數(shù)據(jù)的先驗概率.對2n長度的貝葉斯編碼而言,單個貝葉斯編碼包含氨基酸在特定位置上出現(xiàn)對類別的先驗概率,整體的編碼又包含了肽鏈的氨基酸組成情況.

      貝葉斯特征提取方法計算過程描述如下:①將實驗數(shù)據(jù)集分為測試集和訓練集;②統(tǒng)計訓練集中的每條肽鏈上單個氨基酸的信息,信息包含肽鏈序列的不同位置上出現(xiàn)各種氨基酸數(shù)量;③使用統(tǒng)計信息構(gòu)造不同位置上出現(xiàn)氨基酸對肽鏈類別的先驗概率;④使用構(gòu)造的先驗概率對數(shù)據(jù)集的每一條肽鏈進行編碼,編碼時使用氨基酸的種類和位置確定該氨基酸的編碼值.

      1.2 貝葉斯特征提取方法的不足

      貝葉斯特征提取方法以肽鏈序列與單個氨基酸之間的關系作為特征,然而該方法忽略了氨基酸之間的結(jié)構(gòu)可能對表位和非表位的差異所造成的影響.目前表位和非表位之間存在的明顯差異還不得而知,但實際上,表位和非表位存在一定結(jié)構(gòu)上差異,表現(xiàn)為包含數(shù)量不同的氨基酸結(jié)構(gòu)體,和結(jié)構(gòu)體在肽鏈中不同的位置組合.

      Bcipep數(shù)據(jù)庫是專門收集B細胞表位數(shù)據(jù)的數(shù)據(jù)庫,Swiss-Prot數(shù)據(jù)庫是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,作為非表位數(shù)據(jù)庫.通過對 Bcipep和Swiss-Prot數(shù)據(jù)庫的氨基酸對組成進行統(tǒng)計,發(fā)現(xiàn)表位和非表位的氨基酸對組成有很大差異[4],如圖1所示,以每種氨基酸對占總共400氨基酸對的比例作為縱坐標,以氨基酸對FI和MP為例,F(xiàn)I在Bcipep數(shù)據(jù)庫中占所有400種氨基酸對總數(shù)的0.067%,MP為0.037%,而在Swiss-Port數(shù)據(jù)庫中這兩種氨基酸對占的比例為0.242%和0.111%,通過對比說明表位和非表位數(shù)據(jù)之間存在氨基酸對的差異,因此很有必要對氨基酸對在表位和非表位數(shù)據(jù)中的差異信息進行提?。?/p>

      圖1 Bcipep和Swiss-Port數(shù)據(jù)庫中不同氨基酸片段比例Fig.1 Difference of AAPcomposition in Bcipep and Swiss-Port database

      2 加權(quán)貝葉斯特征提取方法

      Bayes編碼缺少氨基酸對結(jié)構(gòu)信息,文獻[7]中氨基酸對抗原性量的思想是對氨基酸對的一種表示,將其引入到貝葉斯特征提取中,使用滑動窗口將肽鏈序列分割成氨基酸對,并對氨基酸對進行加權(quán),提出了基于氨基酸對量表加權(quán)的貝葉斯特征提取方法.

      假設肽鏈序列S={s1,s2,…,sn},sj(j=1,2,…,n)表示肽鏈序列中第j個位置的氨基酸s,肽鏈序列S屬于表位或非表位,符號C1表示表位,C-1表示非表位,表1給出三條肽鏈樣本.根據(jù)公式有:其中:表示Ci數(shù)據(jù)中第j個位置上是氨基酸s的概率;P(Ci)表示所有肽鏈序列數(shù)據(jù)中Ci數(shù)據(jù)的概率;P(sj)表示在所有肽鏈序列數(shù)據(jù)中第j個位置上是氨基酸s的概率,Psj表示序列S上第j個位置的貝葉斯編碼.

      表1 三條肽鏈樣本Tab.1 Three peptide chains samples

      AAP作為一種最簡單的氨基酸組合模式和結(jié)構(gòu),包含了相鄰氨基酸相互之間的信息,文獻[4]利用同種AAP在表位數(shù)據(jù)和非表位數(shù)據(jù)中的頻率比值作為該AAP的抗原性量表,使用滑動窗口方式得到AAP編碼RAAP,將窗口長度設為2,從頭到尾每次向后滑動一個氨基酸,由此可得:

      本文提出的改進貝葉斯特征提取方法基于氨基酸對量表加權(quán),采用獨立隨機變量的方法去除氨基酸對量表中出現(xiàn)的冗余問題.改進后貝葉斯方法不僅包含單個氨基酸與分類結(jié)果的關系,還考慮到氨基酸之間的關系,通過增加特征提取所包含的肽鏈信息提高了預測的準確率.

      3 基于改進的貝葉斯特征提取的線性B細胞表位預測方法

      使用改進的貝葉斯特征提取方法并結(jié)合SVM分類器用于線性B細胞表位的預測,步驟如下.

      1)準備數(shù)據(jù)集,包括表位和非表位數(shù)據(jù)集,使用El-Manzalawy和Saha數(shù)據(jù)集,將兩組數(shù)據(jù)集分成訓練集和測試集,使用五折交叉驗證法生成五組對應的訓練集和測試集.

      2)特征提取和編碼,對兩組數(shù)據(jù)的訓練集進行特征提取,使用加權(quán)貝葉斯特征提取方法對數(shù)據(jù)集編碼,包括訓練集和測試集數(shù)據(jù).

      3)訓練分類器,本文使用SVM作為分類器,使用第二步中已編碼的訓練集數(shù)據(jù)作為SVM的輸入進行訓練,訓練過程完成SVM參數(shù)的確定.

      4)分類器預測,SVM參數(shù)確定之后,將第二步中已編碼的測試集數(shù)據(jù)作為分類器的輸入,得到分類器對測試集的結(jié)果.

      5)重復步驟3)、4),使用五組數(shù)據(jù)中的訓練集,并用訓練好的分類器測試相應的測試集數(shù)據(jù).

      4 實驗結(jié)果與分析

      4.1 實驗數(shù)據(jù)集

      用于線性B細胞表位預測的標準數(shù)據(jù)集較多,bcipep數(shù)據(jù)庫[8]是專門收集B細胞表位數(shù)據(jù)的網(wǎng)上公用數(shù)據(jù)庫,為了更準確地進行測試,本文使用與文獻[6]相同的數(shù)據(jù)集,引用El-Manzalawy和J.Chen已整理的數(shù)據(jù)集.

      1)由El-Manzalawy[9]從bcipep數(shù)據(jù)庫中的947條表位數(shù)據(jù)中整理的數(shù)據(jù)集,使用“延伸-截尾”方法得到(30、28、26、24、22、20、18、16、14、12)長度的701條表位數(shù)據(jù)集.數(shù)據(jù)下載地址:http://ailab.cs.iastate.edu/bcpreds/.

      2)J.Chen等[4]從bcipep數(shù)據(jù)庫中獲得并處理得到的固定長度為20的數(shù)據(jù),使用“延伸-截尾”方法得到(20、18、16、14、12、10)長度的872條表位數(shù)據(jù)集.數(shù)據(jù)下載地址:http://link.springer.com/article/10.1007%2Fs00726-006-0485-9.

      El-Manzalawy和S.Saha數(shù)據(jù)雖然都來自統(tǒng)一數(shù)據(jù)庫,由于處理方式、篩選尺度的不同,數(shù)據(jù)集仍存在較大的差別,多篇文獻也同時引用兩個數(shù)據(jù)集作為試驗數(shù)據(jù)集.

      3)從Swiss-Prot數(shù)據(jù)庫中隨機生成的固定長度的多肽作為非表位數(shù)據(jù).

      SVM常用的核函數(shù)四種,憑經(jīng)驗選擇RBF作為核函數(shù).本文使用的SVM來自于Chang[10]編寫的libsvm工具箱.為了提高實驗效果,采用libsvm自帶的網(wǎng)格搜索算法尋找C和σ2的最優(yōu)組合.

      4.2 評價指標

      采用五折交叉驗證法,將實驗數(shù)據(jù)分為5個子集,每次把1個子集作為測試集,其余的4個子集作為訓練集,每一個子集都被測試過1次,訓練過4次,最后將5次結(jié)果的平均值作為實際的實驗結(jié)果.

      使用的幾個評價指標包括特異性、敏感性、準確率、MCC(Mattew相關系數(shù))、AUC(受試者工作特征曲線下的面積).Rsen反映的是靈敏度,即真實表位被預測為表位的比率;Rspe反映的是特異性,即非表位被預測為非表位的比率;Racc反映的是準確率,即能夠被正確預測的表位和非表位的比率;Rpos反映的是陽性預測率,即被預測為表位中真實表位所占的比率;Mattew相關系數(shù)是一個性能綜合評價指標,其中,真陽性(TP)實際為正樣本被正確地預測為正樣本的樣本數(shù);假陽性(FP)實際為負樣本被錯誤地預測為正樣本的樣本數(shù);真陰性(TN)實際為負樣本被正確地預測為負樣本的樣本數(shù);假陰性(FN)實際為正樣本被錯誤地預測為負樣本的樣本數(shù).AUC值為ROC曲線下的面積,AUC越接近于1,說明效果越好.這些參數(shù)具體為:

      敏感度:Rsen=TP/(TP+FN)×100% 特異度:Rspe=TN/(TN+FP)×100%

      精確度:Racc=(TP+TN)/(TP+FP+TN+FN)×100% 陽性預測率:Rpos=TP/(TP+FP)×100%

      4.3 實驗結(jié)果及評價

      文獻[4]中的貝葉斯特征提取方法對數(shù)據(jù)提取的貝葉斯編碼中包含了訓練集和測試集的信息,僅提取訓練集數(shù)據(jù)的信息,對AAP編碼也僅提取訓練集數(shù)據(jù)信息.在兩個數(shù)據(jù)集上將加權(quán)貝葉斯特征提取方法,與貝葉斯特征提取方法作對比.

      表2、3是在El-Manzalawy數(shù)據(jù)集上使用貝葉斯特征提取方法,加權(quán)貝葉斯方法在不同長度窗口(12、14、16、18、20、22、24、26、28、30)下的參數(shù),由于都是采用SVM訓練分類器來進行分類,因此分類效果的區(qū)別主要來自特征提取方法,可以看出改進的貝葉斯方法除了特異度以外,在其他指標上整體參數(shù)均有提升.當窗口長度大于20時提升更加明顯,在窗口長度為26、28、30時準確率的提升達到了10個百分點.需要強調(diào)的是目前90%的表位數(shù)據(jù)長度都在20以下,數(shù)據(jù)集中長度大于20的表位數(shù)據(jù)都是利用源數(shù)據(jù)擴展得來,但是在一定程度上也表現(xiàn)出數(shù)據(jù)的性質(zhì),因此采用了大于20長度的表位數(shù)據(jù)集(22、24、26、28、30).

      表4、5是在Saha數(shù)據(jù)集上對貝葉斯特征提取方法和加權(quán)貝葉斯特征提取方法的比較,從表中可以看出,在Saha數(shù)據(jù)集上,各個長度的數(shù)據(jù)的實驗結(jié)構(gòu)相比貝葉斯方法改進后有較大的提升.20為肽鏈的經(jīng)典長度,在該長度下將兩個數(shù)據(jù)集的兩種特征提取方法繪制ROC曲線(圖2).從圖2可以看出,在El-Manzalawy數(shù)據(jù)集上,由于改進前方法的特異度高于改進之后的特異度值,兩條ROC曲線的AUC值并無太大差異;在Saha數(shù)據(jù)集上,改進后方法的敏感度和特異度均優(yōu)于改進前方法,可以看出ROC曲線下的AUC值有明顯提升.

      表2 貝葉斯特征提取在El-Manzalawy數(shù)據(jù)集上的參數(shù)Tab.2 Using Bayes feature extraction in El-Manzalawy dataset

      表3 加權(quán)貝葉斯特征提取在El-Manzalawy數(shù)據(jù)集上的參數(shù)Tab.3 Using weighted Bayes feature extraction in El-Manzalawy dataset

      表4 貝葉斯特征提取在Saha數(shù)據(jù)集上的參數(shù)Tab.4 Using Bayes feature extraction in Saha dataset

      表5 加權(quán)貝葉斯特征提取在Saha數(shù)據(jù)集上的參數(shù)Tab.5 Using weighted Bayes feature extraction in Saha dataset

      目前預測線性B細胞表位的方法較多,所提取的特征也不盡相同,但總體預測效果差不多.AAP方法是一種常用的線性B細胞表位預測方法,該方法以氨基酸對作為特征提取的基本單位.為了進一步說明本文提出方法的有效性,下面給出本文提出方法與AAP方法的對比實驗,為了避免數(shù)據(jù)人工處理帶來的誤差,這里取長度為20的表位數(shù)據(jù)在前面所述兩個數(shù)據(jù)集上進行試驗比對.

      圖2 El-Manzalawy,Saha數(shù)據(jù)集的兩種貝葉斯特征提取方法ROC曲線Fig.2 Both bayes and weighted bayes feature extraction ROC on El-Manzalawy,Saha dataset

      通過兩個數(shù)據(jù)集的實驗結(jié)果可以看出,AAP方法的敏感度(Rsen)比貝葉斯方法高,這說明此類特征能更準確描述表位數(shù)據(jù),而加權(quán)貝葉斯方法中的敏感度高于兩種方法,表明加權(quán)貝葉斯方法在描述表位數(shù)據(jù)上更加有效;特異度(Rspe)一定程度上受到敏感度的影響,使得加權(quán)貝葉斯方法在特異度上數(shù)值有所降低,由于表位數(shù)據(jù)來源于真實數(shù)據(jù),而非表位數(shù)據(jù)是從數(shù)據(jù)庫中隨機生成,這也影響了非表位數(shù)據(jù)的精度和實驗結(jié)果;準確率反映了整體的預測精度,加權(quán)貝葉斯方法相比其他兩種方法表現(xiàn)出了較好精度.從表6、7的結(jié)果可知,相比AAP算法,加權(quán)貝葉斯算法有更好的性能效果.

      表6 貝葉斯,加權(quán)貝葉斯,AAP提取方式在El-Manzalawy數(shù)據(jù)集上的參數(shù)Tab.6 Using Bayes,w -Bayes,AAP feature extraction in El-Manzalawy dataset

      表7 貝葉斯,加權(quán)貝葉斯,AAP提取方式在Saha數(shù)據(jù)集上的參數(shù)Tab.7 Using Bayes,w -Bayes,AAP feature extraction in Saha dataset

      5 結(jié)論

      對線性B細胞表位的預測是一個重要的問題,而特征提取是問題的重心所在.針對特征提取提出了一種基于氨基酸對量表加權(quán)的貝葉斯特征提取方法.在對氨基酸序列的特征提取上考慮了結(jié)構(gòu)的特征,把一種AAP量表引入到貝葉斯特征提取上來,根據(jù)對El-Manzalawy和Saha數(shù)據(jù)集的實驗,該方法能夠提高貝葉斯特征提取方法的預測精度.今后的研究工作重點是如何將改進貝葉斯的特征提取方法應用到線性B細胞表位的預測中去.

      猜你喜歡
      肽鏈表位貝葉斯
      H3N2流感病毒HA保守Th表位對CD4+T細胞活化及分化的影響
      例談基因表達過程中多種肽鏈的合成
      中學生物學(2019年2期)2019-04-16 00:54:00
      貝葉斯公式及其應用
      聯(lián)合T、B細胞表位設計多肽疫苗的研究進展①
      基于貝葉斯估計的軌道占用識別方法
      烷基鏈長及肽鏈電荷分布對脂肽雙親分子自組裝及水凝膠化的影響
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      小反芻獸疫病毒化學合成表位多肽對小鼠的免疫效果研究
      結(jié)核分枝桿菌抗原Lppx和MT0322人T細胞抗原表位的多態(tài)性研究
      膠原蛋白Ⅳ在腫瘤領域的研究進展
      调兵山市| 攀枝花市| 江西省| 叶城县| 宜兴市| 沙坪坝区| 盐边县| 黎平县| 阿拉善盟| 崇礼县| 南宫市| 大化| 康马县| 离岛区| 静宁县| 岚皋县| 华阴市| 鄂温| 浦东新区| 渭源县| 申扎县| 钦州市| 襄汾县| 镇宁| 岚皋县| 新巴尔虎左旗| 霍州市| 视频| 策勒县| 边坝县| 鄯善县| 隆林| 楚雄市| 张家界市| 岑巩县| 芜湖市| 鄂伦春自治旗| 和林格尔县| 德令哈市| 宣汉县| 会昌县|