• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主成分分析優(yōu)化參數(shù)預測水解酶的亞類

      2018-05-07 06:52:04王瑩程薇薇
      科技創(chuàng)新導報 2018年1期
      關(guān)鍵詞:水解酶模體主成分分析

      王瑩 程薇薇

      摘 要:本文基于前人建立的數(shù)據(jù)庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來表示序列信息,用主成分分析對序列向量進行分析,選取20個主要成分。將每條序列由20維向量來表示。用SVM算法對水解酶的亞類分別進行分類預測,在Jack-knife檢驗下的預測總精度為96.9%。

      關(guān)鍵詞:SVM算法 主成分分析 水解酶 模體

      中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2018)01(a)-0143-02

      酶是一種生物催化劑,存活在細胞中,影響著細胞生長、代謝等生命過程的化學反應[1]近些年,許多研究者通過利用生物信息學建立了相應的酶序列的數(shù)據(jù)庫,并通過分類預測算法及酶序列的相關(guān)特征建立數(shù)學模型對酶的家族類及其亞類的研究上取得了較好的預測結(jié)果。隨著酶序列的相關(guān)特征的增多,用來表示序列的向量維數(shù)也相應的增加,急需對其進行優(yōu)化,降低向量的維數(shù),以提高預測的總精度。因此,本文將用主成分分析的方法來降低序列特征的維數(shù),得到較好的預測精度。

      1 數(shù)據(jù)庫和方法

      1.1 數(shù)據(jù)庫

      本文選取2011年由我們小組構(gòu)建和整理新數(shù)據(jù)庫,其中水解酶5個亞類共4498條序列。

      1.2 特征參數(shù)

      1.2.1 氨基酸組分

      蛋白質(zhì)序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數(shù),來表示酶的序列信息。我們可以將一條酶序列替換為一個20維的向量。

      1.2.2 氨基酸緊鄰組分

      本文用氨基酸緊鄰組分將每條酶序列用400維向量來表示,以反映序列的結(jié)構(gòu)信息。將一條酶序列替換為一個400維的向量,同上一個參數(shù)。

      1.2.3 預測的二級結(jié)構(gòu)

      對于蛋白質(zhì)分子來說,它不僅只具有一級結(jié)構(gòu),還有二級結(jié)構(gòu)等。而二級結(jié)構(gòu)反映其空間結(jié)構(gòu)信息。因此,本文選取預測的二級結(jié)構(gòu)信息(P)作為特征參數(shù)。

      本文所使用的二級結(jié)構(gòu)信息是PSIpred(Position Specific Iterated pred)軟件[2]。對于一條酶序列,我們用一個3維的向量來表示3種二級結(jié)構(gòu)在該序列中出現(xiàn)的頻數(shù)。

      1.2.4 低頻功率譜密度值(F)

      功率譜密度可以反映蛋白質(zhì)序列的次序信息,本文將用其作為參數(shù)取得了較好的預測效果[3],功率譜密度值的提取方法如下[4]。

      (1)將酶序列轉(zhuǎn)為成數(shù)字序列。

      由于酶具有強疏水性,因此我們使用疏水值作為參數(shù)[6],使得每條酶序列變成數(shù)字序列。

      (2)離散傅里葉變換。

      酶序列數(shù)字化后,對它進行離散傅里葉變換,具體公式如下:

      1≤k≤L

      (3)提取功率譜密度值:,其中T為周期。

      (4)功率譜密度值的處理。

      因為每條酶序列長短不同,比較和分析其特性有一定的限制,需將長度不同的酶序列變?yōu)橄嗤L度。因此,根據(jù)信號的組成特點,本文將每條酶序列都轉(zhuǎn)換成15維的向量。

      1.2.5 MEME模體和功能模體

      模體是刻畫蛋白質(zhì)結(jié)構(gòu)和執(zhí)行功能的重要部分。因此,通過對模體的研究,我們就能得到該序列的功能信息及結(jié)構(gòu)特征。本文選用已被廣泛用于DNA及蛋白質(zhì)序列中模體搜索的MEME在線搜索器作為搜索工具[3]來搜索水解酶中的模體。本文限定6~15個氨基酸殘基作為模體的長度,并且每類亞類搜索5個模體類數(shù),統(tǒng)計每條酶序列。

      我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語言編譯實現(xiàn)。用來搜索水解酶的亞類的蛋白質(zhì)序列中出現(xiàn)的模體。對于每一條酶序列來說,記錄模體在序列中出現(xiàn)的頻數(shù)。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統(tǒng)計模體,水解酶共得到30個模體頻數(shù)值。

      1.3 主成分分析

      主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發(fā)展。主成分分析是一種通過降維的方法把多個變量化成幾個主成分的統(tǒng)計分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

      本文以氨基酸組分、氨基酸緊鄰組分、預測的二級結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來表示序列信息,將468維向量利用主成分分析的方法優(yōu)選出貢獻率較高的20維向量特征。因此,通過該方法每一條酶序列將由20維向量來表示。

      1.4 支持向量機算法

      支持向量機[4](SVM)是一種新型分類預測方法。SVM的基本思想是將把輸入數(shù)據(jù)通過非線性映射映射到一個高維的空間,然后在找到最優(yōu)超平面,最終超平面與樣本之間的距離最大。其中最優(yōu)超平面的判別函數(shù)為:,這里是內(nèi)積核函數(shù)。本文選取徑向基核函數(shù)進行計算。

      2 結(jié)語

      本文基于前人建立的數(shù)據(jù)庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進行分類預測,在Jack-knife檢驗下進行預測,總精度依次為96.9%。其中各亞類的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

      參考文獻

      [1] 閻隆飛,孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京:清華大學出版社,1999.

      [2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.

      [3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.

      [4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.

      [5] 許忠能.生物信息學[M].北京:清華大學出版社,2008.

      [6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.

      猜你喜歡
      水解酶模體主成分分析
      無底物情況下來白Rhoclococcus zopfii的腈水解酶中親核進攻試劑CYS165的活性狀態(tài)的探究(英文)
      腈水解酶反應機制與催化性能調(diào)控研究進展
      氨基甲酸乙酯水解酶的家族生物信息學分析
      生物信息學(2022年1期)2022-04-01 08:56:50
      基于Matrix Profile的時間序列變長模體挖掘
      植入(l, d)模體發(fā)現(xiàn)若干算法的實現(xiàn)與比較
      石油化工應用(2018年3期)2018-03-24 14:54:36
      基于網(wǎng)絡模體特征攻擊的網(wǎng)絡抗毀性研究
      主成分分析法在大學英語寫作評價中的應用
      大學教育(2016年11期)2016-11-16 20:33:18
      江蘇省客源市場影響因素研究
      SPSS在環(huán)境地球化學中的應用
      考試周刊(2016年84期)2016-11-11 23:57:34
      东源县| 绩溪县| 嘉善县| 绥江县| 科尔| 嘉善县| 邹平县| 灵武市| 敖汉旗| 南充市| 宁都县| 余庆县| 静乐县| 华阴市| 巫山县| 孙吴县| 湖州市| 富阳市| 湖南省| 重庆市| 富阳市| 巴楚县| 仁布县| 岑溪市| 汨罗市| 历史| 石棉县| 海丰县| 唐海县| 都兰县| 贵溪市| 木兰县| 安图县| 巍山| 寿阳县| 永春县| 容城县| 黄浦区| 呼玛县| 彭阳县| 化州市|