• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于物化性質(zhì)對(duì)嗜熱蛋白的預(yù)測(cè)

      2017-04-10 06:13:27刀福英陳欣欣
      生物信息學(xué) 2017年1期
      關(guān)鍵詞:二肽物化氨基酸

      刀福英,陳欣欣,林 昊

      (神經(jīng)信息教育部重點(diǎn)實(shí)驗(yàn)室信息生物學(xué)中心(電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院),成都610054)

      基于物化性質(zhì)對(duì)嗜熱蛋白的預(yù)測(cè)

      刀福英,陳欣欣,林 昊*

      (神經(jīng)信息教育部重點(diǎn)實(shí)驗(yàn)室信息生物學(xué)中心(電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院),成都610054)

      嗜熱蛋白在高溫下能保持穩(wěn)定性和活性,是研究蛋白質(zhì)熱穩(wěn)定性的理想模型,開(kāi)發(fā)一個(gè)蛋白質(zhì)熱穩(wěn)定性識(shí)別的方法將對(duì)蛋白質(zhì)工程和蛋白質(zhì)的設(shè)計(jì)很有幫助。目前的研究中,氨基酸的組成及其物化性質(zhì)一直被認(rèn)為和蛋白質(zhì)的熱穩(wěn)定性相關(guān)。本研究篩選出可靠的數(shù)據(jù)集,包括915個(gè)嗜熱蛋白和793個(gè)非嗜熱蛋白。利用蛋白質(zhì)氨基酸的物化性質(zhì)和氨基酸的組成表征嗜熱蛋白,將二肽氨基酸組成整合到9組氨基酸物化性質(zhì)中使蛋白序列公式化。支持向量機(jī)5折疊交叉驗(yàn)證表明:當(dāng)gap=0時(shí),290個(gè)特征產(chǎn)生的精度最高,為92.74%。因此說(shuō)明對(duì)于分析蛋白質(zhì)的熱穩(wěn)定性,所建立的預(yù)測(cè)模型將是一個(gè)很有效的工具。

      嗜熱蛋白;熱穩(wěn)定性;偽氨基酸組分;氨基酸物化性質(zhì)

      嗜熱和嗜冷微生物是兩種重要的極端微生物, 存在于其中的嗜熱和嗜冷酶是基礎(chǔ)研究和工業(yè)應(yīng)用的熱點(diǎn),它有助于認(rèn)知蛋白質(zhì)折疊、蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系以及設(shè)計(jì)用于極端環(huán)境的生物催化劑。隨著第一個(gè)極端嗜熱微生物Methanococcusjannaschii基因組的公布, 研究者通過(guò)比較基因組(蛋白質(zhì)組)的方法對(duì)其穩(wěn)定性機(jī)制進(jìn)行了深入的探討。近年來(lái), 不少嗜冷微生物的基因組測(cè)序工作陸續(xù)完成, 使得對(duì)嗜熱和嗜冷蛋白穩(wěn)定性機(jī)理的研究不斷深入。盡管研究者對(duì)上述極端蛋白穩(wěn)定性機(jī)理的探討較多,但利用蛋白質(zhì)序列信息對(duì)其嗜熱和嗜冷特性的理論預(yù)測(cè)卻很少。

      從蛋白質(zhì)序列出發(fā)對(duì)其高級(jí)結(jié)構(gòu)及特性進(jìn)行理論預(yù)測(cè)所面臨的一個(gè)重要課題是如何有效提取蛋白質(zhì)序列特征, 氨基酸組成是最常用的一種方法, 此外, 利用二肽組成和偽氨基酸組成在一些情況下也取得了較好效果。在后基因組時(shí)代,隨著DNA和蛋白質(zhì)序列及結(jié)構(gòu)信息的大量積累,人們利用數(shù)學(xué)、計(jì)算機(jī)科學(xué)的知識(shí)分析、挖掘生物數(shù)據(jù),以尋求蘊(yùn)涵在其中的生物學(xué)規(guī)律。

      基于蛋白質(zhì)序列特性可以對(duì)嗜熱蛋白進(jìn)行預(yù)測(cè),Liang等[1]使用氨基酸耦合模型去區(qū)分嗜熱與嗜常溫蛋白,Zhang等[2]利用二肽和氨基酸組分來(lái)區(qū)分嗜熱與嗜常溫蛋白,其中五折交叉驗(yàn)證精度達(dá)86.6%,后來(lái)Gromiha和Suresh[3]將他們的數(shù)據(jù)去除冗余后,在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上運(yùn)用氨基酸組分得到的五折交叉驗(yàn)證精度達(dá)到了89%。Montanucci等[4]運(yùn)用支持向量機(jī)去預(yù)測(cè)蛋白質(zhì)熱穩(wěn)定性,jackknife交叉檢驗(yàn)的預(yù)測(cè)精度為88%。Wu等[5]提議運(yùn)用決策樹(shù)來(lái)預(yù)測(cè)蛋白質(zhì)熱穩(wěn)定性,其預(yù)測(cè)精度在80%以上。盡管以上這些研究都獲得了好的結(jié)果,但預(yù)測(cè)精度還有待提高。

      在本文的研究中,構(gòu)建了包括915個(gè)嗜熱蛋白和793個(gè)非嗜熱蛋白在內(nèi)的很可靠的標(biāo)準(zhǔn)數(shù)據(jù)集,運(yùn)用氨基酸二肽組分和九組氨基酸物化性質(zhì)來(lái)表征蛋白質(zhì)的特征,通過(guò)方差分析來(lái)進(jìn)行特征篩選,利用支持向量機(jī)區(qū)分嗜熱與非嗜熱蛋白。本文使用的特征篩選技術(shù)可以提高預(yù)測(cè)精度,經(jīng)過(guò)優(yōu)化的290個(gè)參數(shù)的五折疊交叉驗(yàn)證準(zhǔn)確率達(dá)到了92.74%,Jackknife交叉驗(yàn)證結(jié)果顯示有91.69%的嗜熱蛋白和91.42%的非嗜熱蛋白是正確預(yù)測(cè)的,其ROC曲線面積為0.963。因此表明本文構(gòu)建了較為精準(zhǔn)的模型,可以通過(guò)對(duì)未知蛋白的序列預(yù)測(cè)其耐熱性,從而可以判斷其是否具有熱穩(wěn)定性,是否可以運(yùn)用于相應(yīng)的酶工程之中。

      1 材料與方法

      1.1 構(gòu)建數(shù)據(jù)集

      在當(dāng)前的研究中,嗜熱蛋白和非嗜熱蛋白分別從嗜熱有機(jī)體和非嗜熱有機(jī)體中提取的。為了保證當(dāng)溫度上升到嗜熱生物的溫度時(shí)使獲得的非嗜熱蛋白變性,將60 ℃作為嗜熱有機(jī)體最適生長(zhǎng)溫度的最低溫度限制,將30 ℃作為非嗜熱有機(jī)體最適生長(zhǎng)溫度的最高溫度限制,對(duì)NCBI里1 126個(gè)全微生物基因組生物的最適生長(zhǎng)溫度進(jìn)行篩選,有136個(gè)原核基因組(包括17個(gè)古生菌和119個(gè)細(xì)菌)滿足要求。

      從UniProt中根據(jù)最適溫度的標(biāo)記分別從136個(gè)原核有機(jī)體中選取嗜熱和非嗜熱蛋白序列,為了保證得到數(shù)據(jù)的可靠性則需要滿足以下篩選步驟:(1)蛋白質(zhì)必須是經(jīng)過(guò)手動(dòng)注釋和審核的;(2)排除蛋白質(zhì)序列中具有歧義的殘基(例如帶有“X”,“B”和“Z”);(3)排除含有其他蛋白片段的序列;(4)排除從預(yù)測(cè)或同源關(guān)系中推論的缺少可信度的蛋白質(zhì)。嚴(yán)格遵照以上4個(gè)程序篩選得到1 329個(gè)嗜熱蛋白和1 250個(gè)非嗜熱蛋白。

      這里構(gòu)建的初步數(shù)據(jù)集中,通常還會(huì)存在一些冗余序列。數(shù)據(jù)集如果由許多相似度較高的樣本組成,那么較高的冗余度就會(huì)導(dǎo)致統(tǒng)計(jì)代表性降低。如果預(yù)測(cè)器由一個(gè)有偏倚的數(shù)據(jù)集訓(xùn)練而來(lái),更有可能產(chǎn)生錯(cuò)誤的高估結(jié)果。為了除去冗余并避免偏倚,使用了CD-HIT軟件[6]來(lái)篩選這些序列片段。

      CD-HIT的基本思路是先對(duì)所有數(shù)據(jù)集里的序列,根據(jù)序列的長(zhǎng)度從長(zhǎng)到短進(jìn)行排序,以最長(zhǎng)的一條序列作為第一個(gè)序列類。然后依次處理排好序的各條序列,CD-HIT不僅能夠?qū)为?dú)的數(shù)據(jù)集執(zhí)行去除冗余信息,還可以比較兩個(gè)不同的數(shù)據(jù)集。

      本文選取的一致性閾值為0.4,去除序列相似度性在40%以上的序列后,最終的數(shù)據(jù)集包括915個(gè)嗜熱蛋白和793個(gè)非嗜熱蛋白,最終獲得了1 708個(gè)樣本作為基準(zhǔn)數(shù)據(jù)集S,用公式表示如下:

      S=ST∪Snon-T

      (1)

      這里的兩個(gè)子集分別包含915個(gè)嗜熱蛋白樣本和793個(gè)非嗜熱蛋白樣本,符號(hào)“∪”表示兩個(gè)子集的并集。

      1.2 特征提取

      在嗜熱蛋白的預(yù)測(cè)中,用有效的數(shù)學(xué)公式來(lái)規(guī)定蛋白質(zhì)序列是一個(gè)很有效的方法。一個(gè)很直接的辦法是將公式表示全部蛋白質(zhì)序列的全部氨基酸,公式如下:

      P=R1R2R3…RL

      (2)

      其中R1、R2、R3......RL分別表示蛋白質(zhì)樣本P中的第1個(gè),第2個(gè),第3個(gè),…… ,第L個(gè)氨基酸殘基,有了這樣的公式,就可以被很多序列相似搜索工具用來(lái)進(jìn)行數(shù)據(jù)的預(yù)測(cè),比如BLAST、FASTA等,對(duì)于一個(gè)高的相似序列的數(shù)據(jù)集,它的預(yù)測(cè)結(jié)果往往是很好的,所以這樣的基于相似的方法是很直觀的,但是有一個(gè)不可忽視的問(wèn)題,在訓(xùn)練的數(shù)據(jù)集中查詢序列的相似序列如果不能被找到的話它是就不會(huì)起作用。因此在對(duì)蛋白分類時(shí)提議利用離散向量表示蛋白質(zhì)樣本。偽氨基酸組分表示蛋白質(zhì)序列是一個(gè)被廣泛使用的方法,偽氨基酸組分(PseACC)[7]是一種能夠很好地表征蛋白質(zhì)序列的信息參數(shù)。它不但能夠描述蛋白質(zhì)序列的氨基酸組成,而且能夠描述蛋白質(zhì)氨基酸序列的物理化學(xué)性質(zhì)的關(guān)聯(lián)。基于偽氨基酸組分的概念,本文做了一個(gè)提升,將二肽氨基酸組分代替氨基酸組分,并且進(jìn)行十組這樣的特征提取,即gap值從0取到9,表示兩氨基酸殘基間間隔從0到9。

      將g-gap二肽氨基酸組成來(lái)代替氨基酸組成,所以此參數(shù)不僅反映了兩類蛋白在序列的組成和序列順序的區(qū)別外,還能表現(xiàn)出殘基間相關(guān)性,在基準(zhǔn)數(shù)據(jù)集中將 400+nλ維向量表示每個(gè)蛋白質(zhì),表示公式如下:

      P=[x1…x400x400+1…x400+nλ]T

      (3)

      其中

      (4)

      (5)

      在公式(4)中,fu表示蛋白質(zhì)P中二肽氨基酸的標(biāo)準(zhǔn)頻率,公式(5)中nu表示蛋白質(zhì)P中第u個(gè)二肽氨基酸的數(shù)量,很容易理解的二肽的數(shù)量總共有400(20×20)個(gè),用二肽氨基酸頻率來(lái)表征蛋白質(zhì)的特征。

      下面對(duì)氨基酸物化性質(zhì)進(jìn)行描述。公式(4)τu中的表示序列物化性質(zhì)的相關(guān)性,由以下公式計(jì)算得到:

      (6)

      (7)

      (8)

      1.3 特征篩選

      由公式(3)可知,用400+nλ個(gè)特征表示每個(gè)蛋白,為了能夠得到最優(yōu)的特征集,使用方差分析來(lái)進(jìn)行特征篩選,將特征值進(jìn)行排序,由以下公式來(lái)對(duì)特征打分:

      (9)

      在該公式中xu(i,j)表示在第i類樣本中第j個(gè)樣本的第u個(gè)特征的頻率值;mi表示第i類樣本的樣本數(shù)(本文共有兩類樣本,m1=915為嗜熱蛋白,m2=793為非嗜熱蛋白)。分析該公式可知第u個(gè)特征對(duì)應(yīng)的打分值F越大表明該特征區(qū)分嗜熱蛋白與非嗜熱蛋白的能力越強(qiáng),因此將F值作為特征篩選標(biāo)準(zhǔn)。

      1.4 支持向量機(jī)

      根據(jù)耐熱性對(duì)蛋白質(zhì)進(jìn)行預(yù)測(cè)就是蛋白質(zhì)分類的過(guò)程。分類的方法很多,如費(fèi)歇爾判別式,神經(jīng)網(wǎng)絡(luò),集成學(xué)習(xí),k-鄰近算法等被廣泛用于蛋白質(zhì)的分類中。對(duì)小樣本的分類本文使用支持向量機(jī)來(lái)構(gòu)建分類器。

      支持向量機(jī)(Support Vector Machine,SVM)[8]是目前極其流行的數(shù)據(jù)挖掘的工具。SVM的基本思想有如下兩個(gè)方面:首先,支持向量機(jī)對(duì)線性條件下可以進(jìn)行分類情況進(jìn)行分析研究。當(dāng)遇到線性條件下無(wú)法進(jìn)行分類時(shí),理論上應(yīng)該把訓(xùn)練樣本通過(guò)某種非線性的映射對(duì)數(shù)據(jù)進(jìn)行升維處理,這樣就會(huì)把數(shù)據(jù)升為較高維度的特征向量空間,在此空間中,尋找出線性的最佳超平面;其次,支持向量機(jī)的思想是建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化的理論之上,支持向量機(jī)需要在高維空間中尋找分類超平面,尋找兩種類別的樣本點(diǎn)之間的最大分類間隔。本文通過(guò)網(wǎng)格搜索進(jìn)行5折疊交叉驗(yàn)證,找到最佳的特征。支持向量機(jī)可以由libsvm軟件包來(lái)運(yùn)行。

      1.5 評(píng)估指標(biāo)

      在統(tǒng)計(jì)學(xué)預(yù)測(cè)檢驗(yàn)中,對(duì)于一個(gè)給定的基準(zhǔn)數(shù)據(jù)集,jackknife檢驗(yàn)[9]能夠產(chǎn)生獨(dú)一無(wú)二的結(jié)果,所以在實(shí)際應(yīng)用中它經(jīng)常被用來(lái)評(píng)估方法的性能。為了節(jié)省計(jì)算時(shí)間,本文在特征篩選的過(guò)程中使用5折疊交叉檢驗(yàn),挑選出最佳的特征集之后運(yùn)用jackknife檢驗(yàn)再次對(duì)特征集計(jì)算檢驗(yàn)。它可在敏感性(Sn),特異性(Sp),準(zhǔn)確率(Acc),馬修相關(guān)系數(shù)(MCC)4個(gè)方面來(lái)評(píng)估。這4個(gè)參數(shù)由以下公式計(jì)算得到:

      (10)

      (11)

      (12)

      MCC=

      (13)

      Sn,Sp,Acc的范圍為[0,1],MCC范圍為[-1,1]。這里FN(False Negative)表示被判定為負(fù)樣本,但事實(shí)上是正樣本;FP(False Positive)表示被判定為正樣本,但事實(shí)上是負(fù)樣本;TN(True Negative)表示被判定為負(fù)樣本,事實(shí)上也是負(fù)樣本;TP(True Positive)表示被判定為正樣本,事實(shí)上也是正樣本。(本文正樣本為嗜熱蛋白,負(fù)樣本為非嗜熱蛋白)。這4個(gè)指標(biāo)通常被用在統(tǒng)計(jì)預(yù)測(cè)理論中,它們可以從4個(gè)不同的角度來(lái)定量的衡量預(yù)測(cè)系統(tǒng)的性能。

      此外,受試者特征曲線(ROC曲線)能兼顧靈敏度和特異性要求以綜合評(píng)價(jià)分類器的預(yù)測(cè)性能,曲線下面積作為量化指標(biāo)可以直觀有效的比較不同分類器的性能優(yōu)劣。線上的每個(gè)點(diǎn)都是對(duì)同一個(gè)分類器預(yù)測(cè)的反應(yīng),通常由于不同的判斷標(biāo)準(zhǔn)得出了一系列不同的預(yù)測(cè)結(jié)果。受試者操作特征曲線的橫坐標(biāo)軸通常為虛報(bào)概率,縱坐標(biāo)軸一般為擊中概率,根據(jù)測(cè)試數(shù)據(jù)在特定分類器的不同的判斷標(biāo)準(zhǔn)下得到的不同結(jié)果繪制出曲線。

      2 結(jié)果與討論

      2.1 物化性質(zhì)

      在蛋白質(zhì)的結(jié)構(gòu)和功能中氨基酸的物化性質(zhì)扮演著十分重要的角色,氨基酸的六種物化性質(zhì)被廣泛使用,分別是氨基酸的疏水性、親水性、氨基酸側(cè)鏈基團(tuán)質(zhì)量、-COOH基團(tuán)的解離常數(shù)、-NH3基團(tuán)解離常數(shù)、25℃時(shí)的等電點(diǎn),在本文的研究中,除了以上六種物化性質(zhì)外,還添加三種氨基酸物化性質(zhì),分別是氨基酸的剛性、柔性、不可替代性。九組氨基酸的物化性質(zhì)[10]運(yùn)用于公式(4)~(8)中。

      在蛋白質(zhì)的結(jié)構(gòu)和功能中,氨基酸側(cè)鏈基團(tuán)的硬度和靈活性包含著重要有用的信息,剛性與柔性值是通過(guò)主成分分析獲得的[11]。在生物的進(jìn)化中,有些殘基是很容易被替代的,但有些殘基卻很難被替代,不可替代性可由氨基酸的平均突變危險(xiǎn)性來(lái)描述[12],平均突變危險(xiǎn)性值越高表示該殘基越難以被替代,不可替代性反應(yīng)了在生命進(jìn)化過(guò)程中的突變危險(xiǎn)性。

      2.2 預(yù)測(cè)精度

      基于上面介紹的九組物化性質(zhì),本文可以得到400+9λ個(gè)特征,即在公式(3)~(6)中n=9,為了能夠包含盡可能多的相關(guān)信息,節(jié)省計(jì)算資源,本文取λ=10,因此,用490維向量表示每個(gè)數(shù)據(jù)集中的每個(gè)蛋白質(zhì)樣本。

      為得到最好的預(yù)測(cè)性能,挑選出具有最大精度的最佳特征,如果研究所有的特征,就會(huì)得到一個(gè)最好的特征集,但是490個(gè)特征的所有可能的組合的數(shù)目太大了,超出了大部分計(jì)算機(jī)的計(jì)算能力,所以要做到檢驗(yàn)所有特征組合的性能那是不可能的,為節(jié)省計(jì)算時(shí)間,運(yùn)用公式(9)中F打分來(lái)進(jìn)行特征篩選,首先根據(jù)每個(gè)特征對(duì)應(yīng)的F值從大到小進(jìn)行排序,然后將第一個(gè)特征即具有最大F值的特征用SVM計(jì)算其精度,接下來(lái),按照F值從大到小對(duì)應(yīng)的特征值依次加到前一個(gè)特征集,依次每次進(jìn)行SVM計(jì)算該特征集的精度,這個(gè)過(guò)程要一直重復(fù),直到最小F值特征包含到該特征集中,即一共包含490個(gè)特征。所以最后SVM計(jì)算會(huì)產(chǎn)生相應(yīng)的490個(gè)精度,分別是按照F值從大到小排列后的第一個(gè)特征對(duì)應(yīng)的精度,前兩個(gè)特征對(duì)應(yīng)的精度,前三個(gè)特征對(duì)應(yīng)的精度直到得到490個(gè)特征對(duì)應(yīng)的精度為止,比較得到的精度,會(huì)得到一個(gè)最高精度對(duì)應(yīng)的特征集?;谔卣骱Y選技術(shù),高維數(shù)據(jù)將會(huì)投射到低維空間,本文用該最佳的特征集來(lái)構(gòu)建最終的預(yù)測(cè)模型。

      變化參數(shù)gap的值分別取0到9,所以需要計(jì)算4 900(490×10)個(gè)特征集對(duì)應(yīng)的精度,將特征數(shù)作為橫坐標(biāo),將精度作為縱坐標(biāo),在笛卡爾坐標(biāo)系中得到10組曲線圖。如圖1所示,當(dāng)gap=0,橫坐標(biāo)290特征對(duì)應(yīng)的精度為92.74%,該精度為最高精度。用jackknife檢驗(yàn)計(jì)算該包含290個(gè)特征的模型,得Sn=91.69%,Sp=91.42%,表明該模型能夠正確識(shí)別嗜熱蛋白。

      為了用這290個(gè)特征一目了然的描繪該模型的性能,在圖2中繪制了ROC曲線,從圖中可以看出曲線靠近左邊和頂部坐標(biāo)軸,表明該模型適用于嗜熱蛋白與非嗜熱蛋白的分類,在jackknife交叉檢驗(yàn)中ROC曲線下的面積值為0.963。

      為了對(duì)比,基于相同的數(shù)據(jù)集,還通過(guò)WEKA用了樸素貝葉斯[13]、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林[14-15]三種方法進(jìn)一步計(jì)算分類性能,預(yù)測(cè)結(jié)果顯示在表1中,比較表1中的數(shù)據(jù),很明顯可以看出SVM是預(yù)測(cè)嗜熱蛋白的最好的算法。

      圖1 特征篩選結(jié)果*Fig.1 A plot to show the feature selection results

      *彩圖見(jiàn)電子版(http://swxxx.alljournals.cn/ch/index.aspx)(2017年第1期DOI:10.3969/j.issn.1672-5565.2017.01.201606001)

      圖2 最佳的290個(gè)特征在jackknife交叉驗(yàn)證中的ROC曲線Fig.2 The ROC curve for the model with 290 optimal 0-gap dipeptides in the jackknife cross-validation

      注:對(duì)角線表示ROC的面積為0.5。

      表1 比較不同算法的結(jié)果Table 1 Comparing the performance of different algorithms

      3 總結(jié)與展望

      蛋白質(zhì)的熱穩(wěn)定性與酶工程密切相關(guān),對(duì)蛋白質(zhì)熱穩(wěn)定性的研究將對(duì)蛋白質(zhì)工程和蛋白質(zhì)的設(shè)計(jì)很有幫助,因此,開(kāi)發(fā)了一個(gè)從非嗜熱蛋白中篩選識(shí)別出嗜熱蛋白的方法,獲得了高精度的模型。結(jié)果表明,該方法可以篩選有效的特征,提高預(yù)測(cè)性能,在優(yōu)化模型的基礎(chǔ)上,將建立一個(gè)在線的預(yù)測(cè)網(wǎng)絡(luò)服務(wù)器,便于識(shí)別嗜熱蛋白。在嗜熱蛋白分析和進(jìn)一步的實(shí)驗(yàn)研究中,這個(gè)預(yù)測(cè)將成為一個(gè)很有用的工具,此外,在這項(xiàng)研究中提出的方法可以推廣到其他蛋白質(zhì)的預(yù)測(cè)中。

      為了能夠得到更高精度的預(yù)測(cè)模型,接下來(lái)需要從以下方面來(lái)進(jìn)行工作:

      (1)實(shí)時(shí)更新搜索數(shù)據(jù)集,完善擴(kuò)大數(shù)據(jù)集。比如可以將數(shù)據(jù)集篩選標(biāo)準(zhǔn)的最適溫度范圍擴(kuò)大。

      (2)提取新特征。例如還可以提取氨基酸、三肽、四肽甚至多肽作為特征,或者選取不同的物化性質(zhì)作為特征等,篩選后尋求最佳精度,提高預(yù)測(cè)模型精度。

      (3)開(kāi)發(fā)更加準(zhǔn)確、快速的分類預(yù)測(cè)算法。比如可以將隨機(jī)森林和支持向量機(jī)相結(jié)合等。

      (4)拓展研究??梢詫⒌鞍踪|(zhì)的熱穩(wěn)定性理論與其他生物學(xué)過(guò)程相結(jié)合進(jìn)行研究,例如可以研究蛋白質(zhì)的亞細(xì)胞定位與其耐熱性的關(guān)系、嗜熱菌在生物催化中的應(yīng)用等相關(guān)領(lǐng)域。

      References)

      [1]LIANG H K, HUANG C M, KO M T, et al. Amino acid coupling patterns in thermophilic proteins[J]. Proteins,2005,59 (1): 58-63. DOI: 10.1002/prot.20386.

      [2]ZHANG G Y, FANG B S. Application of amino acid distribution along the sequence for discriminating mesophilic and thermophilic proteins[J]. Process Biochemistry,2006,41(8): 1792-1798. DOI: 10.1016/j.procbio.2006.03.026.

      [3]GROMIHA M M, SURESH M X. Discrimination of mesophilic and thermophilic proteins using machine learning algorithms[J]. Proteins,2008, 70(4): 1274-1279. DOI: 10.1002/prot.21616.

      [4]MONTANUCCI L, FARISELLI P, MARTELLI P L, et al. Predicting protein thermostability changes from sequence upon multiple mutations[J]. Bioinformatics,2008,24(13): 190-195. DOI:10.1093/bioinformatics/btn166.

      [5]WU L C, LEE J X, HUANG H D, et al. An expert system to predict protein thermostability using decision tree[J]. Expert Systems with Applications,2009, 36(5):9007-9014.DOI: 10.1016/j.eswa.2008.12.020.

      [6]LI W Z, GODZIK A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics, 2006,22(13):1658-1659. DOI: 10.1093/bioinformatics/btl158.

      [7]CHOU K C. Prediction of protein cellular attributes using pseudo-amino acid composition[J]. Proteins, 2001,43(3):246-255.DOI: 10.1002/prot.1035.

      [8]BHASIN M, RAGHAVA G P. ESLpred: SVM-based method for subcellular localization of eukaryotic proteins using dipeptide composition and PSI-BLAST[J]. Nucleic Acids Research,2004, 32(Web Server issue): W414-W419. DOI: 10.1093/nar/gkh350.

      [9]CHOU K C. Some remarks on protein attribute prediction and pseudo amino acid composition[J]. Journal of Theoretical Biology, 2011,273(1): 236-247. DOI: 10.1016/j.jtbi.2010.12.024.

      [10]TANG H, CHEN W,LIN H. Identification of immunoglobulins using Chou’s pseudo amino acid composition with feature selection technique[J]. Molecular BioSystems, 2016,12(4):1269-275.DOI:10.1039/C5MB00883B.

      [11]GOTTFRIES J, ERIKSSON L. Extensions to amino acid description[J]. Molecular Diversity ,2010, 14(4):709-718. DOI: 10.1007/s11030-009-9204-2.

      [12]LUO L F. The degeneracy rule of genetic code[J]. Origins of Life and Evolution of Biospheres,1988,18(1-2): 65-70. DOI:10.1007/BF01808781.

      [13]丁彥蕊,蔡宇杰,孫俊,等.基于SVM 和KNN 的蛋白質(zhì)耐熱性分類[J] 計(jì)算機(jī)工程與應(yīng)用,2007,43(16):228-237.

      DING Yanrui,CAI Yujjie,SUN Jun,et al. Protein heat tolerance classification based on SVM and KNN[J]. Computer Engineering and Applications,2007, 43(16):228-237.

      [14]賈富倉(cāng),李華.基于隨機(jī)森林的多譜磁共振圖像分割[J]. 計(jì)算機(jī)工程, 2005,31(10): 159-161.

      JIA Fucang,LI Hua. Multi spectral magnetic resonance image segmentation based on random forest[J]. Computer Engineering, 2005,31(10): 159-161.

      [15]張光亞,方柏山. 基于氨基酸組成分布的嗜熱和嗜冷蛋白隨機(jī)森林分類模型[J].生物工程學(xué)報(bào), 2008,24(2):302-308.

      ZHANG Guangya, FANG Baishan. Based on the distribution of the amino acid composition is addicted to heat and psychrophilic protein random forest classification model[J]. Chinese Journal of Biotechnology,2008,24(2):302-308.

      Prediction of thermophilic proteins based on physicochemical properties

      DAO Fuying,CHEN Xinxin,LIN Hao*

      (KeyLaboratoryforNeuro-InformationofMinistryofEducation,CenterforInformationalBiology,SchoolofLifeScienceandTechnology,UniversityofElectronicScienceandTechnologyofChina,Chengdu610054,China)

      Thermophilic proteins can keep stability and activity at high temperature, which are ideal materials to study stability of proteins. Developing a valuable method to identify thermostability of protein would be helpful for protein engineering. In the present study, amino acid composition and physicochemical properties of protein have been thought of being related to the thermostability of protein. A reliable benchmark dataset including 915 thermophilic proteins and 793 non-thermophilic proteins is constructed for training and testing the proposed model in this article. We define protein samples using physicochemical properties and component of amino acid, so we design a descriptor which will combine dipeptide composition with nine physiochemical properties of amino acids. The results by support vector machine (SVM) with 5-fold cross-validation show that the best accuracy is 92.74% by using 290 features when the parameter gap is 0, indicating that our model holds very high potential to become a useful tool for the research on protein thermostability.

      Thermophilic proteins;Thermostability;Pseudo amino acid composition;Physico-chemical roperties

      2016-06-26;

      2016-07-20.

      四川省應(yīng)用基礎(chǔ)研究項(xiàng)目(2015JY0100);中央高?;緲I(yè)務(wù)費(fèi)(ZYGX2015J144,ZYGX2015Z006)。

      刀福英,女,碩士研究生,研究方向:生物信息學(xué);E-mail:18200234053@163.com.

      *通信作者:林昊,男,研究員,碩士生導(dǎo)師,研究方向:生物信息學(xué);E-mail:hlin@uestc.edu.cn.

      10.3969/j.issn.1672-5565.2017.01.201606001

      Q51

      A

      1672-5565(2017)01-001-06

      猜你喜歡
      二肽物化氨基酸
      大型海藻中環(huán)二肽類抑藻活性化合物的分離純化
      左旋多巴與脯氨酸或谷氨酸構(gòu)成的環(huán)二肽的合成及其DPPH自由基清除活性測(cè)試
      月桂酰丙氨基酸鈉的抑菌性能研究
      UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      電化學(xué)發(fā)光分析法測(cè)定糖尿病相關(guān)二肽
      二肽的生物合成及應(yīng)用研究進(jìn)展
      物的人化與人的物化——當(dāng)代舞臺(tái)美術(shù)的表演
      一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
      檔案:一種物化的文化形態(tài)
      氨基酸分析儀測(cè)定玉米漿中17種游離氨基酸的不確定度評(píng)定
      宁蒗| 醴陵市| 河津市| 长武县| 余江县| 武陟县| 札达县| 长海县| 伊川县| 凤阳县| 怀安县| 沂源县| 定兴县| 鄂托克前旗| 山阴县| 古田县| 松江区| 五原县| 广昌县| 泰来县| 桐乡市| 海城市| 龙江县| 吴桥县| 罗源县| 天气| 枣强县| 调兵山市| 金乡县| 五常市| 石柱| 成安县| 东丽区| 昌黎县| 木兰县| 阿拉尔市| 临西县| 综艺| 连平县| 清水县| 峨眉山市|