羅仕艷 金佳瑤
摘要:本文研究蛋白質(zhì)熱穩(wěn)定性預(yù)測方法,該方法首先提取了氨基酸組成和g-gap二肽特征,然后利用ANOVA方法對特征進行了選擇,最后通過Weka軟件及其免費提供的LibSVM軟件包來實現(xiàn)SVM的功能,對蛋白質(zhì)熱穩(wěn)定性進行預(yù)測。實驗表明該方法具有較好預(yù)測性能。
關(guān)鍵詞:蛋白質(zhì)熱穩(wěn)定性;機器學(xué)習(xí);特征提取
1 引言
蛋白質(zhì)的熱穩(wěn)定性是蛋白質(zhì)生化和生物技術(shù)研究的重要方面,它與酶工程特別相關(guān)。具有良好熱穩(wěn)定性的酶蛋白應(yīng)用在工業(yè)生物催化的領(lǐng)域有著巨大的前途和發(fā)展,如治理水污染,清理堵塞管道,釀造食品,生物制藥等[1]?,F(xiàn)如今,計算機技術(shù)在生物信息學(xué)的領(lǐng)域的作用越來越不可取代。試想,如果我們能夠從蛋白質(zhì)的結(jié)構(gòu)本身出發(fā)去對蛋白質(zhì)根據(jù)其熱穩(wěn)定性進行分類,那么就可以借助計算機高速的運算能力顯著提高獲得耐熱蛋白質(zhì)的幾率。由此可見,通過了解蛋白質(zhì)的序列和結(jié)構(gòu)所蘊含的信息而對蛋白質(zhì)的熱穩(wěn)定性進行分類具有重要的意義。
早在多年前,Perutz[2]等人在對細(xì)菌中的血紅蛋白等研究中就已經(jīng)涉及了蛋白質(zhì)熱穩(wěn)定性的相關(guān)內(nèi)容。從蛋白質(zhì)耐熱特性的研究結(jié)果中了解到蛋白質(zhì)的熱穩(wěn)定性與其氨基酸序列,離子對數(shù)量和鹽橋相關(guān)。Ding[3]等人在研究中對比了一些耐熱和耐溫的蛋白質(zhì)的二肽組成,充分地證實了蛋白質(zhì)的二肽組成對其熱穩(wěn)定性也存在著重大的影響。Pace[5]等人研究了四個不同的蛋白質(zhì)突變體的疏水作用,發(fā)現(xiàn)疏水作用與蛋白質(zhì)的結(jié)構(gòu)形成和維持其穩(wěn)定有著密切的關(guān)系[4]。
丁彥蕊等人[6]統(tǒng)計并且分析了16個家族中共32個蛋白質(zhì)序列的各種氨基酸含量,并且系統(tǒng)地分析了氨基酸組成對蛋白質(zhì)熱穩(wěn)定性的影響。發(fā)現(xiàn)隨著蛋白質(zhì)耐熱性的增強,氨基酸Ser和Cys含量明顯降低 , Arg、Ile、Pro的含量明顯升高。鄧明霞[7]等人測定了這些膠原蛋白的氨基酸組成和熱變性溫度,發(fā)現(xiàn)膠原蛋白發(fā)生熱變性時的溫度與堿性氨基酸、總極性氨基酸和帶電荷極性氨基酸的含量與呈正相關(guān)關(guān)系,而與亞氨基酸與非極性氨基酸的含量則呈現(xiàn)負(fù)相關(guān)的關(guān)系。
Zhang和Fang[8]還發(fā)現(xiàn),蛋白質(zhì)的二肽組成也蘊含著與蛋白質(zhì)的熱穩(wěn)定性相關(guān)的信息。Ding[9]等人使用了v-支持向量機的技術(shù)發(fā)現(xiàn)二肽組成和氨基酸組成都對蛋白質(zhì)的熱穩(wěn)定性有著重大的影響。
2 特征提取
(1)氨基酸組成
氨基酸組成表示各種氨基酸在蛋白質(zhì)中的含量,氨基酸組成能最直觀地體現(xiàn)出蛋白質(zhì)序列所包含的信息。
(2)g-gap二肽組成
g-gap二肽組成的特征提取方法,是計算某個長度為N的蛋白質(zhì)序列片斷中k個間隔距離的殘基對在該序列中的組成比例。本方法中,k最大為5。然而,當(dāng)k=0的時候,序列結(jié)尾會有1個氨基酸沒有其他氨基酸與之配對,這樣提取的殘基對數(shù)量為N-1;k=1時,有2個氨基酸沒有配對,那么提取出的殘基對數(shù)量為N-2;所以規(guī)律就是,當(dāng)序列長度為N,間隔為k時,一共可以提取的殘基對數(shù)量為N-k-1。
3 特征選擇
對于一個蛋白質(zhì)序列來說,我們可以從中提取到成百上千的特征,但是這些特征未必都對蛋白質(zhì)的熱穩(wěn)定性預(yù)測起到幫助。除此之外,大量的特征會導(dǎo)致計算機的運算時間過長,浪費計算機資源。所以最好的辦法就是通過特征選擇技術(shù)來選取一組對蛋白質(zhì)的熱穩(wěn)定性影響最大的特征,去掉冗余的參數(shù)。這樣得出的結(jié)果可靠性才有所保障。目前已經(jīng)提出了一些特征選擇的方法,如主成分分析、遺傳算法和最小冗余最大關(guān)聯(lián)等。但是Ding[10]等人提出了一種方差分析(ANOVA)的方法。ANOVA方法能夠簡單有效地分析出對某一事物具有重大影響的因素,因具有多種優(yōu)點而被廣泛使用。本文使用ANOVA方法對蛋白質(zhì)的g-gap二肽組成進行特征選擇。
4 分類器
Weka是一款非商業(yè)化的機器學(xué)習(xí)和數(shù)據(jù)挖掘軟件。它在Java環(huán)境下運行,并且免費、開源。其主要開發(fā)者是來自新西蘭的懷卡托大學(xué),至今已經(jīng)經(jīng)歷了20多年的發(fā)展和完善,其功能也已經(jīng)非常強大和成熟。本文使用Weka免費提供的LibSVM軟件包來實現(xiàn)SVM的功能。
5.總結(jié)
本文實現(xiàn)了一個蛋白質(zhì)熱穩(wěn)定性預(yù)測方法,利用特征提取、特征選擇算法以及支持向量機方法對蛋白質(zhì)根據(jù)其是否具有熱穩(wěn)定性而分類。
參考文獻:
[1]李晗.現(xiàn)代生物化工中酶工程技術(shù)研究與應(yīng)用[J].科技風(fēng),2020(06):132.
[2]Perutz M F, Raidt H. Stereochemical basis of heat stability in bacterial ferredoxins and in haemoglobin A2[J]. Nature, 1975, 255(5505): 256-259.
[3]Ding Y R, Cai Y J, Zhang G X, et al. The influence of dipeptide composition on protein thermostability[J]. FEBS Letters, 2004, 569(1-3): 284-288.
[4]王克夷.疏水作用和蛋白質(zhì)[J].生命的化學(xué),1999(05):37-39.
[5]Pace C N, Fu H, Fryar K L, et al. Contribution of Hydrophobic Interactions to Protein Stability[J]. Journal of Molecular Biology, 2011, 408(3): 514-528.
[6]丁彥蕊,蔡宇杰,烏云,須文波.氨基酸組成對蛋白質(zhì)耐熱性的影響[J].生物技術(shù),2004(04):47-50.
[7]鄧明霞,汪海波,楊玲,劉良忠,黃愛妮,張含俊.氨基酸組成及溶劑環(huán)境對淡水魚膠原蛋白熱穩(wěn)定性能的影響[J].現(xiàn)代食品科技,2015,31(12):111-120.
[8]Zhang G Y, Fang B. Application of amino acid distribution along the sequence for discriminating mesophilic and thermophilic proteins[J]. Process Biochemistry, 2006, 41(8): 1792-1798.
[9]Ding Y R, Cai Y J, Sun J. Identifying the Mesophilic and Thermophilic Proteins from their Amino Acid Composition with v-Support Vector Machines [J]. Journal of Algorithms & Computational Technology, 2010, 4(3): 335-348.
[10] H. Ding, P. M. Feng, W. Chen, et al. Identification of bacteriophage virion proteins by the ANOVA feature selection and analysis[J]. Molecular BioSystems, 2014, 10(8):2229-2235.
項目基金:國家級大學(xué)生創(chuàng)新項目(202111488009);作者:羅仕艷,衢州學(xué)院數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)本科學(xué)生。