• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于結(jié)合位點(diǎn)的輔酶A結(jié)合蛋白家族的分類

      2011-11-30 10:41:50劉振明金宏威張亮仁
      物理化學(xué)學(xué)報(bào) 2011年5期
      關(guān)鍵詞:構(gòu)象氫鍵位點(diǎn)

      樊 迪 劉振明, 金宏威 張亮仁

      (北京大學(xué)藥學(xué)院,天然藥物及仿生藥物國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100191)

      基于結(jié)合位點(diǎn)的輔酶A結(jié)合蛋白家族的分類

      樊 迪§劉振明§,*金宏威 張亮仁*

      (北京大學(xué)藥學(xué)院,天然藥物及仿生藥物國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100191)

      發(fā)展了一種基于分子相互識(shí)別的蛋白質(zhì)分類方法,應(yīng)用數(shù)據(jù)挖掘策略與統(tǒng)計(jì)學(xué)聚類,根據(jù)輔酶A (coenzyme-A,CoA)結(jié)合蛋白的結(jié)合模式特征數(shù)據(jù),通過對(duì)比和分析多種分類方法對(duì)該體系的分類準(zhǔn)確度,對(duì)這類體內(nèi)重要的蛋白進(jìn)行了分類方法學(xué)研究,選擇了最優(yōu)的兩步聚類法.本研究工作設(shè)計(jì)和建立了一個(gè)分類參數(shù),可以簡(jiǎn)潔有效地評(píng)價(jià)出各個(gè)結(jié)合特征的顯著性與重要性,并以此為依據(jù)從所有特征中篩選出決定性的特征變量.研究結(jié)果所得到的CoA結(jié)合蛋白的三個(gè)分類,都具有顯著的氫鍵與疏水結(jié)合特征;CoA可以與多個(gè)生物活性關(guān)鍵氨基酸殘基形成氫鍵作用.這些相互作用的共性及分類上的差異,說明了配體與不同受體相互作用過程中結(jié)合模式上的細(xì)微差別,對(duì)于以CoA結(jié)合蛋白為靶點(diǎn)的選擇性調(diào)控分子設(shè)計(jì)具有重要的參考意義與指導(dǎo)作用.

      輔酶A;蛋白質(zhì)分類;結(jié)合模式;聚類分析;泛酰巰基乙胺鏈

      1 引言

      蛋白質(zhì)與配體的結(jié)合模式特征及分類研究對(duì)于闡述體內(nèi)生理過程及藥物發(fā)現(xiàn)與選擇性改造具有重要的指導(dǎo)意義.作為化學(xué)基因組學(xué)的一種重要研究手段,從配體和受體的相互作用出發(fā),研究蛋白質(zhì)的功能分類,不僅可以揭示出分類特征與生物學(xué)功能之間的關(guān)系,同時(shí)也可以進(jìn)一步明確結(jié)合位點(diǎn)的特征,為基于該類靶點(diǎn)的藥物設(shè)計(jì)提供指導(dǎo).1-3目前,基于結(jié)合位點(diǎn)的蛋白質(zhì)分類功能學(xué)研究已經(jīng)有了一些成功的研究工作和進(jìn)展.4-13

      蛋白質(zhì)的分類算法可以分為有監(jiān)督的分類和無監(jiān)督的聚類兩種.有監(jiān)督分類的代表為機(jī)器學(xué)習(xí),其中以支持向量機(jī)(SVM)應(yīng)用最為廣泛;14-18無監(jiān)督聚類的代表為Kmeans、系統(tǒng)聚類等.19-21不同的研究小組對(duì)各種聚類算法進(jìn)行了深入的比較研究. Markowetz等18對(duì)268個(gè)蛋白基于序列進(jìn)行分類,使用SVM方法得到結(jié)果的準(zhǔn)確率明顯高于其他六種方法,尤其是在高維的情況下,有效地減少了錯(cuò)誤率.Kertész-Farkas等22評(píng)測(cè)了多種方法的交叉驗(yàn)證,包括SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等,驗(yàn)證得出在多種分類體系中SVM有著非常突出的表現(xiàn).

      圖1 輔酶A(CoA)的化學(xué)結(jié)構(gòu)Fig.1 Chemical structure of coenzyme-A(CoA)moleculeThe structure contains three fragments:adenosine,ribose,and 4-phospho pantetheine arm.

      CoA是生物體內(nèi)參與乙酰化反應(yīng)的重要輔酶,在糖、蛋白質(zhì)和脂肪的代謝過程中具有重要的作用. CoA的結(jié)構(gòu)如圖1所示,從左至右可以分為三個(gè)部分:4′-磷酸泛酰巰基乙胺鏈、糖環(huán)和腺苷.截止到2010年4月底,Protein Bank Database(PDB)數(shù)據(jù)庫(kù)中已經(jīng)發(fā)表的CoA結(jié)合蛋白晶體結(jié)構(gòu)共有218個(gè),在功能上涵蓋了很多重要的生理和病理過程.23從PDB已發(fā)表的晶體結(jié)構(gòu)上看,CoA在與不同蛋白受體結(jié)合時(shí),可以采取不同的堿基或者糖環(huán)取向.特別是4′-磷酸泛酰巰基乙胺鏈構(gòu)象的多樣性,充分說明了同一配體在與不同靶蛋白結(jié)合時(shí)可以采取多個(gè)低能空間范圍內(nèi)的藥效構(gòu)象.對(duì)這種現(xiàn)象和規(guī)律的研究有助于我們理解配體-受體結(jié)合過程中自由能焓變與藥效構(gòu)象選擇之間的關(guān)系.此外,CoA分子與其他一些核苷類分子如煙酰胺腺嘌呤二核苷酸磷酸(NADP)、黃素腺嘌呤二核苷酸(FAD)以及三磷酸腺苷(ATP)類似,都含有一個(gè)二磷酸腺苷(ADP)的結(jié)構(gòu)單元.這類結(jié)構(gòu)單元盡管在多類核苷分子中出現(xiàn),但是卻很少作為反應(yīng)單元直接參與到生化反應(yīng)中來,更多的時(shí)候是作為一種協(xié)助的角色出現(xiàn).24,25NADP與FAD作為輔因子在與蛋白進(jìn)行結(jié)合時(shí)通常采取類似的結(jié)合取向模板與蛋白中的經(jīng)典Rossman折疊區(qū)域結(jié)合.但是這種空間取向的平面與CoA分子是大相徑庭的.對(duì)CoA及其結(jié)合蛋白進(jìn)行研究,將有助于闡述其結(jié)構(gòu)和功能之間的內(nèi)在聯(lián)系.

      在已有研究工作的基礎(chǔ)上,我們建立和發(fā)展了一種新的蛋白質(zhì)分類流程與方法,通過深度挖掘提取CoA與蛋白的結(jié)合位點(diǎn)信息得到相互作用數(shù)據(jù),利用兩步聚類的方法對(duì)CoA結(jié)合蛋白家族進(jìn)行了分類研究.聚類結(jié)果及每一個(gè)類別的特征有助于對(duì)CoA及其結(jié)合蛋白的相互關(guān)系做更進(jìn)一步的了解,為相關(guān)的分子設(shè)計(jì)提供指導(dǎo)與幫助.

      2 研究方法

      本研究工作分為四個(gè)部分:(1)收集和處理數(shù)據(jù)樣本,對(duì)從PDB數(shù)據(jù)庫(kù)中獲取的晶體復(fù)合物進(jìn)行處理,分離得到受體和配體的結(jié)構(gòu)坐標(biāo)文件,并轉(zhuǎn)化為聚類計(jì)算所需要的文件格式;(2)對(duì)處理好的晶體文件進(jìn)行數(shù)學(xué)描述,將受體和配體之間相互作用的有、無和程度用量化的方式表示出來;(3)采用已知的數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法,分析量化好的數(shù)據(jù),對(duì)以上述數(shù)據(jù)為特征變量的蛋白質(zhì)進(jìn)行分類,并且進(jìn)行驗(yàn)證,選擇最優(yōu)方法與最優(yōu)解;(4)對(duì)分類的結(jié)果進(jìn)行分析,包括類別分析,特征變量分析,與其他分類體系對(duì)照等.具體流程如圖2所示.

      2.1 數(shù)據(jù)來源

      從PDB蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中以CoA為檢索詞搜索數(shù)據(jù)庫(kù),得到259個(gè)CoA結(jié)合蛋白的晶體文件;以含有完整CoA結(jié)構(gòu)、不重復(fù)、分辨率高優(yōu)先為原則,篩選出66個(gè)非冗余CoA結(jié)合蛋白.使用Sybyl 6.91程序26和Discovery Studio 2.0軟件包27提取復(fù)合物結(jié)合口袋信息,然后采用Pocket程序28進(jìn)行數(shù)據(jù)挖掘,得到CoA與20種天然氨基酸的氫鍵和疏水相互作用共72項(xiàng)特征數(shù)據(jù).其中氨基酸特征60個(gè),分別為與20種氨基酸形成氫鍵,CoA作氫鍵給體、受體或兩者兼有,分別用A、D、A/D表示;形成疏水作用的有12種氨基酸.詳細(xì)數(shù)據(jù)請(qǐng)參見本研究論文的補(bǔ)充材料部分(Supplementary materials: available free of charge via the internet at http://www. whxb.pku.edu.cn)

      圖2 對(duì)CoA結(jié)合蛋白進(jìn)行分類研究的實(shí)驗(yàn)設(shè)計(jì)流程圖Fig.2 Designed flow chart for CoAbinding proteins classification

      2.2 聚類方法比較選擇

      聚類分析指的是將集合中的對(duì)象按照相似性分為多類.聚類方法可以不指定分類數(shù)目,無需學(xué)習(xí);算法根據(jù)特征變量,自動(dòng)尋找相似性較高的元素,并將之作為同一類.研究工作中主要應(yīng)用和比較了K-means法、兩步聚類、系統(tǒng)聚類和SVM四種聚類方法.

      K-means法可譯為K均值法,又名快速聚類,是一種經(jīng)典的聚類方法,具體過程是:選擇聚類數(shù)k個(gè)值作為初始聚類中心,由n個(gè)待聚類變量組成n維空間,按照每個(gè)點(diǎn)距聚類中心最小原則,將各點(diǎn)劃入中心周圍,完成第一次迭代,接下來根據(jù)迭代計(jì)算平均值,將每一類的均值(共k個(gè))放入n維空間中,再作為新的聚類中心進(jìn)行第二次迭代,如此循環(huán),直至達(dá)到指定迭代次數(shù)或中止迭代條件.K-means法的缺陷在于選擇聚類中心的隨機(jī)性,以及異常值對(duì)聚類結(jié)果的影響.

      兩步聚類法的優(yōu)勢(shì)在于既可以處理連續(xù)變量,又可以處理分離變量,能自動(dòng)確定最佳聚類數(shù)目,對(duì)大數(shù)據(jù)集的處理速度快.首先是逐個(gè)掃描樣本,并計(jì)算每個(gè)樣本與已掃描樣本的距離并歸類,歸為已有類或生成新的類.然后,依據(jù)第一步的分類結(jié)果,根據(jù)各分類之間的距離,對(duì)各個(gè)類別進(jìn)行合并,并按照指定標(biāo)準(zhǔn)停止合并.最佳聚類數(shù)目的確定,需要兩個(gè)步驟.首先是使用貝葉斯信息量準(zhǔn)則(BIC)或赤池信息量準(zhǔn)則(AIC)初步估算聚類數(shù)目,然后,根據(jù)初步估算的結(jié)果,測(cè)算聚類之間的最近距離,并進(jìn)行修正.兩步聚類從一定程度上彌補(bǔ)了K-means的缺陷.

      系統(tǒng)聚類又名分層聚類,主要適用于樣本量不是很多的聚類分析,屬于比較泛用的聚類方法,有兩種方向相反的聚類過程.分解法是先把全部樣本看作一個(gè)大類,然后根據(jù)距離和相似性逐層分解為小類;凝聚法是先把每個(gè)樣本視為一類,根據(jù)距離和相似性逐漸合并.系統(tǒng)聚類法提供了多種聚類算法和量度的組合可供選擇,本研究工作選取了準(zhǔn)確率最高的三種組合.

      SVM方法的基本思想是:尋找一個(gè)超平面H(d),該超平面可以將訓(xùn)練集中的數(shù)據(jù)分開,且與類域邊界的沿垂直于該超平面方向的距離最大,故SVM法也被稱為最大邊緣(maximum margin)算法.其中,起主導(dǎo)作用的是“支持向量”,非支持向量的量.近年來,很多方法學(xué)對(duì)比的研究工作表明,一般情況下,在機(jī)器學(xué)習(xí)分類算法中,SVM具有最高的準(zhǔn)確率.本研究中,我們采用由臺(tái)灣大學(xué)林智仁編寫的Libsvm 2.9模式識(shí)別和回歸軟件包29來進(jìn)行SVM的分類.SVM方法作為有監(jiān)督分類的代表,在實(shí)際研究中表現(xiàn)出了較高的準(zhǔn)確率,在本研究中作為聚類分析方法的參照.

      2.3 特征的篩選

      在本研究體系中,作為分類依據(jù)的特征共有72個(gè),但實(shí)際上起主導(dǎo)作用的并非全部.將這些特征篩選出來,就是把結(jié)合位點(diǎn)特征挑選出來的過程.

      在統(tǒng)計(jì)學(xué)上,可以使用相關(guān)性分析、卡方檢驗(yàn)等方法來對(duì)各個(gè)變量的顯著性和相關(guān)性進(jìn)行研究.對(duì)于該體系,我們發(fā)展了一種簡(jiǎn)易的方法,可以有效地對(duì)分類特征進(jìn)行篩選.該方法對(duì)一個(gè)體系中兩個(gè)分類的分類特征的顯著性有比較好的區(qū)分效果.

      對(duì)于分為甲、乙兩組的每一個(gè)特征變量:

      其中:F為該方法的系數(shù),數(shù)值區(qū)間(-∞,+∞);a為該特征變量在甲組中出現(xiàn)的頻度;b為該特征變量在乙組中出現(xiàn)的頻度;X為該特征變量在甲組中的絕對(duì)數(shù)量;Y為該特征變量在乙組中的絕對(duì)數(shù)量.a/b,即為該特征變量在兩個(gè)分組中出現(xiàn)頻率之比,比值大于1表示在甲組中的出現(xiàn)率高于乙組,可判定為甲組特征;比值小于1則屬于乙組特征.取自然對(duì)數(shù)ln,可以將甲乙組的特征歸屬用正負(fù)來表示.由于采用比值,如果計(jì)算出a和b的絕對(duì)數(shù)量過小,會(huì)導(dǎo)致假陽(yáng)性的出現(xiàn),因此加入修正|X2-Y2|,即絕對(duì)數(shù)量之平方差的絕對(duì)值.平方差可因式分解為(X+Y)(X-Y),和可以增大絕對(duì)數(shù)量的權(quán)重,使兩個(gè)分組出現(xiàn)頻率皆很低但比值卻很大造成假陽(yáng)性的特征;差可以削減絕對(duì)數(shù)量較多,但兩組數(shù)量接近造成假陽(yáng)性的特征;取絕對(duì)值目的是保證取自然對(duì)數(shù)的結(jié)果的正負(fù)不改變,從而對(duì)正確的篩選起到積極作用.這樣,就可以基本完全排除假陽(yáng)性的出現(xiàn).

      只有一組獨(dú)有的特性直接作為特性處理,不參加運(yùn)算,然后將共有特性排除,不同分組之間互相計(jì)算系數(shù).正值越大,表示該特征變量越傾向于甲組特性;負(fù)值越大,表示該特征變量越接近乙組特性.通過對(duì)照數(shù)值與具體結(jié)合特征,判定F絕對(duì)值在30以上的特征變量是在分類中起主導(dǎo)作用的特征變量.

      3 結(jié)果與討論

      3.1 CoA結(jié)合蛋白的功能分類

      與核糖核酸類似物(包括COA、ATP、ADP等)相結(jié)合的蛋白質(zhì),可以從配體與蛋白質(zhì)作用的位點(diǎn)和功能分為兩類:(1)催化作用,(2)合成其他衍生物時(shí)作為底物或產(chǎn)物存在.以CoA為例,脂肪酸響應(yīng)性轉(zhuǎn)錄因子(PDB編號(hào):1H9G)與CoA的復(fù)合物中, CoA結(jié)合在催化位點(diǎn)上,發(fā)揮催化作用;而在HMG-COA還原酶(PDB編號(hào):1DQA)復(fù)合物中, CoA是以產(chǎn)物的形式存在的.以此為依據(jù),將66個(gè)蛋白分為兩類,其中CoA起催化作用的蛋白為44個(gè)(A組),作為產(chǎn)物或底物的22個(gè)(B組).本文后繼的方法學(xué)研究和聚類分析都是建立在這套數(shù)據(jù)的基礎(chǔ)之上的.

      3.2 聚類分析的結(jié)果與聚類方法比較

      分類完成之后,下一步是確認(rèn)該聚類方法的可信度,即聚類特征是否在體系內(nèi)能夠自洽;如果自洽,則證明該結(jié)果可信.我們采取兩種方式使用SVM方法與其他聚類分析方法作比較.其一,隨機(jī)選擇51組數(shù)據(jù)作訓(xùn)練集,測(cè)試剩余15組;其二,進(jìn)行交叉驗(yàn)證,將數(shù)據(jù)隨機(jī)分為多組,分別互相訓(xùn)練與測(cè)試,取得平均的準(zhǔn)確率.SVM的五重交叉驗(yàn)證結(jié)果,印證了國(guó)內(nèi)外很多工作的結(jié)論,即SVM的高準(zhǔn)確性.但人為將數(shù)據(jù)分為測(cè)試集和訓(xùn)練集后,其準(zhǔn)確率便會(huì)大打折扣,明顯低于期望值.具體結(jié)果如表1所示.

      分析原因,從交叉驗(yàn)證的原理看,交叉驗(yàn)證是多次訓(xùn)練與測(cè)試得到的平均結(jié)果;另一方面,隨機(jī)挑選訓(xùn)練集合測(cè)試集并預(yù)測(cè).與以往成功的實(shí)例相比,本實(shí)驗(yàn)66組數(shù)據(jù)的樣本量相對(duì)較小.前者為多次學(xué)習(xí)過程的平均,后者僅有一次,故準(zhǔn)確率差距很大.然而,SVM有監(jiān)督分類的本質(zhì),決定了其在本次實(shí)驗(yàn)中只能作為參照出現(xiàn).SVM交叉驗(yàn)證的結(jié)果,表明了在CoA結(jié)合蛋白中,CoA所處的地位不同,其結(jié)合位點(diǎn)的結(jié)合特征也有著顯著的特異性.

      K均值法,對(duì)兩個(gè)分類的預(yù)測(cè)準(zhǔn)確率均在60%以下.本研究工作所選取的數(shù)據(jù)體系比較復(fù)雜,維度為72,而由于K均值法的缺陷,即隨機(jī)性和異常值的影響,在高維度中,聚類中心的偏差尤其明顯,導(dǎo)致難以預(yù)測(cè)出正確的結(jié)果.

      系統(tǒng)聚類法提供了多種算法和量度的組合.經(jīng)過逐一實(shí)驗(yàn)對(duì)比,我們選出了表1中的三個(gè)組合.組內(nèi)聯(lián)結(jié)算法和余弦量度的組合,對(duì)催化組有較高的辨識(shí)度,但對(duì)底物組的結(jié)果卻是所有準(zhǔn)確率數(shù)值中最低的.另外兩種組合,總體準(zhǔn)確率低于K均值法.

      由表1可知,兩步聚類算法在無監(jiān)督分類方法中的準(zhǔn)確度是最高的.另外,兩步聚類法除克服了K均值法的缺陷外,同時(shí)還具有可以選擇讓其自動(dòng)確定分類數(shù)目的特點(diǎn),為聚類分析工作帶來一定的便利.因此,我們嘗試用不指定分類數(shù)目的兩步聚類法.CoA結(jié)合蛋白的最終聚類樹如圖3所示.可以看到,66個(gè)蛋白被自動(dòng)聚成了兩類,數(shù)目分別為21和45個(gè).其中,含21個(gè)蛋白的分類,包含19個(gè)催化型和2個(gè)底物型.由此說明催化組和底物組在結(jié)合位點(diǎn)上具有某些顯著的差異.被分到含45個(gè)蛋白聚類中的催化組蛋白,與被單獨(dú)分類出來的催化型CoA結(jié)合蛋白有一定程度的差異,在某些特征上與底物組近似.將催化組單獨(dú)提出,使用不指定聚類數(shù)目的兩步聚類法,進(jìn)一步分別得到數(shù)目為26和18的兩個(gè)亞類.最終,66個(gè)蛋白可以被分為三組:催化組1 (A1)、催化組2(A2)和底物組(B),數(shù)目分別是26、18和22個(gè).

      表1 幾種聚類方法準(zhǔn)確率的比較Table 1 Accuracy of several cluster analysis methods used in this research work

      圖3 基于結(jié)合位點(diǎn)特征的CoA結(jié)合蛋白的聚類結(jié)果Fig.3 Classification result of CoAbinding proteinsbased on substrate binding patterns

      3.3 結(jié)合位點(diǎn)特征分析

      66個(gè)蛋白中,有48個(gè)與ARG有氫鍵作用,39個(gè)與LYS有氫鍵作用,氨基酸殘基作氫鍵給體.CoA與ILE、LEU和PHE形成疏水作用的蛋白也占多數(shù),分別是39、44、37個(gè).這些特性,由于絕對(duì)數(shù)量過大,用本方法計(jì)算,將屬于假陽(yáng)性結(jié)果.即F值的絕對(duì)值很大而實(shí)際并不能歸類為特征.由于它們是作為CoA結(jié)合蛋白的共性特征存在的,可以為鑒別工作帶來幫助.例如,鑒別一個(gè)蛋白質(zhì)是否可以與CoA及其類似物結(jié)合,可以觀察結(jié)合口袋中是否含有這些氨基酸殘基.催化組與底物組,以及催化組內(nèi)部?jī)蓚€(gè)亞類的結(jié)合特征打分結(jié)果如表2所示.

      表中數(shù)值的絕對(duì)值越高,表明特性越明顯.正值表示該項(xiàng)為催化組的特征,負(fù)值表示該項(xiàng)為底物組的特征.由表可見,催化組與ASP、GLY、TYR發(fā)生氫鍵作用的較多,與LYS發(fā)生疏水作用的較多;底物組較多與HIS產(chǎn)生氫鍵和疏水作用.由表2可知,催化組與ASP、GLY、TYR發(fā)生氫鍵作用的較多,與LYS發(fā)生疏水作用的較多;底物組較多與HIS產(chǎn)生氫鍵和疏水作用.

      催化組中,A1組與HIS、SER、THR發(fā)生氫鍵作用的較多,與LYS發(fā)生疏水作用的較多;A2組與ASN、SER發(fā)生氫鍵作用的較多,與MET發(fā)生疏水作用的較多;二者均與SER有氫鍵作用,不同的是, A1組以氫鍵給體出現(xiàn),A2組既可作給體也可作受體.

      3.4 與其他分類體系之關(guān)系

      我們進(jìn)一步比較和研究了所得到的66個(gè)CoA結(jié)合蛋白的分類結(jié)果與按照已有的折疊模式(SCOP分類)30,31分類以及酶催化的化學(xué)反應(yīng)類型(EC編號(hào))分類32的異同,如圖4所示(圖4(A)是66個(gè)蛋白中部分按照SCOP的四大折疊類分類的結(jié)果;圖4(B)是按照EC編號(hào)進(jìn)行分類的結(jié)果,在本體系中,催化組大部分蛋白都具有EC編號(hào),但底物組只有一個(gè)蛋白具有EC編號(hào),因此這里主要對(duì)催化組進(jìn)行分析).

      表2 聚類結(jié)果的結(jié)合位點(diǎn)特征分析Table 2 Binding patterns analysis with the clustering results

      圖4 CoA結(jié)合蛋白的折疊模式(A)及酶催化的化學(xué)反應(yīng)類型(B)聚類結(jié)果Fig.4 Clustering results based on fold of CoAbinding proteins(A)and types of chemical reactions catalyzed by enzyme(B)

      由圖4(A)可以看出,A組(催化類)包含了all α、all β、α/β、α+β四個(gè)折疊類,B組(底物類)不包含all α類型,同時(shí)只含有一個(gè)all β類蛋白質(zhì).而在A1和A2組中,A1組不含all β類.因此可以得出結(jié)論,本分類方法與基于蛋白整體序列和結(jié)構(gòu)的分類是迥異的.

      EC編號(hào)全稱為Enzyme Commission number,是依據(jù)酶催化的化學(xué)反應(yīng)類型的一種蛋白質(zhì)分類方法.因此可以說,EC是基于功能的蛋白質(zhì)分類方法. EC的結(jié)構(gòu)如2.3.1.5,從左至右分別是四個(gè)分類層次.第一位是最上級(jí)的層次,包括氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶、合成酶,編號(hào)分別是1-6.在本體系中,催化型結(jié)合蛋白大部分具有EC編號(hào),底物型結(jié)合蛋白只有一個(gè)蛋白具有EC編號(hào),故主要對(duì)催化型結(jié)合蛋白進(jìn)行分析.從圖4(B)中可以看出,編號(hào)相同的蛋白質(zhì)都被正確地分到了同一組.絕大多數(shù)催化組蛋白質(zhì)屬于2類,即轉(zhuǎn)移酶,而其中的大部分屬于2.3.1類,該類是催化氨酰基以外反應(yīng)的?;D(zhuǎn)移酶.在這類蛋白中,第四位編號(hào)有: 4、5、6、7、8、18、30、41、50、82、128、168幾種,其中5、8、41和168被劃為催化組A2類,其余為催化組A1類.由此可推論,基于結(jié)合位點(diǎn)特征的CoA結(jié)合蛋白的分類歸屬,與蛋白質(zhì)的功能關(guān)系非常密切.

      使用SVM機(jī)器學(xué)習(xí)方法對(duì)SCOP的分類結(jié)果進(jìn)行驗(yàn)證.首先,將28個(gè)在SCOP中按照折疊子分類的單提取出來,將all α標(biāo)記為1類,all β標(biāo)記為2類,α/β標(biāo)記為3類,α+β標(biāo)記為4類.然后使用Libsvm進(jìn)行五重交叉驗(yàn)證,即將所有數(shù)據(jù)隨機(jī)分為5類,互相訓(xùn)練和測(cè)試,重復(fù)多次,最終計(jì)算出平均的準(zhǔn)確率.最終,準(zhǔn)確率是64.29%.這個(gè)數(shù)字表明,體系中的分類變量無法支撐SCOP的分類結(jié)果.說明基于結(jié)合模式的分類方式完全不同于基于蛋白的分類.進(jìn)一步證明結(jié)合模式與結(jié)合位點(diǎn)特征,與蛋白質(zhì)的結(jié)構(gòu)關(guān)系并不緊密,結(jié)合位點(diǎn)特征相似的蛋白質(zhì),其外部結(jié)構(gòu)差異可能會(huì)非常大.

      3.5 構(gòu)象研究

      圖5 以腺苷為模板對(duì)CoA分子進(jìn)行疊合的結(jié)果Fig.5 Structure aliment of CoAbases on adenosine fragment

      我們嘗試從組成CoA分子的三個(gè)部分出發(fā),使用Sybyl 6.91程序,對(duì)66個(gè)復(fù)合物中的CoA分子的構(gòu)象進(jìn)行疊合.我們首先選擇腺苷堿基部分作為疊合模板,因?yàn)檫@是CoA分子中最為剛性的結(jié)構(gòu)部分.但是疊合的結(jié)果發(fā)現(xiàn),當(dāng)腺苷環(huán)固定后,分子其他部分的取向變得非常的無序(如圖5所示),這從某種程度上說明在CoA分子與蛋白質(zhì)結(jié)合時(shí),腺苷環(huán)可能不構(gòu)成主要的鉚定結(jié)構(gòu).

      隨后,我們以糖環(huán)為模板,將三個(gè)亞類蛋白中的CoA構(gòu)象進(jìn)行疊合,如圖6所示.可以看到,從整體來看,以糖為模板,糖環(huán)構(gòu)象基本無出入,但糖環(huán)上的磷酸基構(gòu)象很多樣,長(zhǎng)鏈的分布無規(guī)律性.

      值得注意的是嘌呤環(huán)的取向.由圖6可以看到,在糖環(huán)重合的情況下,全部CoA構(gòu)象中的嘌呤環(huán)的取向基本一致,在糖環(huán)平面之上,絕大多數(shù)嘌呤環(huán)為同一方向,有極少數(shù)取向相反.底物組蛋白全部遵循這個(gè)規(guī)律,為同一取向,但催化型中,有少數(shù)例外.例外的蛋白為:A1組的1CM0的其中一個(gè)亞基和1S7N,A2組的1H9G和2H7C.

      1CM0,p300/CBP相關(guān)因子,重要的組蛋白乙酰轉(zhuǎn)移酶.圖7中顯示的是取向特殊的亞基A的結(jié)合情況,結(jié)合口袋為開放式,CoA蜷曲狀填充入結(jié)合口袋,可以看到結(jié)合口袋附近并未填充滿,可以作為潛在的分子設(shè)計(jì)靶點(diǎn).嘌呤環(huán)取向不同于其他,是與圖中所示水分子形成水橋所致,溶劑效應(yīng)在構(gòu)象的形成中起了一定的作用.另一個(gè)亞基B的嘌呤環(huán)周圍并無水分子,取向是與總體規(guī)律相同,因?yàn)榫头肿映饬Χ?嘌呤環(huán)的這種取向更加穩(wěn)定.

      PDB編號(hào)為2H7C的結(jié)構(gòu)是人的羧酸酯酶,是一個(gè)含有6個(gè)相同亞基的多聚體(如圖8所示).結(jié)合口袋較為狹窄,長(zhǎng)鏈完全伸入結(jié)合口袋的深部.同樣,由于水分子的作用,嘌呤環(huán)與蛋白質(zhì)橋接,導(dǎo)致嘌呤環(huán)構(gòu)象扭轉(zhuǎn).由此可得出結(jié)論,這幾個(gè)特例是溶劑造成的.這也提示我們?cè)诜肿釉O(shè)計(jì)中,應(yīng)當(dāng)充分考慮溶劑對(duì)結(jié)合的影響.

      圖6 以糖環(huán)為平面對(duì)CoA構(gòu)象進(jìn)行疊合Fig.6 Superimposition of CoAbased on the ribose ring(A)superimposition of CoAconformations binding with catalytic site;(B)superimposition of CoAconformations binding with substrate site; (C)A1sub-class of CoAconformations binding with catalytic site;(D)A2sub-class of CoAconformations binding with catalytic site

      圖7 1CM0的A亞基結(jié)合口袋(a)與B亞基結(jié)合口袋(b)Fig.7 Binding sites of CoAwithAsubunit(a)and B subunit(b)from the crystal structure 1CM0

      在CoA的結(jié)構(gòu)中,長(zhǎng)鏈部分是多樣性最強(qiáng)的. CoA可以與多種具有不同結(jié)構(gòu)與功能的蛋白質(zhì)分子結(jié)合,由于這些蛋白質(zhì)分子的結(jié)構(gòu)和功能截然不同,結(jié)合位點(diǎn)也具有多樣性,因此CoA與之結(jié)合時(shí),通過采用多種不同構(gòu)象與之適應(yīng),從而發(fā)揮不同的調(diào)控作用.CoA的長(zhǎng)鏈屬于柔性結(jié)構(gòu),因此在構(gòu)象的變化中起到了主導(dǎo)作用.由CoA的這種現(xiàn)象可以看出,配體可以通過改變自身的構(gòu)象,來起到調(diào)控不同結(jié)構(gòu)和功能的蛋白質(zhì)的作用.

      圖8 人羧酸酯酶(PDB:2H7C)中CoA的結(jié)合位點(diǎn)Fig.8 Binding sites of CoAwith human carboxylesterase (PDB entry:2H7C)

      圖9 根據(jù)泛酰巰基乙胺鏈為模板對(duì)CoA分子進(jìn)行疊合后得到的兩種情況Fig.9 Superimposition of CoAbased on pantetheine arm with N24,N28 and C20 fixed(A)CoAbinding with N-acetyltransferase folding protein family; (B)CoAbinding with proteins belongs to single-stranded, left-handed and beta-helix fold family

      事實(shí)上,CoA分子識(shí)別和轉(zhuǎn)運(yùn)?;鶊F(tuán)的主要功能是通過泛酰巰基乙胺鏈上的巰基完成的.在生化反應(yīng)中,CoA分子首先通過巰基基團(tuán)結(jié)合一個(gè)?;?由于碳硫鍵具有很高的能量,因此很容易后繼將酰基基團(tuán)轉(zhuǎn)移給相應(yīng)的受體.在泛酰巰基乙胺鏈上,多個(gè)原子參與了CoA分子和蛋白受體之間的相互作用,在其中起到氫鍵給體或者受體的作用.

      我們重新按照泛酰巰基乙胺鏈為模板進(jìn)行了疊合,結(jié)果發(fā)現(xiàn)CoA分子的空間取向可以按照長(zhǎng)鏈的構(gòu)象分為幾類,處于同一分類中的蛋白有可能具有類似的動(dòng)力學(xué)轉(zhuǎn)運(yùn)機(jī)制.在轉(zhuǎn)運(yùn)的過程中,泛酰巰基乙胺鏈會(huì)轉(zhuǎn)動(dòng)到一定的取向上,然后結(jié)合到蛋白質(zhì)高度保守的活性位點(diǎn)區(qū)域.圖9是將側(cè)鏈上N-4P, N-8P和C-12P作為疊合中心進(jìn)行分子疊合后得到的兩種情況,其中圖9(A)中CoA分子對(duì)應(yīng)的蛋白全部來自于N-乙酰轉(zhuǎn)移酶折疊蛋白家族,圖9(B)中的蛋白則全部屬于左手β螺線管折疊類型,這在某種意義上與SCOP的分類又有所類似.

      4 結(jié)論

      利用數(shù)據(jù)挖掘策略和統(tǒng)計(jì)學(xué)分析方法探索出了一條從數(shù)據(jù)收集、挖掘到分析的策略并進(jìn)行了針對(duì)CoA結(jié)合蛋白的分類研究工作,為基于結(jié)合位點(diǎn)的蛋白質(zhì)分類工作的具體操作過程和結(jié)果分析提供了一條有效途徑.

      本研究驗(yàn)證了在對(duì)CoA結(jié)合位點(diǎn)特征數(shù)據(jù)的分析中,兩步聚類法是一種簡(jiǎn)單而準(zhǔn)確的聚類分析方法,可以高準(zhǔn)確率地將體系進(jìn)行聚類,在類似的蛋白質(zhì)分類工作中具有很高的實(shí)用性.基于結(jié)合模式的CoA結(jié)合蛋白分類,在分類過程和結(jié)果上,都不同于傳統(tǒng)的基于序列的分類體系,而且相差甚遠(yuǎn).但是這種分類體系和基于功能的分類有著微妙的聯(lián)系.

      在分類結(jié)果的分析上,建立了一個(gè)新創(chuàng)的系數(shù),能夠比較方便而有效地評(píng)價(jià)兩分類中各個(gè)分類特征的重要程度,并對(duì)尋找分類之間的共性和特性具有較大的幫助,具有較強(qiáng)的實(shí)用價(jià)值.CoA結(jié)合蛋白在結(jié)合上具有明顯的共性和特性,其中包括CoA分子中磷酸基結(jié)構(gòu)與結(jié)合口袋中堿性氨基酸的氫鍵作用,長(zhǎng)鏈上的羰基與氨基酸殘基中的氨基相互作用等,可以在藥物設(shè)計(jì)時(shí),充分考慮到這些特性,并將之應(yīng)用到實(shí)際工作中.同時(shí),CoA在結(jié)合位點(diǎn),在構(gòu)象上也有一定的規(guī)律,嘌呤環(huán)具有趨向性特例顯示,溶劑因素對(duì)配體構(gòu)象有較大影響,設(shè)計(jì)分子時(shí)應(yīng)當(dāng)充分考慮這方面的影響.

      (1)Andersson,C.D.;Chen,B.Y.;Linusson,A.Proteins 2010,78, 1408.

      (2) Gold,N.D.;Jackson,R.M.J.Chem.Inf.Model.2006,46,736.

      (3)Arnold,J.R.;Burdick,K.W.;Pegg,S.C.H.J.Chem.Inf. Comp.Sci.2004,44,2190.

      (4) Hoppe,C.;Steinbeck,C.;Wohfahrt,G.J.Mol.Graph.Model. 2006,24,328.

      (5) Gold,N.D.;Jackson,R.M.J.Mol.Biol.2006,355,1112.

      (6) Izrailev,S.;Farnum,M.A.Proteins 2004,57,711.

      (7) Liu,Z.M.;Li,B.;Lai,L.H.Acta Phys.-Chim.Sin.2005,21, 1143.[劉振明,李 博,來魯華.物理化學(xué)學(xué)報(bào),2005,21, 1143.]

      (8) Cappello,V.;Tramontano,A.;Koch,U.Proteins 2002,47,106.

      (9) Kinnings,S.L.;Jackson,R.M.J.Chem.Inf.Model.2009,49, 318.

      (10) Doppelt-Azeroual,O.;Delfaud,F.;Moriaud,F.Protein Sci. 2010,19,847.

      (11) Li,B.;Liu,Z.M.;Zhang,L.G.;Lai,L.H.J.Chem.Inf.Model. 2009,49,1725.

      (12) Balakin,K.V.;Tkachenko,S.E.;Lang,S.A.J.Chem.Inf. Comp.Sci.2002,43,1332.

      (13) Patel,R.Y.;Doerksen,R.J.J.Proteome Res.2010,9,4433.

      (14) Cai,C.Z.;Han,L.Y.;Ji,Z.L.Nucl.Acids Res.2003,31,3692.

      (15) Cai,C.Z.;Wang,W.L.;Sun,L.Z.Math.Biosci.2003,185,111.

      (16)Shamim,M.T.A.;Anwaruddin,M.;Nagarajaram,H.A. Bioinformatics 2007,23,3320.

      (17) Vapnik,V.N.The Nature of Statistical Learning Theory,1st ed.; Springer-Verlag:New York,1999;pp 30-39.

      (18) Markowetz,F.;Edler,L.;Vingron,M.Biometrical J.2003,45, 377.

      (19) Shen,H.B.;Yang,J.;Liu,X.J.Biophys.Res.Commun.2005, 334,577.

      (20) Kong,J.H.;Fish,D.R.;Rockhill,R.L.J.Comp.Neurol.2005, 489,293.

      (21) Liu,Y.;Li,X.Q.;Xu,H.S.;Qiao,H.Acta Phys.-Chim.Sin. 2009,25,2558.[劉 岳,李曉琴,徐海松,喬 輝.物理化學(xué)學(xué)報(bào),2009,25,2558.]

      (22) Kertész-Farkas,A.;Dhir,S.;Sonego,P.;Pacurar,M.;Netoteia, S.;Nijveen,H.;Kuzniar,A.;Leunissen,J.A.M.;Kocsor,A.; Pongor,S.J.Biochem.Biophys.Methods 2008,70,1215.

      (23)Welcome to Brookhaven Protein Data Bank.http://www.rcsb. org(accessed,2010).

      (24) Leonardi,R.;Zhang,Y.M.;Rock,C.O.Prog.Lipid Res.2005, 44,125.

      (25) Rudel,L.L.;Lee,R.G.;Cockman,T.Curr.Opin.Lipidol.2001, 12,121.

      (26) Sybyl 6.91.http://www.tripos.com.Tripos;USA,2001.

      (27) Discovery Studio 2.0.http://www.accelrys.com/.Accelrys; USA,2008.

      (28) Chen,J.;Lai,L.H.J.Chem.Inf.Model.2006,46,2684.

      (29) Chang,C.;Lin,C.LIBSVM,Version 2.3;Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.2001.

      (30) Murzin,A.G.;Brenner,S.E.;Hubbard,T.;Chothia,C.J.Mol. Biol.1995,247,536.

      (31)Andreeva,A.;Howorth,D.;Chandonia,J.M.;Brenner,S.E.; Hubbard,T.J.P.;Chothia,C.;Murzin,A.G.Nucleic Acids Res. 2008,36,D419.

      (32) Gasteiger,E.;Gattiker,A.;Hoogland,C.;Ivanyi,I.;Appel,R. D.;Bairoch,A.Nucleic Acids.Res.2003,31,3784.

      December 17,2010;Revised:January 25,2011;Published on Web:March 18,2011.

      Classification of Coenzyme-A Binding Proteins Based on Co-Factor Binding Modes

      FAN Di§LIU Zhen-Ming§,*JIN Hong-Wei ZHANG Liang-Ren*
      (State Key Laboratory of Natural and Biomimetic Drugs,School of Pharmaceutical Sciences,Peking University, Beijing 100191,P.R.China)

      This study developed a mutual recognition of the proteins based on molecular classification, data mining strategies and the statistical clustering method,which was applied to study and classify clusters of coenzyme-A(CoA)binding proteins with their binding patterns extracted by using Pocket1.0 program.Several strategies have been evaluated for the accuracy of the system analysis and the two-step clustering method has been shown to be the best.The results revealed that the known CoA binding proteins can be clustered into three groups by using this approach.The designed classification coefficient was used effectively to identify the critical features for classification.The results show that both hydrogen bonds and hydrophobic interactions are important in all three clusters and that quite a few important residues related to biological activities are involved in the formation of hydrogen bonds.The classification of these interactions and the discovery of the characteristics and differences between the three clusters will have some utility for the design of specific agonists and antagonists.

      Coenzyme-A;Protein classification;Binding mode;Cluster analysis;Pantetheine

      O641

      *Corresponding authors.ZHANG Liang-Ren,Email:liangren@bjmu.eud.cn;Tel:+86-10-82802567.LIU Zhen-Ming,Email:zmliu@bjmu.edu.cn; Tel:+86-10-82805514.

      §These authors contributed equally to this work.

      The project was supported by the Major National Science and Technology Program of Key Drug Scheme Funds,China(2009ZX09501-002)and National Natural Science Foundation of China(20802006).

      重大新藥創(chuàng)制國(guó)家科技重大專項(xiàng)(2009ZX09501-002)和國(guó)家自然科學(xué)基金(20802006)資助項(xiàng)目

      猜你喜歡
      構(gòu)象氫鍵位點(diǎn)
      教材和高考中的氫鍵
      鎳基單晶高溫合金多組元置換的第一性原理研究
      上海金屬(2021年6期)2021-12-02 10:47:20
      CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
      二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
      一種一枝黃花內(nèi)酯分子結(jié)構(gòu)與構(gòu)象的計(jì)算研究
      玉米麩質(zhì)阿拉伯木聚糖在水溶液中的聚集和構(gòu)象
      二水合丙氨酸復(fù)合體內(nèi)的質(zhì)子遷移和氫鍵遷移
      Cu2+/Mn2+存在下白花丹素對(duì)人血清白蛋白構(gòu)象的影響
      銥(Ⅲ)卟啉β-羥乙與基醛的碳?xì)滏I活化
      含內(nèi)含子的核糖體蛋白基因轉(zhuǎn)錄起始位點(diǎn)情況分析
      三穗县| 元氏县| 错那县| 江门市| 即墨市| 建水县| 霞浦县| 泰来县| 焉耆| 邵东县| 大连市| 怀来县| 桐庐县| 松滋市| 延庆县| 南郑县| 海盐县| 孝感市| 邓州市| 沙河市| 丹棱县| 临安市| 定兴县| 闵行区| 夏河县| 井冈山市| 泗阳县| 潮州市| 禄丰县| 日喀则市| 观塘区| 科尔| 梁山县| 绥德县| 聂拉木县| 长乐市| 扶风县| 黎城县| 阿城市| 莱芜市| 河东区|