• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Bromodomain-like折疊類型模板的設(shè)計(jì)

      2016-10-18 08:51:00李曉琴張春城
      關(guān)鍵詞:識(shí)別率家族聚類

      李曉琴,張春城

      (北京工業(yè)大學(xué)生命科學(xué)與生物工程學(xué)院,北京 100124)

      Bromodomain-like折疊類型模板的設(shè)計(jì)

      李曉琴,張春城

      (北京工業(yè)大學(xué)生命科學(xué)與生物工程學(xué)院,北京 100124)

      針對折疊類型分類中所選天然模板普適性不足的問題,提出了Bromodomain-like折疊類型模板的設(shè)計(jì)方法.選SCOPe Astral 2.03序列相似度小于40%并且分辨率高于0.25 nm的52個(gè)可用Bromodomain-like折疊樣本,基于多結(jié)構(gòu)比對結(jié)果及數(shù)據(jù)分析,建立了折疊類型家族模板的設(shè)計(jì)方法.利用系統(tǒng)聚類方法構(gòu)建了家族模板的系統(tǒng)聚類圖,提出了蛋白質(zhì)折疊類型模板的設(shè)計(jì)方法,并用于該折疊類型的模板設(shè)計(jì).結(jié)果表明:設(shè)計(jì)模板具有普適性,可用于蛋白質(zhì)折疊類型分類.

      折疊類型分類;模板設(shè)計(jì);結(jié)構(gòu)比對;系統(tǒng)聚類

      蛋白質(zhì)的結(jié)構(gòu)能夠提供蛋白質(zhì)的很多信息,有助于了解蛋白質(zhì)的功能和分子機(jī)制[1].目前,研究蛋白質(zhì)結(jié)構(gòu)的方法有2種,分別為實(shí)驗(yàn)測定方法和理論預(yù)測方法.實(shí)驗(yàn)測定蛋白質(zhì)三維結(jié)構(gòu)的方法主要采用X-ray晶體衍射法[2]和核磁共振波譜法.傳統(tǒng)的基于Anfinsen“熱力學(xué)假說”[3]原理的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測方法通??煞譃?類:同源模建方法、折疊識(shí)別方法和從頭預(yù)測法[4-5].同源模建受到序列相似度的限制,從頭計(jì)算運(yùn)算量太大,介于2種方法之間的折疊識(shí)別被認(rèn)為是最有前途的方法,其基本思想是:預(yù)測的蛋白質(zhì)折疊類型與某一已知結(jié)構(gòu)的蛋白質(zhì)折疊類型相同,這樣蛋白質(zhì)的折疊問題就轉(zhuǎn)化為在已知空間結(jié)構(gòu)的蛋白質(zhì)中,選擇一種最有可能的折疊類型,從而大大減少了預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的難度.盡管蛋白質(zhì)空間結(jié)構(gòu)預(yù)測的理論方法比較成熟,但空間結(jié)構(gòu)即原子坐標(biāo)的預(yù)測依然困難.

      蛋白質(zhì)的空間結(jié)構(gòu)十分復(fù)雜,但它的框架結(jié)構(gòu)(折疊類型或拓?fù)浣Y(jié)構(gòu))卻較為簡單,粗粒意義下的蛋白質(zhì)結(jié)構(gòu)研究越來越得到研究者的關(guān)注[6-7].蛋白質(zhì)折疊類型是一種粗粒化的結(jié)構(gòu),包括蛋白質(zhì)分子空間結(jié)構(gòu)的3個(gè)主要方面:二級結(jié)構(gòu)單元、二級結(jié)構(gòu)單元的相對排布位置、蛋白質(zhì)多肽鏈的整個(gè)路由關(guān)系(肽鏈走向)[8].

      研究表明,蛋白質(zhì)的折疊類型也只有數(shù)百到數(shù)千種[9-10],遠(yuǎn)小于蛋白質(zhì)分子折疊的自由度數(shù),并且,蛋白質(zhì)的折疊速率和折疊機(jī)制在很大程度由天然狀態(tài)的拓?fù)渌鶝Q定[11].對自然界存在的數(shù)百到數(shù)千種折疊類型進(jìn)行系統(tǒng)研究,探索構(gòu)建蛋白質(zhì)折疊類型模板的方法,為進(jìn)一步的蛋白質(zhì)折疊類型分類及識(shí)別研究奠定基礎(chǔ),并有助于揭示蛋白質(zhì)的折疊規(guī)律.

      模板的選取是蛋白質(zhì)折疊類型分類的關(guān)鍵問題.在以往選擇模板時(shí),通常在結(jié)構(gòu)數(shù)據(jù)庫中選擇天然蛋白質(zhì)為模板,其依據(jù)以環(huán)區(qū)結(jié)構(gòu)冗余小、折疊核心清晰且結(jié)構(gòu)數(shù)據(jù)所占存儲(chǔ)空間小的天然蛋白質(zhì)為模板.環(huán)區(qū)和折疊核心的清晰程度都影響預(yù)測的準(zhǔn)確性.研究表明,模板的好壞直接影響了預(yù)測模型的好壞,即預(yù)測的模型傾向于模板的模型[12].

      蛋白質(zhì)的折疊類型主要由形成折疊核心的規(guī)則二級結(jié)構(gòu)片段組成、排布、走向決定,蛋白質(zhì)折疊類型的模板應(yīng)該圍繞折疊核心的的規(guī)則二級結(jié)構(gòu)片段來構(gòu)建.通常選取結(jié)構(gòu)簡單的天然樣本作為模板,這樣折疊核心以外的其他結(jié)構(gòu)就成為折疊類型分類的干擾因素,如何去除干擾、提取反應(yīng)折疊類型拓?fù)涮卣鞯哪0宄蔀榻鉀Q折疊類型分類的關(guān)鍵問題之一;另外,在一個(gè)蛋白質(zhì)折疊類型內(nèi)部,通常會(huì)包含多了家族和多個(gè)超家族,以結(jié)構(gòu)簡單的天然樣本為模板,該模板具有所在家族的個(gè)性化結(jié)構(gòu)特征,但不足以代表折疊類型所屬全部超家族樣本的共性特征,模板的普適性會(huì)比較差,如何克服天然模板的局限性、提高折疊類型模板的普適性成為解決折疊類型分類的又一關(guān)鍵問題.

      基于此,通過對數(shù)據(jù)庫中Bromodomain-like折疊類型的家族分類及樣本進(jìn)行分析,抓住形成蛋白質(zhì)折疊類型的折疊核心結(jié)構(gòu),提出了Bromodomainlike折疊類型模板的設(shè)計(jì)方法,并用于該折疊類型的模板設(shè)計(jì).

      1 材料

      Bromodomain(BRD)蛋白是一種進(jìn)化高度保守的約含有110個(gè)氨基酸的溴蛋白功能結(jié)構(gòu)域,這個(gè)家族在人體內(nèi)能夠唯一特異性的識(shí)別蛋白質(zhì)中的乙?;嚢彼幔↘Ac)[13],使得BRD蛋白具有辨別不同蛋白結(jié)合物的能力[14-16],因此它成為蛋白質(zhì)交互模塊中不斷探索藥物發(fā)現(xiàn)領(lǐng)域的代表.大部分的BRD蛋白都在調(diào)控如組蛋白乙酰酶、依賴ATP的染色質(zhì)重塑、甲基化轉(zhuǎn)移酶和轉(zhuǎn)錄激活因子等基因轉(zhuǎn)錄過程中發(fā)揮重要的作用,并與腫瘤、神經(jīng)紊亂、炎癥、肥胖和心血管疾病發(fā)生相關(guān)[17],是近年來的研究熱點(diǎn).

      選取Bromodomain-like折疊類型為研究對象,在SCOPe Astral 2.03數(shù)據(jù)庫中其對應(yīng)編號為a.29.該折疊類型為左手四螺旋束結(jié)構(gòu),包含15個(gè)超家族、20個(gè)家族.為避免冗余序列對模板設(shè)計(jì)的影響,選取序列相似度小于40%、分辨率高于0.25 nm的52樣本,樣本蛋白的Astral SCOPe ID如表1所示.圖1為BRD蛋白質(zhì)模型及拓?fù)浣Y(jié)構(gòu)模型.SCOPe Astral 2.03中相似度小于40%、分辨率高于0.25 nm非Bromodomain-like折疊類型樣本數(shù)為12 065.

      對于核磁共振樣本,利用其對應(yīng)的多套骨架模型信息,參照2.1家族模板設(shè)計(jì)方法,建立單骨架樣本模型;對于原子信息缺失較多的樣本,不用于構(gòu)建,僅用于折疊類型的模板的驗(yàn)證.

      表1 Bromodomain-like折疊類型52個(gè)樣本Table 1 BRD folding type 52 samples

      2 Bromodomain-like折疊類型模板設(shè)計(jì)

      蛋白質(zhì)折疊類型的分類以蛋白質(zhì)折疊核心的規(guī)則結(jié)構(gòu)片段組成、連接和空間排布為依據(jù),其中的規(guī)則結(jié)構(gòu)片段即α-螺旋或β-折疊,其骨架結(jié)構(gòu)主要由α-碳原子連接而形成.因此折疊類型模板的設(shè)計(jì)就是確定折疊核心的片段并對其骨架結(jié)構(gòu)的α-碳原子坐標(biāo)進(jìn)行建模.

      2.1家族模板的設(shè)計(jì)與生成

      蛋白質(zhì)折疊類型所屬家族模板的設(shè)計(jì),就是確定家族樣本中共同參與折疊核心形成的結(jié)構(gòu)片段,并對其骨架結(jié)構(gòu)的α-碳原子坐標(biāo)建模,家族模板是構(gòu)建蛋白質(zhì)折疊類型模板的基礎(chǔ).

      對Bromodomain-like折疊類型所屬的任意家族,根據(jù)以下步驟建模:1)對家族樣本進(jìn)行多結(jié)構(gòu)比對,獲得多結(jié)構(gòu)比對信息;2)對獲得的多結(jié)構(gòu)比對信息進(jìn)行分析,確定并提取折疊核心片段;3)對折疊核心片段進(jìn)行骨架結(jié)構(gòu)建模.根據(jù)分類結(jié)果,家族包含有2個(gè)及2個(gè)以上樣本的,依據(jù)上述步驟建模.家族內(nèi)只含一個(gè)樣本的,將其作為本家族的模板.家族模板設(shè)計(jì)的流程如圖2所示.

      家族模板的折疊核心結(jié)構(gòu)通過多結(jié)構(gòu)比對信息獲得.多結(jié)構(gòu)比對信息中,完全匹配的片段即家族樣本共同參與折疊核心的片段,提取全部的匹配片段,形成該家族模板的折疊核心結(jié)構(gòu).目前結(jié)構(gòu)比對算法如CE[18]、DaliLite[19]、SSM[20]、TM-align[21]、MUSTANG[22]、GOSSIP[23].本文利用MUSTANG多結(jié)構(gòu)比對算法,MUSTANG是在DALI雙結(jié)構(gòu)比對獲得成功的基礎(chǔ)上發(fā)展的一種多結(jié)構(gòu)比對方法,對于空間折疊、殘基接觸模式有較強(qiáng)的識(shí)別能力.

      對由n個(gè)樣本組成的家族,利用MUSTANG進(jìn)行多結(jié)構(gòu)比對,獲得多結(jié)構(gòu)比對結(jié)果,提取匹配片段,對匹配片段中任一殘基i的α-碳原子匹配坐標(biāo)信息——(xi,yi,zi),計(jì)算匹配坐標(biāo)的平均值——將其作為該殘基的骨架α-碳坐標(biāo)信息,形成匹配片段的骨架坐標(biāo)信息.

      求坐標(biāo)平均值公式為

      2.2家族模板系統(tǒng)聚類圖的建立及穩(wěn)定性分析

      通過家族模板的設(shè)計(jì)流程得到各個(gè)家族的模板,由于家族a.29.9.1已經(jīng)被舍棄,于是共生成19個(gè)家族模板,以19個(gè)家族模板為基礎(chǔ)構(gòu)建本折疊類型模板.

      折疊類型模板設(shè)計(jì)的流程如圖3所示.

      系統(tǒng)聚類是將多個(gè)樣本分成若干類的方法,其基本思想是:先將所有n個(gè)樣本看成不同的n類,然后將性質(zhì)最接近(距離最近)的2類合并為1類,再從這n-1類中找到最接近的2類加以合并,依此類推,直到所有的樣本被合為1類.兩樣本的合并與生成方法同2.1.利用TM-align結(jié)構(gòu)比對程序給出的TM-score(或RMSD)參數(shù)作為距離指標(biāo),構(gòu)建家族模板的系統(tǒng)聚類圖.TM-score取值[0,1],值越高代表2樣本結(jié)構(gòu)越相似;RMSD越小,說明兩樣本結(jié)構(gòu)越相似.依據(jù)TM-score的家族模板系統(tǒng)聚類圖如圖4所示,各分支點(diǎn)的對應(yīng)的RMSD及TM-score參數(shù)如表2所示.英文字母代表形成的模板,例如a代表3.0家族和3.1家族形成的模板,字母順序代表構(gòu)建模板順序.

      由圖4、表2可知:1)隨著聚類的進(jìn)行,RMSD總體呈現(xiàn)一個(gè)遞增的趨勢,TM-score總體呈現(xiàn)遞減的趨勢,這是由于模板之間的差異性逐漸變大所導(dǎo)致.2)模板間的RMSD都在4以內(nèi),TM-score都在0.5以上(r模板除外),說明模板間的穩(wěn)定性良好,相似性良好.3)蛋白質(zhì)的最先聚類是在超家族內(nèi)部,而且具有很高的TM-score打分值以及較低的RMSD,如家族3.0和3.1,6.0和6.1,2.0和2.1的聚類,TM-score都在0.9以上并且RMSD在1.3以下,說明超家族內(nèi)部的樣本差異性小;其次聚類的是折疊相似的超家族之間,例如13.1和16.1、5.1和8.2,RMSD在2.4左右,打分值分別為0.79和 0.67,說明超家族之間的特異性逐漸變大.

      為進(jìn)一步檢驗(yàn)家族模板聚類圖穩(wěn)定性,以RMSD為距離參數(shù)獲得的家族模板系統(tǒng)聚類圖如圖5所示.各分支點(diǎn)的對應(yīng)的RMSD及TM-score參數(shù)如表3所示.

      表2 圖4分支點(diǎn)對應(yīng)的RMSD及TM-score的參數(shù)Table 2 Corresponding parameters of the RMSD and TM-score in Fig.4

      表3 圖5中各分支點(diǎn)對應(yīng)的RMSD及TM-score參數(shù)Table 3 Corresponding parameters of the RMSD and TM-score in Fig.5

      由圖5可知:1)最先聚類是在超家族內(nèi)部,而且具有很高的TM-score打分值以及較低的RMSD,與圖4結(jié)果一致;2)與圖4相比,圖4中模板o所在聚類區(qū)間與圖5中模板o所在聚類區(qū)間,都是由家族3.0、3.1、3.2、11.1聚類而成,其差別在于圖5的家族8.1在模板n所在區(qū)間,家族7.1在圖5中沒有與任何模板聚類;3)圖4中模板q所在的區(qū)間和圖5中模板n所在的區(qū)間,都是由家族6.0、6.1、16.1、13.1、8.2、14.1、15.1、5.1、10.1、12.1、8.1、2.0、2.1聚類而成,只是聚類的順序不同,差別在于家族8.1分別聚類在圖4中模板o區(qū)間和圖5中模板n區(qū)間,而家族17.1在圖5中沒有參與聚類.圖4、5的總體差別在于家族8.1和家族8.2,2個(gè)家族都只有1個(gè)樣本,其中a.29.8.1家族模板是由核磁共振結(jié)構(gòu)建立的模板,而a.29.8.2家族是1個(gè)含有很長冗余的結(jié)構(gòu).通過以上對不同參數(shù)獲得的家族模板聚類結(jié)果的分析可知,以TM-score為參數(shù)的聚類圖穩(wěn)定性很好,可以將TM-score的聚類結(jié)果作為本文的聚類依據(jù).

      2.3基于系統(tǒng)聚類圖的Bromodomain-like折疊類型模板的選取標(biāo)準(zhǔn)

      根據(jù)圖4的TM-score系統(tǒng)聚類圖,共生成a~r共18個(gè)模板,將各個(gè)模板對本折疊類型的52個(gè)樣本及非本折疊類型的12 065個(gè)樣本進(jìn)行TM-algin比對,得到TM-score,并以TM-score的取值0.5作為閾值,當(dāng)TM-score大于等于0.5時(shí),待測蛋白與模板屬于同一折疊類型,否則為不同折疊類型.計(jì)算各個(gè)模板用于折疊類型分類的識(shí)別率、MCC值及尤登指數(shù)[24],結(jié)果如表4所示.識(shí)別率、MCC值及尤登指數(shù)反映了設(shè)計(jì)模板用于折疊類型分類的有效性.

      雖然各家族模板最終聚類為一個(gè)r模板,但是r模板在閾值為0.5時(shí)的識(shí)別率為所有模板中最低的,由于r模板的折疊核心片段較短,因此不能將r模板作為最后的折疊類型模板;處于各獨(dú)立分枝中的最先聚類的模板識(shí)別率等指標(biāo)相對較好.基于上述結(jié)果,并結(jié)合蛋白質(zhì)折疊類型的確定標(biāo)準(zhǔn),提出以下折疊類型模板篩選標(biāo)準(zhǔn):1)模板的折疊核心片段清晰;2)模板分布于各獨(dú)立分枝;3)模板的識(shí)別率在80%以上;4)模板由家族模板首次合并形成.滿足以上4個(gè)標(biāo)準(zhǔn)的只有4個(gè)模板,分別為c、d、h、j模板,將這4個(gè)模板作為折疊類型模板.如圖6所示,為各個(gè)待選模板和r模板的骨架模型.

      表4 各個(gè)模板的識(shí)別率及MCC值、尤登指數(shù)對比Table 4 Recognition rate and MCC value,Youden index of each template

      3 設(shè)計(jì)方法分析及討論

      3.1模板坐標(biāo)提取方法的討論

      利用結(jié)構(gòu)匹配的α-碳原子三維坐標(biāo)提取模板相應(yīng)的α-碳原子坐標(biāo),模板的α-碳原子坐標(biāo)應(yīng)該體現(xiàn)匹配的α-碳原子三維坐標(biāo)的聚集性.本文中均值這一反映聚集性的參數(shù)建立了模板坐標(biāo)提取方法.在統(tǒng)計(jì)學(xué)中反映一組數(shù)據(jù)聚集性的參數(shù)還有調(diào)和均值、幾何均值和中位數(shù)等,分別利用上述3參數(shù)同樣可以建立模板坐標(biāo)提取方法.不同模板坐標(biāo)提取方法得到的模板是否具有同一性?

      為檢驗(yàn)?zāi)0遄鴺?biāo)提取方法對提取模板的影響,以一個(gè)家族模板的生成為例做了檢驗(yàn),檢驗(yàn)結(jié)果表明,不同方法得到的模板坐標(biāo)的差別不具有統(tǒng)計(jì)學(xué)意義.

      具體檢驗(yàn)過程如下:

      選取a.29.2.1家族的4個(gè)樣本,分別為d1e6ia_、d1eqfa1、d1eqfa2、d3p1fa_,運(yùn)行MUSTANG程序后得到的匹配位點(diǎn)為113個(gè),分別依靠調(diào)和均值、幾何均值、均值和中位數(shù)得到4個(gè)對應(yīng)模板.將4個(gè)樣本的X、Y、Z坐標(biāo)分別同4個(gè)模板的三維坐標(biāo)X、Y、Z進(jìn)行極距分布分析,得到極距值.表5為各個(gè)樣本與模板間的平均極距值.

      由表5可知,在X坐標(biāo)下,4個(gè)模板的極距值分布相差不大,但調(diào)和均數(shù)模板和中位數(shù)模板相對較好,其極距值值偏低,在Y坐標(biāo)和Z坐標(biāo)下,調(diào)和均數(shù)模板、均值模板、幾何均數(shù)模板的全局值相等,而中位數(shù)模板平均極距值除去在樣本3處偏高之外,在其他樣本處都偏低,說明中位數(shù)模板較其他3類模板穩(wěn)定.綜合X、Y、Z三個(gè)坐標(biāo)下的平均極距值分布,得到中位數(shù)模板較為穩(wěn)定.

      本文對其三維坐標(biāo)的平均極距值進(jìn)行單因素方差分析,檢驗(yàn)不同模板是否對平均極距值有差異.方差分析的前提是在各個(gè)水平下的總體服從方差相等的正態(tài)分布,正態(tài)分布的要求并不是很嚴(yán)格,但方差相等的要求是比較嚴(yán)格的.本文方差相等的檢驗(yàn)方法是homogeneity of variance test方法,該方法是統(tǒng)計(jì)推斷的方法,其零假設(shè)是各水平下總體方差沒有顯著差異,本實(shí)驗(yàn)顯著水平選擇0.05.如表6所示,為各個(gè)坐標(biāo)的單因素方差結(jié)果.

      表5 各個(gè)樣本與模板間的平均極距值Table 5 Average interpolar distance between each sample and the template

      表6 各個(gè)坐標(biāo)的平均極距值的單因素方差分析Table 6 Single factor analysis of variance of average value of each coordinate distance

      在X坐標(biāo)下相伴概率為0.982,大于顯著性差異0.05,可以認(rèn)為各個(gè)組總體方差是相等的,滿足方差檢驗(yàn)的前提條件.方差檢驗(yàn)的F值為0.153,相伴概率為0.926,相伴概率大于顯著水平0.05,表示4種模板在X坐標(biāo)下的平均極距值無明顯區(qū)別,即4種模板無顯著差別.同樣的,分別在滿足方差檢驗(yàn)的前提條件下,本實(shí)驗(yàn)對Y和Z坐標(biāo)分別計(jì)算其相伴概率,分別為0.955和0.989,都大于顯著差異0.05,說明4中模板在Y和Z坐標(biāo)下的平均極距值無明顯差別,4種模板無顯著差別.

      3.2模板提取數(shù)量及參數(shù)約束的討論

      折疊類型模板的篩選主要受折疊核心片段的組成、在系統(tǒng)聚類圖中的分布、位置及模板的識(shí)別率限制.由表3的各個(gè)模板的識(shí)別率可知,當(dāng)降低識(shí)別率到70%,能篩選出e模板和k模板,識(shí)別率分別為69.2%和76.9%,通過計(jì)算Matthew相關(guān)系數(shù)分別為0.29和0.33,尤登指數(shù)分別為0.67和0.75.Matthew相關(guān)系數(shù)反應(yīng)真陽性和真陰性的相關(guān)程度,Matthew相關(guān)系數(shù)越大說明模板對于區(qū)分真陰性和真陽性的能力越好.尤登指數(shù)是敏感性和特異性之和減1,指數(shù)介于0~1,表示篩選方法發(fā)現(xiàn)本折疊類型樣本和非本折疊類型樣本的總能力,指數(shù)越大表示模板真實(shí)性越高.e模板和k模板的Matthew相關(guān)系數(shù)在0.3左右,尤登指數(shù)在0.8以下,2個(gè)值都較小,并且它們不是獨(dú)立分支中的最先聚類形成的模板,與條件(4)違背.當(dāng)降低識(shí)別率到60%,能篩選出g模板和l模板,其識(shí)別率分別為67.3%和63.5%,MCC值分別為0.28和0.27,尤登指數(shù)分別為0.65和0.61,2個(gè)模板MCC值和尤登指數(shù)較小,且g模板是由d模板聚類而成,即d模板信息包含g模板信息,那么g模板相比d模板是多余的模板,可以舍棄.l模板包含在c模板、d模板和h模板形成的聚類區(qū)間,也可以舍棄.當(dāng)提高識(shí)別率到90%,c模板的識(shí)別率為80.8%而被舍棄,只能篩選出d、h和j模板,3個(gè)模板對折疊類型所屬家族及超家族的覆蓋度降低,模板的完備性不夠.綜合以上因素,將識(shí)別率定為80%.

      3.3設(shè)計(jì)模板與天然模板的對比分析

      為檢驗(yàn)這4個(gè)設(shè)計(jì)模板的穩(wěn)定性,分別統(tǒng)計(jì)了4個(gè)設(shè)計(jì)模板和4個(gè)天然模板間的等價(jià)α-碳原子之間的距離di,單位nm.

      式中(xi,yi,zi)和(x0,y0,z0)分別代表2個(gè)匹配的α-碳原子的坐標(biāo).

      將4個(gè)設(shè)計(jì)模板c、d、h、j進(jìn)行MUSTANG多結(jié)構(gòu)比對之后,匹配的α-碳原子有59個(gè).計(jì)算任意兩兩匹配的α-碳原子之間的距離,得到分布圖如圖7所示.在設(shè)計(jì)模板c、d、h、j所在家族內(nèi),挑選冗余結(jié)構(gòu)少的天然蛋白樣本作為天然模板,分別為d1e6ia_、d2gsca1、d2bl8a1、d3qzta_,將這4個(gè)天然模板進(jìn)行MUSTANG多結(jié)構(gòu)比對,匹配的α-碳原子有70個(gè),計(jì)算任意兩兩匹配的α-碳原子之間的距離,得到天然模板距離分布圖,如圖8所示.

      由圖7可知,設(shè)計(jì)模板間的距離成正態(tài)分布,其平均值為0.35 nm,平均值95%的置信區(qū)間為[0.33,0.37],標(biāo)準(zhǔn)差為2.0.其距離25%的分位點(diǎn)為0.22,50%的分位點(diǎn)為0.32,75%的分位點(diǎn)為0.43.由圖8可知,天然模板間的距離成正態(tài)分布,其平均值為0.30 nm,平均值95%的置信區(qū)間為[0.37,0.42],標(biāo)準(zhǔn)差為2.7.均值25%的分位點(diǎn)是0.19,50%的分位點(diǎn)是0.35,75%的分位點(diǎn)是0.76.通過以上數(shù)值分析可知:在平均值方面,設(shè)計(jì)模板間距離均值較天然模板??;在標(biāo)準(zhǔn)差方面,設(shè)計(jì)模板距離標(biāo)準(zhǔn)差較天然模板小,說明設(shè)計(jì)模板間距離更加穩(wěn)定;在分位點(diǎn)數(shù)值分布方面,分位點(diǎn)表示密度函數(shù)在小于該點(diǎn)時(shí)與坐標(biāo)橫軸圍成的面積,當(dāng)分位點(diǎn)相同時(shí),坐標(biāo)橫軸數(shù)值越小說明密度函數(shù)越大,即圖7、8中的縱軸百分比越大,百分比越大說明模板距離間距數(shù)值越多,模板穩(wěn)定性高.設(shè)計(jì)模板在分位點(diǎn)為25%時(shí),即面積為0.25時(shí),所對應(yīng)的橫軸距離值為0.22,而天然模板在面積為0.25時(shí)所對應(yīng)的距離值為0.18.除去距離25%分位點(diǎn)時(shí)設(shè)計(jì)模板比天然模板距離值大以外,在50%和75%分位點(diǎn)設(shè)計(jì)模板都比天然模板的距離值小,說明設(shè)計(jì)模板穩(wěn)定性好.

      綜合以上分析,設(shè)計(jì)模板在各個(gè)方面參數(shù)都較天然模板小,說明設(shè)計(jì)模板的空間構(gòu)象比天然模板更為穩(wěn)定.

      3.4模板的普適性與有效性分析

      利用本文給出的方法,確定并提取BRD折疊類型的4個(gè)模板.每個(gè)模板結(jié)構(gòu)均包含該折疊類型的4個(gè)折疊核心片段,片段的空間坐標(biāo)反映了片段的取向及片段間的排布,即設(shè)計(jì)模板成功提取了該折疊類型的疊核心片段及其取向和排布信息,具備結(jié)構(gòu)上的普適性;從圖4的系統(tǒng)聚類圖上可以看到:4個(gè)模板分布于各獨(dú)立分支中,各自代表了其所屬家族、超家族集團(tuán)的結(jié)構(gòu)特性,提取的4個(gè)設(shè)計(jì)模板代表了該折疊類型樣本的共同屬性;表4中,4個(gè)設(shè)計(jì)模板對所屬折疊類型樣本的識(shí)別率均在80%以上,將該模板用于蛋白質(zhì)折疊類型分類是有效的.

      4 結(jié)論

      1)針對折疊類型分類中所選天然模板的普適性不足的問題,提出了Bromodomain-like折疊類型模板的設(shè)計(jì)方法,并用于該折疊類型的模板設(shè)計(jì).

      2)利用該模板設(shè)計(jì)方法設(shè)計(jì)的模板,具有普適性,克服了天然模板的單一性,并且可用于蛋白質(zhì)折疊類型的分類.

      [1]ZHANG Y,SKOLNICK J.Segment assembly,structure alignment and iterative simulation in protein structure prediction[J].Bmc Biology,2013,11(1):1-4.

      [2]閻隆飛,孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999:211-213.

      [3]ANFINSEN C B.Principles that govern the folding of protein chains.[J].Science,1973,181(4096):223-230.

      [4]趙國屏.生物信息學(xué)[M].北京:科學(xué)出版社,2002: 160-164.

      [5]BAKER D,SALI A.Protein structure prediction and structural genomics.[J].Science,2001,294(5540):93-96.

      [6]LUO L,LI X.Recognition and architecture of the framework structure of protein[J].Proteins Structure Function&Bioinformatics,2000,39(1):9-25.

      [7]張春霆.蛋白質(zhì)結(jié)構(gòu)分類與結(jié)構(gòu)類預(yù)測研究[J].中國科學(xué)基金,2000(5):298-299.ZHANG C T.Protein structure classification and prediction of structural classes[J].Science Foundation in China,2000(5):298-299.(in Chinese)

      [8]閻隆飛,孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999:67.

      [9]CHOTHIA C.One thousand families for the molecular biologist[J].Nature,1992,357:543-544.

      [10]WANG Z X.How many fold types of protein are there in nature?[J].ProteinsStructureFunction& Bioinformatics,1996,26(2):186-191.

      [11]BAKER D.A surprising simplicity to protein folding.[J].Nature,2000,405(6782):39-42.

      [12]KELLEY L A,MACCALLUM R M,STERNBERG M J.Enhanced genome annotation using structural profiles in the program 3D-PSSM.[J].Journal of Molecular Biology,2000,299(2):499-520.

      [13]FILIPPAKOPOULOS P,KNAPP S.The bromodomain interaction module.[J].Febs Letters,2012,586(17): 2692-2704.

      [14]DHALLUIN C,CARLSON J E,ZENG L,et al.Structureandligandofahistoneacetyltransferase bromodomain[J].Nature,1999,399(6735):491-496.

      [15]CONWAY S J.Bromodomains:are readers right for epigenetic therapy?[J].AcsMedicinalChemistry Letters,2012,3(9):691-694.

      [16]VOLLMUTH F,BLANKENFELDTW,GEYERM.Structures of the dual bromodomains of the P-TEFbactivating protein Brd4 at atomic resolution.[J].Journal of Biological Chemistry,2009,284(52):36547-36556.

      [17]VIDLER L R,PANAGIS F,OLEG F,et al.Discovery of novel small-molecule inhibitors of BRD4 using structurebased virtualscreening[J].JournalofMedicinal Chemistry,2013,56(20):8073-8088.

      [18]SHINDYALOV I N,BOURNE P E.Protein structure alignment by incremental combinatorial extension(CE)of the optimal path.[J].Protein Engineering,1998,11(9):739-747.

      [19]HOLM L,PARK J.DaliLite workbench for protein structure comparison.[J].Bioinformatics,2000,16(6):566-567.

      [20]KRISSINELEHK.Secondary-structurematching(SSM),a new tool for fast protein structure alignment in three dimensions[J].Acta Crystallogr D Biol Crystallogr,2004,60(12-1):2256-2268.

      [21]ZHANG Y,SKOLNICK J.TM-align:a protein structure alignment algorithm based on the TM-score[J].Nucleic Acids Research,2005,33(6):2302-2309.

      [22]KONAGURTHU A S,WHISSTOCK J C,STUCKEY P J,etal.MUSTANG:amultiplestructuralalignment algorithm[J].ProteinsStructureFunction& Bioinformatics,2006,64(3):559-574.

      [23]KIFER I,NUSSINOV R,WOLFSON H J.GOSSIP:a method for fast and accurate global alignment of protein structure[J].Bioinformatics,2011,27(7):925-932.

      [24]劉岳,李曉琴,徐海松,等.蛋白質(zhì)折疊類型的分類建模與識(shí)別[J].物理化學(xué)學(xué)報(bào),2009(12):2558-2564.LIU Y,LI X Q,XU H S,et al.Classification modeling and recognition of protein fold type[J].Acta Physico-Chimica Sinica,2009(12):2558-2564.(in Chinese)

      (責(zé)任編輯 楊開英)

      Design of a Bromodomain-like Folding Type Template

      LI Xiaoqin,ZHANG Chuncheng
      (College of Life Science and Bioengineering,Beijing University of Technology,Beijing 100124,China)

      For the problem that the universal shortage of natural template for folding type classification,a design method of the Bromodomain-like folding type template was presented.52 Bromodomain-like folding type samples whose sequence similarity is less than 40%were chosen and the resolution was higher than 0.25 nm in the database of the SCOPe of astral 2.03.Based on the results of multiple structure alignment and data analysis,the design method of the folding type family template was established.The clustering graph of family template was constructed using the system clustering method,and the design of the template of the folding type was completed.Results show that the design templates have universality,and the templates can be used for protein folding type classification.

      folding type classification;template design;structure comparison;system clustering

      O 641

      A

      0254-0037(2016)10-1572-09

      10.11936/bjutxb2015100078

      2015-10-29

      國家自然科學(xué)基金資助項(xiàng)目(21173014);北京市自然科學(xué)基金資助項(xiàng)目(4112010)

      李曉琴(1966—),女,教授,主要從事生物信息學(xué)理論方面的研究,E-mail:lxq0811@bjut.edu.cn

      猜你喜歡
      識(shí)別率家族聚類
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      HK家族崛起
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      《小偷家族》
      電影(2019年3期)2019-04-04 11:57:18
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      皿字家族
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      家族中的十大至尊寶
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類算法
      保山市| 永年县| 信阳市| 禹城市| 贵港市| 项城市| 望城县| 阿克苏市| 龙陵县| 阿尔山市| 长海县| 沁水县| 邛崃市| 玉田县| 襄垣县| 城口县| 沙湾县| 旌德县| 延安市| 伊金霍洛旗| 肃宁县| 黎城县| 竹溪县| 合川市| 邹平县| 晋宁县| 错那县| 什邡市| 新疆| 社旗县| 深水埗区| 康乐县| 通许县| 全南县| 曲松县| 稻城县| 睢宁县| 巴彦淖尔市| 潮州市| 定边县| 五常市|