(華中科技大學(xué) a.生命學(xué)院; b.軟件學(xué)院, 湖北 武漢 430074)
隨著大量物種全基因組測序的完成,以測定蛋白質(zhì)結(jié)構(gòu)為目的的結(jié)構(gòu)基因組學(xué)和以研究蛋白質(zhì)功能為目的的蛋白質(zhì)組學(xué)成為當(dāng)前研究熱點之一.根據(jù)蛋白質(zhì)三級結(jié)構(gòu)的測定和功能研究,有利于增深對疾病發(fā)生的分子機制理解,從而有助于開發(fā)新的手段與方法來預(yù)防、診斷疾病和新藥研發(fā)[1-2].
結(jié)構(gòu)域是蛋白質(zhì)的一個結(jié)構(gòu)層次, 可以看作是蛋白質(zhì)結(jié)構(gòu)、折疊、功能、進化和設(shè)計的基本單位.根據(jù)PDB數(shù)據(jù)庫統(tǒng)計[3-4],已知結(jié)構(gòu)蛋白質(zhì)中約40%為多結(jié)構(gòu)域蛋白[5].結(jié)構(gòu)域的不同組合使多結(jié)構(gòu)域蛋白質(zhì)具有不同的三級結(jié)構(gòu)和功能.準(zhǔn)確識別蛋白質(zhì)結(jié)構(gòu)域?qū)Y(jié)構(gòu)基因組學(xué)選擇目標(biāo)序列、結(jié)構(gòu)解析至關(guān)重要,也是預(yù)測和理解蛋白質(zhì)功能關(guān)鍵的一步.自1973年以來,若干研究者就蛋白質(zhì)結(jié)構(gòu)域劃分問題進行研究,可歸納為從實驗測定三維結(jié)構(gòu)著手的結(jié)構(gòu)域劃分方法和不依賴三維結(jié)構(gòu)僅從序列出發(fā)的結(jié)構(gòu)域劃分方法.前者的代表性工作包括 Wetlaufer[6]首次提出的基于原子間接觸密度劃分結(jié)構(gòu)域的方法,以及后期Domain Parser[7-9]、PDP等方法[10];后者的代表性工作包括DROP[11-12]、Dompro[13]、DOBO[14]、ThreaDom等[15].
目前已建立一些結(jié)構(gòu)域數(shù)據(jù)和在線預(yù)測的服務(wù)系統(tǒng),例如,Pfam[16-17]、SMART[18-19]、SCOP[20-21]、CATH[22-23]、InterPro[24]、ThreaDomEx[25]等.據(jù)2016年2月份的數(shù)據(jù)統(tǒng)計,當(dāng)前最完整的蛋白質(zhì)序列數(shù)據(jù)庫(UniProt)中去掉重復(fù)序列后有74 897 059條序列,該數(shù)據(jù)庫的結(jié)構(gòu)域注釋主要來自Pfam、SMART、SCOP、CATH以及InterPro等結(jié)構(gòu)域數(shù)據(jù)庫,其中只有36 449 183(48.7%)的序列有結(jié)構(gòu)域注釋.其中被研究工作者熟知、并廣泛使用的Pfam結(jié)構(gòu)域數(shù)據(jù)庫注釋了33 529 428條序列.究其主要原因:已解析三級結(jié)構(gòu)的蛋白質(zhì)及其近同源蛋白質(zhì)序列只占有較小的比例,當(dāng)前技術(shù)還無法較大規(guī)模地從序列注釋遠同源蛋白質(zhì)結(jié)構(gòu)域.本文從蛋白質(zhì)結(jié)構(gòu)域識別問題的提出、結(jié)構(gòu)域邊界預(yù)測、不連續(xù)結(jié)構(gòu)域檢測及相關(guān)在線服務(wù)情況進行介紹,供相關(guān)研究者參考.
蛋白質(zhì)結(jié)構(gòu)域識別問題不僅要準(zhǔn)確識別蛋白質(zhì)結(jié)構(gòu)域劃分邊界,還要準(zhǔn)確檢測出組成蛋白質(zhì)結(jié)構(gòu)域的序列片段(即不連續(xù)結(jié)構(gòu)域).
以多結(jié)構(gòu)域蛋白4-α-葡聚糖轉(zhuǎn)移酶(PDB:1LWH)為例來說明結(jié)構(gòu)域識別過程,從序列出發(fā)的結(jié)構(gòu)域識別過程包括結(jié)構(gòu)域邊界預(yù)測和不連續(xù)結(jié)構(gòu)域檢測2個步驟.圖1a 是4-α-葡聚糖轉(zhuǎn)移酶的蛋白質(zhì)結(jié)構(gòu)圖,圖1b是該蛋白結(jié)構(gòu)域示意圖.從圖1a可以看出該蛋白包含3個結(jié)構(gòu)域:[1~93(紫紅色)|159~391(紅色)]、[94~158(黃色)]、[392~441(藍色)].識別該蛋白的結(jié)構(gòu)域的過程:首先確定結(jié)構(gòu)域邊界HIS93、ASN158、ARG391,這3個殘基將該蛋白分為4段; 然后檢測不連續(xù)結(jié)構(gòu)域.對該蛋白, 第1段[1~93]與第3段[159~391]構(gòu)成不連續(xù)結(jié)構(gòu)域,這從圖1b中可以更清晰的看出,A1[1~93]和A2[159~391]在序列上不臨近,但在三級結(jié)構(gòu)上是一個結(jié)構(gòu)域(即不連續(xù)結(jié)構(gòu)域).
圖1 4-α-葡聚糖轉(zhuǎn)移酶結(jié)構(gòu)與結(jié)構(gòu)域示意圖Fig.1 Schematic diagram of structure and domain of 4-α-glucanotransferase
一個優(yōu)秀的結(jié)構(gòu)域劃分工具需要準(zhǔn)確的判斷出在氨基酸序列位置93(94)、158(159)、391(392)3個位置附近存在結(jié)構(gòu)域劃分邊界,即把序列劃分為(1~93))(94~158)(159~391)(392~441)4個片段;同時要應(yīng)該具有將片段(1~93)和片段(159~391)組裝成一個結(jié)構(gòu)域的能力(不連續(xù)結(jié)構(gòu)域檢測).對不具備這2種能力的結(jié)構(gòu)域劃分的工具來說,至少是不完美的.
結(jié)構(gòu)域劃分問題又分為從結(jié)構(gòu)出發(fā)的結(jié)構(gòu)域劃分和從序列出發(fā)的結(jié)構(gòu)域劃分.對從結(jié)構(gòu)出發(fā)的結(jié)構(gòu)域劃分是根據(jù)序列對應(yīng)的3D結(jié)構(gòu)進行空間上的結(jié)構(gòu)域劃分;對于從序列出發(fā)的結(jié)構(gòu)域劃分,則不使用3D結(jié)構(gòu),只根據(jù)序列信息進行預(yù)測或檢測,以進行結(jié)構(gòu)域劃分.多數(shù)基于結(jié)構(gòu)的結(jié)構(gòu)域劃分空間考慮了不連續(xù)結(jié)構(gòu)域劃分,而只有少數(shù)幾個從序列出發(fā)的結(jié)構(gòu)域劃分工具考慮了不連續(xù)結(jié)構(gòu)域檢測問題.
從通過實驗獲得蛋白質(zhì)三維結(jié)構(gòu)開始,通過把蛋白質(zhì)分子劃分為小的域進行研究,可以降低研究的復(fù)雜程度.而多數(shù)情況下,蛋白質(zhì)域的定義是指從結(jié)構(gòu)上講的域,即結(jié)構(gòu)域.結(jié)構(gòu)域是一個具有以下特征的蛋白質(zhì)結(jié)構(gòu)單元[26]:①是緊密的;②是穩(wěn)定的;③含有一個疏水核心;④可以獨立蛋白質(zhì)的其他部分進行單獨折疊;⑤可以跟其它結(jié)構(gòu)域結(jié)合并出現(xiàn)在其他蛋白質(zhì)中;⑥行使特定的功能.根據(jù)這一定義,不僅有專家手工定義的結(jié)構(gòu)域劃分?jǐn)?shù)據(jù)庫如SCOP[20,27-28]、CATH[29]等,還有其他自動劃分工具.Rossman等[30]根據(jù)給出結(jié)構(gòu)Cα-Cα距離圖進行結(jié)構(gòu)域劃分;Crippen[31]采用聚類的方法進行結(jié)構(gòu)域劃分;Rose[32]采用將3D空間投影到2D空間的方法進行結(jié)構(gòu)域劃分;Wodak等[33]通過發(fā)現(xiàn)2個結(jié)構(gòu)域間最小接觸界面進行結(jié)構(gòu)域劃分;Holm等[34]使用剛體震動構(gòu)建的接觸矩陣開發(fā)PUU方法;Swindells[35]通過構(gòu)建疏水核心進行結(jié)構(gòu)域劃分;Islam等[36]采用發(fā)現(xiàn)結(jié)構(gòu)域間最小接觸進行結(jié)構(gòu)域劃分;Siddiqui等[37]通過計算結(jié)構(gòu)域內(nèi)外最大比值進行結(jié)構(gòu)域劃分;Sowdhamini等[38]通過二級結(jié)構(gòu)域聚類的方法進行結(jié)構(gòu)域劃分;Taylor[39]采用殘基間空間接近度模型進行劃分;Wernisch 等[40]利用Kernighan-lin圖啟發(fā)式算法,發(fā)現(xiàn)結(jié)構(gòu)域間最小接觸進行結(jié)構(gòu)域劃分;Xu等[8]利用圖論中最大流和最小割方法,發(fā)現(xiàn)結(jié)構(gòu)域最小接觸進行切割;Xuan等[41]使用模糊聚類對基礎(chǔ)片段組裝的方法進行結(jié)構(gòu)域劃分;Alexandrov等[10]利用結(jié)構(gòu)域接觸最小數(shù)量進行結(jié)構(gòu)域劃分;Berezovsky[42]使用原子間范德華接觸進行聚類的方法進行結(jié)構(gòu)域劃分;Kundu等[43]利用高斯網(wǎng)絡(luò)模型進行結(jié)構(gòu)域劃分.這些方法可以歸納為自下向上的方法或自上向下的方法,指用從小的基本片段開始組裝,或者總體進行劃分,再由某種準(zhǔn)則判斷劃分.很明顯,通過原子間接觸作為量度,成為從結(jié)構(gòu)進行結(jié)構(gòu)域劃分的主要手段.圖2 給出了Xu等[8]開發(fā)的Domain Parser以原子間相互作用為量度的從上到下的一種方法,其將蛋白質(zhì)結(jié)構(gòu)用一個網(wǎng)絡(luò)表示,網(wǎng)絡(luò)的節(jié)點為氨基酸殘基,邊表示殘基間相互作用,然后用最大流最小割的方法進行結(jié)構(gòu)域劃分.2個氨基酸相互作用的強度可以視為邊的容量,并是如下量的函數(shù):殘基間原子的接觸數(shù)量、殘基間主鏈接觸數(shù)、跨β折疊的相互作用、是否屬于同一個β折疊.
圖2 Domain Parser 蛋白質(zhì)圖表示
Fig.2 Protein representation based on graph in Domain Parser
采用最大流最小割的方法進行的基本過程:給圖增加一個虛擬的源s和槽節(jié)點t,采用最大流最小割原理尋找將蛋白質(zhì)分成2個結(jié)構(gòu)域的瓶頸邊,然后刪除這些邊,網(wǎng)絡(luò)被表示為一個跟源s相連接的網(wǎng)絡(luò),一個跟槽t相連接的網(wǎng)絡(luò),并各自代表了被劃分出來的結(jié)構(gòu)域.重復(fù)此過程,直到滿足終止條件結(jié)束.
基于結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)域邊界劃分思路和方法,也可以結(jié)合預(yù)測特征應(yīng)用到從序列劃分結(jié)構(gòu)域問題.
從序列預(yù)測/劃分結(jié)構(gòu)域邊界主要包括基于同源比對、三級結(jié)構(gòu)預(yù)測和機器學(xué)習(xí)等3類方法.
同源比對方法是識別結(jié)構(gòu)域邊界的最基本方法.例如Pfam等采用多序列比對,搜索序列間相似度高的蛋白質(zhì)結(jié)構(gòu)域家族,從而確定結(jié)構(gòu)域邊界.再如FIEFDOM通過PSI-blast搜索已知結(jié)構(gòu)近同源模板,推知結(jié)構(gòu)域邊界[44].該類方法在不存在已知結(jié)構(gòu)的近同源蛋白的情況下,無法完成結(jié)構(gòu)域識別.Xue等[15]開發(fā)的ThreaDom,探索基于遠同源比對方法進行蛋白質(zhì)結(jié)構(gòu)域預(yù)測研究,取得較好的結(jié)果.
采用預(yù)測的三級結(jié)構(gòu)識別結(jié)構(gòu)域,是一種很直觀的方法,可以采用諸如Modeller[45-46]、I-Tasser[47]等三級結(jié)構(gòu)建模軟件進行結(jié)構(gòu)建模,再使用諸如Domain parser等從結(jié)構(gòu)出發(fā)的結(jié)構(gòu)域劃分工具進行結(jié)構(gòu)域劃分,如SnapDRAGON[48]、 RosettaDom[49]、 OPUS-DOM[50]等.此類方法不僅依賴于找到近同源模板,而且會受到目標(biāo)序列長度的限制.況且,結(jié)構(gòu)域識別的重要應(yīng)用之一就是支持結(jié)構(gòu)預(yù)測,因而這種方法也有諸多限制.
在沒有近同源模板的情況下,研究者主要使用基于統(tǒng)計或機器學(xué)習(xí)的方法預(yù)測蛋白質(zhì)結(jié)構(gòu)域的邊界.DGS根據(jù)序列長度估計蛋白質(zhì)結(jié)構(gòu)域位置[51];DomCut利用結(jié)構(gòu)域邊界的連接區(qū)域的傾向性統(tǒng)計[52],判斷結(jié)構(gòu)域邊界;Armadillo利用氨基酸在結(jié)構(gòu)域及結(jié)構(gòu)域邊界出現(xiàn)的傾向性預(yù)測邊界[53].自2005年開始,研究集中在采用機器學(xué)習(xí)的方法預(yù)測蛋白質(zhì)結(jié)構(gòu)域,如DROP[11-12]、DOMPro[13]、DOBO[14]、PPRODO[54]和DomNet[55]等.這些方法利用局部或整體的殘基的統(tǒng)計特征,及psi-blast序列比對的特異矩陣等構(gòu)成特征向量,再使用神經(jīng)網(wǎng)絡(luò)、支持向量機、隨機森林等方法進行學(xué)習(xí)分類.我國吉林大學(xué)Zou等[56-57]采用距離最大熵和支持向量機的方法,上海大學(xué)Li等[58]結(jié)合最大相關(guān)最小冗余特征選擇方法,同濟大學(xué)Zhang等[59]采用條件隨機場的開發(fā)的DomHR方法等都屬于這一類.還有一些方法,組合多個或多種方法對蛋白質(zhì)結(jié)構(gòu)域進行綜合預(yù)測.例如DOMAC組合了基于同源比對方法和機器學(xué)習(xí)方法[60];Meta_DP使用了10 個預(yù)測器[61],根據(jù)“多數(shù)”的投票原則,給出一致性預(yù)測.這些方法是對沒有近同源模板序列進行結(jié)構(gòu)域預(yù)測有價值的探索.
這些從序列出發(fā)的方法中,通過高序列相似度的同源模板拷貝結(jié)構(gòu)域劃分邊界具有較高的可信度.ThreaDom是一個使用多個遠同源比對的結(jié)構(gòu)域劃分方法[15],較以往方法有較大的性能優(yōu)勢.經(jīng)過benchmark測試,在缺乏序列相似度>30%模板的情況下,ThreaDom的邊界預(yù)測準(zhǔn)確性較以往同源比對或機器學(xué)習(xí)方法均有明顯的提高.
ThreaDom流程及邊界劃分見圖3.
圖3 ThreaDom 流程及邊界劃分示意圖Fig.3 The flowchart and boundary decision of ThreaDom
從圖3a可見,輸入序列通過LOMET進行遠同源比對后,得到多個已知3D結(jié)構(gòu)的蛋白質(zhì)序列模板,然后對這些模板與標(biāo)準(zhǔn)數(shù)據(jù)庫進行位置映射,再通過計算結(jié)構(gòu)域邊界或比對缺失懲罰分?jǐn)?shù)計算出結(jié)構(gòu)域保守分?jǐn)?shù),最后通過全局門檻值方法確定結(jié)構(gòu)域邊界的位置(圖3b).在對用戶提交的序列的預(yù)測結(jié)果分析發(fā)現(xiàn),ThreaDom在針對“Hard”類型、長序列及包含不連續(xù)結(jié)構(gòu)域的結(jié)構(gòu)域預(yù)測方面存在不足,在方法的模板選擇、保守分?jǐn)?shù)的設(shè)計、決策規(guī)則設(shè)計等領(lǐng)域還有很多未解決的問題.
根據(jù)PDB數(shù)據(jù)統(tǒng)計,約45%的多結(jié)構(gòu)域蛋白質(zhì)包括一個或多個不連續(xù)結(jié)構(gòu)域.在基于結(jié)構(gòu)劃分結(jié)構(gòu)域的方法中,已經(jīng)有多個方法可以劃分不連續(xù)結(jié)構(gòu)域,如Domain Parser、PDP等.然而從序列出發(fā)的不連續(xù)結(jié)構(gòu)域檢測嚴(yán)重依賴于發(fā)現(xiàn)高序列相似度模板.三級結(jié)構(gòu)建模的方法,在沒有高序列相似度模板的情況下,很難完成對包含不連續(xù)結(jié)構(gòu)域的多結(jié)構(gòu)域蛋白的建模.基于統(tǒng)計與機器學(xué)習(xí)的方法更側(cè)重于結(jié)構(gòu)域邊界的預(yù)測,很少涉及到不連續(xù)結(jié)構(gòu)域檢測.目前,Sikder等[62]采用基于預(yù)測原子接觸方法、Xue等[5,15]的Threadom和DomEx,以及ThreaDomEx[25]是少數(shù)幾個具備從序列檢測不連續(xù)結(jié)構(gòu)域的方法.
Sikder等基于預(yù)測的原子間接觸間接預(yù)測不連續(xù)結(jié)構(gòu)域,只能對極少部分蛋白質(zhì)是否包含不連續(xù)結(jié)構(gòu)域進行判斷,無法報告準(zhǔn)確的不連續(xù)結(jié)構(gòu)域及邊界.
ThreaDom具有檢測不連續(xù)結(jié)構(gòu)域的功能,是通過將LOMET返回模板的結(jié)構(gòu)域邊界聚類來實現(xiàn)的,該方法簡單、直觀,但依然依賴于Threading程序給出的遠同源模板的準(zhǔn)確性.ThreaDom檢測不連續(xù)結(jié)構(gòu)域的步驟如下:①檢測輸入序列是否含有不連續(xù)結(jié)構(gòu)域.如果LOMET返回的模板中有超過30%的模板包括1或多個不連續(xù)結(jié)構(gòu)域,則認(rèn)為該輸入序列含有1個不連續(xù)結(jié)構(gòu)域;②對不連續(xù)結(jié)構(gòu)域模板進行聚類.對具有相同結(jié)構(gòu)域連續(xù)序列片段的數(shù)量和相似的邊界的模板聚成一類,以邊界誤差在5個氨基酸以內(nèi)為界定義邊界的相似性;③邊界優(yōu)化與邊界替換.根據(jù)結(jié)構(gòu)域保守分?jǐn)?shù)預(yù)測結(jié)構(gòu)域邊界和邊界聚類中的第一個聚類結(jié)果融合.如果預(yù)測結(jié)構(gòu)域的邊界與第一個聚類中的結(jié)構(gòu)域邊界誤差在20個殘基內(nèi),這個預(yù)測結(jié)構(gòu)域邊界將合并入第一類聚類相應(yīng)結(jié)構(gòu)域中;同時,如果預(yù)測的邊界結(jié)構(gòu)域邊界與聚類邊界有很好的吻合度,且第一類結(jié)構(gòu)域數(shù)量多于預(yù)測的結(jié)構(gòu)域,將采用第一個聚類邊界替換預(yù)測的結(jié)構(gòu)域.
DomEx提出了組裝序列對稱比對的思想,以進行不連續(xù)結(jié)構(gòu)域檢測.可以使用任何結(jié)構(gòu)域邊界預(yù)測工具預(yù)測邊界,進行不連續(xù)結(jié)構(gòu)域檢測.DomEx有3個基本假設(shè): ?同源的蛋白結(jié)構(gòu)域可以使用profile-profile比對的方法檢測到; ?同源的結(jié)構(gòu)域之間應(yīng)該有相似的長度;?組裝拼接的不連續(xù)結(jié)構(gòu)域,再拼接點的兩側(cè)有相似的比對長度和序列相似性,即具有關(guān)于組裝點兩側(cè)的對稱性.
DomEx設(shè)計了模板相似分?jǐn)?shù)、對稱指數(shù)和profile-profile比對分?jǐn)?shù),用于不連續(xù)結(jié)構(gòu)域檢測.DomEx結(jié)合ThreaDom邊界檢測的流程圖如圖4所示.其關(guān)鍵步驟包括:①利用ThreaDom或者其他結(jié)構(gòu)域邊界預(yù)測工具預(yù)測結(jié)構(gòu)域邊界,把序列分成多個片段;②將空間上不連續(xù)的序列片段組裝為候選的不連續(xù)結(jié)構(gòu)域;③使用psi-blast搜索候選不連續(xù)結(jié)構(gòu)域的同源結(jié)構(gòu)域;④利用模板相似分?jǐn)?shù)、對稱指數(shù)、長度相似度評價組裝結(jié)構(gòu)域是一個不連續(xù)結(jié)構(gòu)域的可能性;⑤利用profile-profile 比對進一步確認(rèn)不連續(xù)結(jié)構(gòu)域;⑥檢測沖突并給出最終結(jié)果.
DomEx在組裝候選不連續(xù)結(jié)構(gòu)域后,使用psi-blast搜索單結(jié)構(gòu)域nr數(shù)據(jù)庫.該庫的結(jié)構(gòu)域主要來源于CATH、SCOP和PFam.對通過在PFam中找到的模板,還需要采用profile-profile比對方法進行進一步確認(rèn).通過實驗觀測,定義了一個參數(shù)b用于對不連續(xù)檢出率MCC進行訓(xùn)練,具有較好的魯棒性.
DomEx方法在不連續(xù)結(jié)構(gòu)域檢測方面與ThreaDom有互補性.在ThreaDom不能檢測出的結(jié)果中,DomEx可以檢測出26.7%的不連續(xù)結(jié)構(gòu)域,且準(zhǔn)確率在72%以上.當(dāng)前基于對稱比對和序列組裝方法,需要在以下2方面重點突破:①在3個及3個以上序列片段組成的不連續(xù)結(jié)構(gòu)域檢測方面需要進一步擴展;②需要與Threading等遠同源序列比對方法深度融合,提高不連續(xù)結(jié)構(gòu)域的檢出率和準(zhǔn)確性.
ThreaDomEx 則組合了ThreaDom及DomEx的優(yōu)點,其不連續(xù)結(jié)構(gòu)域檢測能力比ThreaDom更為優(yōu)秀.
圖4 DomEx不連續(xù)結(jié)構(gòu)域檢測流程Fig.4 Discontinuous domain detection of DomEx
蛋白質(zhì)結(jié)構(gòu)域的在線服務(wù)主要包括數(shù)據(jù)庫和在線預(yù)測網(wǎng)站2類.Pfam、SMART、SCOP、CATH、InetrPro 和PROSITE是常用的結(jié)構(gòu)域數(shù)據(jù)庫[63].
Pfam、SMART都是基于隱馬爾科夫模型進行近同源序列比對方法構(gòu)建.PROSITE是使用profile和相關(guān)規(guī)則構(gòu)建的結(jié)構(gòu)域相關(guān)數(shù)據(jù),其與Pfam相比,更側(cè)重功能標(biāo)注.這類數(shù)據(jù)庫是建立在高序列相似度的近同源序列比對的基礎(chǔ)上,無法深層次識別遠同源序列蛋白質(zhì)結(jié)構(gòu)域.主要的不足是無法對于找不到近同源模板的序列進行結(jié)構(gòu)域識別.
SCOP、CATH等僅僅對已知結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫進行整理、分類、標(biāo)定等,不包含未知三級結(jié)構(gòu)的蛋白質(zhì)序列.這類數(shù)據(jù)庫不提供對未知結(jié)構(gòu)的蛋白質(zhì)序列的結(jié)構(gòu)域識別.InterPro通過整合多個結(jié)構(gòu)域數(shù)據(jù)庫的不同的結(jié)構(gòu)域特征,作為結(jié)構(gòu)域的預(yù)測模型,該數(shù)據(jù)庫自身并不生成結(jié)構(gòu)域的識別模型,只提供多個數(shù)據(jù)庫的整合信息.
與蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫并存的是結(jié)構(gòu)域在線預(yù)測服務(wù),例如,DOBO、ThreaDom、ThreaDomEx等,提供了在線從序列預(yù)測結(jié)構(gòu)域邊界的能力.例如,ThreaDom自2013年7月上線以來,已經(jīng)為來自世界各地的研究者提供9 600余次在線服務(wù).
ThreaDomEx繼承了ThreaDom和DomEx的優(yōu)勢,是其中具有代表性的在線預(yù)測服務(wù).ThreaDomEx不僅能預(yù)測結(jié)構(gòu)域邊界、檢測序列中存在不連續(xù)結(jié)構(gòu)域,而且在線服務(wù)器用戶界面友好,允許用戶根據(jù)個人知識使用系統(tǒng)提供中間結(jié)果,進行可視化交互修改、保存預(yù)測結(jié)果.圖5給出了ThreaDomEx在線服務(wù)預(yù)測界面的結(jié)果,用戶可以根據(jù)系統(tǒng)預(yù)測的結(jié)果用鼠標(biāo)進行拖拽操作,可以參考預(yù)測二級結(jié)構(gòu)和溶液可及性進行修改;可以在增加刪除結(jié)構(gòu)域片段后,提交服務(wù)器再次進行不連續(xù)結(jié)構(gòu)域檢測.
圖5 ThreaDomEx在線服務(wù)界面Fig.5 The oneline service page of ThreaDomEx
總之,以往的研究對蛋白質(zhì)結(jié)構(gòu)域識別做了積極而有意義的探索,但依然存在大于50%的非重復(fù)蛋白質(zhì)序列亟需標(biāo)注結(jié)構(gòu)域信息.在缺少近同源模板的情況下,通過基于Threading檢測遠同源模板方法,成為提高結(jié)構(gòu)域標(biāo)注準(zhǔn)確性和標(biāo)注比例最為有效和可能的途徑.另外,由于基因插入、融合造成大量存在的不連續(xù)結(jié)構(gòu)域,也要求有新的方法和手段提高不連續(xù)結(jié)構(gòu)域的標(biāo)注比例.建議相關(guān)研究者在使用PFam、CATH、SCOP等數(shù)據(jù)庫無法得到滿意結(jié)果的情況下,使用ThreaDom、ThreaDomEx進行常識性結(jié)構(gòu)域劃分;同時,亟需開發(fā)能從序列識別遠同源蛋白質(zhì)結(jié)構(gòu)域的新方法及相應(yīng)的數(shù)據(jù)庫,進而注釋這些蛋白質(zhì)的家族與功能,為研究者提供更加豐富、便捷的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫系統(tǒng)和工具.