許睿,金松林,王廷雨
(河南科技學(xué)院信息工程學(xué)院,河南新鄉(xiāng)453003)
一種新型的蛋白質(zhì)復(fù)合物挖掘算法
許睿,金松林,王廷雨
(河南科技學(xué)院信息工程學(xué)院,河南新鄉(xiāng)453003)
隨著人類基因組計(jì)劃的完成,如何從蛋白質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)特性出發(fā),有效地識(shí)別蛋白質(zhì)復(fù)合物和功能模塊正成為蛋白質(zhì)組學(xué)研究的重點(diǎn).提出一種新型的蛋白質(zhì)復(fù)合物挖掘算法,首先分析蛋白質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)特征,依據(jù)每個(gè)蛋白質(zhì)的GO術(shù)語(yǔ)相似性對(duì)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行加權(quán),再通過(guò)不斷地迭代傳播,將各節(jié)點(diǎn)劃分到穩(wěn)定的集合中,從而識(shí)別出蛋白質(zhì)復(fù)合物.該算法與CPM算法(k=3)及Core-Attachment算法進(jìn)行對(duì)照實(shí)驗(yàn),結(jié)果表明該算法在預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物的匹配程度和復(fù)合物的功能富集性等方面更有優(yōu)勢(shì).
蛋白質(zhì)網(wǎng)絡(luò);GO術(shù)語(yǔ);蛋白質(zhì)相互作用;蛋白質(zhì)復(fù)合物
隨著人類基因組序列測(cè)序的完成,現(xiàn)代生物學(xué)研究已經(jīng)進(jìn)入了后基因時(shí)代,課題研究的重點(diǎn)也將轉(zhuǎn)移到基因的功能表達(dá)問(wèn)題,大多數(shù)基因最終是通過(guò)對(duì)應(yīng)的蛋白質(zhì)進(jìn)行表達(dá)的[1].在蛋白質(zhì)組學(xué)的大量研究中,發(fā)現(xiàn)一個(gè)復(fù)雜的生物活動(dòng)不可能只是單獨(dú)的生物分子來(lái)操縱的,往往是由多個(gè)生物分子相互配合所表達(dá)出來(lái)的,如何透過(guò)生命現(xiàn)象,觀察生命的本質(zhì)以及發(fā)現(xiàn)基因的全部功能是一個(gè)重要的挑戰(zhàn)[2].
研究表明蛋白質(zhì)網(wǎng)絡(luò)中各節(jié)點(diǎn)的度服從冪率分布[3],大部分節(jié)點(diǎn)的度較低而少數(shù)節(jié)點(diǎn)的度卻很高,而且大部分節(jié)點(diǎn)只與少數(shù)節(jié)點(diǎn)有相互作用,少數(shù)節(jié)點(diǎn)卻與多數(shù)節(jié)點(diǎn)有相互作用.具體的蛋白質(zhì)網(wǎng)絡(luò)在實(shí)現(xiàn)某種功能的過(guò)程中,節(jié)點(diǎn)間的交互是有條不紊地進(jìn)行的.研究表明蛋白質(zhì)網(wǎng)絡(luò)中存在著簇結(jié)構(gòu),該簇結(jié)構(gòu)是由具有相似功能的蛋白質(zhì)節(jié)點(diǎn)組成,這些節(jié)點(diǎn)間的交互程度明顯高于非簇結(jié)構(gòu)的節(jié)點(diǎn)間的交互程度,蛋白質(zhì)網(wǎng)絡(luò)中大部分生命活動(dòng)都是由多個(gè)簇之間的相互作用來(lái)完成[4].由于生物系統(tǒng)的功能復(fù)雜,通過(guò)挖掘蛋白質(zhì)網(wǎng)絡(luò)中的簇結(jié)構(gòu),有助于了解蛋白質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)和功能特性.
1.1基因本體(Gene Ontology)
基因本體是“基因本體聯(lián)盟”所建立的數(shù)據(jù)庫(kù).基因本體使各種數(shù)據(jù)庫(kù)中基因產(chǎn)物功能描述相一致,統(tǒng)一了各種數(shù)據(jù)庫(kù)中關(guān)于基因的定義,使研究者能夠進(jìn)行統(tǒng)一的歸納、處理、共享基因以及基因產(chǎn)物的數(shù)據(jù).基因本體包括分子功能(molecular function)、生物學(xué)過(guò)程(biological process)、細(xì)胞組件(cellular component).分子功能描述在個(gè)體分子生物學(xué)上的活性,如催化活性或結(jié)合活性.生物學(xué)過(guò)程是由分子功能有序地組成并具有多個(gè)步驟的一個(gè)過(guò)程.細(xì)胞組件指細(xì)胞的每個(gè)部分和細(xì)胞外環(huán)境,揭示了基因產(chǎn)物是在什么地方起作用.
GO術(shù)語(yǔ)的結(jié)構(gòu)如圖1所示,是一個(gè)有向無(wú)環(huán)圖.節(jié)點(diǎn)表示術(shù)語(yǔ),邊表示兩術(shù)語(yǔ)間的關(guān)系,其中“I”表示繼承關(guān)系,“P”表示從屬關(guān)系,“R”表示前者調(diào)節(jié)控制后者.如果一個(gè)節(jié)點(diǎn)術(shù)語(yǔ)A被另一個(gè)節(jié)點(diǎn)術(shù)語(yǔ)B所包含或者繼承,則稱節(jié)點(diǎn)A為節(jié)點(diǎn)B的父節(jié)點(diǎn),節(jié)點(diǎn)B為節(jié)點(diǎn)A的子節(jié)點(diǎn).在圖1中,從上而下,GO術(shù)語(yǔ)語(yǔ)義逐漸具體,子節(jié)點(diǎn)擁有其祖先節(jié)點(diǎn)的注釋信息,因此下層節(jié)點(diǎn)所擁有的語(yǔ)義信息量比父節(jié)點(diǎn)要更大.
圖1GO術(shù)語(yǔ)結(jié)構(gòu)Fig.1 Structure diagramofGOterms
1.2 P-value值
在蛋白質(zhì)網(wǎng)絡(luò)中,處在同一蛋白質(zhì)功能模塊內(nèi)部的蛋白質(zhì)往往具有相似的結(jié)構(gòu)和功能特性,它們之間相互作用,共同實(shí)現(xiàn)某種生物功能.通過(guò)計(jì)算具有共同功能的蛋白質(zhì)在預(yù)測(cè)蛋白質(zhì)復(fù)合物中出現(xiàn)的概率的P-value值,來(lái)判斷蛋白質(zhì)功能模塊的主要功能或者預(yù)測(cè)新功能.P-value值的定義如式(1)所示
式(1)中,N表示蛋白質(zhì)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù),C表示蛋白質(zhì)復(fù)合物中的蛋白質(zhì)數(shù),k表示蛋白復(fù)合物中具有某個(gè)功能的蛋白質(zhì)數(shù),F表示蛋白質(zhì)網(wǎng)絡(luò)的全部擁有該功能的蛋白質(zhì)數(shù).一般認(rèn)為在蛋白質(zhì)網(wǎng)絡(luò)中, P-value值越低,蛋白質(zhì)復(fù)合物隨機(jī)出現(xiàn)這種功能的可能性就越低,因此這樣預(yù)測(cè)蛋白質(zhì)復(fù)合物具有更高的統(tǒng)計(jì)意義.通常將預(yù)測(cè)蛋白質(zhì)復(fù)合物對(duì)應(yīng)P-value值最小的功能作為其主要功能或者注釋功能.
2.1 GO術(shù)語(yǔ)的相似性
蛋白質(zhì)復(fù)合物的GO語(yǔ)義相似性是指所有蛋白質(zhì)間的平均關(guān)聯(lián)程度,可以通過(guò)所有蛋白質(zhì)復(fù)合物的加權(quán)平均計(jì)算實(shí)現(xiàn).通常,蛋白質(zhì)復(fù)合物具有較高的GO語(yǔ)義相似性,表明復(fù)合物內(nèi)的蛋白質(zhì)表達(dá)相似功能的概率越大.在計(jì)算兩個(gè)GO術(shù)語(yǔ)間的相似度的時(shí)候,如果兩個(gè)GO術(shù)語(yǔ)共享的信息越多,則兩者就越相似.在本文中,采用Lin[5]提出的計(jì)算方法,兩個(gè)GO術(shù)語(yǔ)的相似性由它們所共有的最近祖先的信息量和每個(gè)GO術(shù)語(yǔ)包含的信息量共同決定.式(2)如下所示
式(2)中,C1和C2分別表示兩個(gè)GO術(shù)語(yǔ),p(c)表示該術(shù)語(yǔ)C在數(shù)據(jù)集中出現(xiàn)的概率,CT(C1,C2)表示C1、C2共同祖先的集合.
2.2 蛋白質(zhì)相互作用
通過(guò)研究發(fā)現(xiàn),在蛋白質(zhì)網(wǎng)絡(luò)中,每一個(gè)蛋白質(zhì)都有多條GO注釋信息,本文計(jì)算兩個(gè)蛋白質(zhì)之間相似性的最大值來(lái)衡量這兩者的相互作用.因此兩個(gè)蛋白質(zhì)之間的蛋白質(zhì)相互作用E(u,v)可以用蛋白質(zhì)u、蛋白質(zhì)v的GO語(yǔ)義相似來(lái)衡量,如式(3)所示
式(3)中,Fu表示蛋白質(zhì)u的GO注釋集,Fv表示蛋白質(zhì)v的GO注釋集.文本用蛋白質(zhì)間相似性來(lái)衡量?jī)蓚€(gè)蛋白質(zhì)之間的相互作用,將蛋白質(zhì)網(wǎng)絡(luò)從無(wú)權(quán)圖轉(zhuǎn)化為有權(quán)圖,在轉(zhuǎn)化的過(guò)程中,用GO術(shù)語(yǔ)作為參考,突出了蛋白質(zhì)之間的生物學(xué)特性.
2.3 算法描述
在蛋白質(zhì)網(wǎng)絡(luò)中,用兩蛋白質(zhì)間的GO術(shù)語(yǔ)的相似性強(qiáng)弱量化這兩者間的相互作用,進(jìn)而把無(wú)權(quán)的蛋白質(zhì)網(wǎng)絡(luò)轉(zhuǎn)化為有權(quán)網(wǎng).將初始時(shí)刻每個(gè)蛋白質(zhì)節(jié)點(diǎn)當(dāng)作單獨(dú)的蛋白質(zhì)模塊,由于每個(gè)模塊只含有一個(gè)節(jié)點(diǎn),則模塊的唯一信號(hào)就由該節(jié)點(diǎn)來(lái)表示.本算法設(shè)定模塊間的信號(hào)只允許在直接連接的相鄰節(jié)點(diǎn)間進(jìn)行傳播,各節(jié)點(diǎn)依據(jù)相互作用關(guān)系將自己的信號(hào)傳到相鄰節(jié)點(diǎn)集合中,并且該節(jié)點(diǎn)也能收到相鄰節(jié)點(diǎn)集反饋給自己的信號(hào),而且每個(gè)蛋白質(zhì)節(jié)點(diǎn)在傳播過(guò)程中都會(huì)將信號(hào)強(qiáng)度最大的信號(hào)類型來(lái)替換自己原先的類型.按照這一設(shè)定,經(jīng)過(guò)一系列迭代過(guò)程,蛋白質(zhì)網(wǎng)絡(luò)中會(huì)形成一些節(jié)點(diǎn)集合,通過(guò)分析,發(fā)現(xiàn)每個(gè)節(jié)點(diǎn)集合中的節(jié)點(diǎn)具有相同的信號(hào)類型,而且他們?cè)诮Y(jié)構(gòu)上是緊密連接的.隨著迭代過(guò)程的不斷進(jìn)行,節(jié)點(diǎn)集合會(huì)將具有結(jié)構(gòu)相似以及信號(hào)類型一致的單獨(dú)節(jié)點(diǎn)加入其中.當(dāng)整個(gè)蛋白質(zhì)網(wǎng)絡(luò)中的各節(jié)點(diǎn)集合的信號(hào)類型趨于穩(wěn)定的時(shí)候,算法終止.最后,分析各蛋白質(zhì)節(jié)點(diǎn)的信號(hào)類型,具有相同的信號(hào)類型的節(jié)點(diǎn)預(yù)測(cè)會(huì)具有相似的功能特性,劃為同一個(gè)蛋白質(zhì)復(fù)合物中.
算法的具體描述如下:
為每個(gè)節(jié)點(diǎn)分配唯一的信號(hào)類型
計(jì)算該節(jié)點(diǎn)的相鄰節(jié)點(diǎn)的信號(hào)量
用最強(qiáng)相鄰節(jié)點(diǎn)的信號(hào)類型替換自己原有的信號(hào)類型
until蛋白質(zhì)網(wǎng)絡(luò)中的信號(hào)類型穩(wěn)定
f
or所有信號(hào)類型
輸出具有該信號(hào)類型的節(jié)點(diǎn)
end for
通過(guò)分析所有生物物種的蛋白質(zhì)相互作用的數(shù)據(jù),發(fā)現(xiàn)酵母蛋白質(zhì)網(wǎng)絡(luò)的數(shù)據(jù)較為完備,所以本文選擇酵母蛋白質(zhì)網(wǎng)絡(luò)作為本實(shí)驗(yàn)的測(cè)試對(duì)象.實(shí)驗(yàn)選取Krogan數(shù)據(jù)庫(kù)[6],先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,過(guò)濾掉自環(huán)邊和多邊作用等,最終得到的測(cè)試網(wǎng)絡(luò)包括了3 672個(gè)節(jié)點(diǎn)和14 317條邊.為了驗(yàn)證本算法的有效性,將實(shí)驗(yàn)結(jié)果與另兩個(gè)基于稠密子圖的蛋白質(zhì)復(fù)合物挖掘算法(CPM[7]、Core-Attachment[8])的實(shí)驗(yàn)結(jié)果做對(duì)照分析.為了有效地評(píng)價(jià)預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物,從已發(fā)布的小規(guī)模實(shí)驗(yàn)數(shù)據(jù)[9]中人工提取了408個(gè)蛋白質(zhì)復(fù)合物并生成了詳細(xì)目錄.形成該目錄的標(biāo)準(zhǔn)是復(fù)合物的規(guī)模大于3,選取了236個(gè)標(biāo)準(zhǔn)復(fù)合物,其平均規(guī)模為6.6.
表1 參數(shù)P在不同值下的聚類結(jié)果Tab.1 Clusteringresult in different value ofparameter P
在表1中,當(dāng)衰減因子P值不斷增大時(shí),本算法識(shí)別的蛋白質(zhì)復(fù)合物的個(gè)數(shù)隨之增加,尤其在P值從0到0.2這一階段,識(shí)別得到的復(fù)合物數(shù)量增長(zhǎng)最為迅速.同時(shí)蛋白質(zhì)復(fù)合物的平均規(guī)模在不斷減小,復(fù)合物中所包含的節(jié)點(diǎn)數(shù)量也在不斷減小.在P值為0時(shí),在蛋白質(zhì)網(wǎng)絡(luò)中形成節(jié)點(diǎn)規(guī)模很大的蛋白質(zhì)復(fù)合物.研究表明,當(dāng)匹配閾值設(shè)定為0.2時(shí),就可以將此時(shí)識(shí)別的蛋白質(zhì)復(fù)合物標(biāo)記為已知蛋白質(zhì)復(fù)合物.但是為了找到最適合酵母蛋白質(zhì)網(wǎng)絡(luò)的參數(shù)P值,將參數(shù)P設(shè)置從0到1,步長(zhǎng)為0.1,進(jìn)行算法有效性分析.統(tǒng)計(jì)本算法在不同參數(shù)P的條件下,識(shí)別出的蛋白質(zhì)復(fù)合物在已知復(fù)合物中所占的比例,如圖2所示.
在圖2中,通過(guò)分析,發(fā)現(xiàn)本算法在參數(shù)P為0.4時(shí),預(yù)測(cè)準(zhǔn)確率最高,也就是預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物標(biāo)識(shí)正確的比例最高.因此,本實(shí)驗(yàn)將參數(shù)P設(shè)定為0.4.Core-Attachment算法、CPM算法(k=3)和本算法分別預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物被標(biāo)識(shí)的比例見(jiàn)圖3.
從圖3中可以看出,在不同匹配閾值下,本算法預(yù)測(cè)得到的復(fù)合物被標(biāo)識(shí)的比例都要略高于CPM算法(k=3)得到的結(jié)果,而且明顯高于Core-Attachment算法得到的結(jié)果.一般認(rèn)為當(dāng)匹配閾值大于0.2時(shí),可以將此時(shí)識(shí)別的蛋白質(zhì)復(fù)合物標(biāo)記為已知蛋白質(zhì)復(fù)合物.本算法預(yù)測(cè)到的蛋白質(zhì)復(fù)合物中有約40%的匹配閾值大于0.2,而CPM算法(k=3)和Core-Attachment算法預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物匹配閾值大于0.2復(fù)合物的比例分別為38%和18%,本算法比其他兩種算法分別提高了2個(gè)和22個(gè)百分點(diǎn).
對(duì)本算法、CPM算法(k=3)和Core-Attachment算法預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物分別進(jìn)行功能富集性分析.比較這3種不同算法得到的蛋白質(zhì)復(fù)合物的P-value分布,將P-value按(-∞,E-10)、[E-10,E-5)、[E-5,0.01)、[0.01,+∞)的從小到大分為4個(gè)區(qū)間,分別統(tǒng)計(jì)各區(qū)間上蛋白質(zhì)復(fù)合物的數(shù)量與比例,各算法的P-value分布如表2所示.
表2 不同算法識(shí)別的蛋白質(zhì)復(fù)合物的功能富集性分析Tab.2 Functional enrichment ofprotein complexes predicted bydifferent algorithms
研究表明,當(dāng)P-value<0.01時(shí),所對(duì)應(yīng)的蛋白質(zhì)復(fù)合物功能表現(xiàn)更加明顯,具有生物學(xué)意義.從表2中可以看出,本算法預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物中有約64.5%的復(fù)合物具有相應(yīng)的生物學(xué)意義,高于CPM算法(56.9%)和Core-Attachment算法(35.7%).本算法在P-value值小于E-10時(shí)所占蛋白質(zhì)復(fù)合物比例達(dá)到11.1%,比Core-Attachment算法對(duì)應(yīng)的比值提高近一倍,比CPM算法略低.但是在P-value值在[E-10,E-5)和[E-5,0.01)時(shí),本算法得到的結(jié)果均優(yōu)于CPM算法和Core-Attachment算法.實(shí)驗(yàn)結(jié)果表明本算法在功能富集性方面比其他兩種算法有一定的優(yōu)越性.
本文提出了一種新型的蛋白質(zhì)復(fù)合物挖掘算法,首先利用GO術(shù)語(yǔ)相似性對(duì)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行加權(quán)處理,然后通過(guò)蛋白質(zhì)節(jié)點(diǎn)迭代傳播,每個(gè)蛋白質(zhì)節(jié)點(diǎn)都會(huì)從鄰居節(jié)點(diǎn)集合中選取信號(hào)最強(qiáng)的信號(hào)類型來(lái)更新自己,直到整個(gè)蛋白質(zhì)網(wǎng)絡(luò)趨于穩(wěn)定,算法終止.在實(shí)驗(yàn)中,本算法通過(guò)與CPM算法(k=3)和Core-Attachment算法對(duì)照,本算法在功能富集性方面和蛋白質(zhì)復(fù)合物的匹配程度方面都有提高,說(shuō)明本算法在識(shí)別蛋白質(zhì)復(fù)合物上具有比較好的效果.
[1]WILKINS M R,SANEHEZ J C,GOOLEY A A,et al.Progress with proteome projects:why all proteins expressed by a genome should be identified and howtodoit[J].Biotechnologyand Genetic EngineeringReviews,1996,13(1):19-50.
[2]GARRELS J I.Yeast genomic databases and the challenge of the post-genomic era[J].Functional&Integrative Genomics,2002, 2(4):212-237.
[3]BARABASI AL,ALBERTR.Emergence ofscalingin randomnetworks[J].Seience,1992,86(5439):509-512.
[4]趙靜,俞鴻,駱建華,等.應(yīng)用復(fù)雜網(wǎng)絡(luò)理論研究代謝網(wǎng)絡(luò)的進(jìn)展[J].科學(xué)通報(bào),2006,51(11):1241-1245.
[5]LIN D.An information-theoretic definition of similarity[J].Proceedings of the Fifteenth International Conference on Machine Learning,1998,1(2):296-304.
[6]KROGAN N,CAGNEY G,YU H,et al.Global landscape of protein complexes in the yeast Saccharomyces cerevisiae[J].Nature, 2006,440(7084):637-643.
[7]PALLA G,DERENYI I,FARKAS I,et al.Uncovering the overlapping community structure of complex networks in nature and society[J].Nature,2005,435(7043):814-818.
[8]RZHETSKY A,GOMEZ S M.Birth of scale-free molecular networks and the number of distinct DNA and protein domains per genome[J].Bioinformatics,2001,17(10):988-996.
[9]PUS,WONGJ,TUMER B,et al.Up-to-date catalogues ofyeast protein complexes[J].Nucleic Acids Res,2009,37(3):825-831.
(責(zé)任編輯:盧奇)
Novel algorithm for mining of protein complexes
XU Rui,JIN Songlin,WANG Tingyu
(School ofInformation Engineering,Henan Institute ofScience and Technology,Xinxiang453003,China)
With the completion of the Human Genome Project,through analysis of structure characteristic of protein networks,identifying protein complexes or function modules is becoming the focus of current proteomics research.A novel algorithm for the mining of protein complexes was proposed.Based on an in-depth analysis of structure characteristics of protein networks,initially the protein network was weighted by GO terms of protein nodes, furthermore each protein node was divided into a stable protein set through the constant iteration of the nodes,finally protein complexes was identified in protein network.Compared with the algorithm CPM(k=3)and algorithm Core-Attachment,our method has a better performance in matching degree and functional enrichment of predicted protein complexes.
protein network;GO terms;protein interaction;protein complex
TP301.6
A
1008-7516(2017)01-0060-05
10.3969/j.issn.1008-7516.2017.01.012
2016-10-08
許睿(1987―),男,河南新鄉(xiāng)人,碩士,助教.主要從事數(shù)據(jù)挖掘和生物信息學(xué)研究.