孫 靜,李 彬,李文彬,楊 勃,潘 理
(湖南理工學(xué)院 信息科學(xué)與工程學(xué)院,湖南 岳陽 414006)
蛋白質(zhì)是維持生命活動(dòng)、構(gòu)成生物細(xì)胞和組織的基本物質(zhì),是生物生命活動(dòng)中必不可少的成分.根據(jù)蛋白質(zhì)對(duì)生命活動(dòng)的必要性,可將蛋白質(zhì)分為關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)兩大類.關(guān)鍵蛋白質(zhì)對(duì)于生命體是至關(guān)重要的.如果關(guān)鍵蛋白質(zhì)被剔除,細(xì)胞就會(huì)死亡或不能正常工作[1].
通常單個(gè)蛋白質(zhì)并不能發(fā)揮其作用,只有通過與其他蛋白質(zhì)相互作用才具有生物學(xué)功能.因此從網(wǎng)絡(luò)拓?fù)涞慕嵌葋碜R(shí)別關(guān)鍵蛋白質(zhì)是目前最常用的方法之一[2].基于網(wǎng)絡(luò)拓?fù)涞姆椒ㄓ挚煞譃?基于鄰域的方法、基于路徑的方法和基于特征向量的方法[3]等.其中,度中心性方法(DC)[4]、局部平均連接中心性方法(LAC)[5]、節(jié)點(diǎn)聚類中心性方法(NC)[6]是最常用的鄰域方法.在鄰域方法中,存在相關(guān)性很小但差異性很大的方法(例如,LAC和DC),因此可以通過組合這些方法來提高關(guān)鍵蛋白質(zhì)的識(shí)別率.
基于鄰域的中心性方法利用節(jié)點(diǎn)鄰居的不同特性來判斷該節(jié)點(diǎn)的重要性,它是蛋白質(zhì)相互作用網(wǎng)絡(luò)中識(shí)別關(guān)鍵蛋白質(zhì)的常用方法.擁有較高中心性值的節(jié)點(diǎn)通常被認(rèn)為是蛋白質(zhì)相互作用網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn),進(jìn)而有更大概率成為關(guān)鍵蛋白質(zhì).
常用的基于鄰域的中心性方法有:局部平均連接中心性方法(LAC)、度中心性方法(DC)、節(jié)點(diǎn)聚類中心性方法(NC)、邊緣聚類系數(shù)中心性方法(ECC)等.
(1) 度中心性
度中心性DC(v)用節(jié)點(diǎn)v的鄰居數(shù)表示該節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性,即
其中deg(v)代表節(jié)點(diǎn)v的度,即節(jié)點(diǎn)v的鄰居數(shù).
(2) 局部平均連接中心性
局部平均連接中心性LAC(v)用節(jié)點(diǎn)v的鄰域圖的平均度數(shù)來描述該節(jié)點(diǎn)的重要性,即
其中Nv是節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)的集合,Cv是由Nv中的節(jié)點(diǎn)和連接這些節(jié)點(diǎn)的邊所構(gòu)成的子圖,degCv(w)代表節(jié)點(diǎn)w在Cv中的度.
(3) 節(jié)點(diǎn)聚類中心性
節(jié)點(diǎn)聚類中心性NC(v)是與節(jié)點(diǎn)v關(guān)聯(lián)的所有邊的邊聚類系數(shù)中心性ECC(v,u)的總和,
邊聚類系數(shù)中心性ECC(v,u)用節(jié)點(diǎn)v和u鄰域中包含邊(v,u)的三角形數(shù)量與最大可能數(shù)量的比值來表示該邊的重要性,即
其中zv,u表示包含邊(v,u)的三角形個(gè)數(shù).
用S-PPI表示靜態(tài)PPI網(wǎng)絡(luò),D-PPI表示動(dòng)態(tài)PPI網(wǎng)絡(luò),兩種PPI網(wǎng)絡(luò)的構(gòu)建方法請(qǐng)參見文[7~9].通過實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于兩種PPI網(wǎng)絡(luò),LAC與NC的秩相關(guān)系數(shù)最高(見表1),這說明兩種方法度量值的排序較為一致;另一方面,DC與LAC在Top600中的相同蛋白質(zhì)最少(見表2),這說明兩種度量方法的差異性較大,即不少DC中心性排序很高的蛋白質(zhì)卻不在LAC的Top600中,反之亦然.
表1 三種中心性方法的Spearman秩相關(guān)系數(shù)
表2 三種中心性方法 Top600中相同蛋白質(zhì)數(shù)量
基于上述分析,嘗試將LAC和DC(兩種差異性最大且相關(guān)性最低的方法)進(jìn)行組合,通過綜合LAC和DC的中心性值共同度量蛋白質(zhì)的關(guān)鍵性,來提高關(guān)鍵蛋白質(zhì)的識(shí)別率.我們稱這種方法為基于鄰域的組合中心性方法(CNC).計(jì)算公式為
其中參數(shù)α用來調(diào)節(jié)DC中心性的影響程度,α一般取0~2.
當(dāng)α=0時(shí),式(5)轉(zhuǎn)化為
即LAC方法.
當(dāng)α=1時(shí),式(5)轉(zhuǎn)化為
即用節(jié)點(diǎn)v所有鄰居的總度數(shù)來度量v的中心性.
本實(shí)驗(yàn)采用釀酒酵母蛋白質(zhì)相互作用數(shù)據(jù)集[10],包含4746個(gè)蛋白質(zhì)及15166條相互作用;基因表達(dá)水平數(shù)據(jù)集[11]包含了共 6763個(gè)蛋白質(zhì)3個(gè)周期,共計(jì)36個(gè)時(shí)點(diǎn)的基因表達(dá)水平值;關(guān)鍵蛋白質(zhì)數(shù)據(jù)集[1,12~14]包含1285個(gè)關(guān)鍵蛋白質(zhì);亞細(xì)胞位置數(shù)據(jù)集[15,16]含有206831條亞細(xì)胞位置記錄.
(1)靜態(tài)PPI網(wǎng)絡(luò)
針對(duì)S-PPI網(wǎng)絡(luò),比較CNC與LAC、DC、NC中心性方法的關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量,其中CN C方法參數(shù)α∈[0,2],實(shí)驗(yàn)結(jié)果如圖1所示.
圖1 S-PPI中四種中心性方法關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量
在S-PPI中,DC中心性方法的識(shí)別數(shù)量最低.CNC方法Top100~Top600關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量曲線的峰值對(duì)應(yīng)的α值是不同的.當(dāng)α∈[0.25,0.5]時(shí),CNC的識(shí)別數(shù)量均超過LAC、DC和NC方法.表3列出了S-PPI中四種中心性方法Top100~Top600關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量的最優(yōu)值及對(duì)應(yīng)參數(shù).
表3 S-PPI四種中心性方法識(shí)別數(shù)量最優(yōu)值對(duì)比
與DC方法相比,CNC方法Top100和Top600關(guān)鍵蛋白質(zhì)的識(shí)別數(shù)量分別提升了54.55%和16.89%;與NC方法相比提升了10.39%和4.74%;與LAC方法相比提升了3.65%和2.02%.
圖2和圖3中分別顯示了S-PPI中CNC(α=0.4)與LAC、DC方法Top600中(關(guān)鍵)蛋白質(zhì)的交集數(shù)量.
圖2 三種方法Top600蛋白質(zhì)交集
圖3 三種方法Top600關(guān)鍵蛋白質(zhì)交集
由圖2和圖3可看出,CNCTop600中(關(guān)鍵)蛋白質(zhì)均從LAC和DC中獲取,且同時(shí)存在于LAC、DC中的(關(guān)鍵)蛋白質(zhì)全部被包含進(jìn)CNC.圖3中,盡管DC中有74項(xiàng)關(guān)鍵蛋白質(zhì)未被CNC偵測到,但從LAC中增加了125項(xiàng)關(guān)鍵蛋白質(zhì).同樣,LAC中有24項(xiàng)關(guān)鍵蛋白質(zhì)未被CNC偵測到,但從DC中增加了31項(xiàng)關(guān)鍵蛋白質(zhì).因此CNC提高了關(guān)鍵蛋白質(zhì)識(shí)別率.
(2)動(dòng)態(tài)PPI網(wǎng)絡(luò)
針對(duì)D-PPI網(wǎng)絡(luò),比較CNC與LAC、DC、NC中心性方法的關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量,其中3Sigma方法[17]中閾值k取0~5,α取1.5.實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 D-PPI中四種中心性方法關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量
容易看出,CNC方法Top100~Top600的關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量高于DC、NC和LAC方法,但曲線峰值對(duì)應(yīng)的k值是不相同的.例如,Top100的峰值在k=3.5附近,但Top600的峰值在k=2.2附近.表4列出了D-PPI中四種中心性方法Top100~Top600的關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量的最優(yōu)值及對(duì)應(yīng)參數(shù).
表4 D-PPI中四種中心性方法識(shí)別數(shù)量最優(yōu)值對(duì)比
與DC方法相比,CNC方法Top100和Top600的識(shí)別數(shù)量分別提升了15.38%和2.22%,與NC方法相比提升了4.65%和5.14%,與LAC方法相比提升了4.65%和3.37%.在D-PPI中,當(dāng)參數(shù)α∈[0.7,1.5]時(shí),CNC方法有較高的關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量.
圖5和圖6分別顯示了D-PPI中CNC(α=1.5)與LAC、DC方法Top600中(關(guān)鍵)蛋白質(zhì)的交集數(shù)量.
圖5 三種方法Top600蛋白質(zhì)交集
圖6 三種方法Top600關(guān)鍵蛋白質(zhì)交集
由圖5和圖6可知,CNC Top600中的(關(guān)鍵)蛋白質(zhì)基本來自LAC和DC,且同時(shí)存在于LAC、DC中的(關(guān)鍵)蛋白質(zhì)全部被包含進(jìn)CNC.圖6中,盡管LAC中有45項(xiàng)關(guān)鍵蛋白質(zhì)未被CNC偵測到,但從DC中增加了48項(xiàng);同樣,DC中有46項(xiàng)關(guān)鍵蛋白質(zhì)未被CNC偵測到,但從LAC中增加了54項(xiàng);此外,CNC還偵測到3項(xiàng)不在LAC和DC中的關(guān)鍵蛋白質(zhì).可見,CNC方法通過整合LAC和DC方法,提高了蛋白質(zhì)相互作用網(wǎng)絡(luò)中關(guān)鍵蛋白質(zhì)的識(shí)別率.
本文提出一種基于鄰域的組合中心性方法,使用現(xiàn)有LAC與DC方法綜合度量蛋白質(zhì)節(jié)點(diǎn)的中心性,并通過參數(shù)α調(diào)節(jié)DC方法的影響權(quán)重.實(shí)驗(yàn)表明,針對(duì)S-PPI和D-PPI網(wǎng)絡(luò),CNC方法在關(guān)鍵蛋白質(zhì)識(shí)別數(shù)量方面均優(yōu)于現(xiàn)有DC、NC和LAC方法.