浦恩祿,張孟嬌,張俊鵬
(大理大學(xué)工程學(xué)院,云南大理 671003)
隨著生物信息學(xué)技術(shù)的發(fā)展,人們已經(jīng)獲得了大量生物分子之間的相互作用數(shù)據(jù),并由此構(gòu)成了龐大的生物網(wǎng)絡(luò),其中蛋白質(zhì)相互作用網(wǎng)絡(luò)是這些生物網(wǎng)絡(luò)數(shù)據(jù)中很重要的一類數(shù)據(jù)。蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)在生物體的生命活動中起核心作用,對PPI的研究將有利于更好地了解生命體中的生物過程〔1〕。
PPI網(wǎng)絡(luò)的基本構(gòu)造單元是網(wǎng)絡(luò)模體。網(wǎng)絡(luò)模體是一些在真實(shí)網(wǎng)絡(luò)中重復(fù)出現(xiàn)的具有特定拓?fù)浣Y(jié)構(gòu)特征的小規(guī)模模式單元,它在真實(shí)網(wǎng)絡(luò)中出現(xiàn)的頻率要遠(yuǎn)高于隨機(jī)網(wǎng)絡(luò)〔2〕。網(wǎng)絡(luò)模體挖掘有利于揭示復(fù)雜網(wǎng)絡(luò)的更多細(xì)節(jié)和內(nèi)容,將有助于深入理解生物體的內(nèi)在作用機(jī)制。
網(wǎng)絡(luò)模體是一些具有特定性質(zhì)的小規(guī)模子圖,是構(gòu)建整個(gè)生物網(wǎng)絡(luò)的基本單元,網(wǎng)絡(luò)模體的識別對PPI組成的生物基礎(chǔ)大網(wǎng)絡(luò)的研究和探究具有非常重要的作用。
1.1 PPI數(shù)據(jù)源 大量的PPI數(shù)據(jù)構(gòu)建了很多內(nèi)容豐富并且日益更新的PPI數(shù)據(jù)庫,這些數(shù)據(jù)庫為進(jìn)一步深入研究PPI網(wǎng)絡(luò)提供了數(shù)據(jù)支持。對PPI關(guān)系的認(rèn)識和研究可以更好地認(rèn)識細(xì)胞生命活動的過程,揭示生物體的生理和病理現(xiàn)象。
目前,每個(gè)PPI數(shù)據(jù)庫都有自己獨(dú)有的特性,并且數(shù)據(jù)庫之間的PPI重合率較低。由于PPI數(shù)據(jù)庫的選擇沒有統(tǒng)一的標(biāo)準(zhǔn),本文根據(jù)PPI數(shù)據(jù)庫在其他文獻(xiàn)中使用的頻繁程度,選擇 HPRD〔3〕,HIR〔4〕和BioGRID〔5〕3個(gè)數(shù)據(jù)庫作為PPI數(shù)據(jù)源。3個(gè)數(shù)據(jù)庫之間的PPI重合數(shù)只有7 631,整合個(gè)數(shù)為222 556,見圖1。為了更加全面地分析PPI網(wǎng)絡(luò),本文整合3種PPI數(shù)據(jù)庫作為PPI數(shù)據(jù)源,其PPI數(shù)據(jù)源大小為222 556。
圖1 HPRD、HIR和BioGRID 3種PPI數(shù)據(jù)庫之間的維恩圖
1.2 CyClus3D聚類算法 CyClus3D〔6〕是一種3-點(diǎn)網(wǎng)絡(luò)模體挖掘算法。對于給定的3-點(diǎn)網(wǎng)絡(luò)模體,其邊可能是任何一種類型。假設(shè)所有模體的列表用一個(gè)3維數(shù)組T表示,如果節(jié)點(diǎn)(i,j,k)之間存在一個(gè)模體,那么Ti,j,k=1,否則Ti,j,k=0。由 3 個(gè)節(jié)點(diǎn)集(X1,X2,X3)組成的一個(gè)模體聚類可以用聚集分?jǐn)?shù)來定義:
其中,|Xi|是Xi中的節(jié)點(diǎn)個(gè)數(shù),如果p>1,它將扮演反精度參數(shù)的角色。為了最大化S,首先要確定T的最優(yōu)秩-1逼近,即找到實(shí)數(shù)向量(x1,x2,x3)使下式最大化:
其中約束條件為||x1||p=1。
為了找到一個(gè)高分模體聚類,CyClus3D從模體集T中反復(fù)刪除不存在的模體直至沒有冗余的模體存在。由于模體數(shù)組的最優(yōu)秩-1逼近等同于一個(gè)網(wǎng)絡(luò)鄰接矩陣的特征向量,因此CyClus3D聚類算法可以理解為二維頻譜聚類算法〔7〕的泛化。
1.3 基于3-點(diǎn)網(wǎng)絡(luò)模體的子網(wǎng)絡(luò) 精度參數(shù)r=1/p,其值越小,高分模體聚類將大而稀疏。相反,其值越大,高分模體聚類將小而密集。為了折中處理,r設(shè)定為0.5。由于蛋白質(zhì)相互作用關(guān)系為無向邊,所使用的3-點(diǎn)模體邊都為無向邊。
CyClus3D聚類算法的3-點(diǎn)網(wǎng)絡(luò)模體,見圖2(a)。使用該模體挖掘的PPI子網(wǎng)絡(luò)圖,見圖2(b),其節(jié)點(diǎn)數(shù)為374,邊數(shù)為14 076。子網(wǎng)絡(luò)的聚類效果較好(聚類系數(shù)=0.510),蛋白質(zhì)與蛋白質(zhì)之間的路徑長度比較短(特征路徑長度=1.835),并且子網(wǎng)絡(luò)密度小而集中(網(wǎng)絡(luò)密度=0.165,網(wǎng)絡(luò)集中度=0.837),網(wǎng)絡(luò)緊密程度高(網(wǎng)絡(luò)直徑=3),見表1。另外,同一家族的蛋白質(zhì)往往有更多的相互作用,例如蛋白質(zhì)組(RPL10,RPL11,…,RPL19),(PSMA1,PSMA2,…,PSMA8),(HDAC1,HDAC2,…,HDAC7)。
圖2 CyClus3D聚類算法的3-點(diǎn)網(wǎng)絡(luò)模體及其子網(wǎng)絡(luò)圖
表1 基于3-點(diǎn)網(wǎng)絡(luò)模體挖掘的子網(wǎng)絡(luò)參數(shù)
為了研究網(wǎng)絡(luò)中的蛋白質(zhì)與哪些生物過程和信號通道顯著性相關(guān),功能分析軟件DAVID(http://david.abcc.ncifcrf.gov/)〔8〕用來對模體網(wǎng)絡(luò)進(jìn)行富集分析。DAVID是一個(gè)能為大規(guī)模的基因或蛋白質(zhì)列表提供系統(tǒng)綜合的生物功能注釋信息的在線數(shù)據(jù)庫。本文將從 GO(Gene Ontology)〔9〕生物過程和KEGG(Kyoto Encyclopedia of Genes and Genomes)〔10〕信號通道兩個(gè)方面對模體網(wǎng)絡(luò)進(jìn)行富集分析。
2.1 GO生物過程富集分析 GO有3個(gè)結(jié)構(gòu)化的網(wǎng)絡(luò),分別從生物過程、分子功能、細(xì)胞組成這3個(gè)方面對基因進(jìn)行分類、定義和注釋,本文重點(diǎn)挖掘蛋白質(zhì)顯著性相關(guān)的GO生物過程。
GO生物過程富集分析針對提交蛋白質(zhì)列表采用超幾何分布檢測每一個(gè)GO生物過程條目的富集顯著性。前5個(gè)GO生物過程如表2所示,其中3-點(diǎn)網(wǎng)絡(luò)模體組成的子網(wǎng)絡(luò)中有65個(gè)蛋白質(zhì)(RPL18,RPL17,RPL19等)與生物過程:翻譯延伸(GO:0006414~翻譯延伸)顯著性相關(guān)(p=3.65E-73)。
2.2 KEGG信號通道富集分析 KEGG信號通道富集分析針對提交的蛋白質(zhì)列表采用超幾何分布檢測每一個(gè)KEGG信號通道的富集顯著性,并進(jìn)行KEGG信號通道圖分析。前5個(gè)KEGG信號通道如表2所示,其中有53個(gè)蛋白質(zhì)(E2F1,HSP90AB1,PPARG等)與癌癥信號通道(KEGG:hsa05200~Pathways in cancer)顯著性相關(guān)(p=7.88E-13)。
表2 前5個(gè)顯著性GO生物過程和KEGG信號通道
CyClus3D聚類算法對PPI網(wǎng)絡(luò)進(jìn)行模體挖掘,可以將222 556個(gè)PPI縮小到14 076個(gè)PPI來進(jìn)行研究。這將大大簡化PPI網(wǎng)絡(luò)的分析,便于進(jìn)一步研究蛋白質(zhì)的相互關(guān)系。在線軟件DAVID對網(wǎng)絡(luò)模體組成的子網(wǎng)絡(luò)進(jìn)行GO生物過程和KEGG信號通道富集分析,能夠挖掘出與蛋白質(zhì)顯著性相關(guān)的GO生物過程和KEGG信號通道??傊琍PI網(wǎng)絡(luò)屬于大型的復(fù)雜網(wǎng)絡(luò),從大量的PPI數(shù)據(jù)中挖掘出更多具有生物學(xué)意義的信息,有利于更好地了解生物體的生命活動中蛋白質(zhì)之間的相互作用關(guān)系,從整體水平上理解某些疾病的細(xì)胞機(jī)制,預(yù)測一些蛋白質(zhì)可能的生物功能。
〔1〕WAUGH D F.Protein-protein interactions〔J〕.Advances in Protein Chemistry,1954,9:325-437.
〔2〕SHEN-ORR S S,MILO R,MANGAN S,et al.Network motifs in the transcriptional regulation network of Escherichia coli〔J〕.Nature Genetics,2002,31(1):64-68.
〔3〕PRASAD T S K,GOEL R,KANDASAMY K,et al.Human protein reference database-2009 update〔J〕.Nucleic Acids Research,2009,37(S1):D767-D772.
〔4〕ZHOU X,CHEN P,WEI Q,et al.Human interactome resource and gene set linkage analysis for the functional interpretation of biologically meaningful gene sets〔J〕.Bioinformatics,2013,29(16):2024-2031.
〔5〕STARK C,BREITKREUTZ B J,REGULY T,et al.BioGRID:a general repository for interaction datasets〔J〕.Nucleic Acids Research,2006,34(S1):D535-D539.
〔6〕AUDENAERT P,VAN P T,BRONDEL F,et al.CyClus3D:a Cytoscape plugin for clustering network motifs in integrated networks〔J〕.Bioinformatics,2011,27(11):1587-1588.
〔7〕INOUE K,URAHAMA K.Sequential fuzzy cluster extraction by a graph spectral method〔J〕.Pattern Recognition Letters,1999,20(7):699-705.
〔8〕HUANG D W,SHERMAN B T,LEMPICKI R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources〔J〕.Nature Protocols,2009,4(1):44-57.
〔9〕ASHBURNER M,BALL C A,BLAKE J A,et al.Gene Ontology:tool for the unification of biology〔J〕.Nature Genetics,2000,25(1):25-29.
〔10〕KANEHISA M,GOTO S.KEGG:kyoto encyclopedia of genes and genomes〔J〕.Nucleic Acids Rresearch,2000,28(1):27-30.