基于CyClus3D聚類算法的PPI網(wǎng)絡(luò)模體研究

2015-04-18 03:00:30浦恩祿張孟嬌張俊鵬

大理大學(xué)學(xué)報(bào) 2015年12期

浦恩祿，張孟嬌，張俊鵬

（大理大學(xué)工程學(xué)院，云南大理 671003）

隨著生物信息學(xué)技術(shù)的發(fā)展，人們已經(jīng)獲得了大量生物分子之間的相互作用數(shù)據(jù)，并由此構(gòu)成了龐大的生物網(wǎng)絡(luò)，其中蛋白質(zhì)相互作用網(wǎng)絡(luò)是這些生物網(wǎng)絡(luò)數(shù)據(jù)中很重要的一類數(shù)據(jù)。蛋白質(zhì)相互作用（Protein-Protein Interaction，PPI）在生物體的生命活動中起核心作用，對PPI的研究將有利于更好地了解生命體中的生物過程〔1〕。

PPI網(wǎng)絡(luò)的基本構(gòu)造單元是網(wǎng)絡(luò)模體。網(wǎng)絡(luò)模體是一些在真實(shí)網(wǎng)絡(luò)中重復(fù)出現(xiàn)的具有特定拓?fù)浣Y(jié)構(gòu)特征的小規(guī)模模式單元，它在真實(shí)網(wǎng)絡(luò)中出現(xiàn)的頻率要遠(yuǎn)高于隨機(jī)網(wǎng)絡(luò)〔2〕。網(wǎng)絡(luò)模體挖掘有利于揭示復(fù)雜網(wǎng)絡(luò)的更多細(xì)節(jié)和內(nèi)容，將有助于深入理解生物體的內(nèi)在作用機(jī)制。

1 PPI網(wǎng)絡(luò)模體挖掘

網(wǎng)絡(luò)模體是一些具有特定性質(zhì)的小規(guī)模子圖，是構(gòu)建整個(gè)生物網(wǎng)絡(luò)的基本單元，網(wǎng)絡(luò)模體的識別對PPI組成的生物基礎(chǔ)大網(wǎng)絡(luò)的研究和探究具有非常重要的作用。

1.1 PPI數(shù)據(jù)源大量的PPI數(shù)據(jù)構(gòu)建了很多內(nèi)容豐富并且日益更新的PPI數(shù)據(jù)庫，這些數(shù)據(jù)庫為進(jìn)一步深入研究PPI網(wǎng)絡(luò)提供了數(shù)據(jù)支持。對PPI關(guān)系的認(rèn)識和研究可以更好地認(rèn)識細(xì)胞生命活動的過程，揭示生物體的生理和病理現(xiàn)象。

目前，每個(gè)PPI數(shù)據(jù)庫都有自己獨(dú)有的特性，并且數(shù)據(jù)庫之間的PPI重合率較低。由于PPI數(shù)據(jù)庫的選擇沒有統(tǒng)一的標(biāo)準(zhǔn)，本文根據(jù)PPI數(shù)據(jù)庫在其他文獻(xiàn)中使用的頻繁程度，選擇 HPRD〔3〕，HIR〔4〕和BioGRID〔5〕3個(gè)數(shù)據(jù)庫作為PPI數(shù)據(jù)源。3個(gè)數(shù)據(jù)庫之間的PPI重合數(shù)只有7 631，整合個(gè)數(shù)為222 556，見圖1。為了更加全面地分析PPI網(wǎng)絡(luò)，本文整合3種PPI數(shù)據(jù)庫作為PPI數(shù)據(jù)源，其PPI數(shù)據(jù)源大小為222 556。

圖1 HPRD、HIR和BioGRID 3種PPI數(shù)據(jù)庫之間的維恩圖

1.2 CyClus3D聚類算法 CyClus3D〔6〕是一種3-點(diǎn)網(wǎng)絡(luò)模體挖掘算法。對于給定的3-點(diǎn)網(wǎng)絡(luò)模體，其邊可能是任何一種類型。假設(shè)所有模體的列表用一個(gè)3維數(shù)組T表示，如果節(jié)點(diǎn)（i，j，k）之間存在一個(gè)模體，那么Ti，j，k=1，否則Ti，j，k=0。由 3 個(gè)節(jié)點(diǎn)集（X1，X2，X3）組成的一個(gè)模體聚類可以用聚集分?jǐn)?shù)來定義：

其中，|Xi|是Xi中的節(jié)點(diǎn)個(gè)數(shù)，如果p＞1，它將扮演反精度參數(shù)的角色。為了最大化S，首先要確定T的最優(yōu)秩-1逼近，即找到實(shí)數(shù)向量（x1，x2，x3）使下式最大化：

其中約束條件為||x1||p=1。

為了找到一個(gè)高分模體聚類，CyClus3D從模體集T中反復(fù)刪除不存在的模體直至沒有冗余的模體存在。由于模體數(shù)組的最優(yōu)秩-1逼近等同于一個(gè)網(wǎng)絡(luò)鄰接矩陣的特征向量，因此CyClus3D聚類算法可以理解為二維頻譜聚類算法〔7〕的泛化。

1.3 基于3-點(diǎn)網(wǎng)絡(luò)模體的子網(wǎng)絡(luò) 精度參數(shù)r=1/p，其值越小，高分模體聚類將大而稀疏。相反，其值越大，高分模體聚類將小而密集。為了折中處理，r設(shè)定為0.5。由于蛋白質(zhì)相互作用關(guān)系為無向邊，所使用的3-點(diǎn)模體邊都為無向邊。

CyClus3D聚類算法的3-點(diǎn)網(wǎng)絡(luò)模體，見圖2（a）。使用該模體挖掘的PPI子網(wǎng)絡(luò)圖，見圖2（b），其節(jié)點(diǎn)數(shù)為374，邊數(shù)為14 076。子網(wǎng)絡(luò)的聚類效果較好（聚類系數(shù)=0.510），蛋白質(zhì)與蛋白質(zhì)之間的路徑長度比較短（特征路徑長度=1.835），并且子網(wǎng)絡(luò)密度小而集中（網(wǎng)絡(luò)密度=0.165，網(wǎng)絡(luò)集中度=0.837），網(wǎng)絡(luò)緊密程度高（網(wǎng)絡(luò)直徑=3），見表1。另外，同一家族的蛋白質(zhì)往往有更多的相互作用，例如蛋白質(zhì)組（RPL10，RPL11，…，RPL19），（PSMA1，PSMA2，…，PSMA8），（HDAC1，HDAC2，…，HDAC7）。

圖2 CyClus3D聚類算法的3-點(diǎn)網(wǎng)絡(luò)模體及其子網(wǎng)絡(luò)圖

表1 基于3-點(diǎn)網(wǎng)絡(luò)模體挖掘的子網(wǎng)絡(luò)參數(shù)

2 網(wǎng)絡(luò)富集分析

為了研究網(wǎng)絡(luò)中的蛋白質(zhì)與哪些生物過程和信號通道顯著性相關(guān)，功能分析軟件DAVID（http：//david.abcc.ncifcrf.gov/）〔8〕用來對模體網(wǎng)絡(luò)進(jìn)行富集分析。DAVID是一個(gè)能為大規(guī)模的基因或蛋白質(zhì)列表提供系統(tǒng)綜合的生物功能注釋信息的在線數(shù)據(jù)庫。本文將從 GO（Gene Ontology）〔9〕生物過程和KEGG（Kyoto Encyclopedia of Genes and Genomes）〔10〕信號通道兩個(gè)方面對模體網(wǎng)絡(luò)進(jìn)行富集分析。

2.1 GO生物過程富集分析 GO有3個(gè)結(jié)構(gòu)化的網(wǎng)絡(luò)，分別從生物過程、分子功能、細(xì)胞組成這3個(gè)方面對基因進(jìn)行分類、定義和注釋，本文重點(diǎn)挖掘蛋白質(zhì)顯著性相關(guān)的GO生物過程。

GO生物過程富集分析針對提交蛋白質(zhì)列表采用超幾何分布檢測每一個(gè)GO生物過程條目的富集顯著性。前5個(gè)GO生物過程如表2所示，其中3-點(diǎn)網(wǎng)絡(luò)模體組成的子網(wǎng)絡(luò)中有65個(gè)蛋白質(zhì)（RPL18，RPL17，RPL19等）與生物過程：翻譯延伸（GO：0006414～翻譯延伸）顯著性相關(guān)（p=3.65E-73）。

2.2 KEGG信號通道富集分析 KEGG信號通道富集分析針對提交的蛋白質(zhì)列表采用超幾何分布檢測每一個(gè)KEGG信號通道的富集顯著性，并進(jìn)行KEGG信號通道圖分析。前5個(gè)KEGG信號通道如表2所示，其中有53個(gè)蛋白質(zhì)（E2F1，HSP90AB1，PPARG等）與癌癥信號通道（KEGG：hsa05200～Pathways in cancer）顯著性相關(guān)（p=7.88E-13）。

表2 前5個(gè)顯著性GO生物過程和KEGG信號通道

3 結(jié)語

CyClus3D聚類算法對PPI網(wǎng)絡(luò)進(jìn)行模體挖掘，可以將222 556個(gè)PPI縮小到14 076個(gè)PPI來進(jìn)行研究。這將大大簡化PPI網(wǎng)絡(luò)的分析，便于進(jìn)一步研究蛋白質(zhì)的相互關(guān)系。在線軟件DAVID對網(wǎng)絡(luò)模體組成的子網(wǎng)絡(luò)進(jìn)行GO生物過程和KEGG信號通道富集分析，能夠挖掘出與蛋白質(zhì)顯著性相關(guān)的GO生物過程和KEGG信號通道?？傊琍PI網(wǎng)絡(luò)屬于大型的復(fù)雜網(wǎng)絡(luò)，從大量的PPI數(shù)據(jù)中挖掘出更多具有生物學(xué)意義的信息，有利于更好地了解生物體的生命活動中蛋白質(zhì)之間的相互作用關(guān)系，從整體水平上理解某些疾病的細(xì)胞機(jī)制，預(yù)測一些蛋白質(zhì)可能的生物功能。

〔1〕WAUGH D F.Protein-protein interactions〔J〕.Advances in Protein Chemistry，1954，9：325-437.

〔2〕SHEN-ORR S S，MILO R，MANGAN S，et al.Network motifs in the transcriptional regulation network of Escherichia coli〔J〕.Nature Genetics，2002，31（1）：64-68.

〔3〕PRASAD T S K，GOEL R，KANDASAMY K，et al.Human protein reference database-2009 update〔J〕.Nucleic Acids Research，2009，37（S1）：D767-D772.

〔4〕ZHOU X，CHEN P，WEI Q，et al.Human interactome resource and gene set linkage analysis for the functional interpretation of biologically meaningful gene sets〔J〕.Bioinformatics，2013，29（16）：2024-2031.

〔5〕STARK C，BREITKREUTZ B J，REGULY T，et al.BioGRID：a general repository for interaction datasets〔J〕.Nucleic Acids Research，2006，34（S1）：D535-D539.

〔6〕AUDENAERT P，VAN P T，BRONDEL F，et al.CyClus3D：a Cytoscape plugin for clustering network motifs in integrated networks〔J〕.Bioinformatics，2011，27（11）：1587-1588.

〔7〕INOUE K，URAHAMA K.Sequential fuzzy cluster extraction by a graph spectral method〔J〕.Pattern Recognition Letters，1999，20（7）：699-705.

〔8〕HUANG D W，SHERMAN B T，LEMPICKI R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources〔J〕.Nature Protocols，2009，4（1）：44-57.

〔9〕ASHBURNER M，BALL C A，BLAKE J A，et al.Gene Ontology：tool for the unification of biology〔J〕.Nature Genetics，2000，25（1）：25-29.

〔10〕KANEHISA M，GOTO S.KEGG：kyoto encyclopedia of genes and genomes〔J〕.Nucleic Acids Rresearch，2000，28（1）：27-30.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于CyClus3D聚類算法的PPI網(wǎng)絡(luò)模體研究

1 PPI網(wǎng)絡(luò)模體挖掘

2 網(wǎng)絡(luò)富集分析

3 結(jié)語