• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于CyClus3D聚類算法的PPI網(wǎng)絡(luò)模體研究

      2015-04-18 03:00:30浦恩祿張孟嬌張俊鵬
      大理大學(xué)學(xué)報(bào) 2015年12期
      關(guān)鍵詞:模體聚類顯著性

      浦恩祿,張孟嬌,張俊鵬

      (大理大學(xué)工程學(xué)院,云南大理 671003)

      隨著生物信息學(xué)技術(shù)的發(fā)展,人們已經(jīng)獲得了大量生物分子之間的相互作用數(shù)據(jù),并由此構(gòu)成了龐大的生物網(wǎng)絡(luò),其中蛋白質(zhì)相互作用網(wǎng)絡(luò)是這些生物網(wǎng)絡(luò)數(shù)據(jù)中很重要的一類數(shù)據(jù)。蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)在生物體的生命活動中起核心作用,對PPI的研究將有利于更好地了解生命體中的生物過程〔1〕。

      PPI網(wǎng)絡(luò)的基本構(gòu)造單元是網(wǎng)絡(luò)模體。網(wǎng)絡(luò)模體是一些在真實(shí)網(wǎng)絡(luò)中重復(fù)出現(xiàn)的具有特定拓?fù)浣Y(jié)構(gòu)特征的小規(guī)模模式單元,它在真實(shí)網(wǎng)絡(luò)中出現(xiàn)的頻率要遠(yuǎn)高于隨機(jī)網(wǎng)絡(luò)〔2〕。網(wǎng)絡(luò)模體挖掘有利于揭示復(fù)雜網(wǎng)絡(luò)的更多細(xì)節(jié)和內(nèi)容,將有助于深入理解生物體的內(nèi)在作用機(jī)制。

      1 PPI網(wǎng)絡(luò)模體挖掘

      網(wǎng)絡(luò)模體是一些具有特定性質(zhì)的小規(guī)模子圖,是構(gòu)建整個(gè)生物網(wǎng)絡(luò)的基本單元,網(wǎng)絡(luò)模體的識別對PPI組成的生物基礎(chǔ)大網(wǎng)絡(luò)的研究和探究具有非常重要的作用。

      1.1 PPI數(shù)據(jù)源 大量的PPI數(shù)據(jù)構(gòu)建了很多內(nèi)容豐富并且日益更新的PPI數(shù)據(jù)庫,這些數(shù)據(jù)庫為進(jìn)一步深入研究PPI網(wǎng)絡(luò)提供了數(shù)據(jù)支持。對PPI關(guān)系的認(rèn)識和研究可以更好地認(rèn)識細(xì)胞生命活動的過程,揭示生物體的生理和病理現(xiàn)象。

      目前,每個(gè)PPI數(shù)據(jù)庫都有自己獨(dú)有的特性,并且數(shù)據(jù)庫之間的PPI重合率較低。由于PPI數(shù)據(jù)庫的選擇沒有統(tǒng)一的標(biāo)準(zhǔn),本文根據(jù)PPI數(shù)據(jù)庫在其他文獻(xiàn)中使用的頻繁程度,選擇 HPRD〔3〕,HIR〔4〕和BioGRID〔5〕3個(gè)數(shù)據(jù)庫作為PPI數(shù)據(jù)源。3個(gè)數(shù)據(jù)庫之間的PPI重合數(shù)只有7 631,整合個(gè)數(shù)為222 556,見圖1。為了更加全面地分析PPI網(wǎng)絡(luò),本文整合3種PPI數(shù)據(jù)庫作為PPI數(shù)據(jù)源,其PPI數(shù)據(jù)源大小為222 556。

      圖1 HPRD、HIR和BioGRID 3種PPI數(shù)據(jù)庫之間的維恩圖

      1.2 CyClus3D聚類算法 CyClus3D〔6〕是一種3-點(diǎn)網(wǎng)絡(luò)模體挖掘算法。對于給定的3-點(diǎn)網(wǎng)絡(luò)模體,其邊可能是任何一種類型。假設(shè)所有模體的列表用一個(gè)3維數(shù)組T表示,如果節(jié)點(diǎn)(i,j,k)之間存在一個(gè)模體,那么Ti,j,k=1,否則Ti,j,k=0。由 3 個(gè)節(jié)點(diǎn)集(X1,X2,X3)組成的一個(gè)模體聚類可以用聚集分?jǐn)?shù)來定義:

      其中,|Xi|是Xi中的節(jié)點(diǎn)個(gè)數(shù),如果p>1,它將扮演反精度參數(shù)的角色。為了最大化S,首先要確定T的最優(yōu)秩-1逼近,即找到實(shí)數(shù)向量(x1,x2,x3)使下式最大化:

      其中約束條件為||x1||p=1。

      為了找到一個(gè)高分模體聚類,CyClus3D從模體集T中反復(fù)刪除不存在的模體直至沒有冗余的模體存在。由于模體數(shù)組的最優(yōu)秩-1逼近等同于一個(gè)網(wǎng)絡(luò)鄰接矩陣的特征向量,因此CyClus3D聚類算法可以理解為二維頻譜聚類算法〔7〕的泛化。

      1.3 基于3-點(diǎn)網(wǎng)絡(luò)模體的子網(wǎng)絡(luò) 精度參數(shù)r=1/p,其值越小,高分模體聚類將大而稀疏。相反,其值越大,高分模體聚類將小而密集。為了折中處理,r設(shè)定為0.5。由于蛋白質(zhì)相互作用關(guān)系為無向邊,所使用的3-點(diǎn)模體邊都為無向邊。

      CyClus3D聚類算法的3-點(diǎn)網(wǎng)絡(luò)模體,見圖2(a)。使用該模體挖掘的PPI子網(wǎng)絡(luò)圖,見圖2(b),其節(jié)點(diǎn)數(shù)為374,邊數(shù)為14 076。子網(wǎng)絡(luò)的聚類效果較好(聚類系數(shù)=0.510),蛋白質(zhì)與蛋白質(zhì)之間的路徑長度比較短(特征路徑長度=1.835),并且子網(wǎng)絡(luò)密度小而集中(網(wǎng)絡(luò)密度=0.165,網(wǎng)絡(luò)集中度=0.837),網(wǎng)絡(luò)緊密程度高(網(wǎng)絡(luò)直徑=3),見表1。另外,同一家族的蛋白質(zhì)往往有更多的相互作用,例如蛋白質(zhì)組(RPL10,RPL11,…,RPL19),(PSMA1,PSMA2,…,PSMA8),(HDAC1,HDAC2,…,HDAC7)。

      圖2 CyClus3D聚類算法的3-點(diǎn)網(wǎng)絡(luò)模體及其子網(wǎng)絡(luò)圖

      表1 基于3-點(diǎn)網(wǎng)絡(luò)模體挖掘的子網(wǎng)絡(luò)參數(shù)

      2 網(wǎng)絡(luò)富集分析

      為了研究網(wǎng)絡(luò)中的蛋白質(zhì)與哪些生物過程和信號通道顯著性相關(guān),功能分析軟件DAVID(http://david.abcc.ncifcrf.gov/)〔8〕用來對模體網(wǎng)絡(luò)進(jìn)行富集分析。DAVID是一個(gè)能為大規(guī)模的基因或蛋白質(zhì)列表提供系統(tǒng)綜合的生物功能注釋信息的在線數(shù)據(jù)庫。本文將從 GO(Gene Ontology)〔9〕生物過程和KEGG(Kyoto Encyclopedia of Genes and Genomes)〔10〕信號通道兩個(gè)方面對模體網(wǎng)絡(luò)進(jìn)行富集分析。

      2.1 GO生物過程富集分析 GO有3個(gè)結(jié)構(gòu)化的網(wǎng)絡(luò),分別從生物過程、分子功能、細(xì)胞組成這3個(gè)方面對基因進(jìn)行分類、定義和注釋,本文重點(diǎn)挖掘蛋白質(zhì)顯著性相關(guān)的GO生物過程。

      GO生物過程富集分析針對提交蛋白質(zhì)列表采用超幾何分布檢測每一個(gè)GO生物過程條目的富集顯著性。前5個(gè)GO生物過程如表2所示,其中3-點(diǎn)網(wǎng)絡(luò)模體組成的子網(wǎng)絡(luò)中有65個(gè)蛋白質(zhì)(RPL18,RPL17,RPL19等)與生物過程:翻譯延伸(GO:0006414~翻譯延伸)顯著性相關(guān)(p=3.65E-73)。

      2.2 KEGG信號通道富集分析 KEGG信號通道富集分析針對提交的蛋白質(zhì)列表采用超幾何分布檢測每一個(gè)KEGG信號通道的富集顯著性,并進(jìn)行KEGG信號通道圖分析。前5個(gè)KEGG信號通道如表2所示,其中有53個(gè)蛋白質(zhì)(E2F1,HSP90AB1,PPARG等)與癌癥信號通道(KEGG:hsa05200~Pathways in cancer)顯著性相關(guān)(p=7.88E-13)。

      表2 前5個(gè)顯著性GO生物過程和KEGG信號通道

      3 結(jié)語

      CyClus3D聚類算法對PPI網(wǎng)絡(luò)進(jìn)行模體挖掘,可以將222 556個(gè)PPI縮小到14 076個(gè)PPI來進(jìn)行研究。這將大大簡化PPI網(wǎng)絡(luò)的分析,便于進(jìn)一步研究蛋白質(zhì)的相互關(guān)系。在線軟件DAVID對網(wǎng)絡(luò)模體組成的子網(wǎng)絡(luò)進(jìn)行GO生物過程和KEGG信號通道富集分析,能夠挖掘出與蛋白質(zhì)顯著性相關(guān)的GO生物過程和KEGG信號通道??傊琍PI網(wǎng)絡(luò)屬于大型的復(fù)雜網(wǎng)絡(luò),從大量的PPI數(shù)據(jù)中挖掘出更多具有生物學(xué)意義的信息,有利于更好地了解生物體的生命活動中蛋白質(zhì)之間的相互作用關(guān)系,從整體水平上理解某些疾病的細(xì)胞機(jī)制,預(yù)測一些蛋白質(zhì)可能的生物功能。

      〔1〕WAUGH D F.Protein-protein interactions〔J〕.Advances in Protein Chemistry,1954,9:325-437.

      〔2〕SHEN-ORR S S,MILO R,MANGAN S,et al.Network motifs in the transcriptional regulation network of Escherichia coli〔J〕.Nature Genetics,2002,31(1):64-68.

      〔3〕PRASAD T S K,GOEL R,KANDASAMY K,et al.Human protein reference database-2009 update〔J〕.Nucleic Acids Research,2009,37(S1):D767-D772.

      〔4〕ZHOU X,CHEN P,WEI Q,et al.Human interactome resource and gene set linkage analysis for the functional interpretation of biologically meaningful gene sets〔J〕.Bioinformatics,2013,29(16):2024-2031.

      〔5〕STARK C,BREITKREUTZ B J,REGULY T,et al.BioGRID:a general repository for interaction datasets〔J〕.Nucleic Acids Research,2006,34(S1):D535-D539.

      〔6〕AUDENAERT P,VAN P T,BRONDEL F,et al.CyClus3D:a Cytoscape plugin for clustering network motifs in integrated networks〔J〕.Bioinformatics,2011,27(11):1587-1588.

      〔7〕INOUE K,URAHAMA K.Sequential fuzzy cluster extraction by a graph spectral method〔J〕.Pattern Recognition Letters,1999,20(7):699-705.

      〔8〕HUANG D W,SHERMAN B T,LEMPICKI R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources〔J〕.Nature Protocols,2009,4(1):44-57.

      〔9〕ASHBURNER M,BALL C A,BLAKE J A,et al.Gene Ontology:tool for the unification of biology〔J〕.Nature Genetics,2000,25(1):25-29.

      〔10〕KANEHISA M,GOTO S.KEGG:kyoto encyclopedia of genes and genomes〔J〕.Nucleic Acids Rresearch,2000,28(1):27-30.

      猜你喜歡
      模體聚類顯著性
      基于Matrix Profile的時(shí)間序列變長模體挖掘
      基于顯著性權(quán)重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      植入(l, d)模體發(fā)現(xiàn)若干算法的實(shí)現(xiàn)與比較
      基于視覺顯著性的視頻差錯(cuò)掩蓋算法
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
      一種基于顯著性邊緣的運(yùn)動模糊圖像復(fù)原方法
      論商標(biāo)固有顯著性的認(rèn)定
      基于模體演化的時(shí)序鏈路預(yù)測方法
      基于改進(jìn)的遺傳算法的模糊聚類算法
      汉川市| 英超| 临江市| 荥经县| 来安县| 门头沟区| 樟树市| 黑水县| 丰顺县| 桃园县| 娱乐| 长岭县| 盐亭县| 大洼县| 蓬安县| 天气| 沙田区| 略阳县| 囊谦县| 靖州| 建始县| 玉门市| 安多县| 万源市| 安溪县| 乌兰浩特市| 仲巴县| 怀仁县| 株洲县| 彭山县| 淳化县| 兰溪市| 朝阳区| 翁牛特旗| 林周县| 肇州县| 石家庄市| 志丹县| 襄城县| 昭平县| 双鸭山市|