• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合蛋白質(zhì)復(fù)合體的人類蛋白互作網(wǎng)絡(luò)功能模塊發(fā)現(xiàn)

      2016-12-24 08:47:43劉光明楊柳高盼盼王邦軍周雪忠于劍
      智能系統(tǒng)學(xué)報(bào) 2016年5期
      關(guān)鍵詞:同質(zhì)性復(fù)合體功能模塊

      劉光明,楊柳,高盼盼,王邦軍,周雪忠,于劍

      ( 北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

      ?

      融合蛋白質(zhì)復(fù)合體的人類蛋白互作網(wǎng)絡(luò)功能模塊發(fā)現(xiàn)

      劉光明,楊柳,高盼盼,王邦軍,周雪忠,于劍

      ( 北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

      人類蛋白互作網(wǎng)絡(luò)中功能模塊的檢測(cè)是目前網(wǎng)絡(luò)醫(yī)學(xué)研究的一個(gè)熱點(diǎn)問題。好的功能模塊可以幫助我們更好地去理解和認(rèn)識(shí)蛋白質(zhì)相互作用的分子機(jī)理。近年來的一些研究大多數(shù)是基于復(fù)雜網(wǎng)絡(luò)中的拓?fù)淠K發(fā)現(xiàn)算法對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行模塊劃分,然后對(duì)其進(jìn)行生物學(xué)上的功能研究。由于PPI網(wǎng)絡(luò)中的蛋白之間相互作用的數(shù)據(jù)獲取的不完整,相關(guān)研究表明目前人類只獲得了人類蛋白之間相互作用數(shù)據(jù)的10%~20%,其中已經(jīng)獲取的數(shù)據(jù)中還包含著一些噪聲,這就導(dǎo)致基于拓?fù)浣Y(jié)構(gòu)的社團(tuán)檢測(cè)算法的精度降低。為了克服這個(gè)問題,本文將蛋白質(zhì)復(fù)合體數(shù)據(jù)融入到模塊檢測(cè)算法中,分別使用K-Means和NMF算法對(duì)PPI網(wǎng)絡(luò)進(jìn)行模塊劃分,然后從基因本體和通路2個(gè)方面對(duì)檢測(cè)到的模塊進(jìn)行功能分析。實(shí)驗(yàn)結(jié)果表明融合了蛋白質(zhì)復(fù)合體的PPI網(wǎng)絡(luò)更容易得到具有生物學(xué)意義的功能模塊。

      蛋白質(zhì)相互作用網(wǎng)絡(luò);蛋白質(zhì)復(fù)合體;功能模塊;模塊檢測(cè);基因本體;通路

      蛋白質(zhì)分子是通過與其他蛋白質(zhì)分子相互作用發(fā)揮功能的,近年來隨著高通量技術(shù)的快速發(fā)展,海量的蛋白質(zhì)相互作用數(shù)據(jù)被挖掘出來,從而形成蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein-protein interaction,PPI)。網(wǎng)絡(luò)醫(yī)學(xué)近年來在計(jì)算醫(yī)學(xué)領(lǐng)域發(fā)展迅速,PPI網(wǎng)絡(luò)中的蛋白模塊往往具有特定的生物功能。Barabasi等認(rèn)為疾病的產(chǎn)生是由于PPI中某個(gè)局部的蛋白鏈接關(guān)系發(fā)生了紊亂[1],并進(jìn)一步提出了拓?fù)淠K、功能模塊和疾病模塊是存在相同的共有蛋白成員的。大家普遍認(rèn)為在拓?fù)浣Y(jié)構(gòu)上鏈接比較緊密的蛋白在生物功能上也更加相似?;谶@個(gè)假設(shè),為了可以精確地尋找到與疾病相關(guān)的蛋白模塊,需要先從PPI網(wǎng)絡(luò)中檢測(cè)出具有比較顯著生物意義的功能模塊。

      目前功能模塊的檢測(cè)方法主要是使用復(fù)雜網(wǎng)絡(luò)領(lǐng)域中的社團(tuán)劃分方法將PPI網(wǎng)絡(luò)劃分為多個(gè)拓?fù)淠K,然后對(duì)這些拓?fù)淠K再進(jìn)行生物功能的檢測(cè)。Bader等提出了一種叫做MCODE的方法,該方法首先根據(jù)節(jié)點(diǎn)的鄰居對(duì)每一個(gè)節(jié)點(diǎn)賦一個(gè)權(quán)重,然后選擇權(quán)重較大的節(jié)點(diǎn)作為種子節(jié)點(diǎn)進(jìn)行社團(tuán)劃分[2]。該方法可以發(fā)現(xiàn)重疊的蛋白質(zhì)功能模塊。DPClus等使用類似的方法對(duì)網(wǎng)絡(luò)中的每條邊賦權(quán)重,然后選擇權(quán)重最大的邊的節(jié)點(diǎn)作為初始種子節(jié)點(diǎn)進(jìn)行社團(tuán)劃分[3]。Edward等提出了一種基于熵的方法進(jìn)行功能模塊的檢測(cè),該方法首先隨機(jī)選擇一個(gè)節(jié)點(diǎn)作為種子節(jié)點(diǎn),然后將該種子節(jié)點(diǎn)和其周圍的鄰居作為一個(gè)種子類,通過熵的減少來移除邊界點(diǎn)和增加新節(jié)點(diǎn)形成蛋白模塊,直到遍歷完網(wǎng)絡(luò)中的所有節(jié)點(diǎn)[4]。

      上述功能模塊劃分算法主要是根據(jù)PPI中的鏈接關(guān)系,也就是只找到了在拓?fù)浣Y(jié)構(gòu)上鏈接緊密的模塊。由于目前人類所獲取的蛋白相互作用數(shù)據(jù)只獲取了實(shí)際相互作用的10%~20%[5],所以PPI網(wǎng)絡(luò)是比較稀疏的,使用傳統(tǒng)的復(fù)雜網(wǎng)絡(luò)中的社團(tuán)劃分方法并不能保證精確地找到具有某種生物功能的模塊。蛋白質(zhì)復(fù)合體(protein complex)是2個(gè)及其以上的蛋白相互作用而形成的復(fù)合物,一般分為結(jié)構(gòu)型的蛋白質(zhì)復(fù)合體和功能型蛋白質(zhì)復(fù)合體2大類。目前關(guān)于蛋白質(zhì)復(fù)合體的數(shù)據(jù)已經(jīng)可以方便地獲取,因此可以考慮將蛋白質(zhì)復(fù)合體的數(shù)據(jù)融合到PPI網(wǎng)絡(luò)中,從而可以提高功能模塊的發(fā)現(xiàn)精度。

      本文首先將蛋白質(zhì)復(fù)合體數(shù)據(jù)融合到PPI網(wǎng)絡(luò)中,然后使用K均值(K-Means)和非負(fù)矩陣分解(non-negative matrix factorization,NMF)2種算法對(duì)融合后的數(shù)據(jù)進(jìn)行模塊劃分,針對(duì)得到的模塊進(jìn)行基因本體(gene ontology,GO)和通路(pathway)富集分析并進(jìn)一步計(jì)算模塊的GO同質(zhì)性。

      1 社團(tuán)劃分及模塊生物學(xué)分析

      1.1 PPI網(wǎng)絡(luò)的表示

      PPI網(wǎng)絡(luò)可以表示為一個(gè)無向無權(quán)圖,其中V表示頂點(diǎn)集、E表示邊集。矩陣A表示鄰接矩陣,A的定義為

      式中:Aij表示節(jié)點(diǎn)i和節(jié)點(diǎn)j有連邊,vi和vj表示節(jié)點(diǎn)i和節(jié)點(diǎn)j。

      1.2 模塊檢測(cè)算法

      模塊目前還沒有一個(gè)統(tǒng)一的定義,大家對(duì)模塊的共識(shí)是:模塊內(nèi)部的邊比較緊密而模塊之間的邊要盡量稀疏[6]。本文主要使用K均值和非負(fù)矩陣分解2種算法對(duì)PPI網(wǎng)絡(luò)進(jìn)行模塊檢測(cè)。

      1) K均值[7]

      K均值算法的主要思想就是所有樣本點(diǎn)到各自的類中心的距離最短,其目標(biāo)函數(shù)為

      根據(jù)式(2)可以得到類中心的迭代公式為

      其代表的物理含義是第k個(gè)類中所有樣本點(diǎn)的均值作為該類的類中心,然后其他節(jié)點(diǎn)根據(jù)與該類中心的距離來判斷是不是屬于這個(gè)類。通過不停地迭代,直到所有的類中心不在改變?yōu)橹埂?/p>

      2)非負(fù)矩陣分解

      非負(fù)矩陣分解最早是由Lee 和Seung[8]提出的。若一個(gè)矩陣其所有的元素沒有負(fù)數(shù),這樣的矩陣叫做非負(fù)矩陣。對(duì)一個(gè)n×m的非負(fù)矩陣X,其行向量代表特征,列向量代表樣本。非負(fù)矩陣分解的任務(wù)就是把X分解為兩個(gè)非負(fù)矩陣使得X≈FGT,其中F是一個(gè)n×k的矩陣,G是m×k的矩陣(k為類的個(gè)數(shù))。其目標(biāo)函數(shù)為

      式中:G為最后的劃分矩陣。F和G的迭代規(guī)則如下:

      當(dāng)誤差小于某個(gè)閾值a或達(dá)到最大迭代次數(shù)時(shí)算法終止,F(xiàn)矩陣描述了網(wǎng)絡(luò)中節(jié)點(diǎn)隸屬于某個(gè)社區(qū)的概率。

      1.3 模塊的富集分析

      為了確定每一個(gè)模塊具體的生物功能,對(duì)每個(gè)模塊分別進(jìn)行GO和Pathway富集分析。每個(gè)模塊會(huì)對(duì)所有的GO術(shù)語或者Pathway進(jìn)行分析,并且返回具有最小P-value的GO術(shù)語或Pathway表示模塊中的蛋白質(zhì)在該GO術(shù)語或者Pathway中出現(xiàn)了富集,即該GO術(shù)語描述了這個(gè)模塊的功能或者這個(gè)模塊中的蛋白共同參與了該P(yáng)athway。P-value的計(jì)算為

      式中:k代表模塊中蛋白的數(shù)量,q是模塊中被注解的蛋白質(zhì)數(shù)量,m是整個(gè)網(wǎng)絡(luò)中的蛋白質(zhì)的數(shù)量。

      1.4 模塊的同質(zhì)性分析

      一個(gè)蛋白質(zhì)可能被多個(gè)GO術(shù)語注解,同時(shí)一條GO術(shù)語也會(huì)注解多個(gè)蛋白質(zhì)。一個(gè)模塊中的蛋白經(jīng)常會(huì)出現(xiàn)多個(gè)GO術(shù)語描述其功能,因此使用同質(zhì)性去衡量模塊內(nèi)所有的蛋白質(zhì)相互作用產(chǎn)生的生物功能的強(qiáng)弱,同質(zhì)性高則說明該模塊內(nèi)的蛋白質(zhì)的功能越相近,其計(jì)算公式為

      2 融合蛋白質(zhì)復(fù)合體的功能模塊檢測(cè)

      2.1 數(shù)據(jù)的來源及整理

      STRING 9.1[9]提供了蛋白質(zhì)與蛋白質(zhì)相互作用關(guān)系的數(shù)據(jù),該數(shù)據(jù)中包含了一些通過生物實(shí)驗(yàn)獲得的數(shù)據(jù),也包括一些使用計(jì)算方法預(yù)測(cè)出來的數(shù)據(jù)并使用Score值量化。為了提高PPI網(wǎng)絡(luò)數(shù)據(jù)的可靠性,篩選出與人類有關(guān)且Score大于700的蛋白相互作用數(shù)據(jù),然后將蛋白編碼轉(zhuǎn)換為NCBI中名稱,最終得到的PPI網(wǎng)絡(luò)里包括14 380個(gè)蛋白質(zhì)和218 163條蛋白質(zhì)相互作用。

      CORUM[10]存儲(chǔ)的是哺乳動(dòng)物組織器官內(nèi)經(jīng)過人工審核過的蛋白質(zhì)復(fù)合體數(shù)據(jù),這些數(shù)據(jù)都是通過個(gè)體實(shí)驗(yàn)獲取的,所以數(shù)據(jù)噪聲少并且準(zhǔn)確度高。蛋白質(zhì)復(fù)合體是具有相同功能的蛋白質(zhì)高度交互的集合,具有較強(qiáng)的生物特性。而蛋白質(zhì)復(fù)合體本身是PPI的一部分,因此將蛋白質(zhì)復(fù)合體數(shù)據(jù)引入到PPI中,可以彌補(bǔ)其相互作用數(shù)據(jù)少并且存在噪聲的缺陷。本文提取了1 653個(gè)與人類相關(guān)的蛋白質(zhì)復(fù)合體數(shù)據(jù),并且形成了31 550條蛋白質(zhì)相互作用數(shù)據(jù)。

      2.2 融合蛋白質(zhì)復(fù)合體的PPI網(wǎng)絡(luò)模塊檢測(cè)

      將從蛋白質(zhì)復(fù)合體數(shù)據(jù)中抽取的31 550條蛋白質(zhì)相互作用數(shù)據(jù)融入到PPI網(wǎng)絡(luò)中,從而在一定程度上彌補(bǔ)了PPI數(shù)據(jù)不足的缺點(diǎn)。由于從蛋白質(zhì)復(fù)合體數(shù)據(jù)中抽取的這些數(shù)據(jù)具有很高的精確度,融入這些數(shù)據(jù)后可以在一定程度上減少PPI中的噪聲數(shù)據(jù)對(duì)后續(xù)分析的影響。

      主要是將抽取到的蛋白質(zhì)之間的相互作用數(shù)據(jù)融入到從String9提取的蛋白網(wǎng)絡(luò)對(duì)應(yīng)的鄰接矩陣A中,具體融入方法參照Zhang等[11]提出的方式,將從蛋白復(fù)合體中提取出的蛋白質(zhì)互作數(shù)據(jù)集合記為C,然后通過融合C和A得到新的鄰接矩陣:

      圖1 蛋白互作網(wǎng)絡(luò)生成過程

      算法1蛋白模塊檢測(cè)算法

      2)fori= 1:N//每一行代表一個(gè)數(shù)據(jù)點(diǎn)的屬性

      3)輸出Gnew:每個(gè)蛋白質(zhì)對(duì)應(yīng)的類標(biāo)號(hào)

      算法1將融合了蛋白質(zhì)復(fù)合體的PPI網(wǎng)絡(luò)劃分為K個(gè)模塊,圖2是分別使用NMF和K-Means社團(tuán)檢測(cè)算法檢測(cè)到的模塊238與模塊76的拓?fù)浣Y(jié)構(gòu)圖。

      圖2 模塊238和模塊76的拓?fù)浣Y(jié)構(gòu)

      圖2中節(jié)點(diǎn)的名字就是PPI中蛋白質(zhì)在NCBI中對(duì)應(yīng)的名字,這個(gè)名字是唯一的,本文中就是根據(jù)這個(gè)名字將從Sring9數(shù)據(jù)中抽取到的PPI同蛋白質(zhì)復(fù)合體數(shù)據(jù)融合到了一起??梢钥闯鰴z測(cè)到的模塊在內(nèi)部的連接比較緊密。接下來對(duì)使用算法1檢測(cè)到的拓?fù)淠K進(jìn)行生物學(xué)意義上的分析。

      2.3 模塊的富集分析及同質(zhì)性分析

      1)GO術(shù)語和Pathway富集結(jié)果

      對(duì)原始的PPI網(wǎng)絡(luò)和通過融合蛋白質(zhì)復(fù)合體之后的新網(wǎng)絡(luò)分別進(jìn)行模塊檢測(cè),然后對(duì)這些模塊進(jìn)行富集分析。為了更好地反應(yīng)模塊的富集結(jié)果及同質(zhì)性,只考慮個(gè)數(shù)多于2的模塊,因?yàn)閭€(gè)數(shù)為2的模塊就只包含一條邊,容易對(duì)富集結(jié)果產(chǎn)生噪聲。通過對(duì)原始的PPI網(wǎng)絡(luò)和融合蛋白質(zhì)復(fù)合體的網(wǎng)絡(luò)分別使用K-Means和NMF對(duì)其進(jìn)行模塊劃分,并篩選出模塊個(gè)數(shù)大于2的模塊,最終檢測(cè)結(jié)果如表1所示。

      表1 不同方法劃分的模塊個(gè)數(shù)及最大、最小模塊

      Table 1 The number of modules and the size of maximal and minimal module by different approaches

      模塊檢測(cè)算法模塊個(gè)數(shù)最小模塊最大模塊K-Means26638122IncreK-means27738157NMF3013307IncreNMF3003328

      從表1 可以觀察到K-Means算法容易產(chǎn)生比較大的模塊,其蛋白質(zhì)的規(guī)模約占整個(gè)網(wǎng)絡(luò)的56%,一般來說這種規(guī)模比較大的模塊對(duì)蛋白質(zhì)的生物功能分析意義不是很大,而且模塊個(gè)數(shù)在10以下的模塊占所有模塊的27%左右;而NMF算法檢測(cè)到的最大模塊的規(guī)模只占PPI網(wǎng)絡(luò)的2.28%,而且模塊規(guī)模小于10的模塊占所有模塊的比率只有10%,更容易檢測(cè)到相對(duì)規(guī)模較中等的模塊,更容易獲得比較統(tǒng)一的生物功能。

      基因本體聯(lián)合建立了一套適用于不同物種的語義詞匯標(biāo)準(zhǔn),該標(biāo)準(zhǔn)對(duì)蛋白質(zhì)功能等方面進(jìn)行限定及描述,該標(biāo)準(zhǔn)能夠隨著研究的深入和時(shí)間的發(fā)展而不斷完善。GO[12]術(shù)語就是這個(gè)不斷增長完善的語義詞匯標(biāo)準(zhǔn)的數(shù)據(jù)庫,主要對(duì)基因和蛋白質(zhì)進(jìn)行注釋并且進(jìn)一步闡明了蛋白質(zhì)和用于定義它們的GO術(shù)語之間的關(guān)系。GO術(shù)語是生物過程(biological process,BP)、細(xì)胞組件(cellular component,CC)和分子功能(molecular function,MF)。每個(gè)種類都是一種樹形結(jié)構(gòu),我們總共抽取了40 848條GO術(shù)語,其中生物過程有26 958條、細(xì)胞組件有3 653條、分子功能包括10 697條。

      根據(jù)式(6)對(duì)每個(gè)模塊根據(jù)GO術(shù)語的3個(gè)種類分別進(jìn)行了富集分析,也就是為每一個(gè)蛋白質(zhì)拓?fù)淠K進(jìn)行了p-value值的計(jì)算,然后選取最小的p-value值對(duì)應(yīng)的GO術(shù)語作為該模塊的生物功能描述,從而確定該模塊中的生物功能。

      為了方便比較融合蛋白質(zhì)復(fù)合體數(shù)據(jù)后檢測(cè)到的模塊與原始PPI網(wǎng)絡(luò)檢測(cè)到的模塊之間的GO術(shù)語富集情況,分別使用GO術(shù)語的3個(gè)類別對(duì)應(yīng)的所有的GO術(shù)語,使用K-Means和NMF兩種算法對(duì)原始PPI網(wǎng)絡(luò)和融合了蛋白質(zhì)復(fù)合體的PPI網(wǎng)絡(luò)劃分的模塊進(jìn)行了富集分析,然后對(duì)比分析結(jié)果。實(shí)驗(yàn)表明,融合了蛋白質(zhì)復(fù)合體后劃分得到的模塊在GO術(shù)語上的富集程度要比直接使用原始PPI網(wǎng)絡(luò)的模塊富集程度有顯著的提升。

      表2列舉了4種方法對(duì)應(yīng)的前20個(gè)最小的模塊富集結(jié)果,分別從生物過程、細(xì)胞組件和生物功能3個(gè)方面羅列了實(shí)驗(yàn)結(jié)果,可以看到融合了蛋白質(zhì)復(fù)合體之后的PPI網(wǎng)絡(luò)得到的模塊,在富集程度上比原始模塊的p-value值要低,這說明模塊的富集程度更好,融合蛋白質(zhì)復(fù)合體的模塊更具有顯著生物功能上的意義。

      表2 融合蛋白質(zhì)復(fù)合體的模塊與原始PPI模塊的GO富集(p-value)

      同GO的富集分析一樣,我們也對(duì)模塊中蛋白質(zhì)在Pathway上進(jìn)行了相應(yīng)的富集分析,主要是統(tǒng)計(jì)一個(gè)模塊內(nèi)的蛋白質(zhì)參與同一條Pathway的程度。Pathway數(shù)據(jù)主要使用PID[13](pathway interaction database),該數(shù)據(jù)庫由NCI-Nature、BioCarta和Reactome3個(gè)數(shù)據(jù)庫整合而成。在本文中只使用分子類型為“蛋白質(zhì)”和“蛋白質(zhì)復(fù)合體”的數(shù)據(jù)。最終提取了1 513條Pathway數(shù)據(jù),其中223條來自NCI-Nature數(shù)據(jù)庫、254條來自BioCarta數(shù)據(jù)庫、838條來自Reactome數(shù)據(jù)庫。表3列舉了4種方法中對(duì)應(yīng)的前20個(gè)最小的模塊在Pathway上的富集結(jié)果,從中可以看到融合了蛋白質(zhì)復(fù)合體之后的PPI網(wǎng)絡(luò)的模塊,在Pathway上的富集程度比原始的模塊的p-value值要低,這說明模塊內(nèi)的蛋白質(zhì)更多地參與了同一條Pathway,從而可以證明融合了蛋白質(zhì)復(fù)合體的模塊更傾向于在同樣的Pathway中發(fā)揮生物作用,識(shí)別Pathway可以幫助人們進(jìn)一步認(rèn)識(shí)蛋白分子之間相互作用的分子機(jī)理。

      表3 融合蛋白質(zhì)復(fù)合體的模塊與原始PPI模塊的Pathway富集(p-value)

      Table 3 Pathway enrichment of topological modules comparing mixed protein complex with the original PPI network

      K-MeansIncreK-MeansNMFIncreNMF8.27×10-412.58×10-421.60×10-301.43×10-388.63×10-415.23×10-412.63×10-234.29×10-277.00×10-332.48×10-404.15×10-231.18×10-262.46×10-304.16×10-342.89×10-227.79×10-231.05×10-226.62×10-253.12×10-228.00×10-233.09×10-195.38×10-201.02×10-211.64×10-225.41×10-181.06×10-172.22×10-206.98×10-185.89×10-181.95×10-171.52×10-165.22×10-171.53×10-173.18×10-172.60×10-151.08×10-161.72×10-164.47×10-176.42×10-151.22×10-152.94×10-151.59×10-163.75×10-148.31×10-151.03×10-148.01×10-162.61×10-132.61×10-141.90×10-144.45×10-152.68×10-136.34×10-149.56×10-141.82×10-141.19×10-121.64×10-132.54×10-137.16×10-141.09×10-116.62×10-131.03×10-129.74×10-146.33×10-112.34×10-122.11×10-121.33×10-131.32×10-101.02×10-112.20×10-124.10×10-132.66×10-102.26×10-115.14×10-124.10×10-133.12×10-102.30×10-111.18×10-116.00×10-134.02×10-102.50×10-11

      2) 蛋白質(zhì)拓?fù)淠K同質(zhì)性

      對(duì)每個(gè)模塊使用最小的p-value對(duì)應(yīng)的GO術(shù)語或者Pathway作為其富集的對(duì)象,從而進(jìn)一步發(fā)現(xiàn)該模塊中的蛋白質(zhì)分子的功能。從統(tǒng)計(jì)學(xué)意義上講,p-value < 0.01的GO術(shù)語及Pathway都可以作為模塊的富集對(duì)象。為了更好地衡量模塊中的蛋白質(zhì)在生物功能上發(fā)揮相同或相似功能的程度,使用同質(zhì)性去衡量,其計(jì)算方法如式(7)所示。同質(zhì)性更好地說明了一個(gè)模塊內(nèi)的蛋白在功能上的相似程度,同質(zhì)性越高說明該模塊中的蛋白質(zhì)在生物功能上更趨于一致性,也就是該模塊具有很強(qiáng)的生物功能。

      本文對(duì)比了融入蛋白質(zhì)復(fù)合體數(shù)據(jù)之后PPI網(wǎng)絡(luò)劃分得到的模塊與原始PPI劃分得到的模塊之間的同質(zhì)性的差別。GO術(shù)語同質(zhì)性根據(jù)生物過程、細(xì)胞組件和分子功能3個(gè)方面進(jìn)行分析。圖3是不同模塊劃分方法產(chǎn)生模塊的分子功能的同質(zhì)性在不同區(qū)間上的對(duì)比。

      圖3 模塊分子功能同質(zhì)性

      圖3橫坐標(biāo)是同質(zhì)性區(qū)間,縱坐標(biāo)是該區(qū)間內(nèi)的模塊數(shù)量占所有模塊數(shù)量的比率。不論是K-Means還是NMF,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊在分子功能的同質(zhì)性方面要高于原始PPI得到的模塊。在K-Means算法中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中同質(zhì)性高于0.5的模塊占15%,而原始PPI模塊同質(zhì)性高于0.5的模塊占11%;在NMF中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中同質(zhì)性高于0.5的模塊占13%,而原始PPI模塊同質(zhì)性高于0.5的模塊占9.6%。

      圖4是不同模塊劃分方法產(chǎn)生模塊的細(xì)胞組件同質(zhì)性在不同區(qū)間上的對(duì)比。

      圖4 模塊細(xì)胞組件同質(zhì)性

      在K-Means算法中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中細(xì)胞組件同質(zhì)性高于0.5的模塊占54.8%,而原始PPI模塊同質(zhì)性高于0.5的模塊占48.9%;在NMF中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中細(xì)胞組件同質(zhì)性高于0.5的模塊占35%,而原始PPI模塊同質(zhì)性高于0.5的模塊占31.5%。

      圖5是不同模塊劃分方法產(chǎn)生模塊的生物過程同質(zhì)性在不同區(qū)間上的對(duì)比。

      圖5 模塊生物過程同質(zhì)性

      在K-Means算法中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中生物過程同質(zhì)性高于0.5的模塊占24.1%,而原始PPI模塊同質(zhì)性高于0.5的模塊占17.7%;在NMF中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中生物過程同質(zhì)性高于0.5的模塊占15.7%,而原始PPI模塊同質(zhì)性高于0.5的模塊占11.3%。

      圖6是不同模塊劃分方法產(chǎn)生模塊的Pathway同質(zhì)性在不同區(qū)間上的對(duì)比。

      在K-Means算法中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中Pathway同質(zhì)性高于0.5的模塊占22.3%,而原始PPI模塊同質(zhì)性高于0.5的模塊占18.7%;在NMF中,融合了蛋白質(zhì)復(fù)合體數(shù)據(jù)的模塊中Pathway同質(zhì)性高于0.5的模塊占19%,而原始PPI模塊同質(zhì)性高于0.5的模塊占12%。

      實(shí)驗(yàn)結(jié)果說明,在GO術(shù)語和Pathway2個(gè)生物度量方面,不論是從最小富集角度還是從模塊同質(zhì)性角度,都可以發(fā)現(xiàn)融合了蛋白質(zhì)復(fù)合體后的PPI得到的模塊具有更強(qiáng)的生物功能,因此可以將這些模塊作為功能模塊,以便用于蛋白網(wǎng)絡(luò)分子作用機(jī)理的研究。

      圖6 模塊Pathway同質(zhì)性

      3 結(jié)束語

      本文將蛋白質(zhì)復(fù)合體數(shù)據(jù)融合到PPI網(wǎng)絡(luò)中(例如:String 9蛋白質(zhì)相互作用數(shù)據(jù)庫),然后使用K-Means和NMF 2種經(jīng)典的算法分別對(duì)原始網(wǎng)絡(luò)和融合后的網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,從而得到多個(gè)蛋白質(zhì)模塊;這些模塊通過在GO和Pathway2個(gè)方面的富集分析和同質(zhì)性分析,實(shí)驗(yàn)結(jié)果證明融合蛋白質(zhì)復(fù)合體后得到了生物功能更強(qiáng)的模塊;這也在一定程度上說明引入蛋白質(zhì)復(fù)合體數(shù)據(jù)彌補(bǔ)了PPI網(wǎng)絡(luò)數(shù)據(jù)不完整并且噪聲多等缺點(diǎn)。新劃分的模塊在GO和Pathway 2個(gè)方面都展現(xiàn)了良好的生物學(xué)統(tǒng)計(jì)特性,這說明結(jié)合多方面的數(shù)據(jù),有助于發(fā)現(xiàn)功能更強(qiáng)的蛋白質(zhì)模塊。

      鑒于目前的研究,下一步工作計(jì)劃將基因表達(dá)數(shù)據(jù)融入到PPI網(wǎng)絡(luò)中,然后根據(jù)不同的基因在不同組織上的表達(dá)情況來輔助PPI網(wǎng)絡(luò)進(jìn)行功能模塊檢測(cè)。另一方面,疾病-癥狀關(guān)系數(shù)據(jù)(OMIM)和疾病-基因關(guān)系數(shù)據(jù)(disease-connect)的獲取技術(shù)發(fā)展比較迅速并且具有較高的可信度,因此可以將這些數(shù)據(jù)融入到PPI網(wǎng)絡(luò)中去發(fā)現(xiàn)與疾病或癥狀相關(guān)的功能模塊,從而為疾病機(jī)理研究和新藥研發(fā)提供一個(gè)新的思路。

      [2]BADER G D, HOGUE C W V. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC bioinformatics, 2003, 4: 2.

      [3]ALTAF-UL-AMIN M, SHINBO Y, MIHARA K, et al. Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J]. BMC bioinformatics, 2006, 7: 207.

      [4]KENLEY E C, CHO Y R. Detecting protein complexes and functional modules from protein interaction networks: A graph entropy approach[J]. Proteomics, 2011, 11(19): 3835-3844.

      [5]MENCHE J, SHARMA A, KITSAK M, et al. Uncovering disease-disease relationships through the incomplete interactome[J]. Science, 2015, 347(6224): 1257601.

      [6]NEWMAN M E J. Fast algorithm for detecting community structure in networks[J]. Physical review e, 2004, 69(6): 066133.

      [7]WAGSTAFF K, CARDIE C, ROGERS S, et al. Constrained k-means clustering with background knowledge[C]//Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2001: 577-584.

      [8]LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755): 788-791.

      [9]TURANALP M E, CAN T. Discovering functional interaction patterns in protein-protein interaction networks[J]. BMC bioinformatics, 2008, 9: 276.

      [10]RUEPP A, WAEGELE B, LECHNER M, et al. CORUM: the comprehensive resource of mammalian protein complexes-2009[J]. Nucleic acids research, 2010, 38(S1): D497-D501.

      [11]ZHANG Z Y. Community structure detection in complex networks with partial background information[J]. EPL (europhysics letters), 2013, 101(4): 48005.

      [12]ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: tool for the unification of biology[J]. Nature genetics, 2000, 25(1): 25-29.

      [13]SCHAEFER C F, ANTHONY K, KRUPA S, et al. PID: the pathway interaction database[J]. Nucleic acids research, 2009, 37(S 1): D674-D679.

      劉光明,男,1986年生,博士研究生,主要研究方向?yàn)閺?fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘、蛋白質(zhì)功能模塊。

      楊柳,女,1980年生,博士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。

      高盼盼,女,1989年生,碩士研究生,主要研究方向?yàn)榛谒幬锔弊饔玫姆肿訖C(jī)理的研究、數(shù)據(jù)挖掘。

      The functional module detection of PPI network by incorporating protein complex data

      LIU Guangming, YANG Liu, GAO Panpan, WANG Bangjun, ZHOU Xuezhong, YU Jian

      (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)

      Functional module detection of protein-protein interaction (PPI) network has been a major challenge identified recently by medical researchers. It allows understanding and recognizing the interaction between proteins in an efficient manner. In this study, topological module detection methods, popular in the field of complex protein networks, were applied to the PPI network to obtain these modules, followed by a biological analysis of the topological modules. The interaction mechanism was observed for only 10%~20% of the protein pairs because of incomplete PPI data. Furthermore, the data for noise interaction always existed in PPI; therefore, the number of biologically precise modules decreased according to topological community-detection methods. In this study, the protein complex data was incorporated into the PPI network to identify more biologically precise protein modules. K-Means clustering and non-negative matrix factorization algorithms were used to segregate the PPI network into different modules. Gene ontology (GO) and pathway analysis were conducted for each of these modules to quantify their biological significance. The results of the experiments showed that the modules detected by combining the protein complex and PPI network demonstrate a higher tendency to achieve larger homogeneity values compared with those detected using GO and pathway analysis.

      PPI; protein complex; functional module; module detection; gene ontology; pathway

      2016-03-18.

      日期:2016-09-26.

      國家自然科學(xué)基金項(xiàng)目(61105055,81230086).

      劉光明.E-mail:guangmingliu @bjtu.edu.cn.

      TP391

      A

      1673-4785(2016)05-0703-08

      10.11992/tis.201603034

      http://www.cnki.net/kcms/detail/23.1538.TP.20160926.0920.002.html

      劉光明,楊柳,高盼盼,等.融合蛋白質(zhì)復(fù)合體的人類蛋白互作網(wǎng)絡(luò)功能模塊發(fā)現(xiàn)[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(5):703-710.

      英文引用格式:LIU Guangming,YANG Liu,GAO Panpan,et al.The functional module detection of PPI network by incorporating protein complex data [J]. CAAI transactions on intelligent systems, 2016,11(5):703-710.

      猜你喜歡
      同質(zhì)性復(fù)合體功能模塊
      基于同質(zhì)性審視的高職應(yīng)用型本科工程教育研究
      職教論壇(2017年4期)2017-03-13 16:43:19
      基于ASP.NET標(biāo)準(zhǔn)的采購管理系統(tǒng)研究
      輸電線路附著物測(cè)算系統(tǒng)測(cè)算功能模塊的研究
      M市石油裝備公服平臺(tái)網(wǎng)站主要功能模塊設(shè)計(jì)與實(shí)現(xiàn)
      CoFe2O4/空心微球復(fù)合體的制備與吸波性能
      理性程度的異質(zhì)性:基于理論與實(shí)踐的考察
      功能模塊的設(shè)計(jì)與應(yīng)用研究
      高等工程教育與高等職業(yè)教育的同質(zhì)性
      3種多糖復(fù)合體外抗腫瘤協(xié)同增效作用
      日本西南部四國增生復(fù)合體中的錳礦分布
      武夷山市| 紫金县| 称多县| 岑溪市| 侯马市| 津南区| 曲阜市| 中西区| 金门县| 潼南县| 油尖旺区| 抚远县| 长沙市| 江达县| 大名县| 交城县| 靖宇县| 连云港市| 全州县| 奉节县| 宁河县| 手游| 阳泉市| 论坛| 洛南县| 全椒县| 黑龙江省| 阳城县| 敦化市| 甘谷县| 兴文县| 石城县| 达拉特旗| 环江| 城固县| 衡阳县| 措勤县| 桐城市| 微山县| 韶关市| 五寨县|