• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖嵌入和布谷鳥搜索的二步蛋白質(zhì)復(fù)合物預(yù)測方法?

      2022-06-28 12:16:42葛永錱趙熙強
      關(guān)鍵詞:布谷鳥復(fù)合物閾值

      葛永錱, 趙熙強

      (中國海洋大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 山東 青島 266100)

      細胞之間的交互過程通常是由蛋白質(zhì)復(fù)合物而不是單個蛋白質(zhì)來完成的[1-2]。蛋白質(zhì)復(fù)合物是一組相互作用的蛋白質(zhì),它們形成一個單獨的多分子機器[3], 彼此之間合作來執(zhí)行它們的生物學(xué)功能。可以說,蛋白質(zhì)復(fù)合物是活細胞內(nèi)生物過程的重要功能單位。研究蛋白質(zhì)復(fù)合物,有助于人們更深入地研究生物體的生命特征、細胞系統(tǒng)的行為、疾病的發(fā)病機理等諸多生物醫(yī)學(xué)課題。

      通過實驗手段從大量的蛋白質(zhì)中尋找潛在的復(fù)合物,無疑是低效的。而隨著高通量實驗技術(shù)的發(fā)展,使得研究人員獲得了大量的蛋白質(zhì)相互作用數(shù)據(jù),這就使得從蛋白質(zhì)交互(PPI)網(wǎng)絡(luò)中檢測、探尋蛋白質(zhì)復(fù)合物成為了可能。

      PPI網(wǎng)絡(luò)可以通過無向圖來進行建模表示。在過去的十幾年中,人們通過對圖論、計算數(shù)學(xué)、統(tǒng)計學(xué)等學(xué)科中的方法加以研究,獲得了許多從PPI網(wǎng)絡(luò)中發(fā)現(xiàn)蛋白質(zhì)復(fù)合物的方法,例如MCL[4]、MCODE[5]、RNSC[6]、CMC[7]、COACH[8]、ClusterONE[9]、ProRank+[10]、WPNCA[11]和RWRB[12]。這些方法的主要策略是從單個蛋白質(zhì)出發(fā),從PPI網(wǎng)絡(luò)中提取高度鏈接的節(jié)點以形成簇,這些簇有可能成為蛋白質(zhì)復(fù)合物的候選者。

      但是,隨著PPI網(wǎng)絡(luò)中交互信息越來越多,傳統(tǒng)的從單個蛋白質(zhì)出發(fā)尋找連接度高的節(jié)點形成簇的方法越來越不適用。因為隨著交互信息的增多,這種方法所形成簇的規(guī)模也越來越大,與已知的復(fù)合物匹配度也越來越低。為此需要尋找更合適的蛋白質(zhì)復(fù)合物探測方法。

      本文提出了一種基于圖嵌入和布谷鳥搜索的二步蛋白質(zhì)復(fù)合物預(yù)測方法(TSSComplex)。該方法將最優(yōu)化問題中布谷鳥搜索方法的思想引入蛋白質(zhì)復(fù)合物的搜尋中,代替?zhèn)鹘y(tǒng)的從單個蛋白質(zhì)出發(fā)的搜索方法。利用相似度和親和度來聚類蛋白質(zhì),從而獲得候選簇。這樣可以有效控制簇的規(guī)模,從而提高匹配率。另一方面,引入圖嵌入技術(shù),來獲得PPI網(wǎng)絡(luò)中節(jié)點的低維表示,并將兩個節(jié)點表示向量之間的距離和傳統(tǒng)的邊權(quán)結(jié)合起來,形成了新的邊權(quán)算法。之所以引入圖嵌入方法,是因為它將每個節(jié)點的拓撲結(jié)構(gòu)映射到低維向量表示中,可以很好地保留原始網(wǎng)絡(luò)的鄰近性[13-15]。圖嵌入方法可以從原始網(wǎng)絡(luò)中自動發(fā)現(xiàn)有用和潛在的特征,而非人工制作的網(wǎng)絡(luò)特征。同時有研究表明,在節(jié)點分類[16]、鏈路預(yù)測[17]、節(jié)點聚類[18]等與網(wǎng)絡(luò)相關(guān)的任務(wù)中,圖嵌入方法都是非常有效的。在PPI網(wǎng)絡(luò)應(yīng)用方面,Liu Xiaoxia等就曾將圖嵌入技術(shù)用于不同物種間的PPI網(wǎng)絡(luò)整合,取得了較好的結(jié)果[19]。

      1 方法

      基于圖嵌入和布谷鳥搜索的二步蛋白質(zhì)復(fù)合物預(yù)測方法主要分為三個步驟。第一步是利用圖嵌入技術(shù),用低維向量表示PPI網(wǎng)絡(luò)中的蛋白質(zhì)節(jié)點。然后,通過節(jié)點的低維向量表示和節(jié)點本身的網(wǎng)絡(luò)結(jié)構(gòu)給PPI網(wǎng)絡(luò)中的邊賦權(quán)。第二步是通過布谷鳥搜索,獲取潛在的蛋白質(zhì)復(fù)合物。第三步是針對布谷鳥搜索之后的剩余蛋白質(zhì)節(jié)點,利用傳統(tǒng)搜索方法,進行二次搜索。

      1.1圖嵌入和蛋白質(zhì)的低維向量表示

      圖嵌入技術(shù)是一種對網(wǎng)絡(luò)圖中的節(jié)點在向量空間進行分布表示的一種技術(shù)。該技術(shù)最早來源于自然語言數(shù)據(jù)挖掘領(lǐng)域[20]。其最初希望通過將單詞在向量空間中進行分布表示,以幫助學(xué)習(xí)算法對相似的單詞進行分組,從而在自然語言處理任務(wù)中能夠達到更好的性能。最早使用表示形式進行單詞研究要追溯到1986年,源于Rumelhart、Hinton和Williams[21]。此后,該方法被不斷地發(fā)展。最近,Mikolov等給出了一種Skip-gram模型,這是一種從大量非結(jié)構(gòu)化文本數(shù)據(jù)中學(xué)習(xí)高質(zhì)量的單詞向量表示的有效方法[22]。隨后,又有研究者將這種向量表示方法從線性結(jié)構(gòu)的自然語言處理引入到各種網(wǎng)絡(luò)結(jié)構(gòu)中。Aditya Grover等在前人的研究成果上,提出了一種成熟完善的圖嵌入算法—node2vec算法[15]。本文使用node2vec算法,將PPI網(wǎng)絡(luò)中的蛋白質(zhì)節(jié)點映射到低維向量空間上。

      令G=(V,E)是一個給定的PPI網(wǎng)絡(luò),V是蛋白質(zhì)節(jié)點集合,E是節(jié)點之間的邊集合,每一條邊表示一對蛋白質(zhì)交互。目標是將每一個節(jié)點u∈V表示成一個低維空間Rd中的向量。即學(xué)習(xí)一個映射函數(shù)f:V→Rd,這里d?|V|,d是一個參數(shù),指定向量表示的維數(shù)。

      1.1.1 優(yōu)化函數(shù) 我們希望下面的目標函數(shù)達到最大值,即在給定f的條件下,希望網(wǎng)絡(luò)鄰居NS(u)的對數(shù)似然概率達到最大:

      (1)

      式中NS(u)?V是通過鄰域采樣策略S產(chǎn)生的節(jié)點u的網(wǎng)絡(luò)鄰居。

      為了使這個最優(yōu)化問題易于處理,兩個標準假設(shè)是必須的[15]。

      第一個假設(shè)是條件獨立性。我們假設(shè)鄰域中每個節(jié)點被觀察的可能性是相互獨立的,那么似然函數(shù)可以進行因式分解,從而給定源的特征表示:

      (2)

      第二個假設(shè)是特征空間的對稱性。源節(jié)點和鄰域節(jié)點在特征空間中具有對稱效應(yīng)。因此,我們將每個源-鄰域節(jié)點對的條件似然建模為一個softmax單元,并通過其特征的點積進行參數(shù)化:

      (3)

      則公式(1)可改寫為

      (4)

      其中Zu=∑v∈Vexp(f(u)·f(v))。在大型網(wǎng)絡(luò)中該目標函數(shù)的計算代價是昂貴的,因此可以采用負采樣方法來逼近[19]。本文采用模擬退火算法來優(yōu)化上述目標函數(shù)。

      1.1.2 鄰域采樣策略 對于線性自然語言文本,可使用句子中連續(xù)單詞上的滑動窗口自然地定義單詞序列概念[22]。然而PPI網(wǎng)絡(luò)不同,它不是線性的,因此需要重新選擇一種適合節(jié)點鄰居的產(chǎn)生方式。常見的鄰域采樣策略有兩種:廣度優(yōu)先采樣(BFS)和深度優(yōu)先采樣(DFS)[15]。Aditya Grover等在node2vec算法中設(shè)計了一種靈活的鄰域采樣策略,能夠平滑地在BFS和DFS之間進行插值[15]。因此,該方法可兼顧BFS和DFS的優(yōu)點。

      首先,對于給定的源節(jié)點u,我們仿真一條固定長度為l的隨機游走。令ci表示隨機游走鏈上的第i個節(jié)點,那么起點即c0=u。節(jié)點ci通過如下分布產(chǎn)生:

      (5)

      式中:πvx是節(jié)點v和x之間非正則化的轉(zhuǎn)移概率;Z是正則常數(shù)。

      讓隨機游動產(chǎn)生偏差的最簡單方法是基于靜態(tài)邊權(quán)值對下一個節(jié)點進行采樣,即πvx=wvx。然而,這并不利于解釋網(wǎng)絡(luò)結(jié)構(gòu)。為此,定義基于兩個參數(shù)p和q的一個二階隨機游走。考慮一個隨機游走穿過邊(t,v)且現(xiàn)在停駐在點v?,F(xiàn)在隨機游走需要決定下一步的方向,因此需要評估由v引導(dǎo)的邊(v,x)的轉(zhuǎn)移概率πvx。我們令非正則化的轉(zhuǎn)移概率為πvx=αpq(t,x)·wvx,這里

      (6)

      且dtx記錄了節(jié)點t和x之間的最短距離。注意到dtx一定是{0,1,2}之一,因此兩個參數(shù)是必要的,并且足夠指導(dǎo)隨機游走。

      通過將節(jié)點映射成低維向量的圖嵌入技術(shù),可以將相似的蛋白質(zhì)節(jié)點嵌入到一起,因此能夠捕獲PPI網(wǎng)絡(luò)的內(nèi)部關(guān)系。

      1.2 布谷鳥搜索

      布谷鳥搜索算法(Cuckoo search, CS)是Yang Xinshe等提出的一種最優(yōu)化搜索算法[23]。自然界中,布谷鳥不會自己搭建巢穴,而是隨機尋找鳥巢來孵化自己的蛋,布谷鳥的蛋與宿主巢穴中的鳥蛋越相似,就越不容易被宿主發(fā)現(xiàn),從而也就越不容易被宿主拋棄。布谷鳥搜索算法正是模擬這一生物現(xiàn)象而提出的一種問題尋優(yōu)算法。Gao Yin等又將CS算法的搜尋機理用在PPI網(wǎng)絡(luò)復(fù)合物預(yù)測中,并在酵母PPI網(wǎng)絡(luò)中對蛋白質(zhì)復(fù)合物進行預(yù)測,取得了較好的結(jié)果[24]。本文也借鑒了Gao Yin等的想法。

      首先對PPI網(wǎng)絡(luò)中的邊進行賦權(quán)。Wang等[25]和Peng等[11]引入了一種名為ECC(Edge clustering coefficient)的邊聚類系數(shù),來為網(wǎng)絡(luò)中的邊加權(quán)。

      (7)

      式中:Zuv是節(jié)點u和v的公共鄰居集合;d(u)表示節(jié)點u的度。為了進一步刻畫兩個相鄰節(jié)點u和v的共同領(lǐng)域之間的連通性,Ma Chengyu等引入了一種新的邊聚類系數(shù)NECC(New edge clustering coefficient)[26]。該思想是用進一步分層的方式估計u和v的鄰域連通性。NECC的定義如下:

      (8)

      其中

      (9)

      顯然,NECC更廣泛地考慮了兩個相鄰節(jié)點的整個鄰域的連通性,可以更好地確定某個蛋白質(zhì)是否屬于一個復(fù)合物。

      再結(jié)合通過圖嵌入技術(shù)將蛋白質(zhì)節(jié)點映射成的低維向量,本文定義了屬于自己的邊加權(quán)方式,即兩個相鄰節(jié)點u和v之間的邊權(quán)為

      Wuv=Dist(u,v)·NECC(u,v) 。

      (10)

      式中Dist(u,v)是節(jié)點u和v之間通過表示向量計算的歐氏距離。這種賦權(quán)方式既考慮了PPI網(wǎng)絡(luò)的拓撲結(jié)構(gòu),又考慮了節(jié)點的空間結(jié)構(gòu),從而能夠更準確地衡量節(jié)點之間的相似度。

      之后可以開始正式進行布谷鳥搜索。布谷鳥搜索算法主要分為四步。

      第一步,確定聚類的中心點。我們根據(jù)式(1)計算節(jié)點的加權(quán)度:

      (11)

      然后選擇加權(quán)度大于閾值的節(jié)點作為聚類的中心點。不同于Gao Yin等以所有節(jié)點的平均加權(quán)度為閾值,本文采用所有非0加權(quán)度的中位數(shù)作為閾值,之所以采用這種閾值取法,是為了避免一些極端值(比如孤立點以及一些度特別大的點)對整體取值的影響。

      第二步,獲取初始簇。對于一個聚類中心u,判斷每一個與其有交互的蛋白質(zhì)節(jié)點v與該中心u的相似度(即邊權(quán)),若相似度大于閾值,則將v歸入到以u為中心的簇里。待所有與u有交互的節(jié)點都判斷完成后,則形成一個以u為中心的初始簇。對每一個聚類中心,按此法形成若干個大小不同的初始簇。這里的閾值取法如下:將所有邊權(quán)從小到大排列,去掉0值之后,取剩下數(shù)值的上四分位數(shù)作為閾值,之所以取上四分位數(shù),是因為這時能夠相對更好地控制一個復(fù)合物的規(guī)模。

      第三步,簇的擴充。對于還未屬于任一個簇的蛋白質(zhì)節(jié)點,判斷其與每一個簇的親和度,并將其歸入到親和度大于閾值的簇中。蛋白質(zhì)節(jié)點u和簇C之間的親和度計算方法如下:

      (12)

      且親和度的閾值一般取2。待所有節(jié)點判斷完成,則獲得了所有潛在的蛋白質(zhì)復(fù)合物。

      第四步,合并與剔除。我們用重疊得分OS(A,B)來度量兩個蛋白質(zhì)復(fù)合物之間的相似度。如果兩個蛋白質(zhì)復(fù)合物之間的重疊得分OS(Overlapping score)大于給定的閾值,則將兩個復(fù)合物合并。兩個復(fù)合物A和B的重疊得分計算方式如下:

      (13)

      式中VA表示A復(fù)合物中蛋白質(zhì)集合。顯著的,這種重疊得分已經(jīng)被用在許多以往的研究中,來判斷一個預(yù)測的復(fù)合物與一個已知的復(fù)合物是否匹配[5,8,11,27-28]。代表性的,如果OS(A,B)≥0.2,則復(fù)合物A和B被視為匹配的。這個閾值同樣適用于判斷兩個預(yù)測的蛋白質(zhì)復(fù)合物需不需要合并。

      為了保證候選復(fù)合物的高質(zhì)量,我們采用加權(quán)邊密度進行評估。邊密度的概念最先由Coleman和More提出[29],Ma Chengyu等對其進行了拓展[26]。給定一個圖G=(V,E,W),加權(quán)邊密度(Density,den)的定義如下:

      (14)

      對于一個蛋白質(zhì)復(fù)合物C,同樣可以計算其加權(quán)邊密度。我們剔除那些加權(quán)邊密度小于閾值(這里一般取0.1,這是由于CORUM參考復(fù)合物集合中的復(fù)合物其加權(quán)邊密度基本大于0.1)的或只包含一個蛋白質(zhì)的復(fù)合物。保留下來的,即為通過布谷鳥搜索預(yù)測獲得的預(yù)測蛋白質(zhì)復(fù)合物。

      當然在這一步中,涉及一些閾值的選取問題,不同的閾值設(shè)置肯定會對結(jié)果產(chǎn)生一定的影響,什么樣的閾值設(shè)置是最好的,是我們還在繼續(xù)研究的內(nèi)容。

      1.3 二次搜索

      布谷鳥搜索方法以加權(quán)度大于閾值的節(jié)點作為聚類中心,這樣很容易略掉一些由加權(quán)度不大的蛋白質(zhì)構(gòu)成的復(fù)合物,尤其是一些小型復(fù)合物。因此,在布谷鳥搜索結(jié)束后,還需對未被納入復(fù)合物當中的蛋白質(zhì)進行二次搜索。我們參考NEOComplex算法[25],構(gòu)造二次搜索方法。

      將通過布谷鳥搜索獲得的復(fù)合物中包含的蛋白質(zhì)及其相關(guān)的交互邊從PPI網(wǎng)絡(luò)中刪除,在剩下的子圖網(wǎng)絡(luò)G1中進行二次搜索。二次搜索過程如下:以G1中的一個蛋白質(zhì)節(jié)點v1為種子節(jié)點,從G1的與v1有邊相連的節(jié)點中選取邊權(quán)最大的節(jié)點v2,加到v1的簇中;再從G1的與v2有邊相連的節(jié)點中選取邊權(quán)最大的節(jié)點v3,加到{v1,v2}的簇中,以此類推,直至簇的加權(quán)邊密度小于閾值0.1為止。以G1的每一個節(jié)點作為種子節(jié)點,分別按照上述規(guī)則進行搜索,均可以獲得一個潛在的蛋白質(zhì)復(fù)合物。再將這些潛在的蛋白質(zhì)復(fù)合物按照布谷鳥搜索中第四步的合并與剔除規(guī)則進行合并與剔除處理,保留下來的蛋白質(zhì)復(fù)合物就是二次搜索獲得的預(yù)測蛋白質(zhì)復(fù)合物。

      兩次搜索獲得的預(yù)測蛋白質(zhì)共同構(gòu)成了我們二步搜索算法探測得到的蛋白質(zhì)復(fù)合物。

      1.4 主要算法

      對于給定的蛋白質(zhì)交互網(wǎng)絡(luò)(PPI網(wǎng)絡(luò))G=(V,E),完整的復(fù)合物探測算法TSSComplex如下。

      TSSComplex算法

      步驟1. 準備工作

      步驟1.1 根據(jù)G=(V,E),計算每條邊的邊聚類系數(shù)NECC。

      步驟1.2 以NECC為初始邊權(quán),根據(jù)隨機游走策略,確定每個頂點的鄰居NS(u)。

      步驟1.3 根據(jù)圖嵌入技術(shù),最優(yōu)化目標函數(shù),將每個蛋白質(zhì)節(jié)點映射到低維向量空間。

      步驟1.4 根據(jù)Wuv=Dist(u,v)·NECC(u,v)更新邊權(quán)。

      步驟2. 第一步搜索:布谷鳥搜索

      步驟2.1 計算每個蛋白質(zhì)節(jié)點的加權(quán)度。

      步驟2.2 將加權(quán)度大于閾值的節(jié)點作為初始簇中心。

      步驟2.3 對于每一個簇中心,判斷與該簇中心相連接的節(jié)點與簇中心的相似度是否大于閾值,將大于閾值的節(jié)點歸入該簇。

      步驟2.4 對于剩余的節(jié)點,計算其與每一個簇的親和度,并將其歸入親和度大于閾值的簇。

      步驟2.5 合并重疊得分OS≥0.2的簇。

      步驟2.6 刪除邊密度小于0.1或僅包含一個蛋白質(zhì)的簇。

      步驟3. 第二步搜索:二次搜索

      將步驟2中獲得的復(fù)合物中所包含的蛋白質(zhì)及其相關(guān)的邊從PPI網(wǎng)絡(luò)中移除,剩下的節(jié)點與邊構(gòu)成子圖G1=(V1,E1),在G1中進行二次搜索。

      步驟3.1 以G1中任意一點v1為種子節(jié)點,在G1中尋找與v1相連且邊權(quán)最大的節(jié)點v2加入該簇,再尋找與v2相連且邊權(quán)最大的v3加入該簇,直至簇的邊密度小于0.1。

      步驟3.2 對G1中的每一個節(jié)點重復(fù)進行步驟3.1,共獲得|V1|個簇。

      步驟3.3 根據(jù)合并與剔除規(guī)則處理步驟3.2中獲得的簇。

      步驟4. 將步驟2和步驟3中保留下來的簇輸出。其每一個簇即為一個通過TSSComplex算法獲得的蛋白質(zhì)復(fù)合物。

      算法的簡易流程見圖1。

      2 實驗與分析

      我們將TSSComplex算法應(yīng)用于人類的PPI網(wǎng)絡(luò),與其他幾種蛋白質(zhì)復(fù)合物探測方法作比較,同時結(jié)合數(shù)據(jù)集的特征,作綜合分析,以評估算法的性能。

      2.1 數(shù)據(jù)集

      人類PPI網(wǎng)絡(luò)通過聯(lián)合HPDR(Human Protein Refe-rence Database)[30]和BioGRID(version 3.5.173)[31]數(shù)據(jù)共同構(gòu)建。最終獲得的人類PPI網(wǎng)絡(luò)中一共包含18 004個蛋白質(zhì)節(jié)點和339 054條交互(邊)。

      為評估預(yù)測的蛋白質(zhì)復(fù)合物,我們使用CORUM(Comprehensive Resource of Mammalian)作為蛋白質(zhì)復(fù)合物參考集[32]。該集合具有較高的可靠性。它一共收錄了2 916個蛋白質(zhì)復(fù)合物,其中有2 643個復(fù)合物包含2個及以上的蛋白質(zhì)。我們將這2 643個復(fù)合物作為參考集。這些復(fù)合物一共涉及3 627個蛋白質(zhì)和93 884條交互。

      圖1 TSSComplex算法的流程圖Fig.1 Flow chart of TSSComplex algorithm

      2.2 性能標準

      為評估我們預(yù)測結(jié)果的質(zhì)量,我們計算了兩個在文獻中廣泛使用的統(tǒng)計指標:精確度和召回率。精確度是與至少一個已知復(fù)合物相匹配的預(yù)測復(fù)合物的數(shù)量與所有預(yù)測復(fù)合物的數(shù)量的比值:

      (15)

      式中:PC(Prediction complex)是預(yù)測的復(fù)合物集合;RC(Reference complex)是CORUM提供的參考復(fù)合物集合。召回率是已知復(fù)合物中符合至少一個預(yù)測復(fù)合物的比例:

      (16)

      F-measure是精確度和召回率的調(diào)和平均值,表示預(yù)測結(jié)果的總體表現(xiàn),即

      (17)

      2.3 性能比較

      我們將TSSComplex算法的性能和8種蛋白質(zhì)鑒定技術(shù)(MCL[4]、MCODE[5]、CMC[7]、COACH[8]、ClusterONE[9]、ProRank+[10]、PEWCC[32]和NEOComplex[26])做了比較(見表1)。

      表1 9種方法的性能比較Table 1 Performance comparison of nine methods

      表1報告了包括TSSComplex在內(nèi)的所有競爭方法的比較結(jié)果。如果僅從數(shù)值上看,TSSComplex算法并不是特別理想,但TSSComplex算法依然有其研究的價值,其理由主要有以下三個原因。

      原因1:隨著PPI網(wǎng)絡(luò)中蛋白質(zhì)交互信息的不斷增多,其他方法將逐漸失效。

      以其他8種算法中性能最好的NEOComplex算法為例,NEOComplex算法的PPI網(wǎng)絡(luò)數(shù)據(jù)來自HPRD和BioGRID(version 3.2.109),共包含15 459個蛋白質(zhì)和144 895條交互。而本文使用的來自HPRD和BioGRID(version 3.5.173),共包含了18 004個蛋白質(zhì)和339 054條交互??梢园l(fā)現(xiàn),蛋白質(zhì)數(shù)量增長了不到20%(僅增長了16.46%),但蛋白質(zhì)之間的交互數(shù)量卻增長了一倍多(增長了134%)。交互信息的大量增多,使得各種搜索方法產(chǎn)生的復(fù)合物容量越來越大。我們在本文的數(shù)據(jù)集上測試了NEOComplex算法,發(fā)現(xiàn)該算法獲得的復(fù)合物容量基本在500以上,一個復(fù)合物里包含了500個以上的蛋白質(zhì)。而根據(jù)匹配規(guī)則,兩個復(fù)合物之間的重疊率要達到0.2才算匹配成功。以一個容量為500的復(fù)合物A計算,若一個復(fù)合物B能與其匹配成功,該復(fù)合物B的容量至少為100。而CORUM提供的人類2 643個蛋白質(zhì)復(fù)合物中,僅有兩個復(fù)合物的容量超過了100。也就是說,在交互信息增長了一倍多的條件下,NEOComplex算法的召回率已經(jīng)近乎于0,不再是表1中顯示的0.47。同樣,這時NEOComplex算法的精確率也會下降到近乎為0。因此,隨著蛋白質(zhì)間交互信息的不斷增多,NEOComplex算法已經(jīng)失去效應(yīng)。

      原因2:TSSComplex算法能夠有效地控制復(fù)合物。

      NEOComplex算法之所以會失效,就是因為它沒有一個有效的手段來控制預(yù)測復(fù)合物的大小,而TSSComplex算法還可以繼續(xù)使用,得益于它們所采用的布谷鳥搜索算法可以控制預(yù)測復(fù)合物的規(guī)模。布谷鳥搜索在獲取聚類中心后,只有與中心點相連的節(jié)點,才有可能通過相似度的篩選,進入初始簇,因此這些點與中心點之間的最短路徑長度均為1。而在第二步初始簇的擴充中,若一個點與初始簇內(nèi)任何點均不相連,該點是不會被擴充進初始簇的。而一個點如果可能被擴充進初始簇,那么它必然至少與初始簇中的一個點相連,這時它與簇中心之間的最短路徑長度的集合中最大值只能是2,而簇中最遠的兩個點之間最短路徑長度的集合中最大值也僅可能為4,正是因為如此,布谷鳥搜索能夠控制簇的規(guī)模。而NEOComplex算法,只要邊密度不小于0.009,就一直可以有節(jié)點加入,加入的節(jié)點和初始種子節(jié)點之間的距離可以非常遠,從而無法控制簇的規(guī)模。

      原因3:TSSComplex算法可以有效縮小蛋白質(zhì)復(fù)合物搜索的范圍。

      這里,我們?yōu)镃ORUM中的已知蛋白質(zhì)復(fù)合物定義了最優(yōu)重合率。一個復(fù)合物c∈RC,它的最優(yōu)重合率(Optimal overlapping score,OOS)為

      (18)

      這個最優(yōu)重合率反映了該已知復(fù)合物中有多少蛋白質(zhì)可以同時出現(xiàn)在某個預(yù)測復(fù)合物中。OOS越大,說明一個已知復(fù)合物越能完整的包含在一個預(yù)測復(fù)合物中。

      表2 參考復(fù)合物集合關(guān)于OSS的分段統(tǒng)計Table 2 A piecewise statistic for reference complexes with OSS

      ①Number; ②Proportion; ③Matching number; ④Matching ratio; ⑤Total.

      對CORUM中的已知復(fù)合物進行分段統(tǒng)計,表2報告了分段統(tǒng)計的結(jié)果。觀察表2中的數(shù)據(jù)可以發(fā)現(xiàn),有55.42%的復(fù)合物,其所包含的蛋白質(zhì)可以完全在某個預(yù)測的復(fù)合物中找到。有94.78%的復(fù)合物,其所包含的蛋白質(zhì)有一半可以在某個預(yù)測的復(fù)合物中找到。這一結(jié)果遠遠優(yōu)于召回率18.62%。這種現(xiàn)象在越小的復(fù)合物中越明顯。之所以會出現(xiàn)這一情況,是由于隨著蛋白質(zhì)交互信息的增多,PPI網(wǎng)絡(luò)中每個節(jié)點的度也在不斷上升,蛋白質(zhì)與蛋白質(zhì)之間的聯(lián)系更緊密,使得預(yù)測到的復(fù)合物規(guī)模偏大(從表2中可以看出,包含蛋白質(zhì)個數(shù)超過5的預(yù)測復(fù)合物的比率要遠高于已知復(fù)合物中該類的比率),使得小型復(fù)合物很容易隱藏在一些大型簇中,從而無法被準確地找到。從另一個角度來說,召回率低意味著直接匹配到已知復(fù)合物的成功率低;但高最優(yōu)重合率則意味著已知復(fù)合物基本是預(yù)測到的復(fù)合物的一部分,因此可以有效地為尋找已知復(fù)合物縮小范圍,而且范圍縮小的效率要比NEOComplex算法好。這樣可以嘗試通過一些方法,在這個縮小的范圍內(nèi)尋找更精確的蛋白質(zhì)復(fù)合物。

      另一方面,TSSComplex算法所獲得的預(yù)測復(fù)合物的個數(shù)與CORUM中所包含的已知復(fù)合物的個數(shù)比較接近,這使得可供進一步搜尋的復(fù)合物個數(shù)也比較少,而不是像CMC算法那樣,即便具有很高的召回率,但在新數(shù)據(jù)集(即本文所使用的數(shù)據(jù)集)上卻能獲得近40萬個預(yù)測復(fù)合物,這么龐大的潛在復(fù)合物數(shù)量,即使想做進一步篩選,其難度也非常大。

      綜上三個原因,雖然TSSComplex算法在性能指標上可能并不太理想,但其依然具有研究的價值。

      3 結(jié)語

      本文提出了一種基于圖嵌入技術(shù)和布谷鳥搜索的二步蛋白質(zhì)復(fù)合物預(yù)測方法。傳統(tǒng)搜索算法在蛋白質(zhì)交互信息越來越多的情況下會逐漸失效,不同于傳統(tǒng)算法,本算法在蛋白質(zhì)交互信息增多的情況下,依然有一定的準確性。但同時也反映出,蛋白質(zhì)復(fù)合物的探測技術(shù)未來不能僅依靠PPI網(wǎng)絡(luò),還要參考其他信息,例如蛋白質(zhì)的生化性質(zhì)信息。

      本算法可為進一步精確探測復(fù)合物縮小搜索范圍。這為蛋白質(zhì)復(fù)合物搜索方法提供了一個新思路:先用搜索算法縮小復(fù)合物包含的蛋白質(zhì)范圍,再通過其他數(shù)據(jù)挖掘技術(shù)或?qū)嶒灱夹g(shù),進一步精確探測復(fù)合物。我們現(xiàn)在正在試圖構(gòu)建一些算法,以實現(xiàn)在縮小了范圍的蛋白質(zhì)簇中能更精確地探測蛋白質(zhì)復(fù)合物的目的。

      猜你喜歡
      布谷鳥復(fù)合物閾值
      布谷鳥讀信
      布谷鳥讀信
      BeXY、MgXY(X、Y=F、Cl、Br)與ClF3和ClOF3形成復(fù)合物的理論研究
      小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
      噓!布谷鳥來了
      大灰狼(2019年4期)2019-05-14 16:38:38
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      柚皮素磷脂復(fù)合物的制備和表征
      中成藥(2018年7期)2018-08-04 06:04:18
      黃芩苷-小檗堿復(fù)合物的形成規(guī)律
      中成藥(2018年3期)2018-05-07 13:34:18
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      布谷鳥叫醒的清晨
      漠河县| 宾阳县| 龙口市| 库尔勒市| 汉阴县| 红原县| 寻甸| 四川省| 融水| 论坛| 盈江县| 新源县| 五寨县| 安新县| 嫩江县| 宝山区| 通州市| 盘锦市| 溧阳市| 盈江县| 商丘市| 武隆县| 仁化县| 文山县| 沂南县| 马山县| 肃北| 柳州市| 积石山| 吉安市| 合川市| 浦东新区| 大姚县| 德钦县| 漾濞| 金山区| 金寨县| 威信县| 本溪市| 荆门市| 临海市|