張 毅,許 爽
(大連民族大學(xué) 信息與通信工程學(xué)院,遼寧 大連 116605)
鏈路預(yù)測和虛假鏈路預(yù)測是復(fù)雜網(wǎng)絡(luò)科學(xué)中的重要分支,通過已知的網(wǎng)絡(luò)節(jié)點(diǎn)信息和結(jié)構(gòu)信息來預(yù)測節(jié)點(diǎn)之間產(chǎn)生鏈接的概率或可能性[1]。預(yù)測包含兩方面的內(nèi)容:對尚未發(fā)現(xiàn)或未來可能產(chǎn)生的鏈接的預(yù)測對網(wǎng)絡(luò)中存在的虛假連接的識別,即鏈路預(yù)測和虛假鏈路預(yù)測[2]。鏈路預(yù)測已經(jīng)形成了較為完善的方法體系,然而識別網(wǎng)絡(luò)中的虛假鏈接問題還沒有得到太多的關(guān)注,一般認(rèn)為虛假鏈接是網(wǎng)絡(luò)中真實(shí)存在的邊,并且其在網(wǎng)絡(luò)中起著一些特殊的作用[3],如果預(yù)測方法不夠準(zhǔn)確,將一些重要的鏈接錯誤識別,網(wǎng)絡(luò)的連通性將造到破壞,從而破壞系統(tǒng)的功能。[4]。
Guimerà和Sales-Pardo[5]提出了虛假鏈接、識別缺失和虛假鏈接的隨機(jī)塊模型。Peng Zhang和Dan Qiu[6]等將18種基于網(wǎng)絡(luò)相似性的預(yù)測指標(biāo)移植到虛假鏈路預(yù)測中進(jìn)行預(yù)測實(shí)驗(yàn)?;诰W(wǎng)絡(luò)相似性的虛假鏈路預(yù)測方法和鏈路預(yù)測中存在同樣的問題不適用與大規(guī)模的網(wǎng)絡(luò),且大多數(shù)相似性方法在虛假鏈路預(yù)測中對噪聲更敏感。An Zeng 和 Giulio Cimini[7]提出了一種基于融合相似性指標(biāo)和邊緣中心性的預(yù)測方法,該方法能有效地識別和去除虛假鏈路,但存在著減小連通片的大小和扭曲網(wǎng)絡(luò)其他靜態(tài)和動態(tài)特性的重要缺點(diǎn)。Liming Pan[8]等根據(jù)預(yù)定義的結(jié)構(gòu)哈密頓量估計(jì)網(wǎng)絡(luò)的概率,將未觀測鏈路的存在可能性得分通過向網(wǎng)絡(luò)中添加聚焦鏈路的條件概率來量化,而觀測鏈路的虛假概率通過刪除鏈路的條件概率來量化,但基于似然分析的方法算法的框架更加復(fù)雜,時(shí)間復(fù)雜度很高,大大增加了預(yù)測時(shí)間成本。
為了提升虛假鏈路預(yù)測的預(yù)測結(jié)果準(zhǔn)確性,拓展虛假鏈路預(yù)測的應(yīng)用范圍。本文從網(wǎng)絡(luò)模體結(jié)構(gòu)的角度出發(fā),分析不同模體結(jié)構(gòu)中的節(jié)點(diǎn)在真實(shí)網(wǎng)絡(luò)中的相互作用模式,結(jié)合機(jī)器學(xué)習(xí)相關(guān)模型提出基于多模體的虛假鏈路預(yù)測方法,并在多個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析,改善了虛假鏈路預(yù)測的預(yù)測效果與性能。
本文的實(shí)驗(yàn)數(shù)據(jù)為六個(gè)無權(quán)無向的真實(shí)網(wǎng)絡(luò),定義無權(quán)無向網(wǎng)絡(luò)表示為G=(V,E),其中V是所有節(jié)點(diǎn)的集合,E是網(wǎng)絡(luò)中連邊的集合,V個(gè)節(jié)點(diǎn)兩兩相連接一共可生成U條連邊,即U=|V|(|V|-1)/2,將U稱為網(wǎng)絡(luò)中所有可能相連邊的全集。E為已存在的連邊集合,則U-E為不存在的連邊。
將連邊集合E按9:1的比例劃分作為訓(xùn)練集ET與測試集EP的正樣本,在網(wǎng)絡(luò)不存在連邊集合U-E中,隨機(jī)抽樣與正樣本數(shù)量相同的連邊作為訓(xùn)練集ET與測試集EP的負(fù)樣本,另外訓(xùn)練集負(fù)樣本中存在pM(p∈(0,1))條不存在邊被作為虛假連邊添加到網(wǎng)絡(luò)中。
采取AUC(Area Under Curve)來評價(jià)預(yù)測的準(zhǔn)確性,多角度評價(jià)算法預(yù)測效果。AUC指標(biāo)采用曾安等在2012年定義的方法,隨機(jī)的挑選一條虛假連邊和一條真實(shí)連邊,并比較它們的分?jǐn)?shù)值。AUC值越高表示算法預(yù)測準(zhǔn)確度越高在n次獨(dú)立比較的過程中,如果S真實(shí)>S虛假,則n1+1,如果S真實(shí)=S虛假,則n2+1,AUC定義為
CN指標(biāo)(common neighbors):CN指標(biāo)又稱為結(jié)構(gòu)等價(jià),該指標(biāo)通過得知兩個(gè)節(jié)點(diǎn)共同鄰居的數(shù)量,來判斷節(jié)點(diǎn)相似性。CN指標(biāo)定義為:節(jié)點(diǎn)Vx的鄰居集合為Γ(x),節(jié)點(diǎn)Vx的鄰居集合為Γ(y)。則Vx和Vx的相似性定義為
AA指標(biāo)(Adamic-Adar):在共同鄰居的基礎(chǔ)上考慮兩端節(jié)點(diǎn)度的影響,則演變?yōu)锳A指標(biāo)[9]。AA指標(biāo)的思想則是度小的共同鄰居節(jié)點(diǎn)貢獻(xiàn)大于度大的共同鄰居節(jié)點(diǎn)。其定義為
其中kz表示x和y的共同鄰居節(jié)點(diǎn)的度。
RA指標(biāo)(resource allocation):從網(wǎng)絡(luò)資源分配角度出發(fā),周濤等人提出了基于信息分配的指標(biāo)RA[10]。具體定義為
其中kz表示x和y的共同鄰居節(jié)點(diǎn)的度,
模體[11]一般由少數(shù)幾個(gè)節(jié)點(diǎn)連接而成。大多數(shù)網(wǎng)絡(luò)中3個(gè)節(jié)點(diǎn)和4個(gè)節(jié)構(gòu)成的模體較為常見。本文只涉及3節(jié)點(diǎn)和4節(jié)點(diǎn)的普遍情況。對于無向網(wǎng)絡(luò),3個(gè)節(jié)點(diǎn)構(gòu)成的連通性模體結(jié)構(gòu)有2種,4個(gè)節(jié)點(diǎn)構(gòu)成的連通性模體結(jié)構(gòu)有6種。
考慮到不同預(yù)測連邊的選取,原有的模體數(shù)量將會增至12個(gè)如圖1。對于某個(gè)模體特征來說,待預(yù)測連邊上的某個(gè)模體數(shù)量就作為這個(gè)模體結(jié)構(gòu)的模體特征。每個(gè)模體中待預(yù)測連邊的相互作用關(guān)系在不同類型的網(wǎng)絡(luò)中也會賦予不同的意義,在科學(xué)家合作網(wǎng)中代表兩位科學(xué)家是否存在合作的可能[14],在蛋白質(zhì)相互作用網(wǎng)絡(luò)中表示兩個(gè)蛋白質(zhì)分子之間是否有連接,在社交網(wǎng)絡(luò)中表示兩個(gè)網(wǎng)友在不久的將來是否可能成為互關(guān)的好友。
在基于單模體的虛假鏈路預(yù)測實(shí)驗(yàn)中,12種模體結(jié)構(gòu)每種都單獨(dú)作為一個(gè)網(wǎng)絡(luò)特征,在每個(gè)實(shí)驗(yàn)數(shù)據(jù)上單獨(dú)進(jìn)行12次虛假鏈路預(yù)測實(shí)驗(yàn),對比分析不同數(shù)據(jù)集下基于單模體的虛假鏈路預(yù)測實(shí)驗(yàn)結(jié)果。在基于多模體的虛假鏈路預(yù)測實(shí)驗(yàn)中,結(jié)合機(jī)器學(xué)習(xí)模型融合提取12種模體特征進(jìn)行實(shí)驗(yàn)。在進(jìn)行融合模體與網(wǎng)絡(luò)表征學(xué)習(xí)的虛假鏈路預(yù)測實(shí)驗(yàn)時(shí),將12種模體特征與多維的節(jié)點(diǎn)嵌入向量全部作為機(jī)器學(xué)習(xí)分類器的輸入,進(jìn)行虛假鏈路預(yù)測實(shí)驗(yàn)。
基于模體結(jié)構(gòu)的預(yù)測方法核心是提取訓(xùn)練集和測試集的模體特征,即計(jì)算連邊對應(yīng)的每種模體的數(shù)量。以圖中abcdef六個(gè)節(jié)點(diǎn)簡化的小網(wǎng)絡(luò)圖為例,來分析計(jì)算待預(yù)測連邊(a,b)對應(yīng)的每個(gè)模體特征如圖2。首先尋找與a相連接不與b連接,或與b相連接不與a連接的點(diǎn),這樣就找出了2個(gè)三節(jié)點(diǎn)模體M1。模體結(jié)構(gòu) M2的計(jì)算方法為尋找節(jié)點(diǎn)(a,b)的共同鄰居數(shù)。M6的計(jì)算方法為尋找節(jié)點(diǎn)ab除去共同鄰居外的其他各自鄰居節(jié)點(diǎn),然后這些鄰居節(jié)點(diǎn)間存在幾對連接,即等于(a,b)對應(yīng)的模體特征M6數(shù)量。以此類推,計(jì)算得出小網(wǎng)絡(luò)圖中待預(yù)測連邊(a,b)對應(yīng)模體特征的數(shù)量。
圖1 十二種模體結(jié)構(gòu)
圖2 模體計(jì)算過程
隨機(jī)森林[12]或隨機(jī)決策森林是一種用于分類和回歸任務(wù)的集成學(xué)習(xí)方法,它在訓(xùn)練時(shí)會構(gòu)造大量相互沒有關(guān)聯(lián)的決策樹,根據(jù)Bagging[13]思想,每棵決策樹都是一個(gè)分類器,對于一個(gè)輸入樣本,N棵樹會有N個(gè)分類結(jié)果,隨機(jī)森林集成了所有的分類結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出。對于分類任務(wù),隨機(jī)森林的輸出是大多數(shù)決策樹選擇的類。對于回歸任務(wù),返回單個(gè)樹的平均值[14]。集成學(xué)習(xí)通過建立幾個(gè)模型組合的來解決單一預(yù)測問題優(yōu)于任何一個(gè)單分類的做出預(yù)測,因此具有極好的準(zhǔn)確率。此外隨機(jī)森林還具有能夠有效地運(yùn)行規(guī)模較大的數(shù)據(jù)集,自動評估各個(gè)特征在分類問題上的重要性,和高效處理高維特征的輸入樣本等優(yōu)點(diǎn)。所以在實(shí)驗(yàn)的預(yù)測部分選用隨機(jī)森林分類器進(jìn)行虛假鏈路的識別,此外在實(shí)驗(yàn)結(jié)果分析環(huán)節(jié)部分模體結(jié)構(gòu)組合時(shí)也運(yùn)用了隨機(jī)森林的評估特征重要性方法。
本文在虛假鏈路識別實(shí)驗(yàn)種使用了6個(gè)真實(shí)網(wǎng)絡(luò)數(shù)據(jù),包括科學(xué)家合作網(wǎng)絡(luò),蛋白質(zhì)相互作用網(wǎng)絡(luò)和社交網(wǎng)絡(luò)三種類型的網(wǎng)絡(luò),其中Ca-Erdos992、CA-GrQc[15]為科學(xué)家合作網(wǎng)絡(luò)數(shù)據(jù),bio-SC-LC[16]、bio-HS-HT[16]為蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù),lastfm_asia[17]數(shù)據(jù)和musae_twitch[18]數(shù)據(jù)為社交網(wǎng)絡(luò)數(shù)據(jù)。
(1)Ca-Erdos數(shù)據(jù)。鄂爾多斯協(xié)作網(wǎng),利用保羅·鄂爾多斯與他的合著者們的合作數(shù)據(jù)構(gòu)建一個(gè)名為鄂爾多斯協(xié)作網(wǎng)的網(wǎng)絡(luò)。包含5 094個(gè)節(jié)點(diǎn)與7515條連邊。
(2)CA-GrQc數(shù)據(jù)。Arxiv廣義相對論范疇的科學(xué)家協(xié)作網(wǎng)絡(luò)。包含5 242個(gè)節(jié)點(diǎn)與14 496條連邊。
(3)bio-SC-LC數(shù)據(jù)。中小型蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò),節(jié)點(diǎn)代表蛋白質(zhì)分子,連邊表示是否存在相互作用。包含2 004個(gè)節(jié)點(diǎn)與20 452條連邊。
(4)bio-HS-HT數(shù)據(jù)。高通量蛋白質(zhì)相互作用網(wǎng)絡(luò)。包含2570個(gè)節(jié)點(diǎn)與13691條連邊。
(5)lastfm_asia數(shù)據(jù)。LastFM用戶的社交網(wǎng)絡(luò),于2020年3月從公共API收集。節(jié)點(diǎn)是來自亞洲國家的LastFM用戶,邊是它們之間的相互跟隨關(guān)系。包含7 624個(gè)節(jié)點(diǎn)與27 806條連邊。
(6)musae_twitch社交網(wǎng)絡(luò)數(shù)據(jù)。以某種語言進(jìn)行流式處理的英文區(qū)游戲玩家的Twitch用戶網(wǎng)絡(luò)。此社交網(wǎng)絡(luò)收集于2018年5月,節(jié)點(diǎn)是用戶本身,鏈接是用戶之間的友誼。包含7 126個(gè)節(jié)點(diǎn)與35 324條連邊。
本小節(jié)將12個(gè)模體作為特征在科學(xué)家合作網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)和社交網(wǎng)絡(luò)上實(shí)現(xiàn)基于單模體特征得虛假鏈路預(yù)測,觀察分析不同模體在不同類型網(wǎng)絡(luò)上的預(yù)測結(jié)果?;趩文sw的虛假鏈路預(yù)測實(shí)驗(yàn)結(jié)果見表1。
表1 基于單模體的虛假鏈路預(yù)測實(shí)驗(yàn)結(jié)果
從上述基于單模體的虛假鏈路預(yù)測實(shí)驗(yàn)結(jié)果可以看出,在三種不同類型網(wǎng)絡(luò)中預(yù)測效果最好的單模體結(jié)構(gòu)都是模體M2。在科學(xué)家合作網(wǎng)絡(luò)中大多數(shù)科學(xué)家的合作形式都是模體M2,即具有共同合作者的兩個(gè)科學(xué)家以后產(chǎn)生合作的可能性會很大;在社交網(wǎng)絡(luò)中,表示具有共同網(wǎng)絡(luò)社交好友的兩個(gè)用戶成為社交好友的概率會更高。
從橫向上來看,對比6個(gè)網(wǎng)絡(luò)中預(yù)測效果最好的單模體M2的AUC值,可發(fā)現(xiàn)預(yù)測準(zhǔn)確度最高的為CA-GrQc網(wǎng)絡(luò),AUC值高達(dá)0.916,計(jì)算分析網(wǎng)絡(luò)的基本拓?fù)鋵傩裕珻A-GrQc網(wǎng)絡(luò)的匹配系數(shù)和平均聚類系數(shù)在6個(gè)網(wǎng)絡(luò)中均是最高。側(cè)面的反應(yīng)了在匹配系數(shù)和平均聚類系數(shù)較高的網(wǎng)絡(luò)中基于單模體特征的虛假鏈路預(yù)測效果更好。再次觀察發(fā)現(xiàn)ca-Erdos網(wǎng)絡(luò)在6個(gè)網(wǎng)絡(luò)中基于單模體M2預(yù)測的AUC值最低,且網(wǎng)絡(luò)的匹配系數(shù)和平均聚類系數(shù)在6個(gè)網(wǎng)絡(luò)中也均是最低的,再一次證實(shí)了上述的觀點(diǎn)。
結(jié)合上述對實(shí)驗(yàn)結(jié)果的觀察與分析,可發(fā)現(xiàn)基于單模體的虛假鏈路預(yù)測方法具有一定的通用性??裳由斓狡渌茖W(xué)家合作網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)和社交網(wǎng)絡(luò),甚至這三種類型之外的其他網(wǎng)絡(luò),在以后進(jìn)行基于單模體特征的虛假鏈路預(yù)測時(shí),為了更快取得較好的預(yù)測效果,可優(yōu)先選擇M2模體特征在網(wǎng)絡(luò)的匹配系數(shù)和平均聚類系數(shù)高的網(wǎng)絡(luò)上進(jìn)行預(yù)測,從而節(jié)省特征提取過程的時(shí)間,降低復(fù)雜度。
傳統(tǒng)的基于網(wǎng)絡(luò)結(jié)構(gòu)相似性的方法中大多只關(guān)注其中的一種網(wǎng)絡(luò)結(jié)構(gòu),即其中的一種三節(jié)點(diǎn)的模體結(jié)構(gòu),而忽略了節(jié)點(diǎn)之間存在的其他作用模式及多種模式的組合。本小節(jié)應(yīng)用隨機(jī)森林集成學(xué)習(xí)模型融合12種模體特征進(jìn)行虛假鏈路預(yù)測,并將預(yù)測結(jié)果與上一節(jié)中預(yù)測效果最好的單模體和3種基于共同鄰居的相似性指標(biāo)的預(yù)測結(jié)果進(jìn)行比較。對比實(shí)驗(yàn)的結(jié)果見表2。
表2 三種預(yù)測方法的實(shí)驗(yàn)結(jié)果
從上述三種方法的虛假鏈路預(yù)測實(shí)驗(yàn)結(jié)果可以看出,綜合多種模體特征進(jìn)行預(yù)測的實(shí)驗(yàn)結(jié)果比基于任意單模體結(jié)構(gòu)和共同鄰居相似性的預(yù)測性能都要好。在科學(xué)家合作網(wǎng)絡(luò)中多模體的預(yù)測準(zhǔn)確率比M2提高了44.3%和7.5%,比共同鄰居相似性指標(biāo)最高提高了44.13%和7.3%。在蛋白質(zhì)相互作用網(wǎng)絡(luò)中多模體的預(yù)測準(zhǔn)確率比M2提高14.06%和18.21%,比共同鄰居相似性指標(biāo)最高提高13.28%和17.36%。在社交網(wǎng)絡(luò)中多模體的預(yù)測準(zhǔn)確率比M2提高了14.04%和13.73%,比共同鄰居相似性指標(biāo)最高提高13.68%和12.82%。
分析傳統(tǒng)鏈路預(yù)測方法 CN、AA、RA 方法的拓?fù)浣Y(jié)構(gòu)可以發(fā)現(xiàn),這三個(gè)指標(biāo)在拓?fù)浣Y(jié)構(gòu)上與模體結(jié)構(gòu) M2一樣,預(yù)測結(jié)果也顯示預(yù)測指標(biāo)AUC的值相差不大,說明上述方法僅僅代表一種模體結(jié)構(gòu),沒有考慮到其它模體結(jié)構(gòu)。綜合以上的分析,可以得出綜合多模體結(jié)構(gòu)的預(yù)測方法進(jìn)行虛假鏈路預(yù)測能夠有效提高預(yù)測的準(zhǔn)確率。
使用Pearson相關(guān)性分析方法來衡量在虛假鏈路識別中使用的12個(gè)模體結(jié)構(gòu)之間的相關(guān)性。從三種不同類型網(wǎng)絡(luò)中各選取一個(gè)進(jìn)行分析,相關(guān)性分析熱力圖如圖3。
a)熱力圖1 b)熱力圖2 c)熱力圖3圖3 相關(guān)性分熱力圖
科學(xué)家合作網(wǎng)絡(luò)以CA-GrQc網(wǎng)絡(luò)為例,社交網(wǎng)絡(luò)以lastfm_asia網(wǎng)絡(luò)為例進(jìn)行分析如圖3a、3c。12個(gè)模體結(jié)構(gòu)被分為兩個(gè)不同的集合,第一個(gè)集合包括模體 M1、M3、M9、M5和M4,它們之間有較強(qiáng)的相關(guān)性,觀察這5個(gè)模體的結(jié)構(gòu)可以發(fā)現(xiàn),這5個(gè)模體結(jié)構(gòu)中待預(yù)測連邊的兩個(gè)節(jié)點(diǎn)沒有共同鄰居,它們關(guān)注的是除共同鄰居外與各自鄰居節(jié)點(diǎn)之間的結(jié)構(gòu)。第二個(gè)集合包括模體 M7、M2、M8、M12、M6、M10和M11,這7個(gè)模體結(jié)構(gòu)中有6個(gè)模體結(jié)構(gòu)的待預(yù)測連邊節(jié)點(diǎn)存在共同鄰居,剩下1個(gè)模體是待預(yù)測連邊節(jié)點(diǎn)各自的鄰居相互連系,即這7個(gè)模體僅關(guān)注待預(yù)測連邊中節(jié)點(diǎn)的共同鄰居之間的關(guān)系或節(jié)點(diǎn)的鄰居節(jié)點(diǎn)之間的關(guān)系。
蛋白質(zhì)相互作用網(wǎng)絡(luò)以bio-HS-HT網(wǎng)絡(luò)為例進(jìn)行分析如圖3b。特征被大體分為三個(gè)不同的集合,第一個(gè)集合包括特征M1、M3、M9、M5和M4,與如圖3a、3c類似。第二個(gè)集合包括特征 M7、M2、M8、M12、M10和M11,這6個(gè)模體結(jié)構(gòu)中,大多數(shù)模體關(guān)注待預(yù)測連邊中節(jié)點(diǎn)的共同鄰居之間的關(guān)系或共同鄰居與單個(gè)節(jié)點(diǎn)的鄰居之間的關(guān)系,第三個(gè)集合只有剩下的M6模體,它與前兩個(gè)集合關(guān)注點(diǎn)都不一樣,它關(guān)注的是預(yù)測連邊節(jié)點(diǎn)各自的鄰居相互聯(lián)系。
結(jié)合以上三種不同類型網(wǎng)絡(luò)數(shù)據(jù)的相關(guān)性分析結(jié)果發(fā)現(xiàn),在兩組數(shù)據(jù)中,模體結(jié)構(gòu)M1、 M3、M9、M5和M4 總被劃分為同組,模體結(jié)構(gòu)M7、M2、M8和M12 總被劃分為一組,且模體M6和其他模體的相關(guān)系都較弱。可以進(jìn)一步說明,模體之間的存在相關(guān)性與模體結(jié)構(gòu)相似有關(guān),相關(guān)性強(qiáng)的模體結(jié)構(gòu)在拓?fù)浣Y(jié)構(gòu)上比較相似。
為比較部分模體結(jié)構(gòu)組合后的預(yù)測效果是否優(yōu)于多模體的預(yù)測效果,根據(jù)相關(guān)性分析與特征重要性排序進(jìn)行特征選擇,在三個(gè)網(wǎng)絡(luò)分別選出5個(gè)模體進(jìn)行組合后進(jìn)行預(yù)測,并將預(yù)測結(jié)果與三種經(jīng)典的特征選擇方法、基于多模體預(yù)測方法在不同的數(shù)據(jù)劃分比例下進(jìn)行對比,結(jié)果如圖4。
a)分析圖1 b)分析圖2 c)分析圖3圖4 虛假鏈路預(yù)測特征選擇結(jié)果對比
上圖中正方形表示多模體預(yù)測結(jié)果,菱形、三角形和圓形連線分別表示包裹式、過濾式和嵌入式特征選擇方法的預(yù)測結(jié)果,六邊形表示根據(jù)相關(guān)性分析與特征重要性排序進(jìn)行特征選擇后的組合模體預(yù)測結(jié)果。分析上圖特征選擇預(yù)測結(jié)果對比,可以發(fā)現(xiàn)在三種不同的網(wǎng)絡(luò)數(shù)據(jù)中數(shù)據(jù)劃分的多個(gè)情況下,多模體的預(yù)測效果依然是最好的,并且不同的特征選擇方法的預(yù)測效果隨訓(xùn)練集比例的上升,變化的趨勢也有差別,說明預(yù)測的效果于訓(xùn)練集樣本比例也有密切的關(guān)系。
與三種經(jīng)典的特征選擇方法和多模體的預(yù)測方法的預(yù)測結(jié)果在不同的數(shù)據(jù)劃分比例下進(jìn)行對比,發(fā)現(xiàn)多模體的預(yù)測效果依然優(yōu)于其他組合方法,并且隨訓(xùn)練集比例的上升,預(yù)測準(zhǔn)確度也呈現(xiàn)上升趨勢。綜上基于多模體的虛假鏈路預(yù)測方法大大提升了虛假鏈路預(yù)測的準(zhǔn)確度。在后續(xù)的研究中,將在有向網(wǎng)絡(luò)或時(shí)序網(wǎng)絡(luò)上繼續(xù)探究基于模體的虛假鏈路預(yù)測方法,擴(kuò)大虛假鏈路預(yù)測應(yīng)用范圍。