蔣宗禮,陳浩強,張津麗
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,現(xiàn)實生活中出現(xiàn)了大量的信息網(wǎng)絡(luò),如社交網(wǎng)絡(luò)、論文引用網(wǎng)絡(luò)、電商信息網(wǎng)絡(luò).信息網(wǎng)絡(luò)中包含豐富的數(shù)據(jù)信息,對這些數(shù)據(jù)進行多角度、多層次的分析具有重要意義.例如,分析電商信息網(wǎng)絡(luò)中用戶購物數(shù)據(jù)可獲知用戶的喜好信息,進而可優(yōu)化電商系統(tǒng)中的商品推薦系統(tǒng).但是,信息網(wǎng)絡(luò)中一般包含數(shù)百萬個數(shù)據(jù)節(jié)點和節(jié)點之間的連接(稱為“邊”),因此在原始信息網(wǎng)絡(luò)中執(zhí)行復(fù)雜的推理、操作將消耗大量計算資源.目前,一種行之有效的解決方法是對信息網(wǎng)絡(luò)進行網(wǎng)絡(luò)表征學(xué)習(xí)以降低信息網(wǎng)絡(luò)中數(shù)據(jù)的表示維度.網(wǎng)絡(luò)表征學(xué)習(xí)可將信息網(wǎng)絡(luò)中節(jié)點或者邊映射到低維向量空間,即通過降維處理,得到節(jié)點或者邊的低維、實值、稠密的向量形式,并且在低維空間中具有表示以及推理能力[1].
目前,信息網(wǎng)絡(luò)表征學(xué)習(xí)研究中大部分工作聚焦于同質(zhì)信息網(wǎng)絡(luò)(信息網(wǎng)絡(luò)中包含單一類型的節(jié)點及單一類型的邊)[2].比如,Perozzi B等[3]首次提出以隨機游走為基礎(chǔ)的網(wǎng)絡(luò)表征學(xué)習(xí)模型DeepWalk.該模型將信息網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點視為單詞,節(jié)點序列視為句子,然后通過隨機游走構(gòu)建由節(jié)點序列組成的語料庫,進而結(jié)合自然語言處理領(lǐng)域中Skip-gram[4]模型學(xué)習(xí)信息網(wǎng)絡(luò)中節(jié)點的低維表征.其實驗結(jié)果表明隨機游走技術(shù)可有效提取信息網(wǎng)絡(luò)中結(jié)構(gòu)信息并應(yīng)用于節(jié)點的表征學(xué)習(xí).在DeepWalk的基礎(chǔ)上Grover A等[5]提出了應(yīng)用深度優(yōu)先隨機游走和廣度優(yōu)先隨機游走提取信息網(wǎng)絡(luò)中結(jié)構(gòu)信息并結(jié)合Skip-gram模型的Node2Vec網(wǎng)絡(luò)表征學(xué)習(xí)模型.相比于DeepWalk模型Node2Vec模型在信息網(wǎng)絡(luò)的低維表征中保留了更多的結(jié)構(gòu)信息,其在分類實驗中的準(zhǔn)確率同樣優(yōu)于DeepWalk模型.除應(yīng)用隨機游走技術(shù)獲取信息網(wǎng)絡(luò)中結(jié)構(gòu)信息進行表征學(xué)習(xí)外,Tang J[6]提出了應(yīng)用節(jié)點間一介相似性和節(jié)點間二階相似性提取網(wǎng)絡(luò)結(jié)構(gòu)信息進行表征學(xué)習(xí)的LINE 模型.此外,Yang C[7]、Cao SS[8]、Tu CC[9]等還提出了基于矩陣分解的網(wǎng)絡(luò)表征學(xué)習(xí)方法.
相比于同質(zhì)信息網(wǎng)絡(luò),異質(zhì)信息網(wǎng)絡(luò)中包含多種類型的數(shù)據(jù)節(jié)點或者邊[10],導(dǎo)致同質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)方法不適用于異質(zhì)網(wǎng)絡(luò).異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)中元路徑是一個極其重要的概念,Shi C等[11-13]對此進行了整理、研究.這些研究發(fā)現(xiàn)元路徑可表示節(jié)點類型間的復(fù)合關(guān)系,不同元路徑表示不同的語義信息,基于不同元路徑的表征學(xué)習(xí)方法可造成不同的分析結(jié)果和特征表示.此外,Zhang JL等[14]利用不同元路徑表示的語義信息對異質(zhì)信息網(wǎng)絡(luò)進行表征學(xué)習(xí).在元路徑的基礎(chǔ)上Dong YX等[15]提出了Metapath2Vec異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)模型.該模型首次應(yīng)用基于元路徑的隨機游走獲取異質(zhì)網(wǎng)絡(luò)中的結(jié)構(gòu)信息并結(jié)合Skip-gram模型學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)中節(jié)點的低維表征,從而在低維表征中融入元路徑所表示的語義信息.但是,該模型僅基于單條元路徑對異質(zhì)網(wǎng)絡(luò)進行隨機游走以獲取異質(zhì)信息網(wǎng)絡(luò)的結(jié)構(gòu)信息.然而異質(zhì)信息網(wǎng)絡(luò)中存在多條元路徑,導(dǎo)致Metapath2Vec模型學(xué)習(xí)的低維表征中缺失原始網(wǎng)絡(luò)中部分結(jié)構(gòu)信息和其它元路徑表示的語義信息.
針對上述問題,本文提出了基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征.該表征學(xué)習(xí)方法首先針對異質(zhì)網(wǎng)絡(luò)提取元路徑集合,然后學(xué)習(xí)元路徑權(quán)重并以此為基礎(chǔ)對基于不同元路徑的低維表征進行加權(quán)融合,得到一個低維、實值、稠密且融合不同元路徑語義信息的異質(zhì)網(wǎng)絡(luò)表征.該低維表征中包含豐富的結(jié)構(gòu)信息以及不同元路徑表示的語義信息.本文的主要貢獻可概括為以下3點:
(1)在異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)中引入元路徑權(quán)重,通過對基于不同元路徑的低維表征進行加權(quán)融合,解決了低維表征中缺失原始網(wǎng)絡(luò)中結(jié)構(gòu)信息以及缺失其它元路徑表示的語義信息問題.
(2)基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)在不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)中具有良好的表征學(xué)習(xí)能力,并可有效應(yīng)用于數(shù)據(jù)挖掘.
(3)在實際數(shù)據(jù)集上進行的對比試驗驗證了基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法的正確性、有效性.
信息網(wǎng)絡(luò)[12]用于表示由數(shù)據(jù)節(jié)點以及節(jié)點之間聯(lián)系組成的數(shù)據(jù)網(wǎng)絡(luò),可定義為有向圖.
定義1.信息網(wǎng)絡(luò)G=(V,E),其中V表示信息網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點的集合,E表示節(jié)點之間邊的集合.定義映射函數(shù) Φ :V→A表示節(jié)點與節(jié)點類型之間的映射關(guān)系,即對任意節(jié)點v∈V都有唯一的節(jié)點類型 Φ(v)∈A與之對應(yīng).定義映射函數(shù) Ψ :E→R表示邊與邊類型之間的映射關(guān)系,即對任意一條邊e∈E都有唯一的邊類型Ψ(e)∈R與之對應(yīng).當(dāng)節(jié)點類型數(shù)|A|>1或者邊類型數(shù)|R|>1時,該信息網(wǎng)絡(luò)為異質(zhì)信息網(wǎng)絡(luò).
如圖1(a)所示,作者合著網(wǎng)絡(luò)為同質(zhì)信息網(wǎng)絡(luò),其中只包含作者類型的數(shù)據(jù)節(jié)點以及表示節(jié)點之間合著關(guān)系的邊.圖1(b)所示的學(xué)術(shù)文獻網(wǎng)絡(luò)為異質(zhì)信息網(wǎng)絡(luò),其中包含3種節(jié)點類型,分別為作者、文章、會議.同時,包含兩種邊類型,分別用于表示作者與文章之間的撰寫與被撰寫關(guān)系以及文章與會議之間的發(fā)表與被發(fā)表關(guān)系.
網(wǎng)絡(luò)模式[10]是信息網(wǎng)絡(luò)G=(V,E)的元級描述.
定義2.網(wǎng)絡(luò)模式TG=(A,R).其中A為信息網(wǎng)絡(luò)G中節(jié)點類型集合,R為信息網(wǎng)絡(luò)G中邊類型集合.
例如,在圖1(b)的基礎(chǔ)上可定義學(xué)術(shù)文獻網(wǎng)絡(luò)的網(wǎng)絡(luò)模式.如圖1(c)所示,該網(wǎng)絡(luò)模式為由3種節(jié)點類型和兩種邊類型構(gòu)成的有向圖.
在網(wǎng)絡(luò)模式的基礎(chǔ)上可定義元路徑[16],用于表示節(jié)點類型間的復(fù)合關(guān)系.
定義3.給定異質(zhì)信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式TG=(A,R),其元路徑定義為即在節(jié)點類型A1與Al+1之間定義長度為l的復(fù)合關(guān)系Rc=R1°R2°···°Rl,其中 ° 表示關(guān)系間的復(fù)合算子.
元路徑不僅刻畫了對象之間的語義關(guān)系,而且能夠提取對象之間的特征信息[16].例如,根據(jù)定義,可基于圖1(c)中的網(wǎng)絡(luò)模式定義學(xué)術(shù)文獻網(wǎng)絡(luò)的元路徑,如APA、APCPA、APAPA等.不同元路徑表示不同的語義信息,比如,APA表示兩個作者合著完成了一篇文章,而APCPA則表示兩個作者在同一個會議中發(fā)表了文章,前者語義中側(cè)重于文章,后者則側(cè)重于會議.
異質(zhì)信息網(wǎng)絡(luò)中存在多條元路徑,基于不同元路徑的表征學(xué)習(xí)方法可造成不同的分析結(jié)果和特征表示.為表示不同元路徑對異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)的重要程度,本文對元路徑賦予相應(yīng)的權(quán)重值.
定義4.元路徑集合P={p1,p2,···,pn},對于任意一條元路徑pi∈P都有權(quán)重wpi與之對{應(yīng),各條元路徑的權(quán)重值構(gòu)成元路徑的權(quán)重集合其中wp1+wp1+···+wpn=1.
網(wǎng)絡(luò)表征學(xué)習(xí)[17]用于降低信息網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點的表示維度.
定義5.對于給定的信息網(wǎng)絡(luò)G=(V,E),網(wǎng)絡(luò)表征學(xué)習(xí)的目標(biāo)是通過對目標(biāo)函數(shù)fG=V→Ld的學(xué)習(xí)將信息網(wǎng)絡(luò)中的節(jié)點在低維空間Ld中進行向量表示,從而得到信息網(wǎng)絡(luò)的低維表征M∈ R|V|×d,其中d?|V|.低維空間Ld中的低維表征需盡可能保留原始信息網(wǎng)絡(luò)中的結(jié)構(gòu)信息,以便低維表征在低維空間中具有良好的表示、推理能力.
圖1 信息網(wǎng)絡(luò)及網(wǎng)絡(luò)模式
異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)中元路徑具有刻畫對象之間語義關(guān)系以及能夠抽取對象之間特征信息的特點,經(jīng)常用于指導(dǎo)獲取異質(zhì)信息網(wǎng)絡(luò)的結(jié)構(gòu)信息.異質(zhì)信息網(wǎng)絡(luò)中不同元路徑表示不同的語義信息,因此基于不同元路徑的表征學(xué)習(xí)方法可造成不同的分析結(jié)果和特征表示.但是,現(xiàn)有的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法往往采用單條元路徑提取節(jié)點間結(jié)構(gòu)信息,進而學(xué)習(xí)節(jié)點的低維表征.導(dǎo)致學(xué)習(xí)到的低維表征中缺失原始信息網(wǎng)絡(luò)中部分結(jié)構(gòu)信息及其它元路徑表示的語義信息,影響低維表征在低維空間中的表示、推理能力,進而影響其在數(shù)據(jù)挖掘任務(wù)中的有效性.基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法學(xué)習(xí)到的低維表征融合了不同元路徑表示的語義信息,在低維空間中具有良好的表示、推理能力,提高了低維表征在數(shù)據(jù)挖掘任務(wù)中的有效性.如圖2所示,基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法包含4個處理階段:階段1用于構(gòu)建元路徑集合.階段2對元路徑集合進行權(quán)重學(xué)習(xí).階段3根據(jù)元路徑集合學(xué)習(xí)各個元路徑所對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)的低維表征.階段4將基于元路徑權(quán)重對各個低維表征進行融合.
此階段首先根據(jù)實際生活中的異質(zhì)信息網(wǎng)絡(luò)定義其網(wǎng)絡(luò)模式.對異質(zhì)信息網(wǎng)絡(luò)G=(V,E),其節(jié)點類型數(shù)|A|>1或者邊類型數(shù)|R|>1,定義其網(wǎng)絡(luò)模式為TG=(A,R).然后,基于網(wǎng)絡(luò)模式定義不同的元路徑pi,從而構(gòu)建異質(zhì)信息網(wǎng)絡(luò)的元路徑集合P={p1,p2,···,pn}.
目前,多個研究發(fā)現(xiàn)不同元路徑對異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)的重要程度不同[14,16,18].因此,階段2中應(yīng)用HeteClass[18]框架中的元路徑權(quán)重學(xué)習(xí)思想對階段1中
應(yīng)用上述元路徑權(quán)重學(xué)習(xí)思想實現(xiàn)了元路徑權(quán)重學(xué)習(xí)程序并對元路徑集合P={p1,p2,···,pn}進行權(quán)重學(xué)習(xí),以此計算元路徑的權(quán)重并構(gòu)建元路徑的權(quán)重集合
圖2 基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)
階段3將根據(jù)元路徑集合對異質(zhì)信息網(wǎng)絡(luò)進行表征學(xué)習(xí).本文采用基于元路徑的隨機游走技術(shù)[15]獲取異質(zhì)信息網(wǎng)絡(luò)中節(jié)點序列集,結(jié)合Skip-gram[4]模型學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)的低維表征.
基于元路徑的隨機游走技術(shù)是Dong YX[15]等人提構(gòu)建的元路徑集合進行權(quán)重學(xué)習(xí),為元路徑賦予權(quán)重值,以此表明不同元路徑對異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)的重要程度.
HeteClass框架是Gupta M等[18]提出的一種基于元路徑的直推式分類框架.該框架提出了一種基于目標(biāo)類型對象之間關(guān)聯(lián)程度的元路徑權(quán)重學(xué)習(xí)方法.該方法以最大化相同標(biāo)簽對象之間的相關(guān)性,同時最小化不同標(biāo)簽對象之間的相關(guān)性為思想提出了式(1)所示的損失函數(shù).其中 θk表示第k個元路徑的重要程度,vi,vj表示帶標(biāo)簽的目標(biāo)類型對象.Sign為符號函數(shù),用于表示目標(biāo)類型對象是否具有相同標(biāo)簽信息,若相同值為1,否則值為-1.Simpk為目標(biāo)對象的相關(guān)性矩陣[19].λ為正則化系數(shù),‖·‖為 ?2范數(shù).該學(xué)習(xí)方法通過最小化目標(biāo)函數(shù)計算元路徑權(quán)重.出的一種基于元路徑的圖隨機遍歷技術(shù).對于給定的異質(zhì)信息網(wǎng)絡(luò)G=(V,E)和元路徑隨機游走的起始節(jié)點為A1類型節(jié)點,第i+ 1個游走節(jié)點的選擇概率如式(2)所示.其中表示At類型的節(jié)點,表示節(jié)點的鄰域中At+1類型的節(jié)點數(shù)量.第i+ 1個游走節(jié)點應(yīng)從節(jié)點的所有At+1類型的鄰居節(jié)點中隨機選擇.基于節(jié)點選擇概率,隨機游走將在元路徑的指導(dǎo)下游走出包含元路徑語義信息以及異質(zhì)信息網(wǎng)絡(luò)中結(jié)構(gòu)信息的節(jié)點序列.
Skip-gram模型是Mikolov T等[4]提出的用于自然語言處理中學(xué)習(xí)大型數(shù)據(jù)集中單詞的連續(xù)向量表征的神經(jīng)網(wǎng)絡(luò)模型.Skip-gram模型具有三層網(wǎng)絡(luò)結(jié)構(gòu),分別為輸入層、隱藏層和輸出層,并提出了式(3)所示的損失函數(shù)[20].其中,C為上下文中單詞數(shù)量,V為語料庫中單詞數(shù)量,wI表示輸入的單詞,wO,i表示第i個輸出的上下文單詞,j*c為輸出層輸出的第c個上下文單詞在語料庫中的真實索引,u表示單詞從隱藏層到輸出層過程中的計算分?jǐn)?shù).該模型輸入為由文本中句子構(gòu)成的語料庫,通過最小化損失函數(shù),學(xué)習(xí)語料庫中單詞的低維表征.
目前,DeepWalk[3]、Node2Vec[5]、Metapath2Vec[15]等研究發(fā)現(xiàn)將信息網(wǎng)絡(luò)中節(jié)點信息映射為自然語言可應(yīng)用Skip-gram模型學(xué)習(xí)信息網(wǎng)絡(luò)中節(jié)點的低維表征.基于元路徑的隨機游走技術(shù)可提取包含元路徑語義信息、網(wǎng)絡(luò)結(jié)構(gòu)信息的節(jié)點序列,從而將異質(zhì)信息網(wǎng)絡(luò)中的節(jié)點信息映射為自然語言,進而可結(jié)合Skip-gram模型學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)中節(jié)點的低維表征.
如圖2中階段3所示,首先應(yīng)用基于元路徑的隨機游走技術(shù)獲取異質(zhì)信息網(wǎng)絡(luò)中的節(jié)點序列.對任意元路徑pi∈P獲取其相應(yīng)的節(jié)點序列集cpi并構(gòu)建語料庫集合C={cp1,cp2,···,cpn}.
對語料庫集合中任意一個節(jié)點序列集cpi應(yīng)用Skip-gram模型學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)的低維表征Mpi.此時,任意元路徑pi都有唯一的低維表征Mpi與之對應(yīng).各個低維表征構(gòu)成了基于不同元路徑的低維表征集合M={Mp1,Mp2,···,Mpn}.
此階段基于元路徑權(quán)重集合W={wp1,wp2,···,wpn}對低維表征集合M={Mp1,Mp2,···,Mpn}進行加權(quán)融合.對于任意的低維表征Mpi均基于相應(yīng)的元路徑pi,所以低維表征Mpi中僅包含元路徑pi所表示的語義信息,導(dǎo)致基于單一元路徑的低維表征中缺失其它元路徑表示的語義信息.而元路徑因語義信息的不同對表征學(xué)習(xí)的重要程度不同,從而具有不同的權(quán)重.所以對基于不同元路徑的低維表征進行加權(quán)融合可得到融合不同元路徑語義信息的低維表征,從而提高低維表征質(zhì)量.因此,本文提出了式(4)所示的低維表征融合公式,并基于該公式實現(xiàn)了基于元路徑權(quán)重的低維表征融合算法.
如算法1所示,該算法的輸入為元路徑權(quán)重集合、低維表征集合以及低維表征維度,然后依次對低維表征中d個特征分量進行加權(quán)融合,得到融合不同元路徑語義信息的低維表征MW.低維表征MW不僅包含不同元路徑的語義信息,而且還包含豐富的網(wǎng)絡(luò)結(jié)構(gòu)信息.以上特點使得基于融合元路徑權(quán)重的低維表征在低維空間中具有良好的表示、推理能力,并且可有效應(yīng)用于數(shù)據(jù)挖掘任務(wù).
算法1.基于元路徑權(quán)重的低維表征融合算法images/BZ_36_1632_2616_1903_2653.pngimages/BZ_36_2137_2616_2262_2653.pngimages/BZ_36_1290_2667_1457_2705.png輸入:元路徑權(quán)重集合,低維表征集合,維度d images/BZ_36_1775_2723_1825_2752.png輸出:融合元路徑權(quán)重的低維表征images/BZ_36_1375_2769_1554_2798.png1.for doimages/BZ_36_1324_2824_1953_2857.png2.3.end for
為證明本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法的正確性以及在數(shù)據(jù)挖掘任務(wù)中的有效性,本文對實際數(shù)據(jù)集進行了節(jié)點分類對比試驗.
實驗所用數(shù)據(jù)集為AMIner[15,21]數(shù)據(jù)集,該數(shù)據(jù)集為典型的異質(zhì)學(xué)術(shù)文獻信息網(wǎng)絡(luò).如表1所示,該數(shù)據(jù)集中包含作者、文章、會議3種節(jié)點類型,共計4891 819個數(shù)據(jù)節(jié)點,其中246 678個帶標(biāo)簽的作者節(jié)點被分為8個類別,分別為Computing Systems,Theoretical Computer Science,Computer Networks & Wireless Communication,Computer Graphics,Human Computer Interaction,Computational Linguistics,Computer Vision &Pattern Recognition,Databases & Information Systems.
表1 AMIner數(shù)據(jù)集中的節(jié)點
如表2所示,AMiner數(shù)據(jù)集中共包含12 518 144個邊,其中表示文章與作者之間撰寫與被撰寫關(guān)系的邊共9323 739個,表示文章與會議之間發(fā)表與被發(fā)表關(guān)系的邊共3194 405個.
表2 AMIner數(shù)據(jù)集中的邊
此外,本文在AMIner數(shù)據(jù)集的基礎(chǔ)上構(gòu)建數(shù)據(jù)規(guī)模較小的子數(shù)據(jù)集AMIner-Small,用于驗證本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法對不同數(shù)據(jù)規(guī)模的異質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)能力.如表3所示,AMIner-Small數(shù)據(jù)集中數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)小于AMiner數(shù)據(jù)集.
表3 AMIner-Small數(shù)據(jù)集中的節(jié)點
在分類實驗中,數(shù)據(jù)的低維表征質(zhì)量對實驗結(jié)果具有重要影響,因此本文通過實驗結(jié)果評價低維表征質(zhì)量,進而分析異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法的正確性、有效性.
本文采用分類精確率(Precision)、召回率(Recall)、Micro-F1分?jǐn)?shù)、Macro-F1分?jǐn)?shù)評價分類實驗結(jié)果,從而評價不同異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法的正確性、在數(shù)據(jù)挖掘任務(wù)中的有效性.
分類精確率為預(yù)測為正類的樣本中實際為正類的樣本比例.召回率表示預(yù)測為正類的樣本數(shù)占全部正類樣本數(shù)的比例.F1分?jǐn)?shù)(Micro-F1分?jǐn)?shù)、Macro-F1分?jǐn)?shù))表示精確度和召回率的加權(quán)平均值.以上4個評價指標(biāo)值越高表示分類實驗越精確,相應(yīng)的低維表征質(zhì)量越高、異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法越正確、有效.
3.3.1 AMIner-Small數(shù)據(jù)集的節(jié)點分類實驗
采用HIN2Vec[17]異質(zhì)網(wǎng)絡(luò)表征框架作為對比實驗方法.不同于之前基于Skip-gram模型的表征方法,HIN2Vec核心是一個神經(jīng)網(wǎng)路模型,并且將元路徑視為節(jié)點間的不同類型關(guān)系,然后通過捕獲節(jié)點間不同類型關(guān)系學(xué)習(xí)節(jié)點的低維表征.
首先在AMIner-Small數(shù)據(jù)集的基礎(chǔ)上構(gòu)建元路徑集合并學(xué)習(xí)各個元路徑的權(quán)重.權(quán)重學(xué)習(xí)實驗重復(fù)十次,結(jié)果如表4所示,其中APA的權(quán)重均值為0.01,APAPA的權(quán)重均值為0.02,APCPA的權(quán)重均值為0.97.根據(jù)元路徑權(quán)重學(xué)習(xí)結(jié)果發(fā)現(xiàn)在AMIner-Small數(shù)據(jù)集中元路徑APCPA表示的語義信息對異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)的重要程度遠(yuǎn)高于APA、APAPA表示的語義信息,而APA、APAPA表示的語義信息對異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)的重要程度則十分接近.
表4 元路徑及其權(quán)重
在元路徑集合及權(quán)重的基礎(chǔ)上分別應(yīng)用本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法以及HIN2Vec框架學(xué)習(xí)AMIner-Small數(shù)據(jù)集中節(jié)點的低維表征.然后將帶標(biāo)簽的675個作者節(jié)點的低維表征作為特征向量訓(xùn)練和測試SVM分類器.分類實驗中將675個低維表征按70%/30%比例隨機分為訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集,分類結(jié)果是取10次實驗結(jié)果的均值.具體實驗結(jié)果如表5所示,其中FMPW表示本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法.
表5 AMIner-Small數(shù)據(jù)集中作者節(jié)點分類結(jié)果
根據(jù)實驗結(jié)果發(fā)現(xiàn)本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法在分類精確率、召回率、Micro-F1分?jǐn)?shù)、Macro-F1分?jǐn)?shù)上均明顯高于HIN2Vec方法.該結(jié)果表明基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法對小規(guī)模異質(zhì)網(wǎng)絡(luò)具有良好的表征學(xué)習(xí)能力,證明了該方法的正確性、有效性.
3.3.2 AMIner數(shù)據(jù)集的節(jié)點分類實驗
由于AMIner數(shù)據(jù)集中數(shù)據(jù)規(guī)模遠(yuǎn)大于AMiner-Small數(shù)據(jù)集,導(dǎo)致HIN2Vec不能處理AMiner數(shù)據(jù)集,所以本文采用Metapath2Vec[15]異質(zhì)網(wǎng)絡(luò)表征方法作為對比實驗方法.Metapath2Vec應(yīng)用基于單條元路徑的隨機游走獲取異質(zhì)網(wǎng)絡(luò)中的結(jié)構(gòu)信息并結(jié)合Skip-gram模型需學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)的低維表征.
此部分實驗中,實驗步驟與AMIner-Small數(shù)據(jù)集中分類的實驗步驟一致,首先提取元路徑APA、APAPA、APCPA構(gòu)成元路徑集合并學(xué)習(xí)其權(quán)重,然后分別采用本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法和Metapath2Vec方法學(xué)習(xí)AMIner數(shù)據(jù)集中節(jié)點的低維表征.
元路徑權(quán)重學(xué)習(xí)的實驗結(jié)果與AMIner-Small數(shù)據(jù)集中的元路徑權(quán)重學(xué)習(xí)結(jié)果一致,即APA的權(quán)重均值為0.01,APAPA的權(quán)重均值為0.02,APCPA的權(quán)重均值為0.97.該結(jié)果表示在AMIner數(shù)據(jù)集中APCPA表示的語義信息對異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)的影響程度最大.
本文在全部節(jié)點的低維表征中隨機挑選47 108個帶標(biāo)簽的作者的低維表征作為SVM分類器的特征向量,其中訓(xùn)練集比例為10%~90%,其余節(jié)點為測試集.實驗重復(fù)十次并取平均值,結(jié)果如圖3所示,其中FMPW表示本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法.
根據(jù)實驗結(jié)果可知,隨著訓(xùn)練集比例的提高,分類結(jié)果越加精確.而且本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法的分類精確率、召回率、Micro-F1分?jǐn)?shù)、Macro-F1分?jǐn)?shù)中均明顯高于基于元路徑APA和基于元路徑APAPA的Metapath2Vec方法,但是僅率高于基于APCPA的Metapath2Vec方法.造成以上結(jié)果的原因在于,元路徑APCPA的 權(quán)重為0.97,導(dǎo)致融合不同元路徑的低維表征中APCPA對應(yīng)的低維表征占主要比例.該結(jié)果從側(cè)面驗證了元路徑權(quán)重學(xué)習(xí)結(jié)果的正確性.此外,基于圖3所示的實驗結(jié)果發(fā)現(xiàn)基于不同元路徑的Metapath2Vec方法學(xué)習(xí)的低維表征質(zhì)量差別大,導(dǎo)致應(yīng)用Metapath2Vec方法學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)的低維表征時結(jié)果具有不確定性.而本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法可得出最優(yōu)結(jié)果,從而有效解決上述問題.
綜合以上實驗結(jié)果可知,基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法可應(yīng)用于不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò),并且在不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)中分類實驗結(jié)果優(yōu)于基準(zhǔn)方法HIN2Vec和Metapath2Vec.因此本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法對不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)具有良好的表征學(xué)習(xí)能力,可學(xué)習(xí)得到高質(zhì)量的低維表征,可有效應(yīng)用于數(shù)據(jù)挖掘任務(wù),并且優(yōu)于基于單條元路徑的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法.
本文提出基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法,通過元路徑權(quán)重學(xué)習(xí)表明元路對異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)的重要程度,并以此為基礎(chǔ)對基于不同元路徑的低維表征進行加權(quán)融合,得到融合不同元路徑語義信息的異質(zhì)網(wǎng)絡(luò)表征.該方法解決了基于單條元路徑的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法不能包含其它元路徑語義信息而導(dǎo)致的低維表征中缺失結(jié)構(gòu)信息、語義信息的問題.同時通過對比試驗證明本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)方法在不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)中具有良好的表征學(xué)習(xí)能力,并且可有效應(yīng)用于數(shù)據(jù)挖掘任務(wù).在未來的工作中,將對如何提高大規(guī)模異質(zhì)網(wǎng)絡(luò)的表征學(xué)習(xí)效率進行深入研究.