陳婉杰 盛益強
摘 要:針對現(xiàn)有的社區(qū)發(fā)現(xiàn)算法難以解決網(wǎng)絡的多維性問題的現(xiàn)象,提出一種基于網(wǎng)絡表示學習的非單一維度的社區(qū)發(fā)現(xiàn)算法。該算法從節(jié)點屬性特征和網(wǎng)絡結(jié)構(gòu)特征兩個維度考慮節(jié)點的差異性,首先根據(jù)節(jié)點屬性相似度計算得到節(jié)點轉(zhuǎn)移概率,結(jié)合小世界模型的六度分離理論設(shè)置網(wǎng)絡節(jié)點隨機游走路徑的長度。依據(jù)轉(zhuǎn)移概率選擇節(jié)點的鄰居節(jié)點,得到節(jié)點的游走路徑,然后用神經(jīng)網(wǎng)絡模型訓練節(jié)點的游走路徑得到節(jié)點的網(wǎng)絡特征向量,將節(jié)點網(wǎng)絡特征向量的相似度重置為節(jié)點連接邊的權(quán)重,在Louvain算法的基礎(chǔ)上完成社區(qū)劃分。最后,在Facebook和Giraffe兩個數(shù)據(jù)集上進行了實驗,選用基于初始網(wǎng)絡結(jié)構(gòu)的Louvain算法和基于單一維度的社區(qū)發(fā)現(xiàn)算法作為對比算法。實驗結(jié)果表明,在Giraffe數(shù)據(jù)集中,相比于Louvain算法,基于節(jié)點屬性的社區(qū)發(fā)現(xiàn)算法的模塊度指標提升了2.7%,基于網(wǎng)絡結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)算法的模塊度指標提升了3.0%,提出的非單一維度的社區(qū)發(fā)現(xiàn)算法的模塊度指標提升了3.7%。所提算法聚焦于網(wǎng)絡的多維性,有效提升了社區(qū)發(fā)現(xiàn)算法的模塊度。
關(guān)鍵詞:節(jié)點屬性;網(wǎng)絡結(jié)構(gòu);可擴展性;社區(qū)發(fā)現(xiàn);網(wǎng)絡表示學習;節(jié)點差異性
中圖分類號: TP391.4模式識別與裝置文獻標志碼:A
Non-unidimensional community detection algorithm based on network representation learning
CHEN Wanjie1,2, SHENG Yiqiang 1,2*
(1. National Network New Media Engineering Research Center (Institute of Acoustics, Chinese Academy of Sciences), Beijing 100190, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract: Focusing on the issue that it is difficult for the existing community detection algorithms to solve the multidimensionality problem of the network, a non-unidimensional community detection algorithm based on network representation learning was proposed. The algorithm considered the difference of nodes from the two dimensions of node attribute feature and network structure feature. Firstly, the node transition probability was calculated according to the node attribute similarity. The length of the random walk path of the network node was set according to the six-degree separation theory of the small world model. After obtaining the walking path of the node by selecting its neighbor nodes according to the transition probability, the walking path of the node was trained by the neural network model to achieve the network feature vectors. The similarity of the network feature vectors of the node was reset as the weight of the connected edge, and the community partition was completed based on the Louvain algorithm. Finally, experiments were conducted on two datasets, Facebook and Giraffe with the Louvain algorithm based on the initial network structure and the unidimensional community detection algorithm as comparison algorithms. Experimental results show that on the Giraffe dataset, compared to the Louvain algorithm, the community detection algorithm based on the node attribute has the modularity increased by 2.7%, the community detection algorithm based on the network structure has the modularity increased by 3.0%, and the proposed non-unidimensional community detection algorithm has the modularity increased by 3.7%. The proposed algorithm focuses on the multidimensionality of the network and improves the modularity of the community detection algorithm effectively.
Key words: node attribute; network structure; extensibility; community detection; network representation learning; node difference
0 引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展和移動終端的普及應用,復雜網(wǎng)絡在生活中的很多領(lǐng)域均得到了快速的發(fā)展,如社交媒體領(lǐng)域、學術(shù)信息領(lǐng)域以及生物學領(lǐng)域等。隨著網(wǎng)絡規(guī)模的擴大,對復雜網(wǎng)絡的分析也越來越重要,在真實世界的復雜網(wǎng)絡中,通過網(wǎng)絡中個體構(gòu)成的社區(qū)來觀察網(wǎng)絡中節(jié)點的交互行為是清晰的,是全局化的,而通過個體行為觀察節(jié)點之間的交互則通常是帶有噪聲和片面的。復雜網(wǎng)絡中很多行為只能通過社區(qū)去發(fā)現(xiàn),在個體層面難以觀察到,這是因為個體行為往往具有很強的波動性,而社區(qū)行為一般相對穩(wěn)定,不易改變,因此對復雜網(wǎng)絡進行社區(qū)發(fā)現(xiàn)是有必要的。
識別復雜網(wǎng)絡中個體所在的社區(qū)不僅具有一定的理論價值,也有著廣泛的應用前景。例如電商平臺通過識別出相似興趣類別的用戶社區(qū),可以挖掘出潛在的購買者,當社區(qū)內(nèi)成員點擊或者購買了某一件商品后,便可為相同社區(qū)的其他用戶推薦類似商品,從而可以提升商品推薦的準確率,更好地為用戶服務。社交網(wǎng)絡平臺如微博、知乎、微信和Facebook等,用戶存在點贊、關(guān)注以及評論等多種類型的互動關(guān)系,根據(jù)這些行為,社區(qū)發(fā)現(xiàn)可以獲得網(wǎng)絡的模塊化結(jié)構(gòu),從而可以對具有相似特征的社區(qū)進行好友推薦,幫助用戶發(fā)現(xiàn)更多的潛在好友。在信息傳播領(lǐng)域中,發(fā)現(xiàn)社區(qū)的中心節(jié)點,合理地發(fā)揮中心節(jié)點的作用,不僅可以提高節(jié)點傳播的影響力,加速信息傳播,也可以在病毒出現(xiàn)時及時抑制病毒的進一步擴散。
網(wǎng)絡的發(fā)展帶來了信息的多樣性,如今復雜網(wǎng)絡包含的信息已不僅只是網(wǎng)絡的結(jié)構(gòu)信息,網(wǎng)絡中的節(jié)點也具有豐富的屬性,如Facebook數(shù)據(jù)集不僅包含網(wǎng)絡中節(jié)點以及節(jié)點的連接邊信息,還包含節(jié)點的屬性信息,如年齡、性別、公司、生日、姓名等屬性特征。有研究表明,實際網(wǎng)絡中有直接連接關(guān)系的節(jié)點,通常其節(jié)點屬性信息的相似度會更高[1-2]。為了驗證該觀點,以Facebook數(shù)據(jù)集和Giraffe數(shù)據(jù)集為例,可以看出,具有連接關(guān)系的節(jié)點屬性相似度大于0.6、0.7和0.8的邊的占比情況,如表1所示。Facebook數(shù)據(jù)集中有61%的連接邊對應節(jié)點的屬性相似度超過60%,Giraffe數(shù)據(jù)集中更有61%的連接邊對應節(jié)點的屬性相似度超過80%,這也論證了結(jié)合節(jié)點屬性信息和網(wǎng)絡結(jié)構(gòu)進行社區(qū)發(fā)現(xiàn)的重要意義。
傳統(tǒng)社區(qū)發(fā)現(xiàn)算法大多基于網(wǎng)絡結(jié)構(gòu)進行社區(qū)發(fā)現(xiàn),面對網(wǎng)絡的多維性問題,針對單個維度的社區(qū)發(fā)現(xiàn)算法研究已到達一定瓶頸。充分利用網(wǎng)絡中節(jié)點的多維度特征,實現(xiàn)不同維度的信息的融合,不僅可以提高社區(qū)發(fā)現(xiàn)對當前網(wǎng)絡的適應性,也可以充分利用網(wǎng)絡節(jié)點不同維度層面的差異性,更好地挖掘節(jié)點的隱含特征。
隨著信息化程度的提高,復雜網(wǎng)絡規(guī)模越來越大。實際復雜網(wǎng)絡中,大部分節(jié)點與網(wǎng)絡中的其他節(jié)點之間的直接聯(lián)系是非常有限的。選用合理的社區(qū)發(fā)現(xiàn)算法,充分利用節(jié)點屬性與網(wǎng)絡結(jié)構(gòu)特征,在保證社區(qū)發(fā)現(xiàn)準確率的前提下,從網(wǎng)絡中的局部節(jié)點結(jié)構(gòu)便可挖掘出網(wǎng)絡的隱含的特征信息,將極大地改善傳統(tǒng)社區(qū)發(fā)現(xiàn)算法,從網(wǎng)絡的全局信息挖掘網(wǎng)絡潛在特征的低效問題,同時可以提高社區(qū)發(fā)現(xiàn)算法的可擴展性。
近幾十年以來,社區(qū)發(fā)現(xiàn)作為網(wǎng)絡科學中的一項基礎(chǔ)研究,很多研究人員對社區(qū)發(fā)現(xiàn)算法進行了深入的探索,取得了很多突破性的成果。但隨著網(wǎng)絡的發(fā)展,針對目前社會網(wǎng)絡結(jié)構(gòu)中網(wǎng)絡的特點,社區(qū)發(fā)現(xiàn)的研究面臨著如下問題和挑戰(zhàn)。
1)網(wǎng)絡的多維性以及網(wǎng)絡節(jié)點的差異性。
針對單一維度網(wǎng)絡結(jié)構(gòu)的傳統(tǒng)社區(qū)發(fā)現(xiàn)算法因為信息的缺乏,在社區(qū)發(fā)現(xiàn)的效率和準確率上均受到了限制。隨著信息化程度的提高,信息維度的增加使網(wǎng)絡呈現(xiàn)出多維性,所謂網(wǎng)絡的多維性是指網(wǎng)絡中的節(jié)點之間邊的連接關(guān)系有多種類型,而由這些節(jié)點及不同類型的邊所組成的“維度”不同的網(wǎng)絡就稱為多維度網(wǎng)絡。在各種復雜的網(wǎng)絡尤其是社會網(wǎng)絡中,不同節(jié)點之間也是有差異的,而傳統(tǒng)社區(qū)發(fā)現(xiàn)算法,并沒有考慮這一點,大多數(shù)網(wǎng)絡分析的方法,忽略了節(jié)點之間的差異性,認為整個網(wǎng)絡中所有的節(jié)點有著相同的地位。實際的網(wǎng)絡中,不僅節(jié)點自身的屬性特征有很大的差異性,每一個節(jié)點的隱含網(wǎng)絡結(jié)構(gòu)特征也都是不一樣的。因此如何利用網(wǎng)絡的多維度信息針對社區(qū)發(fā)現(xiàn)中網(wǎng)絡節(jié)點的差異性挖掘節(jié)點的隱含特征,從而更好地完成社區(qū)劃分是當前社區(qū)發(fā)現(xiàn)的研究面臨的一個重要問題。
2)可擴展性。
當今網(wǎng)絡發(fā)達,網(wǎng)絡每時每刻都有新節(jié)點加入,復雜網(wǎng)絡的規(guī)模越來越大,而現(xiàn)有的社區(qū)發(fā)現(xiàn)算法大多都基于全局信息去挖掘網(wǎng)絡的隱含信息,例如:獲取Girvan-Newman算法中依據(jù)“邊介數(shù)”信息進行社區(qū)發(fā)現(xiàn)需要遍歷整個網(wǎng)絡;Kemighan-Lin算法為了完成社區(qū)劃分必須要提前知道社區(qū)的個數(shù)或者平均規(guī)模等,在有新節(jié)點加入時,依然需要遍歷整個網(wǎng)絡去挖掘節(jié)點的隱含網(wǎng)絡結(jié)構(gòu)特征,從而造成算法的低效與浪費。而實際上,復雜網(wǎng)絡尤其是社會網(wǎng)絡大多是稀疏的,網(wǎng)絡中的大部分個體與網(wǎng)絡中的其他節(jié)點之間的直接聯(lián)系是非常有限的,因此面對日益增長的節(jié)點規(guī)模,能否通過只依賴網(wǎng)絡中的局部節(jié)點結(jié)構(gòu)挖掘出網(wǎng)絡的隱含的特征信息,在有新節(jié)點加入時,能否只對新節(jié)點所在的局部網(wǎng)絡進行處理,增強算法的可擴展性是當前亟需要解決的一個問題。
針對現(xiàn)有社區(qū)發(fā)現(xiàn)算法難以解決網(wǎng)絡的多維性問題、節(jié)點的差異性問題以及可擴展性問題,本文聚焦于網(wǎng)絡多維性問題,提出了一種基于網(wǎng)絡表示學習的非單一維度的社區(qū)發(fā)現(xiàn)算法。
該算法將節(jié)點屬性信息作為先驗信息,根據(jù)用戶屬性相似度重新計算節(jié)點之間轉(zhuǎn)移概率,在node2vec算法的基礎(chǔ)上,借助自然語言處理領(lǐng)域的特征學習方式,將文本的處理方式遷移至網(wǎng)絡結(jié)構(gòu)中。同時,結(jié)合小世界模型的六度分離理論設(shè)置網(wǎng)絡節(jié)點游走路徑的長度,通過對網(wǎng)絡的局部結(jié)構(gòu)進行分析,從而挖掘出局部網(wǎng)絡的隱含特征。當網(wǎng)絡中有新節(jié)點加入時,不需要遍歷整個網(wǎng)絡進行社區(qū)發(fā)現(xiàn),只用計算與新節(jié)點有直接連接關(guān)系的節(jié)點之間的屬性相似度,然后根據(jù)本文提出的算法在新節(jié)點附近按照根據(jù)屬性相似度計算得到的概率進行游走。得到游走路徑后,用神經(jīng)網(wǎng)絡模型訓練得到節(jié)點的隱含特征向量,最后根據(jù)新得到的節(jié)點向量計算相似度后,使用Louvain社區(qū)發(fā)現(xiàn)算法完成社區(qū)劃分。
本文的主要工作如下:
1)將節(jié)點屬性信息作為先驗信息,從節(jié)點屬性和網(wǎng)絡結(jié)構(gòu)屬性信息兩個維度考慮了節(jié)點的差異性,改善了傳統(tǒng)社區(qū)發(fā)現(xiàn)算法因為信息的缺乏只針對單一維度網(wǎng)絡結(jié)構(gòu)進行社區(qū)發(fā)現(xiàn)從而導致效率和準確率均受到限制的問題。
2)現(xiàn)有社區(qū)發(fā)現(xiàn)算法大多只考慮了邊的連接性,即節(jié)點之間是否有直接連接關(guān)系,本文提出的算法可以計算出任意兩個節(jié)點之間的加權(quán)相似度,不再局限只可以計算有連接關(guān)系的節(jié)點之間的相似度,因此一定程度上解決了社會網(wǎng)絡的稀疏性問題。
3)從基于用戶屬性相似度的節(jié)點轉(zhuǎn)移概率和基于六度分離理論設(shè)置的游走路徑長度兩個方面對隨機游走算法進行約束,改善了傳統(tǒng)隨機游走算法在網(wǎng)絡轉(zhuǎn)移過程中具有較強隨機性的缺點,提高了社區(qū)發(fā)現(xiàn)算法的準確率。
4)通過對網(wǎng)絡的局部結(jié)構(gòu)進行分析,即可挖掘出局部網(wǎng)絡的隱含特征,提高了算法的可擴展性,改善了傳統(tǒng)社區(qū)發(fā)現(xiàn)算法從全局網(wǎng)絡角度考慮挖掘網(wǎng)絡隱含特征造成的低效與浪費的問題。
實驗結(jié)果表明,在Giraffe數(shù)據(jù)集中,相較于Louvain算法,基于節(jié)點屬性的社區(qū)發(fā)現(xiàn)算法模塊度指標提升2.7%,基于網(wǎng)絡結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)算法模塊度指標提升3.0%,本文提出的非單一維度的社區(qū)發(fā)現(xiàn)算法,模塊度指標提升3.7%。
1 相關(guān)工作
隨著復雜網(wǎng)絡的發(fā)展,復雜網(wǎng)絡分析中的社區(qū)發(fā)現(xiàn)問題成為一大研究熱點,眾多學者從不同的角度對該問題進行了深入的研究,下面介紹社區(qū)發(fā)現(xiàn)問題相關(guān)的經(jīng)典算法以及當前該領(lǐng)域的一些新的研究方法。
Girvan等[3]提出了一種分裂的層次算法GN(Girvan Newman),基于邊介數(shù)的相關(guān)概念對網(wǎng)絡結(jié)構(gòu)進行劃分。邊介數(shù)的定義是經(jīng)過網(wǎng)絡中某條邊的任意兩個點之間最短路徑的數(shù)目,該算法通過迭代地移除網(wǎng)絡中邊介數(shù)最大的連接,以此完成劃分。該算法優(yōu)點是劃分社區(qū)的結(jié)果很準確,但是缺點是算法時間復雜度在節(jié)點規(guī)模比較大時過高,因此不太適合處理大規(guī)模的網(wǎng)絡結(jié)構(gòu)圖。Newman等[4]提出了模塊度的概念,模塊度主要作為評價社區(qū)劃分質(zhì)量的指標,可以用來衡量社區(qū)結(jié)構(gòu)的強度,模塊度越大,表示社區(qū)劃分的結(jié)果越好,社區(qū)內(nèi)部邊越緊密?,F(xiàn)在模塊度在本身社區(qū)劃分的結(jié)果是未知的情況下已經(jīng)漸漸成為衡量社區(qū)發(fā)現(xiàn)的重要標準。Kernighan和Lin[5]提出了一種貪婪算法,也被稱為Kernighan-Lin法,該算法把網(wǎng)絡視為圖結(jié)構(gòu),通過圖分割的相關(guān)算法,不斷迭代和交換不同社區(qū)內(nèi)的節(jié)點,優(yōu)化社區(qū)結(jié)構(gòu),調(diào)整社區(qū)之間連接邊的數(shù)量,目的就是使社區(qū)內(nèi)連接邊的數(shù)量與社區(qū)之間連接邊的數(shù)量的差值增大,從而獲得社區(qū)劃分的結(jié)果。該算法的缺點是如果劃分社區(qū)之前不了解社區(qū)的實際規(guī)模,將無法知道使該方法結(jié)束的停止條件。為了改善前面提到的GN算法當節(jié)點規(guī)模變大時算法時間復雜度過高的缺陷,Newman[6]提出了一種快速分裂的層次算法FN(Fast Newman),該算法的思想是首先將網(wǎng)絡的節(jié)點視為單個的社區(qū),然后合并社區(qū),合并的原則就是使模塊度增量達到最大值時的兩個社區(qū)作為新社區(qū),不斷地迭代調(diào)整直到整個網(wǎng)絡被合并為一個單獨的社區(qū)。FN算法在模塊度達到最大時獲得的劃分結(jié)果成為社區(qū)發(fā)現(xiàn)的最終劃分結(jié)果。該算法在保證社區(qū)劃分質(zhì)量的前提下,降低了算法的時間復雜度。 Blondel等[7]提出了Louvain算法,這是一種基于模塊度的算法,該算法主要包括兩個部分:第一部分是首先將每個節(jié)點視為單個的社區(qū),嘗試將單個社區(qū)加入可以讓模塊度增加最大的社區(qū)里面,一直遍歷網(wǎng)絡,直到網(wǎng)絡中的節(jié)點都穩(wěn)定下來;第二部分是壓縮一個社區(qū)為一個節(jié)點,節(jié)點權(quán)重為原始社區(qū)內(nèi)部節(jié)點權(quán)重的和,重復第一個過程,直到模塊度成為一個穩(wěn)定值。Louvain算法在網(wǎng)絡規(guī)模比較大時依然可以取得很好的劃分效果,而且時間復雜度很低,因此常被用于大規(guī)模網(wǎng)絡中的社區(qū)劃分。
近年來,基于深度學習的發(fā)展,結(jié)合神經(jīng)網(wǎng)絡對圖結(jié)構(gòu)的分析也取得了很多成果:Deepwalk算法[8]首次將深度學習應用于圖的網(wǎng)絡結(jié)構(gòu)分析,在根據(jù)隨機游走得到節(jié)點的游走序列后,借助自然語言處理中word2vec算法[9-10]的思想,將節(jié)點游走序列類比于文本處理中的句子,將序列中的節(jié)點類比于文本處理中的單詞,使用skip-gram模型[10]學習得到網(wǎng)絡中節(jié)點的向量表示;node2vec算法[11]在Deepwalk的基礎(chǔ)上進行了改進,Deepwalk算法在得到節(jié)點序列時就是普通的隨機游走,而node2vec算法借助參數(shù)可以控制隨機游走時更偏向于深度優(yōu)先搜索還是廣度優(yōu)先搜索;大網(wǎng)絡內(nèi)聚集模型(CLuster Affiliation Model for BIGNetworks, BIGCLAM)算法[12]用一個非負向量作為一個節(jié)點的網(wǎng)絡表示,該算法認為兩個節(jié)點向量表示的內(nèi)積越大,兩個節(jié)點產(chǎn)生直接連接關(guān)系的可能性也就越大;結(jié)構(gòu)化深度網(wǎng)絡嵌入(Structural Deep Network Embedding, SDNE)算法[13]首次將深層神經(jīng)網(wǎng)絡模型用于節(jié)點的網(wǎng)絡表示學習,模型的第一個模塊是有監(jiān)督的自編碼神經(jīng)網(wǎng)絡對一階鄰居關(guān)系的建模,第二個模塊是無監(jiān)督的自編碼神經(jīng)網(wǎng)絡對二階鄰居關(guān)系的建模,從而保留了網(wǎng)絡的一級相似度和二級相似度。
無論是傳統(tǒng)社區(qū)發(fā)現(xiàn)算法還是結(jié)合深度學習模型的網(wǎng)絡表示學習算法,均是只考慮了圖的網(wǎng)絡結(jié)構(gòu)信息,也有一些社區(qū)發(fā)現(xiàn)算法同時結(jié)合節(jié)點屬性信息與網(wǎng)絡結(jié)構(gòu)特征。社交網(wǎng)絡嵌入(Social Network Embedding, SNE)算法[14]中神經(jīng)網(wǎng)絡的輸入向量是節(jié)點的ID與其他屬性向量的拼接,通過訓練模型,提取到網(wǎng)絡節(jié)點的特征表示。也有學者提出了將原始無向無權(quán)網(wǎng)絡結(jié)構(gòu)和屬性信息直接相融合,缺點是只考慮了節(jié)點之間邊的存在性,沒有進一步挖掘網(wǎng)絡結(jié)構(gòu)的隱含信息。Zhang等[15]提出了通過對節(jié)點屬性信息進行K核映射[16]的思路,先得到節(jié)點屬性的表示向量,然后通過Deepwalk算法將網(wǎng)絡結(jié)構(gòu)信息編碼到節(jié)點屬性表示向量中,實現(xiàn)了兩者的融合。溫雯等[17]提出了基于頂點信息為先驗信息的圖嵌入(Graph embedding by incorporating prior knowledge on Vertex Information, GeVI)算法,調(diào)整skip-gram模型的優(yōu)化函數(shù)中條件概率分布為網(wǎng)絡結(jié)構(gòu)表示向量和節(jié)點屬性特征向量的乘積,從優(yōu)化函數(shù)角度實現(xiàn)了兩方面信息的融合。Yang等[18]提出了和文本信息相關(guān)的深度隨機游走(Text-Associated Deep Walk, TADW)算法,該算法首先證明了Deepwalk算法等價于上下文矩陣的分解,通過將節(jié)點屬性特征嵌入矩陣分解,借助矩陣分解框架實現(xiàn)了節(jié)點屬性信息和網(wǎng)絡結(jié)構(gòu)信息的融合。Huang 等[19]提出了加速屬性網(wǎng)絡嵌入(Accelerated Attributed Network Embedding, AANE)算法,通過對節(jié)點屬性相似性矩陣進行矩陣分解得到節(jié)點的向量表示,并在優(yōu)化函數(shù)中增加了基于節(jié)點連接關(guān)系的約束項。Yang等[20]提出了Planetoid模型,利用標簽信息,將標簽相同但不具有連接關(guān)系的節(jié)點連接在一起,從而學習出包含節(jié)點標簽屬性信息的圖表示。基于節(jié)點文本信息的圖嵌入(Context-Aware Network Embedding, CANE)算法[21]通過對具有直接連接關(guān)系的節(jié)點的文本信息利用卷積神經(jīng)網(wǎng)絡[22]進行編碼,選擇直接相連的節(jié)點彼此之間相關(guān)性最大的卷積結(jié)果作為節(jié)點的表示向量。相關(guān)主題模型(Relational Topic Model, RTM)算法[23]使用文檔主題生成模型 LDA(Latent Dirichlet Allocation)[24]對文本進行建模,該算法認為有直接連接關(guān)系的節(jié)點有著相似的主題分布;基于潛在概率的文本網(wǎng)絡嵌入(Probabilistic LAtent document Network Embedding, PLANE)方法[25]在RTM算法的基礎(chǔ)上,采用可視化的方法學習得到文本的主題以及節(jié)點的表示,這兩種方法要求網(wǎng)絡中節(jié)點的內(nèi)容必須是文本,因此如果不是文本類型的節(jié)點屬性,則不能處理;除了這兩種算法外,也有一些算法[26]依賴節(jié)點文本內(nèi)容屬性完成網(wǎng)絡表示學習,它們均基于網(wǎng)絡中節(jié)點的文本內(nèi)容屬性,而沒有充分利用節(jié)點的除文本屬性外的其他描述性屬性特征。
分析以上算法,可以將其分為三種類型:第一種是只考慮文本內(nèi)容屬性信息未考慮網(wǎng)絡節(jié)點描述屬性特征的,這類算法的不足之處是無法處理非文本類型的節(jié)點屬性特征,因此算法不具有普適性;第二種是只考慮了節(jié)點部分描述屬性,例如SNE算法只考慮了節(jié)點的屬性ID,沒有考慮其他屬性信息,同時網(wǎng)絡結(jié)構(gòu)中邊的信息沒有得到充分利用;其他結(jié)合節(jié)點屬性信息的方法,大多是先得到節(jié)點屬性表示向量,再與網(wǎng)絡結(jié)構(gòu)表示向量相融合,這種融合方式較為低效。為了提高節(jié)點通過網(wǎng)絡表示學習所得向量的質(zhì)量,可以考慮充分利用節(jié)點的描述型屬性特征,使算法具有普適性。同時也可以先融合節(jié)點屬性信息和網(wǎng)絡結(jié)構(gòu)信息再去訓練得到節(jié)點表示的向量,使節(jié)點屬性特征和網(wǎng)絡結(jié)構(gòu)特征可以更好地互相補充和制約,以提高節(jié)點網(wǎng)絡表示學習所得向量的質(zhì)量,可以更好地進行社區(qū)發(fā)現(xiàn)。
本文主要方法與上述研究的不同之處在于以下兩點:
1)充分利用了節(jié)點的屬性信息和網(wǎng)絡結(jié)構(gòu)信息,將網(wǎng)絡結(jié)構(gòu)轉(zhuǎn)化為向量表示,采用將節(jié)點屬性信息作為先驗信息,根據(jù)用戶屬性相似度重新計算節(jié)點之間轉(zhuǎn)移概率的方式引入節(jié)點屬性信息,從而進一步挖掘網(wǎng)絡結(jié)構(gòu)的隱含信息。
2)本文提出的算法通過計算節(jié)點基于網(wǎng)絡表示學習得到的特征向量,用特征向量之間的相似度重置原始網(wǎng)絡,然后使用Louvain社區(qū)發(fā)現(xiàn)算法完成社區(qū)劃分,避免了將原始無向無權(quán)網(wǎng)絡結(jié)構(gòu)和屬性信息直接相融合,只考慮了節(jié)點之間邊的存在性的缺點。
2 融合節(jié)點屬性和網(wǎng)絡結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)算法
基于node2vec網(wǎng)絡表示學習算法,聚焦于網(wǎng)絡的多維性,本文提出了一種同時考慮節(jié)點屬性特和網(wǎng)絡結(jié)構(gòu)兩個維度特征的社區(qū)發(fā)現(xiàn)算法。在node2vec算法的基礎(chǔ)上,引入節(jié)點屬性信息后,借助自然語言處理領(lǐng)域的特征學習方式,將文本的處理方式遷移至網(wǎng)絡結(jié)構(gòu)中,同時結(jié)合小世界模型的六度分離理論設(shè)置網(wǎng)絡節(jié)點游走路徑的長度,通過對網(wǎng)絡的局部結(jié)構(gòu)進行分析,從而挖掘出局部網(wǎng)絡的隱含特征。當網(wǎng)絡中有新節(jié)點加入時,不需要遍歷整個網(wǎng)絡進行社區(qū)發(fā)現(xiàn),只用計算與新節(jié)點有直接連接關(guān)系的節(jié)點之間的屬性相似度,然后根據(jù)本文提出的算法在新節(jié)點附近按根據(jù)屬性相似度計算得到的概率進行游走,得到游走路徑后,用神經(jīng)網(wǎng)絡模型訓練即可得到節(jié)點的隱含特征向量,從而提高了算法的可擴展性。本文算法流程如圖1所示。
該算法首先加載圖的網(wǎng)絡結(jié)構(gòu)數(shù)據(jù),記錄圖中節(jié)點以及節(jié)點的連接關(guān)系;然后根據(jù)節(jié)點屬性特征計算節(jié)點之間相似度,用節(jié)點屬性相似度初始化節(jié)點之間連邊的權(quán)重;重構(gòu)原始網(wǎng)絡為無向有權(quán)網(wǎng)絡,根據(jù)式(3)計算節(jié)點之間轉(zhuǎn)移概率,根據(jù)轉(zhuǎn)移概率采樣選擇當前節(jié)點的鄰居節(jié)點,當前節(jié)點每個鄰居節(jié)點被選中的概率等于式(3)計算的轉(zhuǎn)移概率的值。結(jié)合小世界模型,設(shè)置適當?shù)挠巫呗窂介L度,得到新的網(wǎng)絡結(jié)構(gòu)圖中每個節(jié)點的游走路徑;利用skip-gram模型采用隨機梯度下降法和反向傳播算法對節(jié)點進行訓練,生成每個節(jié)點最優(yōu)的向量表示,根據(jù)網(wǎng)絡節(jié)點的向量表示計算節(jié)點的相似度;最后使用社區(qū)發(fā)現(xiàn)算法完成社區(qū)的劃分,并使用模塊度對算法效果進行評估。
2.1 基于用戶屬性的節(jié)點轉(zhuǎn)移概率
將用戶屬性用向量表示,計算用戶屬性之間相似度,如果節(jié)點屬性為種類類型或者布爾型特征,選用Jaccard系數(shù)計算節(jié)點屬性相似度,計算式如式(1)所示;如果節(jié)點屬性為連續(xù)數(shù)值型,選用余弦相似度計算節(jié)點屬性相似度,計算式如式(2)所示,將節(jié)點屬性的相似度作為節(jié)點之間的權(quán)重,重構(gòu)原始網(wǎng)絡。
S=J(A,B)=|A∩B||A∪B|(1)
其中:S表示節(jié)點屬性相似度;A表示樣本A,B表示樣本B,J(A,B)表示樣本A和樣本B交集個數(shù)和并集個數(shù)的比值。
屬性特征如果是連續(xù)數(shù)值型特征,可選用余弦相似度作為衡量標準。余弦相似度計算式如式(2)所示:
S=cos(X,Y)=∑ni=1(Xi×Yi)∑ni=1(Xi)2×∑ni=1(Yi)2(2)
其中:S表示節(jié)點屬性相似度;X表示樣本X,Y表示樣本Y,cos(X,Y) 表示樣本X和樣本Y的余弦相似度;n表示樣本特征向量維度;Xi表示樣本X第i維特征,Yi 表示樣本Y第i維特征。
假設(shè)當前節(jié)點是v,訪問鄰居節(jié)點x的概率如式(3)所示:
p(v,x)=wv,xZ(3)
其中Z為歸一化因子。wv,x 計算式如式(4)所示:
wv,x=S/p,dtx=0
1,dtx=1
S/q,dtx=2 (4)
其中:S為節(jié)點屬性相似度;t表示上一個節(jié)點;v表示當前節(jié)點;x為要訪問的鄰居節(jié)點;dtx 表示節(jié)點t和節(jié)點x的最短距離;參數(shù)p控制重復訪問剛剛訪問過的頂點的概率,p只在dtx=0 時起作用,dtx=0 表示下一次要訪問的節(jié)點正是之前剛剛訪問過的頂點。 因此如果p值較大,則訪問剛剛訪問過的頂點的概率會變低;反之會變高。參數(shù)q則控制著游走的方向是向外還是向內(nèi),若q值較大,則隨機游走傾向于訪問和t接近的頂點,游走路徑偏向于廣度優(yōu)先搜索;反之,如果q較小,則隨機游走過程傾向于訪問遠離t的頂點,游走路徑偏向于深度優(yōu)先搜索。
2.2 結(jié)合小世界模型的隨機游走
小世界模型也即六度分離理論,該理論的主要思想是在社會網(wǎng)絡中,任意兩個不認識的人都可以通過“朋友的朋友”建立起一種聯(lián)系,這中間一般需要通過5個朋友。研究表明,除了社會網(wǎng)絡以外,也有很多其他領(lǐng)域的網(wǎng)絡有類似的“六度分離”結(jié)構(gòu),如金融經(jīng)濟領(lǐng)域中的商業(yè)網(wǎng)絡結(jié)構(gòu)、大自然生態(tài)系統(tǒng)中的食物鏈,甚至人類的腦神經(jīng)元結(jié)構(gòu)等都存在這樣的現(xiàn)象。
本文引入了節(jié)點的屬性信息重構(gòu)網(wǎng)絡后,節(jié)點之間會有潛在的連接關(guān)系,本文認為被節(jié)點屬性信息重構(gòu)后的網(wǎng)絡結(jié)構(gòu)具有“六度分離”屬性,因此結(jié)合小世界模型的思想,設(shè)置游走路徑長度為l,其中3 2)基于節(jié)點屬性相似度的社區(qū)發(fā)現(xiàn)(Community Detection based on Node Attribute Similarity, CD-NAS)算法[28]。該算法的特點是不考慮節(jié)點的網(wǎng)絡結(jié)構(gòu)特征,單一地根據(jù)節(jié)點的屬性計算節(jié)點之間的相似度,然后將節(jié)點之間相似度作為節(jié)點之間連接權(quán)重,根據(jù)節(jié)點屬性相似度進行社區(qū)發(fā)現(xiàn)。 3)基于網(wǎng)絡結(jié)構(gòu)特征相似度的社區(qū)發(fā)現(xiàn)(Community Detection based on Network Structure Feature Similarity, CD-NSFS)算法[11],對網(wǎng)絡結(jié)構(gòu)特征的處理有兩種方式,可以和基于初始結(jié)構(gòu)的Louvain社區(qū)發(fā)現(xiàn)算法的處理方法一樣即直接根據(jù)連接關(guān)系來處理,也可以先根據(jù)網(wǎng)絡表示學習算法得到網(wǎng)絡中節(jié)點的特征向量,然后根據(jù)節(jié)點的特征向量計算節(jié)點之間的相似度,然后根據(jù)節(jié)點網(wǎng)絡結(jié)構(gòu)特征相似度劃分社區(qū)。 3.4 結(jié)果分析 將節(jié)點屬性作為先驗信息,先根據(jù)節(jié)點屬性計算節(jié)點的相似度,F(xiàn)acebook數(shù)據(jù)集節(jié)點屬性的相似度如表3所示,Giraffe數(shù)據(jù)集節(jié)點屬性的相似度如表4 所示。 將節(jié)點屬性相似度作為節(jié)點之間邊的權(quán)重,重構(gòu)原始網(wǎng)絡,得到Facebook數(shù)據(jù)集節(jié)點用網(wǎng)絡表示學習方法得到節(jié)點的特征向量一共100維,同時得到Giraffe數(shù)據(jù)集節(jié)點用網(wǎng)絡表示學習方法得到節(jié)點的特征向量一共100維,利用t分布隨機鄰域嵌入(t-distributed Stochastic Neighbor Embedding, t-SNE)工具對節(jié)點特征向量進行降維處理。Facebook數(shù)據(jù)集根據(jù)網(wǎng)絡表示學習算法得到的節(jié)點特征向量計算的相似度如表5所示,包含源節(jié)點、目標節(jié)點以及節(jié)點屬性為先驗信息的節(jié)點之間網(wǎng)絡結(jié)構(gòu)特征的相似度。 源節(jié)點目標節(jié)點節(jié)點屬性相似度11460.94828137911890.85361916912290.97834576912010.97897261612040.9834241831600.98559850512150.9765135851350.9832997811910.98142946112380.966038461 Giraffe數(shù)據(jù)集根據(jù)網(wǎng)絡表示學習算法得到的節(jié)點特征向量計算的相似度如表6所示,包含源節(jié)點、目標節(jié)點以及節(jié)點屬性為先驗信息的節(jié)點之間網(wǎng)絡結(jié)構(gòu)特征的相似度。 選用基于初始網(wǎng)絡結(jié)構(gòu)的Louvain算法進行對比實驗,即:如果網(wǎng)絡中節(jié)點有連邊,權(quán)重設(shè)置為1;無連邊,權(quán)重設(shè)置為0。對比實驗選用的算法有:1)Louvain算法;2)只依賴用戶屬性特征的社區(qū)發(fā)現(xiàn)(CD-NAS)算法[28];3)只依賴網(wǎng)絡結(jié)構(gòu)特征的社區(qū)發(fā)現(xiàn)(CD-NSFS)算法[11];4)本文提出的基于網(wǎng)絡表示學習的非單一維度的社區(qū)發(fā)現(xiàn)算法,也即將節(jié)點屬性作為先驗信息的基于網(wǎng)絡表示學習的社區(qū)發(fā)現(xiàn)(Community Detection based on Network Representation Learning between nodes With Node Attribute as priori information, CD-NRLWNA)算法。Facebook數(shù)據(jù)集四種算法的模塊度和運行時間對比結(jié)果如表7所示,Giraffe數(shù)據(jù)集四種算法的模塊度和運行時間對比結(jié)果如表8所示。 從表7~8可以看出,無論是在Facebook數(shù)據(jù)集上,還是在Giraffe數(shù)據(jù)集上,本文提出的算法效果都是最好的。在Giraffe數(shù)據(jù)集上,相較于Louvain算法,基于節(jié)點屬性的社區(qū)發(fā)現(xiàn)算法模塊度指標提升了2.7%,基于網(wǎng)絡結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)算法模塊度指標提升了3.0%,而依據(jù)本文提出的非單一維度的社區(qū)發(fā)現(xiàn)算法,其模塊度指標提升了3.7%。同時,因為網(wǎng)絡節(jié)點規(guī)模和網(wǎng)絡結(jié)構(gòu)的復雜度不同,F(xiàn)acebook數(shù)據(jù)集運行時間均高于Giraffe數(shù)據(jù)集。和一般的加權(quán)融合節(jié)點屬性和網(wǎng)絡結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)算法不同的是,本文提出的算法在用網(wǎng)絡表示學習算法學習節(jié)點的網(wǎng)絡結(jié)構(gòu)特征之前,先用節(jié)點屬性作為先驗信息,實驗結(jié)果表明這種算法比基于單純節(jié)點屬性特征或基于網(wǎng)絡結(jié)構(gòu)特征進行社區(qū)發(fā)現(xiàn)算法效果都更好。 3.5 參數(shù)敏感性分析 在本節(jié)中,對本文提出的將節(jié)點屬性作為先驗信息的基于網(wǎng)絡表示學習的社區(qū)發(fā)現(xiàn)算法進行了參數(shù)敏感性分析。本次實驗選擇Giraffe數(shù)據(jù)集測試,評價指標為模塊度。本節(jié)分析了在算法中起重要作用的兩個參數(shù),分別是隨機游走路徑長度和特征維度,其他參數(shù)選用默認參數(shù),每個節(jié)點的隨機游走次數(shù)為num=50,超參數(shù)p=0.25、q=4,滑動窗口w=30,迭代次數(shù)n=5。 模塊度隨隨機游走路徑的變化如表9所示,模塊度隨特征維度的變化如表10所示。 從表9可以看出,如果隨機游走的長度取值過小,則隨機游走得到的節(jié)點序列均是初始節(jié)點的鄰居節(jié)點,不能有效地展現(xiàn)網(wǎng)絡的實際結(jié)構(gòu),具有很大的局限性;隨著游走長度的增加,模塊度的值開始明顯提高,但是當游走路徑長度增加到一定程度時,模塊度的值便不再增加,主要是因為算法在收集到節(jié)點的序列后,會像自然語言處理方法中對文本句子的處理一樣,限定句子的長度,那么相應的序列長度也是固定的,當游走長度足夠長時,已經(jīng)足以獲取網(wǎng)絡的全局性特征,因此算法也相對穩(wěn)定。此外,還可以看出,當模塊度為10時,模塊度最大,也驗證了引入節(jié)點信息和小世界模型進行社區(qū)發(fā)現(xiàn)的必要性。 從表10可以看出,特征維度從20維到128維之間,模塊度一直在增加;從128維到200維,特征維度基本不再變化。這是因為當特征維度到一定程度時,已經(jīng)可以完全表示出網(wǎng)絡結(jié)構(gòu)的信息,如果特征維度繼續(xù)增大,會造成信息冗余。特征維度如果過低,則不能有效地表示出網(wǎng)絡的結(jié)構(gòu)特征;但是特征維度如果設(shè)置過大,不僅會造成信息冗余,也會增加算法運行時間。因此設(shè)置一個合適的特征維度對算法效果有很重要的影響。 Facebook數(shù)據(jù)集和Giraffe數(shù)據(jù)集使用Louvain算法和根據(jù)將節(jié)點屬性作為先驗信息的基于網(wǎng)絡表示學習的社區(qū)發(fā)現(xiàn)(CD-NRLWNA)算法得到的社區(qū)發(fā)現(xiàn)效果如圖5~6所示,其中相同顏色的屬于同一個社區(qū)。 從圖5~6可以直觀地看出,和Giraffe數(shù)據(jù)集相比,F(xiàn)acebook數(shù)據(jù)集得到的社區(qū)結(jié)構(gòu)更明確,社區(qū)劃分更清晰,這和前面得出的Facebook數(shù)據(jù)集模塊度明顯高于Giraffe數(shù)據(jù)集的結(jié)果也是一致的。另一方面,和Louvain算法效果進行對比,本文提出的算法不僅對于網(wǎng)絡邊緣一些節(jié)點的社區(qū)歸屬社區(qū)劃分的結(jié)果更合理,同時社區(qū)劃分的粒度更細,社區(qū)內(nèi)部的結(jié)構(gòu)更緊湊,更精確地發(fā)現(xiàn)了一些Louvain算法沒有發(fā)現(xiàn)的潛在社區(qū),如圖中黑色圓圈標記所示,被Louvain算法識別為一個大社區(qū)的節(jié)點集合,用本文提出的算法可以被劃分為更細粒度的社區(qū),驗證了本文算法的有效性。 4 結(jié)語 從節(jié)點屬性和網(wǎng)絡特征兩個維度出發(fā),聚焦于網(wǎng)絡的多維性,本文提出了一種基于網(wǎng)絡表示學習的非單一維度的社區(qū)發(fā)現(xiàn)算法。該算法將節(jié)點屬性作為先驗信息,然后基于node2vec算法,結(jié)合網(wǎng)絡表示學習進行社區(qū)發(fā)現(xiàn),最后使用模塊度對算法效果進行評估。實驗結(jié)果表明本文提出的算法能更好地挖掘節(jié)點的隱含特征,社區(qū)劃分的結(jié)果更準確。 社區(qū)發(fā)現(xiàn)作為復雜網(wǎng)絡分析中一個重要的研究課題,我們接下來的研究方向主要是進一步結(jié)合圖神經(jīng)網(wǎng)絡的相關(guān)知識對節(jié)點屬性信息和網(wǎng)絡結(jié)構(gòu)的融合進行研究。此外,現(xiàn)在網(wǎng)絡中的節(jié)點不僅僅是代表一個人或者一個網(wǎng)頁,節(jié)點之間的連接也不僅僅只代表節(jié)點的連接關(guān)系,如社交網(wǎng)絡中節(jié)點用戶可能有多種行為,如“點贊” “關(guān)注”或者“評論”,因此針對網(wǎng)絡中節(jié)點角色的差異性如何把這些不同的信息結(jié)合起來,也是接下來的一個研究方向。 參考文獻 (References) [1]MCPHERSON M, SMITH-LOVIN L, COOK J M. Birds of a feather: homophily in social networks [J]. Annual Review of Sociology, 2001, 27: 415-444. [2]AIELLO L M, BARRAT A, SCHIFANELLA R, et al. Friendship prediction and homophily in social media [J]. ACM Transactions on the Web, 2012, 6(2): 373-382. [3]GIRVAN M, NEWMAN M E J. Community structure in social and biological networks [J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(12): 7821-7826. [4]NEWMAN M E J, GIRVAN M. Finding and evaluating community structure in networks [J]. Physical Review E, Statistical, Nonlinear, and Soft Matter Physics, 2004, 69(2 Pt 2): Article No. 026113. [5]KERNIGHAN B W, LIN S. A efficient heuristic procedure for partitioning graphs [J]. Bell System Technical Journal, 1970, 49 (2): 291-307. [6]NEWMAN M E J. Fast algorithm for detecting community structure in networks [J]. Physical Review E, Statistical, Nonlinear, and Soft Matter Physics, 2004, 69(6 Pt 2): Article No. 066133. [7]BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks [J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 2008: Article No. P10008. [8]PEROZZI B, AL-RFOU R, SKIENA S. Deepwalk: online learning of social representations [C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Detection and Data Mining. New York: ACM, 2014: 701-710. [9]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Proceedings of the 2013 International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2013: 3111-3119. [10]MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2019-05-20]. https://arxiv.org/abs/1301.3781. [11]GROVER A, LESKOVEC J. Node2vec: scalable feature learning for networks [C]// Proceeding of the 22nd ACM SIGKDD International Conference on Knowledge Detection and Data Mining. New York: ACM, 2016: 855-864. [12]YANG J, LESKOVEC J. Overlapping community detection at scale: a nonnegative matrix factorization approach [C]// Proceedings of the 6th ACM International Conference on Web Search and Data Mining. New York: ACM, 2013: 587-596. [13]WANG D, CUI P, ZHU W. Structural deep network embedding [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Detection and Data Mining. New York: ACM, 2016: 1225-1234. [14]LIAO L, HE X, ZHANG H, et al. Attributed social network embedding [J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(2): 2257-2270. [15]ZHANG D, YIN J, ZHU X, et al. User profile preserving social network embedding [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Menlo Park: AAAI, 2017: 3378-3384. [16]RAHIMI A, RECHT B. Random features for large-scale kernel machines [C]// Proceedings of the 22nd Annual Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2008: 1177-1184. [17]溫雯,黃家明,蔡瑞初,等.一種融合節(jié)點先驗信息的圖表示學習方法[J].軟件學報,2018,29(3):786-798.(WEN W, HUANG J M, CAI R C, et al. Graph embedding by incorporating prior knowledge on vertex information [J]. Journal of Software, 2018,29(3): 786-798.) [18]YANG C, LIU Z, ZHAO D, et al. Network representation learning with rich text information [C]// Proceeding of the 24th International Joint Conference on Artificial Intelligence. Menlo Park: AAAI, 2015: 2111-2117. [19]HUANG X, LI J, HU X. Accelerated attributed network embedding [C]// Proceedings of the 2017 SIAM International Conference on Data Mining. Philadelphia: SIAM, 2017: 633-641. [20]YANG Z, COHEN W W, SALAKHUTDINOV R. Revisiting semi-supervised learning with graph embeddings [C]// Proceeding of the 33rd International Conference on Machine Learning. New York: JMLR, 2016: 40-48. [21]TU C, LIU H, LIU Z, et al. CANE: context-aware network embedding for relation modeling [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 1722-1731. [22]YANG H W, HSU H C, YANG C K, et al. Differentiating between morphologically similar species in genus Cinnamomum (Lauraceae) using deep convolutional neural networks [J]. Computers and Electronics in Agriculture, 2019, 162: 739-748. [23]CHANG J, BLEI D M. Relational topic models for document networks [C]// Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Florida: PMLR, 2009: 81-88. [24]GYAMFI K S, BRUSEY J, HUNT A, et al. A dynamic linear model for heteroscedastic LDA under class imbalance [J]. Neurocomputing, 2019, 343: 65-75. [25]LE T M V, LAUW H W. Probabilistic latent document network embedding [C]// Proceedings of the 2014 IEEE International Conference on Data Mining. Piscataway: IEEE, 2014: 270-279. [26]LI H, WANG H, YANG Z, et al. Variation autoencoder based network representation learning for classification [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Student Research Workshop. Stroudsburg: Association for Computational Linguistics, 2017: 56-61. [27]李南星,盛益強,倪宏.基于LM算法的MLP模型及其應用[J].網(wǎng)絡新媒體技術(shù),2018,7(1):59-63.(LI N X, SHENG Y Q, NI H. A multilayer perceptron model based on Levenberg-Marquardt algorithm with its applications [J]. Journal of Network New Media, 2018, 7(1): 59-63.) [28]LUSSEAU D, SCHNEIDER K, BOISSEAU O J, et al. The bottlenose dolphin community of doubtful sound features a large proportion of long-lasting associations : can geographic isolation explain this unique trait? [J]. Behavioral Ecology and Sociobiology, 2003, 54(4): 396-405. This work is partially supported by the Special Fund for Strategic Pilot Technology of Chinese Academy of Sciences (XDC02070100). CHEN Wanjie, born in 1993, M. S. candidate. Her research interests include data mining, intelligent processing. SHENG Yiqiang, born in 1978, Ph. D., associate research fellow. His research interests include intelligent networking, data mining. 收稿日期:2019-06-14;修回日期:2019-09-10;錄用日期:2019-09-23。 基金項目:中國科學院戰(zhàn)略性科技先導專項課題(XDC02070100)。 作者簡介:陳婉杰(1993—),女,河南南陽人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、智能處理; 盛益強(1978—),男,北京人,副研究員,博士,主要研究方向:智能網(wǎng)絡、數(shù)據(jù)挖掘。 文章編號:1001-9081(2019)12-3467-09 DOI:10.11772/j.issn.1001-9081.2019061009