李全剛 劉 嶠 秦志光
(電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 610054)
(quangang.l@163.com)
?
基于主題模型的通信網(wǎng)絡(luò)建模與仿真
李全剛劉嶠秦志光
(電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院成都610054)
(quangang.l@163.com)
Modeling and Simulation of Communication Network Based on Topic Model
Li Quangang, Liu Qiao, and Qin Zhiguang
(SchoolofComputerScience&Engineering,UniversityofElectronicScienceandTechnologyofChina,Chengdu610054)
AbstractUnderstanding how communication networks form and evolve is a crucial research issue in complex network analysis. Various methods are proposed to explore networks generation and evolution mechanism. However, the previous methods usually pay more attention to macroscopic characteristics rather than microscopic characteristics, which may lead to lose much information of individual patterns. Since communication network is associated closely with user behaviours, the model of communication network also takes into consideration the individual patterns. By implicitly labeling each network node with a latent attribute-activity level, we introduce an efficent approach for the simulation and modeling of communication network based on topic model. We illustrate our model on a real-world email network obtained from email logs. Experimental results show that the synthetic network preserves some of the global characteristics and individual behaviour patterns. Besides, due to privacy policy and restricted permissions, it is arduous to collect a real large-scale communication network dataset in a short time. Much research work is constrained by the absence of real large-scale datasets. To address this problem, we can use this model to generate a large-scale synthetic communication network by a small amount of captured communication stream. Moreover, it has linear runtime complexity and can be paralleled easily.
Key wordscommunication network; generative model; simulation; complex network; communication stream
摘要探知通信網(wǎng)絡(luò)的形成和演化機(jī)制是復(fù)雜網(wǎng)絡(luò)領(lǐng)域中一個(gè)重要的研究點(diǎn).眾多研究者也提出了許多關(guān)于探索通信網(wǎng)絡(luò)形成及演化機(jī)制的方法.現(xiàn)有的網(wǎng)絡(luò)模擬方法主要著眼于網(wǎng)絡(luò)的宏觀特征而忽視了微觀特征,導(dǎo)致個(gè)體用戶模式的信息丟失.既然通信網(wǎng)絡(luò)是與使用者的行為緊密相關(guān)的,那么構(gòu)建模型時(shí)單用戶的模式也應(yīng)當(dāng)被考慮進(jìn)來(lái).通過(guò)對(duì)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)標(biāo)注一個(gè)隱含屬性——活躍度,提出一種基于主題模型的通信網(wǎng)絡(luò)高效模擬生成方法.在真實(shí)郵件網(wǎng)絡(luò)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了提出的方法能夠很好地模擬原網(wǎng)絡(luò)的整體特征和個(gè)體用戶的行為模式.此外,由于隱私策略和訪問(wèn)權(quán)限的限制,對(duì)于大多數(shù)研究者而言,短時(shí)間內(nèi)采集大規(guī)模的真實(shí)通信網(wǎng)絡(luò)數(shù)據(jù)是十分困難的.許多研究工作因缺乏實(shí)驗(yàn)數(shù)據(jù)而受到制約,應(yīng)對(duì)這個(gè)問(wèn)題,可以使用該算法借助少量已有的通信數(shù)據(jù)流來(lái)生成大規(guī)模的模擬數(shù)據(jù).該算法具有線性時(shí)間復(fù)雜度并且可以方便地并行化處理.
關(guān)鍵詞通信網(wǎng)絡(luò);生成模型;模擬;復(fù)雜網(wǎng)絡(luò);通信流
在現(xiàn)代生活中,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動(dòng)終端設(shè)備的普及,人們使用郵件、電話、即時(shí)通信軟件等各種通信方式進(jìn)行信息交流也變得越來(lái)越普遍.人們使用各種個(gè)人通信服務(wù)中產(chǎn)生的通信記錄所構(gòu)成的網(wǎng)絡(luò)通常稱(chēng)為通信網(wǎng)絡(luò),比如電子郵件網(wǎng)絡(luò)、即時(shí)通信網(wǎng)絡(luò)、移動(dòng)電話網(wǎng)絡(luò)、手機(jī)短信網(wǎng)絡(luò)等.這類(lèi)通信網(wǎng)絡(luò)包含了人們的社交關(guān)系、日常作息時(shí)間、工作生活習(xí)慣、工作性質(zhì)等諸多十分有價(jià)值的信息.近年來(lái),面向通信網(wǎng)絡(luò)的應(yīng)用研究引起了學(xué)者們的廣泛關(guān)注,產(chǎn)生了許多十分有意義的研究工作,例如用戶行為模式挖掘[1]、社團(tuán)發(fā)現(xiàn)[2-3]、社交關(guān)系推斷[4-5]、事件檢測(cè)[3,6-7]等.
由于通信網(wǎng)絡(luò)通常具有規(guī)模大、時(shí)變性強(qiáng)的特點(diǎn),許多面向通信網(wǎng)絡(luò)的應(yīng)用研究需要以一定規(guī)模的實(shí)驗(yàn)數(shù)據(jù)作為研究基礎(chǔ).現(xiàn)實(shí)中的通信網(wǎng)絡(luò)本身規(guī)??赡苁铸嫶?,例如一個(gè)大型企業(yè)的郵件系統(tǒng)可能包含上萬(wàn)節(jié)點(diǎn),每天產(chǎn)生大量的郵件通信記錄.另外通信網(wǎng)絡(luò)是典型的時(shí)變性網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)是隨著時(shí)間不斷變化的,不同時(shí)刻對(duì)網(wǎng)絡(luò)進(jìn)行采樣會(huì)得到不同的網(wǎng)絡(luò)拓?fù)溏R像.目前基于大數(shù)據(jù)的應(yīng)用技術(shù)研究正如火如荼地開(kāi)展,在面向通信網(wǎng)絡(luò)的應(yīng)用技術(shù)研究中諸如系統(tǒng)設(shè)計(jì)調(diào)試、算法效率優(yōu)化等工作也需要有大規(guī)模的實(shí)驗(yàn)數(shù)據(jù)做支持.
用戶個(gè)人隱私、系統(tǒng)管理權(quán)限、數(shù)據(jù)采集的時(shí)間成本等諸多限制,使得獲取大規(guī)模的真實(shí)通信網(wǎng)絡(luò)數(shù)據(jù)對(duì)于大多數(shù)的研究者而言十分困難.雖然通信網(wǎng)絡(luò)在日常生活中隨處可見(jiàn),但是可供研究者使用的大規(guī)模公開(kāi)的真實(shí)數(shù)據(jù)非常缺乏.不同于分享式的社交網(wǎng)絡(luò)數(shù)據(jù),研究者可以通過(guò)網(wǎng)絡(luò)爬取的方法來(lái)采集實(shí)驗(yàn)數(shù)據(jù),而通信網(wǎng)絡(luò)所產(chǎn)生的記錄信息涉及到個(gè)人的隱私,通常是僅對(duì)通信雙方公開(kāi)可見(jiàn),其他人是無(wú)法獲知的.要想獲得真實(shí)的實(shí)驗(yàn)數(shù)據(jù)就僅能在提供通信服務(wù)的服務(wù)器上部署采集程序,除卻系統(tǒng)權(quán)限獲取、隱私保護(hù)問(wèn)題之外,要采集大時(shí)間跨度的數(shù)據(jù)其中的時(shí)間成本也是一個(gè)不可避免的問(wèn)題.
如何獲取大規(guī)模的實(shí)驗(yàn)數(shù)據(jù)成為開(kāi)展后續(xù)應(yīng)用研究的首要瓶頸.為了應(yīng)對(duì)這個(gè)問(wèn)題,通常會(huì)構(gòu)建通信網(wǎng)絡(luò)的生成模型,然后利用計(jì)算機(jī)模擬的方法來(lái)生成模擬實(shí)驗(yàn)數(shù)據(jù).通信網(wǎng)絡(luò)可以視為復(fù)雜網(wǎng)絡(luò)的一種,經(jīng)典的復(fù)雜網(wǎng)絡(luò)生成模型如ER隨機(jī)網(wǎng)絡(luò)模型[8]、WS小世界網(wǎng)絡(luò)模型[9]、BA無(wú)標(biāo)度網(wǎng)絡(luò)模型[10]等,主要從網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)層面來(lái)描述網(wǎng)絡(luò)的形成和演化特征并模擬真實(shí)網(wǎng)絡(luò)的一些重要拓?fù)浣Y(jié)構(gòu)特性,如連通性、小世界性及節(jié)點(diǎn)度的冪率分布特性等.這類(lèi)普適的網(wǎng)絡(luò)生成模型大多不需要真實(shí)網(wǎng)絡(luò)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,模擬效果主要依賴(lài)于選取合適的模型參數(shù),而參數(shù)的選取很難有明確的限定.這類(lèi)模型的主要目的是揭示一些重要網(wǎng)絡(luò)拓?fù)涮卣鞯漠a(chǎn)生機(jī)制,僅能從宏觀層面對(duì)網(wǎng)絡(luò)某些全局特征進(jìn)行模擬,不能很好地保留個(gè)體用戶的特征,其生成的模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)相比信息丟失比較嚴(yán)重,不適合用來(lái)作為實(shí)驗(yàn)數(shù)據(jù)的生成器.
面向通信網(wǎng)絡(luò)的生成模型要求盡可能多地保留原始網(wǎng)絡(luò)特征之外還要有一定的泛化能力.多數(shù)面向應(yīng)用的研究依賴(lài)于對(duì)應(yīng)場(chǎng)景的真實(shí)通信網(wǎng)絡(luò)數(shù)據(jù),然而各種通信方式下用戶群體以及運(yùn)行模式的差異決定了不同類(lèi)型通信網(wǎng)絡(luò)具有各自的網(wǎng)絡(luò)特征及個(gè)體差異.不同類(lèi)型的通信網(wǎng)絡(luò)間的差異性不可忽略,例如面向郵件網(wǎng)絡(luò)的應(yīng)用技術(shù)研究一般不能使用移動(dòng)手機(jī)網(wǎng)絡(luò)的數(shù)據(jù)來(lái)替代,而即使同樣是郵件網(wǎng)絡(luò),不同的組織也會(huì)有不一樣的網(wǎng)絡(luò)結(jié)構(gòu)及特性.
基于以上分析本文重點(diǎn)考慮如下問(wèn)題:假設(shè)已獲取一定數(shù)量的通信網(wǎng)絡(luò)數(shù)據(jù),如何利用這些數(shù)據(jù)來(lái)構(gòu)建一個(gè)能夠合理地解釋通信網(wǎng)絡(luò)生成機(jī)制的模型并利用該模型快速生成大規(guī)模的模擬數(shù)據(jù),并且保證生成的模擬數(shù)據(jù)可以很好地保留原來(lái)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及個(gè)體用戶的通信行為特征.電子郵件網(wǎng)絡(luò)是通信網(wǎng)絡(luò)的代表性網(wǎng)絡(luò)之一,本文以某單位內(nèi)部人員間真實(shí)郵件通信網(wǎng)絡(luò)為例,詳細(xì)描述了通信網(wǎng)絡(luò)生成模型的參數(shù)學(xué)習(xí)和模擬效果.本文的貢獻(xiàn)主要體現(xiàn)在:
1) 通過(guò)引入用戶活躍度的概念構(gòu)建了一種通信網(wǎng)絡(luò)的生成模型.該模型首先模擬了網(wǎng)絡(luò)中各等級(jí)活躍度用戶的分布,然后從用戶角度描述了通信的發(fā)生過(guò)程,模擬結(jié)果兼顧了網(wǎng)絡(luò)整體和用戶個(gè)體2方面的特征,有著較為合理的解釋性,有助于理解通信網(wǎng)絡(luò)的產(chǎn)生和演化機(jī)制.
2) 在真實(shí)郵件數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并驗(yàn)證了該模型可用于快速生成大規(guī)模的模擬通信網(wǎng)絡(luò)數(shù)據(jù),同時(shí)能保證生成的模擬通信網(wǎng)絡(luò)既能體現(xiàn)通信網(wǎng)絡(luò)的宏觀特征又可以保留個(gè)體用戶的特征.模型的生成過(guò)程具有線性時(shí)間復(fù)雜度并且能方便地進(jìn)行分布式及并行化處理.
3) 該模型有良好的可擴(kuò)展性.模型訓(xùn)練完成后可以方便地通過(guò)修正模型的參數(shù)來(lái)生成不同情景下的模擬通信網(wǎng)絡(luò)數(shù)據(jù).比如設(shè)置定期刪除和添加一些節(jié)點(diǎn)或者改變一些節(jié)點(diǎn)的活躍度便可生成一個(gè)具有動(dòng)態(tài)演化特征的通信網(wǎng)絡(luò).
1相關(guān)工作
面向通信網(wǎng)絡(luò)的生成模型研究已有很多研究成果,可大致按是否需要訓(xùn)練集而分成2類(lèi):1)不需要訓(xùn)練集的模型.該模型是構(gòu)建某種數(shù)學(xué)迭代機(jī)制,通過(guò)對(duì)初始參數(shù)的調(diào)節(jié)來(lái)生成符合真實(shí)網(wǎng)絡(luò)某些特征的模擬網(wǎng)絡(luò).但是這類(lèi)模型有著局限性,例如網(wǎng)絡(luò)的結(jié)構(gòu)特性是十分復(fù)雜的,很多新的特征還在不斷地被發(fā)現(xiàn),而通過(guò)構(gòu)建數(shù)學(xué)機(jī)制來(lái)模擬網(wǎng)絡(luò)的特征往往只考慮到一個(gè)或幾個(gè)已知的特征,無(wú)法對(duì)未知的特征進(jìn)行有效的擬合,很多網(wǎng)絡(luò)特性很難通過(guò)單一的數(shù)學(xué)公式來(lái)模擬產(chǎn)生.2)需要訓(xùn)練集的網(wǎng)絡(luò)模型.該模型可以依據(jù)訓(xùn)練集來(lái)獲取更豐富的信息,對(duì)于不同類(lèi)型的通信網(wǎng)絡(luò)更加有針對(duì)性,能夠更好地對(duì)網(wǎng)絡(luò)的局部信息進(jìn)行擬合.
概括地講,上述這些模型更加關(guān)注生成的網(wǎng)絡(luò)是否符合已知的網(wǎng)絡(luò)性質(zhì),比如是否服從度的冪率分布、較小的網(wǎng)絡(luò)直徑等.模擬網(wǎng)絡(luò)的生成過(guò)程不需要訓(xùn)練集的參與,僅需要設(shè)置參數(shù)然后不斷迭代來(lái)生成最終的網(wǎng)絡(luò).這類(lèi)模擬方法沒(méi)有考察通信發(fā)生的時(shí)間,其中矩陣迭代的方式生成模擬網(wǎng)絡(luò)會(huì)丟失網(wǎng)絡(luò)中的節(jié)點(diǎn)標(biāo)簽信息,使得模擬網(wǎng)絡(luò)與真實(shí)網(wǎng)絡(luò)只能在網(wǎng)絡(luò)宏觀拓?fù)浣Y(jié)構(gòu)上保證是屬于同一類(lèi)型的網(wǎng)絡(luò),但無(wú)法判定模擬網(wǎng)絡(luò)中通信雙方的身份,這會(huì)對(duì)后續(xù)工作造成極大的不利影響.
此外,Budka等人[15]提出一種用于模擬動(dòng)態(tài)社交網(wǎng)絡(luò)演化的分子模型(molecular model).該模型首先將郵件網(wǎng)絡(luò)按照固定的時(shí)間間隔劃分成快照,每個(gè)快照就代表郵件網(wǎng)絡(luò)在該時(shí)間間隔內(nèi)的一個(gè)影像;然后定義2節(jié)點(diǎn)間的距離函數(shù),計(jì)算快照的距離矩陣;再將距離矩陣嵌入到一個(gè)高維歐幾里德空間,網(wǎng)絡(luò)中的節(jié)點(diǎn)就映射為歐幾里德空間中的點(diǎn),通過(guò)分子動(dòng)力學(xué)方法不斷迭代尋找網(wǎng)絡(luò)穩(wěn)定狀態(tài);最后利用網(wǎng)絡(luò)的穩(wěn)定狀態(tài)重構(gòu)出新的郵件網(wǎng)絡(luò).對(duì)郵件網(wǎng)絡(luò)數(shù)據(jù)的實(shí)驗(yàn)表明重構(gòu)得到的郵件網(wǎng)絡(luò)可以保持原網(wǎng)絡(luò)的整體特性,但會(huì)丟失網(wǎng)絡(luò)的局部特征,如個(gè)體的行為特性等.McCallum等人[16]提出的ART(author recipient topic) 模型同時(shí)對(duì)郵件的內(nèi)容和通信關(guān)系進(jìn)行了模擬.ART模型假設(shè)已知某封郵件的發(fā)信者s和其聯(lián)系人集合,先從聯(lián)系人集合中隨機(jī)挑選一位接收者r,這樣就生成一個(gè)通信關(guān)系(s,r),再通過(guò)自然語(yǔ)言處理中的主題模型來(lái)生成郵件的內(nèi)容.但ART模型中假設(shè)發(fā)信者與每位接收者的通信概率是均勻的,而現(xiàn)實(shí)中某發(fā)信者與其聯(lián)系人的通信概率通常是不均勻的,應(yīng)當(dāng)考慮到這一點(diǎn).
以上2種方法都需要借助訓(xùn)練集的數(shù)據(jù)來(lái)計(jì)算快照距離矩陣或獲取某用戶的聯(lián)系人列表,在對(duì)真實(shí)網(wǎng)絡(luò)特征的擬合上有著較好的效果,但他們沒(méi)有很好地描述個(gè)體用戶的真實(shí)行為特征以及通信時(shí)間規(guī)律.
綜上所述,許多關(guān)于網(wǎng)絡(luò)模擬的方法通常都是關(guān)注對(duì)網(wǎng)絡(luò)的整體特性,而沒(méi)有兼顧到個(gè)體用戶的特性也沒(méi)有對(duì)時(shí)間因素進(jìn)行模擬,而通信發(fā)生的時(shí)間也是用戶行為模式研究中十分重要的特征.此外有些模型需要復(fù)雜的矩陣迭代計(jì)算,運(yùn)算效率較低,同樣不適合用于快速生成大規(guī)模的模擬網(wǎng)絡(luò)數(shù)據(jù).
2通信網(wǎng)絡(luò)生成模型
如果把通信過(guò)程中的通信雙方作為節(jié)點(diǎn),有向邊表示信息的傳遞方向,發(fā)信者a在時(shí)刻t給接收者b發(fā)送了一條消息,則他們之間就產(chǎn)生了一條通信記錄(a,b:t).本質(zhì)上講,通信網(wǎng)絡(luò)就是由一條條通信記錄所構(gòu)成的通信流.如果將通信網(wǎng)絡(luò)按照某固定的時(shí)間間隔來(lái)劃分便可得到一系列的通信網(wǎng)絡(luò)快照{(diào)g1,g2,…,gm,…},每個(gè)快照包含了在該時(shí)間跨度內(nèi)所產(chǎn)生的所有通信記錄.本文假設(shè)每個(gè)快照之間以及快照內(nèi)每條記錄之間都是不相關(guān)的.
假設(shè)已經(jīng)獲得了一些通信網(wǎng)絡(luò)快照,本節(jié)下文詳細(xì)描述如何構(gòu)建通信網(wǎng)絡(luò)的生成模型并利用這些網(wǎng)絡(luò)快照來(lái)快速生成大規(guī)模的模擬網(wǎng)絡(luò)快照.
2.1基本思路
主題模型(topicmodel)是自然語(yǔ)言處理領(lǐng)域中應(yīng)用極廣的一種文檔主題挖掘方法.它引入了主題這一潛在變量,將每篇文檔視為若干主題的混合分布,而每個(gè)主題又可視為關(guān)于單詞的概率分布.最具代表性的主題模型就是LDA模型[17](latentDirichletallocation),它在“文檔-主題”這層結(jié)構(gòu)中引入先驗(yàn)Dirichlet分布,這樣就構(gòu)成了一個(gè)“文檔-主題-單詞”的3層貝葉斯概率模型.主題模型對(duì)于每篇文檔生成過(guò)程解釋為先從該文檔的主題分布中抽取一個(gè)主題,然后從該主題對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞,整個(gè)過(guò)程重復(fù)R次即得到一篇含有R個(gè)單詞的文檔.在LDA模型的基礎(chǔ)上,學(xué)者們進(jìn)行了深入地研究,相繼提出了許多改進(jìn)的主題挖掘模型,如DTM[18](dynamictopicmodels),MB-LDA[19]等.
鑒于主題模型的思想,本文在通信網(wǎng)絡(luò)中引入了用戶活躍度的概念,將通信網(wǎng)絡(luò)的生成過(guò)程描述為“快照-用戶活躍度-通信記錄”的3層貝葉斯網(wǎng)絡(luò),其中通信記錄又包含了發(fā)送者、接收者、時(shí)間戳3個(gè)元素,利用訓(xùn)練集數(shù)據(jù)計(jì)算模型參數(shù),然后依次生成多個(gè)模擬通信網(wǎng)絡(luò)快照.本文假設(shè)通信網(wǎng)絡(luò)快照是由一些彼此無(wú)關(guān)的通信記錄組成的,如果將網(wǎng)絡(luò)快照和通信記錄分別比作主題模型中文檔和單詞的概念,那么用戶活躍度就是連接二者的隱含變量.借助活躍度我們可以從宏觀網(wǎng)絡(luò)層面和微觀個(gè)體層面對(duì)網(wǎng)絡(luò)進(jìn)行建模分析并將二者合理地統(tǒng)一起來(lái),用于闡述網(wǎng)絡(luò)整體特征及個(gè)體用戶行為的形成機(jī)制.
定義1. 用戶活躍度.用戶在各通信網(wǎng)絡(luò)快照中主動(dòng)發(fā)起通信的概率.
用戶活躍度表示了用戶使用通信服務(wù)的頻繁程度,用戶活躍度越高就說(shuō)明該用戶在以往的快照中多次主動(dòng)發(fā)送過(guò)信息,這也意味著該用戶在下一個(gè)快照中有較大的概率會(huì)以發(fā)送者的身份再次出現(xiàn).本文以用戶在M個(gè)訓(xùn)練集快照中作為信息發(fā)送者出現(xiàn)過(guò)的快照個(gè)數(shù)作為參照,將全體用戶劃分成K個(gè)活躍度等級(jí),K為[2,M]的整數(shù).活躍度等級(jí)個(gè)數(shù)K的選取會(huì)影響模型的復(fù)雜度和模型的準(zhǔn)確度,簡(jiǎn)便的方法是將用戶在訓(xùn)練集中作為發(fā)送者出現(xiàn)過(guò)的快照個(gè)數(shù)直接作為該用戶的活躍度等級(jí),即如果用戶在m個(gè)訓(xùn)練集快照中都發(fā)送過(guò)消息則定義他的活躍度等級(jí)為m.為簡(jiǎn)便起見(jiàn),本文第3節(jié)的實(shí)驗(yàn)將采用這種方式來(lái)定義用戶的活躍度等級(jí)個(gè)數(shù),即K=M.
本文使用的標(biāo)識(shí)和含義詳見(jiàn)表1所示:
Table 1 Interpretation of Symbols
2.2生成模型的構(gòu)建與參數(shù)推導(dǎo)
每個(gè)通信網(wǎng)絡(luò)快照內(nèi)包含了若干條通信記錄,類(lèi)比于主題模型,我們認(rèn)為這些通信記錄是由不同活躍度等級(jí)的用戶所發(fā)送的,而每個(gè)快照中出現(xiàn)的這些不同的活躍度等級(jí)服從Categorical分布*http:en.wikipedia.orgwikiCategorical_distribution;在同一活躍度等級(jí)內(nèi)的各用戶發(fā)送信息的概率也不相同,也服從Categorical分布;同一用戶發(fā)送消息的時(shí)刻和消息接收者也服從Categorical分布.類(lèi)似于LDA模型,我們也在“快照-用戶活躍度”層面引入Categorical分布的共軛分布——Dirichlet分布——作為先驗(yàn)分布,構(gòu)建3層貝葉斯網(wǎng)絡(luò).
圖1展示了通信網(wǎng)絡(luò)生成模型的概率圖(也稱(chēng)為“盤(pán)子表示法”).圖1中的陰影圓圈表示可觀測(cè)變量,非陰影圓圈表示潛在變量,箭頭表示變量間的條件依賴(lài)性,方框及其下角的字母表示重復(fù)抽樣次數(shù).
Fig. 1 Graphical representation of the generative model.圖1 生成模型的概率圖表示
對(duì)于單個(gè)通信網(wǎng)絡(luò)快照gm,其生成過(guò)程可以形式化描述如下:
過(guò)程1. 單個(gè)快照的生成過(guò)程.
① DrawNm~Normal(Θ);*確定快照中通信記錄的數(shù)量Nm*
② Draw ?m~Dirichlet(α);*確定快照中發(fā)送者的活躍度分布參數(shù)?m*
③ forn=1:Nm*循環(huán)生成Nm條通信記錄*
④ Drawzm n~Categorical(?m);*采樣得到一個(gè)發(fā)送者的活躍度等級(jí)zm n*
⑤ Drawsm n~Categorical(φzm n);*從zm n等級(jí)發(fā)送者集中采樣得到某發(fā)送者sm n*
⑥ Drawtm n~Categorical(tsm n);*從sm n的時(shí)間集中采樣得到某發(fā)送時(shí)間戳tm n*
⑦ Drawrm n~Categorical(γsm n);*從sm n的聯(lián)系人集中采樣得到某收信者rm n,這便構(gòu)成一條通信記錄(sm n,rm n:tm n)*
⑧ end for
圖1所示的模型中各活躍度等級(jí)下用戶的概率分布參數(shù)φ、各用戶的發(fā)信時(shí)刻的概率分布參數(shù)t、各用戶的聯(lián)系人的概率分布參數(shù)γ均可通過(guò)對(duì)訓(xùn)練快照進(jìn)行簡(jiǎn)單地統(tǒng)計(jì)計(jì)算得出,則求解狄利克雷分布的超參α推導(dǎo)過(guò)程如下:
(1)
由生成過(guò)程中步驟②可知:
(2)
其中,Γ(x)為Gamma函數(shù),αk表示α的第k個(gè)分量.
由過(guò)程1中步驟④可知:
(3)
將式(2)、式(3)帶入式(1)可得:
(4)
(5)
將式(5)帶入式(4)可得:
假設(shè)給定α下各個(gè)快照間是條件獨(dú)立的,因此:
(6)
對(duì)式(6)進(jìn)行最大似然估計(jì)即可求得狄利克雷分布的超參α.此外,Minka在文獻(xiàn)[20]中提出一種簡(jiǎn)單高效的估算狄利克雷分布超參α的不動(dòng)點(diǎn)迭代方法,則本文提出的網(wǎng)絡(luò)生成模型中Dirichlet分布超參α的各個(gè)分量αk,k∈[1,k]可按如下公式來(lái)迭代計(jì)算:
(7)
Fig. 2 Number of communications for snapshots.圖2 各快照通信量
在使用該模型生成模擬快照時(shí),只需要對(duì)訓(xùn)練集進(jìn)行簡(jiǎn)單統(tǒng)計(jì)計(jì)算得到參數(shù)Θ,α,φ,t,γ,即可重復(fù)過(guò)程1來(lái)生成多個(gè)模擬網(wǎng)絡(luò)快照.注意過(guò)程1中利用正態(tài)分布采樣來(lái)得到各模擬快照中通信記錄的個(gè)數(shù),此處正態(tài)分布僅是示例,在實(shí)際使用中應(yīng)該根據(jù)真實(shí)通信網(wǎng)絡(luò)快照的通信量進(jìn)行擬合分布的選擇,在3.2節(jié)中給出了一種選擇策略.
此外,該模型對(duì)訓(xùn)練集的依賴(lài)性較強(qiáng),訓(xùn)練集中未出現(xiàn)的通信記錄,同樣不會(huì)出現(xiàn)在模擬網(wǎng)絡(luò)中.解決這個(gè)問(wèn)題可以通過(guò)類(lèi)似PageRank算法[21]中設(shè)置一個(gè)阻尼因子(damping factor)d來(lái)調(diào)節(jié),即用戶有d的概率從自己訓(xùn)練集聯(lián)系人列表中按概率挑選一個(gè)信息接收者,有1-d的概率在全網(wǎng)中隨機(jī)挑選一個(gè)用戶作為信息接收者.同樣地,對(duì)于用戶的發(fā)信時(shí)間也可以依此方法來(lái)做調(diào)整.另外,模型并沒(méi)有考慮通信網(wǎng)絡(luò)中節(jié)點(diǎn)的增加和消失等現(xiàn)象,對(duì)此可以通過(guò)在模型訓(xùn)練好的參數(shù)中隨機(jī)添加或刪除某些節(jié)點(diǎn)、更改節(jié)點(diǎn)的活躍度等級(jí)以及修改聯(lián)系人列表等方式來(lái)模擬網(wǎng)絡(luò)的進(jìn)化和演變,從而能夠產(chǎn)生符合某種演化情景的模擬網(wǎng)絡(luò),同時(shí)這也說(shuō)明本文提出的通信網(wǎng)絡(luò)生成算法具有較好的可擴(kuò)展性.
3實(shí)驗(yàn)結(jié)果與分析
由于本文的方法僅涉及到通信網(wǎng)絡(luò)中通信記錄的發(fā)送者、接收者以及發(fā)送時(shí)間3個(gè)屬性,以下工作僅以郵件通信網(wǎng)絡(luò)為例,相關(guān)工作可以很自然地應(yīng)用到其他類(lèi)型的通信網(wǎng)絡(luò).
3.1實(shí)驗(yàn)數(shù)據(jù)
本文實(shí)驗(yàn)數(shù)據(jù)取自某單位自2011-02-19(周六)—2011-04-29(周五)共10周的內(nèi)部人員間郵件通信網(wǎng)絡(luò)日志數(shù)據(jù),過(guò)濾掉無(wú)效的郵件地址,僅保留通信雙方均是內(nèi)部郵箱的數(shù)據(jù).實(shí)驗(yàn)數(shù)據(jù)按天為時(shí)間間隔劃分成70個(gè)快照,每個(gè)快照包含當(dāng)日所有的郵件通信記錄,每條記錄包含發(fā)信時(shí)間、發(fā)信者ID、收信者ID三個(gè)信息,共包含109 709條通信記錄和2 797個(gè)郵箱.
圖2表示了各個(gè)快照的通信記錄數(shù)量,從圖2可以看出周末的通信記錄數(shù)量與工作日相比有明顯的區(qū)別.通過(guò)對(duì)快照的通信量進(jìn)行參數(shù)為2的Kmeans聚類(lèi)分析可知,數(shù)據(jù)明顯地被劃分為工作日和周末2類(lèi).對(duì)此可理解為郵件通信更多地被用于工作上的信息交流,而周末是休息時(shí)間,因此通信量會(huì)大大降低.考慮到工作日和周末2個(gè)時(shí)間段內(nèi)用戶的郵件通信會(huì)有著不同的行為模式,因此在后續(xù)實(shí)驗(yàn)中我們將原始數(shù)據(jù)分成工作日和周末2個(gè)快照集合來(lái)分別進(jìn)行模擬,最后將二者的模擬數(shù)據(jù)合并到一起作為最終的實(shí)驗(yàn)?zāi)M數(shù)據(jù).
3.2初始參數(shù)設(shè)置
由于工作日和周末2類(lèi)數(shù)據(jù)的模擬過(guò)程是一致的,為了簡(jiǎn)便起見(jiàn)本節(jié)中僅以工作日的50個(gè)快照數(shù)據(jù)集作為示例來(lái)描述實(shí)驗(yàn)中快照通信量的分布選擇過(guò)程和狄利克雷分布初始參數(shù)的設(shè)置.
為了模擬各個(gè)快照的通信量分布,實(shí)驗(yàn)中選取正態(tài)分布(normal)、對(duì)數(shù)正態(tài)分布(lognormal)、泊松分布(poisson)、隨機(jī)分布(random)作為候選的擬合分布.首先利用工作日快照的通信量數(shù)據(jù)作為訓(xùn)練集得到各候選分布的擬合參數(shù);然后使用該參數(shù)來(lái)產(chǎn)生通信量的50個(gè)擬合數(shù)據(jù);再對(duì)訓(xùn)練集數(shù)據(jù)和擬合數(shù)據(jù)按通信量大小進(jìn)行排序并計(jì)算兩者的平均誤差,計(jì)算方法如下:
其中,M指訓(xùn)練集的快照個(gè)數(shù),T(i)指訓(xùn)練集通信量排序后的第i個(gè)值,S(i)指擬合數(shù)據(jù)排序后第i個(gè)值.
Fig. 3 Fitting performance of different distributions on snapshot communications.圖3 不同分布對(duì)快照通信量的擬合效果
實(shí)驗(yàn)中上述擬合分布的選擇過(guò)程重復(fù)進(jìn)行50次,各候選擬合分布的平均誤差如圖3所示.從圖3可以看出,使用正態(tài)分布來(lái)擬合工作日的通信量平均誤差最小,因此本實(shí)驗(yàn)中選用正態(tài)分布作為工作日通信量的擬合分布來(lái)生成模擬快照的通信量數(shù)據(jù).不同的測(cè)試數(shù)據(jù)可能有著不同的擬合分布,在實(shí)際情況下應(yīng)當(dāng)有針對(duì)性地選取恰當(dāng)?shù)臄M合分布來(lái)進(jìn)行通信量的模擬.利用式(7)迭代計(jì)算狄利克雷分布參數(shù)α?xí)r需要給定一個(gè)初始值,實(shí)驗(yàn)表明該初始值的選取對(duì)于計(jì)算結(jié)果是無(wú)影響的,只會(huì)影響到收斂所需要的迭代次數(shù).實(shí)驗(yàn)中以迭代前后2次α的歐氏距離作為誤差閾值,迭代終止閾值設(shè)為10-4;α各個(gè)分量初始值設(shè)為αk=pkM,k=1,2,…,K,其中pk指訓(xùn)練集中發(fā)信者活躍度為k的通信記錄所占比例,M代表訓(xùn)練集快照個(gè)數(shù),K代表發(fā)信者活躍度等級(jí)個(gè)數(shù).
3.3實(shí)驗(yàn)評(píng)估與分析
本節(jié)中先依次生成50個(gè)工作日模擬快照和20個(gè)周末的模擬快照,然后將二者組合起來(lái)作為10周的模擬通信網(wǎng)絡(luò)數(shù)據(jù),再對(duì)該模擬通信網(wǎng)絡(luò)從網(wǎng)絡(luò)整體特征和個(gè)體行為特征2個(gè)層面與訓(xùn)練集通信網(wǎng)絡(luò)進(jìn)行對(duì)比評(píng)估,最后對(duì)本文生成算法的運(yùn)行效率進(jìn)行簡(jiǎn)要的實(shí)驗(yàn)分析.
1) 在網(wǎng)絡(luò)整體特征層面本文選取網(wǎng)絡(luò)整體的節(jié)點(diǎn)度分布和通信發(fā)生的時(shí)間分布來(lái)作對(duì)比.通信網(wǎng)絡(luò)節(jié)點(diǎn)度服從冪率分布是通信網(wǎng)絡(luò)的一個(gè)重要特征,同時(shí)也說(shuō)明了網(wǎng)絡(luò)的無(wú)標(biāo)度(scale-free)特性[22].圖4給出了模擬網(wǎng)絡(luò)與訓(xùn)練網(wǎng)絡(luò)的節(jié)點(diǎn)度分布對(duì)比圖.從圖4可以直觀地看出,二者在節(jié)點(diǎn)度分布上是非常吻合的,這也說(shuō)明了模擬網(wǎng)絡(luò)很好地保留了節(jié)點(diǎn)度分布這一網(wǎng)絡(luò)整體結(jié)構(gòu)特征.通信網(wǎng)絡(luò)中節(jié)點(diǎn)度服從冪率分布本質(zhì)上是對(duì)節(jié)點(diǎn)通信關(guān)系進(jìn)行統(tǒng)計(jì)歸納得出的結(jié)論.本文提出的生成模型通過(guò)對(duì)訓(xùn)練集網(wǎng)絡(luò)的學(xué)習(xí)既從網(wǎng)絡(luò)層面保證了各活躍度等級(jí)的用戶在模擬網(wǎng)絡(luò)中的分布比例,同時(shí)生成的模擬網(wǎng)絡(luò)中節(jié)點(diǎn)的通信關(guān)系具有較高的真實(shí)性,因此模擬網(wǎng)絡(luò)的許多統(tǒng)計(jì)特征都與訓(xùn)練集網(wǎng)絡(luò)有著很好的相似性.
Fig. 4 Comparison of node degree of two networks.圖4 模擬網(wǎng)絡(luò)與原始網(wǎng)絡(luò)節(jié)點(diǎn)度對(duì)比
通信網(wǎng)絡(luò)整體的通信時(shí)間分布反映了該通信網(wǎng)絡(luò)的活躍時(shí)段是研究網(wǎng)絡(luò)變化的一個(gè)重要特征.通信網(wǎng)絡(luò)中各個(gè)時(shí)間段內(nèi)產(chǎn)生通信次數(shù)的比例反映了全體用戶的基本活躍時(shí)間.在沒(méi)有突發(fā)事件相對(duì)穩(wěn)定的情況下,通信網(wǎng)絡(luò)中各時(shí)間段內(nèi)產(chǎn)生通信次數(shù)的比例也應(yīng)當(dāng)是一致的.
Fig. 5 Comparison of time distribution of two networks.圖5 模擬數(shù)據(jù)與原始數(shù)據(jù)時(shí)間分布對(duì)比圖
Fig. 6 Comparison of frequency of one user’s recipients.圖6 某用戶的各聯(lián)系人通信頻率對(duì)比圖
圖5給出了模擬網(wǎng)絡(luò)與訓(xùn)練網(wǎng)絡(luò)的活躍時(shí)間分布對(duì)比圖.從圖5(a)(b)可以看出,模擬網(wǎng)絡(luò)很好地保留了上午、下午、晚上3個(gè)明顯的通信活躍時(shí)間段,其中縱軸表示該時(shí)間段通信量占全天通信量的比值;圖5(c)給出了對(duì)應(yīng)時(shí)間段內(nèi)二者的差距,可以看出波動(dòng)范圍維持在±3%內(nèi),說(shuō)明模擬通信網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)整體活躍時(shí)間分布的模擬效果很好.2) 在用戶的個(gè)體特征層面本文選取用戶的常用聯(lián)系人通信頻率和用戶發(fā)起通信的時(shí)間分布2個(gè)特征進(jìn)行對(duì)比.用戶的常用聯(lián)系人通信頻率體現(xiàn)了用戶日常的社交關(guān)系網(wǎng)是研究用戶地位和社交關(guān)系的重要特征.首先將該用戶在訓(xùn)練網(wǎng)絡(luò)中的聯(lián)系人按照通信頻度進(jìn)行排序并編號(hào),然后與模擬網(wǎng)絡(luò)中該聯(lián)系人的通信頻度作對(duì)比.圖6給出了某用戶與其160位聯(lián)系人的通信頻率對(duì)比圖.從圖6可以看出,模擬網(wǎng)絡(luò)在全局上較好地維持了個(gè)體用戶與其聯(lián)系人的通信頻度.
Fig. 7 Comparison of time distribution of one user.圖7 某用戶模擬數(shù)據(jù)與原始數(shù)據(jù)時(shí)間分布對(duì)比圖
用戶發(fā)起通信的時(shí)間分布體現(xiàn)了該用戶工作、生活中的基本作息規(guī)律是分析用戶行為模式的時(shí)間標(biāo)尺.圖7給出了模擬網(wǎng)絡(luò)與訓(xùn)練網(wǎng)絡(luò)的活躍時(shí)間分布對(duì)比圖.從圖7(c)可以看出,該用戶在模擬網(wǎng)絡(luò)中的通信時(shí)間分布與訓(xùn)練網(wǎng)絡(luò)相比維持在±2%的波動(dòng)范圍內(nèi),這表明使用本文的方法生成的模擬通信網(wǎng)絡(luò)對(duì)個(gè)體用戶的活躍時(shí)間分布也有很好的模擬效果.3) 對(duì)本文提出的通信網(wǎng)絡(luò)模擬生成算法的運(yùn)行效率作簡(jiǎn)單的實(shí)驗(yàn)分析.該算法的訓(xùn)練階段僅是對(duì)訓(xùn)練集進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)計(jì)算,用來(lái)標(biāo)記用戶活躍度等級(jí)、計(jì)算快照的通信量分布參數(shù)和狄利克雷分布參數(shù)等.由于訓(xùn)練集的規(guī)模通常是比較小的,并且僅需要訓(xùn)練一次即可重復(fù)使用;另外對(duì)于生成大規(guī)模模擬通信網(wǎng)絡(luò)而言主要的時(shí)間消耗是在算法的生成階段,因此下文假設(shè)已經(jīng)得到了訓(xùn)練階段的相關(guān)參數(shù),僅對(duì)算法生成階段的運(yùn)行效率進(jìn)行實(shí)驗(yàn)評(píng)估.
Fig. 8 Relationship between number of synthetic snapshots and runtime.圖8 模擬快照數(shù)量與運(yùn)行時(shí)間的關(guān)系
這部分測(cè)試實(shí)驗(yàn)僅以50個(gè)工作日快照數(shù)據(jù)為例,采用過(guò)程1的C++實(shí)現(xiàn)(未并行化)在一臺(tái)普通筆記本(CPU主頻2.5 GHz、4核、可用內(nèi)存2.91 GB)上運(yùn)行多次,分別生成500~5 000個(gè)模擬通信網(wǎng)絡(luò)快照,程序的運(yùn)行時(shí)間如圖8所示.從圖8可以看出,程序的運(yùn)行時(shí)間與需要生成的模擬快照數(shù)量是呈線性相關(guān)的;生成5 000個(gè)模擬工作日快照大約需要270 s,而模擬數(shù)據(jù)規(guī)模是訓(xùn)練集的100倍.此外,由于生成的模擬快照之間沒(méi)有聯(lián)系是相互獨(dú)立的,故生成算法可以方便地進(jìn)行分布式并行處理以提升生產(chǎn)效率,適用于大規(guī)模網(wǎng)絡(luò)模擬工作.
4結(jié)束語(yǔ)
本文針對(duì)通信網(wǎng)絡(luò)的形成機(jī)制和仿真問(wèn)題,提出一種基于主題模型的通信網(wǎng)絡(luò)快速生成算法,并通過(guò)對(duì)真實(shí)郵件網(wǎng)絡(luò)的實(shí)驗(yàn)分析,驗(yàn)證了該算法的有效性及運(yùn)行高效性.與現(xiàn)有很多網(wǎng)絡(luò)模擬算法相比,本文提出的方法生成的模擬通信網(wǎng)絡(luò)可以很好地保留原始的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及個(gè)體用戶的通信行為特征,也為通信網(wǎng)絡(luò)的形成及演變機(jī)制提供了新的解釋思路;同時(shí)它具有運(yùn)行效率高、可并行化的特點(diǎn),能夠快速生成大規(guī)模的模擬數(shù)據(jù).
但是本文并沒(méi)有考慮時(shí)間和快照的關(guān)系,僅把模擬網(wǎng)絡(luò)快照生成的前后順序作為模擬快照時(shí)間的順序.而在實(shí)際中,通信網(wǎng)絡(luò)可能會(huì)跟時(shí)間有某種特殊聯(lián)系,例如大學(xué)中寒、暑假期間郵件網(wǎng)絡(luò)的通信量會(huì)明顯減少,而開(kāi)學(xué)初期又會(huì)有大量新郵箱注冊(cè)激活等.這些事件跟具體通信網(wǎng)絡(luò)的應(yīng)用場(chǎng)景緊密相關(guān),如何在模擬通信網(wǎng)絡(luò)中如實(shí)地體現(xiàn)通信網(wǎng)絡(luò)的演化特征以及周期性事件是一個(gè)值得深入研究的問(wèn)題.另外,如何恰當(dāng)?shù)卮_定模型中活躍度等級(jí)個(gè)數(shù)K也有待進(jìn)一步研究.
參考文獻(xiàn)
[1]On B W, Lim E P, Jiang J, et al. Messaging behavior modeling in mobile social networks[C]Proc of the 2nd Int Conf on Social Computing. Piscataway, NJ: IEEE, 2010: 425-430
[2]Tyler J R, Wilkinson D M, Huberman B A. E-mail as spectroscopy: Automated discovery of community structure within organizations[J]. The Information Society, 2005, 21(2): 143-153
[3]Sun J, Faloutsos C, Papadimitriou S, et al. GraphScope: Parameter-free mining of large time-evolving graphs[C]Proc of the 13th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2007: 687-696
[4]Hu Xia, Liu Hua. Social status and role analysis of palin’s email network[C]Proc of the 21st Int Conf Companion on World Wide Web. New York: ACM, 2012: 531-532
[5]Rowe R, Creamer G, Hershkop S, et al. Automated social hierarchy detection through email network analysis[C]Proc of the 9th WebKDD and the 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis. New York: ACM, 2007: 109-117
[6]Akoglu L, Dalvi B. Structure, tie persistence and event detection in large phone and SMS networks[C]Proc of the 8th Workshop on Mining and Learning with Graphs. New York: ACM, 2010: 10-17
[7]Akoglu L, McGlohon M, Faloutsos C. OddBall: Spotting anomalies in weighted graphs[C]Proc of the 14th Pacific-Asia Conf on Knowledge Discovery and Data Mining. Berlin: Springer, 2010: 410-421
[8]Erd?s P, Rényi A. On the evolution of random graphs[J]. Publication of the Mathematical Institute of the Hungarian Academy of Sciences, 1960, 5: 17-61
[9]Watts D J, Strogatz S H. Collective dynamics of ‘small-world’ networks[J]. Nature, 1998, 393(6684): 440-442
[10]Barabási A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512
[11]Li Xiang, Chen Guanrong. A local-world evolving network model[J]. Physica A: Statistical Mechanics and Its Applications, 2003, 328(1): 274-286
[12]Chakrabarti D, Zhan Yiping, Faloutsos C. R-MAT: A recursive model for graph mining[C]Proc of the 2004 SIAM Int Conf on Data Mining. Philadelphia, PA : SIAM, 2004: 442-446
[13]Leskovec J, Chakrabarti D, Kleinberg J, et al. Realistic, mathematically tractable graph generation and evolution, using Kronecker multiplication[C]Proc of the Knowledge Discovery in Databases. Berlin: Springer, 2005: 133-145
[14]Liu Yanheng, Li Feipeng, Sun Xin, et al. Social network model based on the transmission of information[J]. Journal on Communications, 2013, 34(4): 1-9 (in Chinese)(劉衍珩, 李飛鵬, 孫鑫, 等. 基于信息傳播的社交網(wǎng)絡(luò)拓?fù)淠P蚚J]. 通信學(xué)報(bào), 2013, 34(4): 1-9)
[15]Budka M, Juszczyszyn K, Musial K, et al. Molecular model of dynamic social network based on e-mail communication[J]. Social Network Analysis and Mining, 2013, 3(3): 543-563
[16]McCallum A, Wang X, Corrada-Emmanuel A. Topic and role discovery in social networks with experiments on enron and academic email[J]. Journal of Artificial Intelligence Research, 2007, 30(1): 249-272
[17]Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022
[18]Blei D M, Lafferty J D. Dynamic topic models[C]Proc of the 23rd Int Conf on Machine Learning. New York: ACM, 2006: 113-120
[19]Zhang Chenyi, Sun Jianling, Ding Yiqun. Topic ming for microblog based on MB-LDA model[J]. Journal of Computer Research and Development, 2011, 48(10): 1795-1802 (in Chinese)(張晨逸, 孫建伶, 丁軼群. 基于MB-LDA模型的微博主題挖掘[J]. 計(jì)算機(jī)研究與發(fā)展, 2011, 48(10): 1795-1802)
[20]Minka T. Estimating a Dirichlet distribution[ROL].[2014-10-01]. http:research.microsoft.comen-usumpeopleminkapapersdirichletminka-dirichlet.pdf
[21]Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bringing order to the Web[OL]. [2014-10-01]. http:ilpubs.stanford.edu: 809042211999-66.pdf
[22]Ebel H, Mielsch L I, Bornholdt S. Scale-free topology of e-mail networks[J]. Physical Review E, 2002, 66(3): 035103
Li Quangang, born in 1986. PhD candidate. Student member of China Computer Federation. His main research interests include pattern recognition, social network and machine learning.
Liu Qiao, born in 1974. PhD and associate professor. His main research interests include pattern recognition, social network and machine learning.
Qin Zhiguang, born in 1956. PhD, professor and PhD supervisor. His main research interests include information security and complex network.
中圖法分類(lèi)號(hào)TP181
基金項(xiàng)目:國(guó)家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2011AA010706);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61133016);中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(ZYGX2012J067)
收稿日期:2014-10-17;修回日期:2015-02-09
This work was supported by the National High Technology Research and Development Program of China (863 Program) (2011AA010706), the Key Program of the National Natural Science Foundation of China (61133016), and the Fundamental Research Funds for the Central Universities (ZYGX2012J067).