譚思妮,陳平華
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中有影響力用戶的識別研究
譚思妮,陳平華
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
通過分析蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)的特點(diǎn),指出識別蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中有影響力用戶的重要意義.重點(diǎn)探討微博用戶自身屬性對用戶影響力的作用,結(jié)合PageRank算法原理,提出一種蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中有影響力用戶發(fā)現(xiàn)方法 (Influential User Discovering Algorithm,IUDA),并基于新浪微博的真實(shí)用戶數(shù)據(jù)將該方法與另外兩種方法進(jìn)行對比實(shí)驗(yàn).結(jié)果顯示,結(jié)合用戶本身影響值的IUDA方法可以更高質(zhì)量地發(fā)現(xiàn)蛛網(wǎng)態(tài)微博網(wǎng)中有影響力用戶,客觀反映用戶的影響力.
有影響力用戶; 微博; 微博關(guān)系網(wǎng); PageRank; 中心性分析
近年來,隨著智能移動終端的普及,微博社交網(wǎng)絡(luò)發(fā)展迅速,積聚了大量的用戶數(shù)據(jù)信息,引起了業(yè)內(nèi)學(xué)者的廣泛關(guān)注.CNNIC最新發(fā)布的《第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》指出:截至2013年12月,我國微博用戶規(guī)模為2.81億.
微博關(guān)系網(wǎng)描述了人與人之間通過微博互相關(guān)注而建立的相互關(guān)系狀態(tài),具有多樣性的特點(diǎn),根據(jù)微博的傳播形態(tài),可以將微博關(guān)系網(wǎng)分為放射態(tài)微博關(guān)系網(wǎng)和蛛網(wǎng)態(tài)微博關(guān)系網(wǎng),如圖1所示[1].其中,放射態(tài)微博關(guān)系網(wǎng)具有明顯的中心性,由中間向四周發(fā)散或由四周向中心聚攏,主要是以企事業(yè)單位、名人或明星等的微博為代表,它們本身就具有一定的影響力,吸引了大量的粉絲關(guān)注;而蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)沒有明顯的特點(diǎn),用戶多以普通大眾為主,關(guān)注對象多為認(rèn)識的好友或者是喜歡的微博,由于用戶本身的不同,每個用戶對人的影響力是不同的.
圖1 微博網(wǎng)絡(luò)傳播形態(tài)
微博用戶影響力主要是指微博用戶影響或改變其他微博用戶心理和行為的能力,是衡量微博用戶重要性的重要指標(biāo).用戶影響力越大,說明其在微博關(guān)系網(wǎng)中受到的關(guān)注度越高.
識別微博關(guān)系網(wǎng)中有影響力的用戶,有助于對微博社交網(wǎng)絡(luò)本身的研究,例如微博的個性化推薦研究、微博的傳播研究等,對于發(fā)展新的商業(yè)機(jī)會,發(fā)現(xiàn)社會問題和監(jiān)控政治輿情也有非常重要的意義.不過,微博關(guān)系網(wǎng)具有弱關(guān)系特點(diǎn),其網(wǎng)絡(luò)用戶節(jié)點(diǎn)具有明顯的異構(gòu)性[2],這對蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中有影響力用戶的識別工作帶來了一定的挑戰(zhàn).
當(dāng)前,國內(nèi)外主要基于Twitter和新浪微博兩個熱門微博開展了大量的理論和實(shí)踐研究.研究工作主要集中在對微博用戶特征及用戶影響力的決定因素的研究[3-5]、對用戶影響力的量化衡量[6-7]、對用戶影響力排序算法的研究[8-9]、微博好友推薦[10-12]、微博社區(qū)的發(fā)現(xiàn)[13]等方面.其中,文獻(xiàn)[8]針對微博話題中關(guān)鍵人物的識別問題,利用微博信息傳播特征分析用戶屬性,提出了一種基于個人屬性特征的用戶影響力分析方法——PBF方法.文獻(xiàn)[9]考慮用戶微博主題相似性,對PageRank算法進(jìn)行擴(kuò)展,提出一種衡量Twitter中用戶在某一主題內(nèi)的影響力的算法.
從研究方法來看,當(dāng)前發(fā)現(xiàn)有影響力用戶的方法主要有以下幾種:
(1) 基于統(tǒng)計(jì)學(xué)的研究方法,根據(jù)用戶的單個屬性(如用戶粉絲數(shù))進(jìn)行統(tǒng)計(jì)性分析,從而找出有影響力用戶.但是,由于選取屬性單一,往往發(fā)現(xiàn)的結(jié)果十分粗糙,因而有學(xué)者提出對多屬性進(jìn)行統(tǒng)計(jì)性分析.文獻(xiàn)[14]指出發(fā)現(xiàn)有影響力博客是了解博客發(fā)展的一種方式,對識別有影響力博主的條件進(jìn)行分析,指出博主影響力由文章長度、收到回復(fù)數(shù)、入度數(shù)、出度數(shù)共同決定,最后提出一個識別有影響力博主的預(yù)測模型.
(2) 基于社會網(wǎng)絡(luò)分析的研究方法,通過分析用戶關(guān)系,構(gòu)建用戶關(guān)系網(wǎng),衡量網(wǎng)絡(luò)節(jié)點(diǎn)的重要性,從而發(fā)現(xiàn)有影響力用戶.常見的衡量網(wǎng)絡(luò)節(jié)點(diǎn)重要性的方法有點(diǎn)度中心度、中間中心度、PageRank排名算法及其改進(jìn)算法等.但是,該類方法偏重于關(guān)系,而忽略了節(jié)點(diǎn)本身的影響,難免有失準(zhǔn)確.文獻(xiàn)[15]指出測量社區(qū)節(jié)點(diǎn)重要性和節(jié)點(diǎn)間關(guān)系的常用方法有兩類:一類是中心性分析,另一類是拓?fù)滏溄咏Y(jié)構(gòu)分析.兩種方法的共性都是用節(jié)點(diǎn)的重要性來量化用戶在社交網(wǎng)絡(luò)中的地位.文獻(xiàn)[16]研究了如何識別網(wǎng)絡(luò)論壇中的核心人物,文章在PageRank算法的基礎(chǔ)上,結(jié)合用戶行為特征和用戶間關(guān)系網(wǎng)絡(luò)特征,提出基于多屬性的用戶影響力排序算法MAR,并分析了用戶影響力演化趨勢.
(3) 基于聚類分析的方法,通過對用戶屬性抽取、轉(zhuǎn)換、聚類,從而發(fā)現(xiàn)有影響力用戶.常見的聚類方法有劃分聚類、層次聚類、基于密度的聚類等.但是,該方法計(jì)算復(fù)雜度大,方法效率比較低.文獻(xiàn)[17]研究了用戶聚類的個性化推薦改進(jìn)算法.
本文在分析總結(jié)現(xiàn)有研究工作的基礎(chǔ)上,采用基于社會網(wǎng)絡(luò)分析研究方法,重點(diǎn)對蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中的有影響力用戶的識別進(jìn)行研究.研究工作主要包括以下兩個方面:(1) 蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)模型的構(gòu)建;(2) 蛛網(wǎng)態(tài)微博網(wǎng)中用戶影響力的發(fā)現(xiàn)方法——IUDA.
1.1 蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)的圖模型
蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)具有單向性,用戶之間的關(guān)注關(guān)系沒有鮮明的特點(diǎn),可用如圖2所示的簡單的有向圖G來表示,G=(V,E,P(e)),V表示關(guān)系網(wǎng)中的用戶集,E表示用戶之間的關(guān)注邊集,P(e)表示所有邊上的轉(zhuǎn)移概率集,e表示邊集E中的邊.P(e)的取值等于用戶節(jié)點(diǎn)的出度的倒數(shù)值,表示該用戶節(jié)點(diǎn)對其關(guān)注節(jié)點(diǎn)的影響系數(shù).如圖2中用戶A關(guān)注了用戶B、C、D,那么對應(yīng)的關(guān)注邊AB、AC、AD上面的P值均等于1/3.
圖2 蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)絡(luò)的圖模型
1.2 蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)的矩陣模型
蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)的矩陣表示主要是根據(jù)用戶之間的關(guān)注關(guān)系,如果用戶A關(guān)注用戶B,則在用戶A對應(yīng)的矩陣行和用戶B對應(yīng)的矩陣列交叉的位置上標(biāo)注1,圖2的關(guān)系圖對應(yīng)的關(guān)聯(lián)矩陣為
另外根據(jù)關(guān)系圖中的轉(zhuǎn)移概率,可以得到關(guān)系圖對應(yīng)的轉(zhuǎn)移概率矩陣.圖2的關(guān)系圖對應(yīng)的轉(zhuǎn)移概率矩陣為
2.1 節(jié)點(diǎn)本身特性度量
對微博關(guān)系網(wǎng)中每個用戶節(jié)點(diǎn)本身來說,其影響力是各不相同的.在某個特定的蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中,假設(shè):
(1) 如果一個用戶A被關(guān)注的次數(shù)越多(也就是其粉絲越多),那么這個用戶能夠影響的用戶就越多,其影響力越大;
(2) 如果一個用戶自身越有影響力,那么被他關(guān)注的用戶影響力大的可能性增加.
再探索用戶節(jié)點(diǎn)本身屬性對用戶影響力的作用.在微博關(guān)系網(wǎng)中,用戶節(jié)點(diǎn)存在入鏈和出鏈.入鏈節(jié)點(diǎn)表示用戶的粉絲,通常入鏈數(shù)越多,說明這個用戶越具有吸引力,其影響力就越大;出鏈節(jié)點(diǎn)表示用戶的關(guān)注對象,通常出鏈數(shù)越多能在一定程度上反應(yīng)用戶的粘附力,但對于用戶的影響力卻可能產(chǎn)生一定的阻力,人們會認(rèn)為這類用戶更多的是想從關(guān)系網(wǎng)的其他用戶那里獲取信息.此外,微博作為一個信息分享平臺,用戶自身發(fā)布的微博數(shù)目與長度對用戶影響力也有一定的作用.一個用戶發(fā)布的微博越多,表明用戶越喜歡分享信息,參與互動,自然能夠吸引更多的用戶的關(guān)注,影響力自然也就得到了提升.
設(shè)用戶的入鏈數(shù)為λ,出鏈數(shù)為ε,發(fā)布的微博數(shù)為θ,本文設(shè)定用戶節(jié)點(diǎn)α的本身影響值UR(α)按如下公式計(jì)算.
UR(α)=wiλ-woε+wtθ,
(1)
其中,UR表示用戶的影響值,wi,wo,wt分別表示入鏈、出鏈及微博數(shù)對用戶影響力的決定權(quán)重.
2.2 IUDA方法
PageRank算法是Google用來標(biāo)識網(wǎng)頁重要性的一種方法,它是通過計(jì)算網(wǎng)頁的PR值表示網(wǎng)頁的重要程度.根據(jù)微博用戶關(guān)系網(wǎng)同網(wǎng)頁鏈接網(wǎng)的共通性,本文將該算法衍生應(yīng)用到蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中,幫助有影響力用戶的發(fā)現(xiàn),再結(jié)合節(jié)點(diǎn)本身的度量,提出一種衍生排序算法——有影響力用戶發(fā)現(xiàn)算法(Influential User Discovering Algorithm,IUDA).
在PageRank算法中,算法考慮到網(wǎng)頁質(zhì)量對頁面質(zhì)量的影響,在每一次迭代計(jì)算過程中算法將網(wǎng)頁的PR值平分到所有出鏈上,每個頁面新的PR值就是從所有入鏈得到的PR值的總和.該算法具有收斂性,即不論初始值如何選取,這種算法都將能夠保證網(wǎng)頁排名的估計(jì)值能夠收斂.類似的,可以定義用戶的UPR值為
(2)
式中UPR(A)表示用戶A的IUR值,L(A)表示用戶A的出鏈總數(shù),N表示用戶總數(shù),q是阻尼系數(shù),一般取q為0.85.
仔細(xì)分析PageRank算法,筆者發(fā)現(xiàn),其主要是通過用戶的入鏈數(shù)與相關(guān)矩陣來決定概率轉(zhuǎn)移矩陣,然后用概率轉(zhuǎn)移矩陣進(jìn)行冪法迭代計(jì)算得出最終結(jié)果.根據(jù)2.1節(jié)的分析,用戶節(jié)點(diǎn)自身的屬性對用戶影響力具有一定的決定作用,其影響值用式(1)計(jì)算得到.對某一蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中的用戶的IUR值進(jìn)行歸一化處理,得到用戶的影響力權(quán)重w(α).
(3)
其中,max表示取蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中所有用戶的UR的最大值,u可取所有用戶.
改進(jìn)方法IUDA中,計(jì)算最終用戶的影響力值由UPR值和影響力權(quán)重w共同決定,對用戶的影響力為
IUR[u]=w[u]·UPR[u]T,
(4)
其中 IUR[u]表示蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中所有用戶的IUR值,w[u]表示所有用戶的影響力權(quán)重值,UPR[u]表示所有用戶的UPR值.
最后對計(jì)算得到的IUR值進(jìn)行排序,挑選出有影響力用戶.
IUID=maxN(IRU[u]),
(5)
其中,IUID表示最有影響力用戶,maxN表示取所有用戶IRU值最大的那個用戶,u表示關(guān)系網(wǎng)中的所有用戶.
3.1 實(shí)驗(yàn)數(shù)據(jù)來源
本文以新浪微博作為研究數(shù)據(jù)來源.通過微博采集器軟件在某個連續(xù)時(shí)段抓取了5 000條微博用戶信息,選擇了其中的1 000條用戶數(shù)據(jù),共712條關(guān)注數(shù)據(jù),模擬了一個小型的微博關(guān)系網(wǎng).獲取的用戶信息包括用戶基本屬性信息,如用戶ID、用戶昵稱、性別、是否認(rèn)證、個人簡介、所在地、真實(shí)姓名、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、當(dāng)前等級、標(biāo)簽.以及用戶關(guān)系信息.
3.2 蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)的構(gòu)建
借助UCINET社會網(wǎng)絡(luò)分析軟件的可視化組件NetDraw對實(shí)驗(yàn)數(shù)據(jù)中的1 000條數(shù)據(jù),共731條關(guān)系進(jìn)行可視化分析,如圖3所示.
圖3 1 000個微博用戶構(gòu)建的微博關(guān)系網(wǎng)絡(luò)圖
由圖3可以看出微博關(guān)系網(wǎng)呈現(xiàn)出明顯的“小世界性”.用戶之間的關(guān)系在距離為1的路徑范圍內(nèi),呈現(xiàn)放射狀;在單個的獨(dú)立小世界中,呈蛛網(wǎng)態(tài).在蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中,用戶根據(jù)自己的興趣愛好對其他用戶進(jìn)行關(guān)注,其關(guān)系沒有固定的規(guī)律可循,無法像放射態(tài)微博關(guān)系網(wǎng)一樣快速定位有影響力用戶.
3.3 實(shí)驗(yàn)結(jié)果及比較分析
為了便于觀察實(shí)驗(yàn)結(jié)果,本文選擇了圖3中兩個蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)進(jìn)行有影響力用戶的發(fā)現(xiàn)研究.分別采用中心性分析方法、PageRank算法及本文所提出的IUDA方法對上述兩個網(wǎng)絡(luò)中的用戶進(jìn)行分析.
點(diǎn)度中心性分析是中心性分析方法中常用的一種.點(diǎn)度中心度(Centrality)[18]指的是在一個網(wǎng)絡(luò)圖中與某個節(jié)點(diǎn)直接相連的節(jié)點(diǎn)個數(shù),個數(shù)多說明與他人的聯(lián)系緊密.它可以體現(xiàn)節(jié)點(diǎn)在網(wǎng)絡(luò)中的權(quán)利地位及影響分布,中心度越高的節(jié)點(diǎn)越處于核心地位,影響力也越大.圖4是利用可視化軟件NetDraw對A、B兩個子網(wǎng)的用戶數(shù)據(jù)進(jìn)行點(diǎn)度中心度的中心性分析后的可視化結(jié)果,對其中度為1的節(jié)點(diǎn)進(jìn)行剪枝操作.從圖4中可以看出,A子網(wǎng)中除了166用戶,其余用戶的中心度相似;B子網(wǎng)中7號用戶的中心度最大.
圖4 A、B子網(wǎng)的中心性分析可視化
分別采用PageRank和IUDA方法分析.使用IUDA方法時(shí),首先采用式(1)計(jì)算用戶UR值,式中的各權(quán)重參數(shù)值取值均介于[0,1],通過采用控制變量法,以0.1為變化距離來確定各參數(shù)的值,實(shí)驗(yàn)取值分別是wi=0.9,wo=0.1,wt=0.6.接著分別用式(2)迭代計(jì)算用戶的UPR值,用式(3)計(jì)算用戶影響力權(quán)重值,最后得出用戶的IUR值.兩種方法的實(shí)驗(yàn)結(jié)果對比如圖5~6所示,表1中降序列出了部分用戶號對應(yīng)的PR值和IUR值.
圖5 子網(wǎng)A中用戶的影響力對比
表1 子網(wǎng)A、B用戶(部分)的PR值和IUR值(倒序排列)
Tab.1 PR/IUR of the users in subnetAandB
子網(wǎng)PageRank算法IUDA方法子網(wǎng)PageRank算法IUDA方法用戶號PR值用戶號IUR值用戶號PR值用戶號IUR值A(chǔ)(38次迭代)1490.34931490.0828B(72次迭代)120.1937120.01741500.34931500.0233140.1915140.01161520.03711560.008470.0769170.01061560.03171650.008060.5515230.00921550.03061520.0059330.3947100.0080……………………1650.00801600.0004350.008380.00021660.0075166-(負(fù)值)360.0083360.0001
結(jié)合中心性分析結(jié)果,從圖5~6中PR值與IUR值的對比可以看出兩種方法在發(fā)現(xiàn)蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中有影響力的用戶總體上是接近的.Page-Rank算法得到的值波動比較大,IUDA方法得到的值波動小,這主要是由于IUDA方法考慮了用戶在整個微博關(guān)系網(wǎng)中的影響權(quán)重.
從表1中兩種方法得到部分用戶的影響力結(jié)果的排序情況,可以看到部分用戶變化比較明顯.例如子網(wǎng)A中165號用戶,用PageRank算法計(jì)算得到他的排名是倒數(shù)第2個,采用IUDA方法,其排名提升到了第4名.由圖4可以看到其入度比較偏小,因而其PR值也相對變小,但是查看該用戶的本身屬性,其關(guān)注數(shù)為115,粉絲數(shù)為94,微博數(shù)為348,和該子網(wǎng)中其他用戶相比,其本身在微博網(wǎng)中的影響力是比較大的,IUDA考慮到了這一作用,從而發(fā)現(xiàn)了它.再如子網(wǎng)B中17、23、10號用戶排名的提升也是同樣的道理,然而對于7號用戶,PageRank算法得到他的排名為第3,結(jié)合圖4,其中心性為子網(wǎng)B中最大的,似乎的確影響力偏大,但是到IUDA中,其排行到了第10位.由于其本身屬性和前面幾位用戶相比明顯偏低,但入鏈數(shù)量的優(yōu)勢并不明顯,因此其在IUDA中排名靠后.
綜上所述,IDUA方法在發(fā)現(xiàn)蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中的有影響力用戶的實(shí)踐中是有效的,同時(shí)與中心性分析方法以及原始的PageRank算法相比,其發(fā)現(xiàn)的有影響力用戶排名更具說服力.
發(fā)現(xiàn)蛛網(wǎng)態(tài)微博網(wǎng)中的有影響力用戶具有重要的研究意義.本文基于新浪微博真實(shí)數(shù)據(jù),對蛛網(wǎng)態(tài)微博關(guān)系網(wǎng)中有影響力用戶的識別進(jìn)行了研究.首先構(gòu)建并分析了蛛網(wǎng)態(tài)微博關(guān)系網(wǎng).接著基于用戶屬性度量用戶本身影響力,結(jié)合PageRank算法,提出了IUDA方法.實(shí)驗(yàn)對比說明IUDA方法能夠發(fā)現(xiàn)蛛網(wǎng)態(tài)微博網(wǎng)中的有影響力用戶,具有較高的區(qū)分度.不過,本文在度量用戶UR值時(shí),并沒有考慮到用戶的微博內(nèi)容、地理位置等影響因子,但它們在度量用戶影響力上也有一定的決定性,相關(guān)工作將在進(jìn)一步的研究中開展.
[1] 劉麗芳.微博客的傳播特征與傳播效果研究[D].杭州:浙江大學(xué)傳媒與國際文化學(xué)院,2010.
[2] 陳克寒,韓盼盼,吳健.微博客的傳播特征與傳播效果研究[J].計(jì)算機(jī)學(xué)報(bào),2013,36(2):349-359.
Chen K H, Han P P, Wu J. Study on the characteristics of communication and media effect of micro-blog[J]. Chinese Journal of Computers, 2013, 36(2):349-359.
[3] 呂非非,徐雅斌,李卓,等.面向微博影響力的社交網(wǎng)絡(luò)特征分析[J].計(jì)算機(jī)應(yīng)用,2013,33(12):3359-3362, 3418.
Lü F F, Xu Y B, Li Z, et al. Analysis of characteristics of social networks in terms of microblog impact[J]. Journal of Computer Applications.2013,33(12):3359-3362,3418.
[4] 王曉光.微博客用戶行為特征與關(guān)系特征實(shí)證分析——以“新浪微博”為例[J].圖書情報(bào)工作,2010(14):66-70.
Wang X G. Empirical analysis on behavior characteristics and relation characteristics of micro-blog users——take “Sina Micro-blog” for example[J]. Library and Information Service, 2010(14):66-70.
[5] Cha M, Haddadi H, Benevenuto F, et al. Measuring user influence in Twitter:the million follower fallacy[C]∥ Proceedings of the Fourth International Conference on Weblogs and Social Media, ICWSM 2010. Washington, DC, USA :[s.n.], 2010.
[6] Aditya Pal, Scott Counts. Identifying topical authorities in microblogs[C]∥Proceedings of the Fourth ACM international conference on Web search and data mining. USA, New York:[s.n.],2011: 45-54.
[7] 何黎,何躍,霍葉青,等.微博用戶特征分析和核心用戶挖掘[J].情報(bào)理論與實(shí)踐,2011(11):121-125.
He L, He Y, Huo Y Q, et al. Analysis of micro-blog users features and the data mining of core user[J]. Information Studies: Theory & Application,2011(11):121-125.
[8] 馬俊,周剛,許斌,等.基于個人屬性特征的微博用戶影響力分析[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2483-2487.
Ma J, Zhou G, Xu B, et al. Analysis of user influence in micro-blog based on individual attribute features[J]. Application Research of Computers,2013,30(8):2483- 2487.
[9] Weng J S, Lim E P, Jiang J, et al. Twitterrank: finding topic-sensitive influential twitters[C]∥ACM International Conference on Web Search and Data Mining(WSDM 2010). [S.l.],2010:261-270.
[10] 楊尊琦,張倩楠.基于k-means算法的微博用戶推薦功能研究[J].情報(bào)雜志,2013,32(8):142-144,131.
Yang Z Q, Zhang Q N. Rearch on attention behavior of microblog users based on K-means cluster analysis[J]. Journal of Information.,2013, 32(8): 142- 144, 131.
[11] 徐志明,李棟,劉挺,等.微博用戶的相似性度量及其應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):207-218.
Xu Z M, Li D,Liu T, et al. Measuring similarity between Microblog Users and Its Application [J].Chinese Journal of Computers, 2014,37(1):207-218.
[12] 王朝勇,馬海欣,沙朝鋒,等.TBPRS:基于信任關(guān)系的社交用戶推薦系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012, 49(Sl): 367-371.
Wang C Y, Ma H X, Sha C F, et al. Social people recommendation system based on trust relationship[J]. Jounal of Computer Research and Development,2012, 49(Sl):367-371.
[13] Huang T, Peng D L, Cao L D. Discovering communities with self-adaptive k clustering in microblog data[C]∥2012 Second International Conference on Cloud and Green Computing,[S.l.], 2012:383-390.
[14] Agarwal N, Liu H, Tang L, et al. Identifying the influential bloggers in a community[C]∥Proceedings of the 2008 International Conference on Web Search and Data Mining. New York, USA:[s.n.], 2008:207-218.
[15] 王連喜,蔣盛益,龐觀松,等.微博用戶關(guān)系挖掘研究綜述[J].情報(bào)雜志,2012,31(12):91-97,57.
Wang L X, Jiang S Y, Pang G S, et al. A literature review of user relationship mining on microblog[J]. Jounal of Intelligence, 2012, 31(12):91-97, 57.
[16] 張玥,張宏莉,張偉哲,等.識別網(wǎng)絡(luò)論壇中有影響力用戶[J].計(jì)算機(jī)研究與發(fā)展,2012,50(10):2195-2205,2013.
Zhang Y, Zhang H L, Zhang W Z, et al. Identifying the influential users in network forum[J]. Journal of Computer Research and Development, 2012,50(10):2195-2205,2013.
[17] 李克潮,凌霄娥.云模型與用戶聚類的個性化推薦[J].計(jì)算機(jī)應(yīng)用,2013,33(10):2804-2806,2826.
Li K C, Ling X E. Personal recommendation based on cloud model and user clustering[J].Journal of Computer Applications.,2013,33(10):2804-2806,2826.
[18] 劉軍.整體網(wǎng)分析講義——UCINET軟件實(shí)用指南[M].上海:上海人民出版社,2009.
Identifying the Influential User in the Cobweb State Micro-blog Network
Tan Si-ni, Chen Ping-hua
(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)
Through analyzing the characteristics of the cobweb state micro-blog network, the paper points out the importance of identifying the influential user in the cobweb state micro-blog network. It focuses on the effect of the attributes of micro-blog users itself, combines the principle of PageRank algorithm, and then proposes IUDA(Influential User Discovering Algorithm) in cobweb state micro-blog relationship network to find influential users. Finally, experiments are conducted with the real user data from Sina micro-blog based on this method and are compared with two other methods. The results show that the IUDA method combined with the user itself can find influential users in cobweb state micro-blog network more effectively, and can objectively reflect the user′s influence.
influential users; micro-blog; micro-blog relationships network; PageRank; centrality analysis
2014- 04- 11
廣東省教育部產(chǎn)學(xué)研結(jié)合項(xiàng)目(2012B091000058);廣東省專業(yè)鎮(zhèn)中小微企業(yè)服務(wù)平臺建設(shè)項(xiàng)目(2012B040500034)
譚思妮(1990-),女,碩士研究生,主要研究方向?yàn)樯鐣W(wǎng)絡(luò)分析、數(shù)據(jù)挖掘.
10.3969/j.issn.1007- 7162.2015.03.012
TP311
A
1007-7162(2015)03- 0061- 06