劉威 張明新 安德智
摘 要:微博用戶影響力分析作為社交網絡分析的重要組成部分,一直受到研究人員的關注。針對現有研究工作分析用戶行為時間性的不足和忽略用戶與參與話題之間關聯(lián)性等問題,提出了一種面向微博話題的用戶影響力分析算法——基于話題和傳播能力的用戶排序(TSRank)算法。首先,基于微博話題分析用戶轉發(fā)行為時間性,進一步構建用戶轉發(fā)和用戶博文轉發(fā)兩種話題轉發(fā)關系網絡,預測用戶話題信息傳播能力;然后,分析用戶個人歷史微博和背景話題微博文本內容,挖掘用戶與背景話題之間的關聯(lián)性;最后,綜合考慮用戶話題信息傳播能力以及用戶與背景話題間關聯(lián)性計算微博用戶影響力。爬取新浪微博真實話題數據進行實驗,實驗結果表明,話題關聯(lián)度更高用戶的話題轉發(fā)量明顯大于關聯(lián)度很低的用戶,引入用戶轉發(fā)行為時間性相比無轉發(fā)時間性,TSRank算法的捕獲率(CR)提高了18.7%,進一步與典型影響力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在準確率和召回率上分別提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,驗證了TSRank算法的有效性。該研究成果對社交網絡的社會屬性、話題傳播等理論研究以及好友推薦、輿情監(jiān)控等應用研究具有支撐作用。
關鍵詞:社交網絡;用戶影響力;轉發(fā)關系;微博話題;信息傳播能力
中圖分類號: TP391; TP181
文獻標志碼:A
Abstract: As an important part of social network analysis, Weibo user influence analysis has been concerned by researchers all the time. Concerning the timeliness shortage and neglect of the relevance between users and topics when analyzing user behaviors, a user influence analysis algorithm for Weibo topics, named Topic and Spread user Rank (TSRank), was proposed. Firstly, based on Weibo topics, the timeliness of users forwarding behavior was analyzed to construct two topic forwarding networks, user forwarding and user blog forwarding, in order to predict the users topic information dissemination capability. Secondly, the text contents of users personal history Weibo and background topic Weibo were analyzed to mine the relevance between user and background topic. Finally, the influence of Weibo user was calculated by comprehensively considering users topic information dissemination capability and relevance between user and background topic. The experiments on crawled real topic data of Sina Weibo were conducted. The experimental results show that the topic forwarding number of users with higher topic correlation is significantly greater than that of users with lower topic correlation. Compared with no forwarding timeliness, the Catch Ratio (CR) of TSRank algorithm is increased by 18.7%, which is further compared with typical influence analysis algorithms, such as WBRank, TwitterRank and PageRank, TSRank algorithm improves the precision and recall by 5.9%, 8.7%, 13.1% and 6.7%, 9.1%, 14.2% respectively, which verifies the effectiveness of TSRank algorithm. The research results can support theoretical research of social attributes and topic forwarding of social networks as well as the application research of friend recommendation and public opinion monitoring.
Key words: social network; user influence; forward relationship; Weibo topic; information dissemination capability
0 引言
社交網絡平臺是以互動交友、用戶之間共同興趣愛好為基礎,以實名或非實名方式在網絡平臺構建的一種社會關系網絡服務。社交網絡平臺現已取得迅速發(fā)展[1],全球最大社交網站Facebook發(fā)布2018年第一季度財報顯示,截止2018年3月31日,Facebook的月活躍用戶達22億,比去年同期增長3.8%;新浪微博發(fā)布2018年第一季度財報顯示,微博月活躍用戶共4.11億,比去年同期增長20%。微博作為新型公共話題傳播平臺,已有龐大的用戶群體,用戶量也保持較好增長,如此龐大的用戶群體中存在有較高聲望和影響力的用戶,他們的言論和觀點會影響大多數用戶的觀點,社交網絡的無標度性質也決定了社交網絡中少部分人掌握著大部分話語權[2],這部分有話語權的影響力用戶非常值得關注。微博用戶影響力可以通過微博話題的互動表現出來,表現為話題參與用戶的行為和觀點受其他用戶的影響發(fā)生改變的現象[3]。分析微博話題的用戶影響力對社交網絡的研究具有重要意義:1)有影響力用戶是推動話題持續(xù)傳播和擴大話題傳播范圍的關鍵因素[4],研究微博用戶影響力可以發(fā)現微博話題信息的傳播規(guī)律;2)微博話題在傳播過程中存在著錯綜復雜的社會屬性,研究微博用戶影響力有助于了解社交網絡的社會屬性;3)微博用戶質量參差不齊,用戶需要推薦高質量和有影響力的用戶,以獲取有價值和感興趣的信息,識別有影響力用戶有助于推薦微博中有共同興趣的高質量好友,因此,計算微博用戶的影響力并找出影響力排名靠前的用戶,對話題信息傳播[5]、微博好友推薦[6]、網絡輿情監(jiān)督[7]等具有重要意義。
微博用戶影響力得到了研究人員的持續(xù)關注,目前研究工作側重于偏離用戶關系網絡分析用戶行為時間,忽略行為時間對傳播廣度和互動關系強度的影響;側重于從用戶之間興趣話題的角度分析,忽略用戶對話題的興趣關注和微博短文本等特征對話題識別的影響。
1)用戶行為的時間性。毛佳昕等[8]認為用戶帖子的被轉發(fā)頻率是最能代表用戶影響力大小的指標,利用用戶發(fā)布微博的時間分布、微博時效性和轉發(fā)偏好計算用戶帖子的被轉發(fā)頻率,確定用戶的影響力大小,該方法側重分析用戶發(fā)布微博時間分布對被轉發(fā)頻率的影響,忽略發(fā)布微博時間對轉發(fā)傳播廣度和轉發(fā)關系強度的影響,不能區(qū)分影響人群廣度不同的有影響力用戶和轉發(fā)對影響力的貢獻度。廖祥文等[9]將用戶觀點、活躍度、中心度等特征加入到張量模型中,假設用戶間評論的延遲時間滿足指數分布,得到評論時間特征約束矩陣并引入到張量模型分解過程中,以此計算用戶影響力,該方法側重分析在張量分解模型中引入評論延遲時間來度量用戶影響力,忽略評論延遲時間在用戶關系網絡中對影響力傳播范圍廣度的影響,不能很好識別最有影響力用戶。Su等[10]將用戶交互行為的整個時間區(qū)間劃分成時間片,在主題模型中引入文本主題、各類交互關系以及交互相關聯(lián)的時間片,提出了一種主題級影響力時間模型(Topic-level Influence over Time, TIT),該模型側重基于轉發(fā)、評論等交互行為所屬時間片來識別影響力有潛在增長趨勢的用戶,忽略轉發(fā)、評論等交互行為本身發(fā)生時間對用戶間交互關系強度的影響程度,不能有效地確定不同交互時間對用戶影響力的影響程度。
2)用戶的興趣話題。周東浩等[11]使用潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)主題模型分析用戶的興趣話題相似度,基于用戶的傳播概率、興趣相似度和結構相似度構建隨機游走模型,提出了一種用戶傳播能力排序算法,該算法側重分析用戶之間在結構和興趣話題上的相似度,忽略用戶興趣與參與話題之間的關聯(lián)性,最終識別出的影響力用戶并非真正關注話題并持續(xù)產生影響力的用戶,微博也具有短文本和數據稀疏等特點,直接使用LDA主題模型識別用戶潛在興趣話題分布的效果不佳。祝升等[12]利用LDA主題模型計算用戶在博文內容上的話題分布,構建話題關系網絡,綜合用戶之間的話題相似度、平均轉發(fā)延遲和轉發(fā)量占比得出邊權重,迭代計算出用戶影響力,該方法側重分析用戶之間的話題相似性,LDA主題模型直接應用到微博短文本的效果不理想,識別用戶興趣話題的效果不佳,計算用戶之間話題相似度不準確。Wu等[13]利用消息內容、標簽、轉發(fā)、回復和提及(@)構建主題行為網絡,采用啟發(fā)式搜索方法生成用戶的主題行為影響樹,通過最大化受影響用戶數和最小化傳播路徑識別有影響力用戶,該方法側重用戶之間主題行為影響樹的構建,忽略微博短文本特點和用戶對參與話題的興趣來分析用戶主題,影響對話題真正感興趣而持續(xù)產生影響力的關鍵用戶的識別。
綜上所述,現有研究有以下不足:1)忽略用戶轉發(fā)行為時間對用戶影響力傳播廣度和交互關系強度的影響;2)未結合微博短文本等特征分析用戶話題;3)忽略用戶對參與話題的興趣關注。本文選擇國內最大的新浪微博社交網站作為研究對象,基于微博話題分析用戶影響力。針對第1)點不足,在用戶轉發(fā)關系網絡和用戶博文轉發(fā)關系網絡中分析轉發(fā)時間性(時間差)對轉發(fā)關系強度和微博用戶影響力傳播廣度的影響來計算轉發(fā)時間性對微博用戶影響力的貢獻度。針對第2)點和第3)點不足,基于用戶與參與話題之間的關聯(lián)性來計算用戶對微博話題的興趣關注度,通過微博關系擴展微博短文本改進LDA主題模型,分別識別用戶和背景話題的微博文本內容的潛在話題分布,計算用戶與背景話題之間的關聯(lián)度。算法思路:首先,基于微博話題綜合分析用戶交互以及包含的時間信息構建用戶轉發(fā)和博文轉發(fā)兩種話題轉發(fā)關系網絡,分析轉發(fā)行為時間性對轉發(fā)影響力和用戶自身質量的影響,并從用戶轉發(fā)影響力和用戶自身質量兩個方面計算用戶信息傳播能力;然后,通過微博關系拓展微博短文本并改進LDA主題模型,通過改進LDA主題模型分析用戶個人微博文本內容和微博話題文本內容的潛在話題分布,據此計算用戶與背景話題之間的關聯(lián)度;最后,綜合分析用戶話題信息傳播能力和用戶與背景話題之間的關聯(lián)度,計算話題參與用戶的影響力大小。通過爬取新浪微博真實話題數據進行實驗,分別驗證了引入用戶轉發(fā)行為時間性和用戶與參與話題之間關聯(lián)性的有效性。與典型影響力分析算法WBRank、TwitterRank和PageRank比較,本文提出的基于話題和傳播能力的用戶排序(Topic and Spread user Rank, TSRank)算法在準確率和召回率上分別提高了5.6%、8.5%、12.9%和6.3%、9.4%、13.5%5.9%、8.7%、13.1%和6.7%、9.1%、14.2%此處的值與摘要不一致,是否以摘要中的數值為準?請明確。,表明了TSRank算法的有效性。
1 微博用戶影響力分析與度量
微博用戶影響力可以通過微博話題的互動表現出來,對其他用戶的行為和觀點等產生影響,因此,本文基于微博話題分析用戶影響力。話題參與用戶的影響力主要表現為微博用戶信息的傳播廣度和影響強度,即用戶的話題信息在話題傳播過程中,影響人群越廣,影響用戶強度越大,用戶的影響力越大。微博用戶影響力分析算法的整體思路如圖1所示。
1.1 問題定義
1.2 權重指標定義
1.2.1 轉發(fā)行為時間性
這樣書寫符合表達嗎?請明確?;貜腿缦拢?.括號使用不正確,應該是(∑e X ri(v,u) )/(∑ri(v,u)),解釋是第一個求和符號里的計算單元是e乘以ri(對多個e乘以ri求和),然后第一個求和符號的結果除以ri求和的結果,(這里只能文字說明,如未說明清除,請見郵件內容公式截圖);
2.第二個求和符號下方也可以加上如同第一求和符號下方,也可不加,此處的i只是表示用戶u的博文范圍,無初值,第二公式表明對ri的求和。
其中:e為自然常數(e>0);O1(u)表示用戶u發(fā)布話題博文集合,t0i為用戶u發(fā)布第i條博文時刻(單位為h,表示距離博文發(fā)布當天凌晨的時間),ti為用戶v轉發(fā)用戶u第i條博文時刻(單位為h,表示距離被轉發(fā)博文發(fā)布當天凌晨的時間),ti-t0i為用戶v轉發(fā)用戶u第i條博文的時間差(時間差越小,對被轉發(fā)用戶u的影響力貢獻度越大);λ為控制衰減速率的參數,設置λ=11h。對于固定值λ(λ>0),當ti-t0i → 0+時,e-ti-t0iλ → 1;當ti-t0i → +∞時,e-ti-t0iλ → 0。
1.2.2 用戶活躍度
1.3 度量指標定義
話題參與用戶通過發(fā)布話題信息的傳播對被轉發(fā)用戶產生影響,其影響的人數越多,在用戶轉發(fā)關系網絡中從其他用戶引入的鏈接數越多,表明其影響人群越廣;同時,用戶轉發(fā)行為由用戶自身的價值驅動,話題內用戶質量越高,對其他用戶的影響程度越大,體現了用戶的信息傳播能力的影響強度,所以從用戶轉發(fā)影響力和用戶自身質量兩個角度計算用戶信息傳播能力,分別體現微博用戶影響力的影響傳播廣度和影響用戶強度。
1.3.1 用戶轉發(fā)影響力
話題用戶轉發(fā)網絡與網頁鏈接結構十分相似,用戶u被用戶v轉發(fā)相當于網頁v存在一個鏈接指向網頁u,用戶v將自己的影響力貢獻給用戶u,網頁v將自己的重要性貢獻給網頁u,但由于用戶v的轉發(fā)時間間隔和自身活躍度都不同,對用戶u的影響力貢獻度也是不同的,所以,在用戶轉發(fā)關系網絡中,話題參與用戶u的轉發(fā)影響力表示為R(u),引入wr(v,u)來體現轉發(fā)時間間隔對用戶轉發(fā)關系強度和用戶影響人群廣度的影響,借鑒經典網頁排序算法PageRank的思想計算R(u),微博用戶轉發(fā)影響力的計算公式如下:
其中:O2(u)為用戶u的轉發(fā)用戶集合;R(v)為用戶v的轉發(fā)影響力;out(v)為用戶v指向其他用戶的轉發(fā);c為阻尼系數,通常設置為經驗值0.85。
1.3.2 用戶自身質量
在用戶博文轉發(fā)關系網絡中,用戶u發(fā)布博文b(b∈VB)的質量記為Blogb(u),用戶到博文節(jié)點的轉發(fā)關系邊權重設置為wr(v,u),體現轉發(fā)時間差對博文傳播廣度和博文轉發(fā)關系強度的影響,借鑒PageRank思想計算Blogb (u),計算如下:
其中:O3(b)是博文b的轉發(fā)用戶集合,Q(v)是用戶v的自身質量,out(v)是用戶v指向其他用戶的轉發(fā)。
在微博話題傳播過程中,因為用戶自身質量主要通過用戶發(fā)布博文的質量體現,所以,使用用戶u所有博文的質量表示用戶u自身質量Q(u)。在用戶博文轉發(fā)關系網絡中,設置博文節(jié)點b到用戶節(jié)點u的邊權重為wb(u),體現博文質量b對用戶自身質量計算的重要程度。用戶u的自身質量計算公式如下:
其中:O4(bu)此處的b,是否應該為u,為與式(8)保持書寫一致是用戶u的所有博文集合;wb(u)此處wb(u)是矢量或向量,但是其后的值Nb、Nc為常數,如何理解二個常數相除后卻變?yōu)槭噶浚ɑ蛳蛄浚┻@個事情,是表述錯誤?還是其他,請明確。
回復如下:wb(u)是博文節(jié)點b到用戶節(jié)點u的邊權重,是有方向的,反過來,用戶指向博文節(jié)點就不是Wb(u),該權重刻畫的是博文節(jié)點b對用戶節(jié)點u自身質量的貢獻度。
其后的Nb和Nc是通過公式計算該權重值的大小,只是對Wb(u)的量化。=Nb/Nc,Nb為用戶u的博文b的總轉發(fā)數,Nc為用戶u所有博文總轉發(fā)數。
1.4 用戶信息傳播能力計算
在話題傳播過程中,轉發(fā)影響力體現被轉發(fā)用戶信息傳播能力在話題內的信息傳播廣度,用戶自身質量體現用戶信息傳播能力影響用戶的強度,因此本文將這兩個度量指標通過線性融合計算用戶在話題內的信息傳播能力大小,表示為Spread(u),計算如下:
其中:α1是用戶轉發(fā)影響力所占比重,α2是用戶自身質量所占比重。設置α1=α2=0.5,表示用戶的轉發(fā)影響力和用戶自身質量對用戶信息傳播能力同等重要。
2 面向話題的用戶影響力算法
2.1 用戶與參與話題間的關聯(lián)性
面向微博話題的用戶影響力研究大多假設用戶影響力不受微博之外的因素影響,但微博社交網絡用戶具有社會屬性,其影響力受多種因素影響。用戶興趣與熱點話題之間的關聯(lián)性代表該用戶是否會持續(xù)關注該話題,頻繁參與話題互動并產生持續(xù)影響力。本文在實驗部分驗證了用戶與背景話題之間關聯(lián)性對用戶轉發(fā)微博話題相關博文數量的影響,表明話題關聯(lián)度較高的用戶相比較話題關聯(lián)度較低的用戶,會更頻繁地參與話題互動并產生持續(xù)影響力,為此通過分析微博話題相關所有博文集合和用戶對應時段內的個人歷史博文集合,計算用戶與微博話題之間的關聯(lián)度。
針對LDA主題模型不適用于微博短文本,結合微博短文本特征改進LDA主題模型。將微博話題內的每一個博文以及其他用戶評論它的內容和原始發(fā)布者對這些評論的回復聚合成多個單個博文集合,然后聚合微博話題內的所有單個博文集合形成微博話題文檔集合?;诖朔椒ㄍ卣共┪亩涛谋镜脑蚴牵脩舭l(fā)布博文以及用戶之間的評論回復通常是圍繞博文主題進行的。同樣采用此方法拓展用戶在同一時間段內的歷史博文內容得到用戶文檔集合,然后使用中文微博關系主題模型(Micro-blog Relation Latent Dirichlet Allocation, MR-LDA)方法[15]改進LDA主題模型,該方法結合了博文之間的提及(@)、轉發(fā)、評論和點贊關系。
識別微博話題文檔集合和用戶文檔集合主題數K,使用改進LDA主題模型識別微博話題文檔集合的主題概率分布Vtopic和用戶文檔集合的主題概率分布Vu,向量表示如下:
其中:piu和pitopic分別是用戶u的文檔集合和微博話題文檔集合產生主題i的概率,且∑Ki=01piu=∑Ki=01是否應該為i=1?請明確pitopic=1。
相對熵,又稱KL(Kullback-Leibler)散度,是描述兩個概率分布之間差異的一種方法,符合本文計算用戶與背景話題之間關聯(lián)度的特點,所以本文使用KL散度計算Vtopic和Vu向量之間的距離,值越大,說明越不相似,計算公式如下:
由于KL散度不具有對稱性,與用戶和背景話題之間關聯(lián)度的對稱性不相符。為了使得公式符合對稱性,便于描述用戶與背景話題關聯(lián)度和KL值對應關系,將公式進行轉換。定義用戶u與背景話題之間關聯(lián)度S(u,topic),公式如下:
其中:S(u,topic)為用戶與背景話題之間關聯(lián)度,S(u,topic)的值越大,用戶歷史微博內容與背景話題內容的概率分布差別越小,用戶與背景話題之間的關聯(lián)度越高。
2.2 面向微博話題的用戶影響力計算
用戶信息傳播能力代表用戶對話題信息傳播能力的大小,用戶與背景話題之間的關聯(lián)度代表用戶與背景話題之間的黏性,是用戶對話題傳播持續(xù)產生的影響力,所以,基于用戶信息傳播能力和用戶與參與話題之間的關聯(lián)度直接計算話題參與用戶的影響力大小,計算如下:
程序后
3 實驗結果及分析
為了驗證該算法的普適性和有效性,實驗部分首先選取了新浪官方公布的微博熱點話題“徐玉玉案”,該話題事件范圍為2017年6月2日—2017年7月21日,又增加了該話題時間內的“2017NBA總決賽”“李文星事件”“順豐菜鳥‘數據斷交門”“四川‘格斗孤兒”“中國式相親鄙視鏈”5個話題,共計6個話題,使實驗數據包括教育、體育、社會、科技、民生等多領域的一般性話題和熱點話題,同時,選取2017年6月21日—6月22日兩天時間內新浪微博上的所有話題數據,進行實驗驗證,使實驗驗證具有普適性。通過網絡爬蟲獲取以上相關數據,同時爬取話題參與用戶在對應時間內的歷史消息微博數據。對得到數據進行預處理后,數據集統(tǒng)計情況如表1所示。由于爬取的微博話題的用戶數據量較大,借助Spark平臺實現本文算法(TSRank),使用Matlab仿真實驗結果,通過多次實驗的最優(yōu)結果,設置控制衰減速率的參數λ=11h。
3.1 有效性測試
首先驗證用戶與參與話題之間關聯(lián)度和轉發(fā)行為時間性的有效性。以話題“2017NBA總決賽”為例,通過計算用戶與背景話題之間的關聯(lián)度對用戶進行分類,將關聯(lián)度較高和較低的用戶分為話題相關用戶和話題不相關用戶,分析用戶與背景話題間關聯(lián)度對轉發(fā)行為的影響。統(tǒng)計所有用戶(all users)、話題相關用戶(topics related users)和話題不相關用戶(other users)所轉發(fā)的與熱點話題相關微博的數量變化,其中,時間周期為2天,結果如圖2所示。
從圖2中可知,在話題傳播周期內,微博話題相關博文數的增長對各類用戶的轉發(fā)量都有所影響,話題相關用戶的轉發(fā)量上升幅度明顯高于話題不相關用戶,同時話題相關用戶轉發(fā)趨勢與話題整體轉發(fā)趨勢比較接近,而話題不相關用戶轉發(fā)量的趨勢與之并不明顯接近。表明話題相關用戶話題參與度更高,更易促進話題傳播,話題相關用戶會對話題傳播持續(xù)產生影響力。驗證了引入用戶與背景話題之間的關聯(lián)度有助于識別微博話題傳播過程中有持續(xù)影響力用戶,能在一定程度上屏蔽僅靠刷微博數來提升微博話題熱度的水軍用戶。
驗證引入轉發(fā)行為時間性的有效性,使用捕獲率(Catch Ratio, CR)作為評測指標,CR為通過Top-k用戶檢測到的信息與網絡中實際存在的信息的比值。驗證結果使用六個話題以及兩日內的所有話題數據集的平均捕獲率,如圖3所示。從圖中可以看出,轉發(fā)時間性對CR指標的影響較大,隨著Top-10、Top-20、Top-30、Top-50、Top-80和Top-100的變化,引入轉發(fā)時間性的CR值明顯優(yōu)于不考慮轉發(fā)時間性的情況。
3.2 實驗對比測試
通過實驗對比,測試TSRank算法識別有影響力用戶的準確性,選取WBRank算法[16]、TwitterRank算法[6]和PageRank算法三種算法作為對比,其原因是:WBRank算法是較新提出算法,同樣基于新浪微博平臺和考慮用戶行為進行分析;TwitterRank算法也是基于話題和網絡結構的經典算法;PageRank是經典排序算法,且本文有借鑒其算法思想。圖4給出Top-10、Top-20、Top-30、Top-50、Top-80和Top-100下四種算法對CR指標影響的實驗結果。從圖4中可以看出,隨著選取有影響力用戶數量的增多,TSRank方法的CR指標均優(yōu)于其他三種算法,說明TSRank算法識別微博話題內有影響力用戶的效果更佳。
3.3 算法準確率和召回率驗證
為了更進一步驗證本文方法的有效性,分別驗證挖掘影響力個體的準確率和召回率。由于微博話題中的實際影響力用戶難以人為確定,所以通過上述3種算法和TSRank算法的交叉驗證來確定真實影響力用戶的排名。
交叉驗證方法[17]是將多種算法(N種)認為的正確結果作為最終正確結果。例如給定4種算法A、B、C和D,各算法得出的正確結果分別為IA、IB、IC和ID,設置N=2,即2種算法認為的正確結果作為最終的參考結果,稱其為參考標準集合I2,則定義I2為:
準確率P(Precision)體現挖掘話題內影響力用戶的真實性,算法A挖掘影響力用戶的準確率定義如式(16)所示:
召回率R(Recall)體現微博話題內影響力用戶的挖掘充分程度,即算法A挖掘影響力用戶的召回率定義如式(17)所示:
實驗根據4種算法,在N=2,3,4時,對比了六個話題以及兩日所有話題的平均準確率在Top-10、Top-20、Top-30、Top-50、Top-80和Top-100下的實驗結果,如圖5所示。
實驗結果表明,參考標準數量N在不同取值情況下,
TSRank算法的準確率均優(yōu)于其他三種算法,但實驗效果有所不同。因為參考標準數量N設置過?。∟=2)時,參考標準集合IN元素數目偏多,各算法與IN交集元素較一致,導致準確率相差不大;參考標準數量N設置過大(N=4),參考標準集合IN元素數目偏少,同樣使得各算法與IN交集元素較一致,導致準確率相差也不大。當N=3時,四種算法的準確率效果最理想,能體現出各算法的準確性優(yōu)劣,此時,TSRank相比WBRank、TwitterRank和PageRank,在不同Top-k和三個話題下的平均準確率分別提高了5.9%、8.7%和13.1%,表明TSRank算法能更準確地識別出有影響力用戶。
實驗同樣對比了在參考標準數量N=2,3,4的不同設置下,6個話題以及兩日所有話題的平均召回率在不同Top-k影響力用戶下的實驗結果,如圖6所示。
從圖6可知,參考標準數量N在不同取值情況下,TSRank算法的召回率均優(yōu)于其他三種算法,但實驗效果同樣不同,因為N設置過?。∟=2)時,各算法與IN元素的交集元素同樣多,召回率相差不大;N設置過大(N=4)時,各算法與IN元素的交集元素同樣少,召回率相差也不大。參考標準數量N=3時,實驗效果最佳,此時,TSRank相比WBRank、TwitterRank和PageRank,在不同Top-k和三個話題下的平均召回率分別提高了6.7%、9.1%和14.2%,表明TSRank算法能更充分地識別出有影響力用戶。
3.4 算法效率和復雜度分析
為了測試TSRank算法的執(zhí)行效率,本文將數據集按照用戶節(jié)點數逐漸遞增,劃分為5個規(guī)模不同的數據塊,分別將其標識為數據塊1、2、3、4、5,對應的用戶節(jié)點數為76837、110381、158353、229361、281539,對比了4種算法在6個話題以及兩日內所有話題數據上的平均執(zhí)行時間(min),實驗結果如圖7所示。
實驗結果表明,本文提出的TSRank算法的執(zhí)行時間更少,算法效率明顯優(yōu)于同其他三種算法;同時,4種算法的執(zhí)行時間隨著數據集規(guī)模的增大而呈線性增長,但TSRank算法的增幅較小。
TSRank算法與PageRank算法相比,算法復雜度有所增加,需要計算用戶轉發(fā)影響力和用戶自身質量,但它們的計算簡單,且轉發(fā)影響力、用戶自身質量以及用戶與話題間關聯(lián)度是并行的,因此算法復雜度增幅較小,相比WBRank算法和TwitterRank算法,TSRank算法復雜度也沒有過高,三者都考慮了用戶網絡結構和用戶行為,其中,WBRank和本文算法都是基于PageRank迭代收斂,TwitterRank和本文算法都考慮了話題因素。對于算法的優(yōu)化策略,可以從技術角度出發(fā),增大并行節(jié)點數或將中間輸出結果同用戶關系相結合作為下一次迭代輸入,提高執(zhí)行效率,同時可以借助Spark GraphX技術提高對大規(guī)模圖計算的效率。
4 結語
利用社交網絡中微博話題和參與用戶數據,本文給出了話題參與用戶的話題信息傳播能力和用戶對微博話題興趣關注的度量機制,提出了一種面向微博話題的用戶影響力分析算法,通過真實新浪微博數據驗證和與其他同類經典算法對比,測試了本文算法的可行性、高效性和準確性。本文提出的算法,可以用于解決大規(guī)模微博話題用戶中的關鍵用戶識別問題,對社交網絡中解決信息傳播和輿情監(jiān)控等問題具有支撐作用。
本文僅在用戶行為時間性和用戶與微博話題間關聯(lián)度基礎上提出挖掘微博話題內有影響力用戶算法,進一步的工作可以基于話題傳播網絡,將微博用戶影響力與微博情感結合考慮,挖掘話題傳播過程中高影響力用戶的情感極性,更有效地監(jiān)控輿情。
參考文獻 (References)
[1] 趙姝,劉曉曼,段震,等.社交關系挖掘研究綜述[J].計算機學報,2017,40(3):535-555.(ZHAO S, LIU X M, DUAN Z, et al. Review of social relationship mining research [J]. Chinese Journal of Computers, 2017, 40(3):535-555.)
[2] 韓忠明,陳炎,劉雯,等.社會網絡節(jié)點影響力分析研究[J].軟件學報,2017,28(1):84-104.(HAN Z M, CHEN Y, LIU W, et al. Analysis of influence of social network nodes [J]. Journal of Software, 2017, 28(1): 84-104.)
[3] 吳信東,李毅,李磊.在線社交網絡影響力分析[J].計算機學報,2014,37(4):735-752.(WU X D, LI Y, LI L. Analysis of influence of online social networking [J]. Chinese Journal of Computers, 2014,37(4):735-752.)
[4] LUARN P, YANG J C, CHIU Y P. The network effect on information dissemination on social network sites [J]. Computers in Human Behavior, 2014, 37(37):1-8.
[5] CHEN Z, TAYLOR K. Modeling the spread of influence for independent cascade diffusion process in social networks[C]// Proceedings of the 2017 International Conference on Distributed Computing Systems Workshops. Piscataway, NJ: IEEE, 2017:151-156.
[6] WENG J, LIM E P, JIANG J, et al. TwitterRank: finding topic-sensitive influential twitterers [C]// ACM 2010: Proceedings of the 2010 ACM International Conference on Web Search and Data Mining. New York: ACM, 2010:261-270.
[7] LI Z, LI M, JI W. Modelling the public opinion transmission on social networks under opinion leaders [C]// AEECE 2017: Proceedings of the 2017 3rd International Conference on Advances in Energy, Environment and Chemical Engineering. Bristol: IOP Publishing, 2017:012215.
[8] 毛佳昕,劉奕群,張敏,等.基于用戶行為的微博用戶社會影響力分析[J].計算機學報,2014,37(4):791-800.(MAO J X, LIU Y Q, ZHANG M, et al. Analysis of social influence of Weibo users based on user behavior [J]. Chinese Journal of Computers, 2014,37(4):791-800.)
[9] 廖祥文,張凌鷹,魏晶晶,等.融合時間特征的社交媒介用戶影響力分析[J].山東大學學報(理學版),2018,53(3):1-12.(LIAO X W, ZHANG L Y, WEI J J, et al. An analysis of social media users influence on the integration of time characteristics [J]. Journal of Shandong University (Natural Science), 2018, 53(3):1-12.)
[10] SU S, WANG Y, ZHANG Z, et al. Identifying and tracking topic-level influencers in the microblog streams [J]. Machine Learning, 2017, 107(3): 551-578.
[11] 周東浩,韓文報.DiffRank:一種新型社會網絡信息傳播檢測算法[J].計算機學報,2014,37(4):884-893.(ZHOU D H, HAN W B. DiffRank: a new social network information propagation detection algorithm [J]. Chinese Journal of Computers, 2014,37(4): 884-893.)
[12] 祝升,周斌,朱湘.綜合用戶相似性與話題時效性的影響力用戶發(fā)現算法[J].山東大學學報(理學版),2016,51(9):113-120.(ZHU S, ZHOU B, ZHU X. User discovery algorithm based on comprehensive user similarity and topic time effectiveness[J]. Journal of Shandong University (Natural Science), 2016, 51(9):113-120.)
[13] WU J, SHA Y, LI R, et al. Identification of influential users based on topic-behavior influence tree in social networks[C]// Proceedings of the 6th Conference on Nature Language Processing and Chinese Computing. Dalian: [s.n.], 2017: 477-489.
[14] GOTEZ M, LESKOVEC J, MCGLOHOM M, et al. Modeling blog dynamics[C]// Proceedings of the 2009 International Conference on Weblogs and Social Media. Menlo Park, CA: AAAI Press, 2009: 26-33.
[15] LIN W, PANG X, WAN B, et al. MR-LDA: an efficient topic model for classification of short text in big social data [J]. International Journal of Grid and High Performance Computing, 2016, 8(4): 100-113.
[16] HU M, HANG G, ZHOU J, et al. A method for measuring social influence of micro-blog based on user operations[C]// Proceedings of the 2017 International Conference information Technology and Applications. Sydney: ICITA, 2017: 82-87.
[17] 丁兆云,周斌,賈焰,等.微博中基于多關系網絡的話題層次影響力分析[J].計算機研究與發(fā)展,2013,50(10):2155-2175.(DING Z Y, ZHOU B, JIA Y, et al. Analysis of topic influence on multi-relational networks in Weibo[J]. Journal of Computer Research and Development, 2013, 50(10):2155-2175.)