李倩+張碧君+趙中英
摘要摘要:基于社會(huì)化媒體數(shù)據(jù)研究信息的傳播及預(yù)測(cè),是當(dāng)前網(wǎng)絡(luò)輿情分析的一大熱點(diǎn)。以Twitter數(shù)據(jù)為研究對(duì)象,以探尋影響信息轉(zhuǎn)發(fā)的因素為研究目的,設(shè)計(jì)算法分析活躍鄰居節(jié)點(diǎn)數(shù)對(duì)轉(zhuǎn)發(fā)行為的影響,提出3種活躍鄰居節(jié)點(diǎn)結(jié)構(gòu)并驗(yàn)證三者對(duì)轉(zhuǎn)發(fā)行為的影響程度,運(yùn)用重啟動(dòng)的隨機(jī)游走算法研究回復(fù)與提及關(guān)系對(duì)轉(zhuǎn)發(fā)行為的影響。在Twitter數(shù)據(jù)集上實(shí)現(xiàn)了該算法,證明了活躍鄰居節(jié)點(diǎn)數(shù)、活躍鄰居節(jié)點(diǎn)結(jié)構(gòu)、回復(fù)與提及關(guān)系對(duì)轉(zhuǎn)發(fā)行為的影響。
關(guān)鍵詞關(guān)鍵詞:信息傳播;轉(zhuǎn)發(fā)預(yù)測(cè);社交媒體;輿情分析
DOIDOI:10.11907/rjdk.162452
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)001001503
引言
當(dāng)前,以網(wǎng)絡(luò)為媒介的網(wǎng)絡(luò)輿論成為公眾輿論的主要形式之一,研究信息轉(zhuǎn)發(fā)的影響因素,有助于研究網(wǎng)絡(luò)輿情的演化與信息傳播機(jī)制,對(duì)有效引導(dǎo)和管理社會(huì)輿論、化解輿情危機(jī)具有重要意義。在線社交網(wǎng)絡(luò)的信息傳播行為影響因素研究受到眾多學(xué)者的廣泛關(guān)注,并已成為當(dāng)前研究熱點(diǎn)。Kossinets等[1]利用聚類方法分析社會(huì)網(wǎng)絡(luò)數(shù)據(jù),構(gòu)建網(wǎng)絡(luò)特征傳播樹,建立信息傳播概率模型。Galuba等[2]建立轉(zhuǎn)發(fā)路徑預(yù)測(cè)模型研究用戶之間傳播規(guī)律。Suh等[3]選取了標(biāo)簽、URL、關(guān)注者人數(shù)等眾多因素,運(yùn)用主成份分析方法建立模型,提取出用戶轉(zhuǎn)發(fā)的主要影響因素。Zhang等[4]研究分析影響用戶關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)對(duì)用戶轉(zhuǎn)發(fā)行為的影響,提出邏輯回歸模型預(yù)測(cè)轉(zhuǎn)發(fā)行為。李志清[5]針對(duì)單個(gè)用戶個(gè)性化的內(nèi)容興趣偏好,通過主題抽取模型對(duì)微博內(nèi)容進(jìn)行語義主題抽取,運(yùn)用SVM的方法預(yù)測(cè)單個(gè)用戶是否轉(zhuǎn)發(fā)某條微博。曹玖新等[6]根據(jù)實(shí)際社交網(wǎng)絡(luò)新浪微博在線數(shù)據(jù),對(duì)各種可能影響用戶轉(zhuǎn)發(fā)行為的因素進(jìn)行統(tǒng)計(jì)分析,獲得各種因素對(duì)用戶轉(zhuǎn)發(fā)行為的影響關(guān)系。以上通過對(duì)社交網(wǎng)絡(luò)中信息傳播路徑的研究,分析信息傳播影響范圍,預(yù)測(cè)用戶轉(zhuǎn)發(fā)行為,得到信息傳播的統(tǒng)計(jì)規(guī)律特征。但是微博客處于不斷成長(zhǎng)中,準(zhǔn)確地把握微博客上的信息傳播特點(diǎn)和模式非常困難,對(duì)于微博客的研究還有很多值得改進(jìn)之處。
針對(duì)以上不足,本文對(duì)影響用戶信息轉(zhuǎn)發(fā)行為的影響因素進(jìn)行分析,包括關(guān)注(活躍鄰居節(jié)點(diǎn)數(shù)、活躍鄰居結(jié)構(gòu))、回復(fù)、提及等,旨在為信息轉(zhuǎn)發(fā)預(yù)測(cè)建模提供參考。
1活躍鄰居節(jié)點(diǎn)數(shù)對(duì)轉(zhuǎn)發(fā)行為的影響
在關(guān)注關(guān)系所形成的網(wǎng)絡(luò)中,以某一個(gè)Twitter消息為例,若用戶A轉(zhuǎn)發(fā)了該消息,則認(rèn)為A為活躍節(jié)點(diǎn)。若用戶B關(guān)注用戶A,并且用戶B是活躍節(jié)點(diǎn),則稱用戶B為用戶A的活躍鄰居節(jié)點(diǎn)。
本文首先研究活躍鄰居節(jié)點(diǎn)數(shù)對(duì)用戶轉(zhuǎn)發(fā)行為的影響程度。文獻(xiàn)[4]已經(jīng)證明間接用戶對(duì)鄰居的影響很小[4],因此本文只研究了用戶的直接鄰居節(jié)點(diǎn)對(duì)用戶轉(zhuǎn)發(fā)行為的影響。具體思路為:統(tǒng)計(jì)每個(gè)用戶的活躍鄰居節(jié)點(diǎn)數(shù),然后統(tǒng)計(jì)每個(gè)活躍鄰居節(jié)點(diǎn)數(shù)的總用戶數(shù)和轉(zhuǎn)發(fā)用戶數(shù),計(jì)算出轉(zhuǎn)發(fā)率,用轉(zhuǎn)發(fā)率的大小來衡量活躍鄰居節(jié)點(diǎn)數(shù)對(duì)用戶轉(zhuǎn)發(fā)行為的影響。
Step7:用t[n]除以tdu[n]得出百分比,即為鄰居活躍節(jié)點(diǎn)數(shù)為n個(gè)的用戶的轉(zhuǎn)發(fā)概率。
Step8:只有一個(gè)鄰居活躍節(jié)點(diǎn)的用戶分到Control組,其它的分到Treatment組,用Treatment組中數(shù)據(jù)分別除以Control組中數(shù)據(jù),得到的比值用于衡量影響的大小。
圖1為活躍鄰居節(jié)點(diǎn)數(shù)對(duì)轉(zhuǎn)發(fā)行為的影響程度,橫坐標(biāo)表示活躍鄰居節(jié)點(diǎn)數(shù)量,縱坐標(biāo)表示擁有多個(gè)活躍鄰居節(jié)點(diǎn)的用戶轉(zhuǎn)發(fā)率與只擁有一個(gè)活躍鄰居節(jié)點(diǎn)的用戶轉(zhuǎn)發(fā)率的比值。從圖1中可知,隨著活躍鄰居節(jié)點(diǎn)數(shù)的增加,用戶的轉(zhuǎn)發(fā)可能性隨之增加,呈現(xiàn)出一種增長(zhǎng)趨勢(shì)。綜上所述,活躍鄰居節(jié)點(diǎn)數(shù)對(duì)用戶轉(zhuǎn)發(fā)行為的影響確實(shí)存在。
2活躍鄰居結(jié)構(gòu)對(duì)轉(zhuǎn)發(fā)行為的影響
在Twitter平臺(tái)上,因關(guān)注與被關(guān)注關(guān)系的存在,節(jié)點(diǎn)周圍有許多聯(lián)系密切的鄰居節(jié)點(diǎn),包括關(guān)注者鄰居節(jié)點(diǎn)集合和追隨者鄰居節(jié)點(diǎn)集合。根據(jù)Twitter平臺(tái)信息傳播的特點(diǎn),用戶往往可以看到其關(guān)注者發(fā)表的推文,再根據(jù)個(gè)人需求決定是否從其關(guān)注者處轉(zhuǎn)發(fā)該推文。因此,有必要研究活躍鄰居結(jié)構(gòu)對(duì)用戶轉(zhuǎn)發(fā)行為的影響程度。
紅色節(jié)點(diǎn)表示曾經(jīng)都轉(zhuǎn)發(fā)過某篇推文的活躍鄰居節(jié)點(diǎn),白色節(jié)點(diǎn)表示未曾轉(zhuǎn)發(fā)過同一篇推文的不活躍鄰居節(jié)點(diǎn),節(jié)點(diǎn)之間的連線表示關(guān)注關(guān)系。圖2(a)- (c)用戶的3個(gè)活躍鄰居節(jié)點(diǎn)的結(jié)構(gòu)不同。對(duì)于聯(lián)通鄰居結(jié)構(gòu),刪除用戶V之后,用戶V的3個(gè)鄰居節(jié)點(diǎn)A、C、F之間能通過有限步數(shù)到達(dá)彼此,即所有鄰居節(jié)點(diǎn)構(gòu)成一個(gè)連通分量,稱A、C、F組成一個(gè)圈。對(duì)于非聯(lián)通鄰居結(jié)構(gòu),A、F、C都不可以相互到達(dá),稱A、C、F組成3個(gè)圈。剩余的情況,即A、C、F組成兩個(gè)圈,稱作半聯(lián)通鄰居結(jié)構(gòu)。
研究以上3種結(jié)構(gòu)對(duì)用戶V轉(zhuǎn)發(fā)行為的影響。轉(zhuǎn)發(fā)率(Retweet Probability 簡(jiǎn)稱Retweet_P)用來衡量用戶v的轉(zhuǎn)發(fā)概率,轉(zhuǎn)發(fā)率越大,用戶v就越有可能轉(zhuǎn)發(fā)該推文。首先找出樣本數(shù)據(jù)中所有的至少有3個(gè)活躍鄰居節(jié)點(diǎn)的用戶節(jié)點(diǎn)v數(shù)據(jù)集,然后從中找出3個(gè)活躍鄰居節(jié)點(diǎn)的結(jié)構(gòu)符合上述3種結(jié)構(gòu)的用戶節(jié)點(diǎn)v數(shù)據(jù)集,對(duì)用戶節(jié)點(diǎn)數(shù)據(jù)集中的每一個(gè)用戶節(jié)點(diǎn),判斷其是否轉(zhuǎn)發(fā)了同一篇推文,轉(zhuǎn)發(fā)過同一篇推文的記作N+,未轉(zhuǎn)發(fā)過的記作N—,那么轉(zhuǎn)發(fā)率(Retweet_P)可用式(1)表示。Retweet_P=N+/(N++N_)(1)運(yùn)用算法計(jì)算3種結(jié)構(gòu)的轉(zhuǎn)發(fā)可能性,結(jié)果如圖3所示。
分析3種結(jié)果轉(zhuǎn)發(fā)的可能性發(fā)現(xiàn),聯(lián)通鄰居結(jié)構(gòu)對(duì)信息轉(zhuǎn)發(fā)的影響程度是非聯(lián)通鄰居結(jié)構(gòu)的兩倍多。3種關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)反映了用戶與其直接鄰居節(jié)點(diǎn)之間的關(guān)系。上述結(jié)果顯示,用戶與其鄰居節(jié)點(diǎn)之間關(guān)系越密切,轉(zhuǎn)發(fā)可能性越大,可知用戶的關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)與轉(zhuǎn)發(fā)可能性緊密相關(guān)。
3回復(fù)與提及對(duì)轉(zhuǎn)發(fā)行為的影響
運(yùn)用重啟動(dòng)的隨機(jī)游走算法分析回復(fù)和提及網(wǎng)絡(luò)對(duì)用戶轉(zhuǎn)發(fā)行為的影響。對(duì)網(wǎng)絡(luò)中的每一個(gè)用戶節(jié)點(diǎn)vi,計(jì)算τ深度活躍鄰居節(jié)點(diǎn)vj與該用戶的緊密程度,τ深度鄰居節(jié)點(diǎn)vj的游走概率pj用式(2)表示。i=(1-c)Ai+ci(2)i=(Pi(1),Pi(2),…,Pi(|Gτi|))代表穩(wěn)定概率向量,對(duì)向量中的每一個(gè)元素Pi(j)代表節(jié)點(diǎn)i與其鄰居節(jié)點(diǎn)j的密切程度。|Gτi|是vi的鄰居自我網(wǎng)絡(luò)的大小,即鄰居節(jié)點(diǎn)的個(gè)數(shù)。列向量i為重啟動(dòng)向量,表示初始狀態(tài)下粒子在頂點(diǎn)i的概率。列向量i中設(shè)置目標(biāo)用戶頂點(diǎn)值為1,其余為0。A是轉(zhuǎn)移概率矩陣,A的元素表示當(dāng)前頂點(diǎn)i下一步到達(dá)頂點(diǎn)j的轉(zhuǎn)移概率。c為直接回到出發(fā)頂點(diǎn)的概率,取0.8時(shí)效果最好。
轉(zhuǎn)移概率矩陣A的構(gòu)造在隨機(jī)游走算法中意義重大。結(jié)合研究課題,用回復(fù)和提及網(wǎng)絡(luò)來構(gòu)造轉(zhuǎn)移概率矩陣A。在關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,將回復(fù)和提及網(wǎng)絡(luò)節(jié)點(diǎn)間的權(quán)重累加到相應(yīng)的關(guān)注網(wǎng)絡(luò)上,構(gòu)造關(guān)注-回復(fù)-提及網(wǎng)絡(luò)結(jié)構(gòu)。那么轉(zhuǎn)移概率矩陣A的每一個(gè)變量A[i][j]可以用式(3)計(jì)算出。A[i][j]=Aij∑|Gτi|j=1Aij(3)其中,Aij表示邊權(quán)重,∑|Gτi|j=1Aij表示與目標(biāo)節(jié)點(diǎn)相連接的所有邊權(quán)重之和。
應(yīng)用隨機(jī)游走算法,從用戶節(jié)點(diǎn)vi開始游走,每到一個(gè)節(jié)點(diǎn)都以1-w的概率停止游走并從vi重新開始,或者以w的概率從當(dāng)前節(jié)點(diǎn)指向的節(jié)點(diǎn)中按照概率隨機(jī)選擇一個(gè)節(jié)點(diǎn)往下游走[7]。根據(jù)六步原則,隨機(jī)游走的步數(shù)不會(huì)超過6。因此,經(jīng)過不斷迭代,每個(gè)頂點(diǎn)被訪問到的概率就會(huì)達(dá)到穩(wěn)定狀態(tài)。隨機(jī)游走轉(zhuǎn)發(fā)概率和與實(shí)際轉(zhuǎn)發(fā)概率的關(guān)系如圖4所示,由此可知,實(shí)際轉(zhuǎn)發(fā)概率與所有鄰居節(jié)點(diǎn)的概率和成正比,用所有鄰居節(jié)點(diǎn)的概率和可以較好地預(yù)測(cè)目標(biāo)用戶的轉(zhuǎn)發(fā)概率。
4結(jié)語
本文主要研究影響用戶轉(zhuǎn)發(fā)行為的各種因素,分別研究了活躍鄰居節(jié)點(diǎn)數(shù)、活躍鄰居節(jié)點(diǎn)結(jié)構(gòu)、回復(fù)與提及關(guān)系對(duì)轉(zhuǎn)發(fā)行為的影響。相關(guān)結(jié)果表明,以上三者與用戶的信息轉(zhuǎn)發(fā)行為密切相關(guān),能夠?yàn)楹罄m(xù)信息傳播模型的構(gòu)建及信息傳播態(tài)勢(shì)的預(yù)測(cè)奠定基礎(chǔ)。
圖4隨機(jī)游走轉(zhuǎn)發(fā)概率和與實(shí)際轉(zhuǎn)發(fā)概率的關(guān)系
參考文獻(xiàn)參考文獻(xiàn):
[1]KOSSINETS G,KLEINBERG J,WATTS D.The structure of information pathways in a social communication network[J].Physics,2008,109(11):7179.
[2]GALUBA W,ABERER K,CHAKRABORTY D,et al.Outtweeting the twitterers-predicting information cascades in microblogs[C].International Conference on Online Social Networks.USENIX Association,2010.
[3]SUH B,HONG L,PIROLLI P,et al.Want to be retweeted? large scale analytics on factors impacting retweet in twitter network[C].IEEE Second International Conference on Social Computing (Socialcom),Passat 2010,Minneapolis,Minnesota,2010:177184.
[4]ZHANG J,TANG J,LI J,et al.Who influenced you? predicting retweet via social influence locality[J].ACM Transactions on Knowledge Discovery from Data,2015,9(3):126.
[5]李志清.基于LDA主題特征的微博轉(zhuǎn)發(fā)預(yù)測(cè)[J].情報(bào)雜志,2015(9):158162.
[6]曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2014(4):779790.
[7]郭三君,萬敏.一種改進(jìn)的重啟動(dòng)隨機(jī)游走立體匹配算法[J].中國(guó)科技論文,2016,11(2):242244.