王 怡,梁 循,付虹蛟,徐志明
(中國人民大學(xué)信息學(xué)院,北京 100872)
隨著社會網(wǎng)絡(luò)的發(fā)展和普及,普通大眾主導(dǎo)網(wǎng)絡(luò)信息的擴散活動,擴散主體具有私人化、平民化、普泛化、自主化等特性。博客、微博、微信、論壇等網(wǎng)絡(luò)社區(qū)都是自媒體的表現(xiàn)平臺,普通用戶在信息擴散過程中既是接收者也是擴散者,大大增加了信息擴散的廣度和速度。社交網(wǎng)絡(luò)上的信息量十分巨大,雖然大部分信息會在短時間內(nèi)被其它信息覆蓋,但有一部分信息會有很長的生命周期,由于其自身所含的信息量和網(wǎng)絡(luò)中用戶的推動,會在短時間內(nèi)迅速擴散到很大的范圍,帶來巨大的影響。這種網(wǎng)絡(luò)輿論由于其范圍之廣,速度之快,可能還伴隨著用戶的情緒波動和觀點態(tài)度,應(yīng)該引起極大的重視。尤其是對于一些虛假信息或是極端觀點的擴散,更加需要及時有效地加以控制,避免引起社會恐慌或是危害人們的財產(chǎn)。在線社交網(wǎng)絡(luò)中的信息擴散問題也因此成為了網(wǎng)絡(luò)輿論監(jiān)控的研究熱點。對輿情的整體態(tài)勢分析有助于預(yù)估事件影響力,信息擴散路徑中的關(guān)鍵環(huán)節(jié)也對控制輿論擴散有重要參考價值。
從微觀角度對信息擴散進行分析時,我們發(fā)現(xiàn)現(xiàn)有研究模型存在以下不足:首先,用戶是否在線是用戶獲取信息的前提,而已有的研究并沒有考慮用戶接收到信息的概率;其次,準(zhǔn)確評價用戶之間的影響力是信息擴散過程的基礎(chǔ),現(xiàn)有文獻并沒有在利用模型進行模擬之前分析節(jié)點對之間的影響值;另外,已有研究更多從級聯(lián)層次上來分析信息擴散過程,所得結(jié)果對于時效性更強的社會網(wǎng)絡(luò)中信息的擴散來說適應(yīng)度不高,實際指導(dǎo)意義不大。針對現(xiàn)有研究的不足,本文在獨立級聯(lián)模型的基礎(chǔ)上,補充了節(jié)點的在線狀態(tài),將信息的獨立級聯(lián)模型擴展為基于離散時間的雙概率獨立級聯(lián)擴散模型;同時本文改進了現(xiàn)有的有關(guān)求解網(wǎng)絡(luò)中邊的權(quán)重的最大期望算法,利用實際數(shù)據(jù)分析節(jié)點之間的擴散概率,并將所得結(jié)果代入所建模型。針對特定的突發(fā)型社會事件的信息擴散,本文對實際數(shù)據(jù)集中節(jié)點之間的影響概率進行分析,以所得結(jié)果為基礎(chǔ)進行實驗。為彌補微觀模型在網(wǎng)絡(luò)結(jié)構(gòu)和信息質(zhì)量上表述的不足,本文進一步從宏觀角度對信息擴散過程進行分析,并對其動態(tài)變化定量建模。結(jié)合微觀模擬和現(xiàn)有研究,本文提取重要的影響因素,并以此為基礎(chǔ)構(gòu)建信息擴散方程,從宏觀角度對網(wǎng)絡(luò)輿情擴散的過程進行模擬和分析。
本文第2節(jié)根據(jù)不同的研究目的對現(xiàn)有的研究進行了闡述。第3節(jié)分別從微觀和宏觀角度對信息擴散的過程進行分析和模型刻畫。第4節(jié)則根據(jù)本文所提模型進行實驗?zāi)M,并對實驗結(jié)果進行分析。第5節(jié)對本文的工作進行總結(jié)。
獨立級聯(lián)(Independent Cascade, IC)模型和線性閾值(Linear Threshold, LT)模型[1]是最為經(jīng)典的兩個用來描述社交網(wǎng)絡(luò)中影響力擴散的模型,分別從概率和閾值的角度對信息擴散機制進行刻畫,自提出后被廣泛應(yīng)用并擴展。獨立級聯(lián)模型源于市場影響模型研究,在此模型中,網(wǎng)絡(luò)中的節(jié)點有激活和未激活兩種狀態(tài),且節(jié)點只存在由未激活狀態(tài)轉(zhuǎn)化為激活狀態(tài)這一種變化形式。在第t步擴散時,某一節(jié)點v的鄰居節(jié)點u處于激活狀態(tài),此時u有使處在未激活狀態(tài)的節(jié)點v變成活躍狀態(tài)的可能,且成功的概率是pu,v;若節(jié)點v有多個被激活的鄰居節(jié)點,則鄰居們對節(jié)點v的影響順序是任意的。獨立級聯(lián)模型能夠較好地反應(yīng)網(wǎng)絡(luò)中的影響力擴散過程,適用性較強,后續(xù)對于該模型也有更為深入的研究。Sauti等[2]則首次提出了異步級聯(lián)(Asynchronous Independent Cascadel, AsIC)模型,強調(diào)時間對于信息擴散的影響,并設(shè)計了迭代更新參數(shù)的算法,使結(jié)果更合理。Saito等[3]對IC模型、LT模型和AsIC模型對于不同主題的信息的適用性進行了分析,用實際擴散數(shù)據(jù)進行驗證,發(fā)現(xiàn)大部分信息擴散符合AsIC模型。萬圣賢等[4]還采用最大熵的方法對IC模型中涉及的閾值進行了定義和分析,發(fā)現(xiàn)與Logistic Regression模型相比,此方法具有更好的穩(wěn)定性。Chen Wei等[5]則提出了加權(quán)級聯(lián)(Weighted Cascade)模型,其中節(jié)點成功激活后繼節(jié)點的概率是后繼節(jié)點的入度的倒數(shù),其它規(guī)則與IC模型一致。朱湘等[6]則在已有模型的基礎(chǔ)上,提出了一種結(jié)合用戶去重、垃圾用戶濾除和概率閱讀的擴散模型。
以往的研究表明,獨立級聯(lián)模型能夠很好地匹配在線社交網(wǎng)絡(luò)的結(jié)構(gòu)特性;但由于社交網(wǎng)絡(luò)的自身特性,傳統(tǒng)的模型在時間和概率上存在明顯的不足。首先,在線社交網(wǎng)絡(luò)中的用戶會以一定的概率停留在線上并接收網(wǎng)絡(luò)中的信息,即用戶是否在線是用戶能否閱讀到已有信息的前提,傳統(tǒng)的IC模型沒有考慮節(jié)點的狀態(tài)是否有效。其次,信息在網(wǎng)絡(luò)中的擴散速度很快,時效性是輿論監(jiān)控中的關(guān)鍵要素之一。既有的信息擴散模型更多地從擴散層級出發(fā),考慮的是每一步的擴散結(jié)果,無法體現(xiàn)時間的特性。網(wǎng)絡(luò)中不同的信息在自身屬性上差異很大,包括信息的內(nèi)容、信息的展現(xiàn)形式和信息本身所含的信息量等方面,將不同主題的信息一概而論是粗糙且不合理的。
以上的模型都需要有一個先驗知識,即節(jié)點之間的擴散概率,在網(wǎng)絡(luò)中也稱為邊的權(quán)重,一般研究擴散模型的文章中,都將這一知識看作是已知的,僅部分學(xué)者就這一關(guān)鍵問題進行了獨立研究。Saito等[6]第一次系統(tǒng)提出了如何求解擴散概率的問題并給出了解答,他們的研究基于獨立級聯(lián)模型,對擴散過程的概率進行分析,在求解似然函數(shù)最大值的時候采用的是最大期望(Expectation Maximum, EM)算法。Goyal等[8]則分別從靜態(tài)和動態(tài)的角度分析了擴散概率,并為這兩種擴散模式中的概率獲取設(shè)計了相應(yīng)的算法。他們的研究從大量的日志數(shù)據(jù)入手,優(yōu)化算法的掃描次數(shù),使得所需參數(shù)能夠在兩遍以內(nèi)的掃描中求得,而且能夠預(yù)測用戶會在什么時刻進行轉(zhuǎn)發(fā)。這一算法適用于大規(guī)模的網(wǎng)絡(luò),在性能和時間上都有所提高。郭靜等[9]在線性閾值模型的框架下,以社交網(wǎng)絡(luò)中用戶的歷史行為日志為基礎(chǔ),利用最大似然估計的思想對用戶間的影響力進行學(xué)習(xí),同樣能夠?qū)W(wǎng)絡(luò)中邊的權(quán)重進行求解。
線性閾值模型則源于節(jié)點的特異性研究,它與獨立級聯(lián)模型的不同之處在于,當(dāng)一個激活節(jié)點u嘗試去激活它的處于未激活狀態(tài)的鄰居節(jié)點v時,其影響力pu,v不會失效,而是積累下來。此模型也被廣泛改進和應(yīng)用,典型的包括從多層級級聯(lián)擴散[10]、競爭性[11]、動態(tài)性[12]、網(wǎng)絡(luò)結(jié)構(gòu)[13]等方面對其進行擴展。除此以外,傳染病模型從另一角度對信息擴散進行描述,經(jīng)典的傳染病模型將人的狀態(tài)分為易感S(susceptible)、感染I(infected)、治愈R(recovered)三種狀態(tài),根據(jù)狀態(tài)轉(zhuǎn)換定義出SIR模型,后續(xù)還調(diào)整出SIS、SIRS模型等,是擴散動力學(xué)的主要分支之一。其它的模型包括連續(xù)時間模型、博弈論模型和多實體擴散模型等。
在對信息擴散過程從宏觀角度進行研究時,部分文獻從統(tǒng)計結(jié)果出發(fā),通過對實際數(shù)據(jù)集的分析,得出信息隨時間擴散的特性,或是用數(shù)值方程進行擬合。也有一些動態(tài)方程模型,在假設(shè)信息擴散過程的基礎(chǔ)上,用函數(shù)進行刻畫,都取得了較大的認(rèn)可。此外,Yang等[14]則沒有關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)或者預(yù)測哪些節(jié)點會被影響,而是從宏觀上構(gòu)建了一個線性影響(Linear Influence)模型,通過最小方差法來得到參數(shù)的值,取得了較好的數(shù)值模擬結(jié)果。劉德海[15]等綜合考慮群體性突發(fā)實踐中不同利益方同時存在信息過剩、信息匱乏和虛假信息等多樣化的信息特征,建立信息傳播的演化博弈模型,分析信息特征對震蕩型群體性突發(fā)事件的演化影響。Boyd等[16]以Twitter為研究對象,對用戶Retweet(類似于國內(nèi)微博的“轉(zhuǎn)發(fā)”)的方式、動機以及信息的內(nèi)容主題傾向進行了分析。廖為民等[17]則從具體的事件出發(fā),通過對整個事件過程中信息的擴散數(shù)據(jù)進行整理和分析,定量和定性相結(jié)合,準(zhǔn)確而形象地對事件的發(fā)展過程進行了刻畫。劉樑[18]等考慮政府、網(wǎng)民、媒體和非常規(guī)突發(fā)事件等agent,建立行為特征模型、因果關(guān)聯(lián)圖等,并通過防火怎計算提出在線信息的預(yù)警策略。王秀利[19]等利用無標(biāo)度網(wǎng)絡(luò)模型具有的增長、擇優(yōu)連接特性,加入社會輿論因素,提出微博平臺下的商業(yè)輿論傳播模型。這些研究主要研究的是最終的擴散效果,但是對于時間方面的特性則沒有考慮。曹學(xué)艷[20]等把突發(fā)事件應(yīng)對等級引入網(wǎng)絡(luò)輿情熱度指標(biāo)中,進一步豐富和完善了輿情熱度指標(biāo)。
本文在認(rèn)識信息擴散的微觀機理的基礎(chǔ)上,對整個事件的擴散進行梳理,并建立對應(yīng)的方程,以方程的形態(tài)特征來描述事件擴散的特點。
在本節(jié),我們?yōu)樯鐣W(wǎng)絡(luò)中的信息擴散建立相關(guān)的模型以描述其擴散機理,并參考已有資料對信息擴散過程建立數(shù)值化模型。模型涉及到的變量及其含義如表1所示。
這一部分構(gòu)建了雙概率獨立級聯(lián)擴散模型,從微觀角度刻畫社會網(wǎng)絡(luò)中信息隨時間變化的擴散過程。
表1 方程組中變量及其含義
將社會網(wǎng)絡(luò)中的用戶看成是圖中的節(jié)點,用戶之間的關(guān)注關(guān)系看成圖中的邊。本文中節(jié)點和用戶代表的是同一實體,可以相互替換。對于一個有向網(wǎng)絡(luò)G= (V,E), 其中V代表節(jié)點的集合;?v,w∈V,v≠w,e= (v,w)表示存在從節(jié)點w指向節(jié)點v的邊,信息可沿著邊e從v傳向w;網(wǎng)絡(luò)中所有的邊構(gòu)成集合E。對于G中的每個節(jié)點v,其子節(jié)點的集合用F(v) = {w: (v,w)∈E}表示,而它的父節(jié)點集合則用B(v) = {u: (u,v)∈E}表示。每個節(jié)點的狀態(tài)從兩個維度來考慮:一方面,根據(jù)是否轉(zhuǎn)發(fā)特定的信息可以分為激活(Active)和未激活(Inactive)狀態(tài)。即對于一條特定信息,若用戶已經(jīng)轉(zhuǎn)發(fā),則屬于激活狀態(tài);反之,所用戶沒有轉(zhuǎn)發(fā),則處于未激活狀態(tài)。另一方面,根據(jù)用戶是否在線可以分為在線(Online)和離線(Offline)兩種狀態(tài),且用戶v在時間段[ti,ti+1)(i=1, 2, 3, …)內(nèi)在線的概率為kv。用戶處于離線狀態(tài)時無法獲取信息,也就不可能出現(xiàn)激活的過程。用戶在線時則意味著用戶能夠獲取相關(guān)新信息,并有可能被激活。用戶一旦處于激活狀態(tài),則無需再考慮用戶的在線狀態(tài)。對于圖G中的每一條有向邊e= (v,w),我們用實數(shù)pv,w來表示e的權(quán)重,其中0 圖1為信息在給定節(jié)點網(wǎng)絡(luò)中的擴散示意圖,其中橙色表示節(jié)點處于激活狀態(tài),綠色表示節(jié)點尚未被激活且處于在線狀態(tài),灰色表示節(jié)點未被激活且處于離線狀態(tài)。信息在時間段[ti,ti+1)內(nèi)的級聯(lián)層次并不固定,在圖中用sij來表示[ti,ti+1)內(nèi)的第j層傳播,比如圖1中,[t1,t2)內(nèi)擴散了2層,[t2,t3)內(nèi)擴散了3層。每層激活過程中,活躍節(jié)點的子節(jié)點中處于在線狀態(tài)的節(jié)點組成待激活節(jié)點集合,接著活躍節(jié)點會嘗試影響待激活節(jié)點。例如圖中初始時刻t1只有一個初始活躍節(jié)點,在[t1,t2)的s11階段,它的子節(jié)點中處于在線狀態(tài)的兩個節(jié)點形成了待激活節(jié)點集合,進而它嘗試激活這兩個節(jié)點,最終成功和失敗各一個,此激活結(jié)果作為s12的初始狀態(tài)。在s12階段,活躍節(jié)點的子節(jié)點中滿足在線狀態(tài)的有兩個,但其中一個曾經(jīng)激活失敗且并無新的活躍父節(jié)點,所以不能加入待激活節(jié)點集合。唯一符合要求的節(jié)點也最終激活失敗,因此進入[t2,t3)時依然只有兩個活躍節(jié)點。該時間段會重復(fù)第一個時間段內(nèi)的過程。由于觀測時刻只到t2,圖示中的信息擴散過程結(jié)束。 圖1 信息的級聯(lián)擴散隨時間變化的過程示意圖 圖1中某一時間段內(nèi)的信息擴散過程可以由圖2表示。信息在每個時間段[ti,ti+1) 中可能會擴散多層,設(shè)為step(i) (i=1, 2, 3, …)。用sij表示信息在[ti,ti+1)內(nèi)的第j層傳播,集合C(ti,sij)表示時間段[ti,ti+1)的第sij層級聯(lián)中,所有處于活躍狀態(tài)的節(jié)點集合。 圖2 節(jié)點網(wǎng)絡(luò)中信息擴散的過程示意圖 給定初始的活躍節(jié)點集合C(t1,s11),在時間段[ti,ti+1]中第sij層,任意v(C(ti,sij)有機會來激活它的子節(jié)點集合中處于不活躍狀態(tài)的節(jié)點。對于w∈F(v), 當(dāng)w處于不活躍狀態(tài)且在線時,若之前v沒有嘗試激活過w,則本輪可以進行激活,且激活成功的概率為pv,w。如果v成功了,則w在下一次擴散時處于活躍狀態(tài),即: (1) 若v沒有激活成功,則之后無法再次激活。也就是說,v最多只有一次機會來激活w。對于處于未激活狀態(tài)的節(jié)點w來說,若在這一時間段內(nèi)處于在線狀態(tài),且最近一次處于在線狀態(tài)的時間為t’,而在(t’,ti)中有多個父節(jié)點新被激活,則將這些節(jié)點隨機排序,依次判斷是否能夠激活w,一旦被激活則停止判斷。 當(dāng)沒有新的節(jié)點存在被激活的可能性,或是時間已經(jīng)超過我們設(shè)定的考慮范圍,則信息的級聯(lián)擴散過程停止。 以上模型總結(jié)如下: 模型I. (1)給定一個初始活躍節(jié)點集合C(t1,s11),其中C(ti,sij)表示時間段[ti,ti+1)內(nèi)第j層的活躍節(jié)點集合,且i= 1, 2, 3….。 (2)在每個時間段[ti,ti+1)中,信息會發(fā)生step(i)級擴散。 (3)對于每一級的擴散,當(dāng)結(jié)點v處于激活狀態(tài)時,它的每個非激活狀態(tài)且在線的鄰接點w都有可能變成激活狀態(tài)。若w有多個新的激活鄰接點,影響順序可以是任意的。如果w被激活,則它會加入活躍節(jié)點集合,具體方式如公式(1)。 (4)一旦v嘗試激活過w,就不能再次激活。 (5)當(dāng)超過有效追蹤時間,或是不在產(chǎn)生新的激活點,該過程結(jié)束。 模型I能夠較好地描述社會網(wǎng)絡(luò)中信息在用戶群體間的擴散過程,且可以體現(xiàn)出信息的擴散隨時間變化的數(shù)量變化。 模型I從微觀角度對信息的擴散過程進行了刻畫和分析。但事情發(fā)生后,其擴散過程還會受傳播平臺、用戶網(wǎng)絡(luò)、時間、前期傳播等諸多不確定性因素的影響,需要從宏觀的角度對其進行分析。我們在模型II中梳理了信息擴散過程中主要因素的反饋和發(fā)展機制,并定量化分析網(wǎng)絡(luò)中事件信息的擴散情況。 假設(shè)網(wǎng)絡(luò)中有N個節(jié)點,且對于相關(guān)的話題沒有明顯的傾向性。在時刻nb發(fā)生了一件突發(fā)事件,此時有Sb個用戶及時地對其進行了擴散。我們將這一外部的突發(fā)事件看成是一個信息刺激。用(來表示事件本身的影響力即信息的質(zhì)量,包括它的內(nèi)容、來源、爭議性、信息量等本身的性質(zhì),這一特征會對信息的擴散速度、廣度和深度產(chǎn)生重要的影響。若(為0,則沒有人會對這一刺激產(chǎn)生興趣,也不會有人對其進行發(fā)布或轉(zhuǎn)發(fā)、評論等。但(越大,則會有更多用戶參與到輿情的擴散中來。根據(jù)已有的研究,信息的影響力會隨著時間的變化而衰減,并服從冪律(power law)衰減的規(guī)律。本文用函數(shù)f(n)表示信息的影響力隨擴散階段n的衰減過程。對事件擴散的模型描述如下: 模型II. (1)某一事件發(fā)生后,一批初始結(jié)點會迅速擴散相關(guān)消息,進而影響到網(wǎng)絡(luò)中大量的未被激活結(jié)點。 (2)在時間段[ti-1,ti),i= 1, 2, 3…,活躍結(jié)點以一定的概率影響非活躍結(jié)點。此概率同時與信息質(zhì)量和結(jié)點的活躍程度有關(guān)。 (3)其它平臺會對信息的擴散產(chǎn)生外部刺激,且該刺激與上一時刻信息的擴散量正相關(guān)。 (4)擴散過程中會因為不可控的隨機因素而產(chǎn)生不可避免的噪聲。 (5)超過有效追蹤時間時,信息擴散結(jié)束。 模型II假設(shè):(1)每一個用戶只會在相關(guān)事件的擴散中參與一次。(2)假設(shè)信息的刺激源頭是單一的,即在事情的擴散過程中,沒有相關(guān)的事件發(fā)生對信息的擴散產(chǎn)生二次影響。 假設(shè)節(jié)點有兩種狀態(tài):U(un-informed of the rumor)代表未被感染狀態(tài),I(informed of the rumor)代表已被感染狀態(tài)。用△B(n)表示在時刻n被感染的用戶數(shù),并且一旦被感染,則會立即改變狀態(tài)。用U(n)表示在時刻n未被感染的用戶數(shù)目,則: (2) U(n+1)=U(n)-ΔB(n+1) (3) 其中,f(τ)=βτ-1.5,且△B(0) = 0,U(0) =N。ρ為用戶關(guān)聯(lián)的緊密程度,用來刻畫用戶關(guān)注網(wǎng)絡(luò)中用戶的連接概率。由于現(xiàn)在信息的多元化,不同平臺上的信息之間彼此會存在影響,因此,我們會增加一個外部的刺激S(n),代表時刻n產(chǎn)生的影響。數(shù)值上可以表示為: (4) 在上述模型中, a)△B(t) +S(t)這一項代表了在時刻t新增的受影響用戶數(shù)目和外部來源的影響;他們的感染率可以用函數(shù)f來表述,而且我們認(rèn)為影響因子隨著時間呈現(xiàn)冪率降低。從初始時刻nb開始后的所有項進行累積就可以得到所有的影響力。 b)影響因子函數(shù)f完全符合冪函數(shù)形式,且從以往基于真實數(shù)據(jù)集的研究得知,其常數(shù)為-1.5。 c)外部影響函數(shù)S是自適應(yīng)的項,在初始時刻,即n=nb時,外部影響就是初始感染的用戶集數(shù)目。但在以后的時刻中,我們假設(shè)外部影響會與信息的擴散情況相關(guān),存在一定的滯后性。即在上一個時間段中,若信息的擴散量很大,則說明信息的擴散能力很強,更容易受到外部平臺中的影響。相反,若擴散量較小,外部的影響也會降低。為避免信息擴散數(shù)量的絕對值影響,本文先對其取對數(shù),并加上常數(shù)a對其進行調(diào)節(jié)。同時為避免信息沒有擴散△B(t-1)=0而可能出現(xiàn)的錯誤,我們給其加上常數(shù)1。 d)將從初始時刻開始到時刻n的所有新增項進行加和,得到的是所有的刺激因素;而有效的激活目標(biāo)是尚未被感染的用戶U(n),它們的乘積與當(dāng)前的信息影響力f(n+ 1 -t)相乘時時可以得到新的感染用戶數(shù)目。 e)用隨機項ε來對一些特殊情況進行建模,比如信息加上了一些話題時,就會產(chǎn)生一定的影響。一般情況下,0<ε< 1。 同時,信息的擴散與用戶的行為息息相關(guān),考慮到用戶的生活周期性,我們將周期性這一特性也加入到信息擴散的數(shù)值方程中,則: (5) (6) 其中,A(n)是周期性調(diào)節(jié)因子,代表用戶在網(wǎng)絡(luò)中的活躍程度;A為振幅,表示用戶活躍程度的變化程度;T為周期,本文以小時為單位進行分析,所以T為24。根據(jù)用戶的日?;顒?,在白天的時候,會存在一個峰值,而到了晚上,則會降低對事件的關(guān)注度。As是相位調(diào)節(jié)因子,由事件發(fā)生的初始時刻與用戶活躍極大值的時刻共同決定,若事件發(fā)生在上午8點,而用戶最活躍的時間為中午12點,則As= 2。 在這一部分,我們對上文中的模型進行實驗?zāi)M,并對實驗結(jié)果進行分析。 (1) 用戶之間擴散概率的分析 這一部分根據(jù)模型I所述的擴散機制,從擴散概率的角度出發(fā),對信息擴散的結(jié)果進行概率推導(dǎo),進而分析得到節(jié)點對v,w之間權(quán)重pv,w的求解方法。為使分析過程更為清晰,我們只考慮到時間段這一層次,而不進入到里面具體的級聯(lián)層數(shù),時間也用t進行簡化表示。 用rw(t)代表節(jié)點w在t時刻被激活的概率,則t+1時刻節(jié)點w被激活的概率表示如公式(7)所示: (7) 這里,節(jié)點w在t時刻沒有被激活包含兩種可能性,一是w沒有在線,一是雖然w在線,但是其父節(jié)點集合中的節(jié)點均未能成功激活w。 集合D(t)表示在時間段t內(nèi)新被激活成功的節(jié)點集合,則整個擴散過程D可以表示為各個時間段內(nèi)新增集合的并集,即D=D(0) ∪D(1) ∪ … ∪D(T),其中T表示有效的觀察時間長度。用C(t)表示截至?xí)r間段t所有的被激活節(jié)點集合,Rw(t)代表截至?xí)r間段t時已經(jīng)嘗試過激活w的節(jié)點集合,則C(t) (8) 用{Ds:s= 1, 2, …,S}表示S個獨立的信息擴散過程的集合,則對于整個數(shù)據(jù)集中的信息擴散概率,我們可以得到總的目標(biāo)函數(shù),如公式(9)所示: (9) (10) 接下來,需要得到所有的擴散概率使得(9)的值最大。由于(9)的偏導(dǎo)數(shù)十分復(fù)雜,難以直接分析或采用梯度上升算法進行求解,所以在本文中我們采用的是最大期望算法,最后得到網(wǎng)絡(luò)中所有邊的擴散概率分布θ。 (11) 需要注意的是,雖然實際情況下kw在不同的時刻是不一致的,不同用戶在線的概率也有差別,但為了使求解結(jié)構(gòu)簡單,本文在求解時將其設(shè)置為一個固定的常數(shù)值P即所有節(jié)點在任何時刻處于有效狀態(tài)的概率均相同;同時本文在后續(xù)的實驗中分析P的不同取值對概率的影響。為了求得最優(yōu)解,令偏導(dǎo)數(shù)?θ/?pv,w=0,則: (12) (2)實驗數(shù)據(jù) 為排除信息內(nèi)容和信息來源對網(wǎng)絡(luò)信息擴散的影響,本文從新浪微博平臺上獲取2015年8月13日到2015年8月22日之間由頭條新聞發(fā)布的有關(guān)天津港爆炸事件的微博,其轉(zhuǎn)發(fā)量最小為68,最大超過15萬。為了排除偶然的超級爆炸性新聞對轉(zhuǎn)發(fā)關(guān)系的影響,本文選擇了轉(zhuǎn)發(fā)量在1500以下的120條微博,并獲取這些微博的所有轉(zhuǎn)發(fā)路徑以及相關(guān)的用戶信息。這些數(shù)據(jù)中,共包括41783名用戶,分析得到他們之間的好友關(guān)系,并將其投射到社會網(wǎng)絡(luò)中。 根據(jù)4.1中方法,我們獲取存在好友關(guān)系的節(jié)點對(v,w)之間的擴散概率pv,w。為簡化問題,本文將用戶在線概率為設(shè)定為常數(shù)P,圖4所示即為不同概率值下得到的用戶之間影響值的結(jié)果。 圖3 P取不同值下節(jié)點對之間的權(quán)重分布情況 圖3中,橫軸表示節(jié)點之間的影響值的大小,縱軸表示累積概率。P越大,說明用戶對微博平臺的粘性越大,花費在該平臺上的時間越長。從上圖中可以看出,只有當(dāng)P處于極值(P的最小值0.2和最大值1)時,概率值分布才會出現(xiàn)相對明顯的差異。而當(dāng)P取中間值時,所得的結(jié)果差異十分微小,幾乎可以忽略不計。在極端情況之外,我們發(fā)現(xiàn)80%左右的節(jié)點對之間的影響力小于0.1,基本無明顯影響,而有近10%的節(jié)點對影響值超過了0.9,近乎完全影響。這一結(jié)果符合社會網(wǎng)絡(luò)中的用戶結(jié)構(gòu)特性:微博平臺中用戶的密度和關(guān)聯(lián)度整體不高,網(wǎng)絡(luò)相對稀疏,大部分節(jié)點之間進行信息擴散的概率很低;同時平臺上存在關(guān)聯(lián)密切的局部網(wǎng)絡(luò),彼此之間影響很大,信息滲透深入。 (3) 實驗結(jié)果 在這一部分,我們利用上面所得的節(jié)點之間的影響概率,根據(jù)基于離散時刻的獨立級聯(lián)模型,從特定的節(jié)點出發(fā),利用蒙特卡羅方法追蹤單條信息在24小時內(nèi)的擴散情況變化過程,實驗共模擬5000次,所得結(jié)果如圖4所示。 圖4 蒙特卡羅方法所得的信息擴散情況示意圖 從圖中可以看出,前10個小時中,每個時刻都有可能產(chǎn)生巨大數(shù)量的擴散,也可能極少擴散甚至不擴散。而當(dāng)擴散時間超過10小時后,產(chǎn)生巨量擴散的可能性會急劇減少。中間的短橫代表的是5000次模擬實驗的中位數(shù),它們會在短時間內(nèi)迅速降低。此外,從整體來看,我們對其平均值的情況進行了分析,在這一部分的實驗中,經(jīng)過曲線擬合,發(fā)現(xiàn)其擬合函數(shù)為y= 448.61e- 0.54x,R2= 0.986,有較強的可信度證明其符合指數(shù)函數(shù)衰減的特征。與平均值相類似,模擬實驗數(shù)據(jù)的上四分位點也符合指數(shù)衰減的特性。因此對輿論進行控制時應(yīng)該在有效的時間段內(nèi)采取行動;若不夠及時則擴散已經(jīng)基本完成,再采取的行動已經(jīng)滯后。 Yang等[14]設(shè)計了K-SC聚類算法,對在線媒體中信息的擴散模式進行分析,共得出6種擴散模式。Matsubara等[21]則提出了SPIKEM模型,通過參數(shù)的調(diào)節(jié),可以擬合出不同的擴散模式,且具有統(tǒng)一性、實證性、簡約性和有效性。以上的模型劃分主要在波峰數(shù)量、下降速度、峰值出現(xiàn)的時間上有所區(qū)別。因此,本文對上面的因素進行了簡化,主要根據(jù)波峰數(shù)量和峰值出現(xiàn)的時刻,將信息的擴散模式分為延時多峰波動型、延時單峰衰減型、即時多峰波動型和即時單峰衰減型,其特征和數(shù)量如表2所示。 表2 不同擴散模式的信息所占比例 從它可以看出超過80%的信息會很快形成擴散巔峰。另外,單峰模式的數(shù)量比多峰模式略少,說明信息在整個擴散周期中很容易形成回彈。 圖5 信息隨時間變化的擴散情況示意圖(h為小時) 圖5展示了四種典型的擴散模式與總體的擴散平均值,發(fā)現(xiàn)即時單峰衰減型與總體平均擴散模型最為相近,在初始是擁有很大的擴散量,但擴散量隨時間迅速衰減。可以發(fā)現(xiàn),雖然多峰出現(xiàn)的概率也比較大,但是后續(xù)的峰值產(chǎn)生的波動較小,但其強度主要取決于第一個峰值,反映了控制首次爆發(fā)的重要性。 接下來,我們設(shè)置了三組對比試驗,以驗證初始節(jié)點對于信息擴散的影響。所得結(jié)果表3所示。從表中可以看出,對于入度很大的初始節(jié)點,其發(fā)布的信息的擴散數(shù)量會遠(yuǎn)遠(yuǎn)超過一般節(jié)點的擴散;而對于鏈入較少的節(jié)點來說,其擴散的可能性會很小,在社會類事件中基本不會擴散。因此對于突發(fā)的社會事件,用戶更傾向于從權(quán)威人士或機構(gòu)處獲取信息并加以擴散,有一定的判別性行為存在;而對于一般的用戶來說,其影響力相對較小。 從平均覆蓋率來看,中等節(jié)點的平均覆蓋率最大,強節(jié)點的覆蓋率次之,而弱節(jié)點的覆蓋率最小。如上面所分析的那樣,強節(jié)點的鏈入節(jié)點中只有一部分屬于強聯(lián)系,另外一部分的權(quán)重很小,所以能夠有效影響的概率也很小;加上基數(shù)很大,所以整體的覆蓋率就會降低。而對于中等節(jié)點,它是一簇聯(lián)系較強的小網(wǎng)絡(luò),彼此之間的影響很大,信息流通比較高效,所以它的覆蓋率也最高。而對于弱節(jié)點,它自身的低活躍度、較小的受眾規(guī)模和較弱的影響力,使得其很難將信息擴散出去。因此在對信息擴散進行監(jiān)控時,應(yīng)該重點關(guān)注強節(jié)點以及它的強聯(lián)系關(guān)注節(jié)點,同時對于小規(guī)模的強聯(lián)系網(wǎng)絡(luò)也應(yīng)該加以重視。 表3 信息從不同節(jié)點發(fā)布所得的結(jié)果 (4) 小結(jié) 從以上的實驗?zāi)M結(jié)果中,我們分析得到了如下結(jié)論:在社交網(wǎng)絡(luò)中,基于離散時間的雙概率獨立級聯(lián)擴散模型能夠較好地模擬現(xiàn)實中信息隨時間的擴散過程。網(wǎng)絡(luò)中的信息要在前10個小時內(nèi)加以控制,超過有效時間,則基本擴散結(jié)束,滯后性太強。對輿論監(jiān)控過程中,要重點監(jiān)控兩類群體:一是具有高度鏈入度的節(jié)點以及其關(guān)注節(jié)點中關(guān)聯(lián)性很強的群體;二是鏈入度較高,且關(guān)系密切的小網(wǎng)絡(luò)。單條信息的擴散過程會呈現(xiàn)多種形態(tài),但是當(dāng)擴散源一定時,其擴散總體影響會有一定的規(guī)律,比如總體來看符合指數(shù)分布,總體的影響規(guī)模基本相同等。 本節(jié)根據(jù)模型II對信息的擴散進行模擬,主要從用戶網(wǎng)絡(luò)規(guī)模、消息質(zhì)量和用戶連接程度這三個方面進行分析,以便從宏觀角度得出信息在本身質(zhì)量和受眾群體不同時擴散的情況。 圖6展示了用戶連接強度對信息擴散的影響,其中x軸表示時間,y軸表示當(dāng)前時刻下消息擴散的數(shù)目。從圖中可以發(fā)現(xiàn),連接強度越大,傳播的最大速度越大,峰值出現(xiàn)的時間越早。即在用戶關(guān)聯(lián)越緊密的網(wǎng)絡(luò)中,信息的擴散會更迅猛,也需要更及時地對信息擴散進行干預(yù)。 圖6 信息在不同用戶連接強度下的擴散情況 在用戶活躍程度和連接程度相同的情況下,信息在不同的信息質(zhì)量和用戶規(guī)模下,也會體現(xiàn)出不同的特性,實驗結(jié)果如圖7所示。 圖7中x軸表示時間,y軸表示當(dāng)前時刻下消息擴散的數(shù)目。整體來看,在擴散之初,受到初始用戶規(guī)模的限制,擴散量會以較緩慢的速度逐漸增長,對應(yīng)于信息擴散的潛伏期和成長期;當(dāng)積累了一定量數(shù)目的用戶后,擴散量會爆炸式增長,所達(dá)用戶數(shù)目迅速增加,對應(yīng)于信息擴散的爆發(fā)期;之后由于事件影響力的衰減和未達(dá)用戶數(shù)量的減少,擴散數(shù)量會迅速減弱,對應(yīng)于衰退期。在傳播過程中,消息擴散呈現(xiàn)出單峰、雙峰、多峰等不同的形態(tài);波峰的強度差異性很大,但是波峰出現(xiàn)的時刻基本與用戶的活躍程度一致。 圖7 當(dāng)用戶連接程度、用戶活躍度等因素相同時,不同信息質(zhì)量和網(wǎng)絡(luò)規(guī)模下信息的擴散速度對比 對比圖7中的每一列可以發(fā)現(xiàn),信息質(zhì)量一定時,用戶數(shù)量越大,信息越容易獲得較大的傳播速度,峰值出現(xiàn)的時刻越早。這一發(fā)現(xiàn)說明,具備相同質(zhì)量的信息在小規(guī)模用戶網(wǎng)絡(luò)中擴散會比較平緩;但用戶數(shù)量達(dá)到一定規(guī)模后,信息則容易在短時間內(nèi)爆發(fā)。因此大規(guī)模用戶網(wǎng)絡(luò)理應(yīng)成為輿情干預(yù)的重要監(jiān)控對象,并需在短時間內(nèi)及時干預(yù)。 對比每一行則可以發(fā)現(xiàn),當(dāng)用戶數(shù)量一定時,信息質(zhì)量會對信息擴散特征產(chǎn)生較大影響。圖(a)中,信息在初期的傳播的速度隨著消息質(zhì)量β的增大而增大,傳播越來越集中在前面一段時間內(nèi)。圖(b)中,信息在第一個傳播周期內(nèi)都會爆發(fā),隨著信息質(zhì)量β的增大,信息擴散到所有用戶的時間進一步縮短。當(dāng)β小于0.1時,信息在第2個和第3個傳播周期內(nèi)依然有較明顯的擴散,但當(dāng)β超過0.1時,信息基本在第一個周期內(nèi)擴散完成。圖(c)中,較大的用戶數(shù)目使得信息在傳播初期就有較多的用戶傳播,并形成“羊群效應(yīng)”,因此整體都只有一個較明顯的波峰;隨著消息質(zhì)量β的增大,消息爆發(fā)的時刻也會提前。 以上的試驗說明,用戶的關(guān)聯(lián)強度、用戶規(guī)模和消息質(zhì)量對于信息的擴散速度和爆發(fā)時間有很大影響,對輿論進行監(jiān)控時,對于大規(guī)模用戶網(wǎng)絡(luò)或聯(lián)系緊密的用戶網(wǎng)絡(luò)需要進行重點監(jiān)控。對于信息質(zhì)量很高的輿情,更需要在信息爆發(fā)前做出反應(yīng),控制或者引導(dǎo)輿論。 針對自媒體時代下社會網(wǎng)絡(luò)中信息的擴散,本文從微觀和宏觀兩個角度對信息擴散的過程和特點進行刻畫。微觀部分主要結(jié)合用戶個體之間的影響設(shè)計了基于離散時刻的擴散機制,并利用蒙特卡洛方法多次模擬,實驗結(jié)果發(fā)現(xiàn)了一些重要的影響因素和其它規(guī)律。宏觀部分則在考慮用戶活躍特性、外部平臺的影響、信息本身和受眾特征的基礎(chǔ)上對信息擴散過程進行數(shù)量建模,并主要針對信息質(zhì)量、用戶規(guī)模和用戶連接程度這三個因素進行對比分析。微觀模型可以更細(xì)致描述出特定用戶網(wǎng)絡(luò)中的信息擴散,而宏觀模型則能豐富信息擴散的場景,展現(xiàn)出更多的傳播特性。兩個模型之間的結(jié)論相互補充,為社會網(wǎng)絡(luò)中的輿情監(jiān)控提供幫助。 本文發(fā)現(xiàn),在信息擴散過程中,信息擴散量都會有一個劇烈增長的過程,隨后會迅速衰減。在信息爆發(fā)前進行管理才可以有效控制輿情造成的影響。用戶規(guī)模越大、關(guān)聯(lián)越緊密以及信息質(zhì)量越高時,爆發(fā)所需的時間越短。當(dāng)用戶數(shù)量超過1萬時,信息會在 10小時中完成大部分的擴散,因此10小時是輿情控制的有效時間。當(dāng)網(wǎng)絡(luò)組成成分較為清晰時,可以對網(wǎng)絡(luò)的特征進行分析,重點監(jiān)控強節(jié)點及其關(guān)系密切的節(jié)點以及關(guān)聯(lián)密度很大的小網(wǎng)絡(luò),從而對信息的擴散進行更為有效的控制。同時,信息在擴散過程中會呈現(xiàn)出不同的形態(tài),在波峰個數(shù)、波峰強度和波峰出現(xiàn)時間上各不相同,在監(jiān)控過程中要對不同階段進行分析,針對性引導(dǎo)。 我們會在未來的研究中加強對信息質(zhì)量的分析,并在定量分析關(guān)鍵因素影響的基礎(chǔ)上,研究出預(yù)判方法以便提前預(yù)警并加以管控。 [1] Kempe D, Kleinberg J, Tardos E. Maximizing the spread of influence through a social network[C] // Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining,Washington D C,August,24-27,2003. [2] Saito K, Kimura M, Ohara K, et al. Learning continuous-time information diffusion model for social behavioral data analysis[M] // Advances in Machine Learning. Springer Berlin Heidelberg, 2009: 322-337. [3] Saito K, Kimura M, Ohara K, et al. Selecting information diffusion models over social networks for behavioral analysis[M] //Zhou Zhihua,Washio T.Machine learning and knowledge discovery in databases. Berlin-Heidelberg:Springer,2010:180-195. [4] 萬圣賢, 郭嘉豐, 蘭艷艷, 等. 基于傳播模擬的消息流行度預(yù)測[J]. 中文信息學(xué)報, 2014,28(3):68-74. [5] Chen Wei, Wang Yajun, & Yang Siyu. Efficient influence maximization in social networks[C]//proceedings of the 15th ACM SIGKDD International Conference on Knowledge discovery and Data Mining,Paris,F(xiàn)rance,June 28-July 1,2009. [6] 朱湘, 賈焰, 聶原平. 基于微博的事件擴散分析[J]. 計算機研究與發(fā)展, 2015, 52(2):437-444. [7] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model[M]//Lovrek I, Howlett R J,Jian L C.Knowledge-based intelligent information and engineering systems. Berlin-Heidelberg:Springer, 2008:67-75. [8] Goyal A, Bonchi F, Lakshmanan L V S. Learning influence probabilities in social networks[C] // Proceedings of the third ACM international conference on Web search and data mining,New York,us,February 04-06,2010. [9] 郭靜, 曹亞男, 周川. 基于線性閾值模型的影響力擴散權(quán)重學(xué)習(xí)[J]. 電子與信息學(xué)報, 2014, 36(8): 1804-1809. [10] Srivastava J,Pathak N, Banerjee A. A generalized linear threshold model for multiple cascades[C]//Proceedings of the 13th International Conference on Data Ming,December13-17,2010. [11] He Xinran, Songuojie G, Chen Wei, et al. Influence blocking maximization in social networks under the competitive linear threshold model[J]//Compting Science,2011. [12] Litou I, Kalogeraki V, Katakis I. Real-time and cost-effective limitation of misinformation propagation[C]//Proceedings of the 17th TEEE Internation Confernce on Mobile Data Management,Porto,Portugal,June 13-16,2016. [13] 田家堂,王軼彤,馮小軍. 一種新型的社會網(wǎng)絡(luò)影響最大化算法[J]. 計算機學(xué)報,2011,34(10):1956-1965. [14] Yang J, Leskovec J. Patterns of temporal variation in online media[C] // Proceedings of the fourth ACM international conference on Web search and data mining,Hong kong,China,February 09-11,2011. [15] 劉德海, 蘇燁, 王維國. 振蕩型群體性突發(fā)事件中信息特征的演化博弈分析[J].中國管理科學(xué),2012,20(S1):172-178. [16] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C] // the 43rd Hawaii International Conference on System Sciences (HICSS),Honolulu,HI,USA,January5-8,2010. [17] 廖衛(wèi)民, 柯偉. 網(wǎng)絡(luò)輿論波研究——基于波浪力學(xué)及杭州兩起輿論事件的理論思考[J]. 新聞記者, 2010,(4):12-16. [18] 劉樑, 戴偉, 李仕明. 基于多Agent的非常規(guī)突發(fā)事件在線信息預(yù)警策略研究[J]. 中國管理科學(xué), 2014,22(S1):180-187. [19] 王秀利, 朱建明. 社會輿論方向影響下的微博商業(yè)言論傳播模型[J]. 中國管理科學(xué), 2012,20(S2):691-695. [20] 曹學(xué)艷, 張仙, 劉樑,等. 基于應(yīng)對等級的突發(fā)事件網(wǎng)絡(luò)輿情熱度分析[J]. 中國管理科學(xué), 2014, 22(3):82-89. [21] Matsubara Y, Sakurai Y, Prakash B A, et al. Rise and fall patterns of information diffusion: model and implications[C] // Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. Beijing,August 12-16,2012.3.2 事件擴散的數(shù)值模型
4 實驗
4.1 面向單條信息的擴散實驗
4.2 面向事件的數(shù)值擴散方程
5 結(jié)語