方 冰 劉笑影
(上海大學(xué)管理學(xué)院 上海 200444)
預(yù)測(cè)謠言傳播具有重大意義,這是因?yàn)橹{言在社交網(wǎng)絡(luò)上更易傳播,社交網(wǎng)絡(luò)上的謠言具有極大的破壞性,并且往往傳播速度比普通信息更快[1]。由于社交網(wǎng)絡(luò)特有的傳播方式:社交網(wǎng)絡(luò)上的信息傳播參與者除了有信息發(fā)布方之外,信息的接收方同時(shí)也是信息傳播的參與者,而且是主要參與者。這種傳播方式使得社交網(wǎng)絡(luò)上的謠言傳播速度更加迅速傳播范圍更加廣泛,其造成的恐慌和后果也更加嚴(yán)重。鑒于此,對(duì)社交媒體謠言傳播的研究就變得愈加重要和緊迫。
現(xiàn)有的預(yù)測(cè)謠言傳播的研究主要分為兩類(lèi):第一類(lèi)是基于經(jīng)典的謠言傳播模型,如流行病傳播模型和SIR 模型。第二類(lèi)是采取機(jī)器學(xué)習(xí)的方法,通過(guò)識(shí)別特征進(jìn)行訓(xùn)練模型。然而這些研究都針對(duì)謠言在大規(guī)模群體中的傳播規(guī)律,鮮少涉及到謠言在具體個(gè)體中的傳播規(guī)律。而這方面的研究對(duì)于精準(zhǔn)定位謠言傳播者以及高效切斷謠言傳播途徑具有不可或缺的作用。
為了克服這一局限性,本文提出了一種新的基于信息傳播理論的謠言個(gè)體轉(zhuǎn)發(fā)預(yù)測(cè)算法。該算法基于社會(huì)網(wǎng)絡(luò)理論,認(rèn)為用戶轉(zhuǎn)發(fā)謠言是受到謠言發(fā)布者以及謠言?xún)?nèi)容的共同影響。本文通過(guò)使用NLP相關(guān)技術(shù)和復(fù)雜網(wǎng)絡(luò)分析算法等技術(shù),計(jì)算這兩大類(lèi)影響力強(qiáng)度,最后利用這兩大類(lèi)特征構(gòu)建社交網(wǎng)絡(luò)用戶個(gè)體謠言轉(zhuǎn)發(fā)預(yù)測(cè)算法。
現(xiàn)有的預(yù)測(cè)謠言傳播的研究主要分為兩類(lèi):第一類(lèi)是基于經(jīng)典的謠言傳播模型。第二類(lèi)是基于機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)謠言轉(zhuǎn)發(fā)。
經(jīng)典的謠言傳播模型主要建立在流行病傳播模型基礎(chǔ)上,最常見(jiàn)的兩種模型是雙態(tài)模型和三態(tài)模型。Daley 和Kendal[2]首次提出經(jīng)典的謠言傳播的數(shù)學(xué)模型,他們將個(gè)體分為三類(lèi)狀態(tài),將未聽(tīng)說(shuō)過(guò)謠言的人稱(chēng)為易染者S,聽(tīng)過(guò)謠言并進(jìn)行傳播的人稱(chēng)為感染者I,聽(tīng)過(guò)謠言但不進(jìn)行傳播的人稱(chēng)為免疫者R。Kermack 和Mckendrick 提出的SIR 模型[3]。Zanette 等[4]考慮了網(wǎng)絡(luò)結(jié)構(gòu)對(duì)謠言傳播的影響。Moreno 等[5]則面向無(wú)標(biāo)度網(wǎng)絡(luò)中的謠言傳播過(guò)程,提出了相應(yīng)的謠言傳播模型。Li 和Gu[6]等在SIR模型基礎(chǔ)上提出遺忘記憶機(jī)制。
基于機(jī)器學(xué)習(xí)的謠言轉(zhuǎn)發(fā)預(yù)測(cè)研究方法主要聚焦于兩點(diǎn):改進(jìn)特征指標(biāo)、改進(jìn)算法。
在改進(jìn)特征指標(biāo)方面,Morchid 等[7]的實(shí)驗(yàn)選取的指標(biāo)主要有信息的形式、信息的內(nèi)容、信息的情感,用NLTK、SNOWNLP 等技術(shù)算出信息的情感指標(biāo)和信息發(fā)布者的影響力,用粉絲數(shù)量衡量。其綜合以上指標(biāo)對(duì)于信息轉(zhuǎn)發(fā)進(jìn)行預(yù)測(cè)。Nesi,P.等[8]選取微博鏈接數(shù)、@用戶數(shù)目、標(biāo)簽數(shù)、博文點(diǎn)贊數(shù)、tweet 發(fā)布時(shí)間、博文持續(xù)時(shí)間、博主在此博文后續(xù)發(fā)布其他博文數(shù)量、博主粉絲數(shù)等指標(biāo)進(jìn)行預(yù)測(cè)博文轉(zhuǎn)發(fā)。在改進(jìn)算法方面,Zhao 等[9]依據(jù)用戶粉絲的興趣、用戶行為和博文內(nèi)容來(lái)預(yù)測(cè)信息被轉(zhuǎn)發(fā)的次數(shù)。Huang 等[10]使用貝葉斯算法對(duì)用戶興趣進(jìn)行分類(lèi),并根據(jù)微博內(nèi)容預(yù)測(cè)用戶是否感興趣,在預(yù)測(cè)用戶轉(zhuǎn)發(fā)行為的同時(shí)也對(duì)用戶興趣建模。羅知林等[11]構(gòu)建了隨機(jī)森林算法預(yù)測(cè)用戶會(huì)轉(zhuǎn)發(fā)哪些信息。
綜上所述,經(jīng)典的謠言傳播模型的不足主要在于沒(méi)有考慮更加全面合理的影響因素,因此不能準(zhǔn)確預(yù)測(cè)謠言的傳播?;跈C(jī)器學(xué)習(xí)的謠言預(yù)測(cè)研究大都只是提出特征,而未提出一個(gè)完整的特征框架。針對(duì)兩類(lèi)研究的不足,本文基于信息傳播理論與社會(huì)網(wǎng)絡(luò)理論,首先考慮到更加全面合理的影響因素,其次建立了社交網(wǎng)絡(luò)上用戶個(gè)體謠言轉(zhuǎn)發(fā)行為的影響因素框架,此框架為后來(lái)的研究者在研究社交網(wǎng)絡(luò)上謠言轉(zhuǎn)發(fā)行為的過(guò)程提供理論幫助。
由信息傳播理論,人們?cè)谂c他人的交流和互動(dòng)中受到影響的過(guò)程的中心作用,這導(dǎo)致了社會(huì)影響的產(chǎn)生[12]。Wellman 提出人們通過(guò)交流和互動(dòng)形成的社會(huì)關(guān)系,使他們能夠?qū)W習(xí)和反思他人的選擇或意見(jiàn)[13],由此產(chǎn)生的社會(huì)影響的強(qiáng)度反映了連接它們的社會(huì)關(guān)系的強(qiáng)度。此外,Morchid[14]等提出信息的傳播除了與發(fā)布者影響力密切相關(guān)外也與信息本身的影響力有很大關(guān)系。
綜上所述,根據(jù)信息傳播理論,本文認(rèn)為用戶最終是否傳播特定謠言受到:發(fā)布者影響因素和謠言?xún)?nèi)容影響因素的共同作用。如圖1所示。
圖1 用戶轉(zhuǎn)發(fā)謠言影響因素
因此用戶是否轉(zhuǎn)發(fā)謠言受到兩種影響因素的共同作用:發(fā)布者影響因素和謠言?xún)?nèi)容影響因素?;诖?,本文提出了新的預(yù)測(cè)謠言轉(zhuǎn)發(fā)算法。如圖2所示。
圖2 研究框架
為了更好地研究基于社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)影響的立場(chǎng)檢測(cè),我們將大型的社會(huì)網(wǎng)絡(luò)劃分成多個(gè)獨(dú)立的社區(qū)[15]。本文采用最大化整個(gè)數(shù)據(jù)模塊度的社區(qū)發(fā)現(xiàn)算法——Louvain算法[16]。
3.2.1 發(fā)布者對(duì)個(gè)體用戶的影響力強(qiáng)度
假設(shè)V={v1,v2,…vn} 是微博社交網(wǎng)絡(luò)上一組用戶。Wasserman 等[17]指出成對(duì)的微博用戶是通過(guò)社會(huì)關(guān)系將他們聯(lián)系在一起,且在微博社交媒體網(wǎng)絡(luò)中這種社會(huì)關(guān)系存在是定向的。Brown 等[18]提出社會(huì)關(guān)系的強(qiáng)度反映了通過(guò)關(guān)系采取行動(dòng)的強(qiáng)度。因此我們可以使用用戶之間的關(guān)系強(qiáng)度來(lái)衡量用戶通過(guò)關(guān)系轉(zhuǎn)發(fā)謠言的概率。
我們使Xij代表:用戶vi對(duì)用戶vj的社會(huì)影響力,即社會(huì)關(guān)系強(qiáng)度。在有向的社會(huì)聯(lián)系中,Xij一般不同于Xji。Xij=0,代表用戶vi與vj沒(méi)有社會(huì)聯(lián)系。
社會(huì)聯(lián)系的強(qiáng)度Xij可以通過(guò)互動(dòng)強(qiáng)度來(lái)測(cè)量[24]。在本研究中,Xij由vi與vj之間的互動(dòng)強(qiáng)度來(lái)衡量,互動(dòng)強(qiáng)度可以通過(guò)三個(gè)維度進(jìn)行衡量,即可以由vi用戶與vj用戶之間的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論的互動(dòng)頻率進(jìn)行衡量,如果實(shí)體之間沒(méi)有互動(dòng),則Xij=0。Xij作為三維向量,其表示方式如下:
其中:Lij代表用戶vi的微博對(duì)用戶vj在于點(diǎn)贊方面的影響力,其衡量標(biāo)準(zhǔn)如下:
其中zanij表示用戶vi收到用戶vj的點(diǎn)贊數(shù),zanhj表示用戶vh(h≠i)收到用戶vj的點(diǎn)贊數(shù),Lmax和Lmin分別代表用戶之間在點(diǎn)贊方面的最大影響力和最小影響力。
Rij代表用戶vi對(duì)用戶vj在于轉(zhuǎn)發(fā)方面的影響力,其衡量標(biāo)準(zhǔn)如下:
Cij代表用戶vi的微博對(duì)用戶vj在于評(píng)論方面的影響力,其衡量標(biāo)準(zhǔn)如下:
其中commentij表示vi的微博被vj評(píng)論數(shù),commenthj表示用戶vh(h≠i)的微博被用戶vj評(píng)論的數(shù)量。
我們測(cè)量用戶vi對(duì)用戶vj的社會(huì)影響力(以下簡(jiǎn)稱(chēng)影響力influence power)Iij,通過(guò)使用用戶vi和用戶vj的社會(huì)聯(lián)系強(qiáng)度Xij。
其中Xmax和Xmin分別表示最大和最小的社會(huì)聯(lián)系強(qiáng)度,標(biāo)準(zhǔn)化有助于避免Iij依賴(lài)于Xij的測(cè)量單位。
3.2.2 謠言?xún)?nèi)容對(duì)個(gè)體用戶的影響力強(qiáng)度
由于用戶對(duì)于謠言攜帶特性的敏感度越高,其易感性越高,其轉(zhuǎn)發(fā)謠言的概率越高[19]。用戶對(duì)于謠言攜帶的特性的敏感性可以通過(guò)歷史數(shù)據(jù)進(jìn)行衡量。謠言特性可以通過(guò)以下幾個(gè)維度進(jìn)行衡量。根據(jù)Lazer 等[1],謠言的主要特性有以下幾點(diǎn):謠言信息形式(#@url length圖片等)、謠言語(yǔ)義(分別使用謠言的句子向量、LDA、LSA、TFIDF來(lái)表示)、謠言迷惑性(模糊性、明確行為、謠言情感、趨利避害)等。
謠言計(jì)算:對(duì)于謠言在謠言信息形式方面的特征,計(jì)算如下:
我們用向量ti=(ti1,ti2,…tik)表示謠言Mi的原始數(shù)據(jù)字段,此時(shí)的特征沒(méi)有經(jīng)過(guò)轉(zhuǎn)化數(shù)字、歸一化等處理。例如:謠言t11=(謠言?xún)?nèi)容-是否有標(biāo)簽)。Mi1表示謠言Mi其第個(gè)特征,且Mip為經(jīng)過(guò)處理的謠言特征向量。例如:M11=(0)。
如果此特征是離散型特征,如是否帶有標(biāo)簽,是否@用戶,是否帶有網(wǎng)址,是否帶有圖片,是否模糊,是否帶有明確行為等,那么對(duì)于謠言Mi其第p個(gè)特征Mip的計(jì)算方式為
如果此特征是實(shí)值或者整數(shù),如此謠言的長(zhǎng)度,微博的轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù),謠言情感等特征,那么對(duì)于謠言Mi其第p個(gè)特征Mip的計(jì)算方式為
如果此特征是此謠言的語(yǔ)義特征,那么我們使用此謠言的句子向量來(lái)衡量,即用此謠言中的所有詞的詞向量Vecn的平均值來(lái)衡量此謠言的句子向量,即:
本研究提出了預(yù)測(cè)謠言傳播影響因素的完整框架,把預(yù)測(cè)謠言傳播問(wèn)題轉(zhuǎn)化成二分類(lèi)問(wèn)題,并在此基礎(chǔ)上進(jìn)行了分類(lèi)實(shí)驗(yàn)。本研究采取預(yù)測(cè)轉(zhuǎn)發(fā)常見(jiàn)分類(lèi)方法[20]:支持向量機(jī)(SVM),邏輯回歸(LR),樸素貝葉斯(NB),Adaboost(ADA)以及隨機(jī)森林(RF)五種機(jī)器學(xué)習(xí)方法進(jìn)行謠言預(yù)測(cè)實(shí)驗(yàn)。
本研究的數(shù)據(jù)來(lái)自新浪微博平臺(tái)。數(shù)據(jù)集包含2018年4月~2018年8月微博平臺(tái)上出現(xiàn)并廣泛傳播的9 條謠言微博,涉及38079 位用戶,395622條轉(zhuǎn)發(fā)關(guān)系。這些謠言涵蓋了常見(jiàn)謠言話題,如人身安全、健康養(yǎng)生、死亡焦慮、風(fēng)水迷信等,謠言具體信息見(jiàn)表1。
表1 謠言信息分布
針對(duì)謠言預(yù)測(cè)研究,本文設(shè)計(jì)了兩個(gè)實(shí)驗(yàn),目的在于證明本研究提出的影響因素框架的合理性以及考慮發(fā)布者對(duì)于個(gè)體的影響而非僅僅考慮對(duì)于群體的影響是必要的。
實(shí)驗(yàn)1:為了證明本研究提出的影響因素框架的合理性,即證明兩大影響因素都是有效的。所以實(shí)驗(yàn)設(shè)計(jì)為評(píng)估各個(gè)影響因素下的算法預(yù)測(cè)能力和本研究提出的影響因素框架下的算法預(yù)測(cè)能力,即分別對(duì)謠言發(fā)布者對(duì)個(gè)體的影響因素和謠言?xún)?nèi)容對(duì)個(gè)體的影響因素和影響因素框架的預(yù)測(cè)能力進(jìn)行評(píng)估。
實(shí)驗(yàn)2:為了證明本研究提出的特征能夠更好地預(yù)測(cè)謠言轉(zhuǎn)發(fā),因此該實(shí)驗(yàn)為對(duì)比試驗(yàn)。即將特征劃分為兩部分,其中對(duì)照組包括(發(fā)布者對(duì)于群體的社會(huì)影響因素、謠言?xún)?nèi)容影響因素),實(shí)驗(yàn)組則在對(duì)比組的基礎(chǔ)上多考慮了發(fā)布者對(duì)于個(gè)體的社會(huì)影響因素。
對(duì)于數(shù)據(jù)不均衡問(wèn)題,本文采用欠采樣的方式進(jìn)行處理。訓(xùn)練集與測(cè)試集按4∶1 進(jìn)行劃分。實(shí)驗(yàn)1,實(shí)驗(yàn)2采用樸素貝葉斯(NB),隨機(jī)森林(RF),支持向量機(jī)(SVM),Adaboost(ADA)和邏輯回歸(LR)共5 種機(jī)器學(xué)習(xí)方法進(jìn)行分類(lèi)實(shí)驗(yàn)。所有實(shí)驗(yàn)均采用10折交叉驗(yàn)證。
本文采用最常用的準(zhǔn)確率、精確率、召回率和F1值作為評(píng)價(jià)標(biāo)準(zhǔn)。
4.5.1 探究本研究各個(gè)影響因素和特征框架的有效性
我們?cè)O(shè)計(jì)實(shí)驗(yàn)1,得到各個(gè)影響因素下算法的預(yù)測(cè)能力。根據(jù)圖3~圖6的結(jié)果表明,本研究提出的影響因素框架中2 個(gè)影響因素:發(fā)布者影響因素和謠言?xún)?nèi)容影響因素都是合理并且是必要的。
圖3 實(shí)驗(yàn)1準(zhǔn)確率
圖4 實(shí)驗(yàn)1精確率
圖5 實(shí)驗(yàn)1召回率
圖6 實(shí)驗(yàn)1 F1指標(biāo)
4.5.2 探究各特征體系下的算法預(yù)測(cè)能力
我們?cè)O(shè)計(jì)實(shí)驗(yàn)2 進(jìn)行對(duì)比各個(gè)影響因素框架下算法的預(yù)測(cè)能力。根據(jù)圖7~圖10的結(jié)果表明基于五個(gè)機(jī)器學(xué)習(xí)方法的實(shí)驗(yàn)組結(jié)果均優(yōu)于對(duì)照組。這表明本研究提出的特征能夠更好地預(yù)測(cè)謠言轉(zhuǎn)發(fā)。
圖7 實(shí)驗(yàn)2準(zhǔn)確率
圖8 實(shí)驗(yàn)2精確率
圖9 實(shí)驗(yàn)2 F1指標(biāo)
圖10 實(shí)驗(yàn)2召回率
本文基于社會(huì)網(wǎng)絡(luò)分析、語(yǔ)言模型Doc2Vec、信息傳播理論等方面的相關(guān)研究,對(duì)用戶在社交網(wǎng)絡(luò)上轉(zhuǎn)發(fā)謠言這一行為進(jìn)行深入的研究。本文的創(chuàng)新點(diǎn)如下。
1)本研究首次提出了一個(gè)預(yù)測(cè)謠言個(gè)體轉(zhuǎn)發(fā)的預(yù)測(cè)算法。以前的研究多涉及到了謠言在大規(guī)模傳播中的規(guī)律,忽視了謠言對(duì)個(gè)體影響力的研究。由于大規(guī)模辟謠的成本較高,而本研究對(duì)個(gè)體轉(zhuǎn)發(fā)謠言的精準(zhǔn)預(yù)測(cè)可以幫助精準(zhǔn)定位受謠言影響道德個(gè)體,可以幫助大幅度減少辟謠成本。
2)基于信息傳播等理論,本文首次提出一個(gè)完整的社交網(wǎng)絡(luò)謠言個(gè)體轉(zhuǎn)發(fā)影響因素的框架,這是之前研究所欠缺的。具體而言,此影響因素框架由兩種影響因素組成:發(fā)布者對(duì)個(gè)體的影響力強(qiáng)度和謠言?xún)?nèi)容對(duì)個(gè)體的影響力強(qiáng)度。