蔡國(guó)永,畢夢(mèng)瑩,劉建興
(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
推特Twitter(http://www.twitter.com/.)和新浪微博Sinaweibo(http://www.weibo.com/.)是兩種典型的社交網(wǎng)絡(luò)平臺(tái),它們?cè)试S用戶(hù)發(fā)布小于140個(gè)字符的短消息并將信息傳遞給他們的粉絲,這些短消息支持添加圖片、視頻等多媒體數(shù)據(jù)。粉絲們帶評(píng)論或不帶評(píng)論的轉(zhuǎn)發(fā)行為促進(jìn)了這些消息在社交網(wǎng)絡(luò)中的傳播。由于消息沒(méi)有經(jīng)過(guò)把關(guān),社交網(wǎng)絡(luò)容易成為謠言傳播的溫床。不少事實(shí)證明,網(wǎng)絡(luò)謠言會(huì)引起嚴(yán)重的公眾恐慌和社會(huì)動(dòng)蕩,如2013年4月23日,推特上的一條關(guān)于美國(guó)總統(tǒng)奧巴馬在白宮爆炸中受傷的消息導(dǎo)致道瓊斯指數(shù)在幾分鐘內(nèi)下跌140個(gè)點(diǎn)。由于謠言的危害性,學(xué)者們開(kāi)始關(guān)注社交網(wǎng)絡(luò)中謠言的自動(dòng)檢測(cè)問(wèn)題。
謠言識(shí)別通常被視為二分類(lèi)問(wèn)題,基于統(tǒng)計(jì)方法進(jìn)行特征檢測(cè)是提高分類(lèi)器性能的關(guān)鍵,目前社交網(wǎng)絡(luò)謠言檢測(cè)研究中,已設(shè)計(jì)的檢測(cè)特征主要分為5類(lèi):(1)基于內(nèi)容的特征,即依據(jù)微博文本,考慮文本內(nèi)容統(tǒng)計(jì)特征,例如文本長(zhǎng)度、標(biāo)點(diǎn)符號(hào)、是否包含短鏈接、標(biāo)簽、表情符號(hào)或詞性標(biāo)注等簡(jiǎn)單特征[1,2],以及情感分?jǐn)?shù)、詞向量等深層語(yǔ)義特征,如文獻(xiàn)[3]發(fā)現(xiàn),用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型生成微博的文本向量表示有助于謠言檢測(cè)。(2)基于用戶(hù)的特征,包括用戶(hù)注冊(cè)的時(shí)間、地點(diǎn)、用戶(hù)性別、年齡、用戶(hù)名、頭像、是否認(rèn)證、關(guān)注數(shù)、粉絲數(shù)、描述、主頁(yè)、已發(fā)微博數(shù)等[4,5],也有基于用戶(hù)行為特征的相關(guān)研究[6]。(3)基于傳播結(jié)構(gòu)的特征,指的是消息傳播樹(shù)結(jié)構(gòu)或用戶(hù)朋友的網(wǎng)絡(luò)結(jié)構(gòu),比如節(jié)點(diǎn)個(gè)數(shù)、根節(jié)點(diǎn)的度[1,5,7]、用戶(hù)傳播類(lèi)型[8,9]、標(biāo)記傳播樹(shù)[10]等。(4)基于時(shí)間的特征,即關(guān)注消息的發(fā)布時(shí)間并將其與源微博發(fā)布時(shí)間或用戶(hù)注冊(cè)時(shí)間相比較[5]。一些模型用時(shí)間來(lái)檢測(cè)群體響應(yīng)中量的突增或周期的突增[11]。一些研究[8,11]利用時(shí)間來(lái)計(jì)算傳染病模型中各用戶(hù)類(lèi)型之間的變化率。一些研究[1]用時(shí)間作為衰減因子來(lái)度量響應(yīng)中情感強(qiáng)度。(5)基于群體響應(yīng)的特征,即大眾對(duì)于一個(gè)事件的觀點(diǎn)或態(tài)度[12 - 15],如文獻(xiàn)[13]根據(jù)謠言帖會(huì)存在或多或少的相關(guān)質(zhì)疑帖,基于尋找質(zhì)疑短語(yǔ)、聚類(lèi)不包含質(zhì)疑短語(yǔ)的帖子,并通過(guò)計(jì)算包含真實(shí)消息的可能性將聚簇分類(lèi),進(jìn)而判定是否為謠言。除上述5大類(lèi)特征外,還有一些其它上下文特征,如發(fā)布消息的客戶(hù)端類(lèi)型、發(fā)布消息的地點(diǎn)等。
現(xiàn)有的謠言檢測(cè)研究中,關(guān)注的謠言判別特征集中于微博消息的扁平特征,如消息構(gòu)成特征、消息發(fā)布者特征、轉(zhuǎn)發(fā)特征等,這些特征雖然有助于謠言檢測(cè),但過(guò)于簡(jiǎn)單化,因?yàn)樗鼪](méi)有考察消息傳播的內(nèi)部時(shí)態(tài)結(jié)構(gòu)和傳播用戶(hù)反應(yīng)特點(diǎn)。如果謠言檢測(cè)時(shí)不僅考察消息描述的內(nèi)容、消息的表達(dá)方式,而且還考察被哪些人轉(zhuǎn)發(fā)并做出了何種響應(yīng),這將能夠更為準(zhǔn)確地判斷微博消息是否是謠言。
針對(duì)上述問(wèn)題,本文在文獻(xiàn)[10]的基礎(chǔ)上提出一種改進(jìn)的標(biāo)記信息級(jí)聯(lián)傳播樹(shù)CA-LPT(Labeled CAscad Propagation Tree),并在此模型下定義一種新的意見(jiàn)領(lǐng)袖影響力動(dòng)態(tài)度量方法,然后提出20個(gè)特征(其中10個(gè)為新特征),并用隨機(jī)通路圖核和RBF(Radial Basis Function)核構(gòu)成的混合核構(gòu)造支持向量機(jī)SVM(Support Vector Machine)分類(lèi)器,進(jìn)行微博謠言檢測(cè),并通過(guò)實(shí)驗(yàn)驗(yàn)證謠言檢測(cè)的性能。
根據(jù)文獻(xiàn)[10],一棵傳播樹(shù)T=〈V,E〉,V中的每個(gè)節(jié)點(diǎn)m表示微博上的一條文本消息。文本消息m與發(fā)布用戶(hù)u的元數(shù)據(jù)〈s,l,f,w,b,k,v〉相關(guān)聯(lián),其中用戶(hù)元數(shù)據(jù)包括:性別s、關(guān)注數(shù)l、粉絲數(shù)f、微博數(shù)w、互關(guān)數(shù)b、注冊(cè)時(shí)間k、是否認(rèn)證v。傳播樹(shù)的根節(jié)點(diǎn)稱(chēng)為“源微博”,傳播樹(shù)中所有其它節(jié)點(diǎn)被稱(chēng)為“轉(zhuǎn)發(fā)微博”,可以是轉(zhuǎn)發(fā)評(píng)論源微博,也可以是轉(zhuǎn)發(fā)評(píng)論其它轉(zhuǎn)發(fā)微博。如果m2是對(duì)m1的轉(zhuǎn)發(fā)評(píng)論,則從m1到m2有一條定向邊。當(dāng)一個(gè)微博用戶(hù)的粉絲數(shù)(followers)與關(guān)注數(shù)(friends)滿(mǎn)足約束條件followers/friends>α,且followers≥1000時(shí),稱(chēng)此用戶(hù)為意見(jiàn)領(lǐng)袖。如果節(jié)點(diǎn)微博來(lái)自意見(jiàn)領(lǐng)袖,則將節(jié)點(diǎn)標(biāo)注為p,否則標(biāo)注為n。標(biāo)注好節(jié)點(diǎn)類(lèi)型的消息傳播樹(shù)稱(chēng)為標(biāo)記傳播樹(shù)LPT(Labeled Propagation Tree)。
基于Twitter的研究表明:在信息傳播過(guò)程中,用戶(hù)影響力與其粉絲數(shù)量呈弱相關(guān)[16 - 18]關(guān)系。微博中存在一些用戶(hù)尤其是造謠者,通過(guò)增加粉絲數(shù)量來(lái)增大其影響力,然而這些粉絲大多是活躍度極低的僵尸粉絲,他們不評(píng)論不轉(zhuǎn)發(fā)甚至不登錄,不具有任何傳播信息的能力,因此粉絲數(shù)量大只是用戶(hù)具有影響力的必要非充分條件。此外,微博中的絕大多數(shù)用戶(hù)屬于消極的信息消費(fèi)者[19],他們傾向于瀏覽來(lái)自其他用戶(hù)的消息卻很少發(fā)布或轉(zhuǎn)發(fā)消息。能否調(diào)動(dòng)這些消極用戶(hù)分享信息的積極性,才是衡量用戶(hù)影響力大小的關(guān)鍵因素。因此,在衡量用戶(hù)的影響力時(shí)需要更加強(qiáng)調(diào)用戶(hù)影響其粉絲傳播信息的能力,而非僅僅注重其將信息傳播給其受眾的能力。另外,用戶(hù)的影響力會(huì)隨時(shí)間和主題的變化而發(fā)生變化,文獻(xiàn)[20]從用戶(hù)影響力和活躍度兩方面建立意見(jiàn)領(lǐng)袖影響力體系,發(fā)現(xiàn)只有極少的用戶(hù)能夠同時(shí)成為不同主題的意見(jiàn)領(lǐng)袖。
由此可見(jiàn),LPT模型中定義的意見(jiàn)領(lǐng)袖度量并不恰當(dāng),標(biāo)記的信息也不能充分反映傳播的動(dòng)態(tài)性,需要進(jìn)一步改進(jìn)。
針對(duì)LPT存在的問(wèn)題,將消息傳播的級(jí)聯(lián)模型[19]引入LPT中。將用戶(hù)轉(zhuǎn)發(fā)或發(fā)布消息的時(shí)間ti作為節(jié)點(diǎn)的一個(gè)屬性保留在標(biāo)記傳播樹(shù)中,即把節(jié)點(diǎn)標(biāo)記擴(kuò)展為(ui,ti),從而允許分析消息傳播的動(dòng)態(tài)過(guò)程。在此基礎(chǔ)上重新定義意見(jiàn)領(lǐng)袖度量公式,意見(jiàn)領(lǐng)袖集合按公式(1)計(jì)算。這里意見(jiàn)領(lǐng)袖定義為在消息傳播過(guò)程中短時(shí)間內(nèi)能夠引起其粉絲大量轉(zhuǎn)發(fā)的用戶(hù),具有較大出度的節(jié)點(diǎn)。
(1)
除此之外,本文在LPT的有向邊上標(biāo)記轉(zhuǎn)發(fā)微博的情感值,即用rj=(δ(a),δ(d),δ(s))標(biāo)注從mi到mj的邊ej,其中a是mj的贊成分?jǐn)?shù),表示贊成或同意;d是mj的質(zhì)疑分?jǐn)?shù),表示質(zhì)疑或反對(duì);s是mj的平均情感分?jǐn)?shù)。δ(x)是時(shí)間衰減函數(shù),即δ(x)=2-μtx,其中t是源微博與mj之間的時(shí)間差,μ是取0~1的參數(shù)。一個(gè)用戶(hù)轉(zhuǎn)發(fā)評(píng)論越快,說(shuō)明情感越強(qiáng)烈。
通過(guò)上述改造的LPT稱(chēng)為標(biāo)記信息級(jí)聯(lián)傳播樹(shù)模型(CA-LPT),標(biāo)記完整的CA-LPT模型示例如圖1所示。
Figure 1 Labeled cascade propagation tree (CA-LPT)圖1 標(biāo)記信息級(jí)聯(lián)傳播樹(shù)CA-LPT模型
在CA-LPT模型的基礎(chǔ)上,本文提取20個(gè)特征來(lái)建立特征向量,如表1所示,其中的謠言庫(kù)、可疑用戶(hù)庫(kù)、質(zhì)疑驚訝反對(duì)情感分?jǐn)?shù)等10個(gè)是新設(shè)計(jì)的特征(表1中用粗體顯示),其余10個(gè)特征是以往研究中被證實(shí)為有效的特征。下面對(duì)這些特征分別說(shuō)明。
Table 1 Description of 20 features
2.2.1 謠言庫(kù)特征
通過(guò)分析收集的2016年03月01日~2016年05月03日微博不實(shí)信息舉報(bào)處理大廳公布的437條謠言,發(fā)現(xiàn)謠言涉及28個(gè)話(huà)題,有4個(gè)話(huà)題只包含一條相關(guān)謠言微博,剩下的24個(gè)話(huà)題均有至少2條謠言微博與之相關(guān);有14%的謠言只發(fā)布了一次,近86%的謠言被發(fā)布兩次以上。統(tǒng)計(jì)結(jié)果表明,謠言發(fā)布的重復(fù)率非常高,即相同話(huà)題甚至相同內(nèi)容的謠言會(huì)由不同用戶(hù)多次發(fā)布,而且過(guò)期謠言會(huì)被重新發(fā)布。因此,可建立一個(gè)謠言庫(kù),比較未知微博文本與謠言庫(kù)中謠言文本的相似度,如果能夠找到一條謠言庫(kù)中的謠言與此微博內(nèi)容相似,則此微博有很大可能是謠言。本文實(shí)驗(yàn)中謠言相似度值基于Jaccard相似性公式計(jì)算。
2.2.2 可疑用戶(hù)庫(kù)特征
收集2014年04月01日~2016年05月03日微博不實(shí)信息舉報(bào)處理大廳公布的共2 601條謠言,統(tǒng)計(jì)分析顯示:這些謠言共涉及2 031個(gè)用戶(hù),也就是說(shuō)存在一些用戶(hù)發(fā)布了不止1條謠言;如果把發(fā)布了1條謠言的用戶(hù)稱(chēng)為次可疑用戶(hù),把發(fā)布了至少2條謠言的用戶(hù)稱(chēng)為超可疑用戶(hù),那么統(tǒng)計(jì)結(jié)果顯示2 031個(gè)可疑用戶(hù)中13%發(fā)布謠言超過(guò)2條,屬于超可疑用戶(hù);超可疑用戶(hù)中近一半都發(fā)布謠言超過(guò)3條,有的甚至發(fā)布了10條以上的謠言;近1/3的謠言是由這些少量超可疑用戶(hù)發(fā)布的。因此,建立一個(gè)可疑用戶(hù)庫(kù)來(lái)判斷用戶(hù)的可信度,若發(fā)布未知微博的用戶(hù)存在于可疑用戶(hù)庫(kù)中,返回true;反之返回false,將返回的布爾值賦值給給定微博的可疑用戶(hù)庫(kù)匹配這個(gè)特征。
2.2.3 質(zhì)疑驚訝反對(duì)率和平均情感分?jǐn)?shù)
已有研究證明,通過(guò)判斷一條微博的群體響應(yīng)(轉(zhuǎn)發(fā)和評(píng)論)屬積極情感還是消極情感在一定程度上可以區(qū)分謠言與非謠言,然而并不能達(dá)到很好的效果。因?yàn)橐粭l微博的群體響應(yīng)情感往往同微博本身的情感息息相關(guān)。例如,一條具有消極情感的非謠言微博敘述的是一條令人痛心的社會(huì)新聞,其群體響應(yīng)大都包含“難過(guò)”“可憐”“[淚]”等消極情感;一條具有積極情感的謠言微博描述了一則振奮人心的奇聞異事,其群體響應(yīng)大都包含“驕傲”“碉堡”“[給力]”等積極情感。因此,根據(jù)一條微博的群體響應(yīng)是積極情感還是消極情感判斷其是否是謠言是不完全準(zhǔn)確的,積極情感不一定是贊成或同意,消極情感不一定是質(zhì)疑或反對(duì),應(yīng)該將情感更具體細(xì)化到贊成、質(zhì)疑、驚訝、反對(duì)等能明確表達(dá)個(gè)人主張的觀點(diǎn)上。
本文通過(guò)3步計(jì)算一條微博群體響應(yīng)的情感值:
(1)根據(jù)Hownet情感分析詞典中的正負(fù)面評(píng)價(jià)詞和正負(fù)面情感詞提取表達(dá)質(zhì)疑、驚訝、否定觀點(diǎn)的情感詞,分別建立質(zhì)疑情感詞典、驚訝情感詞典和反對(duì)情感詞典,還包括新浪微博中表達(dá)上述情感的共482個(gè)表情符號(hào);
(2)將未知微博下的每條轉(zhuǎn)發(fā)進(jìn)行分詞、去除停用詞等文本預(yù)處理;
(3)分別計(jì)算群體響應(yīng)的質(zhì)疑率(即Ndoubt/N)、驚訝率(即Nsurprise/N)、反對(duì)率(即Noppose/N)。其中,N*是包含情感詞典中的質(zhì)疑詞驚訝詞反對(duì)詞的轉(zhuǎn)發(fā)微博數(shù)量,N是所有轉(zhuǎn)發(fā)數(shù)量。
2.2.4 傳播樹(shù)深度
謠言微博通常起始于個(gè)人或團(tuán)體,而真實(shí)微博會(huì)由很多無(wú)關(guān)個(gè)體發(fā)起或證明。造謠團(tuán)體之間的聯(lián)結(jié)是很緊密的,團(tuán)體成員之間通過(guò)互轉(zhuǎn)發(fā)達(dá)到增大轉(zhuǎn)發(fā)量、擴(kuò)大影響力的目的,同時(shí)這會(huì)造成傳播結(jié)構(gòu)的深度過(guò)大;而正常微博的轉(zhuǎn)發(fā)用戶(hù)之間由于通常是無(wú)關(guān)個(gè)體,傳播結(jié)構(gòu)深度不會(huì)很大,影響力比較大的新聞事件比如王菲離婚微博發(fā)布幾小時(shí)后轉(zhuǎn)發(fā)最深僅達(dá)到13層。所以,深度過(guò)大的微博一般不是正常微博。
2.2.5 意見(jiàn)領(lǐng)袖質(zhì)量
根據(jù)知微平臺(tái)(http://www.zhiweidata.com/#a)分析,計(jì)算新浪微博2015年影響力最高的100個(gè)事件,并綜合賬號(hào)影響力、風(fēng)云榜排名得出1 886個(gè)微博意見(jiàn)領(lǐng)袖,統(tǒng)計(jì)用戶(hù)的身份分布發(fā)現(xiàn):其中86%是名人認(rèn)證用戶(hù),10%是達(dá)人用戶(hù),僅4%是普通用戶(hù)。一般參與謠言轉(zhuǎn)發(fā)的用戶(hù)的質(zhì)量都不高,尤其是雇傭僵尸粉、水軍幫轉(zhuǎn)謠言的,意見(jiàn)領(lǐng)袖的質(zhì)量也不高,因此可以用所有挖掘出的意見(jiàn)領(lǐng)袖的加V比例(即Vkol/Nkol)來(lái)度量一條微博的意見(jiàn)領(lǐng)袖質(zhì)量,其中Vkol表示一條微博中挖掘出的經(jīng)過(guò)認(rèn)證的意見(jiàn)領(lǐng)袖數(shù)量,Nkol表示挖掘出的所有意見(jiàn)領(lǐng)袖數(shù)。
支持向量機(jī)SVM分類(lèi)算法在解決小樣本、非線(xiàn)性及高維模式識(shí)別中表現(xiàn)出良好性能,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中,本文選擇SVM分類(lèi)算法用于微博謠言的檢測(cè)。傳統(tǒng)SVM分類(lèi)器基于簡(jiǎn)單的扁平特征向量,但是實(shí)際中很多數(shù)據(jù)都是結(jié)構(gòu)化的。由于這個(gè)原因,常常需要合并混合結(jié)構(gòu)(比如樹(shù)和圖)作為SVM的核。通過(guò)將異構(gòu)數(shù)據(jù)的不同特征分量分別輸入對(duì)應(yīng)的核函數(shù)進(jìn)行映射,使數(shù)據(jù)在新的特征空間中得到更好的表達(dá),能顯著提高分類(lèi)正確率。本文采用加權(quán)求和核,即式(2)來(lái)混合隨機(jī)通路圖核與RBF核:
(2)
本文用{Xi,yi}表示源微博mi,Xi有20維,yi是類(lèi)標(biāo)簽。RBF核定義如式(3)所示:
(3)
由直積圖G×可以得到對(duì)應(yīng)的鄰接矩陣A×,定義A×中的元素[A×](u,u′),(v,v′)=l:
(4)
其中,核函數(shù)k度量邊e(u,v)和e(u′,v′)之間的相似度的方法,由式(5)給出:
k((u,u′),(v,v′))=
(5)
其中,r1是邊e(u,v)的標(biāo)簽向量,r2是e(u′,v′)的標(biāo)簽向量,σ為常數(shù),e表示自然常數(shù)。
給定鄰接矩陣A×和權(quán)重參數(shù)λ≥0,定義標(biāo)記信息級(jí)聯(lián)傳播樹(shù)T和T′上的隨機(jī)通路核為:
(6)
其中,e表示單位向量,I表示單位矩陣。
此外,每個(gè)源微博mi對(duì)應(yīng)一棵傳播樹(shù)Ti,為了規(guī)范化式(6)中兩棵傳播樹(shù)的核函數(shù),將K×(T,T′)除以nn′,其中n和n′分別是T和T′的節(jié)點(diǎn)數(shù):
(7)
因此,結(jié)合式(3)和式(7),最終微博mi和mj的核函數(shù)定義為:
K(mi,mj)=βKG(Ti,Tj)+(1-β)KR(Xi,Xj)
(8)
其中,0<β<1,β決定隨機(jī)通路圖核與特征向量核相比的傳播權(quán)重。實(shí)驗(yàn)中基于式(8)訓(xùn)練SVM分類(lèi)器。
為得到合適的訓(xùn)練集,收集了2015年04月10日~2016年05月03日微博不實(shí)信息舉報(bào)處理大廳(SinaWeibo.(2015).Weibo-Misinformation-Declaration [Online].Available:http://service.account.weibo.com/?type=5&status=0)和官方辟謠賬號(hào)@微博辟謠(SinaWeibo.(2015).@Weibopiyao [Online].Available:http://www.weibo.com/weibopiyao?from=myfollow_all)公布的共9 834條謠言。由于要考察謠言的傳播結(jié)構(gòu),而且謠言的一個(gè)必要條件是必須有足夠的傳播量,因此保留那些轉(zhuǎn)發(fā)至少100次的謠言,共694條組成謠言集。在真實(shí)世界中,新浪微博中的謠言數(shù)量遠(yuǎn)遠(yuǎn)小于正常微博數(shù)量,為了避免不平衡數(shù)據(jù)集達(dá)到過(guò)高準(zhǔn)確率的假象,需要建立一個(gè)謠言數(shù)與非謠言數(shù)大致相等的數(shù)據(jù)集。隨機(jī)選取3 000個(gè)沒(méi)有被證明是謠言的微博以及它們的轉(zhuǎn)發(fā)微博,手動(dòng)過(guò)濾轉(zhuǎn)發(fā)量小于100的微博,組成1 099條正常微博集。通過(guò)新浪微博提供的API抓取這1 793條微博及其所有轉(zhuǎn)微博,每條微博或者轉(zhuǎn)發(fā)微博都包含它們的作者信息(性別、粉絲數(shù)、關(guān)注數(shù)、微博數(shù)等)、時(shí)間戳、客戶(hù)端等。表2為數(shù)據(jù)集的基本概況。
Table 2 Overview of dataset
由于新浪微博提供的API抓取的數(shù)據(jù)特征稀疏且高度冗余,需要對(duì)爬取的原始微博數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)于建立RBF核的20個(gè)靜態(tài)特征,直接從原始數(shù)據(jù)表中提取所需的低階特征,或間接提取計(jì)算高階特征所需的低階特征;對(duì)于建立隨機(jī)通路圖核的傳播特征,提取轉(zhuǎn)發(fā)微博的父mid、子mid、轉(zhuǎn)發(fā)時(shí)間戳等特征構(gòu)建標(biāo)記消息級(jí)聯(lián)傳播樹(shù)模型,計(jì)算傳播樹(shù)之間的相似度。直積圖最大生成43 498個(gè)節(jié)點(diǎn),鄰接矩陣43 498維,用稀疏矩陣存儲(chǔ),要求有足夠計(jì)算資源的硬件支持。本文實(shí)驗(yàn)基于20內(nèi)核CPU,128 GB內(nèi)存的服務(wù)器,采用SVM開(kāi)源軟件LibSVM的Java軟件包,并結(jié)合WEKA數(shù)據(jù)挖掘平臺(tái),實(shí)現(xiàn)分類(lèi)器的訓(xùn)練和測(cè)試。實(shí)驗(yàn)基于十折交叉驗(yàn)證,用傳統(tǒng)的準(zhǔn)確率Precision、召回率Recall和F-score來(lái)評(píng)價(jià)本文提出的方法和新特征的有效性。
為了驗(yàn)證改進(jìn)模型CA-LPT的有效性,用不同的特征子集來(lái)訓(xùn)練SVM分類(lèi)器。實(shí)驗(yàn)結(jié)果如圖2和圖3所示,圖中R表示謠言,N表示非謠言,*+O表示模型*下的圖核與以往研究的靜態(tài)特征構(gòu)成的特征子集;*+O+N表示模型*下的圖核與以往研究的靜態(tài)特征加上10個(gè)新特征構(gòu)成的特征集。
Figure 2 Comparison between LPT and CA-LPT on rumor debunking圖2 LPT模型與CA-LPT模型謠言識(shí)別比較
Figure 3 Comparison between LPT and CA-LPT on non-rumor debunking圖3 LPT模型與CA-LPT模型非謠言識(shí)別比較
圖2和圖3的結(jié)果說(shuō)明,CA-LPT模型結(jié)合新提出的特征子集相比僅考慮粉絲數(shù)和關(guān)注數(shù)等靜態(tài)特征的LPT模型確實(shí)提升了謠言識(shí)別的效果。
本文還與一些經(jīng)典的謠言檢測(cè)算法進(jìn)行了對(duì)比:利用Liang等[6]提出的9個(gè)基于用戶(hù)行為的新特征和其中7個(gè)本文也用到的經(jīng)典特征訓(xùn)練第一個(gè)SVM分類(lèi)器;利用Castillo等[5]提出的15個(gè)特征訓(xùn)練第二個(gè)SVM分類(lèi)器;利用Yang等[22]提出的全部20個(gè)特征訓(xùn)練第三個(gè)SVM分類(lèi)器。結(jié)果如表3所示。表3結(jié)果表明,本文的基于CA-LPT方法性能更優(yōu)。
Table 3 Performance comparison among different algorithms
為了驗(yàn)證新提特征的有效性,用老的特征集結(jié)合不同的新特征子集訓(xùn)練無(wú)圖核SVM分類(lèi)器,結(jié)果如圖4所示,其中“(-)*”表示除特征*外的特征子集。
Figure 4 Efficiency comparison among new features圖4 新特征有效性對(duì)比
很明顯,謠言庫(kù)匹配特征、可疑用戶(hù)匹配特征對(duì)謠言的識(shí)別起到很大作用,傳播樹(shù)結(jié)構(gòu)的最大深度和意見(jiàn)領(lǐng)袖加V比例對(duì)識(shí)別也有所幫助。然而,群體響應(yīng)中的質(zhì)疑驚訝反對(duì)情感特征的重要性并未達(dá)到預(yù)期效果,原因可能是質(zhì)疑驚訝反對(duì)的情感詞匯數(shù)量有限,情感詞典不夠完善,對(duì)每條微博下群體響應(yīng)內(nèi)容中的這些情感詞未完全識(shí)別,導(dǎo)致情感分?jǐn)?shù)非常稀疏,因此可以考慮進(jìn)一步完善和自動(dòng)擴(kuò)展情感詞典等知識(shí)庫(kù)來(lái)改進(jìn)。
由于微博數(shù)據(jù)集規(guī)模龐大,算法的時(shí)間性能也是一個(gè)重要的評(píng)價(jià)指標(biāo)。本實(shí)驗(yàn)隨機(jī)選取1 793條微博中的60%作為訓(xùn)練集,其余717條微博作為測(cè)試集。算法主體分3步運(yùn)行:
Step1根據(jù)用戶(hù)影響力度量方法尋找消息傳播過(guò)程中的意見(jiàn)領(lǐng)袖用戶(hù)并在消息傳播樹(shù)中標(biāo)記;
Step2生成消息傳播樹(shù)之間的直積圖以及對(duì)應(yīng)的鄰接矩陣;
Step3根據(jù)鄰接矩陣計(jì)算消息傳播樹(shù)之間的隨機(jī)通路圖核。
其中Step 2需要生成717×1076=771492個(gè)直積圖及其對(duì)應(yīng)的鄰接矩陣,Step 3的矩陣逆運(yùn)算復(fù)雜度大且鄰接矩陣最大達(dá)到43 498維,因此時(shí)間開(kāi)銷(xiāo)較大。LPT模型與CA-LPT模型的算法運(yùn)行時(shí)間對(duì)比如表4所示。
Table 4 Time performance comparisonbetween CA-LPT and LPT
分析表4的實(shí)驗(yàn)結(jié)果,由于CA-LPT模型在挖掘意見(jiàn)領(lǐng)袖的過(guò)程中做了改進(jìn),不再只考慮用戶(hù)的粉絲數(shù)和關(guān)注數(shù),需要挖掘用戶(hù)發(fā)布微博或轉(zhuǎn)發(fā)的時(shí)間戳和節(jié)點(diǎn)的總出度,導(dǎo)致Step 1程序運(yùn)行時(shí)間略大于LPT算法;CA-LPT模型賦予意見(jiàn)領(lǐng)袖更嚴(yán)格的條件,減少了大量LPT中挖掘的意見(jiàn)領(lǐng)袖數(shù)量,合并了大量的非P節(jié)點(diǎn),從而可以大幅縮小傳播樹(shù)的規(guī)模,最終減小直積圖以及對(duì)應(yīng)的鄰接矩陣的維度,這對(duì)于提高計(jì)算消息傳播樹(shù)之間的隨機(jī)通路圖核的效率也有很大幫助,因此Step 2、Step 3的運(yùn)行時(shí)間均有大幅縮短。
本文將消息傳播的級(jí)聯(lián)模型引入LPT模型中,提出改進(jìn)的標(biāo)記信息級(jí)聯(lián)傳播樹(shù)模型CA-LPT:計(jì)算單位時(shí)間內(nèi)用戶(hù)驅(qū)動(dòng)其粉絲進(jìn)行轉(zhuǎn)發(fā)的數(shù)量來(lái)動(dòng)態(tài)度量用戶(hù)影響力,而非僅僅考慮用戶(hù)的粉絲數(shù)和關(guān)注數(shù)等靜態(tài)特征。真實(shí)微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于CA-LPT模型比基于LPT模型設(shè)計(jì)的特征可以獲得更高的謠言識(shí)別準(zhǔn)確率。實(shí)驗(yàn)也表明,謠言庫(kù)匹配特征、可疑用戶(hù)庫(kù)匹配特征以及群體響應(yīng)中的質(zhì)疑、驚訝、反對(duì)等情感特征能夠顯著提高謠言識(shí)別的效果。然而,真實(shí)的社交媒體平臺(tái)中謠言微博的數(shù)量遠(yuǎn)遠(yuǎn)小于正常微博的數(shù)量(通常達(dá)到1∶9甚至更少),用處理平衡數(shù)據(jù)集的理論和方法來(lái)處理非平衡數(shù)據(jù)集顯然不適用,因此考慮謠言檢測(cè)中的數(shù)據(jù)分布不平衡問(wèn)題、提高算法對(duì)少數(shù)謠言的識(shí)別性能將是下一步待解決的問(wèn)題。