謝欣彤,胡悅陽,劉譞哲,趙耀帥,姜海鷗
1.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871
2.高可信軟件技術(shù)教育部重點實驗室(北京大學(xué)),北京 100871
3.中國民航信息網(wǎng)絡(luò)股份有限公司,北京 101318
4.中國民用航空局 民航旅客服務(wù)智能化應(yīng)用技術(shù)重點實驗室,北京 101318
5.北京大學(xué) 軟件與微電子學(xué)院,北京 102600
6.北京大學(xué)(天津濱海)新一代信息技術(shù)研究院,天津 300452
近年來,互聯(lián)網(wǎng)技術(shù)改變了千家萬戶的生活習(xí)慣,成為了人們獲取信息、互動交流的重要渠道。在中國互聯(lián)網(wǎng)信息中心2020 年4 月發(fā)布的第45 次中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告(http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm)中稱,截至2020 年3 月,我國網(wǎng)民數(shù)量已超9.04億,互聯(lián)網(wǎng)普及率達(dá)到64.5%。
然而,互聯(lián)網(wǎng)在帶來便利的同時,也為謠言的傳播提供了環(huán)境。謠言是在社會中出現(xiàn)并流傳的未經(jīng)官方公開證實或已經(jīng)被官方辟謠的信息,其特點是所根據(jù)的事實較少,主觀的補充與改造較多。尤其在疫情期間,大量制造恐慌、捕風(fēng)捉影、偽科學(xué)消息在網(wǎng)絡(luò)上涌現(xiàn)。中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺數(shù)據(jù)統(tǒng)計顯示,2020 年4 月“糧食短缺,趕緊囤米搶油”相關(guān)信息達(dá)437 186 條,“新冠抗體可使人免受‘二次感染’”相關(guān)信息達(dá)205 187 條,這樣廣泛散布的謠言消息無疑將在一定程度上影響社會秩序。
互聯(lián)網(wǎng)已經(jīng)成為了思想文化信息的集散地和社會輿論的放大器,網(wǎng)絡(luò)空間中傳播的信息有著日益強大的社會影響力。如何有效地對網(wǎng)絡(luò)空間進(jìn)行公共輿情管理,是對現(xiàn)代化政府治理能力提出的考驗。中共中央、國務(wù)院印發(fā)的《新時代公民道德建設(shè)實施綱要》中也提到,為適應(yīng)新時代新要求,抓好網(wǎng)絡(luò)空間道德建設(shè)十分關(guān)鍵。
信息技術(shù)是一把雙刃劍,其發(fā)展同樣推動了互聯(lián)網(wǎng)與政府公共服務(wù)體系,特別是政務(wù)服務(wù)的深度融合,也加快了互聯(lián)網(wǎng)+政務(wù)服務(wù)模式創(chuàng)新進(jìn)程。網(wǎng)絡(luò)空間中的公共輿情治理,是互聯(lián)網(wǎng)+政務(wù)服務(wù)中重要的一環(huán),而及時有效地開展網(wǎng)絡(luò)平臺辟謠工作,更是公共輿情治理尤為關(guān)鍵的一步。
現(xiàn)有的網(wǎng)絡(luò)平臺辟謠工作大多依賴于人工舉報篩查機制。新浪公司成立了“微博辟謠”賬號及社區(qū)管理中心,開放用戶對存疑消息的舉報渠道,跟進(jìn)有關(guān)部門的查證工作并進(jìn)行結(jié)果發(fā)布。而為了提高平臺內(nèi)容可靠性,過濾編造、假新聞等低質(zhì)內(nèi)容,今日頭條公司在2018 年已有4 000 名內(nèi)容審核編輯,人員規(guī)模仍在進(jìn)一步擴大,未來預(yù)期達(dá)到10 000 名。但是僅僅依靠人工進(jìn)行舉報、篩查,不僅耗費大量時間和精力,辟謠的時效性也有很高的局限性,因為往往在謠言的傳播具有一定規(guī)模時,對社會公共秩序產(chǎn)生較大影響時才能引起有關(guān)部門工作人員的注意。
基于這樣的背景,為了幫助推進(jìn)互聯(lián)網(wǎng)+政務(wù)服務(wù)公共輿情治理工作,本文提出以高時效性謠言自動檢測過濾代替?zhèn)鹘y(tǒng)的人工舉報篩查機制,輔助辟謠工作人員捕捉網(wǎng)絡(luò)平臺上發(fā)布的海量消息中疑似的謠言,進(jìn)而推動互聯(lián)網(wǎng)治理進(jìn)一步精準(zhǔn)化和精細(xì)化。本文的主要工作是收集最新的數(shù)據(jù)集并進(jìn)行真實性標(biāo)注,對其中用戶特征分布進(jìn)行統(tǒng)計分析進(jìn)行特征選取并提出了基于傳播用戶代表性特征的早期謠言檢測方法RPPC,再通過實驗驗證該方法的有效性。實驗結(jié)果表明,RPPC 能夠在消息傳播初期過濾疑似謠言,在一定程度上輔助政府部門的輿情治理工作,從而提高政務(wù)服務(wù)的時效及質(zhì)量。
謠言檢測算法方面的研究大多圍繞著提取謠言的消息內(nèi)容及傳播中的趨勢特點來展開??梢愿鶕?jù)處理方式分為基于分類的機器學(xué)習(xí)方法和基于對比的方法。
基于對比的檢測方法將待檢測的消息與真實性可察的消息對象進(jìn)行比照。此類方法雖能有效地提高檢測時效性,但準(zhǔn)確率普遍較低,因此本章主要介紹基于分類的檢測方法及相關(guān)工作。
基于分類的方法,大多借助各類機器學(xué)習(xí)算法,利用帶標(biāo)簽的數(shù)據(jù)訓(xùn)練分類器,從而得到檢測模型。然而,輸入特征在很大程度上影響著分類器的準(zhǔn)確度。謠言檢測領(lǐng)域的開創(chuàng)性研究團隊Castillo 等人提出包括消息、用戶、話題和傳播等方面的一系列特征。在此基礎(chǔ)上,后續(xù)工作大多通過對特征的取舍及創(chuàng)新來提高分類器的表現(xiàn)。下面對基于常見類型特征的相關(guān)工作進(jìn)行介紹。
文本特征主要分為顯性特征和隱性特征。其中,顯性特征分析從語法角度出發(fā),主要包括詞語、符號和簡單情感特征等。謠言檢測相關(guān)的早期研究大多借助于對顯性特征進(jìn)行機器學(xué)習(xí)分類。文獻(xiàn)[3]提取的文本特征包括內(nèi)容長度、字母數(shù)量、符號數(shù);Takahashi 等人提出將真實消息和謠言信息中的詞頻分布作為檢測謠言的文本特征;Ratkiewicz等人提取文本中的標(biāo)簽、鏈接和提問作為特征。但研究發(fā)現(xiàn)獨特的顯性文本特征常局限于特定的話題,分類模型不具有普適性。基于語義的隱性特征包括潛在語義、情感(詞向量、分類器等)和消息間關(guān)聯(lián)特征(語義相似性計算)等。這類方法在預(yù)測的準(zhǔn)確率方面優(yōu)于基于語法的顯性特征提取類方法,但總體而言,基于文本特征的方法常借助于大量對于消息評論文本、轉(zhuǎn)發(fā)文本的挖掘,因此由于謠言擴散早期文本信息不足,常用于追溯性謠言檢測,即時性檢測表現(xiàn)不佳。
多媒體信息特征包括圖片、音視頻等內(nèi)容,具有較強的吸引力和誤導(dǎo)性(Sun 等人的研究結(jié)果表明80%的謠言都含有圖片信息)。文獻(xiàn)[13]提出了從基于圖片本身的視覺特征(像素、清晰度、相關(guān)性、區(qū)分度)和基于事件的統(tǒng)計特征(圖片數(shù)、含圖片消息比率、圖像與消息數(shù)量比例)兩個角度識別圖片類虛假消息,且在各類分類器上實驗表明,圖片類特征的檢測效果優(yōu)于常見的其他特征。然而,當(dāng)前基于多媒體特征檢測謠言大多需要在模型中引入文本特征及其他外部知識來印證內(nèi)容,模型輸入及結(jié)構(gòu)較復(fù)雜,也未考慮到多媒體信息中包含的元數(shù)據(jù)(文件名、創(chuàng)建時間及地點等),同時很少運用基于相關(guān)的多媒體處理技術(shù)識別深層的語義特征。
基于用戶行為特征的方法主要對信息的發(fā)布者、傳遞者和接受者及其交互行為進(jìn)行分析。此類方法大多通過搜集發(fā)布用戶的動態(tài)數(shù)、轉(zhuǎn)發(fā)數(shù)、關(guān)注數(shù)、粉絲數(shù)及異常行為模式等特征作為判別依據(jù)。Wu 等人對消息的傳播模式進(jìn)行分析,指出謠言的傳播模式與其他消息存在明顯差異。文獻(xiàn)[17]使用了聚類的方法對用戶的轉(zhuǎn)發(fā)及評論行為進(jìn)行分析。文獻(xiàn)[18]創(chuàng)新性地引入五個特征(日均關(guān)注數(shù)、日均動態(tài)數(shù)、發(fā)布相似內(nèi)容的用戶數(shù)、質(zhì)疑性質(zhì)評論比、糾正性質(zhì)評論比),實驗結(jié)果表明選取的新特征效果顯著。Li等人引入了用戶的可靠性特征,同時也結(jié)合了大量文本信息數(shù)據(jù)作為輸入。Liu 等人將消息傳播中的轉(zhuǎn)發(fā)用戶特征作為輸入,在中文及英文的社交媒體平臺數(shù)據(jù)集的早期謠言檢測中均取得了較好的檢測效果。
受其啟發(fā),本文試圖探究基于用戶行為特征的謠言檢測方法的可移植性。例如一些綜合資訊類應(yīng)用,雖然沒有集成度高的轉(zhuǎn)發(fā)功能,評論區(qū)信息卻很豐富;與此同時,此類應(yīng)用的用戶信息完善度不及傳統(tǒng)社交媒體。因此,本文考慮從更改采集的數(shù)據(jù)源、精簡輸入特征兩方面入手,初步探究基于用戶行為特征的檢測方法是否具有移植可能。
本文設(shè)計了一種基于傳播用戶代表性特征的謠言檢測方法(representative propagation path classification,RPPC),通過提取發(fā)布及評論用戶具有代表性的特征向量作為輸入,對消息的真實性進(jìn)行分類。
而每個消息a都對應(yīng)著標(biāo)簽(a)∈{0,1},用于表示該消息的真實性,目標(biāo)是得到模型,當(dāng)給定消息a的傳播路徑(a)時,能預(yù)測得到消息的真實性,即(a)=((a))。本文目標(biāo)是檢測消息為謠言與否,當(dāng)=1 時,(a)=0 表示消息屬實,而(a)=1 表示其為謠言。當(dāng)>1 時,標(biāo)簽可以表示多級別的真實性,如真實、虛假、不明等。
本文所構(gòu)造的數(shù)據(jù)集Weibo2020 如表1 所示,由兩部分組成:謠言消息及真實消息。其中謠言消息來自微博社區(qū)管理中心2016 年8 月2 日至2020 年3月23 日所判定的不實信息,以及中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺、騰訊新聞較真平臺中公布的謠言反向搜索得到的謠言微博。真實消息采集自3 月20 日微博熱門內(nèi)容中的社會、國際、科技、健康等板塊爬取實時發(fā)布的微博。篩去已刪除的微博及互動數(shù)為0 的條目,共收集謠言消息3 688 條,真實信息3 460 條。
表1 數(shù)據(jù)集Weibo2020 統(tǒng)計情況Table 1 Statistics of dataset Weibo2020
本文方法主要關(guān)注的是參與消息傳播的用戶特征,數(shù)據(jù)集包含的主要用戶字段如表2 所示。
表2 數(shù)據(jù)集Weibo2020 包含的用戶特征Table 2 User characteristics in dataset Weibo2020
該數(shù)據(jù)集的標(biāo)簽為“真”或“假”,微博社區(qū)管理中心等判定的謠言信息標(biāo)定為“假”,采集的實時微博為“真”。
在問題定義中,本文用參與傳播的發(fā)布及評論用戶的特征作為傳播路徑的向量表示,關(guān)注用戶特征的選取。本文將消息的發(fā)布及評論行為作為傳播路徑,對Weibo2020 進(jìn)行統(tǒng)計分析,結(jié)果顯示在消息的發(fā)布用戶和評論群體中,用戶的注冊時間、認(rèn)證情況、粉絲數(shù)、動態(tài)數(shù)四個特征分布有明顯差異。
圖1、圖2 為用戶注冊時間分布情況,其中橫坐標(biāo)為用戶注冊時間戳,縱坐標(biāo)為用戶比例??梢钥闯觯l(fā)布用戶中,普通用戶的注冊高峰出現(xiàn)較早,謠言用戶群體的注冊時間則比較平均。而在評論用戶中,普通評論用戶的注冊時間則普遍偏早于評論謠言用戶。
圖1 發(fā)布用戶注冊時間戳Fig.1 Publishers'registration timestamp
圖2 評論用戶注冊時間戳Fig.2 Commentators'registration timestamp
圖3 為用戶群體認(rèn)證情況統(tǒng)計。在評論用戶群體中,用戶的認(rèn)證情況分布較為相近。但在發(fā)布用戶群體的認(rèn)證情況分布上,兩個群體比例存在顯著差異,一個可能的原因是認(rèn)證用戶所發(fā)布的內(nèi)容更容易出現(xiàn)在熱門板塊,但是發(fā)布用戶的認(rèn)證與否仍然極可能有助于謠言的檢測。
圖3 用戶認(rèn)證情況Fig.3 Verification of users
圖4 用戶粉絲數(shù)Fig.4 User follower count
圖4 為發(fā)布用戶及評論用戶粉絲數(shù)分布箱線圖,可以看出普通發(fā)布用戶的粉絲數(shù)明顯高于謠言發(fā)布用戶。
圖5 為用戶動態(tài)數(shù)分布情況。在發(fā)布群體中,普通發(fā)布用戶相較于發(fā)布謠言用戶有更多的發(fā)表動態(tài)表現(xiàn),因此傳播路徑中用戶的動態(tài)發(fā)布數(shù)也很可能成為判斷消息真實性的重要特征。
圖5 用戶動態(tài)數(shù)Fig.5 User status count
本文算法RPPC 模型結(jié)構(gòu)如圖6 所示,主要由四部分構(gòu)成:傳播路徑構(gòu)造與轉(zhuǎn)換模塊、基于門控循環(huán)單元的特征提取模塊、基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取模塊和傳播路徑向量分類模塊。
其中傳播路徑構(gòu)造與轉(zhuǎn)換模塊將消息的傳播過程處理為固定的輸入模式,基于門控循環(huán)單元、卷積神經(jīng)網(wǎng)絡(luò)的模塊對其進(jìn)行學(xué)習(xí),拼接后得到傳播路徑向量,最終交由傳播路徑向量分類模塊給出消息真實性預(yù)測結(jié)果。
圖6 算法RPPC 框架示意圖Fig.6 Workflow for RPPC
通過門控循環(huán)單元及卷積神經(jīng)網(wǎng)絡(luò)模塊獲得s、s后,將其拼接起來成為一個向量∈R:
再將其輸入多層前饋神經(jīng)網(wǎng)絡(luò)獲得對于消息的預(yù)測。
RPPC 使用Softmax 函數(shù)作為神經(jīng)網(wǎng)絡(luò)的最后一層,并選取概率最大的作為預(yù)測目標(biāo)值。
其中,為隱藏層的數(shù)量,l為第個隱藏層的輸出,W、b為第層的權(quán)重矩陣及偏差,為最終的輸出,代表對于該消息傳播路徑的可信度預(yù)測值。
本章對RPPC 算法進(jìn)行實驗驗證。將RPPC 算法和現(xiàn)有工作中在早期謠言檢測表現(xiàn)突出的謠言檢測算 法PPC(propagation path classification)進(jìn)行比較,并對特征及傳播路徑長度選取對算法表現(xiàn)的影響進(jìn)行實驗。
在模型結(jié)構(gòu)設(shè)計部分,與PPC一致,選取了GRU 輸出維度及CNN 濾波器數(shù)量均為32,因此經(jīng)過循環(huán)神經(jīng)網(wǎng)絡(luò)及卷積循環(huán)網(wǎng)絡(luò)處理后得到的向量表示長度均為32,其中CNN 濾波器長度為3。傳播路徑分類部分的多層前饋神經(jīng)網(wǎng)絡(luò)中每層神經(jīng)元數(shù)為20,進(jìn)行實驗后設(shè)定層數(shù)為4。
本文選擇的批量(batchsize)大小為32,優(yōu)化算法為Adam,學(xué)習(xí)率為1E-4,momentum 為0,多層前饋神經(jīng)網(wǎng)絡(luò)激活函數(shù)為ReLU。
為了更好地評估模型表現(xiàn),本文進(jìn)行了五折交叉驗證。
將傳播路徑定義為在同條微博下的評論用戶特征向量序列。Weibo2020 中,單條微博下的評論數(shù)量分布如圖7 所示。僅有不到25%的微博評論不足10條,即超過75%的微博的評論數(shù)超過10。為了保證實驗結(jié)果對絕大多數(shù)微博有效,對傳播路徑長度為10 的情況進(jìn)行實驗。
圖7 數(shù)據(jù)集評論數(shù)分布Fig.7 Distribution of dataset comment count
本實驗與PPC 一致,將PPC_RNN+CNN 模型作為基線,本文提出的將注冊時間、認(rèn)證情況、粉絲數(shù)、動態(tài)數(shù)四個特征作為輸入的模型記為“RPPC_RNN+CNN”。本文同時也實現(xiàn)了模型的兩個輕量級版本,只使用單一的循環(huán)神經(jīng)網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò),分別記為“RPPC_RNN”及“RPPC_CNN”。為了驗證模型特征選取是否合理,也在原有四個特征基礎(chǔ)上依次添加了個人簡介長度、用戶名長度、關(guān)注用戶數(shù)的模型進(jìn)行實現(xiàn),記為“RPPC_RNN+CNN_5”“RPPC_RNN+CNN_6”及“RPPC_RNN+CNN_7”,實驗結(jié)果如表3。
表3 實驗結(jié)果對比Table 3 Comparison of experimental results %
結(jié)果顯示,本文提出的模型“RPPC_RNN+CNN”在準(zhǔn)確率等指標(biāo)上超過了基于轉(zhuǎn)發(fā)路徑并使用了8個用戶特征的基線模型“PPC_RNN+CNN”,即在提高了遷移至其他應(yīng)用平臺可能性的同時兼顧了檢測效果。同時,模型的表現(xiàn)也明顯優(yōu)于基于單一神經(jīng)網(wǎng)絡(luò)的“RPPC_CNN”及“RPPC_RNN”,說明將兩類神經(jīng)網(wǎng)絡(luò)集成于模型中在當(dāng)前問題中是具有意義的。此外,與“RPPC_RNN+RNN_X”系列模型的對比結(jié)果顯示,增加模型使用的特征對模型表現(xiàn)幾乎沒有影響。因此本文認(rèn)為提出的模型“RPPC_RNN+CNN”結(jié)構(gòu)設(shè)計合理、特征選取得當(dāng),在檢測效果上具有很好的表現(xiàn)。
RPPC 對消息的分類基于傳播路徑,而路徑長度越長,輸入數(shù)據(jù)所包含的信息量越大,模型的表現(xiàn)則可能會得到提升。因此本文也對選取不同長度的傳播路徑對模型表現(xiàn)的影響進(jìn)行探究,并對實際應(yīng)用中的模型選取進(jìn)行討論。
基于圖8 對于Weibo2020 中微博評論數(shù)量隨時間增長的情況統(tǒng)計,發(fā)現(xiàn)在檢測時間1 h 內(nèi),平均一條微博會收到60 條評論,因此本文對傳播路徑長度在10~60 之間的模型表現(xiàn)進(jìn)行實驗。
圖8 微博評論數(shù)隨時間增長情況Fig.8 Weibo comment increasement with time
選用不同長度傳播路徑的模型運行結(jié)果如圖9所示。
實驗結(jié)果顯示,總體而言傳播路徑長度對RPPC表現(xiàn)的影響并不大,因此本文認(rèn)為選用輸入傳播路徑長度為10的模型,便可以對5 min內(nèi)發(fā)布消息的真實性進(jìn)行預(yù)測,具有很好的時效性,符合本文場景的需要。
本文針對目前辟謠工作中大量依靠人工舉報篩查、工作量大而時效性不高的情況,提出以高時效性謠言自動檢測分析代替?zhèn)鹘y(tǒng)的人工舉報篩查機制,推進(jìn)互聯(lián)網(wǎng)+政務(wù)服務(wù),幫助提升政府的公共輿情治理能力。具體工作如下:
收集最新的數(shù)據(jù)集Weibo2020 并進(jìn)行真實性標(biāo)注,通過對其中用戶群體的特征分布進(jìn)行特征選取,在此基礎(chǔ)上設(shè)計并實現(xiàn)了基于傳播用戶代表性特征的謠言檢測算法RPPC,其具有遷移至社交媒體類之外應(yīng)用平臺可能性,并通過實驗測試該方法的有效性。實驗結(jié)果表明,RPPC 與同規(guī)模的基于傳播路徑的算法,在輸入數(shù)據(jù)規(guī)模減少了50%的同時,提高準(zhǔn)確率2.57 個百分點,能對5 min 內(nèi)發(fā)布的消息進(jìn)行真實性預(yù)測,且準(zhǔn)確率達(dá)到約80%。
圖9 傳播路徑長度對模型表現(xiàn)的影響Fig.9 Influence of propagation length on model performance
同時,也必須指出本文工作使用數(shù)據(jù)集的局限性。首先,由于采集的數(shù)據(jù)集規(guī)模有限,受當(dāng)前較為特殊的時間環(huán)境背景影響較大,在與Liu 等人工作的比較中很可能存在偏差,算法的性能表現(xiàn)還需要在未來工作中構(gòu)造規(guī)模更大、覆蓋面更全的數(shù)據(jù)集,進(jìn)而進(jìn)行更全面的測試、調(diào)整。此外,由于在實際運用場景中,謠言與真實消息的存在比例遠(yuǎn)小于數(shù)據(jù)集中所選取的1∶1,在進(jìn)行實時過濾時可能會出現(xiàn)將較多普通消息判斷為謠言的情況,目前本文模型RPPC的檢測結(jié)果僅作為對消息真實性的初步判斷。
在未來的工作中,為了能夠幫助提供更好的服務(wù)質(zhì)量,可以考慮從擴大數(shù)據(jù)集規(guī)模、調(diào)整數(shù)據(jù)集構(gòu)造比例等方面進(jìn)一步對算法性能進(jìn)行測試;同時,為了提高服務(wù)覆蓋面及服務(wù)質(zhì)量,應(yīng)構(gòu)造綜合資訊類應(yīng)用平臺數(shù)據(jù)集,實地驗證該方法的可遷移性,并考慮使用多種檢測方法相結(jié)合的方式,對處于各個傳播階段、包含信息量不同的消息提供更有針對性、準(zhǔn)確率更高的檢測。