網(wǎng)絡(luò)虛假信息檢測技術(shù)研究與展望

2023-01-03 12:54:49王莉

太原理工大學(xué)學(xué)報 2022年3期

王莉

(太原理工大學(xué) 大數(shù)據(jù)學(xué)院，山西晉中 030600)

隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展及自媒體的廣泛應(yīng)用，微博、知乎、快手、騰訊新聞等媒體平臺成為用戶發(fā)布、獲取和分享信息的重要來源和主要場所，但同時也為網(wǎng)絡(luò)虛假信息的滋生和泛濫提供了溫床。網(wǎng)絡(luò)虛假信息是通過媒體發(fā)布、傳播帶有虛假內(nèi)容的新聞或消息[1]，其迷惑性強、傳播速度快。2018年《科學(xué)》雜志刊登文章指出，社交媒體平臺中，虛假信息比真實信息傳播得更快，更廣泛，真實信息需要比虛假信息多花5倍時間，才能達到同樣的傳播量[2]。因此，虛假信息傳播在政治、經(jīng)濟、社會等各個方面造成了極為惡劣的影響。例如，2016年美國大選期間社交媒體上產(chǎn)生的虛假信息，誤導(dǎo)選民對政治候選人的看法，甚至左右了選舉結(jié)果[3]；2013年，巴拉克·奧巴馬在一次爆炸中受傷的虛假信息引發(fā)了美股巨震，兩分鐘內(nèi)蒸發(fā)了1 360億美元股值[4]。世界經(jīng)濟論壇將虛假信息列為全球最大風(fēng)險之一，根據(jù)2019年的一項經(jīng)濟研究表明，網(wǎng)絡(luò)虛假信息每年給全球經(jīng)濟造成780億美元的損失，且還在不斷增長。2020年Facebook公司刪除了700萬條關(guān)于新型冠狀病毒虛假信息的帖子[5]；在國內(nèi)，近幾年類似“鐘南山院士建議鹽水漱口防病毒”，“飲高度酒可消滅病毒活性”，“小孩做核酸被捅死”等虛假信息的傳播，讓不明真相的民眾更加焦慮和恐慌，極大地干擾了疫情防控工作。世界衛(wèi)生組織提出了“信疫”概念，指出人類不僅要打贏現(xiàn)實世界大流行的新冠病毒之戰(zhàn)，也必須打贏網(wǎng)絡(luò)空間大流行的信疫之戰(zhàn)。由此可見，網(wǎng)絡(luò)虛假信息問題已經(jīng)十分嚴峻，亟需探索高效的虛假信息檢測方法，阻斷虛假信息傳播，保障網(wǎng)絡(luò)空間信息可信、安全。

1 虛假信息檢測的研究現(xiàn)狀

近年來，虛假信息檢測已成為國內(nèi)外研究熱點，相關(guān)研究通常是把它建模為一個分類問題。存在兩種問題建模：一種是將其定義為二分類問題，即虛假信息(T)和真實信息(F)。另一種是將其定義為四分類問題，即分為非謠言(N)、經(jīng)過驗證的非謠言(F)、真謠言(T)、未經(jīng)驗證的謠言(U)。大多數(shù)研究采用二分類模型，任務(wù)目標為訓(xùn)練學(xué)習(xí)函數(shù)f:p→y，其中p為信息，y為標簽值y∈{0,1}.

根據(jù)所使用的數(shù)據(jù)對象不同，網(wǎng)絡(luò)虛假信息檢測的研究工作可以分為三類：基于信息內(nèi)容的方法[6-33]，基于用戶的方法[34-40]和基于傳播的方法[41-53]。其中，基于信息內(nèi)容的方法主要利用信息內(nèi)容進行檢測；基于用戶的方法主要利用信息發(fā)布者或轉(zhuǎn)發(fā)者的個人描述、性別、粉絲量、關(guān)注量等用戶屬性進行虛假信息識別；基于傳播的方法主要利用信息傳播過程中的評論、轉(zhuǎn)發(fā)等特征進行虛假信息識別。

1.1 基于信息內(nèi)容的虛假信息檢測

信息內(nèi)容是指從一條網(wǎng)絡(luò)信息中可以直接獲取到的數(shù)據(jù)，采集難度小，且和信息同步，有助于實現(xiàn)虛假信息的早期檢測?；谛畔?nèi)容的虛假信息檢測方法主要分為三類：基于文本的方法、基于圖像的方法、基于文本和圖像多模態(tài)融合的方法。

1.1.1基于文本的虛假信息檢測

文本是對信息的文字描述，其中帶有作者的思想和寫作意圖，呈現(xiàn)出多樣的語言習(xí)慣和風(fēng)格。根據(jù)所使用的特征不同，基于文本的虛假信息檢測研究主要分為基于文本語言特征的方法和基于文本結(jié)構(gòu)特征的方法兩種類型。

1) 基于文本語言特征的虛假信息檢測?；谖谋菊Z言特征的虛假信息檢測方法通常以字、詞、句及其他文本特征為建模對象，依賴機器學(xué)習(xí)或深度學(xué)習(xí)方法得到豐富的語言知識以檢測虛假信息。HORNE et al[6]在單詞級別構(gòu)建了文本風(fēng)格特征、復(fù)雜性特征和心理特征，提出了一種基于支持向量機(SVM)的虛假信息檢測模型。PéREZ-ROSAS et al[7]手工構(gòu)建了文本的N-grams特征、標點符號、心理語言學(xué)等單詞級別的組合特征集，訓(xùn)練支持向量機模型實現(xiàn)虛假信息檢測。這類機器學(xué)習(xí)方法在一定程度上取得了不錯的效果，但普遍受限于復(fù)雜的預(yù)處理工作和繁瑣耗時的特征工程，并且無法用于不斷出現(xiàn)的新型造假信息，所以難以在實際應(yīng)用中發(fā)揮作用。

基于深度學(xué)習(xí)的虛假信息檢測方法可以自動提取特征，避免了復(fù)雜特征工程，提升了檢測效率。相關(guān)研究主要利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等方法學(xué)習(xí)信息內(nèi)容基于詞、句子、文本級別的語義表示，進而完成虛假信息檢測。在詞級別，WANG[8]提出了一種基于深度學(xué)習(xí)的檢測方法，利用CNN和雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)整合詞嵌入以檢測虛假信息。VOLKOVA et al[9]結(jié)合CNN和LSTM網(wǎng)絡(luò)融合文本語言線索和詞嵌入以評估信息真實性。DHAMANI et al[10]基于CNN與LSTM的耦合網(wǎng)絡(luò)處理表情符號、俚語、拼寫錯誤等特征，進而檢測虛假信息。CHAWDA et al[11]將遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)和LSTM應(yīng)用在虛假信息檢測中，捕獲了相鄰單詞之間的上下文依賴關(guān)系。此外，許多研究提出基于句級別和段落級別的虛假信息檢測方法。YU et al[12]基于CNN模型學(xué)習(xí)段落嵌入表征以提取信息的高級文本特征。AHN et al[13]使用預(yù)訓(xùn)練語言模型BERT，在句子級別檢測虛假信息。張恒[14]構(gòu)造了LSTM和CNN的混合模型，引入前饋式注意力機制和基于上下文的注意力機制檢測虛假信息。LIU et al[15]以N-gram為計算單元，提出一種基于分層注意力機制的CNN和Bi-LSTM結(jié)合的虛假信息檢測方法。

2) 基于文本結(jié)構(gòu)特征的虛假信息檢測。文本是由詞、短語、句子、段落、篇章等不同粒度的文本單元按照一定關(guān)系搭建起來的有序結(jié)構(gòu)，不同結(jié)構(gòu)反映了內(nèi)容主體的因果、順承、轉(zhuǎn)折、強調(diào)、限制等邏輯信息，表達出不同的語義。因此，將文本結(jié)構(gòu)關(guān)系引入將有助于提升虛假信息檢測效果。

基于文本結(jié)構(gòu)特征的虛假信息檢測研究主要分為基于樹結(jié)構(gòu)的方法和基于圖結(jié)構(gòu)的方法兩類。a.基于樹結(jié)構(gòu)的方法。ZHOU et al[16]從詞匯、句法、語義和語篇層面捕獲虛假信息的寫作風(fēng)格，使用了文本修辭結(jié)構(gòu)樹提取語篇特征，采用機器學(xué)習(xí)模型進行檢測。UPPAL et al[17]采用深度學(xué)習(xí)技術(shù)，首先利用雙向門控遞歸單元(GRU)網(wǎng)絡(luò)學(xué)習(xí)句子表征，然后基于樹形結(jié)構(gòu)整合句子表示以檢測虛假信息。b.基于圖結(jié)構(gòu)的方法。和樹結(jié)構(gòu)相比，圖結(jié)構(gòu)具有更強的結(jié)構(gòu)化信息表達能力。圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[18]將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖結(jié)構(gòu)數(shù)據(jù)上，在自然語言處理任務(wù)中取得了許多優(yōu)異的效果[19-21]。TextGCN[19]依據(jù)整個語料庫中文本和單詞之間的關(guān)系構(gòu)建圖進行文本節(jié)點分類，但該模型不適用于歸納式學(xué)習(xí)，即面對訓(xùn)練數(shù)據(jù)集中沒有的新文章時需要重新構(gòu)建圖和重新訓(xùn)練。ZHANG et al[20]提出了面向歸納式學(xué)習(xí)的TextING模型，對每篇文本利用單詞之間的局部共現(xiàn)關(guān)系來構(gòu)建文本圖結(jié)構(gòu)，取得了很好的文本分類效果。虛假信息檢測方面，VAIBHAV et al[21]提出，虛假信息與真實信息的全文句子間關(guān)系結(jié)構(gòu)不同，因此，以全文句子為節(jié)點建立完全圖，引入GCN，通過最大池化層整合句子嵌入，生成文本表示，檢測虛假信息。進一步，考慮到全文句子之間不僅存在全局依賴關(guān)系，而且存在相鄰順序關(guān)系，WANG et al[22]提出一種基于句子間的全局語義交互關(guān)系結(jié)構(gòu)、局部相鄰順序結(jié)構(gòu)和全局順序結(jié)構(gòu)特征的虛假信息早期檢測模型SemSeq4FD.該模型構(gòu)建了句子全連接完全圖，采用GCN和自注意力機制獲得了全局句子表示；采用文本卷積神經(jīng)網(wǎng)絡(luò)針對句子順序關(guān)系處理，得到局部句子表示；兩者拼接后形成增強型表示，再按照全文句子順序建立LSTM網(wǎng)絡(luò)，生成最終文本表示，用于虛假信息檢測。在中、英文兩種語言的數(shù)據(jù)集上進行跨來源、跨領(lǐng)域?qū)嶒?，該模型均表現(xiàn)優(yōu)秀。

1.1.2基于圖像的虛假信息檢測

虛假圖像主要表現(xiàn)為兩種形式：偽造和誤用。

Photoshop等圖像編輯軟件功能的不斷完善以及生成式對抗網(wǎng)絡(luò)在圖像合成領(lǐng)域取得的巨大成功正在降低圖像偽造的技術(shù)門檻，偽造圖像的檢測技術(shù)正在引起越來越多的關(guān)注?，F(xiàn)有的虛假圖片檢測方法主要包括基于手工特征的方法和基于深度學(xué)習(xí)的方法?；谑止ぬ卣鞯姆椒ù蠖嗷谔摷賵D像底層特征進行分析，效率高，但通常只能檢測特定類型的篡改?；谏疃葘W(xué)習(xí)的方法不受限于篡改手段類型，具有廣闊的發(fā)展空間。ZHOU et al[23]提出了一種基于Faster R-CNN的方法，從RGB流和噪聲流中提取篡改特征，用于虛假信息檢測。QI et al[24]提出了多域視覺神經(jīng)網(wǎng)絡(luò)，設(shè)計了一個包括頻域模塊、像素域模塊和融合模塊的框架，用于學(xué)習(xí)視覺表征來檢測偽造圖像。實際應(yīng)用中通常將基于特征的方法和基于深度學(xué)習(xí)的方法結(jié)合以提升檢測效果。

另一類基于圖像的虛假信息是誤用圖像，即圖像和文本不匹配，將不是同一事件的文本和圖像放在一起，混肴視聽。這類檢測一般通過對文本和圖像中的時間、地點、人物等關(guān)鍵信息進行提取，評估信息匹配程度以識別虛假信息。

1.1.3基于文本和圖像多模態(tài)融合的虛假信息檢測

為了增強信息可讀性，越來越多的網(wǎng)絡(luò)信息包含有文本和圖像，這些不同模態(tài)之間具有互補性、信息增強作用等特性，對于更好地理解原始數(shù)據(jù)的語義有著非常重要的作用。因此，近年來，基于多模態(tài)特征融合的虛假信息檢測越來越受到關(guān)注[25]。

信息表達越充分，越有利于信息檢測效果。為了得到豐富的全文信息表達，研究者們通常首先針對文本和圖像這兩種不同模態(tài)分別進行特征表達，然后采用拼接方式將兩種學(xué)習(xí)后的模態(tài)表征進行集成。SINGHAL et al[26]利用BERT提取文本向量表征，利用VGG19提取圖像向量表征，然后將其拼接作為聯(lián)合表征。YANG et al[27]不僅從文本和圖像中提取顯式特征，而且利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)其潛在特征，然后將文本和圖像的顯式特征和潛在特征映射到同一特征空間中進行拼接，最后使用學(xué)習(xí)到的特征來檢測虛假信息?；谄唇拥娜诤戏绞胶唵危珱]有挖掘和區(qū)分不同特征對虛假信息檢測的不同重要性，也沒有考慮不同模式之間的隱含關(guān)系，對虛假信息檢測性能支持有限。因此，JIN et al[28]提出了一種具有注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)att-RNN，以融合帖子的圖像和文本特征進行虛假信息檢測。SONG et al[29]提出了一種基于跨模態(tài)注意殘差和多通道卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)假信息檢測框架，可以根據(jù)注意力權(quán)重從另一個源模態(tài)中選擇性地提取與目標模態(tài)相關(guān)的信息。為了進一步學(xué)習(xí)文本和圖像之間的共享表征，WANG et al[30]提出了事件對抗神經(jīng)網(wǎng)絡(luò)EANN，其中多模態(tài)特征提取器負責從帖子中提取文本和視覺特征，它與虛假信息檢測器合作，可以學(xué)習(xí)可判別的表征來檢測虛假信息，而事件判別器的作用是去除事件的特定特征并保留事件之間的共享特征，由此來學(xué)習(xí)代表各種主題和領(lǐng)域的事件不變特征，從而有利于對新事件進行檢測。KHATTAR et al[31]提出了一種多模態(tài)變分自動編碼器(MVAE)，該編碼器能夠?qū)W習(xí)文本和圖像共享表征，經(jīng)過訓(xùn)練可以發(fā)現(xiàn)推文中各種模態(tài)之間的相關(guān)性，然后將變分自動編碼器與分類器耦合以檢測虛假信息。ZHOU et al[32]提出了相似度感知模型來研究文本和圖像信息之間的相似性在檢測虛假信息中的作用。孟杰等[33]提出了一種基于雙重注意力機制的多模態(tài)深度融合虛假信息檢測模型MMDF，采用雙向門控循環(huán)單元GRU結(jié)構(gòu)提取文本語義特征，通過多分支卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取圖像的多層次語義特征以及不同層次特征之間的順序依賴關(guān)系；然后利用模間注意力機制融合文本特征和圖像的不同層次語義特征，利用模內(nèi)注意力機制分別聚合增強型文本內(nèi)部表征和增強型圖像內(nèi)部表征，最后利用注意力機制將文本和圖像的原始信息注入到多模態(tài)聯(lián)合表征中，加強原信息的作用，進行虛假信息預(yù)測。

總之，基于文本圖像融合的虛假信息檢測研究主要集中在各模態(tài)表征學(xué)習(xí)、多模態(tài)融合機制的設(shè)計等環(huán)節(jié)，以期形成多模態(tài)數(shù)據(jù)協(xié)同，提升檢測性能。

1.2 基于用戶畫像的虛假信息檢測

在社交媒體網(wǎng)絡(luò)上，用戶是消息傳播的主體，用戶的身份信息在一定程度上代表了其發(fā)布內(nèi)容的可信度。用戶信息，一般指可從社交媒體網(wǎng)絡(luò)上獲取的個人描述、性別、粉絲量、關(guān)注量、居住城市和愛好等屬性信息，一定程度上隱含了用戶權(quán)威程度和可信度。比如，一些大V用戶，具有賬號等級高、地理位置可見、發(fā)布頻率具有規(guī)律等特點，其發(fā)布的消息可信度也較高；而一些未經(jīng)驗證的普通用戶賬號，賬號信息少，發(fā)布信息無規(guī)律，網(wǎng)絡(luò)社交關(guān)系異于通常情況，其發(fā)布或轉(zhuǎn)發(fā)的消息則很有可能是虛假信息。因此，引入用戶社交屬性信息，將從另一方面輔助提升虛假信息檢測的性能，具有重大的應(yīng)用價值。

研究者們對于用戶屬性與虛假信息檢測間的關(guān)系進行了多方面的積極探索。GHENAI et al[34]分析了在Twitter上發(fā)布健康類虛假信息的一類用戶，將這類用戶同正常用戶進行了多方面的對比，構(gòu)建了用戶屬性集合，然后將這些屬性特征輸入到Logistic分類器中進行分類，實驗結(jié)果證明基于用戶屬性建模的有效性。YANG et al[35]提取基于用戶的特征取得了不錯的分類效果，其中用戶特征包括性別、居住地和粉絲量等。CASTILLO et al[36]利用Twitter上的一組用戶特征來檢測虛假信息，這些特征包括粉絲量、朋友數(shù)、注冊年月等。SHU et al[37]為了揭示用戶特征和虛假信息之間的聯(lián)系，對用戶顯式特征和隱式特征進行了比較分析，揭示了有些用戶特征有助于檢測虛假信息。他們的工作為深入探索社交媒體的用戶特征提供了寶貴經(jīng)驗。LIU和WU[38]結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和卷積神經(jīng)網(wǎng)絡(luò)CNN來基于用戶特征學(xué)習(xí)高級表示。該方法被證明有非常好的虛假信息早期檢測性能，同時該工作也是第一次將深度學(xué)習(xí)作用于用戶特征進行虛假信息檢測的工作。LU和LI[39]將參與社交的所有用戶構(gòu)建為一個完全連通圖以輔助檢測虛假信息，大大提升了虛假信息檢測的結(jié)果。薛海清等[40]提出一種基于用戶傳播網(wǎng)絡(luò)與消息內(nèi)容融合的虛假信息檢測模型，利用多模態(tài)門控單元對用戶社交屬性表征、結(jié)構(gòu)表征和帖子內(nèi)容表征進行融合，增強了信息表征，提高了虛假信息檢測效果。

1.3 基于傳播的虛假信息檢測

社交媒體網(wǎng)絡(luò)上，消息被發(fā)布后，每個用戶都可以對其進行點贊、評論、轉(zhuǎn)發(fā)及分享，這些社交活動構(gòu)成了信息的傳播網(wǎng)絡(luò)，其中包含了許多對消息真實性判斷有幫助的潛在信息。例如：評論，通常是公眾對原文的真實反映和觀點，而且評論數(shù)據(jù)通常和原文在同一頁上，數(shù)據(jù)獲取簡單；轉(zhuǎn)發(fā)，與評論一樣包含了公眾的觀點，且體量更大，但數(shù)據(jù)質(zhì)量參差不齊。這些信息傳播中的各種行為從另一個角度為虛假信息檢測提供了新的線索。當前基于傳播的虛假信息檢測研究主要集中在對評論和轉(zhuǎn)發(fā)行為的利用上，所以本文從基于評論的方法和轉(zhuǎn)發(fā)的方法兩方面展開闡述分析。

1.3.1基于評論的虛假信息檢測

基于評論的方法一般是通過挖掘評論和原文的關(guān)系以提升檢測效果。張仰森等[41]提出通過計算評論的異常度來實現(xiàn)對虛假信息的檢測。MA et al[42]基于評論順序建立了樹結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)RvNN，從評論和文本內(nèi)容中捕捉各節(jié)點的隱藏表示，用于分類。SHU et al[43]意識到評論與原文關(guān)聯(lián)關(guān)系的重要性，提出dEFEND模型來學(xué)習(xí)貼子和評論之間的語義關(guān)聯(lián)，并使用互注意力機制提供可解釋性，取得了較好的虛假信息檢測結(jié)果。WU et al[44]提出了自適應(yīng)交互融合網(wǎng)絡(luò)AIFN來實現(xiàn)帖子和評論的融合并將其用于虛假信息檢測任務(wù)。YANAGI et al[45]認為評論對于虛假信息檢測任務(wù)非常重要，但是有些消息可能存在評論不足的問題，他們通過訓(xùn)練生成器模型來為消息生成評論進而提高檢測性能。LIN et al[46]在評論轉(zhuǎn)發(fā)圖的基礎(chǔ)上增強了用戶交互，提出了層次圖注意力模型，取得了較好的虛假信息檢測結(jié)果。YANG et al[47]從原文和評論的回復(fù)結(jié)構(gòu)、原文和評論的相互選擇、評論內(nèi)部的主題漂移三方面進行建模，提出一種基于原文和評論的虛假信息檢測模型PostCom2DR，在中文和英文虛假信息檢測中均提升了檢測準確率。

1.3.2基于轉(zhuǎn)發(fā)的虛假信息檢測

現(xiàn)有的研究根據(jù)建模類型的不同，主要可以分為3種：基于轉(zhuǎn)發(fā)鏈的方法、基于轉(zhuǎn)發(fā)樹的方法和基于轉(zhuǎn)發(fā)圖的方法。

基于轉(zhuǎn)發(fā)鏈的方法主要將消息的所有轉(zhuǎn)發(fā)按照時間順序看成一個時間鏈來處理。KWON et al[48]研究虛假信息和真實信息在轉(zhuǎn)發(fā)上的差異，并從時間和內(nèi)容兩個方面分析得出一系列轉(zhuǎn)發(fā)特征，然后利用機器學(xué)習(xí)方法來判斷一個貼子是否是虛假信息。基于轉(zhuǎn)發(fā)樹的方法則主要將信息的轉(zhuǎn)發(fā)建模為一棵消息樹，通過對消息轉(zhuǎn)發(fā)樹中根節(jié)點到葉子節(jié)點的路徑進行一系列操作來檢測虛假信息。LAO et al[49]通過結(jié)合虛假信息轉(zhuǎn)發(fā)鏈與轉(zhuǎn)發(fā)樹的方式提出了RDLNP模型，該模型分別對虛假信息的擴散和時序信息進行建模，被證明有較好的結(jié)果。但上述做法通常僅關(guān)注學(xué)習(xí)轉(zhuǎn)發(fā)過程中的時間序列信息，而忽略了消息之間相互轉(zhuǎn)發(fā)的全局關(guān)系。最近的一些研究開始將消息轉(zhuǎn)發(fā)建模為一個轉(zhuǎn)發(fā)圖，然后利用圖網(wǎng)絡(luò)技術(shù)來解決虛假信息檢測問題。WEI et al[50]針對虛假信息檢測問題，提出了一種多深度M-GCN模型，該模型能夠捕獲多尺度的鄰居信息。WU et al[51]對消息轉(zhuǎn)發(fā)時形成的消息轉(zhuǎn)發(fā)圖迭代的使用圖神經(jīng)網(wǎng)絡(luò)直到收斂，將收斂之后的節(jié)點表示用于分類。BIAN et al[52]將轉(zhuǎn)發(fā)結(jié)構(gòu)建模為轉(zhuǎn)發(fā)圖，建立雙向圖卷積網(wǎng)絡(luò)biGCN學(xué)習(xí)轉(zhuǎn)發(fā)中的結(jié)構(gòu)特征，然后結(jié)合原文進行虛假信息檢測。楊延杰等[53]引入融合門控的圖卷積神經(jīng)網(wǎng)絡(luò)，提出了一種基于原文和轉(zhuǎn)發(fā)網(wǎng)絡(luò)的虛假信息檢測模型GUCNH，在中英文虛假信息檢測以及早檢測方面均具有明顯優(yōu)勢。

1.4 虛假信息檢測系統(tǒng)

當前，國內(nèi)外各政府及相關(guān)機構(gòu)紛紛出臺相關(guān)法律、法規(guī)對發(fā)布和傳播虛假信息的行為進行打擊，各互聯(lián)網(wǎng)企業(yè)、網(wǎng)站平臺等紛紛設(shè)立檢測機制進行虛假信息鑒別。在美國，臉書公司鼓勵用戶舉報虛假帖子，并雇用專業(yè)的事實檢查人員來檢測虛假信息。國外Snopes、 FactCheck、PolitiFact等網(wǎng)站利用人工及多技術(shù)結(jié)合查驗信息真假。在國內(nèi)，國家網(wǎng)信辦、各省市互聯(lián)網(wǎng)信息辦公室等機構(gòu)設(shè)立了中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺、各地市辟謠平臺等，進行權(quán)威發(fā)布、媒體求證、謠言舉報、信息核實和辟謠課堂學(xué)習(xí)及宣傳等。這些平臺主要采用人工審核及多技術(shù)手段結(jié)合方式識別不實信息，同時承擔了宣傳和網(wǎng)民新媒體素養(yǎng)的教育職能。

除了運營或商用平臺外，研究者們也在開發(fā)各種自動化虛假信息檢測系統(tǒng)，以期減少當前平臺上主要依賴人工核實信息的勞動強度和難度，實現(xiàn)自動信息檢測。SHU et al[54]提出了一個端到端的虛假信息檢測工具FakeNewsTracker，對信息進行真假檢測和特征可視化。蔣昊[55]針對虛假信息傳播過程，建模實現(xiàn)了一個基于傳播結(jié)構(gòu)的虛假信息檢測系統(tǒng)。常超舜[56]開發(fā)了一個在線虛假信息檢測和分析的系統(tǒng)，通過網(wǎng)絡(luò)爬蟲匹配一些官方辟謠數(shù)據(jù)，對未匹配到的信息應(yīng)用深度學(xué)習(xí)算法模型進行識別。在可解釋的虛假信息檢測系統(tǒng)研究方面，YANG et al[57]提出了XFake模型，利用決策樹、自注意力機制和XGBoost分類器從多個角度分析和檢測虛假信息，并提供可視化解釋作為證據(jù)。PRZYBYA et al[58]從文本風(fēng)格特征、句子相似度等方面，構(gòu)建了可解釋的虛假信息檢測工具Credibilator。該系統(tǒng)基于Chrome擴展程序，具有方便檢測的優(yōu)點，但是僅支持全頁面檢測、英文檢測。太原理工大學(xué)大數(shù)據(jù)智能理論與工程研究中心王莉教授團隊開發(fā)了一套在線虛假信息實時檢測與交互式擴展系統(tǒng)，該系統(tǒng)作為瀏覽器端插件直接擴展，無需專門安裝；后端嵌入自有產(chǎn)權(quán)的算法模型，可同時實現(xiàn)中文、英文信息的虛假性檢測；具有虛假信息實時檢測、用戶交互反饋和模型因果解釋三大功能，支持模型持續(xù)學(xué)習(xí)、自修正及解釋等能力。

2 挑戰(zhàn)及未來研究方向

網(wǎng)絡(luò)信息爆炸的今天，各種虛假信息給國家、社會、企業(yè)和個人造成了極大的負面影響和危害。網(wǎng)絡(luò)虛假信息檢測已經(jīng)成為維護網(wǎng)絡(luò)空間秩序、保障人民生命財產(chǎn)安全、社會穩(wěn)定、國家安全的一項重要措施。國內(nèi)外企業(yè)界和學(xué)術(shù)界紛紛展開研究和探索，近年來出現(xiàn)了許多研究成果。但是由于虛假信息跨領(lǐng)域、跨語言、跨平臺以及虛假信息制造者手段的不斷更新，虛假信息的自動檢測仍然任重而道遠。通過對國內(nèi)外相關(guān)領(lǐng)域研究工作的調(diào)研和分析，本文認為網(wǎng)絡(luò)虛假信息檢測仍然存在數(shù)據(jù)、模型以及跨模態(tài)檢測等方面的挑戰(zhàn)。

1) 數(shù)據(jù)問題。主要表現(xiàn)為標注數(shù)據(jù)的缺乏、不同領(lǐng)域虛假信息數(shù)據(jù)分布的不均衡以及與真實信息數(shù)據(jù)相比的數(shù)據(jù)不平衡問題，這些都在一定程度上制約了以深度學(xué)習(xí)為核心數(shù)據(jù)驅(qū)動的虛假信息檢測技術(shù)的發(fā)展。所以，在未來，一方面需要相關(guān)機構(gòu)或研究者聯(lián)合起來，積極進行公開共享數(shù)據(jù)集建設(shè)；另一方面，需要研究小樣本等對數(shù)據(jù)依賴小的新興檢測技術(shù)。

2) 模型適配與遷移問題。一些數(shù)據(jù)分析的工作表明，不同領(lǐng)域的信息數(shù)量、信息可得性、虛假信息占比分布等具有差異，如何利用容易采集的民生、娛樂等領(lǐng)域數(shù)據(jù)訓(xùn)練出具有一定普適性的檢測模型或易于遷移的模型，用以跨領(lǐng)域、跨平臺、跨來源的信息檢測，是虛假信息檢測技術(shù)落地應(yīng)用所無法避開的一個問題。

3) 跨模態(tài)檢測。當前網(wǎng)絡(luò)的信息載體主要有文本、圖片、視頻與語音等，不同模態(tài)的造假技術(shù)也各有不同；虛假信息的表現(xiàn)呈現(xiàn)出多樣化，文本造假、文本關(guān)鍵信息缺失、圖片造假、圖片誤用、語音拼接等，如何利用多種模態(tài)的信息，跨模態(tài)檢測、融合多模態(tài)檢測是未來虛假信息檢測的一個重要研究方向。

3 總結(jié)和展望

網(wǎng)絡(luò)空間中，虛假信息的制造和檢測將構(gòu)成貫穿網(wǎng)絡(luò)全生命周期的永遠的博弈。虛假信息檢測問題的研究，不僅是技術(shù)問題，也是法律、宣傳、教育、認知等各方面的問題，需要國家、企業(yè)、教育、民眾等各級機構(gòu)和所有大眾的深度參與和認真覺悟。深度學(xué)習(xí)、知識圖譜、認知心理等科學(xué)技術(shù)將會深度融合，在技術(shù)方面發(fā)揮出重要的支撐作用。