虛假新聞檢測技術的應用

2021-04-24 14:27:20

網(wǎng)絡安全技術與應用 2021年4期

（四川大學網(wǎng)絡空間安全學院四川 610065）

虛假新聞不是一個剛剛新出現(xiàn)的問題，虛假新聞現(xiàn)象已經(jīng)存在了很長一段時間。早在1835 年，《紐約太陽報》發(fā)表了一系列文章，描述了在月球上發(fā)現(xiàn)生命，被稱為“月球大騙局”[1]。然而，“虛假新聞”一詞時至今日都沒有公認的定義。因此，綜合比較了現(xiàn)有一些被廣泛使用的假新聞定義，從中選擇如下定義：虛假新聞是指有意圖的并且被證實是假的新聞文章[2]。但由于人們天生就不擅長區(qū)分真新聞和假新聞，傳統(tǒng)的虛假新聞主要是利用人們心理的弱點來攻擊他們，有兩個心理學概念可以解釋這一現(xiàn)象。

（1）樸素實在論（Naive Realism）：人們認為他們對現(xiàn)實的感知是正確的，而不同意其感知的人則被認為是不理性的或有偏見的[3]；

（2）確認偏差（Confirmation Bias）：人們更愿意接受符合他們世界觀價值觀的事[4]。

據(jù)《2019 年虛假新聞研究報告》[5]顯示：隨著傳媒環(huán)境的急劇變遷，社交媒體平臺成為人們獲取新聞信息最主要的渠道。從報紙到廣播、電視，現(xiàn)在是網(wǎng)絡新聞和社交媒體，虛假新聞的媒體生態(tài)環(huán)境已經(jīng)發(fā)生了變化，并且面臨著更加復雜的情況。社交媒體對于新聞傳播來說是一把雙刃劍。一方面，社交媒體以其易獲取、信息傳播迅速、廉價等特點，使得人們可以通過社交媒體快速獲得并傳播新聞。另一方面，社交媒體摒棄了傳統(tǒng)的新聞標準，沒有固定格式和寫作風格，海量無規(guī)則的信息數(shù)據(jù)都增加了虛假新聞監(jiān)管難度。此外，由于社交媒體中的回壁音效應和惡意賬號（比如社交機器人）泛濫，缺乏可靠的第三方對新聞進行篩選和核查，使得虛假新聞在社交媒體中的傳播速度明顯快于傳統(tǒng)媒體，這些都為“虛假新聞”的廣泛傳播創(chuàng)造了“有利”條件。毫無疑問的是，假新聞的廣泛傳播會對個人和社會產(chǎn)生極其負面的影響。因此，現(xiàn)階段社交媒體上的虛假新聞檢測成了一項備受關注的新興研究。

1 虛假新聞檢測技術的分類

傳統(tǒng)虛假新聞檢測主要依靠新聞內(nèi)容特征，而在社交媒體中，因為其與之前不同的新聞產(chǎn)生、分享、傳播的方式，所以在虛假新聞檢測階段，需要增加額外的社會語境信息作為輔助信息，來幫助檢測虛假新聞?，F(xiàn)階段根據(jù)虛假新聞檢測所需要的不同特征，將虛假新聞檢測技術主要分為三個類：基于內(nèi)容特征的虛假新聞檢測技術、基于社會語境特征的虛假新聞檢測技術和基于內(nèi)容和社會語境特征的虛假新聞檢測技術。

1.1 基于內(nèi)容特征的虛假新聞檢測技術

基于內(nèi)容特征的虛假新聞檢測技術研究的特征包括新聞來源、新聞標題、新聞正文、新聞中包含的圖像或視頻等新聞的元信息。基于社會語境特征的虛假新聞檢測技術研究的特征主要分為2 個方向：基于語言特征和基于視覺特征。通過對元信息的屬性分析，提取其中新聞正文寫作風格、新聞中圖像信息、新聞中視頻信息等特征進行虛假新聞檢測。

1.2 基于社會語境特征的虛假新聞檢測技術

基于社會語境特征的虛假新聞檢測技術研究的特征主要分為三個方向：用戶、帖子和網(wǎng)絡?；谟脩舻奶摷傩侣剻z測技術主要利用基于用戶檔案信息（用戶檔案信息包括注冊年齡、關注者/粉絲數(shù)量、用戶發(fā)表的推文數(shù)量等信息）來捕獲用戶的個人信息和特征，用于虛假新聞檢測；基于帖子的虛假新聞檢測技術主要利用人們發(fā)表的帖子來判斷用戶對虛假新聞的觀點或立場，來推斷新聞文章的真實性；基于網(wǎng)絡的虛假新聞檢測技術主要根據(jù)相關帖子在社交網(wǎng)絡中的關聯(lián)關系，提取其中的網(wǎng)絡特征來檢測虛假新聞，預測新聞可信度（基本假設是新聞的可信度與相關社交媒體帖子的可信度高度相關）

1.3 基于內(nèi)容和社會語境特征的虛假新聞檢測技術

基于內(nèi)容和社會語境特征的虛假新聞檢測技術綜合了基于內(nèi)容特征的虛假新聞檢測技術和基于社會語境特征的虛假新聞檢測技術兩類方法，將新聞的元信息和社交網(wǎng)絡中的上下文社會語境信息等多種特征進行提取與融合，來檢測虛假新聞。

2 代表性數(shù)據(jù)集

虛假新聞檢測作為一個分類問題，數(shù)據(jù)標注質量對分類器的訓練起著很重要的作用，但數(shù)據(jù)標注工作往往需要耗費大量的時間和金錢。因此，現(xiàn)有研究基本上都是基于已有的數(shù)據(jù)集進行展開的，下面對現(xiàn)有的代表性數(shù)據(jù)集及其使用場景進行簡單介紹。

2.1 BuzzFeedNews

BuzzFeedNews 數(shù)據(jù)集包含了2016 年美國大選前一周（9 月19日至23 日、9 月26 日至27 日）9 家新聞機構在Facebook 上發(fā)布的完整新聞文章。每一篇文章和相關文章都經(jīng)過了5 名BuzzFeed 記者逐條核實。數(shù)據(jù)集內(nèi)包含作者、標題、正文等屬性信息，適用于基于內(nèi)容特征的虛假新聞檢測算法。

2.2 LIAR

LIAR[6]數(shù)據(jù)集通過API 從事實核查網(wǎng)站PolitiFact 收集并整理，它包括了12836 個帶有真假標記的新聞信息，這些信息來自不同的語境場景，其中包括新聞發(fā)布、電視或電臺采訪、競選演講等。新聞標簽包含6 個類別：pants-fire、false、barely-true、half-true、mostly true 和true。數(shù)據(jù)集內(nèi)包含文本內(nèi)容、陳述人、語境、標簽等信息，適用基于內(nèi)容特征的虛假新聞檢測算法。

2.3 FakeNewsNet

FakeNewsNet 數(shù)據(jù)集[7]通過從GossipCop 和PolitiFact 收集在Twitter 上分享的文章的新聞內(nèi)容（來源、標題、正文等元信息）和背景信息（用戶檔案、關注者、粉絲等信息）。數(shù)據(jù)集內(nèi)包含標注真假新聞標簽的新聞內(nèi)容和相關的社會語境特征，適用基于內(nèi)容特征和社會語境特征結合的虛假新聞檢測算法。

2.4 CREDBANK

CREDBANK 這是一個大規(guī)模的眾包數(shù)據(jù)集，從2015 年10 月開始，覆蓋96 天，大約有6000 萬條推文。所有的推文都由30 個評論員進行可信度評估。該數(shù)據(jù)集包含新聞內(nèi)容和人工標注的真假新聞標簽，適用基于內(nèi)容特征的虛假新聞檢測算法。

3 評價指標

虛假新聞檢測問題視為一個分類問題，用來預測一篇新聞文章是否為假新聞。使用的分類方法，包括傳統(tǒng)的機器學習算法（比如邏輯回歸算法、支持向量機和隨機森林等算法）、深度學習（包括卷積和遞歸神經(jīng)網(wǎng)絡）和其他模型（矩陣分解和貝葉斯推理等模型）。為了評估假新聞檢測算法的性能，介紹了4 個基本概念（真陽性、真陰性、假陰性、假陽性）和4 個評價指標（精確率、召回率、F1、準確率如公式（1）、（2）、（3）、（4）所示），這些指標可以幫助從不同的角度評估算法分類器的性能。

（1）真陽性（True Positive，TP）：當被預測的假新聞實際上被標注為假新聞時；

（2）真陰性（True Negative，TN）：當被預測的真新聞實際上被標注為真新聞時；

（3）假陰性（False Negative，F(xiàn)N）：當被預測的真新聞實際上被標注為假新聞時；

（4）假陽性（False Positive，F(xiàn)P）：當被預測的假新聞實際上被標注為真新聞時。

在虛假新聞檢測具體問題中，準確率衡量的是預測假新聞和真實假新聞之間的相似度；召回率衡量的是虛假新聞檢測分類器的敏感性；F1 衡量的是虛假新聞檢測分類器的預測性能；精確率衡量的是所有檢測到的被標注為假新聞的假新聞的比例。

4 結束語

隨著社交媒體平臺的快速發(fā)展，越來越多的人從社交媒體中獲得新聞，社交媒體也被用來傳播假新聞，這對個人用戶和社會產(chǎn)生了的負面影響。在本文中，通過虛假新聞定義、虛假新聞檢測算法分類、代表性數(shù)據(jù)集和評價指標概述虛假新聞相關技術研究，面對現(xiàn)實生活中更加復雜的挑戰(zhàn)，虛假新聞檢測技術研究還值得繼續(xù)探索。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看