劉妙藝
江蘇省新華報業(yè)傳媒集團 江蘇 南京 210019
隨著人們在社交媒體平臺上花費的時間越來越多,他們更容易從社交媒體上消費信息。社交媒體是免費的,易于訪問,并幫助一個人表達意見,因此,它充當了一個很好的個人從社交媒體上消費信息的來源。但社交媒體上的新聞質量普遍低于傳統(tǒng)新聞機構。這是因為任何人都可以在社交媒體上傳播自己想要的信息,且沒有監(jiān)管部門對信息進行控制[1]。
現(xiàn)在存在一些新聞核查網(wǎng)站來揭露假新聞。這些網(wǎng)站在澄清假新聞方面發(fā)揮了重要作用,但它們需要專家分析,這很耗時。由于社交媒體的數(shù)量和多樣性,幾乎不可能人工標注假新聞和真新聞。同時,社交媒體中的信息傳播速度驚人,因此需要一個框架來檢測假新聞,以方便社區(qū)研究假新聞。
我們統(tǒng)計了來自微博的實時數(shù)據(jù)來進行實時新聞的檢測,我們希望從微博中收集數(shù)據(jù),因為它是中國最大的社交媒體平臺。微博擁有超過5億用戶,約有5000萬用戶是活躍用戶。
為了描述基于使用微博的實時新聞,我們使用了5W(What,Where,When,Who和Why)模型。5W模型提供了實時新聞的五個基本要素,總結如下:
(1)What。5W模型中最重要的元素是當前發(fā)生的事情。例如,如果用戶在微博中發(fā)布有關火災的消息,除了微博用戶提供的短文本外,還可以獲得圖像和短視頻等多媒體數(shù)據(jù)。例如,用戶可以在他看到火災時上傳火災的實時圖像。
(2)Where。除了檢測實時發(fā)生的事件內容外,還需要揭示實時新聞發(fā)生的位置信息。通常,人們在發(fā)布微博的同時,會標注自己所在的位置,這些位置信息可以用作定位。
(3)When。微博具有非常好的實時功能。每條微博消息都有一個時間戳,可用于揭示實時新聞的發(fā)生時間。除了發(fā)生時間,5W模型還想要顯示實時新聞的時間表。例如,在開始時事件可能處于潛在狀態(tài)。有關它的微博消息數(shù)量可能很少,只有少數(shù)人關注到它。當一些里程碑事件發(fā)生并作為頭條新聞發(fā)布在主要網(wǎng)站上時,事件可能處于爆發(fā)狀態(tài),越來越多的人在談論它。當然,最后隨著事件的發(fā)展,有關它的微博消息數(shù)量可能會再次降低[2]。
(4)Who。不同的人在實時新聞中扮演不同的角色。人作為社交傳感器可以作為實時新聞的見證,因為他們位于實時新聞的現(xiàn)場。例如,當微博用戶拍攝發(fā)生的火災事件時,他可以被視為火災的見證人。除了見證人之外,有些人還是實時新聞的參與者。例如,一個人可能會成為搶劫事件的嫌疑人。5W模型想要挖掘提供實時新聞的見證和參與者。
(5)Why。由于實時新聞潛在的巨大影響,收集事發(fā)的原因是很重要的。用戶上傳的消息可以揭示實時新聞的原因。例如,微博用戶可能會發(fā)布消息“我看到一輛車闖紅燈撞到人了”。用戶作為證人或參與者發(fā)布的信息可用于調查實時新聞的潛在原因。
在獲取了實時新聞的5W信息之后,我們會匯集對應的新聞文本,我們利用新聞內容的語言學特征和社會語境的特征來尋找假新聞和真新聞的線索。為了在我們的分類中使用新聞內容,我們使用自動編碼器在低維度的潛在特征空間中學習新聞內容。
社交參與可能是假新聞檢測任務的另一個主要特征。社交語境提供了關于用戶如何與假新聞和真新聞互動的寶貴信息。用戶在社交媒體上的互動會隨著時間的推移而變化。為了捕捉用戶與假新聞的時間互動,我們使用了遞歸神經網(wǎng)絡(RNN)。像微博這樣的社交約定和他們的回復在給網(wǎng)絡之前,由嵌入層以一定的格式嵌入。RNN的輸出被認為是分類的社會背景特征,在我們的實驗中使用了長短期記憶(LSTM),因為它解決了長范圍依賴性和消失梯度問題[3]。
我們使用社交文章融合模型將自動編碼器和社交上下文遞歸神經網(wǎng)絡產生的特征結合起來,將特征學習和分類任務一起訓練,使學習的特征是相對于檢測任務而言的,而不是捕捉普通的語言差異和社會交往,為了避免過擬合,我們對并列特征進行正則化優(yōu)化。
在獲取數(shù)據(jù)之后,我們通過多個界面來可視化數(shù)據(jù)。為了識別真新聞和假新聞在新聞內容上的差異,我們使用了文字數(shù)據(jù)的詞云表示,可以搜索出一個時間段內的假新聞,并識別出相關數(shù)據(jù)。另外,我們還提供了特征顯著性和模型性能的比較,作為這個儀表盤的一部分。
對于特定的地理定位,我們可以識別假新聞是如何在某些特定地區(qū)傳播的,因為收集到的某些新聞內容存在著地域性特征。使用基于用戶的網(wǎng)絡我們可以將社交網(wǎng)絡可視化,以確定與假新聞和真實新聞互動的用戶之間的差異。通過這些可視化,我們看到了社交網(wǎng)絡和地理位置等用戶特征之間的差異。