張敏
(陜西藝術職業(yè)學院,影視傳媒學院,陜西, 西安 710054)
社交媒體是一個能夠分享用戶生成的內容、信息、想法和表達方式的平臺,訪問容易,成本低廉,傳播速度快。如今,它已成為最容易、最及時、最優(yōu)秀的新聞消費來源。由于社會化媒體上沒有管理機構[1],它使得低質量的新聞,甚至是假新聞傳播得比真實新聞要快。與傳統(tǒng)的新聞來源相比,帶有圖像和視頻的新聞吸引了讀者的注意力,成為一條更強有力的故事線。無論是互聯(lián)網還是科技的合作,都在各個方面降低了難度,但另外,社交媒體也給錯誤信息帶來了根源。人的內在傾向導致了人們更容易相信虛假信息,這就造成了虛假新聞。本文設計了一個高效的神經網絡來檢測假新聞,該方法使用三維張量向量傳遞輸入數(shù)據。在這個張量中,新聞和用戶之間的互動被吸引,并與用戶社區(qū)信息連接在一起。這種三維張量可以被認為是知識數(shù)據,并在處理多關系數(shù)據時在網絡中使用[2-3]。隨后,使用張量分解的方法,基于新聞內容和社會背景特征進行分析,最終對新聞的真假進行了判斷。
計數(shù)矩陣描述新聞文章的文本內容,用N表示,維數(shù)為n×v,其中n是新聞文章的總數(shù),v是詞匯表中的單詞數(shù)。
參與矩陣用U表示,維數(shù)為n×u,其中n是新聞文章的總數(shù),u是社交媒體上的用戶數(shù)。
利用clauset-newman-moore算法從用戶網絡中提取重要的關系,這是一種有效的計算方法[4]。由C表示的用戶社區(qū)矩陣,其維數(shù)為u×c,其中u是給定社交網絡中的用戶數(shù),c是已識別社區(qū)數(shù)。
張量的形成如式(1)[5]所示:
Tijk=Uij×Cjk
(1)
其中,i代表矩陣U、C的第i行,j、k分別代表矩陣U、C的第j和k列。
矩陣化操作將張量重新排序為矩陣[3]。一個i型張量T可以表示為T∈RI1×I2×…×Ii。張量T的i型矩陣化可由式(2)得到,
(2)
矩陣X1是張量的模1矩陣化,其維數(shù)為n×(u×c)。
耦合矩陣張量分解(CMTF)如文獻[5-7]所示。這種技術解決了優(yōu)化目標,目標如式(3)所述,
(3)
式中,T是新聞、用戶和社區(qū)信息的張量,T1、T2、T3表示對矩陣T1、T2和T3的Kruskal運算,矩陣N是新聞內容矩陣,N1和N2是N的非負矩陣分解(NMF)[8]。重寫式(3),如式(4)所示:
(4)
可以利用分量f1和f2的計算梯度來解決優(yōu)化問題。梯度的計算用式(5)~式(7)表示:
(5)
(6)
(7)
其中,
Z=T1,T2,T3
(8)
Z1=T1(T3⊙T2)T
(9)
Z2=T2(T3⊙T1)T
(10)
Z3=T3(T2⊙T1)T
(11)
T-i=TI⊙…Ti+1⊙Ti-1⊙…⊙T1
(12)
式中,符號⊙表示Khatri Rao積[9],Xi是張量T的i型矩陣化。最終的梯度矩陣是由關于因子矩陣的向量化偏導數(shù)串聯(lián)而成的,如式(13):
(13)
人工神經網絡(ANN):為分類任務設計了一個人工神經網絡。在這個網絡中,使用了4個隱藏層,它們具有不同數(shù)量的過濾器和丟失值,提出的系統(tǒng)采用內容和上下文特征相結合的方法,將測試樣本分為2類:假類和真類。
深度混合神經網絡(DeepNet):設計了一種具有7個隱層和LSTM層的深度混合神經網絡。為了更好地提取特征,設計了具有不同核尺寸卷積層的神經網絡,提出的模型在2個數(shù)據集上都提供了最新的結果。
特征提?。簭腂uzzFeed新聞網站中,獲取數(shù)據集,經過clauset-newman-moore算法在提出的數(shù)據集中得到的社區(qū)數(shù)是81。在提出的模型中,利用這些社團形成了一個張量。從表1可以看出,數(shù)據集中的新聞文章數(shù)是182篇,用戶總數(shù)是15 257。將所有的輸入矩陣作為分類特征進行降維??梢栽诒?觀察輸入向量的整體維數(shù)。
表1 使用BuzzFeed的特征尺寸
特征提取:Fakeddit是一個新的數(shù)據集,由來自不同分類的假新聞,大約80萬個例子組成。以該數(shù)據集為例,經過clauset-newman-moore算法得到的社區(qū)數(shù)是122。在提出的模型中,利用這些社團形成了一個張量,新聞文章總數(shù)1 063 106篇,用戶總數(shù)358 504人。表2給出了作為分類任務輸入特征的所有矩陣的維數(shù)。
表2 使用Fakeddit的特征尺寸
人工神經網絡(ANN):實現(xiàn)了一個具有4個密集隱層的ANN,分別設計了512、256、128和64個隱層節(jié)點。這里使用了弱ReLU作為激活函數(shù),對隱藏層設置為a=0.001,對于輸出層使用Softmax。在這些系統(tǒng)中,輸入權重從正態(tài)分布初始化,使用Adam作為優(yōu)化器對設計的神經網絡進行了20個階段的優(yōu)化。這里采用了Dropout作為正則化方法,從而避免過擬合。
深度混合神經網絡(DeepNet):設計了一個包含7個隱藏層的DeepNet,其隱藏節(jié)點個數(shù)分別為1 024、512、256、128、64、32和2。在這個系統(tǒng)中,采用ReLU作為激活函數(shù),a=0.01,用Softmax函數(shù)作為最終輸出層。在該網絡中,輸入權重由規(guī)則模式初始化,并利用Adam作為優(yōu)化算法對設計的DeepNet進行縮放。然后使用了一個Dropout作為正則化方法是用來繞過過擬合。
本文提出DeepNet的體系結構:圖1顯示了Deep神經網絡的分層體系結構。在提出的架構中,第一層是一個嵌入層,它接受長度為32的1 000字索引向量的輸入,然后是一個卷積層,它執(zhí)行基于矩陣乘法的操作。第一個卷積層由內核大小為3組成,然后是最大池;第二個卷積層由內核大小為4組成,然后是最大池;第三個卷積層包含內核大小為5,然后是最大池。架構中的下一層是LSTM層,用于處理順序數(shù)據的性質。然后考慮了提出的神經網絡中的7個密集層。第一個密集層有1 024個節(jié)點,其衰減值為0.25;第二個隱藏層有512個節(jié)點,其“Dropout”值為0.25;第三個隱藏層有256個節(jié)點和0.25的衰減值,依此類推。使用ReLU(校正線性單元)作為激活函數(shù)。ReLU的公式可以定義為
圖1 提出的模型
σ=max(0,z)
(14)
由于Adam實現(xiàn)簡單,計算高效,對內存需求少,參數(shù)的更新不受梯度的伸縮變換影響,并且適用于梯度稀疏或梯度存在很大噪聲的問題,因此在提出的網絡中,將Adam作為優(yōu)化器。
下面介紹了檢測假新聞的有效分類方法。
(1) 將新聞內容和社會語境特征與人工神經網絡相結合:將新聞內容和社會語境特征相結合,利用人工神經網絡進行分類,并將結果與現(xiàn)有的基準進行比較。
(2) 新聞內容與社會語境+深網:結合新聞內容與社會語境的特征,采用深網進行更準確的結果分析,并將結果與現(xiàn)有方法進行了比較。
Fakeddit: Fakeddit 來自假新聞+Reddit。每個示例都由2路、3路和5路特征化類進行標記。
BuzzFeed:使用提出的方法對FakeNews-Net數(shù)據集中的BuzzFeed數(shù)據集進行了實驗。在數(shù)據集中,存在以下信息。
包含真假新聞:包括新聞ID、標題、文本、URL、作者、來源等屬性的新聞文章。
包含新聞用戶參與:在數(shù)據集中,它指定一個數(shù)字,用于描述用戶在社交媒體上共享新聞文章的次數(shù)。
包含用戶連接:定義用戶網絡。
FakeNews-Net數(shù)據集的簡要描述見表3。
表3 FakeNews-Net數(shù)據集說明
BuzzFeed和Fakeddit的分類結果列于表4和表5。
表5 Fakeddit分類結果
為了驗證提出的模型的性能,使用了精確度、召回率、F1-分數(shù)和準確度作為評價參數(shù)。表4顯示,通過使用Deep-Net作為提出的分類模型,將新聞內容與基于社會背景的特征進行整合,可以得到更準確的結果。給出了簡單神經網絡和交叉熵損失曲線的精度,并給出訓練樣本和用于分析的時期數(shù)。提出的模型中(DeepNet),精度和交叉熵損失與訓練樣本已經存在。為了驗證新聞內容組合(包括圖2所示的新聞文章的社會背景)的分類性能,對年代數(shù)做了相同的對比(圖3)。從曲線上可以看出,該模型對基于內容和上下文的數(shù)據具有較高的準確率,達到95.20%。
圖3 基于內容和上下文特征的DeepNet的準確度和交叉熵損失
表4 使用BuzzFeed的分類結果
圖2 利用基于內容和上下文的特征相結合的ANN的準確度和交叉熵損失
建議的方法勝過現(xiàn)有的假新聞檢測基準,因為它檢查了內容屬性的組合以及用戶與特定新聞文章的通信。使用了2個真實世界的假新聞數(shù)據集:BuzzFeed和Fakeddit。在這種方法中,新聞文章的社會關系被用作從表示新聞用戶參與度和用戶連接的張量中提取的隱藏特征。在此基礎上,提出了一種耦合矩陣張量因子分解方法來捕獲新聞用戶組內部的相關關系。它提供了具有社會聯(lián)系的新聞文章的整體表現(xiàn),有助于提高假新聞檢測的性能。
本文介紹了提出的深層神經網絡的分類性能。在提出的模型中既使用了新聞文章的內容,也使用了基于社會背景的特征。一種耦合張量因子分解,用于獲得新聞文章的基本表示,使用真實世界的假新聞數(shù)據集驗證了提出的模型的性能。分類結果表明,提出的方法具有較高的F1分數(shù),并且將內容和上下文特征相結合可以得到更準確的分類結果。