關(guān)菁華 劉鑫 刁建華
摘 要:近年來,隨著智能移動(dòng)設(shè)備的普及,人們可以隨時(shí)隨地通過網(wǎng)絡(luò)社交媒體獲取與分享信息。然而,便捷的上網(wǎng)方式以及自由的網(wǎng)絡(luò)空間,也為網(wǎng)絡(luò)謠言的產(chǎn)生與傳播提供了條件,廣泛傳播的謠言可能具有極大的破壞性。因此,及時(shí)識(shí)別謠言對于保障社會(huì)穩(wěn)定具有重要意義。使用詞嵌入對微博短文本進(jìn)行向量化處理,然后使用樸素貝葉斯、K最近鄰和支持向量機(jī)對文本向量進(jìn)行主題分類,以期及時(shí)發(fā)現(xiàn)具有周期性出現(xiàn)特點(diǎn)的謠言。將該模型在中文謠言真實(shí)數(shù)據(jù)集上進(jìn)行有效性驗(yàn)證,使用5 487條數(shù)據(jù)作為訓(xùn)練集,2 703條數(shù)據(jù)作為測試集進(jìn)行分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,K最近鄰模型相比于樸素貝葉斯模型及支持向量機(jī)模型,在謠言主題分類任務(wù)中表現(xiàn)最佳,其F1值和分類準(zhǔn)確率都達(dá)到0.93,表明基于詞嵌入的謠言主題分類方法可及時(shí)發(fā)現(xiàn)周期性謠言。
關(guān)鍵詞:微博謠言;詞嵌入;主題分類;文本向量
DOI:10. 11907/rjdk. 191169
中圖分類號:TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號:1672-7800(2019)004-0001-03
0 引言
謠言是一種自發(fā)性、擴(kuò)張性的社會(huì)心理現(xiàn)象,至今尚沒有一個(gè)公認(rèn)的定義[1]。本文采用我國《現(xiàn)代漢語詞典》對謠言的定義,謠言即沒有事實(shí)根據(jù)的消息。
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2018年8月發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2018年6月,中國網(wǎng)民規(guī)模達(dá)8.02億,互聯(lián)網(wǎng)普及率達(dá)到57.7%。網(wǎng)民中使用手機(jī)上網(wǎng)人群占比達(dá)到98.3%,且網(wǎng)民上網(wǎng)設(shè)備進(jìn)一步向移動(dòng)端集中。迅速增長的網(wǎng)民規(guī)模、方便快捷的上網(wǎng)方式,為網(wǎng)絡(luò)謠言的產(chǎn)生與傳播提供了條件。廣泛傳播的謠言可能具有極大的破壞性,如:2011年郭美美事件爆發(fā)后,謠言四起,在網(wǎng)絡(luò)上不斷發(fā)酵,自事件發(fā)生后,社會(huì)捐款數(shù)額以及慈善組織捐贈(zèng)數(shù)額均出現(xiàn)銳減。根據(jù)民政部統(tǒng)計(jì)數(shù)據(jù)顯示,全國2011年7月社會(huì)捐款數(shù)額為5億元,與6月相比降幅超過50%。慈善組織6~8月接收的捐贈(zèng)數(shù)額降幅更是達(dá)到86.6%;2015年,有關(guān)“娃哈哈爽歪歪、AD鈣奶等飲料中含有肉毒桿菌”的謠言在微博、微信中熱傳。娃哈哈方面表示,相關(guān)謠言使娃哈哈部分產(chǎn)品當(dāng)年第一季度損失高達(dá)20億元。以上案例都說明了網(wǎng)絡(luò)謠言的巨大危害。由此可見,研究如何從每天產(chǎn)生的大量社交媒體數(shù)據(jù)中,及時(shí)發(fā)現(xiàn)并識(shí)別謠言,從而將謠言傳播扼殺在初期,降低謠言對社會(huì)的危害具有重大意義。微博作為目前最大的廣播式社交媒體,是最常用的謠言傳播平臺(tái)。如何從微博文本中提取有效語義特征并進(jìn)行謠言主題分類成為目前短文本分類研究中的熱點(diǎn)之一。因此,進(jìn)行基于內(nèi)容的謠言主題分類研究,從而自動(dòng)識(shí)別謠言主題,及時(shí)發(fā)現(xiàn)一些具有周期性特點(diǎn)的謠言,具有重要的研究意義。
目前,國內(nèi)謠言研究主要集中在謠言傳播模型構(gòu)建與仿真實(shí)驗(yàn)上。如任寧等[2]在經(jīng)典SIR謠言傳播模型基礎(chǔ)上,引入反對者角色,運(yùn)用概率生成函數(shù)方法解決了謠言傳播過程中任意時(shí)刻的傳播規(guī)模等問題;王飛雪等[3]基于經(jīng)典SIR傳播模型,引入謠言在不同節(jié)點(diǎn)之間的傳播概率,并分析了不同節(jié)點(diǎn)對傳播概率的影響,建立社交網(wǎng)絡(luò)中考慮網(wǎng)絡(luò)節(jié)點(diǎn)自身影響的謠言傳播模型;王雨嘉等[4]也基于經(jīng)典SIR謠言傳播模型,引入觀望者與辟謠者角色,并將移出者分為中立者、相信謠言者與得知真相者3類,構(gòu)建一個(gè)改進(jìn)的WT-SIR*謠言傳播模型;劉雅輝等[5]指出謠言內(nèi)容、發(fā)布用戶及其傳播過程是識(shí)別謠言與非謠言的關(guān)鍵要素;張仰森等[6]利用SVM構(gòu)建一個(gè)基于評論異常度的謠言識(shí)別模型。以上文獻(xiàn)多從經(jīng)典SIR謠言傳播模型出發(fā)進(jìn)行模型改進(jìn)與仿真實(shí)驗(yàn),而從網(wǎng)絡(luò)謠言自動(dòng)主題分類角度進(jìn)行的研究較少,但謠言的自動(dòng)主題分類對周期性謠言的自動(dòng)識(shí)別具有重要意義。
謠言主題分類問題可看作文本的多分類問題加以解決?;跈C(jī)器學(xué)習(xí)的文本主題分類方法包括樸素貝葉斯(NB)、K最近鄰(KNN)、決策樹、支持向量機(jī)(SVM)等。丁晟春等[7]借助本體將領(lǐng)域知識(shí)及領(lǐng)域文本特征融入分類過程,使用加權(quán)樸素貝葉斯模型對網(wǎng)絡(luò)信息進(jìn)行主題分類;賈隆嘉等[8]提出將特征由基于詞的表示轉(zhuǎn)換為基于類別的表示,然后采用支持向量機(jī)進(jìn)行高校新浪微博主題分類;程元堃[9]提出基于詞向量的網(wǎng)頁分類模型與基于URL+關(guān)鍵詞的網(wǎng)頁分類模型,并使用樸素貝葉斯算法模型解決對未知網(wǎng)頁的分類問題;黎巎等[10]使用LDA(Latent Dirichlet Allocation)主題發(fā)現(xiàn)模型對游客評論進(jìn)行主題分析與情感傾向分析;胡朝舉等[11]利用LDA模型得到文檔主題分布,然后使用主題詞對原始文本進(jìn)行特征擴(kuò)充,最后利用SVM分類模型進(jìn)行分類;宗乾進(jìn)等[12]通過隱含狄利克雷分布對生成與舉報(bào)的謠言內(nèi)容進(jìn)行主題分類;姜贏等[13]采用文本句式特征分析方法進(jìn)行謠言識(shí)別。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,已成功應(yīng)用于圖像識(shí)別[14]、語音識(shí)別[15]等領(lǐng)域,目前越來越多研究者開始嘗試?yán)蒙疃葘W(xué)習(xí)技術(shù)解決自然語言處理領(lǐng)域的各類問題,也取得了一定效果。如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與長短時(shí)記憶網(wǎng)絡(luò)等深度模型即被應(yīng)用于句子分類[16]、情感分類[17]與文本分類[18]等問題中。
以上方法中,基于機(jī)器學(xué)習(xí)的文本分類方法需要研究人員根據(jù)經(jīng)驗(yàn),事先篩選好用于分類的特征,即分類效果與特征選擇緊密相關(guān),但該方法前期需要大量人工參與,不適用于目前多變、海量的數(shù)據(jù)。基于深度學(xué)習(xí)技術(shù)構(gòu)建的模型具有不可解釋性,且在模型訓(xùn)練過程中對運(yùn)行系統(tǒng)硬件要求較高,訓(xùn)練時(shí)間也很長,在自然語言處理領(lǐng)域,分類效果與傳統(tǒng)方法相近。
因此,本文從微博內(nèi)容本身特點(diǎn)出發(fā),綜合考慮方法的時(shí)效性,使用具有語義信息的詞嵌入表示微博文本向量,且選擇經(jīng)典的NB、KNN和SVM作為分類模型,進(jìn)行微博謠言主題分類研究,并提出一種基于詞嵌入的謠言主題分類模型。實(shí)驗(yàn)結(jié)果表明,該方法能有效地對微博謠言進(jìn)行主題分類,且準(zhǔn)確率和 F1 值較高,都達(dá)到了0.93。
1 主題分類模型
1.1 基于詞嵌入的微博文本表示
傳統(tǒng)文本表示方法是對一段文本信息先進(jìn)行分詞,使用一個(gè)與詞典維度相當(dāng)?shù)南蛄勘硎疽粭l文本信息,用1表示在文檔中有該詞出現(xiàn),0表示不出現(xiàn)。但該表示方法丟失了詞語間的語義關(guān)系,且文本的向量表示很稀疏,增加了訓(xùn)練難度。本文使用壓縮的詞嵌入存儲(chǔ)方式,每一個(gè)詞語、段落或篇章都可以使用一個(gè)比較低維、具有語義信息的向量進(jìn)行表示,從而有利于機(jī)器對人類語言的語義表達(dá)與理解,且有利于算法實(shí)現(xiàn)。
文本常見的向量化表示方法包括對一段文本包含的所有詞向量求平均值、對詞向量聚類以及doc2vec模型[19]。本文從微博屬于短文本的特點(diǎn)出發(fā),選擇簡單求和、求平均的方法,采用公式(1)進(jìn)行文本向量計(jì)算。
1.2 基于詞嵌入的微博謠言主題分類模型
本文以中文Wiki百科作為背景語料庫,首先使用MIKOLOV等[20]提出的word2vec工具進(jìn)行中文詞向量學(xué)習(xí),為微博短文本向量生成作準(zhǔn)備;然后對微博謠言文本進(jìn)行分詞、去停用詞等預(yù)處理操作;接著使用公式(1)構(gòu)建每條微博的文本向量;最后分別使用NB、KNN和SVM作為分類模型,進(jìn)行謠言的主題分類研究,具體模型如圖1所示。
2 實(shí)驗(yàn)結(jié)果
2.1 數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)為劉知遠(yuǎn)等[1]給出的微博謠言數(shù)據(jù),其將謠言主題分為5個(gè)類別:政治、經(jīng)濟(jì)、欺詐、社會(huì)生活與常識(shí)類,總共8 190條微博,數(shù)據(jù)詳細(xì)信息如表1所示。為便于進(jìn)行分類模型的實(shí)驗(yàn)比較,本文隨機(jī)抽取原始數(shù)據(jù)中的?? 2/3作為訓(xùn)練集,構(gòu)建分類模型,其余1/3數(shù)據(jù)作為測試集,測試模型的分類性能。
2.2 數(shù)據(jù)預(yù)處理
由于微博中存在繁體文字,因此首先使用OpenCC工具將微博中的中文繁體轉(zhuǎn)為中文簡體,然后采用中科院分詞工具NLPIR對微博進(jìn)行分詞,并結(jié)合哈工大停用詞表和百度停用詞表,將部分詞從中移除,以提高主題分類性能。
2.3 微博文本向量計(jì)算
由于微博屬于短文本,大部分微博長度都不會(huì)超過140詞限制,且本文使用的數(shù)據(jù)均屬于短文本范疇,因此采用文本詞向量加權(quán)平均方法計(jì)算微博文本向量。詞向量維度根據(jù)經(jīng)驗(yàn)選擇200維,經(jīng)過計(jì)算后微博文本向量維度也是200維。詞向量使用Wiki中國作為語料庫,計(jì)算結(jié)果作為詞向量。
2.4 實(shí)驗(yàn)結(jié)果
使用NB、KNN與SVM進(jìn)行分類建模,比較3種模型在微博文本向量作為特征的情況下,微博謠言主題分類的準(zhǔn)確率,如表2所示。從表中可見,KNN模型在該謠言數(shù)據(jù)集上獲得了最好的分類準(zhǔn)確率0.93,遠(yuǎn)高于NB模型的0.79,比SVM也高了3個(gè)百分點(diǎn),因此KNN與SVM模型在該謠言數(shù)據(jù)集主題分類方面是比較有效的。
不同主題下各分類模型的F1分?jǐn)?shù)如圖2所示,在經(jīng)濟(jì)與欺詐類主題下,KNN和SVM都取得了相同的F1-score,在常識(shí)、政治與社會(huì)生活類主題下,3種分類模型的F1-score都低于經(jīng)濟(jì)與欺詐類主題下的F1-score,即常識(shí)、政治與社會(huì)生活類主題比較容易混淆。
KNN模型混淆矩陣如表3所示,從表中可以發(fā)現(xiàn),該模型將社會(huì)生活類謠言錯(cuò)分成政治類的有43個(gè),占實(shí)際社會(huì)生活類謠言總數(shù)的4.99%,將政治類錯(cuò)分為社會(huì)生活類的有33個(gè),占實(shí)際政治類謠言總數(shù)的4.60%。以上兩種類別不太容易區(qū)分,以后可考慮進(jìn)一步提取特征,以提高模型在該類別上的分類準(zhǔn)確率,進(jìn)而提高模型的整體主題分類性能。
4 結(jié)語
本文以新浪微博謠言數(shù)據(jù)作為分析對象,使用詞嵌入方式表示微博文本特征,進(jìn)行微博謠言數(shù)據(jù)的主題分類。謠言主題可分為經(jīng)濟(jì)類、常識(shí)類、政治類、社會(huì)生活類與欺詐類。本文選擇NB模型、KNN模型及SVM模型作為分類模型,對微博謠言數(shù)據(jù)集進(jìn)行主題分類。由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),KNN模型在謠言主題分類中表現(xiàn)出最好的分類性能,其F1值和分類準(zhǔn)確率都達(dá)到0.93。通過對KNN模型的混淆矩陣進(jìn)行分析,發(fā)現(xiàn)社會(huì)生活類與政治類謠言最不易區(qū)分,因此未來工作需要進(jìn)一步尋找特征,以提高模型在以上兩個(gè)主題類別上的分類準(zhǔn)確率,進(jìn)而提高模型整體的主題分類性能。
參考文獻(xiàn):
[1] 劉知遠(yuǎn),張樂,涂存超,等. 中文社交媒體謠言統(tǒng)計(jì)語義分析[J].中國科學(xué): 信息科學(xué),2015, 45(12):1536-1546.
[2] 任寧,李金仙. 帶有反對機(jī)制的謠言傳播模型[J]. 云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2019(1):67-71.
[3] 王飛雪,李芳. 社交網(wǎng)絡(luò)中考慮不同傳播概率上的謠言傳播模型[J]. 計(jì)算機(jī)應(yīng)用研究,2019(11):1-4.
[4] 王雨嘉,侯合銀. 小世界網(wǎng)絡(luò)中基于一種改進(jìn)模型的謠言傳播研究[J/OL]. 情報(bào)雜志:1-11[2019-02-26]. http://kns.cnki.net/kcms/detail/61.1167.g3.20190222.1319.012.html.
[5] 劉雅輝,靳小龍,沈華偉,等. 社交媒體中的謠言識(shí)別研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào),2018,41(7):1536-1558.
[6] 張仰森,彭媛媛,段宇翔,等. 基于評論異常度的新浪微博謠言識(shí)別方法[J/OL]. 自動(dòng)化學(xué)報(bào):1-14[2019-02-26]. https://doi.org/10.16383/j.aas.c180444.
[7] 丁晟春,王小英,劉夢露. 基于本體和加權(quán)樸素貝葉斯的網(wǎng)絡(luò)輿情主題分類[J]. 現(xiàn)代情報(bào),2018,38(8):12-17.
[8] 賈隆嘉,張邦佐. 高校網(wǎng)絡(luò)輿情安全中主題分類方法研究——以新浪微博數(shù)據(jù)為例[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018(7):55-62.
[9] 程元堃. 基于URL+文本的網(wǎng)頁主題分類模型研究[D]. 武漢:武漢郵電科學(xué)研究院,2018.
[10] 黎巎,謝宗彥,張公鵬,等. 基于LDA的游客網(wǎng)絡(luò)評論主題分類:以故宮為例[J]. 情報(bào)工程,2017,3(3):55-63.
[11] 胡朝舉,徐永峰. 基于LDA特征擴(kuò)展的短文本分類方法研究[J]. 軟件導(dǎo)刊,2018,17(3):63-66.
[12] 宗乾進(jìn),黃子風(fēng),沈洪洲. 基于性別視角的社交媒體用戶造謠傳謠和舉報(bào)謠言行為研究[J]. 現(xiàn)代情報(bào),2017,37(7):25-29,34.
[13] 姜贏,張婧,朱玲萱,等. 網(wǎng)絡(luò)謠言文本句式特征分析與監(jiān)測系統(tǒng)[J]. 電子設(shè)計(jì)工程,2017,25(23):7-10,15.
[14] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Comput Science, 2012,3: 212-223.
[15] GRAVES A, MOHAMED A, HINTON G. Speech recognition with deep recurrent neural networks[C]. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, Vancouver, 2013:6645-6649.
[16] KIM Y. Convolutional neural networks for sentence classification[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing, Doha, 2014:1746-1751.
[17] CHEN H M, SUN M S, TU C C, et al. Neural sentiment classification with user and product attention[C]. In: Proceedings of Conference on Empirical Methods in Natural Language Processing, Austin, 2016:1650-1659.
[18] 高成亮,徐華,高凱. 結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM的中文文本分類[J]. 河北科技大學(xué)學(xué)報(bào),2018,39(5):447-454.
[19] LE Q V, MIKOLOV T. Distributed representations of sentences and documents[C]. In Proceedings of the 31st International Conference on International Conference on Machine Learning,2014.
[20] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J].? Computer Science,2013.
(責(zé)任編輯:黃 ?。?/p>