王文韜 張士豹
摘 ?要:近年來網(wǎng)絡社交平臺興起,大眾傾向于在網(wǎng)上發(fā)表日常生活的感受,通過對這些文本的分析可以挖掘出人們的情感信息。文章基于新冠疫情暴發(fā)初期新浪微博有關新冠話題的評論數(shù)據(jù),通過結合情感詞典和支持向量機的方法構建情感分類模型,接著通過情感時序分析和LDA主題模型綜合探討疫情期間微博網(wǎng)民的情感走勢與特征。經(jīng)實驗分析,網(wǎng)民在新冠疫情期間的情感以積極情感為主,體現(xiàn)了大眾對于戰(zhàn)勝疫情有著相當充足的信心。
關鍵詞:新冠疫情;情感詞典;支持向量機;情感時序分析;LDA
中圖分類號:TP391.1;TP181 ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)24-0024-05
Abstract: In recent years, with the rise of network social platforms, the public tends to publish their feelings in daily life on the Internet. Through the analysis of these texts, peoples emotional information can be mined. Based on the data of comments on the topic of COVID-19 on Sina micro-blog in the early stage of COVID-19 epidemic outbreak, this paper constructs an emotion classification model by combining emotion dictionary and Supports Vector Machine. Then, the emotion temporal sequence analysis and LDA (Latent Dirichlet Allocation) theme model are used to comprehensively explore the emotional trend and characteristics of micro-blog netizens during the epidemic period. According to the experimental analysis, the emotions of netizens during the COVID-19 epidemic period are mainly positive emotions, which shows that the public has sufficient confidence in overcoming the epidemic.
Keywords: COVID-19 epidemic; emotion dictionary; Support Vector Machine; emotion temporal sequence analysis; LDA
0 ?引 ?言
近些年來,社交媒體如微博、知乎等憑借著實時互動,多元化的特點已然成了傳播時事,網(wǎng)民表達自己情感的重要渠道[1]。微博的開放環(huán)境為網(wǎng)絡輿論的自由化提供了便利,人們隨時隨地便能在微博發(fā)表自己的想法。文本是用于情感分析的典型數(shù)據(jù)集,通過使用數(shù)據(jù)挖掘技術我們能夠得到文本中所蘊含的情感傾向,而通過對微博文本數(shù)據(jù)的挖掘,我們更能從中了解整個社會群體的情感,分析影響這些群體情感起伏的因素。
新冠疫情在這兩年斷斷續(xù)續(xù),始終是網(wǎng)民討論的重要話題。尤其在2020年1月1日至2月18日這段時間,新冠疫情初步席卷全球,全球社交平臺的討論此起彼伏,讓其成了2020年最具影響力的一次熱點事件[2]。通過對疫情期間的網(wǎng)民評論數(shù)據(jù)進行分析,能夠挖掘出這期間網(wǎng)民的情感變化趨勢及主要影響他們情感的相應因素??偟膩碚f,通過對互聯(lián)網(wǎng)熱點事件的實時分析,我們能夠即時掌控和把握網(wǎng)民的情感傾向,從而能夠為有關部門促進社會和諧穩(wěn)定提供應對方向。
本文首先通過情感詞典標注微博文本數(shù)據(jù)的情感傾向,接著以支持向量機(SVM)構建情感分類模型,并以情感時序分析的方法探究網(wǎng)民情感發(fā)展趨勢,最后通過LDA(Latent Dirichlet Allocation)主題模型分析了不同情感態(tài)度下的特征,為輿情治理提供一定參考。
1 ?情感分析方法
網(wǎng)民的情感分析是一種對文本的情感傾向分析方法,通過對語句的提煉,可以分析出語句背后人們的主觀態(tài)度和情感傾向?,F(xiàn)如今情感分析方法被廣泛應用在社交平臺和電商平臺的評論數(shù)據(jù)當中,大多是為了對這些評論進行挖掘,分析出這些評論的觀點信息和情感極性。目前在相關研究領域當中,情感分析主要使用機器學習,深度學習或者情感詞典的方法。
1.1 ?基于機器學習的情感分析
Pang[3]等運用多種機器學習方法,如樸素貝葉斯,支持向量機等,對電影評論數(shù)據(jù)進行了情感分類,證明了機器學習作為文本情感分析的可行性。Liu L[4]等通過SVM(Support Vector Machine),樸素貝葉斯和隨機森林對微博用戶的評論立場作出了識別。Xue[5]等用LDA主題模型來實現(xiàn)了對2 200萬條Twitter信息中新冠肺炎相關的突出主題及情感的識別。
1.2 ?基于深度學習的情感分析
Milagros[6]等提出了一種新的深度學習算法,該算法結合了依存語句,且對文本的情感分析效果較好。梁軍[7]等使用遞歸神經(jīng)網(wǎng)絡實現(xiàn)了對COAE2014微博數(shù)據(jù)集的情感分析,且準確率接近于許多手工標注特征的傳統(tǒng)算法。梁斌[8]等提出了基于多注意力機制的卷積神經(jīng)網(wǎng)絡,且其分類效果比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡效果好。
1.3 ?基于情感詞典的情感分析
情感詞典是對現(xiàn)有各種文本語言中各種情感詞的歸納,通過對情感詞典與待分析的文本進行比對,找出其中重疊的情感詞,從而可以確定該文本表露的情感。Cynthia[9]對情感詞典的研究較早,其通過對情感詞典不斷完善,使其將現(xiàn)有語言和情感詞典相匹配。栗雨晴[10]等提出了一種基于中英文雙語的情感詞典,通過雙語情感詞典的構建解決了當微博評論英文字符比重增加,導致分類效果下降的問題。Mohammed[11]等通過結合當前可用的英語詞匯和來自目標語言的未標注語料庫構建非英語情感詞典,且證實了能夠顯著提升非英語情感分類性能。
2 ?研究方法
2.1 ?基于情感詞典的文本情感分類
2.2 ?基于SVM的文本情感分類
情感詞典文本分類方法對情感詞典的依賴性極高,不同情感詞典對同一文本的分類效果也不同,甚至可能極性相反,因此需要選取較為準確的情感詞典。首先通過對待分類文本分詞去停用詞等預處理后,再對處理后的語句中的詞與所選擇的情感詞典的情感詞一一比對,根據(jù)比對后的正向情感詞與負向情感詞作差后的結果正負判斷該文本是屬于積極文本還是消極文本,是0則是中性文本,其中具體的步驟如下:
(1)選取情感詞典;
(2)對待分類文本預處理,包括分詞,去停用詞等;
(3)將預處理后的文本與情感詞典比對,計算文本的情感極性,如果為正數(shù),為積極文本,如果為負數(shù)為消極文本,如果為0,則是中性文本;
(4)采用評估指標對文本的情感分類極性結果進行評估。
支持向量機目前在文本情感分類上運用較多,該方法采用監(jiān)督學習方式對二分類問題進行建模。主要解決線性可分和線性不可分的情況,當線性可分時,則通過尋找一個最優(yōu)超平面把樣本分隔開,線性不可分時,則使用核函數(shù)將其轉化為線性可分,通常使用多項式核,徑向基函數(shù)核,拉普拉斯核和Sigmoid核。而以上的最優(yōu)超平面則稱作最大間隔超平面,這個平面到兩邊最近數(shù)據(jù)點的距離都是最大的,此時SVM問題轉化為一個凸二次規(guī)劃問題的求解。其原理圖如圖1所示。
支持向量機模型的基本思想即求兩類樣本的最大幾何間隔,即H1到H和H2到H的距離,而H就是通過不斷地訓練計算而求出用于分類的超平面(在二維空間中即一條直線),位于H1和H2上的圓形和正方形即支持向量集。最大化幾何間隔可以使算法的誤差上界最小,從而提高分類器的效果和泛化能力。
2.3 ?基于情感詞典和SVM的文本情感分類
本文通過采用情感詞典的方法標注微博文本數(shù)據(jù)來使得SVM模型訓練更加準確,從而提高整體的情感詞典-SVM分類模型的精度。首先對數(shù)據(jù)進行預處理,具體包括數(shù)據(jù)清洗,并對清洗后的數(shù)據(jù)分詞,去停用詞。再通過情感詞典的方法得出各個句子的情感得分,對以上得出的結果中,令情感得分正的為積極文本,情感得分負的為消極文本,情感得分為0的為中性文本。選取其中正負得分較為高的積極和消極文本作為數(shù)據(jù)集進一步進行分類模型訓練,通過機器學習SVM算法對此模型做驗證分析,具體流程圖如圖2所示。
而在得到情感分類模型后,本文通過情感時序分析和LDA主題模型分別分析了網(wǎng)民情感變化趨勢和特征。通過對情感詞典得到的每日微博評論的情感得分做日平均,畫出情感得分隨時間變化的曲線,并與每日新增感染人數(shù)作對比,以此分析新冠疫情期間網(wǎng)民的情感變化趨勢。而對選取的積極和消極文本進行LDA主題模型分析,可以得到不同態(tài)度的網(wǎng)民群體的情感特征。
3 ?實驗與結果分析
3.1 ?數(shù)據(jù)獲取
本實驗選取了在2020年舉辦的疫情期間網(wǎng)民情緒識別比賽的10萬條數(shù)據(jù),此次比賽數(shù)據(jù)集是依據(jù)于“新冠肺炎”相關的230個主題關鍵詞進行數(shù)據(jù)采集,抓取從2020年1月1日到2020年2月18日期間的微博評論數(shù)據(jù),這段時間是新冠疫情從被網(wǎng)民開始關注到疫情逐步得到緩解,大部分地區(qū)開始復工,能夠代表公眾在此期間的情感傾向和觀點態(tài)度,具有較高的輿論研究價值。表1為數(shù)據(jù)統(tǒng)計表。
3.2 ?基于情感詞典和SVM的情感分類模型構建
在通過情感詞典對微博評論初步標注計算情感得分之后,我們選取正負極性較高的積極的和消極的評論數(shù)據(jù)各1萬條。在本次實驗中,將對這些已經(jīng)通過情感詞典篩選的數(shù)據(jù)集的80%隨機抽取作為訓練集,剩下的20%作為測試集,確定模型的精確度和誤差。再通過Word2Vec詞向量模型將文本語料轉換為詞向量,取詞向量維度為100維,再通過調用sklearn 中svm 包,采用RBF核函數(shù)( kernel=‘rbf,懲罰系數(shù)C=2,gamma=0. 1),訓練降維后數(shù)據(jù),作出ROC曲線如圖3所示,得到此分類模型準確率達到0.96,可知該分類模型結果較好可以用于微博評論數(shù)據(jù)的情感分類。
3.3 ?情感時序分析
在得到了每條微博評論的情感得分后,對每日微博評論的情感得分做日平均,畫出情感得分隨時間變化的曲線,并與每日新增感染人數(shù)作對比,圖像如圖4所示。
從上述時序圖可以看出,在1月1日至1月18日,即使隨著確診人數(shù)的增加,大眾對于新冠的情感大多也是樂觀的積極的,相信這次疫情不會持續(xù)很久,會很快地得到控制,同時對感染的患者也是持祝福的情感,所以這段時間微博的評論大多都是積極的。在1月19日至2月1日,感染人數(shù)在這段時間內不斷地增長,死亡人數(shù)也在增多,大眾對新冠疫情也從一開始的樂觀變?yōu)榭謶趾腕@慌,微博評論的情感得分也在這一段時間內呈下降趨勢。在1月31日時,微博評論的情感得分達到了負值,表示了這段時間大眾的情感偏向消極。但是同時,這段時間大眾情感得分雖然呈下降趨勢,但是大部分還是為正,這就表明了大眾對于國家能夠走出這段疫情還是保有著堅定的信心的。在2月2日到2月18日這段時間里,隨著疫情逐漸得到控制,各省逐漸開始復工,大家之前那種恐慌消極的心情在政府各項行之有效的措施中也得以慢慢緩解。因此,微博評論的情感得分也有上升的趨勢。
我們根據(jù)上述的發(fā)展階段將時間分為3個部分,并對以下三個時間段作出相對應的詞云圖如圖5所示。在1月1日到1月18日可以發(fā)現(xiàn)微博主流的詞匯主要是“志愿者”“新冠病毒”“咳嗽”等詞匯,還有“綠色地球”等時事話題,說明疫情還在開始階段,人們開始關注但重視程度還不夠。1月19日到2月1日是疫情暴發(fā)時期,人們開始重視,高頻詞匯全部為與新冠病毒相關的詞語,如“感染”“病例”等,整體情緒較之前悲觀。2月2日到2月18日是輿論開始穩(wěn)定的階段,除了上個階段的高頻詞之外還有“中國加油”“武漢加油”“抗疫”“戰(zhàn)疫”等積極的有正能量的詞匯,整體情緒開始好轉。還出現(xiàn)了“中醫(yī)藥”“雙黃連”等與當時“雙黃連可抑制新冠病毒”等新聞相關的詞匯,說明網(wǎng)民仍有一定恐慌情緒。
3.4 ?LDA主題模型
通過使用Gensim模塊對積極評論數(shù)據(jù)和消極評論數(shù)據(jù)分別構建LDA主題模型,設置主題數(shù)為3,每個主題下生成10個最有可能出現(xiàn)的詞語,如表2和表3所示。
表2反映了新冠疫情期間積極評論文本中的潛在主題。主題1中的關注點主要是中國,醫(yī)護人員、加油、致敬,主要反映了疫情期間網(wǎng)民對于國家以及醫(yī)護人員的加油和支持。主題2的關注點則是感染、病例、出院,主要反映了在疫情期間經(jīng)過救治之后,出院的患者。主題3則主要關注讀書、口罩、體現(xiàn)了網(wǎng)民在疫情緩解,開始逐步復工復產(chǎn)的趨勢下,開始注重于生活的重新開始。
表3反映了新冠疫情期間消極評論文本中的潛在主題。主題1中的關注點主要是感染、確診、疫情,反映了疫情期間人們對于每天確診人數(shù)的增多所帶來的擔憂與害怕。主題2中的關注點則是野味、蝙蝠,反映了人們對于疫情源頭的痛恨。主題3中的關注點則是金銀花、醫(yī)院、出院、希望,體現(xiàn)了人們對新冠病毒所產(chǎn)生的恐慌,世界上各方力量都在尋求有助于緩解疫情的方法。
4 ?結 ?論
微博網(wǎng)民情感分析的主要任務是為了掌握網(wǎng)絡輿情動態(tài),明確互聯(lián)網(wǎng)熱點事件的民眾態(tài)度及情感特征,為政府維護社會穩(wěn)定作出一定參考。本文通過結合情感詞典與SVM構建了微博網(wǎng)民情感分類模型,取得了較好的分類效果,同時通過情感時序分析和LDA主題模型對此次疫情民眾情緒變化和特征進行了可視化分析,通過分析發(fā)現(xiàn),民眾在新冠疫情期間的情感雖有對于新冠病毒的恐慌,但仍以積極情感為主,相互鼓勵,共同渡過這個難關,回歸正常生活。由于新冠疫情引起的輿論此消彼長,可以進一步擴大數(shù)據(jù)量,更加全面的探討新冠輿情的相關問題。
參考文獻:
[1] 王艷東,李昊,王騰,等.基于社交媒體的突發(fā)事件應急信息挖掘與分析 [J].武漢大學學報(信息科學版),2016,41(3):290-297.
[2] 韓珂珂,邢子瑤,劉哲,等.重大公共衛(wèi)生事件中的輿情分析方法研究——以新冠肺炎疫情為例 [J].地球信息科學學報,2021,23(2):331-340.
[3] PANG B,LEE L,VAITHYANATHAN S. Thumbs up? Sentiment Classification using Machine Learning Techniques [J/OL].arXiv:cs/0205070 [cs.CL].[2021-11-03].https://arxiv.org/abs/cs/0205070v1.
[4] LIU L R,F(xiàn)ENG S,WANG D L,et al. An Empirical Study on Chinese Microblog Stance Detection Using Supervised and Semi-supervised Machine Learning Methods [C]//Natural Language Understanding and Intelligent Applications.Kunming:Springer,2016:753-765.
[5] XUE J,CHEN J X,HU R,et al. Twitter discussions and concerns about COVID-19 pandemic:Twitter data analysis using a machine learning approach [J/OL].arXiv:2005.12830 [cs.SI].[2012.11.16].2020.https://arxiv.org/abs/2005.12830v2.
[6] FERN?NDEZ-GAVILANES M,?LVAREZ-L?PEZ T,JUNCAL-MART?NEZ J,et al. Unsupervised method for sentiment analysis in online texts [J].Expert Systems with Applications:An International Journal,2016,58(C):57-75.
[7] 梁軍,柴玉梅,原慧斌,等.基于深度學習的微博情感分析 [J].中文信息學報,2014,28(5):155-161.
[8] 梁斌,劉全,徐進,等.基于多注意力卷積神經(jīng)網(wǎng)絡的特定目標情感分析 [J].計算機研究與發(fā)展,2017,54(8):1724-1735.
[9] WHISSELL C. Objective Analysis of Text:II.Using an Emotional Compass to Describe the Emotional Tone of Situation Comedies [J].Psychological Reports,1998,82(2):643-646.
[10] 栗雨晴,禮欣,韓煦,等.基于雙語詞典的微博多類情感分析方法 [J].電子學報,2016,44(9):2068-2073.
[11] KAITY M,BALAKRISHNAN V. An automatic non-English sentiment lexicon builder using unannotated corpus [J].The Journal of Supercomputing,2019,75(4):2243-2268.
作者簡介:王文韜(1997—),男,漢族,江蘇蘇州人,碩士在讀,研究方向:大數(shù)據(jù)分析;張士豹(1996—),男,漢族,安徽滁州人,碩士在讀,研究方向:圖像處理。