基于深度學(xué)習(xí)的COVID-19疫情期間網(wǎng)民情緒分析

2020-11-30 09:02:22劉洪浩

軟件 2020年9期

摘? 要：微博文本情緒分析技術(shù)在輿情監(jiān)控等領(lǐng)域具有廣泛應(yīng)用。基于傳統(tǒng)機器學(xué)習(xí)模型和情感詞典進(jìn)行情感分析的結(jié)果往往不夠理想，如何提升性能成為該領(lǐng)域的一個主要挑戰(zhàn)。本文中我們使用了基于深度學(xué)習(xí)的BERT以完成語言理解任務(wù)并與傳統(tǒng)做法性能相比較，結(jié)果中BERT模型取得了更好的性能。之后我們利用該模型進(jìn)行三分類以分析COVID-19疫情期間的微博評論，總體上正面與中立情緒占主導(dǎo)。此外，我們也針對詞頻和詞云進(jìn)行相關(guān)分析，以期實現(xiàn)全方面了解此次疫情期間社會情感狀態(tài)的目的。

關(guān)鍵詞：深度學(xué)習(xí)，詞嵌入，BERT模型，情感分析，微博爬蟲，文本處理

中圖分類號： TP183? ? 文獻(xiàn)標(biāo)識碼： A? ? DOI：10.3969/j.issn.1003-6970.2020.09.048

本文著錄格式：劉洪浩. 基于深度學(xué)習(xí)的COVID-19疫情期間網(wǎng)民情緒分析[J]. 軟件，2020，41（09）：185188

【Abstract】： Sentiment analysis of microblog text is widely used in public opinion monitoring and other fields. The results of sentiment analysis based on traditional machine learning models and sentiment dictionaries are often not ideal. How to improve performance has become a major challenge in this field. In this thesis， we use BERT based on deep learning to complete the language understanding task. Compared with traditional methods， BERT model has achieved better performance. We use the model to analyze microblog comments during the COVID-19 epidemic by conducting a three-category classification and find that positive and neutral emotions are dominant. We also conduct further analysis on word frequency and word cloud to gain more insights into the emotional states during the epidemic.

【Key words】： Deep learning; Word embedding; BERT; Sentiment analysis; Microblog crawler; Text processing

0? 引言

文本是用于情感分析的典型數(shù)據(jù)集。由于情感文本數(shù)據(jù)的迅速增長和極高應(yīng)用價值，使得自動識別和分析人們在文本中表達(dá)的情感成為一種必要。社交網(wǎng)絡(luò)文本情感分析被廣泛應(yīng)用于在金融[1]、市場[2]、社? 會[3]、娛樂[4]等諸多領(lǐng)域之中，關(guān)于文本情感識別算法相關(guān)的理論研究[5-7]也越發(fā)豐富。越來越多基于社交網(wǎng)絡(luò)的情感分析實踐和研究的出現(xiàn)表明其實用性與科學(xué)性。微博短文本已成為國內(nèi)數(shù)據(jù)的情感表達(dá)和輿論走向的代表，它為研究社會發(fā)展和人類行為特征提供更多可能性。

新冠肺炎疫情備受社會各界關(guān)注。2020年1月1日至2月20日，疫情相關(guān)微博話題數(shù)超過200個。此次疫情為高熱度的重大社會熱點事件，對疫情期間的情感識別和可視化分析能客觀反映出疫情輿情的發(fā)展動向，有助于有關(guān)機構(gòu)制定合理科學(xué)的決策，具有較高研究價值。

文本分類的精度取決于提取語義特征的方法和分類器的種類。本文關(guān)注基于深度學(xué)習(xí)的中文文本詞嵌入方法與傳統(tǒng)做法的比較和疫情期間情感分析。我們研究了基于深度學(xué)習(xí)中詞向量技術(shù)的情感識別方法，利用BERT模型和Embedding層預(yù)訓(xùn)練方法，分別進(jìn)行研究，實驗對比中BERT預(yù)訓(xùn)練模型取得更加準(zhǔn)確的結(jié)果。我們將利用BERT模型的分類結(jié)果對此次疫情全面分析，并給出疫情期間微博文本的詞云表示，以提高情感分析的準(zhǔn)確度，達(dá)到全面了解此次疫情期間社會輿情的目標(biāo)。

1? 相關(guān)工作

本節(jié)簡要介紹微博數(shù)據(jù)情感分析的相關(guān)研究，以及獲得詞嵌入的方法。

1.1? 微博數(shù)據(jù)情感分析

現(xiàn)有文獻(xiàn)中已有較為豐富的針對微博文本的情感分析策略。王培名等人[8]設(shè)計了自適應(yīng)的并發(fā)采集算法優(yōu)化模擬登錄和代理池的構(gòu)造訪客Cookie功能，高效獲取微博數(shù)據(jù)，為微博數(shù)據(jù)采集策略提供了多樣性。劉楠[9]針對微博短文本形式的情感分析，歸納新的細(xì)粒度情感分析流程，提出TF和TF-IDF歸一化權(quán)重計算方法，與傳統(tǒng)提取特征的方法相比，能夠更準(zhǔn)確判斷出多種類情感的權(quán)重，實現(xiàn)了該方法有效性的評估。

1.2? 詞嵌入

詞嵌入是一種詞的數(shù)字向量化表示，相似含義的詞可用類似的向量表達(dá)。詞嵌入的研究關(guān)鍵在于獲得密集低維的分布式特征向量表示詞的不同特征，每一個詞與分布式向量相關(guān)聯(lián)，每個詞與向量空間中的點相關(guān)聯(lián)，促進(jìn)與神經(jīng)網(wǎng)絡(luò)詞的更好擬合和學(xué)習(xí)更新[10]。

2013年Google公司的Mikolov等人[11]開發(fā)出了基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量新的模型體系結(jié)構(gòu)Word2Vec，Word2Vec核心思想是通過詞的上下文窗口得到詞的向量化表示得到分布式的詞嵌入，其本質(zhì)是降維操作，將One-Hot編碼形式的詞向量轉(zhuǎn)化為Word2Vec形式，Word2vec包括CBOW與Skip-Gram兩種模型。Pennington等人[12]在2014年提出了繼Word2Vec以后又一具有較大影響力的詞向量訓(xùn)練方法Glove。Glove是一種無監(jiān)督的詞嵌入模型，采用共現(xiàn)矩陣并對其降維，將局部信息和整體信息結(jié)合，解決了Word2Vec的只考慮詞與局部窗口信息和忽略了語料庫的統(tǒng)計信息的問題。

隨著詞嵌入模型不斷深入研究，詞嵌入模型更新速度越來越快，從傳統(tǒng)機器學(xué)習(xí)詞袋模型[13]等，發(fā)展到如今基于深度學(xué)習(xí)的預(yù)訓(xùn)練方法諸如Word2Vec[14]、Glove[15]、 BERT[16]的詞嵌入算法，如今的詞嵌入方法通過神經(jīng)網(wǎng)絡(luò)模型利用更長的上下文來解決自然語言問題[17]。

2? 研究方法

2.1? 數(shù)據(jù)獲取

我們采用已標(biāo)注的10萬余條微博文本語料庫。在數(shù)據(jù)收集階段，我們使用微博API[18]收集微博文本數(shù)據(jù)，具體包含create_at（微博發(fā)布時間），id（發(fā)布用戶id），text（微博文本）屬性信息。我們一共收集到2020年1月1日至2月20日疫情期間的1萬余條微博文本作為待分析的文本。圖1展示了研究方法的總體流程。

2.2? 預(yù)處理

我們原始的數(shù)據(jù)集需要經(jīng)過預(yù)處理，過濾掉一些不符合要求的文本以便更契合情感分析任務(wù)。我們將對微博數(shù)據(jù)集中的中英文表情和符號表情進(jìn)行過濾，然后利用jieba庫進(jìn)行分詞，利用停用詞表進(jìn)行深度清洗，篩選出停用詞，其中包括數(shù)字，中英文標(biāo)點符號，語氣詞，無實意詞等。圖2顯示預(yù)處理的步驟。

2.3? 模型

我們將使用訓(xùn)練神經(jīng)網(wǎng)絡(luò)時擬合詞嵌入層方法。深度神經(jīng)網(wǎng)絡(luò)工具Keras，是一個深度學(xué)習(xí)框架，Keras的Embedding層和Word2Vec、Glove本質(zhì)上是一樣的，將詞嵌入在淺層神經(jīng)網(wǎng)絡(luò)中用密集向量表示同時在更小維度中集合信息，但其特點是可以和神經(jīng)網(wǎng)絡(luò)一起訓(xùn)練形成一個端到端的結(jié)構(gòu)，以便高效擬合相應(yīng)模型任務(wù)。Keras的Embedding層輸入數(shù)據(jù)要求為整數(shù)編碼，我們利用該庫中的分詞器Tokenizer API生成序列化向量作為嵌入層的輸入，Embedding層被定義為神經(jīng)網(wǎng)絡(luò)的第一個隱藏層。該層使用方式靈活，我們利用該隱藏層作為深度學(xué)習(xí)模型的一部分共同進(jìn)行模型學(xué)習(xí)和訓(xùn)練，以將整數(shù)映射到Embedding層向量空間中的獲得帶有權(quán)重的密集向量。

同時我們還將使用最新的BERT預(yù)訓(xùn)練模型進(jìn)行研究，BERT模型由Devlin等人[19]在2018年提出，BERT模型被評為目前自然語言處理效果最佳的深度預(yù)訓(xùn)練模型。BERT預(yù)訓(xùn)練模型較之于以往預(yù)訓(xùn)練模型最大優(yōu)勢在于BERT運用了雙向轉(zhuǎn)換器如圖3所示。BERT的高效能同時體現(xiàn)在其特殊的預(yù)訓(xùn)練方法，包含有Masked Language Model和Next Sentence Prediction。BERT模型的輸入由詞向量，段向量，位置向量三部分組成，如圖4所示。在詞向量里面有兩個特殊標(biāo)志CLS，SEP。CLS作為第一個向量來得到句子向量，SEP用來區(qū)分句子。為了訓(xùn)練深度雙向表示模型，需要BERT中的Masked Language Model和Next Sentence Prediction。

我們將利用Embedding層和BERT進(jìn)行文本預(yù)訓(xùn)練進(jìn)行情感分類效果比較。神經(jīng)網(wǎng)絡(luò)模型將用到深度學(xué)習(xí)框架Keras提供了網(wǎng)絡(luò)層線性堆疊的Sequential順序模型來搭載Relu全連接層和Softmax激活函數(shù)層。

2.4? 可視化分析

我們針對處理后的微博文本數(shù)據(jù)借助第三方wordcloud庫和matplotlib庫對數(shù)據(jù)進(jìn)行可視化分析。通過統(tǒng)計出高頻詞匯、評論量和平均情感數(shù)值的時間變化，我們從數(shù)字角度定量考察疫情期間輿情發(fā)展的情況，以便更加直觀了解此次疫情對民眾的影響。

3? 實驗和結(jié)果

在這一節(jié)中，我們將詳細(xì)介紹我們在本次實驗中利用上述方法完成的具體實驗工作和結(jié)果。我們將訓(xùn)練集和測試集經(jīng)過預(yù)處理后，如圖2所示。產(chǎn)生了符合情感分析要求的10萬條語料集。

3.1? 情感分析結(jié)果

我們分別利用Embedding層和BERT模型獲得詞嵌入，再擬合神經(jīng)網(wǎng)絡(luò)構(gòu)建情感識別模型，我們將前述的10萬條語料集劃分為訓(xùn)練集，驗證集，測試集進(jìn)行訓(xùn)練，訓(xùn)練輪次均為5次。在測試集上進(jìn)行評估，結(jié)果對比如表1、2所示。

3.2? 2019n-Cov疫情數(shù)據(jù)可視化結(jié)果

3.2.1? 情感分類微博數(shù)據(jù)分布

情感分析結(jié)果為典型的三分類，1代表積極，0代表中性，–1代表消極。我們首先從宏觀角度獲得了評論在三種情感中所占數(shù)量，如圖5所示?？傮w分析可得，積極情緒文本比消極情緒文本在數(shù)量上較多，表明此次疫情期間網(wǎng)民整體呈現(xiàn)積極心態(tài);中性情緒所占數(shù)量最大也代表了多數(shù)網(wǎng)民對此次疫情的不信謠不傳謠態(tài)度，這也證明了相關(guān)機構(gòu)實施的大眾居家隔離等防疫措施有效性。

3.2.2? 微博情感時間趨勢

我們從動態(tài)角度深入研究網(wǎng)民情緒變化，如圖6所示。消極情緒在1月20日左右呈現(xiàn)迅速增長趨勢，這可能是由于在1月20日鐘南山院士肯定新冠肺炎存在人傳人現(xiàn)象，加大網(wǎng)民的重視和恐懼程度。從2月8日至10日消極文本數(shù)量達(dá)到峰值顯示出李文亮醫(yī)生的逝世可能加重了負(fù)面情緒。但國家緊急實施居家隔離和調(diào)配全國力量支援湖北等多項措施，這使得2月10日以后積極情緒占比增大，網(wǎng)民情緒逐漸好轉(zhuǎn)。

3.2.3? 平均情感數(shù)值時間變換

我們對預(yù)測結(jié)果進(jìn)行情感數(shù)值平均化，得到平均情緒值隨時間的變化趨勢，如圖7所示。網(wǎng)民情緒在1月20號左右進(jìn)入低沉期，驗證了圖6數(shù)據(jù)所示結(jié)論，之后情緒波動起伏，并在2月9日左右進(jìn)入網(wǎng)民情緒低谷。之后每日新冠疫情感染人數(shù)逐漸下降，網(wǎng)民情緒逐漸好轉(zhuǎn)。從整體情緒幅度觀察，情緒波動較大，這說明了疫情期間不同地區(qū)的感染人數(shù)和死亡人數(shù)對網(wǎng)民的情緒造成不同程度的影響;在2月10日以后情緒逐漸雖有起伏整體仍保持積極心態(tài)，平均情緒數(shù)值逐漸有上升趨勢。

3.2.4? 詞頻統(tǒng)計

關(guān)注網(wǎng)民疫情期間的熱點話題也是全面了解網(wǎng)民情緒和態(tài)度的重要途徑之一。我們利用測試集根據(jù)詞頻得到高低排序，得到前800詞語的詞云。如圖8所示。由詞云詞頻統(tǒng)計可知此次網(wǎng)民熱點討論為“疫情”、“武漢”、“肺炎”、“冠狀病毒”，“新型”等，這也表明在COVID-19期間，網(wǎng)友對此次新冠肺炎的重視和關(guān)注，同時也代表了冠狀病毒為此次新型肺炎的起源并對社會造成嚴(yán)重影響，也導(dǎo)致“口罩”、“醫(yī)院”等資源的缺乏和討論。此外我們可以從“武漢”、“加油”、“醫(yī)院”這些高頻率詞匯中體會到網(wǎng)民對武漢的關(guān)心，以及對所有為新冠肺炎抗?fàn)幍尼t(yī)護天使的感謝。

4? 結(jié)論

本文基于深度學(xué)習(xí)模型BERT比較了其在詞嵌入訓(xùn)練的優(yōu)越性，并獲得的較準(zhǔn)確的情感分析結(jié)果，研究意義總結(jié)為如下三個方面：（1）比較了BERT模型和Embedding層的情感分類效果，解決了預(yù)訓(xùn)練模型中單向信息流問題，并大大減少神經(jīng)網(wǎng)絡(luò)的復(fù)雜度; （2）利用疫情之前的微博數(shù)據(jù)作為BERT模型訓(xùn)練集對COVID-19期間測試集進(jìn)行情感分類;（3）數(shù)據(jù)化地呈現(xiàn)出此次疫情網(wǎng)民的情緒變化和走向，結(jié)果表明網(wǎng)民在COVID-19疫情期間整體情緒積極。由于詞向量結(jié)合神經(jīng)網(wǎng)絡(luò)的端到端學(xué)習(xí)模型具有多樣性，后續(xù)可比較Word2Vec，Glove等熱門模型，以獲得更高準(zhǔn)確度的詞嵌入模型，同時利用Keras庫構(gòu)建其他形式的神經(jīng)網(wǎng)絡(luò)以加強性能。

參考文獻(xiàn)

[1]蔣鈺慧. 投資者情緒對我國股票市場收益率的影響研究[D]. 上海外國語大學(xué)， 2019.

[2]張愛華，陳超雨. 基于文本分析的中國5G產(chǎn)業(yè)發(fā)展研? ?究——市場主體視角[J]. 北京郵電大學(xué)學(xué)報（社會科學(xué)版）， 2019， 21（06）： 90-102.

[3]劉雯，高峰，洪凌子. 基于情感分析的災(zāi)害網(wǎng)絡(luò)輿情研? 究——以雅安地震為例[J]. 圖書情報工作， 2013， 57（20）： 104-110.

[4]柳池煜. 票房預(yù)測中的社交網(wǎng)絡(luò)評論情感挖掘技術(shù)研究[D]. 南京郵電大學(xué)， 2019.

[5]梁軍. 基于深度學(xué)習(xí)的文本特征表示及分類應(yīng)用[D]. 鄭州大學(xué)， 2016.

[6]陳文. 中文短文本跨領(lǐng)域情感分類算法研究[D]. 重慶大學(xué)， 2016.

[7]彭浩，朱望鵬，趙丹丹，等. 面向多源社交網(wǎng)絡(luò)輿情的情感分析算法研究[J]. 信息技術(shù)， 2019（02）： 43-48.

[8]王培名，陳興蜀，王海舟，王文賢. 多策略融合的微博數(shù)據(jù)獲取技術(shù)研究[J]. 山東大學(xué)學(xué)報（理學(xué)版）， 2019， 54（05）： 28-36+43.

[9]劉楠. 面向微博短文本的情感分析研究[D]. 武漢大學(xué)， 2013.

[10]BENGIO Y， DUCHARME R， VINCENT P， et al. A neural probabilistic language model[J]. Journal of Machine Learning Research， 2003， 3： 1137-1155.

[11]MIKOLOV T， CHEN Kai， COR RADO G， et al. Efficient estimation of word representations in vector space[J]. Computer Science， 2013， 2（12）： 27-35.

[12]Pennington J， Socher R， Manning C. Glove： Global vectors for word representation[C]. Proceedings of the 2014 conference on empirical methods in natural language processing（EMNLP）. 2014： 1532-1543.

[13]黃春梅，王松磊. 基于詞袋模型和TF-IDF的短文本分類研究[J]. 軟件工程， 2020， 23（03）： 1-3.

[14]彭曉彬. 基于word2vec的文本情感分析方法研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用， 2016（07）： 58-59.

[15]陳珍銳，丁治明. 基于Glove模型的詞向量改進(jìn)方法[J]. 計算機系統(tǒng)應(yīng)用， 2019， 28（01）： 194-199.

[16]胡春濤，秦錦康，陳靜梅，等. 基于BERT模型的輿情分類應(yīng)用研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用， 2019（11）： 41-44.

[17]劉勝杰，許亮. 基于詞嵌入技術(shù)的文本表示研究現(xiàn)狀綜述[J]. 現(xiàn)代計算機， 2020（01）： 40-43.

[18]王鐵剛. 社交媒體數(shù)據(jù)的獲取分析[J]. 軟件， 2015， 36（02）： 86-91.

[19]Devlin J， Chang M W， Lee K， et al. BERT： Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv： 1810. 04805， 2018.