黎潔君
摘 要:加強(qiáng)互聯(lián)網(wǎng)輿情管理是國家治理體系和治理能力現(xiàn)代化發(fā)展的重要內(nèi)容。基于深度學(xué)習(xí),以微博上關(guān)于新疆的熱門評論為樣本,通過構(gòu)建長短期記憶網(wǎng)絡(luò)(LSTM)模型對每條評論進(jìn)行評分,分析其正負(fù)性。情感分析結(jié)果對輿情治理具有一定的現(xiàn)實意義。
關(guān)鍵詞:深度學(xué)習(xí);長短期記憶網(wǎng)格;情感分析
微博是我國時下非常流行的社交、信息分享平臺,日訪問量上億,居于全球社交平臺的首位。微博上有海量信息,這些數(shù)據(jù)中包含網(wǎng)民的情感信息資料以及對于各種事件的輿情偏向,具有可挖掘的價值。依托數(shù)據(jù)挖掘和自然語言技術(shù),情感分析對相關(guān)領(lǐng)域都有一定的戰(zhàn)略價值,企業(yè)可以根據(jù)情感分析發(fā)現(xiàn)網(wǎng)友的情感傾向,從而制定相關(guān)策略;過去許多社會熱點事件都在微博中引起大討論,網(wǎng)友各抒己見,使各種大小事件得到公平解決,政府也可以從中獲知輿情傾向。所以,分析微博相關(guān)熱點問題或事件具有一定的現(xiàn)實意義[1]。
基于深度學(xué)習(xí)的分析方法的主要思想是預(yù)先對訓(xùn)練文本語料進(jìn)行定性分類且標(biāo)注,以統(tǒng)計理論信息等作為分類特征,訓(xùn)練出一個較好的分類模型[2]。利用得出的最優(yōu)模型進(jìn)行情感分類,得到相關(guān)的情感分析數(shù)據(jù),從而得到情感傾向的分析結(jié)果。如今,新疆安定繁榮,加上其獨特的西域風(fēng)光,引來了各地游客,來疆旅游人數(shù)攀升,在微博引起了熱議。本研究基于Python中的Pytorch深度學(xué)習(xí)框架,利用長短期記憶(Long Shot-Term Memory,LSTM)網(wǎng)絡(luò)對微博上關(guān)于新疆的評論進(jìn)行采集以及情感分析。
1 數(shù)據(jù)來源
Python擁有大量的庫,且易于學(xué)習(xí),可以用來高效地開發(fā)各種應(yīng)用程序。Python語言目前廣泛應(yīng)用于網(wǎng)絡(luò)爬蟲、計算與數(shù)據(jù)分析、人工智能、自動化運維、云計算等領(lǐng)域。本研究通過網(wǎng)絡(luò)爬蟲技術(shù)來獲取有效的微博評論數(shù)據(jù)。網(wǎng)絡(luò)爬蟲是一種程序或者腳本,能夠按照一定的規(guī)則對互聯(lián)網(wǎng)信息進(jìn)行自動抓取。網(wǎng)絡(luò)爬蟲被廣泛應(yīng)用于互聯(lián)網(wǎng)搜索引擎或類似的網(wǎng)站,從而對這些網(wǎng)站的內(nèi)容和檢索方式進(jìn)行獲取、更新,對于訪問到的頁面內(nèi)容能夠自動收集獲取,然后提供給搜索引擎進(jìn)一步處理,進(jìn)而方便用戶對所需要的信息進(jìn)行更快的檢索[3]。本研究通過requests,re,pandas,json等庫[4]對統(tǒng)一資源定位符(Uniform Resource Locator,URL)“https: //m.weibo.cn/comments/hotflow?id=4446534093 056573&mid=4446534093056573&max_id_type=0”進(jìn)行爬取,得到的評論一共有14 761條。
2 模型介紹
3 實驗與結(jié)果
3.1 數(shù)據(jù)集
本實驗使用到的數(shù)據(jù)集,第一個是訓(xùn)練模型所需要的訓(xùn)練集,其中都使用label標(biāo)簽來標(biāo)記其語言情感的正負(fù)性,數(shù)值取在0~1,其中1表示正面影響,0表示負(fù)面情緒,根據(jù)數(shù)值的大小來分辨其正負(fù)情緒的比重大小。訓(xùn)練集包括9 000條情緒,其中有4 500條負(fù)面情緒和4 500條正面情緒。驗證集包括1 000條情緒,其中正面情緒有500條,負(fù)面情緒有500條。測試集中有500條正負(fù)數(shù)量不同的評論。
3.2 數(shù)據(jù)總覽及預(yù)處理
分詞是自然語言處理(Natural Language Processing,NLP)中文本處理的基礎(chǔ)環(huán)節(jié)和前提。與以英文為代表的拉丁系語言相比,中文分詞要復(fù)雜得多、困難得多,因為自古以來中文的詞語之間均沒有自然分隔,并且組合多變[8]。對于分詞,在Python中需要導(dǎo)入pandas庫和jieba庫。Pandas的主要用途是進(jìn)行數(shù)據(jù)分析,jieba庫則是專門用來進(jìn)行中文分詞的一個庫。導(dǎo)入成功后進(jìn)行分詞,分詞得到兩個新的變量,分別為token_count(單個評論詞組數(shù)量),text_lengths[9](單個評論長度),再對訓(xùn)練集、測試集和所采集的微博評論進(jìn)行分詞。此時,導(dǎo)入Word Cloud庫(詞云圖),進(jìn)行數(shù)據(jù)詞云可視化,如圖1所示。
詞云呈現(xiàn)主要是看詞組所占比重,詞組比重越大,在詞云中的字體越大,可以看到“越來越”“穩(wěn)定”“人民”等詞的比重較大。
3.3 實驗參數(shù)
實驗參數(shù)訓(xùn)練設(shè)備為CPU,其中batch size(單次訓(xùn)練用的樣本數(shù))選擇64,學(xué)習(xí)率為0.01,dropout rate選擇0.5,LSTM堆疊的層數(shù)為1,隱藏層節(jié)點的個數(shù)為100,epoch選10,評論字典共25 002個,labal(評價1,0)有兩個,詞向量維數(shù)為300。
3.4 模型訓(xùn)練及效果評估
實驗參數(shù)設(shè)置好后就開始進(jìn)行模型訓(xùn)練,得到最優(yōu)模型后,進(jìn)行效果評估,導(dǎo)入所需庫,然后將測試集代入,進(jìn)行分詞操作,再加載模型進(jìn)行效果評估,結(jié)果如圖2所示。
由以上結(jié)果可得,模型效果精確率在85%以上,正面情感總體準(zhǔn)確度較高,負(fù)面情感召回率欠缺,在實例預(yù)測中負(fù)面情感預(yù)測準(zhǔn)度難控制??傮w上,訓(xùn)練出的模型可用。
3.5 模型使用及結(jié)果
首先加載模型,其次導(dǎo)入爬取的微博評論,最后進(jìn)行評論的情感分析,得到每句評論下的評分。負(fù)面情緒主要是一些不相干的評論或者帶個人主觀情緒的評論。得到全部評論的得分后,進(jìn)行數(shù)據(jù)的可視化,將所有評論的得分及個數(shù)做成直方圖,如圖3所示。
4 結(jié)語
基于深度學(xué)習(xí),對關(guān)于新疆的熱門評論進(jìn)行情感分析,主要使用Python語言。本次實驗主要使用LSTM網(wǎng)絡(luò)進(jìn)行建模,由于RNN網(wǎng)絡(luò)訓(xùn)練時只能將信息傳遞給相鄰的后繼者,在實際中訓(xùn)練RNN是很難實現(xiàn)的,根本原因在于梯度消失和梯度爆炸問題,這時LSTM網(wǎng)絡(luò)的引出有效地解決了這一問題。LSTM網(wǎng)絡(luò)的核心是其獨特的細(xì)胞狀態(tài),細(xì)胞狀態(tài)好似傳送帶,直接在整個鏈上運行,使線性交互變少,因此,信息在其上流傳時不容易變化;此外,還具有獨特的“門”結(jié)構(gòu)來控制細(xì)胞狀態(tài)。LSTM網(wǎng)絡(luò)主要結(jié)構(gòu)為:(1)決定細(xì)胞狀態(tài);(2)細(xì)胞狀態(tài)的更新準(zhǔn)備;(3)更新狀態(tài);(4)基于狀態(tài)輸出信息。本實驗主要依靠Pytorch(深度學(xué)習(xí)庫)進(jìn)行建模。訓(xùn)練模型成功后進(jìn)行效果評估,得到可行的模型效果,得到效果評估模型精度達(dá)85%。最后對相關(guān)評論使用模型進(jìn)行評分,分析網(wǎng)友的情感偏重。由實驗結(jié)果可知,此次網(wǎng)友對新疆有很多感想,其中通過詞云圖可知“越來越”“穩(wěn)定”“人民”“愛”等詞語的比重很大。評論統(tǒng)計中情感評分區(qū)間為0—1、0—0.5代表負(fù)面情緒,越接近0負(fù)面情緒越大,0.5—1代表積極情緒,越接近1正面情緒越大??傮w上,本次情感分析中,微博上的網(wǎng)友有新疆本地的,也有國內(nèi)其他各省的,情感分析中正面情緒比重很大,這也說明新疆的確在旅游、治安等各個方面發(fā)展得都越來越好。所以,加強(qiáng)互聯(lián)網(wǎng)輿情管理是國家治理體系和治理能力現(xiàn)代化發(fā)展的重要內(nèi)容,不僅能有效了解民情,而且對輿情治理也有一定作用。所以,在特定方面進(jìn)行情感分析具有一定的現(xiàn)實意義。
[參考文獻(xiàn)]
[1] 關(guān)鵬飛,李寶安,呂學(xué)強(qiáng),等.注意力增強(qiáng)的雙向LSTM情感分析[J].中文信息學(xué)報,2019(2):105-111.
[2] 胡朝舉,梁寧.基于深層注意力的LSTM的特定主題情感分析[J].計算機(jī)應(yīng)用研究,2019(4):1075-1079.
[3] 郭麗蓉.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)爬蟲設(shè)計[J].山西電子技術(shù),2018(2):50-52,94.
[4] 李培.基于Python的網(wǎng)絡(luò)爬蟲與反爬蟲技術(shù)研究[J].計算機(jī)與數(shù)字工程,2019,47(6):1415-1420,1496.
[5]SUNDERMEYER M, SCHLüTER R, NEY H. LSTM neural networks for language modeling[EB/OL].(2014-02-10)[2020-10-20]. http://www-i6.informatik.rwth-aachen.de/publications/ download/820/Sundermeyer-2012.
[6] 伍行素,陳錦回.基于LSTM深度神經(jīng)網(wǎng)絡(luò)的情感分析方法[J].上饒師范學(xué)院學(xué)報,2018(6):16-20.
[7] 陳再發(fā),劉彥呈,劉厶源.長短期記憶神經(jīng)網(wǎng)絡(luò)在機(jī)械狀態(tài)預(yù)測中的應(yīng)用[J].大連海事大學(xué)學(xué)報,2018(1):85-90.
[8] 嚴(yán)明,鄭昌興.Python環(huán)境下的文本分詞與詞云制作[J].現(xiàn)代計算機(jī)(專業(yè)版),2018(34):86-89.
[9] 祝永志,荊靜.基于Python語言的中文分詞技術(shù)的研究[J].通信技術(shù),2019(7):1612-1619.