• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的新疆熱門微博評論的情感分析

      2020-02-04 07:43:51黎潔君
      現(xiàn)代鹽化工 2020年5期
      關(guān)鍵詞:情感分析深度學(xué)習(xí)

      黎潔君

      摘 要:加強(qiáng)互聯(lián)網(wǎng)輿情管理是國家治理體系和治理能力現(xiàn)代化發(fā)展的重要內(nèi)容。基于深度學(xué)習(xí),以微博上關(guān)于新疆的熱門評論為樣本,通過構(gòu)建長短期記憶網(wǎng)絡(luò)(LSTM)模型對每條評論進(jìn)行評分,分析其正負(fù)性。情感分析結(jié)果對輿情治理具有一定的現(xiàn)實意義。

      關(guān)鍵詞:深度學(xué)習(xí);長短期記憶網(wǎng)格;情感分析

      微博是我國時下非常流行的社交、信息分享平臺,日訪問量上億,居于全球社交平臺的首位。微博上有海量信息,這些數(shù)據(jù)中包含網(wǎng)民的情感信息資料以及對于各種事件的輿情偏向,具有可挖掘的價值。依托數(shù)據(jù)挖掘和自然語言技術(shù),情感分析對相關(guān)領(lǐng)域都有一定的戰(zhàn)略價值,企業(yè)可以根據(jù)情感分析發(fā)現(xiàn)網(wǎng)友的情感傾向,從而制定相關(guān)策略;過去許多社會熱點事件都在微博中引起大討論,網(wǎng)友各抒己見,使各種大小事件得到公平解決,政府也可以從中獲知輿情傾向。所以,分析微博相關(guān)熱點問題或事件具有一定的現(xiàn)實意義[1]。

      基于深度學(xué)習(xí)的分析方法的主要思想是預(yù)先對訓(xùn)練文本語料進(jìn)行定性分類且標(biāo)注,以統(tǒng)計理論信息等作為分類特征,訓(xùn)練出一個較好的分類模型[2]。利用得出的最優(yōu)模型進(jìn)行情感分類,得到相關(guān)的情感分析數(shù)據(jù),從而得到情感傾向的分析結(jié)果。如今,新疆安定繁榮,加上其獨特的西域風(fēng)光,引來了各地游客,來疆旅游人數(shù)攀升,在微博引起了熱議。本研究基于Python中的Pytorch深度學(xué)習(xí)框架,利用長短期記憶(Long Shot-Term Memory,LSTM)網(wǎng)絡(luò)對微博上關(guān)于新疆的評論進(jìn)行采集以及情感分析。

      1 數(shù)據(jù)來源

      Python擁有大量的庫,且易于學(xué)習(xí),可以用來高效地開發(fā)各種應(yīng)用程序。Python語言目前廣泛應(yīng)用于網(wǎng)絡(luò)爬蟲、計算與數(shù)據(jù)分析、人工智能、自動化運維、云計算等領(lǐng)域。本研究通過網(wǎng)絡(luò)爬蟲技術(shù)來獲取有效的微博評論數(shù)據(jù)。網(wǎng)絡(luò)爬蟲是一種程序或者腳本,能夠按照一定的規(guī)則對互聯(lián)網(wǎng)信息進(jìn)行自動抓取。網(wǎng)絡(luò)爬蟲被廣泛應(yīng)用于互聯(lián)網(wǎng)搜索引擎或類似的網(wǎng)站,從而對這些網(wǎng)站的內(nèi)容和檢索方式進(jìn)行獲取、更新,對于訪問到的頁面內(nèi)容能夠自動收集獲取,然后提供給搜索引擎進(jìn)一步處理,進(jìn)而方便用戶對所需要的信息進(jìn)行更快的檢索[3]。本研究通過requests,re,pandas,json等庫[4]對統(tǒng)一資源定位符(Uniform Resource Locator,URL)“https: //m.weibo.cn/comments/hotflow?id=4446534093 056573&mid=4446534093056573&max_id_type=0”進(jìn)行爬取,得到的評論一共有14 761條。

      2 模型介紹

      3 實驗與結(jié)果

      3.1 數(shù)據(jù)集

      本實驗使用到的數(shù)據(jù)集,第一個是訓(xùn)練模型所需要的訓(xùn)練集,其中都使用label標(biāo)簽來標(biāo)記其語言情感的正負(fù)性,數(shù)值取在0~1,其中1表示正面影響,0表示負(fù)面情緒,根據(jù)數(shù)值的大小來分辨其正負(fù)情緒的比重大小。訓(xùn)練集包括9 000條情緒,其中有4 500條負(fù)面情緒和4 500條正面情緒。驗證集包括1 000條情緒,其中正面情緒有500條,負(fù)面情緒有500條。測試集中有500條正負(fù)數(shù)量不同的評論。

      3.2 數(shù)據(jù)總覽及預(yù)處理

      分詞是自然語言處理(Natural Language Processing,NLP)中文本處理的基礎(chǔ)環(huán)節(jié)和前提。與以英文為代表的拉丁系語言相比,中文分詞要復(fù)雜得多、困難得多,因為自古以來中文的詞語之間均沒有自然分隔,并且組合多變[8]。對于分詞,在Python中需要導(dǎo)入pandas庫和jieba庫。Pandas的主要用途是進(jìn)行數(shù)據(jù)分析,jieba庫則是專門用來進(jìn)行中文分詞的一個庫。導(dǎo)入成功后進(jìn)行分詞,分詞得到兩個新的變量,分別為token_count(單個評論詞組數(shù)量),text_lengths[9](單個評論長度),再對訓(xùn)練集、測試集和所采集的微博評論進(jìn)行分詞。此時,導(dǎo)入Word Cloud庫(詞云圖),進(jìn)行數(shù)據(jù)詞云可視化,如圖1所示。

      詞云呈現(xiàn)主要是看詞組所占比重,詞組比重越大,在詞云中的字體越大,可以看到“越來越”“穩(wěn)定”“人民”等詞的比重較大。

      3.3 實驗參數(shù)

      實驗參數(shù)訓(xùn)練設(shè)備為CPU,其中batch size(單次訓(xùn)練用的樣本數(shù))選擇64,學(xué)習(xí)率為0.01,dropout rate選擇0.5,LSTM堆疊的層數(shù)為1,隱藏層節(jié)點的個數(shù)為100,epoch選10,評論字典共25 002個,labal(評價1,0)有兩個,詞向量維數(shù)為300。

      3.4 模型訓(xùn)練及效果評估

      實驗參數(shù)設(shè)置好后就開始進(jìn)行模型訓(xùn)練,得到最優(yōu)模型后,進(jìn)行效果評估,導(dǎo)入所需庫,然后將測試集代入,進(jìn)行分詞操作,再加載模型進(jìn)行效果評估,結(jié)果如圖2所示。

      由以上結(jié)果可得,模型效果精確率在85%以上,正面情感總體準(zhǔn)確度較高,負(fù)面情感召回率欠缺,在實例預(yù)測中負(fù)面情感預(yù)測準(zhǔn)度難控制??傮w上,訓(xùn)練出的模型可用。

      3.5 模型使用及結(jié)果

      首先加載模型,其次導(dǎo)入爬取的微博評論,最后進(jìn)行評論的情感分析,得到每句評論下的評分。負(fù)面情緒主要是一些不相干的評論或者帶個人主觀情緒的評論。得到全部評論的得分后,進(jìn)行數(shù)據(jù)的可視化,將所有評論的得分及個數(shù)做成直方圖,如圖3所示。

      4 結(jié)語

      基于深度學(xué)習(xí),對關(guān)于新疆的熱門評論進(jìn)行情感分析,主要使用Python語言。本次實驗主要使用LSTM網(wǎng)絡(luò)進(jìn)行建模,由于RNN網(wǎng)絡(luò)訓(xùn)練時只能將信息傳遞給相鄰的后繼者,在實際中訓(xùn)練RNN是很難實現(xiàn)的,根本原因在于梯度消失和梯度爆炸問題,這時LSTM網(wǎng)絡(luò)的引出有效地解決了這一問題。LSTM網(wǎng)絡(luò)的核心是其獨特的細(xì)胞狀態(tài),細(xì)胞狀態(tài)好似傳送帶,直接在整個鏈上運行,使線性交互變少,因此,信息在其上流傳時不容易變化;此外,還具有獨特的“門”結(jié)構(gòu)來控制細(xì)胞狀態(tài)。LSTM網(wǎng)絡(luò)主要結(jié)構(gòu)為:(1)決定細(xì)胞狀態(tài);(2)細(xì)胞狀態(tài)的更新準(zhǔn)備;(3)更新狀態(tài);(4)基于狀態(tài)輸出信息。本實驗主要依靠Pytorch(深度學(xué)習(xí)庫)進(jìn)行建模。訓(xùn)練模型成功后進(jìn)行效果評估,得到可行的模型效果,得到效果評估模型精度達(dá)85%。最后對相關(guān)評論使用模型進(jìn)行評分,分析網(wǎng)友的情感偏重。由實驗結(jié)果可知,此次網(wǎng)友對新疆有很多感想,其中通過詞云圖可知“越來越”“穩(wěn)定”“人民”“愛”等詞語的比重很大。評論統(tǒng)計中情感評分區(qū)間為0—1、0—0.5代表負(fù)面情緒,越接近0負(fù)面情緒越大,0.5—1代表積極情緒,越接近1正面情緒越大??傮w上,本次情感分析中,微博上的網(wǎng)友有新疆本地的,也有國內(nèi)其他各省的,情感分析中正面情緒比重很大,這也說明新疆的確在旅游、治安等各個方面發(fā)展得都越來越好。所以,加強(qiáng)互聯(lián)網(wǎng)輿情管理是國家治理體系和治理能力現(xiàn)代化發(fā)展的重要內(nèi)容,不僅能有效了解民情,而且對輿情治理也有一定作用。所以,在特定方面進(jìn)行情感分析具有一定的現(xiàn)實意義。

      [參考文獻(xiàn)]

      [1] 關(guān)鵬飛,李寶安,呂學(xué)強(qiáng),等.注意力增強(qiáng)的雙向LSTM情感分析[J].中文信息學(xué)報,2019(2):105-111.

      [2] 胡朝舉,梁寧.基于深層注意力的LSTM的特定主題情感分析[J].計算機(jī)應(yīng)用研究,2019(4):1075-1079.

      [3] 郭麗蓉.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)爬蟲設(shè)計[J].山西電子技術(shù),2018(2):50-52,94.

      [4] 李培.基于Python的網(wǎng)絡(luò)爬蟲與反爬蟲技術(shù)研究[J].計算機(jī)與數(shù)字工程,2019,47(6):1415-1420,1496.

      [5]SUNDERMEYER M, SCHLüTER R, NEY H. LSTM neural networks for language modeling[EB/OL].(2014-02-10)[2020-10-20]. http://www-i6.informatik.rwth-aachen.de/publications/ download/820/Sundermeyer-2012.

      [6] 伍行素,陳錦回.基于LSTM深度神經(jīng)網(wǎng)絡(luò)的情感分析方法[J].上饒師范學(xué)院學(xué)報,2018(6):16-20.

      [7] 陳再發(fā),劉彥呈,劉厶源.長短期記憶神經(jīng)網(wǎng)絡(luò)在機(jī)械狀態(tài)預(yù)測中的應(yīng)用[J].大連海事大學(xué)學(xué)報,2018(1):85-90.

      [8] 嚴(yán)明,鄭昌興.Python環(huán)境下的文本分詞與詞云制作[J].現(xiàn)代計算機(jī)(專業(yè)版),2018(34):86-89.

      [9] 祝永志,荊靜.基于Python語言的中文分詞技術(shù)的研究[J].通信技術(shù),2019(7):1612-1619.

      猜你喜歡
      情感分析深度學(xué)習(xí)
      基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評論情感屬性的動態(tài)變化
      預(yù)測(2016年5期)2016-12-26 17:16:57
      有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      兰西县| 张家港市| 芒康县| 江孜县| 五大连池市| 探索| 定日县| 荥经县| 祁门县| 漠河县| 锡林郭勒盟| 陵川县| 泽州县| 教育| 招远市| 宾阳县| 乌海市| 博乐市| 定州市| 巴彦县| 阿巴嘎旗| 天气| 鹿泉市| 金沙县| 黄大仙区| 军事| 秭归县| 乌拉特中旗| 芒康县| 儋州市| 沽源县| 宿松县| 旺苍县| 沿河| 集安市| 涟水县| 翁牛特旗| 长顺县| 屏山县| 图木舒克市| 沭阳县|