• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學習的中文情感分析研究

      2019-09-24 06:03:39楊丹張夢朱毅
      電腦知識與技術 2019年21期
      關鍵詞:情感分析卷積神經(jīng)網(wǎng)絡

      楊丹 張夢 朱毅

      摘要:網(wǎng)絡中充斥著許多帶有強烈情感的評論和信息,對這些信息的分析成為了解人們意見的主要途徑。情感分析是自然語言處理(natural language processing, NLP)的一個方向,用來判斷文本描述的情緒類型。通過建立用戶自身的情感標志模型來識別語句的情感特征,并將設計好的模型利用深度學習框架進行情感分析,最終得到各模型的準確率。利用TensorFlow深度學習框架,對公開數(shù)據(jù)集分別采用CNN、LSTM模型進行情感分析和比較研究。驗結果表明,LSTM模型在實驗中表現(xiàn)較佳并可為相關情感分析模型的優(yōu)化提供一定的意義。

      關鍵詞: 情感分析;卷積神經(jīng)網(wǎng)絡;長短期記憶神經(jīng)網(wǎng)絡

      中圖分類號: TP391? ? ? ? 文獻標識碼:A

      文章編號:1009-3044(2019)21-0188-00

      開放科學(資源服務)標識碼(OSID):

      Abstract:In the Internet there are full of comments and information with strong emotions, and the analysis of such information becomes the main way to know people's opinions. Emotion analysis is a direction of natural language processing (NLP), which is used to judge the types of emotions described in text. The emotional feature of the sentence is identified by building the user's own emotional model, and the designed model is used for emotional analysis with the deep learning framework. Finally, the accuracy of each model is obtained. Using the TensorFlow deep learning framework, the open data sets were analyzed and compared using CNN and LSTM models. The experimental results show that the LSTM model performs better in the experiment and can provide some significance for the optimization of related emotion analysis model.

      Key words:sentiment analysis;convolutional neural network;long short-term memory network.

      隨著電子信息技術的蓬勃發(fā)展,人們在日常生活當中的情感需求不斷增加,進而微信、微博等社交網(wǎng)絡的使用人數(shù)也在不斷增長,這些帶有情感的交流信息也在逐漸引起學者們的關注。近年來,由于人們不斷研究的神經(jīng)網(wǎng)絡的推進,及深度學習的發(fā)展,在CNN、RNN等模型下進行自然語言情感分析也取得了許多突破。情感分析顧名思義即是將信息發(fā)送者所傳遞的信息通過一定方法進行分析得到其中隱藏的觀點及其態(tài)度。目前情感信息分類的首要目標為:基于情感詞的標注[1]。其主要將表示情感的詞分為,正面情感詞和負面情感詞,通過比較一句話中正負情感詞的相對數(shù)量,來判斷句子的情感。目前,市面上已經(jīng)浮現(xiàn)出大量有關于情感分析的方法,如:基于情感詞典切分類方法[2],是機器學習在情感分析方面從零到有的突破;CNN模型[3],使用詞向量分類文本;RNN模型[4],利用上下文構建模型;遞歸神經(jīng)網(wǎng)絡模型[5],發(fā)掘隱含特征,大大提升分類的準確性;在日新月異今天,越來越多的研究人員選擇使用深度學習技術來對文本進行分析,但在繽紛多樣的方法中,我們將通過比較得出最有效的方法進行情感分析。

      在以往的分析方法中,研究者的關注點往往落在CNN模型與LSTM模型上,這兩種不分伯仲的研究方法各自在各自的領域發(fā)揮著無比強大的作用,CNN模型利用詞向量對文本進行分類,LSTM模型利用正反向量進行處理,顯而易見LSTM模型作為新一代的模型,在功能完善方面已經(jīng)遠遠超過CNN模型,但在情感分析孰輕孰重我們還應該再做進一步的比較。

      本文運用CNN和LSTM兩種分析模型進行對比,通過在公開數(shù)據(jù)集上的相關實驗,證明 LSTM模型在情感分析方面的有利及重要性。

      1? 情感分析模型

      1.1 CNN模型

      CNN(Convolutional neural network,CNN,卷積神經(jīng)網(wǎng)絡)是一個多層的神經(jīng)網(wǎng)絡,它作為當時具有突破性的模型被研發(fā)出來,其基本結構為輸入層、卷積層、池化層、全連接層、輸出[6],如圖1所示。

      傳統(tǒng)中文文本分類采用支持向量機(SVM)模型,該模型的缺點是:只統(tǒng)計文本出現(xiàn)的頻率,不考慮詞語之前的序列關系。

      CNN模型首先需要進行預處理,將樣本轉(zhuǎn)換為詞向量, 句子中的每個詞語對應一個向量機。通過分析句子長度較短、結構,采用詞嵌入向量表示, 使得 CNN 模型在處理文本情感分析這一類問題上成為可能。

      通常一個卷積神經(jīng)網(wǎng)絡模型分為三層:

      ① 卷積層。卷積層為模型的輸入層。其功能是對數(shù)據(jù)進行特征提取,內(nèi)部包含多個卷積核,通過卷積核中的每個元素都對應一個權重系數(shù)。卷積運算包含一個濾波器,通過濾波器將每個詞按序排列,將初始的句子矩陣轉(zhuǎn)化為詞向量。

      ②? 池化層。池化層的主要作用為下采樣,通過對 feature map進行采樣分析,濾除非重要成分,簡化系統(tǒng)參數(shù)數(shù)量,從而提高運算效率。本文采用最大池化來提取關鍵特征。

      ③? 全連接層。選擇 ReLU 作為其激活函數(shù). 其目的是為防止過度擬合,需要設置Dropout= 0.5. 最終提取的特征傳到分類器, 采用 Softmax 函數(shù)計算每個標簽的概率。

      1.2 LSTM模型

      LSTM(LongShort-TermMemory,長短期記憶網(wǎng)絡)是由RNN(Recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡)演變而來[7],但它的有效性遠遠大于RNN。解決了RNN數(shù)據(jù)距離較長難以收斂的問題,通過加入判斷信息是否有用的處理器有效地解決了其他神經(jīng)網(wǎng)絡的長距離依賴問題。并且在一定的程度上解決了兩大問題:RNN梯度消失及梯度爆炸,他在CNN與RNN的基礎上都更進了一步。

      一個處理器(cell)包含遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)三扇門,如圖2所示。

      遺忘門:在遺忘門連接上一個處理器ht-1的輸出,并通過在本單元輸入的xt在[ht-1,xt]內(nèi)產(chǎn)生一個[0,1]以內(nèi)的值,從而控制上一單元的遺忘程度。

      輸入門:輸入門主要控制信息的輸入,輸入門通過yanh函數(shù)差生一個新的候選向量C來控制信息被加入的多少。

      輸出門:輸出門控制當前處理器有多少信息被過濾掉,先激活當前單元,然后控制過濾的程度。

      LSTM這種三門細胞的設計,使得LSTM可以記憶、更新長距離的信息,從而可以實現(xiàn)對長距離信息的處理。每扇門都利用xt和ht-1作為輸入,利用這些輸入計算一些中間狀態(tài),并將信息匯總到ht。這些門作為不同的模塊,執(zhí)行不同的功能。輸入門決定在每個輸入上增加多少信息,遺忘門決定丟棄什么信息,輸出門則根據(jù)中間狀態(tài)來進行輸出[8]。從抽象的角度來看,LSTM能更好地保存文本種測長期依賴關系,這也是LSTM在進行情感文本分析時的優(yōu)勢所在。

      2.實驗與分析

      2.1數(shù)據(jù)集

      本文中采用(ChnSentiCorp_htl_ba_2000)公開數(shù)據(jù)集中“有關中文情感挖掘的酒店評論語料”[9]作為訓練集與測試集,選用正負各1000的平衡語料作為數(shù)據(jù)集進行分析。數(shù)據(jù)集樣例見表 1。在這里停用詞使用的是中科院計算所中文自然語言處理開放平臺所發(fā)布的中文停用詞表,其中包含了1208個停用詞。

      表 1? ?數(shù)據(jù)集樣例

      2.2 數(shù)據(jù)預處理

      采用Jieba分詞分別對正向語料詞匯及負向語料詞匯進行分類分詞處理。分類分詞處理結束后利用停用詞表分別對正負預料過濾停用詞。刪除評論中的無用詞、無效符號和標點符號。取最后利用Wiki中文語料的Word2vec模型[10]將文本信息轉(zhuǎn)化為特征詞向量。

      2.3 實驗結果分析

      CNN、LSTM模型的正確率分別為0.82和0.856。實驗橫向?qū)Ρ攘藘煞N模型的正確率,前期數(shù)據(jù)處理后各個模型性能表現(xiàn)基本一致,充分證明了深度學習對于情感分析研究的可行性。LSTM就結果而言效果略優(yōu)于CNN模型。

      3 結論

      經(jīng)過上述實驗及對比分析結果表明:

      ①本文基于深度學習主要介紹了常見神經(jīng)網(wǎng)絡模型,比較兩個深度學習模型的差異,驗證了本文思路的正確性。

      ②采用分詞預處理詞向量方法進行實驗,使得詞向量質(zhì)量的提高,進而提高模型的準確率。CNN模型就結果而言并不能體現(xiàn)出自身的優(yōu)勢。

      ③基于上述LSTM模型處理中文情感分析有較好的性能的特點,利用LSTM及其相關模型解決其他語言的情感分析,能否找到類似的模型作為下一步研究工作的重點。

      參考文獻:

      [1] 孟仕林,趙蘊龍.一種融合情感與語義信息的情感分析方法[J].計算機應用,2019(9).

      [2] 伍行素,陳錦回.基于LSTM深度神經(jīng)網(wǎng)絡的情感分析方法[J].上饒師范學院學報,2018(8).

      [3]KIMY.ConferenceonEmpiricalMethodsinNaturalLanguageProcessing[C].Doha:ACL Press,2014:1746-1751

      [4] Siwei Lai, Liheng Xu, Kang Liu, et al. Recurrent convolutional neural networks for text classification[C].

      Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, 2015: 2267-2273.

      [5]SOCHERR,PERELYGINA,WUJY,etal.Seattle,WA,USA:ProceedingsofConferenceonEmpiricalMethodsinNatu- ralLanguageProcessing[C],Seattle:ACLPress,2013:1631-1642.

      [6] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡研究綜述[J].計算機學報,2017(40)1229-1251.

      [7] 李楓林,柯佳.基于深度學習框架的實體關系抽取研究進展[J].情報科學,2018(8).

      [8] 蘆金宇.tensorflow項目實戰(zhàn)(LSTM情感分析)(2018-03-03).https://blog.csdn.net/ch1209498273.

      [9] 情感分析 訓練集數(shù)據(jù) 中文情感挖掘的酒店評論.https://download.csdn.net/download/qzwdh/9874251.

      [10] 利用Python實現(xiàn)wiki中文語料的word2vec模型構建.http://www.jianshu.com/p/ec27062bd453.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      情感分析卷積神經(jīng)網(wǎng)絡
      基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡的評價對象抽取研究
      基于卷積神經(jīng)網(wǎng)絡溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡的物體識別算法
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設計與實現(xiàn)
      基于詞典與機器學習的中文微博情感分析
      在線評論情感屬性的動態(tài)變化
      預測(2016年5期)2016-12-26 17:16:57
      深度學習算法應用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于卷積神經(jīng)網(wǎng)絡的樹葉識別的算法的研究
      马山县| 新蔡县| 蒲江县| 漳州市| 福泉市| 湾仔区| 青川县| 永仁县| 盐津县| SHOW| 邛崃市| 从江县| 贵州省| 天水市| 景东| 莆田市| 柘城县| 息烽县| 嘉善县| 孟村| 彝良县| 鲁山县| 阳谷县| 高安市| 永修县| 邵武市| 庆元县| 常熟市| 营口市| 平山县| 科尔| 舒兰市| 朝阳区| 辛集市| 呼图壁县| 巧家县| 府谷县| 苏尼特右旗| 宣武区| 承德市| 钟山县|