• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于主題流與深度學(xué)習(xí)的情感分析算法

      2018-10-29 11:09劉納王新
      軟件導(dǎo)刊 2018年8期
      關(guān)鍵詞:情感分析深度學(xué)習(xí)

      劉納 王新

      摘要:基于機器學(xué)習(xí)的情感分類方法已經(jīng)取得了較大進展,但在大量情感分類方法中,往往都是結(jié)合詞嵌入和傳統(tǒng)的機器學(xué)習(xí)方法,缺乏對文本主題以及時序關(guān)系等因素的有效利用。針對上述問題,提出了一種基于主題流與深度學(xué)習(xí)的情感分類算法,通過分析文本的主題分布,并引入時序關(guān)系,在此基礎(chǔ)上利用適合的長短記憶神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進行情感分類。實驗證明,基于主題流與深度學(xué)習(xí)的情感分類算法性能較好。

      關(guān)鍵詞:NLP;情感分析;深度學(xué)習(xí);主題流

      DOIDOI:10.11907/rjdk.181487

      中圖分類號:TP312

      文獻標(biāo)識碼:A 文章編號:1672-7800(2018)008-0028-03

      英文摘要Abstract:At present,sentiment classification method based on machine learning has made great progress,but among the a large number of sentiment classification methods,word combination and traditional machine learning methods are often used,and there is a lack of effective use of such factors as text topics and sequence relationships in a large number of sentiment classification methods.In order to solve the problems,this paper presents a sentiment classification algorithm based on topic flow and deep learning,it analyzes the topic distribution of the text and introduces the sequence relationship and uses deep learning methods such as long short-term memory neural networks to classify the sentiment.Experiments show that the sentiment classification algorithm based on topic stream and deep learning proposed in this paper has better performance.

      英文關(guān)鍵詞Key Words:NLP; sentiment analysis; deep learning; topic flow

      0 引言

      隨著互聯(lián)網(wǎng)及電子商務(wù)的快速發(fā)展,人們在線上的活動越來越多,產(chǎn)生了大量帶有主觀色彩的信息。這些帶有主觀性的信息可以是用戶對某次活動或服務(wù)的評價,或者是某新聞事件或文章的觀點等,對這些信息進行挖掘,可使政府部門了解相關(guān)輿情,輔助決策,對用戶進行個性化推薦以及對虛假評論進行檢測。僅靠人工對這些信息進行分析將耗費大量的人力物力和時間,通過計算機進行數(shù)據(jù)挖掘和分析是一個熱點,而情感分析是其中重要的分支[1-4]。

      目前,情感分析的主要研究方法是傳統(tǒng)的機器學(xué)習(xí)分類算法,如貝葉斯分類、SVM以及聚類等[5-6],這些算法主要分監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)[7-8]。監(jiān)督學(xué)習(xí)需要靠大量的人工標(biāo)注,代價較高。相反,無監(jiān)督學(xué)習(xí)不需要人工標(biāo)注數(shù)據(jù),可降低標(biāo)注代價,但效果完全依賴于訓(xùn)練結(jié)果,無法有效提高性能。

      本文對文本信息進行了深入研究,通過挖掘文本的主題分布和時序關(guān)系,采用深度學(xué)習(xí)方法進行情感分類。

      1 相關(guān)工作

      情感分析從2002年提出就受到廣泛關(guān)注,在中英文情感文本中得到廣泛應(yīng)用,特別在線上評論和新聞評論的情感分析有了很大的發(fā)展。機器學(xué)習(xí)在情感分析中的應(yīng)用受到研究者青睞[9-10]。Sida等[11]提出了采用樸素貝葉斯和SVM相結(jié)合的方法,實驗證明該方法取得了不錯的結(jié)果。Deriu等[12]提出利用神經(jīng)網(wǎng)絡(luò)模型進行情感分析,與其它傳統(tǒng)方法相比效果較好。Catal等[13]提出了一種基于模糊聚類的方法,它是一種無監(jiān)督學(xué)習(xí)方法,在減少人工標(biāo)注的情況下取得了滿意的準(zhǔn)確率。Xia等[14]提出了一種集成技術(shù),集合詞性和詞關(guān)系等多種特征,并結(jié)合貝葉斯、信息熵以及SVM等方法進行廣泛的對比試驗,取得了一定進展和較好的實驗結(jié)果。本文研究了基于機器學(xué)習(xí)的情感分析方法,如樸素貝葉斯、支持向量機(SVM,Support Vector Machines)、神經(jīng)網(wǎng)絡(luò)模型[15]以及聚類等。通過分析文本特征,將文本映射為特征向量的表示形式,然后通過機器學(xué)習(xí)模型進行分類和預(yù)測。

      文本分析的一個重要研究方向就是自然語言處理。詞是文本的基本組成單元,主題分析(LDA,Latent Dirichlet Allocation)是其中一個重要分支[16],不少研究者在該領(lǐng)域進行了大量的研究工作。王偉等[17]提出基于LDA主題模型的評論文本情感分類。該文結(jié)合情感詞典,提出情感詞和上、下文,然后利用LDA挖掘情感特征,最后利用機器學(xué)習(xí)實現(xiàn)情感分類。該方法降低了情感特征的向量維度,取得了很好的分類效果。黃發(fā)良等[18]提出基于多特征融合的主題情感分析方法,挖掘多種文本特征進行情感分析。本文研究了主題分析在文檔中的應(yīng)用,并在此基礎(chǔ)上結(jié)合深度學(xué)習(xí)方法應(yīng)用于情感分析。

      2 算法理論

      2.1 LDA主題分析模型

      LDA是Blei等[19]于2003年提出的基于貝葉斯概率的主題模型,該模型屬于無監(jiān)督的機器學(xué)習(xí)模型,目的是以無監(jiān)督的學(xué)習(xí)方式去挖掘文本中包含的主題信息,即“Topic”。該算法實質(zhì)就是利用文本中詞語的共有隱含特征分析文本的Topic結(jié)構(gòu),主要對“一詞多義”和“一義多詞”兩種語言現(xiàn)象進行建模,模型表示如圖1所示。

      圖1中,K表示主題個數(shù),M表示文檔總數(shù),Nm 表示第m篇文檔的單詞總數(shù),β是每個主題Topic中詞的多項分布的Dirichlet先驗參數(shù),α是每個文檔下Topic的多項分布Dirichlet先驗參數(shù),zm,n是第m篇文檔中第n個詞的主題,wm,n是m篇文檔中的第n個詞。本文使用的主題模型LDA算法步驟如下:

      LDA算法:

      算法輸入:分詞之后的文檔,通常一篇文章一行,每行包含若干詞。

      主題數(shù)K,超參數(shù)α和β

      算法輸出:

      每篇文檔的各個詞所屬的主題,model-tassign.txt

      每篇文檔的主題概率分布:model-theta.txt

      每個主題下的詞概率分布:model-phi.txt

      每個主題下詞概率從高到低排序:model-tword.txt

      2.2 深度學(xué)習(xí)模型

      使用長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)作為本文算法的深度學(xué)習(xí)部分。LSTM最早由Hochreiter等\[20\]于1997年提出,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent neural network),可以學(xué)習(xí)長期依賴信息。后來該算法得到了改良,在許多問題上得到應(yīng)用。

      所有 RNN 都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问?。在?biāo)準(zhǔn)的 RNN 中,這個重復(fù)模塊只有一個非常簡單的結(jié)構(gòu),如一個 tanh 層,見圖2。

      LSTM 同樣是這樣的結(jié)構(gòu),但是重復(fù)的模塊擁有不同的結(jié)構(gòu)。不同于RNN單一神經(jīng)網(wǎng)絡(luò)層,LSTM有4個,以一種非常特殊的方式進行交互,見圖3。

      2.3 基于主題流與深度學(xué)習(xí)的情感分析算法

      在上述基礎(chǔ)上本文提出基于主題流與深度學(xué)習(xí)的情感分析算法,簡稱TFDL-SA算法。本算法引入時序關(guān)系,首先對中文文本進行分詞,考慮詞的時序關(guān)系,利用LDA主題模型生成主題流,即Xi=t1,t2,…tn。其中Xi表示第i篇文檔的主題流,tj表示文檔中第j個詞的主題。文檔對應(yīng)的標(biāo)簽向量矩陣為y=[l1,l2,…,lm],其中l(wèi)i表示每篇文檔主題流Xi對應(yīng)的標(biāo)簽。然后將M篇文檔的主題流與標(biāo)簽X,y作為LSTM深度學(xué)習(xí)模型的輸入特征,完成深度學(xué)習(xí)分類。

      TFDL-SA算法步驟如下:

      輸入:(X,y),其中X表示文檔的主題流,y表示文檔對應(yīng)的標(biāo)簽

      輸出:分類結(jié)果,1表示積極,0表示消極

      jieba分詞,生成帶有次序的詞字典

      LDA主題生成模型,生成文檔的主題流向量表示

      while 不收斂 doLSTM訓(xùn)練end while

      3 實驗結(jié)果及分析

      為驗證算法性能設(shè)計如下實驗:數(shù)據(jù)集選用斯坦福大學(xué)Stanford Sentiment Treebank標(biāo)準(zhǔn)數(shù)據(jù)集,共兩種:一種是標(biāo)注了兩種情感的數(shù)據(jù)(negative,positive);一種是標(biāo)注了5種情感的數(shù)據(jù)(very negative,negative,neutral,positive,very positive),選用9 645個訓(xùn)練集,2 210個測試集。

      本實驗設(shè)置二分類和五分類兩種場景,使用準(zhǔn)確率(accuracy)、綜合評價指標(biāo)(F-score)作為衡量指標(biāo)。實驗過程中加入對比實驗,分別是結(jié)合詞嵌入單純使用LSTM算法進行分類(簡稱Basic LSTM)、使用主題流分別與CNN和RNN算法進行分類(分別簡稱Topicflow + CNN和Topicflow + RNN)和本文提出的TFDL-SA算法分類。實驗結(jié)果如表1和表2所示。

      實驗結(jié)果分析表明,本文提出的TFDL-SA算法在二分類和五分類時效果更好,準(zhǔn)確率和F值都大于其它幾種算法,原因是本文算法考慮了文本中詞語所屬主題以及時序關(guān)系,包含更多的詞語本身詞性、語義等信息。在深度學(xué)習(xí)訓(xùn)練時,使用LSTM可以更好地處理包含時間序列等信息的事件,多種因素結(jié)合使TFDL-SA算法具有較好性能。

      4 結(jié)語

      大量情感分類方法中缺乏對文本主題以及時序關(guān)系等因素的有效利用,為此本文提出了基于主題流與深度學(xué)習(xí)的情感分析算法。首先,該算法提出了主題流模式,引入文檔中詞的時序關(guān)系生成主題流,作為深度學(xué)習(xí)模型的輸入特征;其次,深度學(xué)習(xí)使用長短期記憶神經(jīng)網(wǎng)絡(luò),適合處理包含時間序列等信息事件。實驗結(jié)果表明,本文提出的情感分析算法具有較好的性能,優(yōu)于目前幾種主流的算法分類結(jié)果。

      本文基于主題生成模型和深度學(xué)習(xí)模型對情感分析進行了研究,但在詞所屬某個主題的選擇上未進行進一步研究,下一步將研究不同主題選擇對情感分析的影響。

      參考文獻:

      [1] AKKAYA C.Sentiment classification[M].New York:Springer ,2014.

      [2] GO A,BHAYANI R,HUANG L.Twitter sentiment classification using distant supervision[J].Cs224n Project Report,2009(6):168-172.

      [3] MAZZONELLO V,GAGLIO S,AUGELLO A,et al.A study on classification methods applied to sentiment analysis[C].IEEE Seventh International Conference on Semantic Computing,2013:426-431.

      [4] LAVANYA S K,VARTHINI B P.Sentiment classification of web opinion documents[C].International Conference on Electronics and Communication Systems.IEEE,2014:1-5.

      [5] BESPALOV D,QI Y,BAI B,et al.Sentiment classification with supervised sequence embedding[C].European Conference on Machine Learning and Knowledge Discovery in Databases,2012:159-174.

      [6] LI T,XIAO X,XUE Q.An unsupervised approach for sentiment classification[C].Robotics and Applications.IEEE,2012:638-640.

      [7] 唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的情感分類技術(shù)比較研究[J].中文信息學(xué)報,2007,21(6):88-94.

      [8] 代大明,王中卿,李壽山,等.基于情緒詞的非監(jiān)督情感分類方法研究[J].中文信息學(xué)報,2012,26(4):103-108.

      [9] 孫建旺,呂學(xué)強,張雷瀚.基于詞典與機器學(xué)習(xí)的中文微博情感分析研究[J].計算機應(yīng)用與軟件,2014,31(7):177-181.

      [10] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.

      [11] WANG S,MANNING C D.Baselines and bigrams: simple,good sentiment and topic classification[C].Meeting of the Association for Computational Linguistics: Short Papers.Association for Computational Linguistics,2012:90-94.

      [12] DERIU J,GONZENBACH M,UZDILLI F,et al.SwissCheese at SemEval-2016 Task 4: Sentiment Classification Using an Ensemble of Convolutional Neural Networks with Distant Supervision[C].International Workshop on Semantic Evaluation.2016:1124-1128.

      [13] PHU V N,DAT N D,TRAN V T N,et al.Fuzzy C-means for english sentiment classification in a distributed system[J].Applied Intelligence,2017,46(3):717-738.

      [14] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.

      [15] 陳釗,徐睿峰,桂林,等.結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和詞語情感序列特征的情感分析[J].中文信息學(xué)報,2015,29(6):172-178.

      [16] WEI X,CROFT W B.LDA-based document models for ad-hoc retrieval[J].International Conference on Neural Information Processing Systems ,2006(2):178-185.

      [17] 王偉,周詠梅,陽愛民,等.一種基于LDA主題模型的評論文本情感分類方法[J].數(shù)據(jù)采集與處理,2017,32(3):629-635.

      [18] 黃發(fā)良,馮時,王大玲,等.基于多特征融合的微博主題情感挖掘[J].計算機學(xué)報,2017,40(4):872-888.

      [19] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].J Machine Learning Research Archive,2003(3):993-1022.

      [20] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

      (責(zé)任編輯:杜能鋼)

      猜你喜歡
      情感分析深度學(xué)習(xí)
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
      在線評論情感屬性的動態(tài)變化
      有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      宜州市| 来安县| 广水市| 闸北区| 新余市| 凤庆县| 抚顺市| 图木舒克市| 崇左市| 重庆市| 五寨县| 扎赉特旗| 无棣县| 义乌市| 循化| 科技| 南通市| 西城区| 揭东县| 广宁县| 嵊泗县| 大新县| 隆昌县| 石台县| 桐城市| 榕江县| 横峰县| 新龙县| 荔波县| 呼图壁县| 咸阳市| 南安市| 雅江县| 茂名市| 平远县| 比如县| 梁山县| 饶平县| 江源县| 武宁县| 金门县|