李天辰,殷建平
1.國防科學技術大學 計算機學院,長沙 410073 2.國防科學技術大學 高性能計算重點實驗室,長沙 410073
基于主題聚類的情感極性判別方法*
李天辰1+,殷建平2
1.國防科學技術大學 計算機學院,長沙 410073 2.國防科學技術大學 高性能計算重點實驗室,長沙 410073
LI Tianchen,YIN Jianping.Sentiment polarity discrimination method based on topic clustering.Journal of Frontiers of Computer Science and Technology,2016,10(7):989-994.
目前,大多數(shù)方法在判別文本情感極性上采用的是提取情感特征并應用分類器進行分類的方式。然而由于網(wǎng)絡文本表述方式多樣,主題分散等特點,使得情感特征提取過程變得愈發(fā)困難。借助LDA(latent Dirichlet allocation)主題模型,首先對文本進行主題聚類,然后在每個主題子類上應用循環(huán)神經網(wǎng)絡的方法對正、負情感樣本分別建立主題模型,最后基于所屬主題和所屬情感的概率進行聯(lián)合判斷。采用這種方法,通過劃分子類的方式規(guī)整了不同主題下文本的表述方式,限制了不同主題下詞匯詞義改變的問題,并且利用訓練語言模型的方法很好地規(guī)避了直接提取特征的困難,將特征的挖掘過程內化在了訓練模型的過程中。通過在IMDB電影評論樣本上的實驗可以看出,在應用了主題聚類后,模型分類的準確性有了顯著提高。
情感分析;主題模型;循環(huán)神經網(wǎng)絡
隨著網(wǎng)絡技術的快速發(fā)展和日趨成熟,互聯(lián)網(wǎng)已經不再是一個僅僅用于獲取信息的靜態(tài)媒介,而是逐步向著信息共享、交流互動的動態(tài)媒介轉變?!兜?5次中國互聯(lián)網(wǎng)絡發(fā)展狀況報告》指出,目前全國網(wǎng)絡用戶總數(shù)量高達6億,其中更是有將近半數(shù)之多的用戶主動并樂于針對一些熱點事件、新聞,借助論壇、微博等社交媒體發(fā)表自己的觀點、想法和立場;而在一些網(wǎng)絡購物平臺的討論區(qū)中,也可以看到眾多客戶針對某些商品或服務表達自己的使用感受或分享自己的消費體驗。因此,如何高效、快速、準確地處理海量網(wǎng)絡文本中的觀點信息,挖掘并分析其中隱含的情感特征,這一課題已經逐漸受到自然語言處理、機器學習等領域專家和學者的高度關注。
文本情感分析是對帶有主觀性情感色彩的文本進行分析、處理和歸納,并從中提取有價值的信息,整理出評論者不同觀點、立場和態(tài)度的過程[1]。目前,文本情感分析的主流方法主要有基于規(guī)則和基于統(tǒng)計這兩大類[2-3]。但是,由于網(wǎng)絡文本表達方式多樣性、表達形式不規(guī)范性等特點,基于規(guī)則的情感分析方法在規(guī)則的總結和制定上成本高,耗時長,并且不具有良好的可擴展性。因此,就目前來看,在海量網(wǎng)絡文本作為數(shù)據(jù)基礎的背景下,越來越多的學者傾向于采用基于統(tǒng)計的方法。Pang[4]、Kennedy[5]、Wei[6]和Bermingham[7]等人借助機器學習的方法,分別對電影評論、商品評論、微博評論這3類不同的網(wǎng)絡文本進行情感極性的判別。然而這些方法的共同特點都是需要根據(jù)領域特點提取恰當?shù)奶卣鬟M行訓練,因此特征選擇的好壞會直接影響分類器最終的分類效果。近些年,隨著深度學習技術的不斷發(fā)展,部分學者試圖利用此技術從原始文本信息中直接學習出詞匯新的表征方式,并將其應用于情感傾向性的判別中。Bengio[8]、Mikolov[9]、Collobert[10]和Le[11]等人利用深度神經網(wǎng)絡構建語言模型,同時訓練出帶有語義關聯(lián)特性的新的詞向量表征方式,并用于后續(xù)情感分析等自然語言處理任務中;Socher等人[12-13]則直接利用遞歸神經網(wǎng)絡來預測句子的情感極性及分布。然而,深度學習技術由于其神經網(wǎng)絡結構的復雜性,導致了模型訓練算法的時間復雜度高,訓練耗時較長。
本文針對現(xiàn)有方法的不足,提出了基于LDA(latent Dirichlet allocation)主題模型聚類的情感極性判別方法。首先,利用LDA主題模型將原始語料庫進行主題分類。這里主要基于兩點考慮:(1)在同一主題下,詞匯所反映出的情感信息更加一致,可以在一定程度上避免語境對同一詞匯詞義的影響;(2)經過主題聚類劃分的子集,語料的規(guī)模大幅下降,為提高后續(xù)語言模型訓練的效率提供保障。之后,會在不同主題下訓練相應正、負樣本的語言模型,這里選用最近比較流行的循環(huán)神經網(wǎng)絡語言模型(recurrent neural network language model,RNNLM),主要是因為:(1)利用RNNLM進行情感極性的判別可以將文本情感特征的提取過程內化到模型的訓練之中,利用海量真實文本信息的同時,減少了對外部情感詞典的依賴;(2)RNNLM對于文本中長距離的歷史信息有著較強的捕獲能力,在訓練過程中可以充分考慮到上下文對詞匯的影響因素。最后,結合文檔所屬主題的概率及各個子語言模型的情感預測概率實現(xiàn)新文檔的情感傾向性的判別。
LDA主題模型[14]是由Blei在2003年提出的一種無監(jiān)督的機器學習技術,用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。LDA主題模型的基本思想是將每一篇文檔視作由一系列主題所構成的一個概率分布,而每一個主題又可以視為很多單詞所構成的一個概率分布,模型如圖1所示。目前,在LDA主題模型中比較常見的參數(shù)學習和推斷方法主要是吉布斯采樣法(Gibbs sampling)。
Fig.1 Topic model圖1 主題模型
本文將每一篇評論文本看作單一文檔。在經過文本分詞,去除停用詞、低頻詞以及單詞詞根化等一系列文本預處理流程后,假設將整個樣本集分為T個主題,分別是{t1,t2,…,tT}。在給定文檔后,主題后驗概率的計算方法如下所示:
其中,Cij表示在文檔xi中,屬于主題tj的單詞的數(shù)量,是由吉布斯采樣方法經過多次迭代后平均得到的結果。αj是狄利克雷分布的第j維超參數(shù),通過學習過程中不斷調整αj的取值使得模型達到最優(yōu)。
在計算完各個訓練文本的主題向量后,按照主題分布對原始訓練集進行數(shù)據(jù)樣本的劃分。這里采用K-means聚類方法將近似主題的文檔合并歸類,考慮到實際中同一篇評論文檔可能同時屬于多個主題的情況,因此針對每一篇文檔的主題歸屬并不是嚴格唯一的,也就是說,在此設置了一個軟聚類的閥值τ,只有當Pt(tj|xi)>τ時,才嚴格將其劃分在某一主題下,否則該文檔可以同屬于多個主題。最后在T個樣本子集上應用循環(huán)神經網(wǎng)絡訓練正負樣本的語言模型用來進行后續(xù)情感極性的判斷。
在測試階段,對于新來的測試文本,首先對其進行主題的判斷,通過應用主題模型LDA可以計算出當前測試文檔的主題向量及其所屬主題的概率。之后,通過文檔所屬主題概率以及各主題下語言模型判別所屬情感的概率來最終計算出測試文本的情感極性,計算方法如下所示:
其中,Ps(c|tj,xi)表示文檔xi在主題tj下通過情感模型判別出屬于某一類c(正情感或負情感)的概率;Pt(tj|xi)則表示文檔xi被判定為主題tj的概率。
整體的文本情感極性判別流程如圖2所示。
Fig.2 Framework of sentiment analysis based on topic clustering圖2 基于主題聚類的情感極性判別算法框架圖
對于文本情感分類的問題,傳統(tǒng)的大多數(shù)方法是在原始文本中借助情感詞典發(fā)現(xiàn)情感特征詞,并以此為基礎構建文本的特征向量,輸入到分類器中進行情感極性的判斷。這種方式的分類準確率雖然不錯,但也暴露出了很大的問題,即特征的選取對于情感詞典的過度依賴性。隨著網(wǎng)絡新詞的不斷涌現(xiàn),詞義隨語境的不斷遷移,傳統(tǒng)的情感詞典已經不能很好地跟上網(wǎng)絡文本發(fā)展的潮流。對于文本情感分析問題的研究,也應該逐步由依靠詞典發(fā)現(xiàn)情感特征,向著從海量真實文本中挖掘情感信息這種思路轉變。
因此,本文對文本情感判別的方式是利用原始文本的詞匯信息,應用語言模型建模的方法來探測文本的情感傾向。很明顯,在正、負情感樣本中,由于語言習慣、表達方式和情感詞語使用的不同,訓練得到的語言模型也會存在差異,這樣就可以通過發(fā)現(xiàn)正負樣本語言模型之間的差異把基于語言模型表示的測試文本區(qū)分為“正樣例”和“負樣例”,實現(xiàn)文本情感分析的目的。因此,在應用語言模型判別情感的方法中,首先針對正、負樣本分別進行語言模型的建立,之后對新來的測試樣本通過貝葉斯法則計算其在正、負兩類語言模型上的概率,并據(jù)此判別該測試樣本所屬的情感分類。
傳統(tǒng)的N元語言模型[15]雖然簡單實用,但是相對來說,其缺陷也是十分明顯的。其中最主要的兩個問題就是:(1)N元語言模型無法有效地利用長距離的上下文信息,從而對某些詞匯間的依賴關系不能很好地捕獲;(2)N元語言模型無法高效地對相似詞語進行判別,也就是說,N元語言模型僅僅對文本字面進行建模和概率上的統(tǒng)計,并沒有通過建模理解詞匯間的語義關系。而在文本情感分析問題中,這兩點不足所反映出的問題恰恰是人們需要格外關注的。因此,本文選取了Mikolov等人提出的循環(huán)神經網(wǎng)絡語言模型(RNNLM)[16]作為情感文本判別的模型。利用神經網(wǎng)絡映射和隱層循環(huán)反饋的特點,RNNLM很好地將空間降維與歷史信息捕獲兩者結合到一起,合理地解決了上述N元語言模型的兩點不足。簡化模型如圖3所示。
圖3中w(t)為文檔中第t個詞的稀疏向量表示(即詞向量中單詞對應在詞表位置為1,其余位置為0),s(t-1)為上一個隱藏層中計算得到的向量,隱藏層s(t)和輸出層y(t)的值如下所示:
Fig.3 Basic RNNLM圖3 簡化的循環(huán)神經網(wǎng)絡語言模型
4.1樣本數(shù)據(jù)的選擇
本次實驗數(shù)據(jù)選用的是當前情感分析領域中應用比較普遍,同時也受到廣大學者和研究機構認同的IMDB影評數(shù)據(jù)庫。實驗數(shù)據(jù)總共包括50 000篇電影評論,其中正、負情感樣本各25 000篇。選取其中的25 000篇樣本作為訓練樣本,其中正、負訓練樣本各12 300篇,各余下200篇正、負樣本作為模型的驗證樣本,剩余的25 000篇樣本作為模型的測試樣本。
4.2訓練和測試語料的預處理
在使用IMDB數(shù)據(jù)樣本之前,要對其進行語料的預處理。本實驗對于影評文本主要的處理內容包括:(1)對于電影評論文本的分詞;(2)對于停用詞和低頻詞的過濾;(3)對于非文本信息(包括符號等)的過濾;(4)對于詞形統(tǒng)一的詞根化處理。
4.3結果分析
本實驗中,將主題個數(shù)T設為50,軟聚類參數(shù)τ設為0.4,循環(huán)神經網(wǎng)絡語言模型中隱藏節(jié)點個數(shù)設為50。實驗結果如表1所示。
從表1中可以看出,循環(huán)神經網(wǎng)絡構建的語言模型在情感極性判別的準確率上略高于N元語言模型。而在提前對語料庫中文本進行主題劃分后,兩類語言模型所得到的情感判別準確率均有所提升,而且幅度較大。由此可以說明,文本的表述方式以及文本中詞匯的使用與主題有著密切的聯(lián)系,同一主題下訓練得到的正、負樣本語言模型往往有著更加優(yōu)秀的情感區(qū)分度。
Table 1 Results on IMDB test set表1 在IMDB測試集上的實驗結果
針對網(wǎng)絡文本表述方式多樣性,主題分散,情感特征不易捕捉等特點,本文將LDA主題模型與循環(huán)神經網(wǎng)絡語言模型相結合,提出了一種基于主題聚類的情感極性判別方法,并通過對實驗結果的分析,得到了若干有指導意義的結論。下一步工作計劃:(1)在文本主題聚類的基礎上,組合多種機器學習方法進行情感極性的判定,利用各種方法,優(yōu)勢互補,進一步地提高情感判別的準確率;(2)由于主題聚類后需要分別在數(shù)據(jù)樣本子集上進行分類器或語言模型的訓練,這種結構恰巧十分適用于并行化處理,因此在后續(xù)工作中,擬將算法根據(jù)主題結構特點進行并行化的修改,以提升文本情感模型訓練以及應用模型檢測的效率。
[1]Pang Bo,Lee L.Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval,2008,2(1/ 2):1-135.
[2]Varghese R,Jayasree M.A survey on sentiment analysis and opinion mining[J].International Journal of Research in Engineering and Technology,2013,2(11):312-317.
[3]Medhat W,Hassan A,Korashy H.Sentiment analysis algorithms and applications:a survey[J].Ain Shams Engineering Journal,2014,5(4):1093-1113.
[4]Pang Bo,Lee L,Vaithyanathan S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing,Philadelphia,USA,Jul 6-7, 2002.Stroudsburg,USA:ACL,2002:79-86.
[5]Kennedy A,Inkpen D.Sentiment classification of movie reviews using contextual valence shifters[J].Computational Intelligence,2006,22(2):110-125.
[6]Wei Wei,Gulla J A.Enhancing the HL-SOT approach to sentiment analysis via a localized feature selection framework[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing,Chiang Mai,Thailand,Nov 8-13,2011:327-335.
[7]Bermingham A,Smeaton A F.Classifying sentiment in microblogs:is brevity an advantage?[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management,Toronto,Canada,Oct 26-29,2010. New York,USA:ACM,2010:1833-1836.
[8]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research, 2003,3:1137-1155.
[9]Mikolov T,Karafiát M,Burget L,et al.Recurrent neural network based language model[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,Chiba,Japan,Sep 26-30,2010:1045-1048.
[10]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research,2011,12:2493-2537.
[11]Le Q V,Mikolov T.Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on Machine Learning,Beijing,China,2014.
[12]Socher R,Pennington J,Huang E H,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK, Jul 27-29,2011.Stroudsburg,USA:ACL,2011:151-161.
[13]Socher R,Perelygin A,Wu J Y,et al.Recursive deep models for semantic compositionality over a sentiment treebank [C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle,USA, 2013.
[14]Blei D,Ng A Y,Jordan M I.Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003,3:993-1022.
[15]Stolcke A.SRILM—an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing,Denver,USA,Sep 16-20,2002: 901-904.
[16]Mikolov T.Statistical language models based on neural networks[D].Brno University of Technology,2012.
LI Tianchen was born in 1988.He is an M.S.candidate at College of Computer,National University of Defense Technology.His research interests include machine learning,artificial intelligence and natural language processing.
李天辰(1988—),男,北京人,國防科學技術大學計算機學院碩士研究生,主要研究領域為機器學習,人工智能,自然語言處理。
YIN Jianping was born in 1963.He received the Ph.D.degree in computer science and technology from National University of Defense Technology in 1990.Now he is a professor at National University of Defense Technology, and the head of Technical Committee on Theoretical Computer Science of China Computer Federation.His research interests include algorithm design,artificial intelligence,pattern recognition and information security.
殷建平(1963—),男,湖南益陽人,1990年于國防科學技術大學獲得博士學位,現(xiàn)為國防科學技術大學教授,CCF會員,主要研究領域為算法設計,人工智能,模式識別,信息安全。
Sentiment Polarity Discrimination Method Based on Topic Clustering?
LI Tianchen1+,YIN Jianping2
1.College of Computer,National University of Defense Technology,Changsha 410073,China 2.State Key Laboratory of High Performance Computing,National University of Defense Technology,Changsha 410073,China +Corresponding author:E-mail:ltc_steven@sina.com
Almost all state-of-art methods for sentiment analysis can hardly avoid extracting sentiment features and applying them to classifiers for detecting.However,with the characteristics of diversity expressions and scattered themes of network texts,it’s too difficult to extract more suitable and proper sentiment features.This paper proposes a novel algorithm to solve such problems.Firstly,original texts need to be clustered by topics with LDA(latent Dirichlet allocation)model.Then,for each topic dataset,language models are trained for positive and negative samples by using recurrent neural network.Finally,two kinds of probabilities of topic and sentiment are combined for evaluating text sentiment polarity.Through this method,this paper firstly standardizes text expression by dividing subcategories,limiting changes of words meaning under different topics,and then utilizes language model to avoid the difficulty of extracting features,making it possible to be internalized in the process of training model.The experimental results on IMDB show that the proposed method improves a lot in terms of accuracy with topic clustering.
sentiment analysis;topic model;recurrent neural network
2015-06,Accepted 2015-08.
10.3778/j.issn.1673-9418.1507044
A
TP391
*The National Natural Science Foundation of China under Grant Nos.61170287,61232016(國家自然科學基金).
CNKI網(wǎng)絡優(yōu)先出版:2015-08-27,http://www.cnki.net/kcms/detail/11.5602.TP.20150827.1550.014.html