段傳明
摘要:
情感分類是自然語言處理的一個重要分支,情感分類方法包括傳統(tǒng)的基于情感詞典的方法和基于機器學(xué)習(xí)的方法,以及最新的基于深度學(xué)習(xí)的方法。為了探索情感分類的實現(xiàn)方法和研究進(jìn)展,對傳統(tǒng)的情感分類方法和基于深度學(xué)習(xí)的情感分類方法進(jìn)行對比,并對深度學(xué)習(xí)LSTM原理進(jìn)行了簡要描述,可以發(fā)現(xiàn)基于深度學(xué)習(xí)的情感分類方法在情感分類上具有更大優(yōu)勢。
關(guān)鍵詞:
情感分類;神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);詞向量;word2vec;LSTM
DOIDOI:10.11907/rjdk.172867
中圖分類號:TP301
文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2018)001002203
Abstract:Sentiment classification is an important branch of natural language processing.Sentiment classification methods include traditional methods, including the semantic lexicon method,and the machine learning method, and the latest method is based on deep learning. In order to explore the realization method and research progress of sentiment classification, compares the traditional methods and the latest method based on deep learning, and gives a brief description of LSTM principle of deep learning, It can be found that the sentiment classification based on deep learning has a greater advantage.
Key Words:sentiment classification; neural network; deep learning; word embedding; word2vec; LSTM
0引言
情感分類一直是自然語言處理的一個重要分支,其目的是為了找出評論者或作者在某些話題上或針對某一產(chǎn)品的觀點態(tài)度。情感分析在輿情監(jiān)控、金融投資等方面均有廣泛應(yīng)用。傳統(tǒng)的情感分類主要有基于情感詞典的方法和基于機器學(xué)習(xí)的方法,其中基于情感詞典的方法在很多方面受限于情感詞典的質(zhì)量和覆蓋度,而基于機器學(xué)習(xí)的方法又受限于由人工構(gòu)建、抽取的特征。隨著近幾年深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域取得了巨大進(jìn)展,越來越多的研究人員開始采用深度學(xué)習(xí)處理文本分類方法。
1基于情感詞典的文本情感分類
在情感詞典的研究方面,2008年,林鴻飛教授等[1]在已頗具成果的研究基礎(chǔ)上,構(gòu)建了一個中文情感詞語本題庫。基于情感詞典的文本分類是對人腦的簡單模擬,其核心模式是基于詞典和規(guī)則,即以情感詞典作為判斷評論情感極性的主要依據(jù)[2]。如圖1所示,它是根據(jù)以往經(jīng)驗對現(xiàn)有詞匯作出評價的一種模型。比如在生活中,通常把糟糕、膩煩歸為消極詞,把開心、愉悅作為積極詞。通過一個句子中出現(xiàn)的感情詞,從而判斷該句子的感情極性。
根據(jù)圖1所示的基于情感詞典的情感分類方法可以看出,基于情感詞典的文本情感分類是容易實現(xiàn)的,其核心在于情感詞典(類似于大腦語料庫)的訓(xùn)練?;谇楦性~典感情分類主要依賴于情感詞典構(gòu)建和判斷規(guī)則質(zhì)量。而詞典構(gòu)建和判斷規(guī)則質(zhì)量兩者都需要耗費很多人力,包括人工設(shè)計和人們的先驗知識。
2基于機器學(xué)習(xí)的情感分類
Pang等[3]于2002年初次提出使用標(biāo)準(zhǔn)的機器學(xué)習(xí)方法解決情感分類問題。由圖2可以看出,基于機器學(xué)習(xí)技術(shù)的情感分類研究工作主要需要進(jìn)行模型的訓(xùn)練。情感分類中常用的特征有Ngram特征、句法特征等[4]。這類方法仍然依賴于人工設(shè)計,研究過程中也容易受到人為因素影響。而且人工設(shè)計的特征具有領(lǐng)域限制性,在某一領(lǐng)域的特征集不一定適應(yīng)另一個領(lǐng)域。此外,模型的訓(xùn)練依賴于標(biāo)注數(shù)據(jù)集的質(zhì)量,這些高質(zhì)量的數(shù)據(jù)集也需要投入大量人工成本。
3基于深度學(xué)習(xí)模型的情感分類
隨著神經(jīng)網(wǎng)絡(luò)成為目前關(guān)注的熱點,越來越多學(xué)者開始嘗試使用深度學(xué)習(xí)解決情感分類問題。深度學(xué)習(xí)模型在不同應(yīng)用問題上的推廣能力已得到一定驗證[5],情感分析作為自然語言理解的重要應(yīng)用之一,也受到人們關(guān)注。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無法處理前后關(guān)聯(lián)的問題(例如一個句子),而深度學(xué)習(xí)模型RNN解決了該問題。然而,隨著距離與先驗知識的增加,RNN會出現(xiàn)梯度消息或梯度爆炸的情況,因而無法解決長久依賴的問題。而長短記憶神經(jīng)網(wǎng)絡(luò)的引入——通常稱為LSTM,解決了以上問題。現(xiàn)有的深度學(xué)習(xí)方法主要分為兩個步驟:①將需要分類的評論語料表達(dá)稱為語義詞向量(Word Embedding);②通過不同的語義合成方法用詞向量得到所對應(yīng)句子或文檔的特征表達(dá)式,最后通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。具體過程如圖3所示。
3.1語義詞向量表達(dá)
在自然語言處理中,很重要的一個問題是如何將一個句子用向量表示。傳統(tǒng)的文檔表示方法幾乎都是基于BOW(Bag of Words)的方法。詞袋模型最初用在文本分類中,將文檔表示成一種特征矢量。它的核心思想是對于一個文本,假定忽略文本中的次序和語法、句法,僅看成這些詞匯的排列組合,并且文本中的詞匯沒有任何關(guān)系。簡單而言就是將每篇文檔都看成一個袋子,然后看袋子里有些什么詞匯,并將其分類。所以傳統(tǒng)的詞袋模型方法存在以下問題:①極高的維度。文本向量的維數(shù)與訓(xùn)練數(shù)據(jù)集中出現(xiàn)的所有單詞數(shù)目一樣多,會造成維度過高,而且如果某一詞匯在訓(xùn)練集中未出現(xiàn)過,則會忽視這個詞,在測試集中無法成為該文本特征;②基于詞袋表示的文檔向量極度稀疏,不利于一些自然語言處理任務(wù);③由于詞袋法認(rèn)為詞與詞之間沒有關(guān)系,因此它很難表示一個句子或一篇短文的語義;④在不同的語境下,詞袋法很難區(qū)分同一個詞的意義[6]。endprint
隨著深度學(xué)習(xí)的發(fā)展,研究人員Mikolov[78]提出了word2vec模型,使傳統(tǒng)的詞袋模型問題在很大程度上得到改善。Word2vec的思想概括而言即通過高維向量表示詞語,而且相近詞語會放在相近位置。所以word2vec適合處理序列數(shù)據(jù),因為序列局部間的數(shù)據(jù)有著很大關(guān)聯(lián)。通過word2vec即可訓(xùn)練語料庫模型,獲得詞向量,而且詞向量的高維性解決了詞語多方向發(fā)散問題,從而保證了模型的穩(wěn)定性。
Word2vec模型有兩種,分別是CBOW模型與Skipgram模型。其中CBOW模型通過上下文估測當(dāng)前詞,Skip_gram模型則相反,通過當(dāng)前詞估測上下文[78]。
3.2句子向量
通過不同的語義合成(Semantic Composition)方法用詞向量得到所對應(yīng)句子或文檔的特征表達(dá)。現(xiàn)有合成方法主要基于語義合成性原理(Principle of Compositionality)[9],該原理指出,長文本(如一個句子、一篇文檔)的語義由其子成分(如詞匯、短語)語義按不同規(guī)則組合而成。本質(zhì)上講,語義合成就是利用原始詞向量合成更高層次的文本特征向量[10]。
3.3LSTM
LSTM是一種RNN的特殊類型,可以學(xué)習(xí)長久依賴信息。所有RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问?。在?biāo)準(zhǔn)的 RNN 中,該重復(fù)模塊只有一個非常簡單的結(jié)構(gòu),例如一個Tanh層,如圖4所示。而LSTM的“記憶細(xì)胞”通過刻意設(shè)計避免了長期依賴問題,如圖5所示。
LSTM通過一種精心設(shè)計稱為門(gate)的結(jié)構(gòu)控制cell狀態(tài),直接在整個并向中刪減或增加信息。一個LSTM有3個門控制cell的狀態(tài),關(guān)鍵門的主要操作有以下步驟,其中it、ft、ot和Ct分別表示t時刻對應(yīng)的3種門結(jié)構(gòu)和細(xì)胞狀態(tài)。
第一步:忘記門,決定從“細(xì)胞狀態(tài)中丟棄什么信息”,這個決定是通過 sigmoid 中的“遺忘層”實現(xiàn)的。以當(dāng)前層的輸入xt和上一層的輸出ht-1作為輸入,在t-1時刻的細(xì)胞狀態(tài)輸出為:
由于LSTM通過各種“門”從細(xì)胞狀態(tài)中忘記、更新信息,從而可以更好地解決長期依賴問題,對于一段文字也可以更好地學(xué)習(xí)句子前后的語義,因而已被成功應(yīng)用于情感分類問題中。
4傳統(tǒng)情感分類與深度學(xué)習(xí)情感分類比較
傳統(tǒng)情感分類與基于深度學(xué)習(xí)的情感分類總結(jié)如表1所示。
5結(jié)語
本文對傳統(tǒng)情感分類方法與基于深度學(xué)習(xí)的情感分類方法進(jìn)行對比分析,可以得到以下結(jié)論:①基于情感詞典的文本情感分類方法過度依賴于情感詞典質(zhì)量,此外情感詞典的構(gòu)建費時又費力,而基于機器學(xué)習(xí)的情感分類方法需要高質(zhì)量的特征構(gòu)造和選取。這些都是傳統(tǒng)情感分類的一些弊端;②基于深度學(xué)習(xí)抽象特征,可避免人工提取特征的工作,而且通過word2vec技術(shù)模擬詞語之間的聯(lián)系,有局部特征抽象化以及記憶功能,在情感分類中具有很大優(yōu)勢。
參考文獻(xiàn):
[1]徐琳宏,林鴻飛,趙晶. 情感語料庫的構(gòu)建和分析[J]. 中文信息學(xué)報,2008(1):116122.
[2]NASUKAWA T,YI J.Sentiment analysis: capturing favorability using natural language processing[C].Proc of Int Conf on Knowledge Capture.New York:ACM,2003:7077.
[3]PANG B, LEE L, VAITHYANATHAN S. Thumbs up?:sentiment classification using machine learning techniques[C].Proc of Empirical Methods in Natural Language Processing. Cambridge, MA:MIT Press,2002: 7986.
[4]余凱,賈磊,陳雨強,等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計算機研究與發(fā)展,2013,50(9):17991804.
[5]馮時,付永陳,陽鋒,等.基于依存句法的博文情感傾向分析研究[J].計算機研究與發(fā)展,2012,49(11):23952406.
[6]唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示[J]. 計算機科學(xué),2016,43(6):214217,269.
[7]MIKOLOV T,CHEN K, CORRADO G, et al.Efficient estimation of word representations in vector space[J].Computer Science,2013.
[8]MIKOLOV T,YIH W,ZWEIG G.Liguistic regularities in continuous space word representations[C].HLTNAACL,2013:746751.
[9]FREGE G.On sense and nominatum[J]. Philosophy of Science,1949,59(16):3539.
[10]陳龍,管子玉,何金紅,等. 情感分類研究進(jìn)展[J]. 計算機研究與發(fā)展,2017,54(6):11501170.
(責(zé)任編輯:黃?。〆ndprint