基于機器學習的微博情感分類研究

2018-09-04 09:37:16馮成剛田大鋼

軟件導刊 2018年6期

馮成剛田大鋼

摘要：針對目前國內外學者對微博情感只作二分類研究，僅僅從正面和負面研究微博情感不足的問題，選取NLPCC2013-2014年多情感的微博數(shù)據(jù)集，重點研究常用的3種機器學習算法、3種特征選擇以及特征權重方法對中文微博情感多分類的影響。實驗表明：不管選擇哪種特征權重，使用SVM的微博文本分類準確率都最高，KNN的準確率最低；不同特征權重下，信息增益作為特征選擇的方法時，3個算法各自準確率都是最高的；當信息增益為特征選擇，TF-IDF為特征權重時，支持向量機的文本分類準確率最高。由于微博簡短、口語化，詞袋模型忽視了詞與詞間的聯(lián)系，導致微博情感分類準確率不高。

關鍵詞：機器學習；情感分類；微博；特征選擇；特征權重

DOI：10.11907/rjdk.173073

中圖分類號：TP301

文獻標識碼：A 文章編號：1672-7800（2018）006-0058-04

Abstract：The current domestic and foreign research on micro-blog emotion is focused on binary classfication which is divided merely to positive and negative sides to study the weakness of micro-blog emotion. NLPCC multi-emotional micro-blog data set from the year of 2013 to 2014 is selected with the research focus of the three commonly used machine learning algorithm， three kinds of feature selection and feature weighting method on Chinese multi-bog emotional multi-classfication. The experiment shows that SVM text classification has the highest accuracy regardless of the choices of feature weights while KNN has the lowest accuracy ； the three algorithms have the highest accuracy under different feature weights with information gain as the feature selection method. When the information gain is the feature selection and TF-IDF is the feature weight， the accuracy of text classification of SVM is the highest. The final analysis shows that due to the short and colloquial features of micro-blog， the bag-of-words model ignores the connection between words and phrases， which leads to low accuracy rate of micro-blog classfication.

Key Words：maching Learning； emotion classfication； micro-blog； feature selection； feature weighting

0 引言

微博是一種分享和評論的平臺，用戶可以表達自己的觀點和情感。近年來，微博已經成為人們溝通及情感交流的途徑之一，產生的海量數(shù)據(jù)為文本情感分類提供了數(shù)據(jù)基礎[1]。國內外研究文本情感分類主要是基于機器學習的方法[2]，利用機器學習對微博語料進行訓練，再利用訓練好的模型時測試文本進行分類。

目前國內外學者一般對微博情感作二分類研究，僅僅用正面和負面劃分微博情感。Pang[3]將傳統(tǒng)機器學習方法引入電影評論的褒貶分類中，實驗表明，支持向量機的效果最理想。但是中文文本與英文分詞、語法是有區(qū)別的，英文分類的結論不一定適合中文。國內研究中，何躍等[4]對比多種文本分類方法構建最優(yōu)分類器，實驗結果表明機器學習方法適合于規(guī)模較大的研究并且SVM模型更適合細粒度的情感分類。歐陽純萍等[5]在研究基于樸素貝葉斯情緒微博識別問題的基礎上，提出基于多策略（SVM和KNN算法）的微博情緒分類方法。實驗證明基于多策略的分類方法優(yōu)于單一的方法。在特征選擇和特征權重方面，Paltoglou等[6]利用TF-IDF算法計算分類特征的權值，以提高SVM分類器的效果[7-8]。劉志明[9]使用機器學習算法和特征選擇對微博進行褒貶二分類，實驗結果表明，信息增益為特征選擇時，微博的情感分類效果最好。國內關于微博情感二分類有較好研究成果，但關于微博情感多分類問題的特征選擇與特征權重研究較少。

由于情感多分類問題更加細膩，有些情感類詞含義之間的區(qū)別十分微妙，機器學習方法對該部分學習能力值得進一步研究。本文重點研究機器學習算法、特征選擇以及特征權重對微博情感多分類問題的影響，通過實驗找到最優(yōu)的機器學習方法以及特征選擇和特征權重。整個實驗過程都是在python軟件下編寫執(zhí)行，數(shù)據(jù)集選用nlpcc2013-2014多類別的微博情感數(shù)據(jù)集，分詞選用可直接調用分詞準確率高的結巴分詞。

1 文本分類流程

基于機器學習的文本情感分類問題，處理過程可以分為兩個部分：一是文本學習過程，二是文本分類過程。其中，學習過程是指對微博訓練集進行訓練得到分類器，分類過程是指用訓練好的模型來對測試文本進行分類。如果已知測試集類別，可用準確率評價分類器的好壞。

2 微博情感分類理論基礎

2.1 機器學習分類算法

2.1.1 支持向量機（SVM）

在文本分類中，支持向量機是一種效果顯著的方法。支持向量機將文本數(shù)據(jù)轉化為支持向量，通過算法得到決策平面，從而解決文本分類問題。Thorsten Joachims將核函數(shù)引入SVM中，用線性核函數(shù)解決非線性的分類問題，就是將低維空間數(shù)據(jù)用核函數(shù)變換到高維空間中去，然后在轉換后的高維空間找分割平面，期望使得分割平面兩側到訓練點的間隔最大。

2.1.2 樸素貝葉斯（NB）

貝葉斯算法將一個文本看作一個特征，求文本所在類別的條件概率就是文本分類的過程。按照NB算法，先計算每個文本對所有類別文本的先驗概率，再計算測試文本可能屬于某一類別文本的后驗概率，后驗概率中數(shù)值最大的就是測試文本的類別。

根據(jù)式（2），可以將測試文本視為后驗概率最大的類別。

2.1.3 K-最近鄰算法（KNN）

KNN算法簡單明了：如果一個樣本在特征空間中的k個最相似樣本大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。也就是分類的依據(jù)是該樣本距離哪個類別最近就歸屬為哪個類別[10]。

KNN算法主要依靠周圍的樣本，對于文本特征交叉比較大、難以區(qū)分的文本而言， KNN方法比支持向量機和貝葉斯算法更為適合，而且新的測試文本加入訓練集中，不需要再進行模型訓練。但是當用KNN訓練大語料時，計算開銷大，花費時間長。

2.2 特征選擇

2.2.1 信息增益（IG）

信息增益（Information Gain，IG）是某特征詞語出現(xiàn)或不出現(xiàn)對文本類別分類的信息量大小，根據(jù)訓練文本，將文本特征的信息增益值計算出來[11]，計算方法如式（3）：

2.2.2 互信息（MI）

互信息（Mutual Information，MI）可以衡量兩個事件的關聯(lián)度：

2.2.3 加權似然對數(shù)（WLLR）

加權似然對數(shù)法與MI方法類似，統(tǒng)計了特征詞t-i與類別c-j之間的關聯(lián)性，計算公式如下：

2.3 特征權重選擇

2.3.1 布爾權重（presence）

布爾權重是一種計算特征項權值最簡單的方法，如果特征項t-k出現(xiàn)在文檔d-i中，則權值為1；如果不出現(xiàn)在文本d-i中，其權值就為0，其公式表示如下：

2.3.2 詞頻權重（TF）

如果在一個文本中，某個文本特征詞出現(xiàn)的次數(shù)越多，那么它對文本類別的判定貢獻越大：

2.3.3 TF-IDF

TF-IDF算法的主要思想是：如果某個詞在一個文本中的出現(xiàn)次數(shù)多，但是在其它文本中卻很少出現(xiàn)，那么就認為該詞語具有很好的文本類別區(qū)分能力。

2.4 評價方法與指標

實驗中用3個指標評價模型：準確率、召回率和F值。準確率衡量的是微博文本被預測類別與真實類別的一致性。

準確率=判斷正確的樣本數(shù)判斷為該類別的樣本數(shù)

召回率，是指微博文本被判定正確的個數(shù)占總的正例的比重。

召回率=判斷正確樣本數(shù)應判斷正確為該類別的樣本數(shù)

因為準確率高時召回率會低，而在召回率高時準確率會低。為了衡量該兩個指標就用F值。

3 實驗設計

數(shù)據(jù)來源：本文采用NLPCC 2013年和2014年情感評測任務的兩個公開數(shù)據(jù)集，數(shù)據(jù)集中共有7種情感：happiness、like、sadness、disgust、 anger、 fear和surprise。由于有的微博句子不止一種情感，但是本文研究時只取其主要情感作為該微博的情感類別。兩個數(shù)據(jù)集的統(tǒng)計信息如表1所示.最終的訓練集11 575個，測試集文本7 720個。

3.1 特征權重

實驗中選取3種特征權重（bool，TF，TF-IDF），分別測試3種不同的權重下，3種機器學習方法對微博情感分類的影響。

從圖2可以看出：

（1）不管選擇哪種特征權重，使用SVM的微博文本分類準確率都最高，KNN的準確率最低。

（2）同一種算法在不同特征權重下性能不一樣，SVM在TF-IDF下分類效果最好，KNN在TF下分類效果最好，NB在3種特征權重下，分類效果變化不大。

3.2 特征選擇

通過上述實驗，得到在不同特征權重下，3種機器學習算法的分類效果。下列實驗是當已經確定特征權重和機器學習算法的情況下，不同特征選擇對分類效果的影響。根據(jù)上一節(jié)的結果（參考圖2），由于采用TF-IDF為特征時支持向量機的效果最好，故對支持向量機采用TF-IDF特征（見圖3）。同理，對貝葉斯采用TF-IDF特征（見圖4），對K-近鄰采用TF特征（見圖5）。

圖3中，在TF-IDF為特征權重，SVM為分類算法時，3種特征選擇對分類效果的影響。得出如下結論：①隨著特征數(shù)量的增加，3種特征選擇都使準確率不斷上升；②當特征數(shù)量達到22 500時，3種特征選擇方法的效果趨于穩(wěn)定并基本相同；③當特征數(shù)量小于22 500時，隨著特征數(shù)量的增加，IG作為特征選擇時微博文本分類準確率最高，MI作為特征選擇時文本分類效果最差。

圖4為采用TF-IDF為特征權重、貝葉斯算法下3種特征選擇對分類效果的影響。從圖中可以得出如下結論： ①當特征數(shù)量在18 000～22 500時，WLLR的性能表現(xiàn)比IG好；②隨著特征數(shù)量的增加，3種特征選擇都使準確率不斷上升；③當特征數(shù)量達到22 500時，此時3種特征選擇性能趨于穩(wěn)定，文本分類準確率最高。

圖5為在TF為特征權重、K-近鄰算法下3種特征選擇對分類效果的影響：①不同于圖3、圖4的結論，圖5中隨著特征數(shù)量的增加，IG和MI準確率不是平穩(wěn)上升，而是來回波動；②特征數(shù)量不是越多越好，當IG、MI作為特征選擇時，過多的特征數(shù)量反而降低了文本分類的準確率；③當特征數(shù)量達到22 500時，此時3種特征選擇性能趨于穩(wěn)定；④當特征數(shù)量在15 000左右時，此時的微博文本分類準確率較高，原因還有待進一步的研究.

3.3 一定特征數(shù)量下，3種算法在不同特征選擇與特征權重下的比較

參考圖5的特點，選取特征數(shù)量為15 000，測試在一定特征數(shù)量下，特征選擇和特征權重對微博文本分類的共同影響。從表2可以得到如下結論：

（1）不同特征權重，信息增益作為特征選擇的方法時，3個算法各自準確率都是最高的。

（2）當信息增益為特征選擇時，TF-IDF與SVM組合準確率最高，KNN與TF-IDF組合準確率最低。

（3）當互信息為特征選擇時，Bool與SVM組合準確率最高，KNN與TF組合準確率最低。

（4）在加權對數(shù)為特征選擇下，WLLR與SVM組合準確率最高，KNN與TF-IDF組合準確率最低。

3.4 微博單類情感P、R、F值比較

根據(jù)表2的結論，測試在最優(yōu)組合下，單種情感P、R、F值的對比，對表3中7種情感F值的大小作圖6比較。

圖6中可以看出，“高興”、“悲傷”、“厭惡”F值比較大，而“憤怒”、“喜好”、“恐懼”、“驚訝”的F值較小。通過分析主要由3個方面造成：①“高興”、“悲傷”、“厭惡”這類情感區(qū)分度大，而像“高興”與“喜好”、“恐懼”、“悲傷”與“厭惡”這類情感，彼此之間會有情感交叉，導致區(qū)別度并不是很高；②一個文本中往往不只一種情感，大多數(shù)文本中都會包含1～2種情感，只是主情感強烈而已，但是不強烈的情感卻為微博文本情感的分類造成了難度；③語料庫不均衡，也會導致情感分類不準確，從圖6看“驚訝”的F值最小，并且“驚訝”的訓練數(shù)據(jù)量只有630，也很低，過小的數(shù)據(jù)量導致算法無法獲得“驚訝”區(qū)別于其它情感更好的特征詞。

4 結語

本文對微博文本情感分類進行研究，通過實驗對比了在3種算法、3種特征選擇、3種特征權重下的分類效果，當以SVM作為機器學習算法、IG為特征選擇、TF-IDF為特征選擇時，分類效果最好，但是最好的分類效果下準確率只有60%。主要是由于微博內容過于簡短、語言含各種噪聲（錯別字、縮寫、表情符號等非正式用語等），使得對微博數(shù)據(jù)的文本情感分析相對于傳統(tǒng)的文本情感分析有一定難度和特殊性。文本本身表示模型VSM存在非常嚴重的數(shù)據(jù)稀疏性問題，使得分類器面臨維度災難，忽略了特征的次序和位置關系，且不考慮文本長度，不考慮語義聯(lián)系，從而大大降低了分類性能。能找到一種更好的微博短文本表示方法，是解決短文本分類難題的一個方向。

參考文獻：

[1] 趙妍妍，秦兵，劉挺.文本情感分析[J].軟件學報，2010：1834-1848.

[2] LI H. Text classification using machine learning techniques[J]. Wseas Transactions on Computers， 2008，4（8）：966-974.

[3] BO P， LEE L， VAITHYANATHAN S. Thumbs up： sentiment classification using machine learning techniques[C]. Acl-02 Conference on Empirical Methods in Natural Language Processing， 2002：79-86.

[4] 何躍，鄧唯茹，張丹.中文微博的情緒識別與分類研究[J].情報雜志，2014（2）：136-139.

[5] 歐陽純萍，陽小華，雷龍艷，等.多策略中文微博細粒度情緒分析研究[J].北京大學學報：自然科學版，2014，50（1）：67-72.

[6] PALTOGLOU G， THELWALL M. A study of information retrieval weighting schemes for sentiment analysis[C]. Proceedings of the Meeting of the Association for Computational Linguistics， 2010：1386-1395.

[7] O'CONNOR B， BALASUBRAMANYAN R， ROUTLEDGE B R， et al. From tweets to polls： linking text sentiment to public opinion time series[C].Washington， Dc， Usa， May：DBLP， 2010.

[8] JANSEN B J， ZHANG M. Twitter power： tweets as electronic word of mouth[J].Journal of the American Society for Information Science & Technology，2009：2169-2188.

[9] 劉魯，劉志明.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應用，2012，48（1）：1-4.

[10] 王超學，潘正茂，馬春森，等.改進型加權KNN算法的不平衡數(shù)據(jù)集分類[J].計算機工程，2012，38（20）：160-163.

[11] 任永功，楊榮杰，尹明飛，等.基于信息增益的文本特征選擇方法[J].計算機科學，2012，41（11）：460-462.

（責任編輯：何麗）