王志昊,王中卿,李壽山,李培峰
(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院 ,江蘇 蘇州 215006)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們越來越習(xí)慣于在網(wǎng)絡(luò)上表達自己的觀點和情感,網(wǎng)絡(luò)上隨之出現(xiàn)大量帶有情感信息的文本。這些文本大多以評論、博客的形式存在,傳統(tǒng)的基于主題的文本分類系統(tǒng)已經(jīng)無法滿足對這些主觀文本分析的需求。在此背景下,情感分類作為一種面向主觀文本分析的特定任務(wù)越來越受到廣泛關(guān)注[1]。情感分類任務(wù)是指對文本自身情感傾向性進行分類。例如,判斷某一評論是“贊揚” 或“批評”[2-4]。近年來,情感分類在自然語言處理研究領(lǐng)域已經(jīng)成為一個熱點研究問題[1]。
目前大部分情感分類研究建立在正類樣本和負類樣本平衡的基礎(chǔ)上[5]。然而,實際情況中,在收集的產(chǎn)品評論語料中,會時常發(fā)現(xiàn)正負類別里面的樣本數(shù)目差距非常大。換言之,正負類數(shù)據(jù)的分布往往并不平衡。這種數(shù)據(jù)不平衡性會導(dǎo)致傳統(tǒng)機器學(xué)習(xí)分類算法在分類過程中嚴重偏向多類樣本,分類器性能受到很大損失。為了本文的表述清楚,我們稱這種情況下的情感分類任務(wù)為不平衡情感分類,并將樣本集合中樣本數(shù)較多的類別稱為多類(Majority Class),樣本數(shù)較少的類別稱為少類(Minority Class)。
此外,作為一種特定的文本分類任務(wù),情感分類任務(wù)同其他文本分類一樣,面臨著高維度特征空間的問題。該問題可能造成冗余的同時也使得一些學(xué)習(xí)算法難以施展。為了解決高維特征的問題,特征選擇方法在文本分類研究中占有非常重要的地位[5]。然而,對于情感分類,特別是不平衡情感分類,特征選擇方法的研究還非常缺乏。如果在不平衡分類任務(wù)中進行特征選擇還是一個迫切需要解決的問題相關(guān)研究表明,在不平衡情感分類中,欠采樣(Under-sampling)方法是一種表現(xiàn)較好的方法[6]。為了能夠降低不平衡分類中高維度特征空間問題,本文以欠采樣方法為基礎(chǔ),結(jié)合四種經(jīng)典的特征選擇方法,提出三種特征選擇模式。
本文結(jié)構(gòu)安排如下: 第2節(jié)介紹了不平衡情感分類和特征選擇的相關(guān)工作;第3節(jié)提出基于欠采樣的特征選擇方法;第4節(jié)給出實驗結(jié)果及分析;第5節(jié)給出相關(guān)結(jié)論。
不平衡分類問題在機器學(xué)習(xí)[7]、模式識別[8]、數(shù)據(jù)挖掘[9]等領(lǐng)域均受到了廣泛關(guān)注,是眾多實際應(yīng)用任務(wù)中的共同具有的具挑戰(zhàn)性問題。
在主流的不平衡分類方法中,過采樣技術(shù)和欠采樣技術(shù)應(yīng)用最為廣泛。其中,過采樣技術(shù)通過重復(fù)少類樣本達到樣本數(shù)平衡的目的[10];欠采樣技術(shù)則通過減少多類樣本使得兩類樣本數(shù)平衡[8,11]。目前,針對情感分類中的不平衡問題研究還不是很多,其中,Li等人將監(jiān)督學(xué)習(xí)、主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法引入不平衡情感分類問題,取得了很好的分類效果,很大程度上減少了樣本的標注量[6,12-13]。
一直以來,高維度特征空間是文本分類研究的一個重點問題。特征選擇可以讓文本分類變得更快速,分類更精確[14]。相關(guān)研究表明,將特征選擇方法CHI應(yīng)用于大規(guī)模在線產(chǎn)品評論,可以在不損失性能的前提下減少特征向量維度[4]。此外,Li等[15]將DF、MI、IG等特征選擇方法用于平衡數(shù)據(jù)的主題文本分類和情感分類問題中,有效降低了維度。然而,據(jù)我們所知,在不平衡情感分類問題上還沒有關(guān)于特征選擇方法的研究。
隨機欠采樣是指從初始的多類標注樣本中隨機取出和少類標注樣本一樣規(guī)模的樣本,與少類樣本一同構(gòu)建分類器。根據(jù)王等人在不平衡分類方法的實驗結(jié)果得知,基于隨機欠采樣的分類效果優(yōu)于完全訓(xùn)練(Full Training, FullT),主要原因是分類算法嚴重趨向多類,使得少類的召回率很低[16]。此外,隨機欠采樣相比其他重采樣技術(shù)也具有明顯優(yōu)勢,分類性能最佳[17]。因此,本文所提出的特征選擇方法及模式只考慮分類效果較好的隨機欠采樣方法。
在特征選擇過程中,需要對每一個特征使用一個權(quán)重函數(shù)進行計算,計算出標識該特征重要性的權(quán)重值。通過對權(quán)重大小的比較,對所有特征進行排序,提取排序在前面的特征作為最終的分類特征。對于某個特征t的權(quán)重函數(shù),計算出的值越大,該特征就被認為是越重要。為了便于估算上述權(quán)重值,需要獲取訓(xùn)練集中的某些統(tǒng)計信息,它們分別是:
p(t): 文檔x包含特征t的概率;
p(t,ci): 文檔x包含特征t并且屬于類別ci的聯(lián)合概率;
p(ci|t): 文檔x包含特征t時屬于類別ci的概率;
本文采用文本分類中傳統(tǒng)的四種特征選擇方法,分別是文檔頻率(DF)、互信息(MI)、信息增益(IG)和χ2統(tǒng)計(CHI)。下面將分別介紹這四種特征選擇方法。
1) 文檔頻率(DF)
文檔頻率指的是訓(xùn)練集中出現(xiàn)某特征詞的文檔數(shù)量,定義為:
該方法認為某特征在文檔中出現(xiàn)次數(shù)越多就顯得越重要。這種方法存在一個明顯缺點: 某些高頻的停用詞計算出的DF值很高但并不具有區(qū)別類別的能力,選取這些特征對分類并沒有太大作用。然而,DF方法計算復(fù)雜度小,實現(xiàn)簡單,并且在基于主題的文本分類任務(wù)中表現(xiàn)出較好的性能[14]。
2) 互信息(MI)
互信息用于衡量某個詞和類別之間的統(tǒng)計獨立關(guān)系。如果特征詞t與類別ci的互信息越大,說明特征t 中包含的與類別有關(guān)的鑒別信息就越多。某個特征詞t和某個類別ci的互信息定義如下:
在多個類別的集合中,通常使用最大MI和平均MI兩種方式確定某一特征詞t與類別ci之間的互信息,具體如下:
由于最大互信息的分類效果比平均互信息更好[14],我們選擇最大互信息作為特征詞t的特征值。
3) 信息增益(IG)
信息增益計算文檔中包含特征詞t與不包含特征詞t時的信息差[14]。若特征t帶來的信息越多,該特征就越重要。計算信息增益的方法定義如下:
(5)
信息增益方法考慮了特征出現(xiàn)和不出現(xiàn)兩種情況,比較全面,分類效果較好, 在之后的實驗中也得到驗證。
4) 統(tǒng)計(CHI)
CHI方法[14]定義如下:
其中,
χ2(t,ci)
(7)
在不平衡情感分類問題中,同時需要處理數(shù)據(jù)分布不平衡和特征選擇兩個問題。因此,按照處理這兩個問題的次序,本文提出三種特征選擇模式。在處理數(shù)據(jù)不平衡問題時,我們僅僅以隨機欠采樣為研究對象。
1) 先隨機欠采樣,后特征選擇(UnderS+FS)
首先,在訓(xùn)練樣本中先使用隨機欠采樣技術(shù),使得正類樣本和負類樣本數(shù)量相等;其次,再分別采用DF、MI、IG、CHI四種特征選擇方法,從平衡的數(shù)據(jù)中獲得不同維度的特征向量。在特征選擇的過程中,截取特征值較大且分別排在各方法前n位的特征。圖1為該特征選擇模式圖。
圖1 先隨機欠采樣,后特征選擇模式
2) 先特征選擇,后隨機欠采樣(FS+UnderS)
首先,在不平衡的訓(xùn)練樣本中采用特征選擇方法,得到分類器所需的特征向量;其次,使用隨機欠采樣獲取平衡的訓(xùn)練樣本。在特征選擇的過程中,截取特征值較大且分別排在各方法前n位的特征。
圖2 先特征選擇,后隨機欠采樣模式
3) 先單邊特征選擇,后隨機欠采樣(One-side FS+UnderS)
這種模式同上面第二種模式在處理不平衡數(shù)據(jù)和特征選擇兩方面有著同樣的次序。但是,在特征選擇過程中有所不同。具體來講,在特征選擇的過程中不但考慮截取的特征數(shù)目,同時保證所提取出特征的正負平衡性[7]。在選出的特征中,正類特征的數(shù)量和負類特征的數(shù)量相等。然后,使用隨機欠采樣得到平衡的訓(xùn)練樣本。
圖3 先單邊提取,后隨機欠采樣模式
實驗數(shù)據(jù)采用卓越網(wǎng)收集的來自四個不同領(lǐng)域的中文評論語料。這四個領(lǐng)域分別是箱包、化妝品、相機和軟件。表1給出每個領(lǐng)域訓(xùn)練樣本的不平衡情況分析,其中N+代表正樣本數(shù),N-代表負樣本數(shù),N+/N+為兩者的數(shù)量比:
表1 各領(lǐng)域正負類樣本分布情況
從表1可以看出每個領(lǐng)域里面的正樣本數(shù)遠遠多于負樣本數(shù)。此外,我們對每個領(lǐng)域特征的不平衡情況也做了分析。若該特征在正類樣本中出現(xiàn)的次數(shù)多,則認為該特征是正類特征,記作T+,反之,如果該特征在負類樣本中出現(xiàn)的次數(shù)多,那我們認為該特征是負類特征,記為T-,Tall為所有訓(xùn)練樣本中特征總數(shù),具體見表2。表2可以看出,不平衡情感分類問題中的特征同樣存在不平衡分布情況。這也是我們提出第三種模式的研究動機所在。
表2 各領(lǐng)域正負類特征分布情況
我們選擇80%的樣本作為訓(xùn)練樣本,剩余的20%樣本作為測試樣本。分類算法為最大熵方法,具體實現(xiàn)是借助MALLET機器學(xué)習(xí)工具包。實驗過程中,所有參數(shù)都設(shè)置為它們的默認值。
在進行分類之前首先采用中國科學(xué)院計算技術(shù)研究所的分詞軟件ICTCLAS對中文文本進行分詞操作。給定分好詞的文本后,我們選取詞的Unigram作為特征,用以獲得文本向量的表示。
在平衡數(shù)據(jù)的情感分類中,通常使用準確率(Acc.)作為分類效果的衡量標準。而在不平衡分類中,由于分類結(jié)果很容易偏向多類,所以使用準確率作為分類效果的衡量標準對于少類變得非常不公平。因此,一般使用幾何平均數(shù)(G-mean)作為衡量分類效果的標準。幾何平均數(shù)的計算方法為:
其中:TPrate和TNrate分別代表了正類樣本的召回率和負類樣本的召回率。
首先,我們以IG方法為基礎(chǔ),比較三種模式的性能表現(xiàn)。圖4為IG在不同特征選擇模式下的分類結(jié)果。其中每張曲線圖中橫縱坐標表示的含義相同,橫坐標為特征數(shù)目,縱坐標為G-mean值。圖中,除了3.3節(jié)提到的三種特征選擇模式外,還加入了只基于欠采樣的實驗數(shù)據(jù)用于對比研究,結(jié)果表示為(UnderS)。
從實驗結(jié)果可以看到: (1)圖上標識的幾種模式中,先隨機欠采樣后特征選擇(UnderS+FS)模式的性能普遍表現(xiàn)較好,當特征數(shù)大于500時,該模式的分類效果始終處于其他幾種模式之上。當特征數(shù)過低時,由于分類信息的缺乏,分類器性能偏低,低于只使用隨機欠采樣(使用全部特征)模式。(2)實驗結(jié)果表明,當各個領(lǐng)域的特征數(shù)在500~1 000的范圍內(nèi)時,G-mean達到峰值,即特征數(shù)在這個范圍內(nèi),分類器具有最佳分類效果,我們稱之為理想特征數(shù)。(3)在理想的特征數(shù)范圍內(nèi),IG和CHI方法擁有不俗的表現(xiàn),相比只使用欠采樣技術(shù)的模式,分類效果能夠有3%~6%的提高。
此外,在使用其他三種特征選擇方法時,存在類似的結(jié)論。因此,在后續(xù)實驗中,我們選取UnderS+FS進行比較不同特征選擇方法的研究。
從上一節(jié)的結(jié)果可以看出,先隨機欠采樣,后特征選擇這種特征選擇模式具有最好的分類效果,圖5顯示了在這種模式下DF、MI、IG、CHI等特征選擇方法的結(jié)果。
圖4 IG方法下不同特征選擇模式分類結(jié)果
圖5 特定模式下不同特征選擇方法的分類效果
實驗結(jié)果表明: 四種特征選擇方法的分類效果基本隨著特征數(shù)的增加而提高。當特征數(shù)目較少時,各個特征選擇方法的分類效果差異明顯,其中IG方法具有明顯優(yōu)勢,CHI次之,MI方法則相對較差。當特征數(shù)量大于等于1 000時,幾種特征選擇方法性能基本不變。從此結(jié)果我們可以看出特征選擇方法可以在不損失情感分類效率的前提下顯著降低特征向量的維度。綜合幾組實驗結(jié)果,IG方法相對于其他特征選擇方法分類效果較好,即使在特征數(shù)小于500的情況下依然保持較高的性能。
本文研究了不平衡情感分類問題中的特征選擇方法,提出了三種特征選擇模式。實驗結(jié)果表明,使用先隨機欠采樣,后特征選擇的模式的分類效果優(yōu)于只采用隨機欠采樣方法,能很好地解決中文情感分類任務(wù)中的不平衡問題。通過比較發(fā)現(xiàn),特征選擇方法可以在不損失情感分類準確性的前提下顯著降低特征向量的維度,提高學(xué)習(xí)效率。IG方法在幾種特征選擇方法中表現(xiàn)最好,在特征數(shù)很少的情況下也能保持較高的準確度。
關(guān)于不平衡情感分類的研究才剛剛起步,很多地方還需要我們進一步探討。在實驗中我們只應(yīng)用了四種領(lǐng)域的語料,在下一步工作中,我們將嘗試其他領(lǐng)域的語料,測試特征選擇方法的有效性。此外,我們還將考查,在眾多特征選擇方法中,是否還有其他適合解決不平衡數(shù)據(jù)情感分類問題的方案,是否還有更好的特征選擇模式都值得我們關(guān)注。
[1] Pang B, L Lee, S Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP-02, 2002.
[2] Liu B, M Hu, J Cheng. Opinion Observer:Analyzing and Comparing Opinions on the Web[C]//Proceedings of WWW-05, 2005.
[3] Wiebe J, T Wilson, C Cardie. Annotating Expressions of Opinions and Emotions in Language. Language Resources and Evaluation, 2005.
[4] Cui H, V Mittal, M Datar. Comparative Experiments on Sentiment Classification for Online Product Reviews[C]//Proceedings of AAAI-06, 2006.
[5] Li S, C Huang, G Zhou, et al. Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C]//Proceedings of ACL-10, 2010.
[6] Li S, G Zhou, Z Wang, et al. Imbalanced Sentiment Classification[C]//Proceeding of CIKM-11, 2011.
[7] Kubat M. and S. Matwin. Addressing the Curse of Imbalanced Training Sets:One-Sided Selection[C]//Proceedings of ICML-97, 1997.
[8] Barandela R, J Sánchez, V García, et al. Strategies for Learning in Class Imbalance Problems[J]. Pattern Recognition, 2003.
[9] Chawla N, N Japkowicz, A. Kotcz.Editorial. Special Issue on Learning from Imbalanced Data Sets[J]. SIGKDD Exploration Newsletter, 2004.
[10] Chawla N, K Bowyer, L Hall, et al. SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002.
[11] Yen S, Y Lee. Cluster-Based UnderSampling Approaches for Imbalanced Data Distributions. Expert Systems with Applications, 2009.
[12] Li S, Z Wang, G Zhou, et al. Semi-Supervised Learning for Imbalanced Sentiment Classification[C]//Proceeding of IJCAI-11, 2011.
[13] Li S, S Ju, G Zhou. Active Learning for Imbalanced Sentiment Classification[C]//Proceedings of EMNLP-12, 2012.
[14] Yang Y. and J. Pedersen. A comparative study on feature selection in text categorization[C]//Proceedings of ICML-97, 1997.
[15] Li S, S Ju, G Zhou. A Framework of Feature Selection Methods for Text Categorization[C]//Proceedings of IJCNLP-09, 2009.
[16] 王中卿, 李壽山, 朱巧明, 等. 基于不平衡數(shù)據(jù)的中文情感分類. 中文信息學(xué)報, 2012,26(3): 33-37.
[17] Japkowicz N, S Stephen. The class imbalance problem: A systematic study[J]. Intelligent Data Analysis, 2001.