一種無指導(dǎo)的情感短語極性判別方法

2011-10-13 01:11:42羅侃海量信息技術(shù)有限公司北京100190

天津科技 2011年2期

關(guān)鍵詞：傾向性極性負(fù)面

羅侃（海量信息技術(shù)有限公司北京100190）

寧建軍（文匯新民聯(lián)合報業(yè)集團(tuán)·新民網(wǎng)上海200041）

一種無指導(dǎo)的情感短語極性判別方法

羅侃（海量信息技術(shù)有限公司北京100190）

寧建軍（文匯新民聯(lián)合報業(yè)集團(tuán)·新民網(wǎng)上海200041）

在情感分析任務(wù)中，情感詞或情感短語的極性判別是一項非常重要的任務(wù)。提出一種新的基于無指導(dǎo)學(xué)習(xí)的情感短語極性判別的方法。在該方法中，首先從新聞網(wǎng)站上抓取大量無標(biāo)注的新聞評論數(shù)據(jù)。經(jīng)過去除噪音并進(jìn)行分詞和詞性標(biāo)注之后，使用預(yù)先設(shè)定的模板抽取情感短語。然后人工標(biāo)注少量種子詞。通過分析種子詞和情感短語的共現(xiàn)信息，最終得到情感短語的極性值。實驗證明，這種方法可以有效判別情感短語的極性，并且能夠用于句子級別的情感傾向分析。

情感分析情感極性判別情感短語

0 引言

隨著Web 2.0概念的深入人心，越來越多的網(wǎng)站開始注重以與用戶交互的方式來吸引用戶；另一方面，用戶也習(xí)慣在各個平臺上發(fā)表自己對于產(chǎn)品、人物、事件等各個要素的評論。這些評論不但數(shù)量巨大，且覆蓋面極廣。無論是潛在的消費者、商家還是政府，甚至更多的個人和組織都可以從這些海量的評論中得到有用的信息以幫助決策。例如，一個潛在的消費者可以通過查找其他消費者對于某款產(chǎn)品的評論而了解到該產(chǎn)品的優(yōu)劣，繼而可以幫助用戶選購到合適的商品。又如，政府可以通過分析大量的評論了解廣大民眾最關(guān)心的時政問題并據(jù)此進(jìn)行相應(yīng)的決策。

然而，互聯(lián)網(wǎng)上的評論數(shù)量往往非常巨大。在如此多的評論面前，僅憑人力難以逐個閱讀。因此，將評論分類并得到相應(yīng)的統(tǒng)計信息是一個非常自然的想法。在已有的情感分析任務(wù)中，有的研究者延循傳統(tǒng)的文本分類方法：整理收集有標(biāo)簽的語料并抽取相應(yīng)的特征，然后使用統(tǒng)計模型進(jìn)行分類。這種方法在實際應(yīng)用中面臨兩方面的問題：①不同領(lǐng)域的特征差異較大。例如在手機(jī)這個領(lǐng)域中，“大”是一個表達(dá)正面情緒的特征；而在筆記本這個領(lǐng)域中，該特征卻是一個表達(dá)負(fù)面情緒的特征。②在某些領(lǐng)域，例如時政新聞類，還沒有公開的有標(biāo)注的數(shù)據(jù)。此外，博客、論壇上還有大量的未標(biāo)注評論。這兩點原因?qū)е禄谟兄笇?dǎo)學(xué)習(xí)的方法難以滿足現(xiàn)實的要求。

有的研究者關(guān)注于如何構(gòu)建一個情感詞典。在這樣的體系下，情感傾向的判斷依賴于詞典的覆蓋率和準(zhǔn)確率。然而，將詞的情感傾向進(jìn)行轉(zhuǎn)義是非常常見的語言現(xiàn)象。例如，“滿意”是一個正面的詞語。在收集的評論中，“滿意”出現(xiàn)的次數(shù)為2 568次，“不滿意”出現(xiàn)的次數(shù)為725次，“……才滿意？”類型的反問或疑問句類型出現(xiàn)的次數(shù)為68次。因此，一個好的基于詞表的情感傾向的判別系統(tǒng)還要處理各種變化的否定式等轉(zhuǎn)義現(xiàn)象。而且，領(lǐng)域的相關(guān)性也是在構(gòu)造詞表過程中出現(xiàn)的非常困難的一個問題。此外，在現(xiàn)實數(shù)據(jù)中，大量的評論有錯別字、漏字、簡寫、縮寫等現(xiàn)象。綜合以上這些因素，基于詞表的系統(tǒng)在判別文檔情感極性時面臨很大的困難。

針對以上提出的問題，本文將抽取的對象鎖定在短語級別。與單個詞相比，短語具有如下幾個優(yōu)點：①在不同語境下存在不同傾向性的可能性更小。例如“期待奇跡發(fā)生”表達(dá)了非常明確的正面情感傾向。單個詞“期待”則有可能在正面或是負(fù)面的情形下使用，例如“還是別期待”就表述了負(fù)面的情緒。②在某些情況下，單個詞沒有主觀傾向性或者傾向性不明。例如，“取消”在一般情形下表達(dá)了否定的含義?！岸愂铡眲t是一個客觀性的名詞。兩者結(jié)合之后形成的短語“取消了稅收”在大部分語言環(huán)境下蘊含了正面的情感傾向。

本文提出的基于無指導(dǎo)學(xué)習(xí)的情感短語極性判別方法能夠在極少量的人工標(biāo)注基礎(chǔ)上得到質(zhì)量較高的情感短語及其情感傾向，并且抽取出來的情感短語能夠有效的用于評論的傾向性判別。

1 相關(guān)工作的分析

國內(nèi)面向中文的情感分析研究，隨著兩屆《中文傾向性分析評測》（Chinese Opinion Analysis Evaluation，COAE2008，COAE2009）的召開，獲得了極大的關(guān)注，而之前的研究則較為零散。COAE評測的任務(wù)涵蓋了情感分析這一方向的大部分問題，如情感詞的識別與極性判斷、情感相關(guān)要素的抽取、句子及篇章的主客觀識別與褒貶傾向判斷等。在情感表達(dá)的語言單位上，大部分國內(nèi)的研究定位于詞匯，即識別情感詞以及判斷其極性。對這一問題的主要方法是在HowNet等現(xiàn)有的情感語義資源的基礎(chǔ)上進(jìn)行領(lǐng)域擴(kuò)展，從而獲得領(lǐng)域相關(guān)的情感詞詞表。擴(kuò)展的主要依據(jù)有詞性、句式、句法等語言學(xué)約束條件，[1-2]與HowNet等現(xiàn)有情感詞的共現(xiàn)關(guān)系，[1]情感詞的上下文模版等。[3]

一個詞的情感性質(zhì)（是否是情感詞，極性如何）依賴于其出現(xiàn)的上下文。因此，COAE要求抽取而得的情感詞要注明前后的語境，以判斷其是否確實作為情感詞出現(xiàn)。這是一種消除詞匯情感不確定性的手段，如果直接將情感識別定位于短語層面，這樣的不確定性將很自然的基本得到消除。

文獻(xiàn)[4]的研究不是以詞匯為基礎(chǔ)進(jìn)行情感分析。在文獻(xiàn)中，作者在人工標(biāo)注好的主客觀訓(xùn)練語料中抽取了連續(xù)雙詞詞類組合模式作為區(qū)分主觀文本與客觀文本的特征，進(jìn)而對文本進(jìn)行主客觀性的分類。因為是長度為2的順序詞類，這樣的特征比詞匯顯得更“抽象”，也無法談到褒貶極性的區(qū)分。

國外情感分析的研究起步更早，在各個級別的會議上都已發(fā)表了大量的相關(guān)文獻(xiàn)。研究詞的情感極性問題最早見于文獻(xiàn)[5]。在文獻(xiàn)[5]中，研究者通過分析形容詞之間組成的詞對來判別形容詞的情感傾向。這些詞對通過“and”、“or”、“but”、“either-or”以及“nether-nor”連接起來。這個方法是基于這樣一種假設(shè)：通過這些詞連接的詞對擁有相同或是相反的情感極性。例如使用“and”相連接的詞對就含有相同的極性。通過輸入一些初始詞及其情感極性，最終能夠得到大量形容詞的情感極性。

Turney[6]提出了另一種方法來計算詞語的情感極性。該方法先輸入少量的正面和負(fù)面的種子詞，通過搜索引擎搜索種子詞與目標(biāo)詞共現(xiàn)的次數(shù)，并通過點間互信息（Point-wise Mutual Information，PMI）得到目標(biāo)詞的情感極性。然而，該方法需要連接到外部的網(wǎng)絡(luò)資源。此外，主流中文搜索引擎不支持該方法所需的“NEAR”修飾符：即兩個詞只在一定距離之內(nèi)共現(xiàn)。

文獻(xiàn)[7]則是通過分析WordNet來得到目標(biāo)詞的情感極性。該方法首先通過WordNet以及同義詞構(gòu)建出詞網(wǎng)絡(luò)。每個目標(biāo)詞的極性則是通過判斷該詞與“Good”和“Bad”之間的距離哪一個更近來獲得。

2 基于無指導(dǎo)學(xué)習(xí)的情感短語極性判別方法

該方法的第一步是抽取帶有情感傾向的短語。已有工作闡述了單個形容詞表達(dá)情感傾向的重要性。[8]正如第一點提到的，單個形容詞在不同上下文會存在轉(zhuǎn)義的現(xiàn)象，并且不同領(lǐng)域的形容詞可能含有不同的主觀傾向。因此，本文使用短語作為基本的情感傾向單元。通過人工方式總結(jié)了一批模板，使用這些模板作為抽取短語的方式。

首先，算法需要將評論進(jìn)行切詞和詞性標(biāo)注。使用海量分詞研究版作為切詞工具以及BasePoS1http://bcmi.sjtu.edu.cn/～zhaohai/index.ch.htm l作為詞性標(biāo)注工具。該詞性標(biāo)注工具的標(biāo)準(zhǔn)依照賓州樹庫的詞性標(biāo)注標(biāo)準(zhǔn)。表1列出了抽取短語過程中所使用的模板。其中，AD為副詞，VA為表語形容詞，VV為其他類動詞，AS為語助詞，DEC為“的”字語助詞，NN為名詞等等。更多的解釋可以參考相關(guān)文檔2ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz。

該方法的第二步是計算每個短語的情感極性。使用淺層語義分析（Latent Semantic Analysis,LSA）技術(shù)來比較情感短語與種子詞之間的強(qiáng)弱關(guān)系。LSA使用矩陣奇異值分解（Singular Value Decomposition，SVD）來分析詞語間的統(tǒng)計關(guān)系。LSA首先需要將文本轉(zhuǎn)換為矩陣形式，其中行向量表示短語，列向量表示文檔。和傳統(tǒng)做法不同的是，將屬于同一篇新聞的評論整合為一個文檔。這種做法暗含了一個假設(shè)，即隸屬于同一篇新聞的評論往往含有類似的情感極性。通過觀察發(fā)現(xiàn)，這個假設(shè)在大部分情況下是成立的。另外一個原因是：新聞類評論的文本往往很短，一句話往往只有一個候選短語。因此如果把單篇評論作為一個文檔來對待，很難得到短語間的共現(xiàn)信息。

表1 短語模板

SVD分解會將矩陣X分解為3個矩陣的積，即：X=UΣVT。假設(shè)矩陣X的秩為r，選擇K≤r。那么Xk=UkΣk是秩為K時對X矩陣的最好近似。假設(shè)Phrase1和Phrase2在矩陣中相應(yīng)的行向量分別那么它們的相似度：LSA（Phrase1，Phrase2）

人工選擇了4個正面種子詞和4個負(fù)面種子詞共計8個種子詞作為初始輸入。8個種子詞的列表見表2。這些種子詞在語料中都有很高的出現(xiàn)頻率，而且出現(xiàn)轉(zhuǎn)義等情形也較少。

表2 種子詞列表

對于任意一個短語Phrase，其情感極性SP用如下公式計算：

其中s表示種子詞。當(dāng)SP大于零時，該短語為正面性短語，反之當(dāng)SP小于零時，該短語為負(fù)面性短語。

該方法的第三步是計算文檔的情感極性。將文檔中所有已計算極性值的情感短語抽取出來。然后對所有的情感極性值取平均。當(dāng)平均值大于0.05時，評論被歸類到正面類評論。當(dāng)平均值小于-0.05時評論被歸類到負(fù)面類評論。當(dāng)平均值居于-0.05和0.05之間時則為中立類評論。

3 實驗及其結(jié)果

3.1 實驗數(shù)據(jù)說明

抓取了新民網(wǎng)32 006 538條時政、民生類新聞評論。通過隨機(jī)的方式選擇了977篇新聞及其對應(yīng)的15 004條評論進(jìn)行標(biāo)注。標(biāo)注的類別為：正面、負(fù)面、中立和未知。正面類的主要包括了贊揚、同意、支持等主觀傾向。負(fù)面類的主要包括了憤怒、貶損、辱罵、抗議等主觀傾向。中立類的主要包括了感慨等主觀傾向以及客觀類評論。未知類的標(biāo)注準(zhǔn)則則是當(dāng)該評論難以判斷其所屬的類別時使用。4個類別對應(yīng)的數(shù)量見表3：

3.2 情感分類實驗

考察了不同大小的情感極性值對于分類結(jié)果的影響。結(jié)果見表4所示。其中，短語集大小的百分比指的是依據(jù)SP值從大到小選取的短語占所有抽取短語的比例。例如，10%表示實驗中使用了正面短語集合和負(fù)面短語集合各自SP值最大的10%短語。第二列指的是15 004條評論中含有特定短語集中短語的比例。第三列指的是只考慮正面和負(fù)面類評論時得到的準(zhǔn)確率。第四列指的是考慮正面、負(fù)面以及中立評論得到的準(zhǔn)確率。準(zhǔn)確率的計算公式為：實驗結(jié)果顯示，當(dāng)只考慮正面以及負(fù)面類評論時，基于短語情感極性最高能得到87.15%的準(zhǔn)確率。相應(yīng)的代價是只能命中大約1/5的評論。而此時，分為3類的準(zhǔn)確率也能達(dá)到65.8%。隨著短語集的增大，準(zhǔn)確率隨之減小而命中的評論數(shù)量則隨之增大。短語集合中SP值較小的短語大多為出現(xiàn)頻率很低的短語。因此，可以認(rèn)為當(dāng)候選短語出現(xiàn)了足夠多的數(shù)量，基于無指導(dǎo)學(xué)習(xí)的方式能夠有效的學(xué)習(xí)到其情感傾向。

4 結(jié)論與展望

提出了一種基于短語與種子詞的共現(xiàn)信息來計算情感短語的極性。大規(guī)模真實語料上的實驗表明，當(dāng)問題定義為正負(fù)面的二類問題時，使用該方法得到的情感短語用以判斷評論的情感傾向最高能得到87%的準(zhǔn)確率。

基于短語的方法主要的問題是不能命中大部分的評論，且短語的抽取工作依靠人工總結(jié)的規(guī)則。下一步的研究方向是擴(kuò)大短語抽取的規(guī)則集合以及機(jī)器自動識別情感短語的方法。■

[1]喬春庚，孫麗華，吳韶.基于模式的中文傾向性分析研究[C].北京:第一屆中文傾向性分析評測論文集，2008：21-31.

[2]劉軍，劉全升，陳漠沙.第一屆中文傾向性分析評測結(jié)果淺析[C].北京:第一屆中文傾向性分析評測論文集，2008：125-141.

[3]王秉卿，張姝，張奇.中文情感詞識別[C].北京:第一屆中文傾向性分析評測論文集，2008：63-69.

[4]葉強(qiáng)，張紫瓊，羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別研究[J].信息系統(tǒng)學(xué)報，2007（1）：79-91.

[5]Hatzivassiloglou and McKeown.Predicting the semantic orientation of adjectives[M].Madrid,Spain：Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics，1997：174-181.

[6]P.D.Turney.Thumbs up or Thumbs down?Semantic orientation applied to unsupervised classification of reviews[C].Philadelphia：Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics，2002：417-424.

[7]J.Kamps,M.Marx,R.J.Mokken et.al.Using WordNet to measure semantic orientation of adjectives[J].Lisbon,Portugal：Proceedings of the 4th International Conference on Language Resources and Evaluation，2004（4）：1115-1118.

[8]J.M.Wiebe.Learning subjective adjectives f rom corpora[C].Menlo Park：Proceedings of the 17th National Conference on Artificial Intelligence，2000：735-740.

注：本文為基金項目論文，獲上海市科學(xué)技術(shù)委員會科研項目《新聞網(wǎng)站專題頁面富媒體信息搜編技術(shù)研究及其系統(tǒng)實現(xiàn)》（課題號：09dz1502000）資金資助。

2011-03-08