宋洪偉,賀 宇,付國宏
(黑龍江大學 計算機科學技術學院,黑龍江 哈爾濱 150080)
近幾年來,隨著網(wǎng)絡上用戶生成數(shù)據(jù)爆發(fā)式的增長,意見挖掘在自然語言處理領域中已經(jīng)越來越受關注[1-3]。作為意見挖掘中的一個子任務,主觀句識別的主要目的是判定一個給定的句子是主觀句還是客觀句。對于許多意見挖掘系統(tǒng),例如,情感分類、意見摘要和意見問答等系統(tǒng),預先將主觀句從客觀句中識別出來可以降低相關問題的復雜度,而且還能夠提高系統(tǒng)的性能。
雖然近幾年來主觀句識別技術已經(jīng)有了很大進步,但是對于面向網(wǎng)絡文本的意見挖據(jù)應用來說,主觀句識別問題仍然沒有得到很好的解決。很大一部分原因是由于主觀句的語言特性過于靈活多變[2]。一方面,人們總是用各式各樣的方法表達主觀信息;另一方面,主觀信息通常是上下文相關或領域相關的[2]。這使得抽取大量主觀性線索及更好的描述主觀句變得十分困難。此外,由于意見挖掘相關研究工作仍處于早期階段,所以沒有足夠的標注語料用于主觀句識別模型的訓練。因此,如果能發(fā)現(xiàn)主觀性文本的本質特征并據(jù)此提出一種簡潔的模型,對于主觀句識別工作甚至是意見挖掘領域的其他工作都將具有重大的意義。
針對以上問題,本文在前人工作基礎上提出一種基于情感密度的模糊集合分類器來識別漢語主觀句。首先,我們利用優(yōu)勢率方法在已分好詞的訓練數(shù)據(jù)中抽取主觀性線索詞。為了更好的描述主觀句,我們用已抽取出的線索詞計算訓練語句的情感密度。最后,我們把訓練語料的情感密度作為識別主觀句的特征,并以此實現(xiàn)了一個三角形隸屬度函數(shù)的模糊集合分類器。我們認為,相對于傳統(tǒng)的分類方法,基于模糊集合的分類方法提供了一個更為直接的方式來區(qū)分出主觀句與客觀句在概念外延上的細微差別。這一點在NTCIR-6中文數(shù)據(jù)[3]上的初步實驗結果中得到驗證。
本文接下來的安排如下: 第2節(jié)簡要介紹了相關工作及背景;第3節(jié)描述方法的具體細節(jié);第4節(jié)給出了NTCIR-6數(shù)據(jù)上的實驗結果;最后,第5節(jié)給出了本文工作的結論以及未來研究的展望。
之前的研究工作大部分都是把主觀性識別問題看作將一個給定句子分成主觀的或客觀的這樣一種二分類任務。為了從描述性文本中分離出意見句,Yu和Hatzivassiloglou提出了三個不同的方法,分別叫做基于句子相似度的方法、融合多特征的樸素貝葉斯分類器和多重樸素貝葉斯分類器[4]。他們的實驗結果顯示多特征和多重分類器的融合對主觀性識別有很大的幫助。與Yu和Hatzivassiloglou不同,Pang和Lee將文檔級別和句子級別的主觀性識別問題形式化地看作一個統(tǒng)一的問題,并提出了一個基于最小切割的解決方法[5]。像他們所描述的,不論是文本內的上下文信息還是傳統(tǒng)的觀點詞特征都能被結合起來完成主觀性識別。而Lin等人提出了一種稱為subjLDA的基于潛在狄利克雷分布的分層貝葉斯模型,以此自動識別主觀句。他們的方法只需要較少的領域相關的主觀性線索詞[6]。
如何發(fā)現(xiàn)恰當?shù)闹饔^性線索是主觀性識別任務的關鍵問題。早期的研究工作集中探索觀點詞,尤其是主觀性形容詞,以完成主觀性識別任務。Hatzivassiloglou和Wiebe表明形容詞是主觀性語句的一類很好的指示詞[7]。除了主觀性形容詞,Riloff等人還探索了主觀性名詞對主觀性識別任務的影響[8]。在他們的工作中,使用bootstrapping算法從未標注的語料中抽取主觀性名詞。他們還指出,主觀性名詞雖然非常重要但是很少被使用。隨后,Wiebe和Mihalcea指出詞義與主觀性有很緊密的關聯(lián)[9]。Akkaya和Wiebe探索利用主觀性詞義消解來提高主觀分析系統(tǒng)的性能[10]。他們表明利用主觀性詞義消解能顯著提高情感分析任務的性能。除了詞級別的線索,近期的一些研究工作還考慮了其他線索,例如,在主觀性識別中考慮情感模式規(guī)則[11]。Jindal和Liu探索使用序列模式挖掘算法來自動從語料中抽取基于類別的序列規(guī)則,然后進一步用這些序列規(guī)則識別產(chǎn)品評論中的主觀性比較句[12]。Karamibekr和Ghorbani則以動詞為主要線索,制定了一系列的啟發(fā)式規(guī)則,然后面向社會熱點評論文本抽取出能夠代表主觀句的意見三元組[13]。除此之外,Remus假設自然語言文本的主觀性與其可讀性有一定的聯(lián)系。他把文本的可讀性度量值結合傳統(tǒng)的主觀性線索詞作為特征,使用支持向量機模型識別主觀句[14]。特別的,Wang 和 Fu提出了一種基于情感密度子區(qū)間的樸素貝葉斯分類器,他們將詞語級別的特征融合為情感密度,進一步將情感密度劃分為一系列的子區(qū)間,并以此作為樸素貝葉斯分類器的特征[15]。他們表明利用情感密度作為特征能較好的區(qū)分出主客觀句之間的不同。
在本文中我們處理漢語句子級別的主觀性分類問題。我們使用Wang 和 Fu提出的情感密度的概念來描述句子的主觀程度。與其不同的是,我們首先利用優(yōu)勢率方法抽取主觀性線索詞及其權重,然后使用情感密度作為模糊集合分類器的特征以判斷一個給定的句子是主觀句還是客觀句。與現(xiàn)存的主觀性識別系統(tǒng)相比較,我們的方法提供了更完善的統(tǒng)一框架來處理不同類型的主觀性線索詞,而且能夠應對大量開放性文本中各種各樣的主觀句。
在本節(jié)中,我們詳細介紹我們提出的漢語主觀句識別方法,包括主觀性特征的選取、情感密度的定義和基于情感密度的模糊集合分類器。
我們從組成主觀句的基本要素上尋找主觀性特征。一般的,一個意見句包括一個觀點的持有者、一個意見指示詞、一個意見客體以及一個或多個表達情感極性的極性詞[1]。在具體的主觀句中,觀點持有者通常作為命名實體或代詞出現(xiàn),極性詞指明了情感的極性。意見持有者通常使用一些特殊的動詞表達對某一對象的觀點,例如,“指出”和“認為”這樣的意見指示動詞。考慮下面的觀點句“他 同時 指責 北約 和 美國 軍方 不負責任地 撒謊 ?!痹谶@句主觀句中,“他”是表達該觀點的觀點持有者,“指責”是一個意見指示動詞,“美國 軍方”是觀點的客體?!安回撠熑蔚亍焙汀叭鲋e”是表達兩個負向極性的極性詞。
通過上面的觀察分析,我們主要考慮五種主觀性線索詞。他們是命名實體或代詞、意見指示詞、屬性詞、極性詞和程度副詞,如表1所示。
表1 主觀性線索詞示例
為了方便起見,我們將表1中的線索詞統(tǒng)稱為主觀性關鍵詞。顯然,我們可以簡單的從現(xiàn)有的情感詞典中抽取出相應詞性的情感詞作為一個主觀性關鍵詞詞典。然而,這樣做詞典的覆蓋度必然會有限制。為了彌補詞典的低覆蓋度,我們利用優(yōu)勢率的方法自動從訓練數(shù)據(jù)中抽取出更多與主觀句有高關聯(lián)性的主觀性關鍵詞,同時將利用優(yōu)勢率公式計算出的值作為主觀性關鍵詞的權重。
式(1)是詞word在訓練語料中的優(yōu)勢率計算公式。
(1)
其中,P(word/sub)代表的是詞word在主觀句中出現(xiàn)的條件概率,P(word/obj)代表詞word在客觀句中出現(xiàn)的條件概率。為了方便起見,我們采用式(2)和(3)所示的最大似然估計方法來計算P(word/sub)和P(word/obj)的值。
其中,count(word,sub)表示在訓練語料中包含詞word的所有主觀句的數(shù)目。count(sub)表示在訓練語料中所有主觀句的數(shù)目。count(word,obj)和count(obj)的含義與上述類似。
優(yōu)勢率公式主要應用于二分類問題。當詞word的優(yōu)勢率為正數(shù)時,權值越高表明該詞與主觀句有越緊密的關聯(lián);對稱地,當詞word的優(yōu)勢率為負數(shù)時,權值越小表明該詞與客觀句有越緊密的關聯(lián),此時我們稱之為客觀性關鍵詞。
為了更好地描述句子的主觀程度,我們在本文中采用情感密度的概念[15]。在問答系統(tǒng)和摘要生成領域,常采用關鍵詞的密度來給句子打分,以選擇與主題相關的有代表性的句子。像我們在3.1節(jié)中已經(jīng)討論過的,一個主觀句通常包括主觀性關鍵詞?;谶@點,我們采用問答系統(tǒng)中關鍵詞密度的概念來表示主觀句中主觀性關鍵詞的密度。為了方便起見,我們稱之為情感密度。它的定義如式(4)所示。
(4)
這里,N是句子S中的關鍵詞的總數(shù),Distance(wi,wi+1)指的是句子S中相鄰的兩個關鍵詞wi和wi+1之間的非關鍵詞數(shù)量。Score(wi)是關鍵詞wi的權重,該值通過3.1節(jié)的式(1)計算得出。
我們希望情感密度SD(S)不僅能表示一個句子的主觀程度,還能夠盡可能的顯示出主觀句與客觀句之間的不同。所以我們把式(4)中wi的意義進行擴展,引入權重為負的客觀性關鍵詞。我們認為由權重為負的客觀性關鍵詞可計算出數(shù)值為負數(shù)的情感密度,此時的情感密度可代表一個句子的客觀程度,這樣的情感密度在同一框架下應該更能夠展現(xiàn)主觀句與客觀句之間的細微差別。為了實現(xiàn)上述的方法,在利用式(4)計算每個句子的情感密度時,若wi與wi+1權重為負值,我們就翻轉他們乘積的符號。圖1給出情感密度算法的偽代碼描述。
通過上文的介紹,我們得到句子的情感密度,其在一定程度上刻畫了所屬句子的主觀性程度。我們通過對情感密度分布的理論分析和 實 驗 觀 察,發(fā)現(xiàn)在大規(guī)模文本中,其情感密度的分布是不均勻的。在訓練語料中,大部分句子的情感密度都集中在某一較小的區(qū)間內。同時,在情感密度小于某個較小閾值的句子集中, 大部分句子都是客觀句; 對稱地,在情感密度大于某個較大閾值的句子集中,大部分句子都是主觀句。但由于語言表達的靈活性使得情
圖1 情感密度算法
感密度的分布具有一定的模糊性,簡單的規(guī)定某個閾值無法適應這樣的特點。基于以上情感密度分布的特點,本文采用三角形隸屬度函數(shù)的模糊集合分類器區(qū)分句子的主觀性強度。
首先,我們將句子的情感密度劃分到3個模糊集合中,分別為“低主觀性強度”、“中主觀性強度”和“高主觀性強度”。然后,我們選擇三角形隸屬度函數(shù)作為以上三個主觀性強度集合的隸屬度函數(shù)。我們先給出三角形隸屬度函數(shù)的定義,如式(5)—(7)所示。
(7)
其中,Tlow(x)、Tmed(x)、Thig(x)分別是句子的情感密度從屬于相應3個模糊集合的隸屬度;m1、m2、m3是相應3個隸屬度函數(shù)的聚類中心。我們使用簡單可靠的K-MEANS方法確定聚類中心的值。
K-MEANS算法是一種得到廣泛使用的基于劃分的聚類算法,把n個對象分為k個類,以使類內具有較高的相似度。相似度的計算根據(jù)一個類中對象的平均值來進行。算法首先隨機地從訓練語料中選擇3個句子的情感密度值,每個情感密度值初始地代表了一個類的中心:m1、m2、m3。對訓練語料中剩余的每個情感密度值根據(jù)其與各個類中心的距離,將它賦給最近的類,然后重新計算每個類的平均值。這個過程不斷重復,直到所有3個聚類中心同時收斂。
至此,我們可以利用三角形隸屬度函數(shù)來判斷給定句子的主觀性強度,并根據(jù)分數(shù)大小確定句子所屬的主觀性強度集合。為了識別主觀句,我們采用如下規(guī)則: 如果一個句子屬于“中主觀性強度”集合或者“高主觀性強度”集合時,該句屬于主觀句。
基于上述原理,我們面向漢語句子主觀性分類實現(xiàn)了一個基于情感密度的模糊集合分類器。該分類器主要包括3個步驟: 首先,預處理模塊對輸入的句子進行分詞、詞性標注和命名實體識別等分析處理,以便獲取后續(xù)主觀性分類所需的線索詞。為了完成預處理任務,該模塊分別嵌入一個基于語素的漢語詞法分析器[16]和一個基于LHMM的漢語命名實體識別器[17];接著,計算給定句子的情感密度;最后,利用三角形隸屬度函數(shù)計算該句子屬于不同主觀性強度集合時的分數(shù),并根據(jù)分數(shù)大小確定句子的主觀性強度,進而根據(jù)上述規(guī)則判定句子是否為主觀句。
為了驗證我們方法的有效性,我們在NTCIR-6中文語料上進行了兩組實驗,本節(jié)介紹這些實驗的結果。
本文實驗數(shù)據(jù)來自NTCIR-6的中文語料。表2給出了實驗數(shù)據(jù)的基本統(tǒng)計信息。為了評價系統(tǒng)的性能,本文采用NTCIR-6的LWK評價方法,并采用NTCIR-6的Lenient評價標準下的準確率、召回率和F-值三個指標來評價系統(tǒng)的性能。
為了確定情感關鍵詞及主觀性特征,實驗中的基礎詞典來自NTU和CUHK情感詞典。在此基礎上,我們用優(yōu)勢率方法從訓練語料中抽取主觀性線索詞以擴充情感詞典。最終實驗所用的情感詞典包含852個代詞和名詞、1 832個意見指示動詞、8 750個情感詞和219個程度副詞。
表2 實驗數(shù)據(jù)的統(tǒng)計信息
我們的第一組實驗的目的是通過實驗對比驗證模糊集合分類器結合情感密度對主觀性識別的效果,表3是實驗的結果。
表3 不同分類方法的主觀句識別結果
在這組實驗中,在情感密度的計算方法上我們采用與Wang和Fu(2010)[15]一致的策略,即僅使用權值為正數(shù)的主觀性關鍵詞計算每個句子的情感密度。與Wang和Fu(2010)[15]使用基于情感密度子區(qū)間的樸素貝葉斯分類器不同,我們使用基于情感密度的三角形模糊集合分類器。表3的實驗結果顯示我們的系統(tǒng)較Wang和Fu(2010)[15]的系統(tǒng)在總體的F值上提高了1.2%。這在一定程度上說明比起樸素貝葉斯分類器,模糊集合分類器能更好的利用情感密度以區(qū)分主觀性與客觀性之間的差別。在K-MEANS方法中,我們簡單地把利用K-MEANS聚類方法得到的“中主觀性強度”集合的聚類中心值作為判別主客觀句的閾值,以此識別主觀句。此實驗表明,簡單的使用特征值劃分主觀句與客觀句之間的界限無法得到更好的效果。
我們分析認為,實驗中的情感密度以主觀性線索詞作為特征,將表達方式靈活多變的句子映射到情感密度的度量值上進行區(qū)分。直觀上,一個句子的情感密度越大意味著該句的主觀性強度越大,就越可能是一個主觀句。但是,由于主觀句的表達方式靈活多變以及其與客觀句的差別細微,很難判斷主觀句與客觀句之間的精確界限。因此模糊集合能夠很好的描述情感密度的本質。實驗也證明了我們方法的可行性。
我們的第二組實驗的目的是驗證主觀性關鍵詞與客觀性關鍵詞對情感密度產(chǎn)生的影響。在這組實驗中,方案1僅使用權值為正數(shù)的主觀性關鍵詞作為特征計算情感密度,而方案2的情感密度計算公式融合了權值為正數(shù)的主觀性關鍵詞與權值為負數(shù)的客觀性關鍵詞。
表4的實驗結果表明,混合關鍵詞的方案2準確率最高,達到了67.9%,驗證了混合關鍵詞特征可以增強情感密度對主客觀句之間細微區(qū)別的區(qū)分能力。但是召回率下降了0.8%,最終F值提高了0.2%。可能是因為抽取的特征里參雜了過多的噪音,使得某些句子的情感密度表現(xiàn)異常。
表4 不同關鍵詞對主觀句識別的影響
我們分析認為,在包含了多個詞性特征的情感密度這一統(tǒng)一框架下,方案1僅使用主觀性關鍵詞作為特征,在一定程度上限制了情感密度區(qū)分主觀句與客觀句的能力。所以我們在方案2中引入了權值為負數(shù)的客觀性關鍵詞作為特征,希望能以此增強情感密度的區(qū)分能力。實驗也證明了我們方法的有效性。
表5比較了本文系統(tǒng)與NTCIR-6中最好系統(tǒng)的結果。UMCP-1[18]系統(tǒng)首先利用自動收集與人工校對相結合的方法構造情感詞典,然后根據(jù)一個句子中情感詞的個數(shù)來判別該句是否為主觀句。
表5 本文系統(tǒng)與NTCIR-6最好系統(tǒng)的比較
實驗結果表明,本文系統(tǒng)僅比UMCP-1[18]系統(tǒng)的F值低0.1%。我們分析可能是由于訓練語料過小,抽取出的情感詞質量不夠高,使得我們無法更精確地調整三角形隸屬度函數(shù)的參數(shù)。相比UMCP-1[18]系統(tǒng),本文系統(tǒng)可自動識別主觀句,無需手工校對情感詞典等方式進行人工維護。這使得我們的方法具有更大的適用性,可以更好地應對大量開放性文本中各種各樣的主觀句。
本文提出了一種融合情感密度和模糊集合的漢語主/客觀句分類系統(tǒng),并采用NTCIR-6數(shù)據(jù)對系統(tǒng)進行了測試。實驗表明我們的方法有一定的可行性,這在一定程度上說明: 在模糊集合框架下,融合主觀性關鍵詞與客觀性關鍵詞的情感密度能夠很好地區(qū)分主客觀句子在概念外延上的細微區(qū)別。雖然在所進行的實驗中我們系統(tǒng)的準確率達到最高,但F值提升的幅度相對并不明顯。我們分析可能是由于訓練語料太小,抽取出的特征質量不夠高。這使得情感密度分布有一定的局限性,三角形隸屬度函數(shù)的參數(shù)得不到精確的劃分。因此,在將來的工作中我們將研究如何提高特征詞的質量,并進一步擴大訓練語料庫。同時,我們還將研究如何構造和選取其他特征與情感密度進行融合,以彌補情感密度受低質量特征詞的影響。
[1] B Liu. Sentiment analysis and subjectivity[J]. Handbook of natural language processing, 2010, 2: 627-666.
[2] B Pang, L Lee. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.
[3] Y Seki, D Evans, L Ku, et al. Overview of opinion analysis pilot task at NTCIR-6[C]//Proceedings of NTCIR-6 Workshop Meeting. 2007: 265-278.
[4] H Yu, V Hatzivassiloglou. Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of EMNLP'03, 2003: 129-136.
[5] B Pang, L Lee. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of ACL’04, 2004: 271-278.
[6] C Lin, Y He, R Everson. Sentence subjectivity detection with weakly-supervised learning[C]//Proceedings of IJCNLP'11. 2011: 1153-1161.
[7] V Hatzivassiloglou, J Wiebe. Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of ACL'00, 2000: 299-305.
[8] E Riloff, J Wiebe, T Wilson. Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of HLT-NAACL'03, 2003: 25-32.
[9] J Wiebe, R Mihalcea. Word sense and subjectivity[C]//Proceedings of COLING-ACL’06, 2006: 1065-1072.
[10] C Akkaya, J Wiebe, R Mihalcea. Subjectivity word sense disambiguation[C]//Proceedings of EMNLP'09, 2009: 190-199.
[11] E Riloff, J Wiebe, W Phillips. Exploiting subjectivity classification to improve information extraction[C]//Proceedings of AAAI'05, 2005: 1106-1111.
[12] N Jindal, B Liu. Identifying comparative sentences in text documents[C]//Proceedings of SIGIR'06, 2006: 244-251.
[13] M Karamibekr, A Ghorbani. Sentence subjectivity analysis in social domains[C]//Proceedings of the 2013 IEEE /ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies, 2013: 268-275.
[14] R Remus. Improving sentence-level subjectivity classification through readability measurement[C]// Proceedings of NODALIDA'11, 2011: 168-174.
[15] X Wang, G Fu. Chinese subjectivity detection using a sentiment density-based naive Bayesian classifier[C]//Proceedings of ICMLC'10, 2010: 3299-3304.
[16] G Fu, C Kit, J Webster. Chinese word segmentation as morpheme-based lexical chunking[J]. Information Sciences, 2008, 178(9): 2282-2296.
[17] G Fu, K Luke. Chinese named entity recognition using lexicalized HMMs[J]. ACM SIGKDD Explorations Newsletter, 2005, 7(1): 19-25.
[18] Y Wu, D Oard. NTCIR-6 at Maryland: Chinese opinion analysis pilot task[C]//Proceedings of the 6th NTCIR Workshop on Evaluation of Information Access Technologies, 2007: 344-349.
宋洪偉(1989—),碩士研究生,主要研究領域為自然語言處理。E-mail: songhongwei@live.cn
付國宏(1968—),博士,教授,主要研究領域為自然語言處理、文本挖掘。E-mail: ghfu@hotmail.com
賀宇(1988—),碩士研究生,主要研究領域為自然語言處理。E-mail: heyucs@yahoo.com