黃萱菁,張 奇,吳苑斌
(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203)
隨著互聯(lián)網(wǎng)的發(fā)展和以用戶為中心的Web2.0業(yè)務(wù)的不斷擴(kuò)展,人們可以隨時(shí)隨地通過論壇、博客、微博等各種方式分享心情、想法和觀點(diǎn)。這些信息中包含了大量用戶對于事件、產(chǎn)品、人物等對象的評論信息,同時(shí)也影響到了輿論熱點(diǎn)的形成和人們的消費(fèi)習(xí)慣。評論信息不論對于政府、企業(yè)還是個(gè)人都十分重要。對互聯(lián)網(wǎng)用戶的調(diào)查發(fā)現(xiàn),用戶普遍會(huì)在購買產(chǎn)品之前通過網(wǎng)絡(luò)對產(chǎn)品進(jìn)行調(diào)查,同時(shí)大部分用戶也認(rèn)為產(chǎn)品評論對其購買意愿產(chǎn)生了影響。此外,公眾對于輿情熱點(diǎn)的觀點(diǎn)和傾向也經(jīng)常影響政府機(jī)構(gòu)的決策行為。因此,如何自動(dòng)地從海量的非結(jié)構(gòu)化評論中挖掘出高層次的語義信息并加以表示,就成為了人們的迫切需求。文本情感傾向分析(Sentiment Analysis/Opinion Mining)的研究正是在這一背景下應(yīng)運(yùn)而生。
自然語言處理的研究已有悠久的歷史,但是絕大部分的工作都集中于對事實(shí)性文本的挖掘和處理。而文本情感傾向分析則關(guān)注對說話人的態(tài)度(或稱觀點(diǎn)、情感)的分析,也就是對文本中主觀性信息的挖掘和處理。文本情感傾向分析涉及到語言學(xué)、認(rèn)知理論、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索等多個(gè)領(lǐng)域,包含很多待解決的具有挑戰(zhàn)性的問題,已成為自然語言處理的一個(gè)熱門方向。以ACL為例,2006年ACL會(huì)后舉辦了傾向性分析的專題研討會(huì)[1],從2007年開始ACL將傾向性分析列為大會(huì)主題之一,此后SIGIR,SIGKDD,WWW,EMNLP,COLING,IJCNLP等會(huì)議中也都有大量的傾向性分析相關(guān)論文。
文本情感傾向分析可以粗略地分為兩個(gè)大類: 傾向性分類和傾向性信息抽取。傾向性分類將文本情感傾向性分析轉(zhuǎn)化為文本分類問題,即利用有監(jiān)督、無監(jiān)督以及半監(jiān)督的方法,對給定的篇章、段落、句子、短語或者單詞是否具有傾向性,以及傾向性的極性進(jìn)行分類。傾向性信息抽取則是更精細(xì)的分析方法,這類方法通常是將具有傾向性的文本轉(zhuǎn)化為框架、槽等情感傾向性表示形式。在情感傾向性分析中需要使用命名實(shí)體識別、關(guān)系抽取、句法分析等自然語言處理底層技術(shù)。
隨著文本情感傾向分析研究的不斷深入,對于具有傾向性的特殊句式的研究也逐漸展開,例如: 對于帶有傾向性的比較句式的研究等[2]。除此之外,也有學(xué)者開始涉及具有傾向性的句子間關(guān)系分析等篇章級研究[3]。在傾向性分析應(yīng)用,以及傾向性分析與其它任務(wù)相結(jié)合的研究也在逐漸展開,例如: 傾向性文本摘要[4]、傾向性信息檢索[5]、輿情分析等[6]。由于文本情感傾向性分析處理的語料大多來源于用戶生成內(nèi)容(user-generated content,UGC),其中包含一定數(shù)量的垃圾,因此傾向性垃圾數(shù)據(jù)的查找與檢測也成為近年來一個(gè)研究熱點(diǎn)[7]。
本文中,我們將首先對文本情感傾向分析這一問題的不同任務(wù)進(jìn)行定義,并對在不同任務(wù)下的傾向性表示這一基礎(chǔ)問題進(jìn)行闡述;之后我們分別對傾向性分類和傾向性信息抽取兩大類方法分別進(jìn)行歸納和介紹;接下來對常見的傾向性分析基準(zhǔn)語料庫和國內(nèi)外主流評測會(huì)議以及情感傾向分析的主要應(yīng)用領(lǐng)域進(jìn)行介紹;最后,對情感傾向分析技術(shù)進(jìn)行了總結(jié),并對發(fā)展趨勢進(jìn)行展望。
在引言中我們提到,文本情感傾向分析是對文本中主觀性信息的挖掘和處理。在本章中,我們將利用如下一段關(guān)于數(shù)碼相機(jī)的評論來對情感傾向分析這一問題進(jìn)行進(jìn)一步闡述,并討論不同粒度的傾向性表示。
例子: 尼康D7000的外觀和D90如出一轍,無論是體積還是按鍵布局都很合理。D7000相比D90有著非常大的升級,該機(jī)背部和頂蓋采用了堅(jiān)固的鎂合金材質(zhì)。雖然相機(jī)手柄和前臉并不是金屬板,但是卻幾乎被橡膠蒙皮覆蓋,非常的上檔次。但是,D7000售價(jià)讓很多N粉大為失望,價(jià)格太高。
關(guān)于這段文本中的情感傾向性我們希望得到哪些信息?首先,我們可以看到這段文字中有很多句子都具有傾向性,其中前三句是正面評價(jià),而最后一句是負(fù)面評價(jià)。更深入一些,我們可以看到第一句話對尼康D7000這個(gè)產(chǎn)品的“體積”和“按鍵布局”,使用了“合理”這個(gè)詞進(jìn)行評價(jià)。第二句話對“背部”和“頂蓋”所使用的材料進(jìn)行說明,同時(shí)隱含地表達(dá)了正面評價(jià)。第三句話包含一個(gè)轉(zhuǎn)折關(guān)系,它對相機(jī)的“手柄”和“前臉”給出了褒義的評論。最后一句話對D7000的“價(jià)格”這一屬性給出了負(fù)面評價(jià)。同時(shí)所有這些評論都是由說話人給出的。在此基礎(chǔ)上,我們還可以從這段話中看到,第一句話中對D90的兩個(gè)屬性“體積”和“按鍵布局”也給出了隱含的正面評價(jià)。第二句話中對D7000和D90進(jìn)行了比較,句子中的第二個(gè)從句作為原因說明了第一個(gè)分句。此外第一句與第二句話之間存在并列關(guān)系,第三句話與第四句話間是轉(zhuǎn)折關(guān)系。針對這些需求,我們可以更正式地定義情感傾向分析任務(wù)。
任務(wù)1: 傾向性分類,是指對給定一段文本(文本可以僅包含一個(gè)單詞,也可以是一整篇文章),對其是否包含傾向性及其傾向性極性進(jìn)行分類。通常的分類狀態(tài)包含{貶義,中性,褒義}。
傾向性分類問題包含詞語、短語、句子、段落、篇章等各個(gè)級別,其表示形式通常比較簡單,與一般的分類問題相同。近期的一些研究在分類的基礎(chǔ)上,加入了強(qiáng)度信息,或者將分類狀態(tài)變成若干級別(將強(qiáng)度包含在不同狀態(tài)中)[8]。
任務(wù)2: 傾向性信息抽取,是指根據(jù)預(yù)先給定的傾向性單元定義(參見下文),對于輸入的一段文本(通常為句子或者篇章級別),從中抽取出其所評論的評價(jià)對象、評價(jià)詞和評價(jià)者等組成傾向性評價(jià)單元的要素,并識別要素或者評價(jià)單元間的關(guān)系。
2004年在文獻(xiàn)[4]中提出了基于特征(Feature-based)的傾向性單元的概念,2007年在文獻(xiàn)[9]中將關(guān)系抽取引入到傾向性信息抽取中,并將傾向性單元的定義進(jìn)一步豐富。傾向性單元一般表示為五元組,包括: 評價(jià)者、評價(jià)對象、評價(jià)詞、強(qiáng)度、極性,如評價(jià)對象是產(chǎn)品,還可進(jìn)一步細(xì)分為產(chǎn)品和特征兩個(gè)子元素。
例如: 尼康D7000的鍵位設(shè)置合理,操控符合用戶習(xí)慣。
從這句話中,我們可以抽取出表1所示的兩個(gè)五元組表示的傾向性單元。
表1 傾向性信息抽取五元組表示結(jié)果
由于五元組方式表示的傾向性單元,不能很好地表示比較、條件、原因等復(fù)雜的傾向性。為了解決這些問題,2008年Ganapathibhotla等[2]提出了篇章級別的評價(jià)解釋,2011年復(fù)旦大學(xué)吳苑斌等提出了更復(fù)雜的基于圖的傾向性表示方法[10]。如圖1所示[10],圖中的頂點(diǎn)由評價(jià)者、評價(jià)對象、評價(jià)詞、原因、條件等實(shí)體組成,邊表示了頂點(diǎn)間的關(guān)系,頂點(diǎn)類型和邊的類型可以根據(jù)不同的應(yīng)用進(jìn)行更改和擴(kuò)展。
圖1 基于圖的傾向性表示
傾向性分類和基于主題的文本分類在任務(wù)上有著“第一眼”的相似性——兩者都需要把待分類文檔對應(yīng)到不同的文檔類別中。傾向性分類將文本劃歸成褒義、貶義、中立;或者主觀(包含傾向性)、客觀(不包含傾向性)等類別。而基于主題的文本分類則將文本歸類到不同主題的類別集合。
Pang等人[11]比較了不同類型的分類器在傾向性分類問題上的性能,使用了與傳統(tǒng)文本分類相似的特征(Unigram,Bigram等),同時(shí)也最早在電影評論語料中提出電影情節(jié)和電影評論之間的耦合對傾向性分類的影響。Yu等人利用樸素貝葉斯分類器,將詞語作為特征,對句子的傾向性進(jìn)行了分類研究[12]。另外在模型、特征以及特征選擇等方面也有一些針對傾向性分類問題的研究[13-15]。除了針對篇章和句子的傾向性分類之外,對詞語的極性、強(qiáng)度和上下文模式的分析也受到很多關(guān)注。對中文詞語而言,北京大學(xué)的王治敏等人[16]基于《人民日報(bào)》基本標(biāo)注語料庫的真實(shí)文本實(shí)例進(jìn)行統(tǒng)計(jì)歸納,得到詞語的情感傾向。物理學(xué)中的Spin模型也被用來估計(jì)單個(gè)詞語的傾向性極性[17]。
然而“主題”和 “傾向性”作為文檔兩個(gè)不同維度,在實(shí)際分類任務(wù)中會(huì)給分類器的設(shè)計(jì)帶來區(qū)別。經(jīng)典的文本分類方法通過分析文檔中詞匯,得到待分類文檔與已分類文檔的相似程度,根據(jù)相似程度的大小賦予相應(yīng)的類標(biāo)簽。從分類器使用的特征上看,詞特征在其中扮演了重要的角色。它利用了一個(gè)假設(shè): 相同主題的文檔往往含有相同的詞語。而在傾向性分類中,這個(gè)假設(shè)能夠成立的范圍明顯縮小,即僅僅依靠特定詞來斷定文檔傾向性的方法不再可靠。主要體現(xiàn)在以下幾個(gè)方面。
1. 領(lǐng)域依賴性。在不同的領(lǐng)域中,含有完全不同詞的文本可能有相同的傾向性,而同一個(gè)詞在不同的領(lǐng)域中可能代表不同的傾向性。
2. 上下文依賴性。一個(gè)詞出現(xiàn)在同一文章的不同上下文可能具有不同的傾向性。(例如: 在一篇汽車評論文檔中,“高”在“安全系數(shù)高”和“油耗高”兩個(gè)不同的上下文中所表示的傾向性不同。)
這兩點(diǎn)可以統(tǒng)一為傾向性與主題的耦合。無論是整體(即領(lǐng)域),還是局部(即上下文),情感傾向性的確定都和主題緊密相連。因此傾向性分類的核心問題在于處理傾向性和主題的關(guān)系,包括如何劃定上下文,如何定位可能的傾向性,如何利用先驗(yàn)的傾向性推斷未知的傾向性等。
針對傾向性分類的領(lǐng)域依賴性強(qiáng)的問題,遷移學(xué)習(xí)(Transfer Learning)從機(jī)器學(xué)習(xí)的角度提供了一種解決框架。它能夠通過領(lǐng)域之間的聯(lián)系,將一個(gè)領(lǐng)域中得到的模型遷移另一個(gè)不同的領(lǐng)域。在文獻(xiàn)[18]中首先研究了structural correspondence learning (SCL)在跨領(lǐng)域傾向性分類上的應(yīng)用。中國科學(xué)院計(jì)算技術(shù)研究所的吳瓊等提出了基于圖(Graph based)的遷移方法[19];譚松波等人則采用了基于樸素貝葉斯分類器的遷移學(xué)習(xí)方法[20]。
針對上下文依賴問題,文獻(xiàn)[21]中使用了和傳統(tǒng)詞義消歧類似的方法,并指出由于較傳統(tǒng)詞義消歧,傾向性的消歧粒度較粗,應(yīng)用在實(shí)際系統(tǒng)中能夠起到不錯(cuò)的效果。其主要關(guān)注的問題是: 當(dāng)一個(gè)詞帶有不同的情感傾向含義時(shí),如何確定其在給定語境下的含義和傾向性。
此外,還有研究工作為了更進(jìn)一步地除去噪聲,試圖打破傾向性和主題的耦合。Mei等人使用multi-Gaussian mixture model來對文檔建模,將文檔的分布視為Topic model和 Sentiment model的混合[22]。中國科學(xué)院自動(dòng)化的趙軍等提出了在條件隨機(jī)場中引入了層次化標(biāo)簽,同時(shí)考慮主觀性,傾向性(褒貶),傾向性強(qiáng)度,使得每個(gè)部分的特征能相互增強(qiáng)的方法[23]。北京大學(xué)的萬小軍通過利用中英文雙語知識,來提高中文傾向性分類的性能[24]。蘇州大學(xué)的李壽山等則提出了利用欠采樣和隨機(jī)子空間生成方法,來解決情感傾向分類中的不平衡和半監(jiān)督學(xué)習(xí)問題[25]。
傾向性信息抽取任務(wù)是在句子或篇章級別抽取和情感傾向相關(guān)的要素。相比于傾向性分類,傾向性信息抽取是一個(gè)更細(xì)粒度的任務(wù),從句法和語義角度對文檔進(jìn)一步分析。
針對五元組形式的傾向性單元表示,傾向性信息抽取的一種方法是將其轉(zhuǎn)化為命名實(shí)體識別和關(guān)系抽取任務(wù)。同樣地,與傳統(tǒng)的命名實(shí)體識別和關(guān)系抽取任務(wù)不同,傾向性信息抽取也需要考慮主題與傾向性的耦合問題。早期的工作通過人工制定模版來識別傾向性要素及其之間的關(guān)系[4]。這樣簡單的處理能夠得到不錯(cuò)的準(zhǔn)確率,但在召回率上的表現(xiàn)卻不盡人意。因此如何自動(dòng)有效地抽取傾向性要素及其之間的關(guān)系是目前研究的重點(diǎn)。
在傾向性要素方面,針對評價(jià)對象的抽取,近年來也有了更細(xì)致的工作。針對在線評論中的評論對象往往帶有復(fù)雜的層次嵌套結(jié)構(gòu)這一問題(例如,油耗為發(fā)動(dòng)機(jī)的一個(gè)屬性,則發(fā)動(dòng)機(jī)與油耗間就具有一種層次關(guān)系)。能否分析復(fù)雜的評價(jià)對象,關(guān)系到是否能將情感準(zhǔn)確的定位。一種方法是利用預(yù)定義的本體樹和層次化學(xué)習(xí)來分析這樣的復(fù)雜情況[26]。而為了克服人工直接構(gòu)建本體樹帶來的困難,可以利用領(lǐng)域特征,自動(dòng)地構(gòu)建評論語料中評論對象的層次化結(jié)構(gòu),從而免去了人工構(gòu)建本體庫的困難[27]。哈爾濱工業(yè)大學(xué)趙妍妍等提出了利用句法結(jié)構(gòu)相似度以及啟發(fā)式的方法來查找可能的評價(jià)對象的方法[28]。還有一些研究工作使用互增強(qiáng)的算法框架,利用評價(jià)詞和評價(jià)對象之間的關(guān)系,迭代的挖掘傾向性要素[29]。
在評價(jià)詞抽取方面,早期的工作[2,9]大都采用字典查找的方法,即構(gòu)建或利用已有的包含詞語傾向性的詞典,通過在文本中查找這些詞語來確定評價(jià)詞。由于該方法受到傾向性詞典規(guī)模的限制,而構(gòu)建大規(guī)模傾向性詞典需要花費(fèi)大量的人工,因此也出現(xiàn)了一些自動(dòng)的傾向性詞典構(gòu)造和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的評價(jià)詞抽取算法。Riloff等人提出了利用Bootstrapping方法來學(xué)習(xí)評價(jià)詞抽取模板的方法[30]。北京大學(xué)徐戈等提出了根據(jù)少量種子詞利用基于圖的詞語傾向性排序算法,用來構(gòu)建傾向性詞典[31]。而Breck等人則將評價(jià)詞的抽取問題轉(zhuǎn)化為序列標(biāo)注問題,并利用條件隨機(jī)場方法對該問題進(jìn)行建模[32]。
在關(guān)系抽取方面,從句法角度,可以使用上下文無關(guān)的統(tǒng)計(jì)特征,自動(dòng)抽取能夠匹配評價(jià)詞和評價(jià)對象關(guān)系的語法模板[9]。也可以借鑒樹核方法,將傾向性要素在句法分析樹上的關(guān)系作為分類依據(jù),通過定義相應(yīng)的樹核函數(shù),刻畫這些關(guān)系在句法樹上的相似程度[33]。從語義角度,可以使用語義角色標(biāo)注(Semantic Role Labeling)的方法,以 FrameNet中所定義的語義角色作為發(fā)現(xiàn)形象性信息的線索[34]。例如,“事件——主題——參與者——表述者”模型中的“參與者”角色可以對應(yīng)到評價(jià)對象。由于語法、語義分析器本身會(huì)引入一些錯(cuò)誤,所以另外一種方法是不使用現(xiàn)有的語法、語義分析器,直接由標(biāo)注語料得到傾向性要素的標(biāo)注器。文獻(xiàn)[10]中定義了類似于語義角色標(biāo)注的傾向性要素表示方式,利用結(jié)構(gòu)化機(jī)器學(xué)習(xí)方法得到傾向性要素間的關(guān)系。
除此之外,由于在線評論的語言往往是豐富的,除了以上的五元組表示方式外,有一些特殊的句式也提供了許多有意義的信息。例如,用戶往往會(huì)比較不同的評論對象,來表達(dá)自己對不同對象的觀點(diǎn),例如,在第二章中我們給出的例子“D7000相比D90有著非常大的升級”。這樣的信息對于傾向性信息的抽取也是相當(dāng)重要的,它能提供傾向性之間的關(guān)系。文獻(xiàn)[35]研究了帶有比較的評論句子。同時(shí),用戶也會(huì)對自己的觀點(diǎn)施加各種限制條件,例如,“低檔位時(shí)發(fā)動(dòng)機(jī)噪聲很大”,將“低檔位”作為傾向性成立的限制條件抽取出,能夠保證更為準(zhǔn)確的抽取結(jié)果。文獻(xiàn)[36]中首先討論了如何找出帶有條件的評論句子。
與自然語言處理、信息檢索和數(shù)據(jù)挖掘領(lǐng)域的其它任務(wù)類似,基準(zhǔn)語料庫和公共評測對于推動(dòng)文本傾向性分析技術(shù)的發(fā)展有著至關(guān)重要的作用。本章中我們將分別介紹一些較有影響力的基準(zhǔn)語料庫和公共評測。
經(jīng)過多年的努力,目前研究者們已經(jīng)針對文本情感傾向分析的不同任務(wù)、不同領(lǐng)域、不同語種構(gòu)建了多個(gè)基準(zhǔn)語料庫。下面我們按照不同任務(wù)、顆粒度和語種分別進(jìn)行介紹。
針對傾向性分類任務(wù),2002年P(guān)ang和Lee公開了包含700篇正面和700篇負(fù)面電影評論的語料庫Movie Review Data*http://www.cs.cornell.edu/people/pabo/movie-review-data/,之后這個(gè)語料庫規(guī)模擴(kuò)展到1 000篇正面和1 000篇負(fù)面影評的規(guī)模。2004年他們還提供了共計(jì)10 000個(gè)句子,并包含傾向性信息的標(biāo)注語料,該語料庫廣泛應(yīng)用于句子和篇章級傾向性分析中。中國科學(xué)院計(jì)算技術(shù)研究所吳瓊等在2010年文章中,介紹了他們所創(chuàng)建的包含 17 122 篇正面和負(fù)面評論文章,涵蓋影視、教育和書籍等在內(nèi)的9個(gè)主題的語料庫[37]。在詞語傾向性分析研究中,經(jīng)常用到Stone 等人在1966年給出的General Inquirer Lexicon[38],它包含3 672個(gè)單詞,其中1 598個(gè)被分類為褒義,2 074個(gè)被標(biāo)記為貶義。在中文詞語傾向性方面,上海交通大學(xué)姚天昉等在2007年構(gòu)建了包含強(qiáng)度信息的漢語情感詞詞典,包含3 120個(gè)褒義情感詞和3 485個(gè)貶義情感詞[39],為中文詞語級傾向性分類的研究提供了幫助。
針對傾向性信息抽取任務(wù),Hu和Liu在2004年提供了包含4個(gè)類別共5種產(chǎn)品的語料庫,該語料庫對每個(gè)句子標(biāo)記了評價(jià)對象、傾向性極性及其強(qiáng)度信息*http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html。MPQA(Multi-Perspective Question Answering)*http://www.cs.pitt.edu/mpqa/databaserelease/最初是由Wiebe等人在2002年構(gòu)建的帶有深度標(biāo)注的傾向性分析語料庫,目前的2.0版本中包含692篇文檔,其中每句都標(biāo)記了評價(jià)對象、評價(jià)表達(dá)式、極性和強(qiáng)度等在內(nèi)的信息。在2008年,中國科學(xué)院自動(dòng)化研究所和復(fù)旦大學(xué)一起構(gòu)建了由478篇評論構(gòu)成的包含汽車、數(shù)碼相機(jī)、筆記本、手機(jī)四個(gè)領(lǐng)域的語料庫,標(biāo)注了其中的評價(jià)對象以及作者對該評價(jià)對象的傾向性所構(gòu)成的傾向性單元[40]。
除了各種類型的基準(zhǔn)語料庫之外,近年來國內(nèi)外也開展了一系列的傾向性相關(guān)評測活動(dòng),對推動(dòng)這個(gè)領(lǐng)域的發(fā)展起到了很好的作用。
美國國家標(biāo)準(zhǔn)局NIST的文本檢索會(huì)議(TREC),從2006年起連續(xù)組織了5年Blog Track任務(wù)*http://ir.dcs.gla.ac.uk/wiki/TREC-BLOG.,要求從博客中檢索出與輸入的查詢相關(guān)且表達(dá)了傾向性的內(nèi)容。它將篇章級的傾向性分類引入到檢索任務(wù)中,受到了廣泛的關(guān)注。國內(nèi)先后有中國科學(xué)院計(jì)算技術(shù)研究所、清華大學(xué)、武漢大學(xué)、中國科學(xué)院自動(dòng)化研究所、大連理工大學(xué)、北京郵電大學(xué)、復(fù)旦大學(xué)等在內(nèi)的多家單位參加了該項(xiàng)評測,在多個(gè)評測指標(biāo)上都取得了不錯(cuò)的成績。
NTCIR項(xiàng)目自2007年起開始進(jìn)行傾向性分析的評測,圖2為他們在NTCIR-6上給出的觀點(diǎn)分析的路線圖*http://research.nii.ac.jp/ntcir/ntcir-ws6/opinion/index-en.html.。他們從多種語言、多信息源、多種顆粒度等方面對傾向性分類和傾向性信息抽取這兩大類問題進(jìn)行評測。中國科學(xué)院軟件研究所、北京大學(xué)、中國科學(xué)院自動(dòng)化研究所、東北大學(xué)、北京郵電大學(xué)、哈爾濱工業(yè)大學(xué)等單位參加了該項(xiàng)評測,并在多個(gè)評測指標(biāo)上名列前茅。
圖2 NTCIR 文本情感傾向分析評測路線圖
2008年起,由中國中文信息學(xué)會(huì)信息檢索專委會(huì)主辦,開始推出了中文傾向性分析系列評測。提出了包括詞語貶褒極性判別和篇章級主客觀分析等在內(nèi)的6個(gè)任務(wù)[40]。第一、二屆中文傾向性分析評測共吸引了來包括日本、香港在內(nèi)的近20家國內(nèi)外一線科研單位的30多個(gè)科研團(tuán)隊(duì)參加。COAE2008/ 2009評測任務(wù)匯總見表2。今年將舉辦的第三屆中文傾向性分析評測(COAE2011),設(shè)置4個(gè)評測任務(wù),首次將上下文語境信息對傾向性判別的影響加入到傾向性評測中。COAE評測對于中文情感傾向分析的研究起到了很好的推動(dòng)作用,為中文的情感傾向分析提供了平臺(tái)和基準(zhǔn)語料集,近30篇國內(nèi)外傾向性分析工作中使用或參考了該評測。
表2 COAE2008/2009 評測任務(wù)匯總表
傾向性分類和傾向性信息抽取任務(wù),為其他諸多與傾向性相關(guān)的應(yīng)用提供了基本技術(shù)支持,包括情感信息檢索,情感傾向摘要等。同時(shí)這些應(yīng)用也反過來推動(dòng)了傾向性分類和信息抽取技術(shù)的發(fā)展。
情感信息檢索與傳統(tǒng)的信息檢索相比,不僅要求能夠得到和查詢相關(guān)的文檔,同時(shí)要求所得的文檔要包含和查詢相關(guān)的傾向性。情感信息檢索面對的困難之處在于: 1) 文檔往往來源于博客,微博等非正式文本,它們的隨意性使得檢索系統(tǒng)本身性能受到影響;2) 如何定位和表示查詢詞中的傾向性。由于用戶查詢也會(huì)帶有傾向性,則除去傳統(tǒng)檢索中的查詢分析外,還需要考慮查詢的情感傾向。清華大學(xué)張敏等提出了如何在傳統(tǒng)檢索模型對文檔的評分過程中加入對傾向性的評分,并考察了不同的文檔排序方案[41]。復(fù)旦大學(xué)黃萱菁等[5]提出了一個(gè)針對情感信息檢索的檢索模型,并證明了依賴于傾向性分析的查詢擴(kuò)展能提高整體檢索性能。
情感傾向摘要任務(wù)希望從網(wǎng)絡(luò)文本中摘出用戶對某個(gè)主題的情感傾向。網(wǎng)絡(luò)文本一方面有大量重復(fù),無意義的評論,另一方面也提供了許多用戶提供的信息,包括對產(chǎn)品的打分,排序,甚至有半結(jié)構(gòu)化的信息(產(chǎn)品網(wǎng)站要求用戶對產(chǎn)品的不同部分做不同評論,或者要求在評論時(shí)分優(yōu)缺點(diǎn)分開評論)。如何去除噪聲,同時(shí)利用這些特點(diǎn)對文本進(jìn)行摘要,是情感傾向摘要與傳統(tǒng)摘要不同的地方。清華大學(xué)莊麗等提出了基于多種知識的電影評論發(fā)掘和摘要方法,融合了WordNet、統(tǒng)計(jì)分析結(jié)果和電影知識等[42]。Titov等使用了類似Topic model方法,對文檔中的詞按不同的評論對象聚類,從而得到針對某一產(chǎn)品的評論摘要[43]。
隨著評論信息受到越來越多的重視,利用評論信息發(fā)布虛假評論、重復(fù)評論發(fā)布等情況也越來越多,因此如何從海量信息中查找與檢測垃圾評論也成為近年來一個(gè)研究熱點(diǎn)。2007年Jindal等首次提出這個(gè)問題,并利用拷貝檢測和分類器來檢測評論中的垃圾信息[7]。清華大學(xué)李方濤等提出了一種結(jié)合評價(jià)者和產(chǎn)品信息的評論文章評價(jià)框架,并通過在15 507篇文章的上實(shí)驗(yàn)驗(yàn)證了算法的有效性[44]。除了對評論文章進(jìn)行分析外,還有利用評分行為對評論作者是否是垃圾發(fā)布者進(jìn)行分類的方法[45]。
本文對文本情感傾向性分析的兩類任務(wù)進(jìn)行了定義,并歸納了傾向性的不同表示。除此之外,還分別對傾向性分類和傾向性信息抽取兩大類任務(wù)的研究方法進(jìn)行了分析和總結(jié),也介紹了常見的傾向性分析基準(zhǔn)語料庫和國內(nèi)外主流評測會(huì)議,并對情感傾向性分析的主要應(yīng)用領(lǐng)域進(jìn)行了簡單概述??偨Y(jié)情感傾向分析的研究現(xiàn)狀,應(yīng)該說情感傾向分析的研究已經(jīng)取得了很多有影響力的成果,至于未來的發(fā)展趨勢,我們認(rèn)為情感傾向分析研究在如下幾個(gè)方面值得考慮。
1) 語料來源的變化。2006年開始的TREC Blog Track 所處理的是博客內(nèi)容,NTCIR在2008年之后也開始轉(zhuǎn)向博客語料的處理。論壇、博客等用戶生成內(nèi)容可以反映大眾的真實(shí)情感和態(tài)度。隨著微博的發(fā)展,探索微博數(shù)據(jù)的特點(diǎn),以及如何分析利用微博數(shù)據(jù)的傾向性是值得考慮的問題。
2) 傾向性語義表示問題。使用傳統(tǒng)的槽方式對傾向性進(jìn)行表示面臨瓶頸,復(fù)雜的傾向性信息不能正確地進(jìn)行表述,對于之后的傾向性分析應(yīng)用也會(huì)造成一定影響。如何構(gòu)造更好的傾向性語義表示應(yīng)該是今后的重點(diǎn)研究方向之一。
3) 上下文語境對傾向性分析的影響。相同的詞語、句子處于不同的語境下面會(huì)有不同的傾向性極性,這一問題已經(jīng)引起國內(nèi)外研究者的關(guān)注。在COAE 2011的評測中也特別提出了將其融入到相關(guān)任務(wù)中。
4) 語義理解。傾向性分析本質(zhì)上也屬于自然語言處理的范疇,需要對文本內(nèi)容進(jìn)行深入理解。目前的研究因?yàn)槭瞧鸩诫A段,有很多問題值得探討,也產(chǎn)生了很多研究成果,但是目前絕大多數(shù)算法都基于統(tǒng)計(jì)方法,逐漸遇到了自然語言處理中的語義理解瓶頸,如何引入更多的語言知識和認(rèn)知知識也是值得考慮的方向。
目前已有一些傾向性分析的商業(yè)軟件與產(chǎn)品,例如,中科天璣傾向性分析系統(tǒng)Sentifier*http://www.golaxy.cn/、北大方正HNC評價(jià)分析系統(tǒng)*http://www.hncit.com/、上海語天傾向性分析系統(tǒng)*http://www.laiseek.com/、拓爾思互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)*http://www.trs.com.cn等。隨著文本傾向性分析技術(shù)的不斷發(fā)展和研究的深入,一方面可以提高現(xiàn)有的傾向性分析系統(tǒng)的精度,另一方面在傾向性語義表示、篇章級傾向分析等方面的進(jìn)步,可以為商業(yè)系統(tǒng)提供更多深入的信息加以利用。
[1] ACL 2006 Workshop on Sentiment and Subjectivity in Text[DB/OL], http://www.aclweb.org/anthology-new/W/W06/#0300, 2006.
[2] M. Ganapathibhotla, B. Liu. Mining Opinions in Comparative Sentences[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling-2008), Manchester, 18-22 August, 2008.
[3] S. Somasundaran, J. Wiebe, Josef Ruppenhofer (2008) Discourse Level Opinion Interpretation[C]//Coling, Manchester, 18-22 August, 2008.
[4] M. Hu, B. Liu. Mining and summarizing customer reviews[C]//KDD ’04 Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004.
[5] Xuanjing Huang, W. Bruce Croft. A unified relevance model for opinion retrieval[C]//The 18th ACM International Conference on Information and Knowledge Management (CIKM ),2009.
[6] 李成偉,彭勤科,徐濤. 基于信息推理的網(wǎng)絡(luò)新聞在線評論情緒分類[J].中文信息學(xué)報(bào),2009,23(5):75-79.
[7] N. Jindal, B.Liu. Review spam detection[C]//WWW ’07 Proceedings of the 16th international conference on World Wide Web, 2007.
[8] Theresa Ann Wilson. Fine-grained Subjectivity and Sentiment Analysis: Recognizing the Intensity, Polarity, and Attitudes of Private States[D]. Ph.D Dissertation, University of Pittsburgh, 2008.
[9] N. Kobayashi, K. Inui, Y. Matsumoto. Extracting Aspect-Evaluation and Aspect-of Relations in Opinion Mining[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007.
[10] Y. Wu, Q. Zhang, X. Huang, et al. Structural Opinion Mining for Graph-based Sentiment Representation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP), 2011.
[11] Bo Pang, Lillian Lee. Shivakumar Vaithyanathan Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2002.
[12] Yu H, Hatzivassiloglou V. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//Proceedings of EMNLP-2003.
[13] Evgeniy Gabrilovich, Shaul Markovitch . Text Categorization with Many Redundant Features: Using Aggressive Feature Selection to Make SVMs Competitive with C4.5[C]//ICML 2004.
[14] Vincent Ng, Sajib Dasgupta, S. M. Niaz Arifin. Examining the role of linguistic knowledge sources in the automatic identification and classification of reviews[C]//Proceedings of the COLING/ACL Poster Sessions, 2006.
[15] Maite Taboada, Julian Brooke, Milan Tofiloski et al. Lexicon-based methods for sentiment analysis[J]. Computational Linguistics 2011, 37(2):267-307.
[16] 王治敏,朱學(xué)鋒,俞士汶.基于現(xiàn)代漢語語法信息詞典的詞語情感評價(jià)研究[C]//Recent advancement in Chinese Lexical Semantics, Proceeding of 5th Chinese Lexical Semantics Workshop (CLSW-5), 2004, Singapore .
[17] Hiroya Takamura, Takashi Inui, Manabu Okumura Extracting semantic orientations of words using spin model[C]//Proceedings of ACL 2005.
[18] John Blitzer, Mark Dredze, Fernando Pereira, et al. Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of the Association for Computational Linguistics (ACL) 2007.
[19] Qiong Wu, Songbo Tan, Xueqi Cheng. Graph Ranking for Sentiment Transfer[C]//Proceedings of the Association for Computational Linguistics (ACL) 2010.
[20] Songbo Tan, Xueqi Cheng, Yuefen Wang, et al. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis[C]//Proceedings of 31th European Conference on Information Retrieval (ECIR) 2009: 337-349.
[21] Cem Akkaya, Janyce Wiebe. Rada Mihalcea Subjectivity Word Sense Disambiguation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2009.
[22] Mei, Q., Ling, X., Wondra, M. et al. Topic Sentiment Mixture Modeling Facets and Opinions in Weblogs[C]//Proceedings of the 16th International World Wide Web Conference (WWW), 2007.
[23] ZHAO Jun, LIU Kang, WANG Gen. Adding Redundant Features for CRFs-based Sentence Sentiment Classification[C]//Proceedings of The Conference on Empirical Methods in Natural Language Processing (EMNLP),2008.
[24] Xiaojun Wan. Co-Training for Cross-Lingual Sentiment Classification[C]//Proceedings of the Association for Computational Linguistics (ACL),2009.
[25] Shoushan Li, Zhongqing Wang, Guodong Zhou et al. Semi-supervised Learning for Imbalanced Sentiment Classification[C]//Proceedings of IJCAI-2011.
[26] Wei Wei. Jon Atle Gulla Sentiment Learning on Product Reviews via Sentiment Ontology Tree[C]//Proceedings of the Association for Computational Linguistics (ACL), 2010.
[27] Jianxing Yu, Zheng-Jun Zha, Meng Wang, et al. Tat-Seng Chua, Domain-Assisted Product Aspect Hierarchy Generation: Towards Hierarchical Organization of Unstructured Consumer Reviews[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP),2011.
[28] Yanyan Zhao, Bing Qin, Shen Hu, et al. Generalizing Syntactic Structures for Product Attribute Candidate Extraction[C]//Proceedings of the North American Chapter of the Association of Computational Linguistics (NAACL 2010 ), 2010.
[29] Guang Qiu, Bing Liu, Jiajun Bu, et al. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proceedings of the 21st International Joint Conference on Artificial Intelligence (IJCAI), 2009.
[30] Riloff E, Wiebe J. Learning Extraction Patterns for Subjective Expressions[C]//Proceedings of EMNLP-2003.
[31] Ge Xu, Xinfan Meng, Houfeng Wang. Build Chinese Emotion Lexicons Using A Graph-based Algorithm and Multiple Resources[C]//Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), 2010.
[32] Eric Breck, Yejin Choi, Claire Cardie. Identifying expressions of opinion in context[C]//Proceedings of the Twentieth International Joint Conference on Artificial Intelligence(IJCAI 2007), 2007.
[33] Yuanbin Wu, Qi Zhang, Xuangjing Huang. Lide Wu Phrase Dependency Parsing for Opinion Mining[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2009.
[34] Kim, S.M., Hovy, E. Extracting Opinions Opinion Holders and Topics Expressed in Online News Media Text[C]//Proceedings of the Workshop on Sentiment and Subjectivity in Text,2006.
[35] Murthy Ganapathibhotla, Bing Liu. Mining Opinions in Comparative Sentences[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling) 2008.
[36] Ramanathan Narayanan, Bing Liu, Alok Choudhary. Sentiment Analysis of Conditional Sentences[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP) 2009.
[37] 吳瓊,譚松波,程學(xué)旗.中文情感傾向性分析的相關(guān)研究進(jìn)展[J].信息技術(shù)快報(bào),2010,8(4): 16-38.
[38] P. J. Stone, D. C. Dunphy, M. S. Smith, et al. 1966. The General Inquirer: A Computer Approach to Content Analysis[M]. MIT Press, Cambridge, US.
[39] 姚天昉, 婁德成.漢語情感詞語義傾向判別的研究[C]//第七屆中文信息處理國際會(huì)議,2007.
[40] 趙軍,許洪波,黃萱菁,等.中文傾向性分析評測技術(shù)報(bào)告[C]//第一屆中文傾向性分析評測(COAE 2008), 2008.
[41] Min Zhang, Xingyao Ye. A generative model to unify topic relevance and lexicon-based sentiment for opinion retrieval[C]//The 31st Annual International ACM SIGIR Conference (SIGIR2008).
[42] Li Zhuang, Feng Jing, Xiaoyan Zhu. Movie Review and Summarization[C]//Conference on Information and Knowledge Management(CIKM 2006), 2006.
[43] Ivan Titov. Ryan McDonald A Joint Model of Text and Aspect Ratings for Sentiment Summarization[C]//Proceedings of the Association for Computational Linguistics (ACL) 2008.
[44] Fangtao Li, Nathan Liu, Hongwei Jin, et al. Incorporating Reviewer and Product Information for Review Rating Prediction[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI), 2011.
[45] Ee-Peng Lim, Viet-An Nguyen, Nitin Jindal, et al. Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM international conference on Information and knowledge management(CIKM 2010),2010.