戴 敏,朱 珠,李壽山,周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語言處理實(shí)驗(yàn)室, 江蘇 蘇州 215006)
?
面向中文文本的情感信息抽取語料庫構(gòu)建
戴 敏,朱 珠,李壽山,周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語言處理實(shí)驗(yàn)室, 江蘇 蘇州 215006)
情感信息抽取是情感分析中的一個(gè)重要子任務(wù)。雖然該任務(wù)已經(jīng)開展有一段時(shí)間,但是面向中文文本的情感信息抽取任務(wù)研究才剛剛起步。目前中文文本的情感信息抽取面臨的首要困難在于現(xiàn)有的相關(guān)中文語料庫還非常有限。為了更好開展中文文本的情感信息抽取研究,該文重點(diǎn)研究了中文語料標(biāo)注體系,構(gòu)建一個(gè)規(guī)模較大、標(biāo)注類型豐富的中文情感信息抽取語料庫。除了常見語料庫標(biāo)注的情感傾向性、評(píng)價(jià)對(duì)象、情感詞等信息外,重點(diǎn)標(biāo)注了評(píng)價(jià)對(duì)象的省略、無情感詞情感句表達(dá)及極性轉(zhuǎn)移等情況。由語料信息統(tǒng)計(jì)可知,該文所指出的特殊現(xiàn)象(例如,評(píng)價(jià)對(duì)象的省略)在中文情感表達(dá)中是非常普遍的,開展這方面的研究很有必要。該文所構(gòu)建的中文文本語料庫將為中文情感信息抽取任務(wù)提供語料基礎(chǔ)。
情感分析;情感信息抽??;中文語料庫
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,愈來愈多的人們從被動(dòng)接受信息轉(zhuǎn)變?yōu)橹鲃?dòng)發(fā)布信息?;ヂ?lián)網(wǎng)用戶可以通過處理這些富含情感色彩的文本來了解公眾對(duì)于某個(gè)產(chǎn)品或某個(gè)事件的看法、評(píng)價(jià)等。但是,隨著這類信息的迅速膨脹,單靠人工方法來處理無疑是非常困難的,情感分析便應(yīng)運(yùn)而生了[1-3]。情感分析又稱意見挖掘(Opinion Mining),是借助計(jì)算機(jī)幫助用戶快速獲取、整理和分析相關(guān)評(píng)價(jià)信息,對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。它包含了一系列的子任務(wù),如主客觀分類、情感傾向性分類、情感信息抽取、情感信息檢索、情感信息歸納等[2]。這些子任務(wù)的研究具有廣泛的應(yīng)用價(jià)值和理論研究?jī)r(jià)值。
情感信息抽取,作為情感分析的一個(gè)重要子任務(wù),旨在抽取情感文本中有價(jià)值的情感信息,是一種關(guān)于細(xì)粒度文本的情感分析。該任務(wù)在近年來受到了廣大學(xué)者的關(guān)注,相繼出現(xiàn)了大量的抽取方法[4-7]。而隨著基于監(jiān)督學(xué)習(xí)的情感信息抽取方法研究的開展,監(jiān)督學(xué)習(xí)方法表現(xiàn)出了其良好的任務(wù)獨(dú)立性和抽取性能[8-9]。因此,基于監(jiān)督學(xué)習(xí)的情感信息抽取方法是情感信息抽取方法研究的一種趨勢(shì)[10-11]。而基于監(jiān)督學(xué)習(xí)的情感信息抽取方法需要依靠大量的人工標(biāo)注語料作為基礎(chǔ),因此,語料庫建設(shè)問題也成為情感信息抽取任務(wù)中的一個(gè)重要研究方面。
隨著網(wǎng)絡(luò)在中國的普及,越來越多的中文評(píng)論文本的出現(xiàn),解決面向中文文本的情感信息抽取任務(wù)的需求日益增多。目前,面向中文文本的情感信息抽取任務(wù)的研究較少,相應(yīng)的語料資源較匱乏。因此,建設(shè)一個(gè)規(guī)模較大的、標(biāo)注類型豐富的中文情感信息抽取語料庫是目前中文情感信息抽取任務(wù)的一個(gè)重點(diǎn)。
此外,已有的中英文語料庫所標(biāo)注的信息都忽視了一些表達(dá)特點(diǎn),而這些情況本身也具有一定的研究?jī)r(jià)值。如以下例句:
例1 我很喜歡,很好看。
例2 這個(gè)電影,哎,都看的睡著了。
例3 前臺(tái)服務(wù)員態(tài)度不是很好。
三個(gè)例句都表達(dá)了評(píng)論作者的情感傾向,但是較以往處理的情感信息抽取問題有其特殊性。如例句1中,作者所表達(dá)的情感傾向是正面的,有著明顯的情感詞“喜歡”,“好看”,但評(píng)價(jià)對(duì)象在句中未有出現(xiàn);例句2中的評(píng)價(jià)對(duì)象為“這個(gè)電影”,雖然句子表示了這個(gè)電影不好看的含義,但并沒有情感詞出現(xiàn);例句3中由于否定詞“不”的出現(xiàn),整句話的情感傾向相對(duì)句中情感表述“好”所表達(dá)的情感傾向發(fā)生了翻轉(zhuǎn)。
本文分別稱這三種現(xiàn)象為評(píng)價(jià)對(duì)象的省略現(xiàn)象、隱含情感及情感極性轉(zhuǎn)移現(xiàn)象。這三種現(xiàn)象同情感信息抽取任務(wù)密切相關(guān),對(duì)情感信息抽取任務(wù)的完成造成了一定的影響。例如,現(xiàn)有的評(píng)價(jià)對(duì)象抽取方法部分依賴于評(píng)價(jià)對(duì)象與情感詞的關(guān)系來幫助抽取評(píng)價(jià)對(duì)象[9-10],若句中無情感詞,一些之前表現(xiàn)良好的特征便不適用了。情感極性轉(zhuǎn)移現(xiàn)象會(huì)使整句的情感傾向相對(duì)于情感詞的情感傾向發(fā)生反轉(zhuǎn)等。而其中評(píng)價(jià)對(duì)象的省略現(xiàn)象也是中文文本的一個(gè)非常特殊的表達(dá)現(xiàn)象。因此,在建設(shè)新的中文情感信息抽取語料庫時(shí),考慮以上的現(xiàn)象是有必要的。本文將面向中文文本標(biāo)注一個(gè)用于情感信息抽取任務(wù)的大規(guī)模語料。該語料的特色在于,除了包括了一些傳統(tǒng)的情感信息,例如,評(píng)價(jià)對(duì)象、評(píng)價(jià)詞等,還包括了評(píng)價(jià)對(duì)象的省略現(xiàn)象、隱含情感及情感極性轉(zhuǎn)移現(xiàn)象的標(biāo)注。
本文結(jié)構(gòu)組織如下: 第二部分介紹現(xiàn)有的相關(guān)中英文語料庫;第三部分介紹本文提出的語料標(biāo)注體系;第四部分給出語料庫的部分統(tǒng)計(jì)信息;第五部分給出結(jié)論。
近年來,為了推動(dòng)情感分析技術(shù)的發(fā)展,國內(nèi)外一些研究機(jī)構(gòu)組織了一些公共評(píng)測(cè),為情感分析的方法研究提供統(tǒng)一的平臺(tái)。如國際文本檢索會(huì)議TREC Blog Track*http://trec.nist.gov/tracks.html任務(wù)、NTCIR*http://research.nii.ac.jp/ntcir/index-en.html的情感分析評(píng)測(cè),國內(nèi)近期的COAE評(píng)測(cè)[12-14]等。此外,也有研究單位和個(gè)人提供了一定規(guī)模的語料,如麻省理工學(xué)院(Massachusetts Institute of Technology)的Barzilay等人構(gòu)建的多角度餐館評(píng)論語料等。下面分別介紹一些現(xiàn)有英文語料庫和中文語料庫的情況。
2.1 英文語料庫
DSRC語料是一個(gè)較著名的關(guān)于情感信息抽取的英文語料,來源于德國達(dá)姆施塔特工業(yè)大學(xué)(Technische Universit?t Darmstadt)的Ubiquitous Knowledge Processing(UKP)Lab,包含了services和universities兩個(gè)領(lǐng)域的234和256篇評(píng)論文本。該語料是對(duì)評(píng)論文本在句子級(jí)以及表達(dá)級(jí)(Expression Level)上的意見相關(guān)(Opinion Related)信息的較為詳細(xì)標(biāo)注,其中主觀句標(biāo)注了四種情感信息類別(觀點(diǎn)持有者、評(píng)價(jià)對(duì)象、修飾詞、評(píng)價(jià)詞)。文獻(xiàn)[15]詳細(xì)描述了DSRC語料的標(biāo)注規(guī)范。DSRC語料用MMAX2標(biāo)注工具標(biāo)注,組織成MMAX2的工程結(jié)構(gòu)。
此外,英文的情感抽取語料還包括Zhuang[7]的影評(píng)語料。該語料來源于IMDB,其中包含了對(duì)20個(gè)不同電影的評(píng)論,每個(gè)電影抓取了100條評(píng)論,共有2 000篇評(píng)論文本,去重后有1 829篇影評(píng)。相比于DSRC語料而言,該語料標(biāo)注體系較為簡(jiǎn)單。語料以XML的格式組織,以句子為情感標(biāo)注單元。對(duì)于含有評(píng)價(jià)對(duì)象/觀點(diǎn)對(duì)(Feature/Opinion pair)的句子(主觀句)作標(biāo)注。在標(biāo)注結(jié)果中,標(biāo)注信息用一個(gè)四元組表示,分別代表評(píng)價(jià)對(duì)象、評(píng)價(jià)對(duì)象類別、評(píng)價(jià)詞語和評(píng)價(jià)的情感極性。
2.2 中文語料庫
相對(duì)于英文語料,有關(guān)中文情感信息抽取的語料標(biāo)注起步稍晚了一些。隨著近幾年的迅速發(fā)展,也相繼出現(xiàn)了一些標(biāo)注語料。
在近幾年的舉辦的COAE(Chinese Opinion Analysis Evaluation)評(píng)測(cè)[12]中,設(shè)置了關(guān)于“評(píng)價(jià)對(duì)象”識(shí)別的一項(xiàng)評(píng)測(cè)任務(wù),相應(yīng)有部分標(biāo)注語料。在2011發(fā)布的評(píng)測(cè)語料里面,共包含三個(gè)領(lǐng)域,分別是電子、娛樂和財(cái)經(jīng)。每個(gè)領(lǐng)域有2 000個(gè)文檔用于“評(píng)價(jià)對(duì)象”的識(shí)別,識(shí)別的結(jié)果用一個(gè)三元組表示,分別是句子中觀點(diǎn)的評(píng)價(jià)對(duì)象、評(píng)價(jià)短語和對(duì)該評(píng)價(jià)對(duì)象的觀點(diǎn)極性。而2012~2013年的評(píng)測(cè)[13-14]中設(shè)置了比較句的識(shí)別與要素抽取的任務(wù),此任務(wù)分為兩個(gè)部分,首先識(shí)別句子是否為比較句,然后在識(shí)別出的比較句中抽取出比較實(shí)體、實(shí)體要素及情感傾向性。COAE2012~2013發(fā)布的此項(xiàng)任務(wù)的評(píng)測(cè)語料均包含電子和汽車兩個(gè)領(lǐng)域,其中2013的評(píng)測(cè)語料中每個(gè)領(lǐng)域有約500句為比較句,并針對(duì)比較句標(biāo)注其中的比較對(duì)象、商品屬性、觀點(diǎn)傾向性等信息。2013年的評(píng)測(cè)中還加入了微博觀點(diǎn)句要素抽取任務(wù),語料規(guī)模為12 000篇,要求從中識(shí)別出觀點(diǎn)句,然后從識(shí)別出的句子中抽取相應(yīng)的評(píng)價(jià)對(duì)象,被評(píng)價(jià)的產(chǎn)品屬性以及相對(duì)應(yīng)的觀點(diǎn)傾向性。
此外,2012年舉辦的nlp&cc評(píng)測(cè)為中文微博情感分析任務(wù),評(píng)測(cè)的對(duì)象是面向中文微博的情感分析核心技術(shù),包括觀點(diǎn)句識(shí)別、情感傾向性分析和情感要素抽取,相應(yīng)的有部分標(biāo)注語料。其中任務(wù)三“情感要素抽取”要求找出微博中每條觀點(diǎn)句作者的評(píng)價(jià)對(duì)象,即情感對(duì)象,同時(shí)判斷針對(duì)情感對(duì)象的觀點(diǎn)極性。在2012年發(fā)布的評(píng)測(cè)語料中,包含了十個(gè)話題的中文微博語料,每個(gè)話題有100個(gè)標(biāo)注文檔。
另一個(gè)比較著名的語料是NTCIR 提供的標(biāo)準(zhǔn)測(cè)試集,其中中文簡(jiǎn)體語料共包含255個(gè)文檔,4 877個(gè)句子,其中被標(biāo)為情感句的有1 102個(gè),標(biāo)注的其他信息包括評(píng)價(jià)對(duì)象、觀點(diǎn)持有者、情感極性。
由此可見,可用于中文情感信息抽取的語料庫規(guī)模較小,且大多僅關(guān)注了情感傾向性、評(píng)價(jià)對(duì)象等信息,標(biāo)注情況簡(jiǎn)單。本文將在考慮了前文所述的三種表達(dá)情況下,重點(diǎn)標(biāo)注評(píng)價(jià)對(duì)象的省略現(xiàn)象,構(gòu)建一個(gè)更完整的規(guī)模更大的中文情感信息抽取語料庫。
構(gòu)建好的情感信息抽取標(biāo)注語料是實(shí)現(xiàn)性能更佳的學(xué)習(xí)系統(tǒng)的基礎(chǔ)。因此,我們考慮構(gòu)建一個(gè)中文情感信息抽取語料庫。除了標(biāo)注句子的情感極性,句中出現(xiàn)的評(píng)價(jià)對(duì)象和情感詞,我們還考慮了以下幾種信息: 評(píng)價(jià)對(duì)象和情感詞的對(duì)應(yīng)關(guān)系;評(píng)價(jià)對(duì)象的省略現(xiàn)象;情感句中情感詞未出現(xiàn)的情況(隱含情感)及情感極性轉(zhuǎn)移現(xiàn)象。
本節(jié)將重點(diǎn)介紹標(biāo)注體系的設(shè)計(jì),分為標(biāo)簽設(shè)置和標(biāo)注過程兩個(gè)方面進(jìn)行闡述。
3.1 語料庫標(biāo)簽設(shè)置
本標(biāo)注體系共設(shè)置了四類標(biāo)簽來覆蓋上文所提到的標(biāo)注信息,以篇章為單位進(jìn)行語料標(biāo)注。示例文檔給出了一篇已標(biāo)注完成的語料,其中第二、三兩句分別存在評(píng)價(jià)對(duì)象的指代和省略現(xiàn)象,第四句中存在隱含情感的現(xiàn)象。下面將結(jié)合示例詳細(xì)闡述本標(biāo)注體系的標(biāo)簽設(shè)置。
示例文檔:
1.這次我們選擇住在了
第一類標(biāo)簽: 主要作用為標(biāo)注句子的情感傾向性。標(biāo)注位置在句首。標(biāo)簽表示方法及代表含義如表1所示。例如: 示例中第二、三兩句的情感極性為正面的,因此標(biāo)注為<+P>。
第二類標(biāo)簽: 標(biāo)注評(píng)價(jià)對(duì)象,并為文中出現(xiàn)的評(píng)價(jià)對(duì)象計(jì)數(shù), 便于省略和指代現(xiàn)象的表示。標(biāo)注位置為句中評(píng)價(jià)對(duì)象出現(xiàn)的位置。標(biāo)簽表示方法及代表含義如表2所示。
表1 句子情感極性標(biāo)簽的表示和說明
為了便于表示情感詞和評(píng)價(jià)對(duì)象的關(guān)系,及評(píng)價(jià)對(duì)象的省略與指代現(xiàn)象,需要對(duì)文檔中出現(xiàn)的評(píng)價(jià)對(duì)象依次計(jì)數(shù),以標(biāo)簽中的“tgtNUM”表示。因此表2中三個(gè)標(biāo)簽內(nèi)的“tgtNUM=n”均表明此評(píng)價(jià)對(duì)象為文中的第n+1個(gè)評(píng)價(jià)對(duì)象,如示例最后一句中的“早餐”是整個(gè)文本中出現(xiàn)的第三個(gè)評(píng)價(jià)對(duì)象,因此tgtNUM=2。而表中的
表2 評(píng)價(jià)對(duì)象標(biāo)簽的表示和說明
第三類標(biāo)簽: 作用是標(biāo)注情感詞,同時(shí)以編號(hào)指出此情感詞所評(píng)價(jià)的對(duì)象,當(dāng)評(píng)價(jià)對(duì)象沒有在本句中出現(xiàn)時(shí),便發(fā)生了評(píng)價(jià)對(duì)象的省略情況。當(dāng)此句中無明顯情感詞時(shí),便為隱含情感。標(biāo)注位置分別有在句中標(biāo)注和在句末標(biāo)注的兩種情況。標(biāo)簽表示方法及代表含義如表3所示。
這一類標(biāo)簽以
表3 情感詞標(biāo)簽的表示和說明
第四類標(biāo)簽: 標(biāo)注修飾詞。標(biāo)簽表示方法及代表含義如表4所示。其中標(biāo)簽
表4 修飾詞標(biāo)簽的表示和說明
以上內(nèi)容詳細(xì)介紹了本標(biāo)注體系設(shè)計(jì)的四類標(biāo)簽。標(biāo)簽可以表示的內(nèi)容充分覆蓋了本節(jié)開始所提到的計(jì)劃標(biāo)注的信息,并重點(diǎn)標(biāo)注了評(píng)價(jià)對(duì)象的省略情況,此標(biāo)注內(nèi)容也將作為接下來研究的重點(diǎn)。
3.2 語料庫標(biāo)注流程
本文構(gòu)建的中文情感信息抽取語料庫的標(biāo)注過程大致分為兩個(gè)部分: 首先進(jìn)行句子級(jí)別的情感傾向性標(biāo)注;然后對(duì)情感句進(jìn)行細(xì)粒度的標(biāo)注,先后標(biāo)注評(píng)價(jià)對(duì)象、情感詞和修飾詞。情感句的細(xì)粒度標(biāo)注是本標(biāo)注體系的重點(diǎn),標(biāo)注過程較為繁瑣,工作量大。為便于理解,圖1展示了其中評(píng)價(jià)對(duì)象和情感詞的標(biāo)注過程。
情感句的細(xì)粒度標(biāo)注過程中,首先需要標(biāo)注評(píng)價(jià)對(duì)象,第一步要判斷句中是否有評(píng)價(jià)對(duì)象。如果無評(píng)價(jià)對(duì)象出現(xiàn),則表明句中出現(xiàn)了省略現(xiàn)象,留待稍后標(biāo)注;若出現(xiàn)評(píng)價(jià)對(duì)象,則進(jìn)行下一步,關(guān)注評(píng)價(jià)對(duì)象是否為代詞,若為代詞則需要標(biāo)注出指代的評(píng)價(jià)對(duì)象實(shí)體。
然后標(biāo)注情感詞,同樣首先判斷句子中是否存在情感詞。如果句中含有情感詞,則進(jìn)一步尋找情感詞所評(píng)價(jià)的對(duì)象,關(guān)注是否存在評(píng)價(jià)對(duì)象的省略現(xiàn)象,以及省略的對(duì)象是否在上下文中出現(xiàn);如果句中不含有情感詞,即隱含情感現(xiàn)象,同樣也關(guān)注是否存在評(píng)價(jià)對(duì)象的省略現(xiàn)象,省略的對(duì)象是否在上下文中出現(xiàn)這些內(nèi)容,而標(biāo)注位置在句末。
以上是對(duì)本標(biāo)注體系的標(biāo)簽設(shè)計(jì)及標(biāo)注過程的詳細(xì)介紹。由此可以看出,此語料庫重點(diǎn)標(biāo)注了評(píng)價(jià)對(duì)象的省略,隱含情感及極性轉(zhuǎn)移等現(xiàn)象。這三種情況能夠影響情感信息抽取的結(jié)果,具有一定的研究?jī)r(jià)值,而其中的評(píng)價(jià)對(duì)象省略現(xiàn)象更是中文文本的一個(gè)特有表達(dá),是中文文本的評(píng)價(jià)對(duì)象抽取任務(wù)的一個(gè)難點(diǎn)。而本文所設(shè)計(jì)的標(biāo)注體系為今后的這一類問題提供了標(biāo)注方法,根據(jù)此體系標(biāo)注完成的語料庫能夠?yàn)橹形脑u(píng)價(jià)對(duì)象的省略現(xiàn)象的進(jìn)一步研究提供充分的語料資源。
圖1 評(píng)價(jià)對(duì)象和情感詞標(biāo)注流程
本節(jié)將重點(diǎn)給出本語料庫的相關(guān)統(tǒng)計(jì)數(shù)據(jù),以此說明本文提出的三類現(xiàn)象在情感文本中的發(fā)生比例,及本語料庫在未來中文情感信息抽取任務(wù)方面的應(yīng)用價(jià)值。
在標(biāo)注過程中,共有兩個(gè)標(biāo)注人員參與標(biāo)注,并且在標(biāo)注過程中不斷討論完善標(biāo)注標(biāo)準(zhǔn),盡量避免爭(zhēng)議較大的標(biāo)注。我們采用了Cohen’kappa[16]值作為衡量語料標(biāo)注一致性的指標(biāo),兩個(gè)標(biāo)注人員標(biāo)注結(jié)果的Kappa值為72.62%。
本文將所設(shè)計(jì)的語料體系應(yīng)用到三個(gè)領(lǐng)域的產(chǎn)品評(píng)論語料中,分別是筆記本、賓館和化妝品。為表述方便,將以NB、Hotel、Beauty分別代表筆記本、賓館和化妝品三個(gè)領(lǐng)域。標(biāo)注過程以文檔為單位,保留上下文信息。標(biāo)注內(nèi)容反映了以下情感信息:
1. 句子的情感傾向性;
2. 情感句中出現(xiàn)的評(píng)價(jià)對(duì)象;
3. 情感句中出現(xiàn)的情感詞;
4. 情感詞與評(píng)價(jià)對(duì)象的對(duì)應(yīng)關(guān)系;
5. 作為評(píng)價(jià)對(duì)象的代詞所指代的實(shí)體;
6. 情感句中未出現(xiàn)評(píng)價(jià)對(duì)象的現(xiàn)象,并指出了所省略的評(píng)價(jià)對(duì)象;
7. 情感句中未出現(xiàn)情感詞的現(xiàn)象;
8. 情感詞的修飾詞,重點(diǎn)反映了極性轉(zhuǎn)移現(xiàn)象。
表5為語料庫的情感傾向性信息統(tǒng)計(jì)。NB領(lǐng)域標(biāo)注了2 000篇文檔,其中褒義句和貶義句各2 015、2 038句;Hotel領(lǐng)域標(biāo)注了1 000篇文檔,其中褒義句和貶義句各1 171、2 587句;Beauty領(lǐng)域標(biāo)注了2 000篇文檔,其中褒義句和貶義句各1 518、1 157句。由數(shù)據(jù)可知,我們標(biāo)注的三個(gè)領(lǐng)域的語料含有豐富的帶有情感色彩的文本,這些標(biāo)注文本可以有效地幫助情感傾向性分類任務(wù)。
表5 情感傾向性信息統(tǒng)計(jì)
表6統(tǒng)計(jì)了評(píng)價(jià)對(duì)象和情感詞的信息。以NB領(lǐng)域?yàn)槔? 000個(gè)文本中共有5 167個(gè)評(píng)價(jià)對(duì)象,評(píng)價(jià)對(duì)象的平均長度為1.76詞/個(gè),平均每個(gè)文檔中有2.85個(gè)評(píng)價(jià)對(duì)象;共有情感詞6 512個(gè),平均每個(gè)文檔中有3.26個(gè)情感詞。由表6可以得到其他兩個(gè)領(lǐng)域的相關(guān)信息。鑒于目前已有的中文情感信息抽取語料庫的局限,這些大量標(biāo)注文本可以用于中文情感信息抽取任務(wù)的研究,尤其是基于監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法研究。
表6 評(píng)價(jià)對(duì)象及情感詞信息統(tǒng)計(jì)
表7反應(yīng)了本文中所重點(diǎn)提出的三類現(xiàn)象在語料中的出現(xiàn)情況。在NB領(lǐng)域中,含有省略評(píng)價(jià)對(duì)象的句子共1 082句,情感句中未出現(xiàn)情感詞的句子數(shù)為854,出現(xiàn)否定轉(zhuǎn)移的句子數(shù)為596句,分別占情感句總數(shù)的26.69%、21.07%和14.71%。由此可見,這三種情況在中文表達(dá)中較為常見,有值得進(jìn)一步研究的價(jià)值。而本語料庫重點(diǎn)標(biāo)注了這三種情況,是進(jìn)行下一步研究的良好的語料基礎(chǔ)。
表7 含有特殊表達(dá)的句子數(shù)
由以上統(tǒng)計(jì)數(shù)據(jù)可以看出,本文所構(gòu)建的中文情感信息抽取語料庫不僅能夠?yàn)橐恍┏R姷闹形那楦行畔⒊槿∽尤蝿?wù)如評(píng)價(jià)對(duì)象抽取、評(píng)價(jià)詞語抽取等提供豐富的語料支持,也為后續(xù)對(duì)本文所提到的評(píng)價(jià)對(duì)象的省略、隱含情感及情感極性轉(zhuǎn)移等現(xiàn)象的研究完成了語料準(zhǔn)備。
本文使用了一部分語料進(jìn)行了評(píng)價(jià)對(duì)象抽取任務(wù)的基本實(shí)驗(yàn)。采用Jakob等[9]的方法為模板,即將評(píng)價(jià)對(duì)象抽取建模成序列標(biāo)注問題,使用條件隨機(jī)場(chǎng)模型CRFs實(shí)現(xiàn)評(píng)價(jià)對(duì)象的抽取,實(shí)驗(yàn)對(duì)于特征部分僅采用詞形和詞性兩個(gè)基準(zhǔn)特征。其中詞形表示當(dāng)前單詞的字符串特征,詞性表示當(dāng)前單詞的詞性標(biāo)記特征。
在本實(shí)驗(yàn)中,條件隨機(jī)場(chǎng)模型的實(shí)現(xiàn)采用CRF++,使用默認(rèn)參數(shù),詞與詞性的窗口大小為3。評(píng)價(jià)指標(biāo)采用P(Precision)、R(Recall)、F1(F1-Measure)。訓(xùn)練集和測(cè)試集均為500個(gè)句子。表8為三個(gè)領(lǐng)域的評(píng)價(jià)對(duì)象抽取實(shí)驗(yàn)結(jié)果。
表8 評(píng)價(jià)對(duì)象抽取實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果顯示,本文所標(biāo)注的語料在評(píng)價(jià)對(duì)象抽取任務(wù)中已能達(dá)到較好的效果,如三個(gè)領(lǐng)域的評(píng)價(jià)對(duì)象抽取的Precision值均在70%左右,與英文語料采用相同特征與方法的結(jié)果[9]相比較好,可能是由于本文的標(biāo)注體系較英文語料更完善。
本文設(shè)計(jì)了一套中文情感信息抽取語料庫的標(biāo)注體系,除了標(biāo)注常見的句子情感極性、情感詞、評(píng)價(jià)對(duì)象等信息以外,還重點(diǎn)考慮了情感表達(dá)中的評(píng)價(jià)對(duì)象省略、隱含情感及極性轉(zhuǎn)移等現(xiàn)象。統(tǒng)計(jì)結(jié)果表明,這幾種情況在中文表達(dá)中較為常見,有值得研究的價(jià)值。本文通過對(duì)三個(gè)領(lǐng)域的產(chǎn)品評(píng)論語料的標(biāo)注,為下一步的基于監(jiān)督學(xué)習(xí)方法的中文信息抽取方法研究提供了一定的基礎(chǔ)。語料中所重點(diǎn)標(biāo)注的評(píng)價(jià)對(duì)象的省略現(xiàn)象等也將作為后續(xù)工作進(jìn)行進(jìn)一步的研究。*本文所述語料將在論文發(fā)表后在實(shí)驗(yàn)室網(wǎng)站公布
[1] Pang B, Lee L. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2) :1-135.
[2] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02. 2002: 79-86.
[3] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 北京: 清華大學(xué)出版社,2008:1-475.
[4] Kim S, Hovy E. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. 2006: 1-8.
[5] Ku L, Liu I, Lee C, et al. H. Sentence-Level Opinion Analysis by CopeOpi in NTCIR-7[C]//Proceedings of NTCIR-7 Workshop. 2008.
[6] Hu M, Liu B. Mining Opinion Features in Customer Reviews[C]//Proceedings of AAAI-2004. 2004: 755-760.
[7] Zhuang L, Jing F, Zhu X. Movie review mining and summarization[C]//Proceedings of CIKM-2006. 2006: 43-50.
[8] Li B, Zhou L, Feng S, et al. A Unified Graph Model for Sentence-based Opinion Retrieval[C]//Proceedings of ACL. 2010:1367-1375.
[9] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010: 1035-1045.
[10] 王榮洋,鞠久朋,李壽山,等. 基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究. 中文信息學(xué)報(bào)[J],2012,26(2): 56-61.
[11] Li S, Wang R, Zhou G. Opinion Target Extraction using a Shallow Semantic Parsing Framework[C]//Proceedings of AAAI 2012. 2012:1671-1677.
[12] 趙軍,許洪波,黃萱菁,等. 中文傾向性分析評(píng)測(cè)技術(shù)報(bào)告[C]//Proceeding of COAE-2008.
[13] 劉康,王素格,廖祥文,等. 第四屆中文傾向性分析評(píng)測(cè)總體報(bào)告[C]//Proceeding of COAE-2012.
[14] 譚松波,王素格,廖祥文,等. 第五屆中文傾向性分析評(píng)測(cè)總體報(bào)告[C]//Proceeding of COAE-2013.
[15] Toprak C., Jakob N., and Gurevych I. Sentence and Expression Level Annotation of Opinions in User-Generated Discourse[C]//Proceedings of ACL-2010. 2010: 575-584.
[16] Cohen. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960:37-46.
Corpus Construction on Opinion Information Extraction in Chinese
DAI Min, ZHU Zhu, LI Shoushan, ZHOU Guodong
(NLP Lab, School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Opinion information extraction (OIE) is an important sub-task in the research on sentiment analysis. Currently, one pressing issue in Chinese OIE is that the Chinese corpus is not readily avalable. This paper focuses on the annotation framework for Chinese OIE, and constrcuts a Chinese corpus containing rich information. Specifically, in additions to the popular elements including sentiment orientation, opinion target and opinion keyword, our corpus contains the information of opinion target ellipsis, the expressing opinion without sentimental words and the sentimental polarity shifting. The statistics show the popularity and necessity of these special points (e.g., opinion target ellipsis) in Chinese texts.
sentiment analysis; opinion information extraction; Chinese corpus
戴敏(1989—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:dmin.mousse@gmail.com朱珠(1991—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:zhuzhu0020@gmail.com李壽山(1980—),博士后,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:shoushan.li@gmail.com
1003-0077(2015)04-0067-07
2013-07-13 定稿日期: 2013-12-10
國家自然科學(xué)基金(61003155,60873150);模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室開發(fā)課題基金
TP391
A