王素格,吳蘇紅
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3. 山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006 )
隨著人民生活水平的提高,旅游已成為人們生活的重要組成部分。許多游客利用論壇、博客和旅游點(diǎn)評(píng)網(wǎng)等空間發(fā)表有關(guān)旅游景點(diǎn)的評(píng)論。與此同時(shí),對(duì)于游客,在出游之前,可以通過(guò)網(wǎng)上的評(píng)論了解其他游客對(duì)一些景點(diǎn)的看法,規(guī)劃自己的旅游行程。而景點(diǎn)管理商可以通過(guò)景點(diǎn)評(píng)論了解游客對(duì)景點(diǎn)的意見(jiàn)和態(tài)度,以便提高服務(wù)質(zhì)量。但是,人工逐篇閱讀海量的評(píng)論,需要花費(fèi)大量的時(shí)間和精力,閱讀者可能會(huì)“迷失”其中,無(wú)法識(shí)別和利用其中有價(jià)值的觀點(diǎn)信息。如何準(zhǔn)確、高效地挖掘出游客感興趣的觀點(diǎn)信息,特征—觀點(diǎn)對(duì)抽取是可以利用的關(guān)鍵技術(shù)之一。
特征—觀點(diǎn)對(duì)是指特征及其觀點(diǎn)詞語(yǔ)之間的搭配,表現(xiàn)為二元對(duì)(特征,觀點(diǎn)詞語(yǔ))。在2011年中文傾向性分析評(píng)測(cè)大綱中將領(lǐng)域觀點(diǎn)詞抽取、評(píng)價(jià)對(duì)象抽取以及評(píng)價(jià)搭配抽取確定為要素級(jí)評(píng)測(cè)任務(wù)[1]。Popescu[2]構(gòu)建了一個(gè)無(wú)監(jiān)督的信息抽取系統(tǒng)OPINE,該系統(tǒng)利用名詞或名詞短語(yǔ)與具有一定區(qū)分的符號(hào)間的點(diǎn)互信息值獲取產(chǎn)品特征,然后利用手工構(gòu)建的10條規(guī)則用于識(shí)別與特征相關(guān)的觀點(diǎn)詞。劉鴻宇等[3]對(duì)評(píng)價(jià)對(duì)象抽取和傾向性判斷進(jìn)行了研究。他們使用句法分析結(jié)果獲取候選評(píng)價(jià)對(duì)象, 繼而結(jié)合基于網(wǎng)絡(luò)挖掘的PMI算法和名詞剪枝算法對(duì)候選評(píng)價(jià)對(duì)象進(jìn)行篩選,并使用無(wú)指導(dǎo)方法完成評(píng)價(jià)對(duì)象在情感句中的傾向性判斷。文獻(xiàn)[2-3]在采用點(diǎn)互信息計(jì)算相關(guān)性時(shí),需要以大量的統(tǒng)計(jì)數(shù)據(jù)為代價(jià)。Li Zhuang等[4]采用WordNet、電影知識(shí)和標(biāo)注訓(xùn)練數(shù)據(jù)等生成關(guān)鍵詞列表,再利用規(guī)則獲得特征和觀點(diǎn)對(duì),該方法依賴于大量的資源。Kobayashi等[5]利用文本挖掘技術(shù),提出了一種半自動(dòng)用于快速收集評(píng)價(jià)表達(dá)的方法。J.Wiebe[6]將觀點(diǎn)詞語(yǔ)的詞性局限于形容詞詞性,而忽略了其他詞性的觀點(diǎn)詞語(yǔ)。Somprasertsri等[7]在句法信息和語(yǔ)義信息的基礎(chǔ)上,提出一種采用依存關(guān)系提取特征—觀點(diǎn)對(duì)方法,并對(duì)文本進(jìn)行觀點(diǎn)綜述。由于該文處理的文本為英文,系統(tǒng)中的部分技術(shù)無(wú)法直接向中文移植,另外,考慮到評(píng)價(jià)的對(duì)象與觀點(diǎn)間的結(jié)構(gòu)特征與領(lǐng)域相關(guān)。因此,本文針對(duì)旅游領(lǐng)域評(píng)論,利用依存關(guān)系,研究了評(píng)論文本中特征—觀點(diǎn)對(duì)的抽取方法。首先利用依存關(guān)系制定用于獲取含特征和觀點(diǎn)的組塊規(guī)則,在此基礎(chǔ)上,進(jìn)一步利用句子中詞與詞之間的依存關(guān)系,設(shè)計(jì)特征、特征—觀點(diǎn)對(duì)的識(shí)別算法,實(shí)現(xiàn)旅游領(lǐng)域景點(diǎn)評(píng)論文本中具有觀點(diǎn)傾向的特征—觀點(diǎn)對(duì)的抽取。
(1) 特征:對(duì)于許多旅游評(píng)論,讀者通常關(guān)注被評(píng)論的對(duì)象的觀點(diǎn)傾向。但評(píng)論中的“評(píng)價(jià)對(duì)象”很難有一個(gè)統(tǒng)一的定義。文獻(xiàn)[3]給出的定義:“評(píng)價(jià)對(duì)象是指某評(píng)論中所討論的主題,具體表現(xiàn)為評(píng)論文本中觀點(diǎn)詞語(yǔ)所修飾的對(duì)象”。我們通過(guò)對(duì)大量相關(guān)的旅游景點(diǎn)評(píng)論文本的觀察,發(fā)現(xiàn)評(píng)價(jià)的對(duì)象一般為名詞或名詞短語(yǔ)。例如,對(duì)某個(gè)景點(diǎn)或者景點(diǎn)的某些屬性的評(píng)論。因此,本文將景點(diǎn)的評(píng)價(jià)對(duì)象看作特征,限定在名詞、動(dòng)名詞、代詞或名詞組塊范疇內(nèi)抽取。例如,“景點(diǎn)”、“服務(wù)”、“交通”、“環(huán)境”等。
(2) 觀點(diǎn)詞語(yǔ):觀點(diǎn)詞語(yǔ)又稱為情感詞或極性詞,特指帶有情感傾向性的詞語(yǔ)。觀點(diǎn)詞語(yǔ)在情感文本中處于舉足輕重的地位。Hatzivassiloglou等[8]從大語(yǔ)料庫(kù)《華爾街日?qǐng)?bào)》(Wall Street Journal)中發(fā)掘出大量的形容詞性的觀點(diǎn)詞語(yǔ)。G. Somprasertsri等[7]把形容詞和動(dòng)詞作為觀點(diǎn)詞語(yǔ)進(jìn)行特征觀點(diǎn)抽取,而J.Wiebe[6]將觀點(diǎn)詞語(yǔ)的詞性局限于形容詞詞性。本文選用形容詞、動(dòng)詞、形容詞組塊、動(dòng)詞組塊、成語(yǔ),作為候選觀點(diǎn)詞語(yǔ)。例如,“漂亮”、“不錯(cuò)”、“值得去”等。
為了獲取含有特征和觀點(diǎn)詞語(yǔ)的組塊,本文在李素建等[9]提出的組塊定義基礎(chǔ)上,結(jié)合詞語(yǔ)間的依存結(jié)構(gòu),定義了三種類型的組塊:名詞組塊、動(dòng)詞組塊和形容詞組塊。其中,單獨(dú)一個(gè)名詞、動(dòng)詞或形容詞均不在組塊構(gòu)成范圍內(nèi),而并列結(jié)構(gòu)中的詞語(yǔ)與連接詞一起包含在相應(yīng)組塊中。本文依存分析采用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心[10]提供的“語(yǔ)言技術(shù)平臺(tái)LTP”。
(1) 名詞組塊:是由中心詞為名詞的ATT、COO或QUN結(jié)構(gòu)構(gòu)成。ATT結(jié)構(gòu)的中心名詞的修飾詞個(gè)數(shù)可以是一個(gè)或者多個(gè)。若“的”字結(jié)構(gòu)作修飾成分時(shí),將修飾的中心名詞一起構(gòu)成一個(gè)名詞組塊。對(duì)于數(shù)量結(jié)構(gòu),當(dāng)數(shù)量詞為數(shù)字時(shí),不包含在名詞組塊中。
(2) 動(dòng)詞組塊:是由中心詞為動(dòng)詞的ADV、VOB、CMP、VV、MT或COO結(jié)構(gòu)構(gòu)成。中心動(dòng)詞的對(duì)象賓語(yǔ)和后置修飾成分補(bǔ)語(yǔ)也包含在動(dòng)詞組塊中。趨向動(dòng)詞、助動(dòng)詞與其前面的中心動(dòng)詞構(gòu)成動(dòng)詞組塊。當(dāng)“地”字結(jié)構(gòu)作修飾成分時(shí),將中心動(dòng)詞一起被劃分為一個(gè)動(dòng)詞組塊。
(3) 形容詞組塊:是由中心詞為形容詞的SBV、ADV、ATT、QUN、MT或COO結(jié)構(gòu)構(gòu)成。需要說(shuō)明的是,名詞組塊或動(dòng)詞組塊內(nèi)部的形容詞組塊不用標(biāo)記。“的”字結(jié)構(gòu)與其所修飾的中心形容詞構(gòu)成一個(gè)形容詞組塊。形容詞加助詞也可以組成形容詞組塊。
為了獲得這三類組塊,利用詞與詞之間的依存關(guān)系和相關(guān)詞性,建立由詞語(yǔ)構(gòu)成組塊的規(guī)則。
其規(guī)則形式為:如果詞與詞間滿足依存關(guān)系與詞性條件,則這些詞可構(gòu)成組塊。
其規(guī)則的前件由表1 RuleSet1和表2 RuleSet2所示。除特殊說(shuō)明外,表1均只限于相鄰詞之間的依存關(guān)系。parent.pos表示關(guān)系中支配詞的詞性,child.pos表示關(guān)系中從屬詞的詞性。
利用RuleSet1中的條件得到的組塊,有部分組塊中同時(shí)含有特征和觀點(diǎn)詞語(yǔ)。例如,利用規(guī)則N1獲取的組塊“不錯(cuò)的歷史博物館”、“獨(dú)特的建筑格局”等,該類組塊的共同點(diǎn)都含有名詞與其修飾成分,利用這類組塊很容易獲得特征—觀點(diǎn)對(duì)。為此,在RuleSet1的基礎(chǔ)上,對(duì)部分規(guī)則的條件做進(jìn)一步限定,得到RuleSet2,如表2所示。
表1 RuleSet1
表2 RuleSet2
續(xù)表
利用RuleSet1和RuleSet2中的規(guī)則獲取情感傾向組塊的算法如下。
算法1:基于規(guī)則的組塊獲取
輸入:經(jīng)過(guò)依存句法分析后格式為XML的評(píng)論句集合SSet={s1,…,sn}, 組塊集ChSet1=?,ChSet2=?;
輸出:ChSet1和ChSet2;
Step1 利用RuleSet2中的規(guī)則Rulei(i=1,…,10),對(duì)SSet中的句子進(jìn)行組塊獲取,得到候選組塊集CanChSet2;對(duì)于這些組塊:
Step2ChSet2=ChSet2∪CanChSet2;
Step3 利用RuleSet1中的規(guī)則Rulej(j=1,…,22) 對(duì)SSet中的句子進(jìn)行組塊獲取,得到組塊集ChSet1;
Step4 算法結(jié)束。
由于ChSet2中的組塊含有特征和觀點(diǎn)詞語(yǔ),則利用這些組塊可構(gòu)成句子中的部分候選特征—觀點(diǎn)對(duì)。RSSet={r1,…,rm}代表除去含有ChSet2中組塊的句子。
在算法1獲得ChSet1的基礎(chǔ)上,再利用詞與詞之間的依存關(guān)系,對(duì)抽取組塊后的句子設(shè)計(jì)候選特征的識(shí)別算法。
算法2:識(shí)別句子中的候選特征
輸入:RSSet={r1,…,rm},候選特征集CanFSet=? ,ChSet1,k=1;
輸出:候選特征集CanFSet;
Step1 對(duì)于?rk∈RSSet,如果存在SBV關(guān)系或者VOB關(guān)系且關(guān)系從屬詞W的詞性為名詞(“話”字除外)/代詞(僅包括指示代詞和第三人稱代詞)/動(dòng)名詞,則,如果從屬詞W在ChSet1的組塊中,則CanFSet=CanFSet∪{ChunkW},否則CanFSet=CanFSet∪{W};//ChunkW為從屬詞W所在組塊;
Step2 如果k Step4 算法結(jié)束。 候選特征—觀點(diǎn)對(duì)的抽取分為兩種。 (2) 利用算法1和算法2得到候選特征和候選觀點(diǎn)詞語(yǔ),當(dāng)句子中出現(xiàn)一個(gè)以上的特征和觀點(diǎn)詞語(yǔ)時(shí),采用鄰近法[11]確定候選觀點(diǎn)詞語(yǔ)與候選特征之間的相關(guān)性。最后從候選特征—觀點(diǎn)對(duì)集中選出含有情感傾向的特征—觀點(diǎn)對(duì),得到特征—觀點(diǎn)對(duì)集合。特征—觀點(diǎn)對(duì)的情感傾向由觀點(diǎn)詞語(yǔ)在情感詞表[12]、《知網(wǎng)》情感詞語(yǔ)集的情感傾向、文獻(xiàn)[13]以及與旅游評(píng)論相關(guān)的情感詞決定。其算法如下: 算法3:特征—觀點(diǎn)對(duì)的抽取 輸出:特征—觀點(diǎn)對(duì)集合FOSet; Step1 ?sk∈SSet句子的候選特征Fki,若 Step3若候選觀點(diǎn)詞語(yǔ)w和候選特征集F存在于同一個(gè)span且|F|>1或者若w和F存在于不同的span,則w選擇鄰近的f∈F構(gòu)成CFw=(f,w),CanFOSet=CanFOSet∪{CFw}; Step4 如果?CanFO∈CanFOSet,若CanFO包含有情感傾向,則FOSet=FOSet∪{CanFO}; Step5 算法結(jié)束。 上述算法中句子片段為以逗號(hào)隔開(kāi)的子句。 實(shí)驗(yàn)數(shù)據(jù)采用互聯(lián)網(wǎng)上的論壇、博客、旅游點(diǎn)評(píng)網(wǎng)等有關(guān)山西省11個(gè)地級(jí)市的180個(gè)景點(diǎn)的相關(guān)評(píng)論作為語(yǔ)料庫(kù),共618篇評(píng)論,平均每篇評(píng)論大致包含2~3個(gè)句子。為了衡量特征—觀點(diǎn)對(duì)的抽取結(jié)果,本文采用三個(gè)評(píng)價(jià)指標(biāo):精確率(查全率)、召回率(查準(zhǔn)率)和F1值。 對(duì)于旅游景點(diǎn)評(píng)論,利用算法1得到組塊集ChunkSet2,共915個(gè)組塊;含三類組塊集Chunk-Set1,共3 985個(gè)組塊,其中名詞組塊1 742個(gè),動(dòng)詞組塊1 871個(gè),形容詞組塊372個(gè)。例如,評(píng)論句“山西歷史很悠久?!?,依存句法分析結(jié)果如圖1所示。該評(píng)論句中,利用RuleSet2中的ADV+SBV規(guī)則獲取組塊“歷史很悠久”,由于該組塊前面詞出現(xiàn)ATT關(guān)系,則應(yīng)把詞“山西”也識(shí)別在組塊中,得到新的組塊“山西歷史很悠久”。 圖1 依存句法分析示例 利用算法2~3,分別對(duì)正面、反面、全部的旅游評(píng)論進(jìn)行特征—觀點(diǎn)對(duì)抽取,共抽取出1 758對(duì)。例如,對(duì)“懸空寺絕對(duì)是個(gè)一定要去的地方,精致奇特。”這句話進(jìn)行特征—觀點(diǎn)對(duì)抽取,依存句法分析結(jié)果如圖2所示。 由Rule9抽取組塊“一定要去的地方”,獲得候選特征—觀點(diǎn)對(duì)(地方,一定要去),利用算法2識(shí)別候選特征為“懸空寺”,最后利用算法3獲取候選特征—觀點(diǎn)對(duì)(懸空寺,精致奇特)、(懸空寺,絕對(duì)是),在此基礎(chǔ)上,得到特征—觀點(diǎn)對(duì)(地方,一定要去)、(懸空寺,精致奇特)。 圖2 依存句法分析示例 采用以上三個(gè)評(píng)價(jià)指標(biāo)對(duì)特征—觀點(diǎn)對(duì)抽取實(shí) 驗(yàn)進(jìn)行評(píng)價(jià),其結(jié)果如表3所示。 表3 特征—觀點(diǎn)對(duì)抽取實(shí)驗(yàn)結(jié)果 從表3中可以看出,本文的方法在精確率上達(dá)到預(yù)期的效果。其中,對(duì)正面評(píng)論進(jìn)行特征—觀點(diǎn)對(duì)判別時(shí),精確率、召回率、F1值都優(yōu)于反面評(píng)論。主要原因是反面評(píng)論含有的否定詞、程度副詞較多,致使反面評(píng)論的判別結(jié)果錯(cuò)誤率高于正面評(píng)論,從而影響了實(shí)驗(yàn)結(jié)果。 另外,對(duì)識(shí)別錯(cuò)誤的結(jié)果分析發(fā)現(xiàn),(1)有80.07%的錯(cuò)誤來(lái)自特征的識(shí)別錯(cuò)誤,當(dāng)利用規(guī)則抽取含特征和觀點(diǎn)詞語(yǔ)的組塊時(shí),句中的特征可能被抽掉,致使識(shí)別特征時(shí)出現(xiàn)錯(cuò)誤;(2)有14.76%的錯(cuò)誤來(lái)自于觀點(diǎn)詞語(yǔ)的識(shí)別錯(cuò)誤,該錯(cuò)誤主要是由組塊獲取錯(cuò)誤引起的。 本文利用詞對(duì)間的依存關(guān)系,構(gòu)建了用于獲取含情感傾向組塊的規(guī)則以及候選特征識(shí)別算法,在此基礎(chǔ)上,設(shè)計(jì)了具有情感傾向的特征—觀點(diǎn)對(duì)的抽取算法。本文對(duì)山西旅游景點(diǎn)評(píng)論語(yǔ)料進(jìn)行了特征—觀點(diǎn)對(duì)的抽取,整體的F1值達(dá)到了87.10%,驗(yàn)證了本文方法的有效性。但仍存在一些特征—觀點(diǎn)對(duì)無(wú)法正確識(shí)別,尤其對(duì)特征的識(shí)別,約有80.07%的錯(cuò)誤由它的判別錯(cuò)誤所引起。因此,在未來(lái)的工作中,應(yīng)進(jìn)一步開(kāi)展特征識(shí)別方法的研究。 致謝:感謝哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心提供的“語(yǔ)言技術(shù)平臺(tái)LTP”以及董振東先生提供的《知網(wǎng)》中的評(píng)價(jià)詞匯和情感詞匯。 [1] 許洪波,孫樂(lè),姚天昉. 第三屆中文傾向性分析評(píng)測(cè)總結(jié)報(bào)告[R]. 第三屆中文傾向性分析評(píng)測(cè)(COAE2011). 2011,1-24. [2] Ana-Maria Popescu, Oren Etzioni. Extracting product fFeatures and opinions from reviews[C]// Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.2005:32-33. [3] 劉鴻宇, 趙妍妍, 秦兵, 等. 評(píng)價(jià)對(duì)象抽取及其傾向性分析[J]. 中文信息學(xué)報(bào),2010, 24(1):84-88. [4] Li Zhuang, Feng Jing, Xiaoyan Zhu. Movie review mining and summarization[C]// Proceedings of the 15th ACM International Conference on Information and Knowledge Management. 2006: 43-50. [5] Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto. Collecting evaluative expressions for opinion extraction[C]// Proceedings of the 1st International Joint Conference on Natural Language Processing. 2004: 584-589. [6] Janyce Wiebe, Theresa Wilson, Rebecca Bruce, et al. Learning subjective language [J].Computational Linguistics. 2004, 30(03): 277-308. [7] G. Somprasertsri, P. Lalitrojwong. Mining Feature-Opinion in online customer reviews for opinion summarization[J]. Journal of Universal Computer Science. 2010,16(6): 938-955. [8] V. Hatzivassiloglou, KR. McKeown. Predicting the semantic orientation of adjectives[C]// Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.1997:174-181. [9] 李素建,劉群.漢語(yǔ)組塊的定義和獲取[C]//全國(guó)計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(SWCL2003)論文集.2003:110-115. [10] 語(yǔ)言技術(shù)平臺(tái)LTP. 哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心[DB/OL]. http://ir.hit.edu.cn/ [11] Minqing Hu, Bing Liu. Mining and summarizing customer reviews[C]// Proceedings of the Conference on Knowledge Discovery and Data Mining. 2004:168-177. [12] 王素格,楊安娜,李德玉.基于漢語(yǔ)情感詞表的句子情感傾向分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(24):153-155. [13] 王素格,楊安娜.基于混合語(yǔ)言信息的詞語(yǔ)搭配傾向判別方法[J].中文信息學(xué)報(bào),2010,24(03):69-74.4.2 特征—觀點(diǎn)對(duì)的抽取
5 實(shí)驗(yàn)結(jié)果與分析
5.1 組塊獲取
5.2 特征—觀點(diǎn)對(duì)抽取
6 結(jié)束語(yǔ)