郝秀蘭,許方曲,蔣云良
(湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州 313000)
一種中文偽評(píng)論語(yǔ)料半自動(dòng)獲取方法
郝秀蘭,許方曲,蔣云良
(湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州 313000)
該文提出了一種中文偽評(píng)論語(yǔ)料半自動(dòng)收集方法,主要包括數(shù)據(jù)收集、句法分析、情感傾向性分析等方法,并對(duì)影響方法正確性的錯(cuò)誤進(jìn)行了總結(jié)。文中著重介紹了一種句法分析方法,在句法分析的基礎(chǔ)上提出了<評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ)>的提取方法。該提取方法簡(jiǎn)化了情感二元對(duì)的句法呈現(xiàn)模式。同時(shí),對(duì)部分實(shí)驗(yàn)結(jié)果進(jìn)行了分析,對(duì)提高文本情感分析的準(zhǔn)確率提出了一些建議。
計(jì)算機(jī)應(yīng)用;中文信息處理;傾向性分析;偽中文評(píng)論;半自動(dòng)獲取
情感分析(sentiment analysis)[1-3],又稱(chēng)觀點(diǎn)挖掘(opinion mining),是指通過(guò)挖掘文本中的觀點(diǎn)、看法、情緒、好惡等主觀信息,對(duì)文本的情感傾向做出類(lèi)別判斷[4]。情感分析是網(wǎng)絡(luò)輿情、互聯(lián)網(wǎng)信息監(jiān)控使用的關(guān)鍵技術(shù)之一。
除了在互聯(lián)網(wǎng)輿情監(jiān)控領(lǐng)域的應(yīng)用[5],情感分析也被廣泛應(yīng)用于生活信息服務(wù)、醫(yī)療服務(wù)等關(guān)系民生的眾多行業(yè)[6-8]。本文關(guān)注的是文本情感分析在電子商務(wù)中的應(yīng)用。
電子商務(wù)網(wǎng)站中,有些特殊的評(píng)論:有的評(píng)論把好的產(chǎn)品/服務(wù)說(shuō)成是不好的,有的把不好的產(chǎn)品/服務(wù)說(shuō)成是好的,這兩類(lèi)評(píng)論合稱(chēng)為“偽評(píng)論”[1-2,8],偽評(píng)論是垃圾評(píng)論的一種。在現(xiàn)實(shí)中,這兩類(lèi)評(píng)論都是非常有害的,前者損害商家的利益,后者損害消費(fèi)者的利益。但是,偽評(píng)論與真實(shí)評(píng)論混在一起,用人工的方法很難區(qū)分。
在文本分類(lèi)中常用的訓(xùn)練數(shù)據(jù)集(又稱(chēng)語(yǔ)料)獲取方法是人工標(biāo)注。但是,“偽評(píng)論”是人工不可識(shí)別的,也就是說(shuō),無(wú)法采用專(zhuān)家標(biāo)注的方法對(duì)其進(jìn)行標(biāo)注。
我們對(duì)現(xiàn)有的觀點(diǎn)挖掘語(yǔ)料進(jìn)行了調(diào)查,TREC設(shè)置的Blog Track、NTCIR的評(píng)測(cè)MOAT、中文傾向性分析評(píng)測(cè)COAE系列提供了一定規(guī)模的中文觀點(diǎn)挖掘語(yǔ)料。除此之外,不少研究單位和個(gè)人也提供了一定規(guī)模的觀點(diǎn)挖掘語(yǔ)料。但是,迄今為止,我們未發(fā)現(xiàn)專(zhuān)門(mén)用于中文偽評(píng)論檢測(cè)的語(yǔ)料。
Ott等[9]針對(duì)偽評(píng)論難于獲得的問(wèn)題,借助Amazon Mechanical Turk[10]平臺(tái),收集了400篇欺騙性垃圾(宣傳性的“偽評(píng)論”),實(shí)驗(yàn)結(jié)果表明crowdsourcing是有效的。不幸的是,國(guó)內(nèi)沒(méi)有這樣的平臺(tái);我們國(guó)內(nèi)的用戶又不習(xí)慣到Amazon Mechanical Turk申請(qǐng)并完成“眾包”任務(wù)。
目前既沒(méi)有垃圾產(chǎn)品評(píng)論分析用的中文語(yǔ)料,也沒(méi)有相關(guān)的中文評(píng)論語(yǔ)料收集網(wǎng)站。為了取得“偽評(píng)論”語(yǔ)料,我們需要自己開(kāi)發(fā)一個(gè)類(lèi)似于Amazon Mechanical Turk的平臺(tái)。本文提出一種中文偽評(píng)論語(yǔ)料半自動(dòng)收集方法,主要采用了crowdsourcing思想,通過(guò)前臺(tái)網(wǎng)站針對(duì)性地收集用戶“創(chuàng)作”的評(píng)論,同時(shí)在后臺(tái)加入了相關(guān)文本處理技術(shù),對(duì)用戶提交的偽評(píng)論文本自動(dòng)進(jìn)行主題識(shí)別與傾向性分析,以減少管理人員的工作量。
本文的文本傾向性分析工作涉及到兩方面的內(nèi)容:
<評(píng)價(jià)對(duì)象,評(píng)價(jià)詞語(yǔ)>二元對(duì)的抽取及其傾向性確定。Popeseu[11]、李巖[12]、張莉[13]等嘗試使用句法關(guān)系模板挖掘二元對(duì)之間的修飾關(guān)系?;谀0宓姆椒▋?yōu)點(diǎn)是準(zhǔn)確率高,缺點(diǎn)是擴(kuò)展性差。Titov[14], C. Sauper[15]采用話題模型挖掘情感文本中的評(píng)價(jià)對(duì)象、評(píng)價(jià)短語(yǔ)。話題模型理論上的召回率較高,但是不易理解。
評(píng)論整體傾向性的確定。依靠一些已有的情感詞典對(duì)帶有情感傾向性的評(píng)價(jià)單元進(jìn)行計(jì)算,進(jìn)行傾向性加權(quán)求和來(lái)獲取文本傾向,代表性的工作有Hu MQ[16]。由于“部分相加不等于整體”現(xiàn)象的存在,這種方法是有缺陷的。
中國(guó)科學(xué)院自動(dòng)化研究所的宗成慶[17]利用詞性、詞作為組合特征進(jìn)行分類(lèi);中科院自動(dòng)化所的王根、趙軍[18]提出基于多重冗余標(biāo)記的CRFs,使用不同特征,將情感分析中的多個(gè)分類(lèi)任務(wù)統(tǒng)一在一個(gè)模型之中;Andrew L. Maas[19]通過(guò)學(xué)習(xí)詞匯向量來(lái)獲取詞匯-文檔間的語(yǔ)義信息及情感內(nèi)容;L. Jiang[20]等在對(duì)Twitter進(jìn)行情感分類(lèi)時(shí),結(jié)合了與目標(biāo)相關(guān)的特征,并考慮了相關(guān)的tweets,提高了與目標(biāo)相關(guān)的情感分類(lèi)的性能。綜上所述,融合多種相關(guān)信息有利于提高情感分類(lèi)的準(zhǔn)確率。
我們根據(jù)基本思想構(gòu)建了一個(gè)平臺(tái)原型。該平臺(tái)既能夠用來(lái)收集中文偽評(píng)論語(yǔ)料,又可以當(dāng)作一個(gè)中文文本傾向性分析工具,還可以當(dāng)作一個(gè)淺層中文句法分析工具來(lái)用。
偽評(píng)論的收集主要采用了crowdsourcing思想,同時(shí)在后臺(tái)加入了相關(guān)主題識(shí)別與傾向性分析等文本處理技術(shù),對(duì)用戶提交的評(píng)論文本自動(dòng)進(jìn)行分析,以減少管理人員的工作量。
2.1 評(píng)論生成
產(chǎn)品的背景材料,包括產(chǎn)品種類(lèi)、產(chǎn)品介紹等通過(guò)前臺(tái)網(wǎng)站展現(xiàn)給用戶,用戶閱讀相關(guān)材料之后,可以“創(chuàng)作”并提交評(píng)論。經(jīng)后臺(tái)主題分析及傾向性分析之后,管理員讀取傾向性分析結(jié)果為正的評(píng)論進(jìn)行審核后,最終確定該評(píng)論是否符合要求。如果評(píng)論通過(guò)了管理員的審核,那么這個(gè)評(píng)論就是一個(gè)合格的宣傳性“偽評(píng)論”,可用作識(shí)別宣傳性“偽評(píng)論”的訓(xùn)練樣本。管理員可以把一批合格的宣傳性“偽評(píng)論”從數(shù)據(jù)中心導(dǎo)出,交給相關(guān)人員使用。
2.2 主題分析
我們使用了簡(jiǎn)單的主題判定方法,對(duì)于每一個(gè)產(chǎn)品類(lèi)別,我們都提供了目前所知的品牌名稱(chēng)(中英文均給出)。由于以文本文件的形式提供,未被包括在內(nèi)的新品牌,用戶可隨時(shí)添加。通過(guò)判斷評(píng)論文本中是否包含這類(lèi)產(chǎn)品的品牌之一,來(lái)確定評(píng)論是否主題相關(guān)。如果評(píng)論不包含該類(lèi)產(chǎn)品的任意一個(gè)品牌,那么就認(rèn)為主題無(wú)關(guān)。
2.3 句法及評(píng)論傾向性分析
句法分析建立在分詞及詞性標(biāo)注的基礎(chǔ)上,通過(guò)反復(fù)應(yīng)用漢語(yǔ)短語(yǔ)組成規(guī)則,進(jìn)行短語(yǔ)分析,詳見(jiàn)第三節(jié)。對(duì)包含產(chǎn)品某個(gè)特征或評(píng)價(jià)詞語(yǔ)的短語(yǔ),進(jìn)行進(jìn)一步分析處理,識(shí)別出<評(píng)價(jià)對(duì)象,評(píng)價(jià)詞語(yǔ)>二元對(duì),并確定其傾向性;在此基礎(chǔ)上,根據(jù)評(píng)價(jià)對(duì)象(屬性)在整個(gè)產(chǎn)品中的重要性,對(duì)其進(jìn)行加權(quán)處理,得到整個(gè)評(píng)論的情感傾向,詳見(jiàn)第四節(jié)。與Hu MQ[16]工作的不同之處在于我們對(duì)產(chǎn)品的整體評(píng)價(jià)也加了一部分權(quán)重。分詞及詞性標(biāo)注使用了NLPIR/ICTCLAS2014 windows調(diào)用模塊[21]。
我們從網(wǎng)上免費(fèi)下載的NLPIR/ICTCLAS2014分詞系統(tǒng)名詞識(shí)別及詞性標(biāo)注較準(zhǔn)確,但是有關(guān)動(dòng)詞的知識(shí)提供的并不多。在提供的詞性標(biāo)注文檔中,包含有vd 副動(dòng)詞、vx 形式動(dòng)詞、vi 不及物動(dòng)詞(內(nèi)動(dòng)詞)等可特殊使用的動(dòng)詞標(biāo)記。但是,我們?cè)趯?shí)際使用時(shí)發(fā)現(xiàn),這三類(lèi)標(biāo)記使用的較少,尤其是“會(huì)”、“可能”等這些副動(dòng)詞,在該分詞系統(tǒng)標(biāo)注中都簡(jiǎn)單地標(biāo)為“v”。在句法分析中,動(dòng)詞是最重要的詞類(lèi)之一,直接影響句法分析的結(jié)果。所以,對(duì)于NLPIR/ICTCLAS2014分詞系統(tǒng)標(biāo)注過(guò)詞性的評(píng)論文本,我們還需要進(jìn)一步處理,補(bǔ)充動(dòng)詞的相關(guān)知識(shí)。
3.1 面向自動(dòng)漢語(yǔ)句法分析的動(dòng)詞/形容詞詞性標(biāo)注
英文動(dòng)詞通過(guò)詞形變化來(lái)表示時(shí)態(tài),還可以通過(guò)變化的詞形式來(lái)表示分詞短語(yǔ)(過(guò)去分詞、現(xiàn)在分詞)、動(dòng)名詞(動(dòng)詞+ing)等,通過(guò)這些詞形我們能夠確切地了解作者使用動(dòng)詞的意圖。但是,在信息處理用漢語(yǔ)里,動(dòng)詞到底怎么用,在目前的分詞及詞性標(biāo)注系統(tǒng)里,沒(méi)有得到很好地體現(xiàn)。例如,“v+n”這種結(jié)構(gòu),可以是動(dòng)賓結(jié)構(gòu),也可以是定中結(jié)構(gòu),遇到這個(gè)結(jié)構(gòu),我們?cè)撛趺刺幚恚胯b于“v+n”結(jié)構(gòu)表示的動(dòng)賓短語(yǔ)較多,我們對(duì)“v+n”表示定中結(jié)構(gòu)當(dāng)作特例來(lái)進(jìn)行處理。
另外,在漢語(yǔ)中,有些動(dòng)詞只能帶動(dòng)詞或形容詞作賓語(yǔ),對(duì)于這些動(dòng)詞我們都進(jìn)行了特殊處理,以保證短語(yǔ)分析的正確性。
3.1.1 帶動(dòng)詞的定中結(jié)構(gòu)
在漢語(yǔ)中,也存在不及物動(dòng)詞,如“落”、“流”、“搗蛋”等。當(dāng)“v+n”結(jié)構(gòu)中的動(dòng)詞是不及物動(dòng)詞時(shí),只能是定中結(jié)構(gòu)[22-23]。我們用vi表示不及物動(dòng)詞,構(gòu)建了一個(gè)不及物動(dòng)詞表vi.txt,并將”vi+n”表示為一個(gè)定中結(jié)構(gòu)的構(gòu)成規(guī)則。對(duì)于NLPIR/ICTCLAS2014分詞及詞性標(biāo)注后的元標(biāo)注數(shù)據(jù),凡是出現(xiàn)在vi.txt且標(biāo)注為“v”的詞,我們將它的詞性統(tǒng)一更新為“vi”。
由動(dòng)詞和一些語(yǔ)素用字、后接成分組合,也可以構(gòu)成定中結(jié)構(gòu)。例如,v+ng,v+k,v+rg,v+ag。這里,ng是名詞性語(yǔ)素,ag是形容詞性語(yǔ)素,rg是代詞性語(yǔ)素,k是后綴。
動(dòng)詞性語(yǔ)素vg與其后的名詞一起,也可構(gòu)成定中結(jié)構(gòu),形式為:vg+n。
3.1.2 能愿動(dòng)詞
漢語(yǔ)的能愿動(dòng)詞也叫“助動(dòng)詞”,是一類(lèi)表示可能、必要、必然、意愿等意義的動(dòng)詞,如“不用”、“能”、“會(huì)”、 “應(yīng)該”等。在語(yǔ)言學(xué)界,有的把它當(dāng)作副詞,認(rèn)為它在修飾后面的動(dòng)詞[24];而有的則把它當(dāng)作是必須以動(dòng)詞作賓語(yǔ)的動(dòng)詞。為方便處理,也為了與英語(yǔ)中這類(lèi)詞的使用方法保持一致,我們把此類(lèi)動(dòng)詞當(dāng)副詞來(lái)處理。我們采用vd.txt能愿動(dòng)詞表對(duì)標(biāo)注后的數(shù)據(jù)詞性作了更新,將它的詞性統(tǒng)一更新為“vd”。
3.1.3 帶動(dòng)詞作賓語(yǔ)的動(dòng)詞
在現(xiàn)代漢語(yǔ)中,有些動(dòng)詞是可以帶動(dòng)詞作賓語(yǔ)的[25]。語(yǔ)言學(xué)研究人員認(rèn)為,心理動(dòng)詞和使令動(dòng)詞就是這樣的動(dòng)詞。經(jīng)反復(fù)查看資料,我們整理了四部可帶動(dòng)詞作賓語(yǔ)的動(dòng)詞:VObjVV.txt存放只可動(dòng)詞作賓語(yǔ)的動(dòng)詞,VObjVN.txt存放可用名詞、動(dòng)詞作賓語(yǔ)的動(dòng)詞,VObjNVA.txt存放可用名詞、動(dòng)詞、形容詞作賓語(yǔ)的動(dòng)詞,VObjVA.txt存放可以用動(dòng)詞、形容詞作賓語(yǔ)的動(dòng)詞。每部詞典的名字即該類(lèi)動(dòng)詞的詞性標(biāo)注符號(hào)。后面的兩部詞典中的動(dòng)詞也可以用形容詞作賓語(yǔ),與下面的形賓動(dòng)詞共享數(shù)據(jù)。
3.1.4 形賓動(dòng)詞
形賓動(dòng)詞是指可以用形容詞作賓語(yǔ)的動(dòng)詞。語(yǔ)言學(xué)研究人員研究發(fā)現(xiàn),在《動(dòng)詞用法詞典》收錄的動(dòng)詞中,有135個(gè)動(dòng)詞可帶形容詞作賓語(yǔ)[26]。這135個(gè)動(dòng)詞把同形異義的詞當(dāng)作不同的詞來(lái)處理.進(jìn)一步地,這135個(gè)動(dòng)詞又可以細(xì)化為四類(lèi),放在不同的詞典中,使用不同的標(biāo)注方法來(lái)標(biāo)注這些詞。
VObjA.txt里存放只可以用形容詞作賓語(yǔ)的動(dòng)詞,有四個(gè)詞;VObjNA.txt存放可以用名詞、形容詞作賓語(yǔ)的動(dòng)詞,去重后共45個(gè)詞;VObjNVA.txt存放可用名詞、動(dòng)詞、形容詞作賓語(yǔ)的動(dòng)詞,去重后共71個(gè)詞;VObjVA.txt存放可以用動(dòng)詞、形容詞作賓語(yǔ)的動(dòng)詞,去重后共十個(gè)詞。每部詞典的名字即該類(lèi)動(dòng)詞的詞性標(biāo)注符號(hào)。后面的兩部詞典與上面的可用動(dòng)詞作賓語(yǔ)的動(dòng)詞共享數(shù)據(jù)。
3.2 基于正則表達(dá)式匹配的句法分析
正則表達(dá)式,又稱(chēng)正規(guī)表示法、常規(guī)表示法(regular expression),是計(jì)算機(jī)科學(xué)中的一個(gè)概念。正則表達(dá)式使用單個(gè)字符串來(lái)描述、匹配一系列符合某個(gè)句法規(guī)則的字符串。
本文系統(tǒng)使用的局部句法分析把所要分析的短語(yǔ)結(jié)構(gòu)用正則表達(dá)式來(lái)表示。而帶有詞性標(biāo)注的字符串(經(jīng)3.1的動(dòng)詞標(biāo)注處理之后)可以分離成字串、標(biāo)注串,局部句法分析主要使用在標(biāo)注串中查找表示成正則表達(dá)式的短語(yǔ)的方法來(lái)實(shí)現(xiàn)。
根據(jù)各種短語(yǔ)的構(gòu)成特點(diǎn)[22-29],我們對(duì)其進(jìn)行了分類(lèi)。有些在整個(gè)句子的識(shí)別過(guò)程中,只需要使用一次,我們把它放在了表1(部分實(shí)例);而有的短語(yǔ)結(jié)構(gòu)可能需要多次處理,我們把它放在了表2(部分實(shí)例)。
結(jié)構(gòu)標(biāo)記:POB--介詞短語(yǔ),DE--“的”字結(jié)構(gòu),ATT--定中,ADV--狀中,CMP--動(dòng)補(bǔ),VOB--動(dòng)賓,VV--連動(dòng),SBV--主謂。
在句法分析過(guò)程中,如果是簡(jiǎn)單句,那么除VOB、SBV結(jié)構(gòu)之外的其他短語(yǔ)都是在第一層次處理的,第二層次處理VOB結(jié)構(gòu),第三層次是VV、SBV結(jié)構(gòu)。但是,現(xiàn)代漢語(yǔ)是相當(dāng)靈活的,小句幾乎可以充當(dāng)任何成分,增加了句法分析的難度。
表1 部分詞一級(jí)的處理規(guī)則及其正則表達(dá)式
表2 部分常見(jiàn)中文短語(yǔ)結(jié)構(gòu)及其正則表達(dá)式
4.1 短語(yǔ)傾向性標(biāo)注
傾向性分析使用了HowNet所提供的中文傾向性分析用詞匯表(S1)、數(shù)據(jù)堂(www.datatang.com)提供的清華大學(xué)的傾向性分析用加權(quán)詞匯表(選取了部分)(S2)以及項(xiàng)目組自己整理的網(wǎng)絡(luò)用情感表情符表(S3)、程度副詞表、否定詞表、轉(zhuǎn)折連詞表、并列連詞表、總結(jié)連詞表等詞匯表,作為情感分析的基礎(chǔ)資源。詞表均以文本文件的形式提供。
取得帶詞性標(biāo)注的數(shù)據(jù)之后,我們首先使用基本情感傾向詞匯表S1、S2、S3對(duì)形容詞、動(dòng)詞、名詞及情感符號(hào)的情感進(jìn)行標(biāo)注,然后再依據(jù)程度副詞表、否定詞表對(duì)一些副詞進(jìn)行情感標(biāo)注。程度副詞只影響情感的強(qiáng)弱,而否定詞則會(huì)使情感的極性發(fā)生翻轉(zhuǎn)。由轉(zhuǎn)折連詞連接的兩個(gè)短語(yǔ),前后極性相反;而由并列連詞連接的兩個(gè)短語(yǔ),前后極性一致。總結(jié)連詞連接的短語(yǔ)傾向,則有助于推斷整個(gè)評(píng)論的傾向。
4.1.1 情感修飾部分D_modifier的計(jì)算
主要是副詞的情感值,這個(gè)值可能會(huì)使情感強(qiáng)度加強(qiáng)或變?nèi)?程度副詞),情感極性發(fā)生翻轉(zhuǎn)(否定副詞)。D_modifier的初始值設(shè)為1:D_modifier=1;遇到情感值非零的副詞,假設(shè)其情感值為val_d,更新D_modifier:
(1)
4.1.2 短語(yǔ)情感值P_emotion的計(jì)算
假設(shè)中心詞的情感值為val_main,那么短語(yǔ)的情感值為:
(2)
例1 {[非常 | d | 0 | ], (非常), (d)} {[簡(jiǎn)潔 | a | 1 | ], (簡(jiǎn)潔),(a)}
P_emotion=1;//”非常”的情感值為0時(shí),D_modifier用默認(rèn)值1,對(duì)后面的中心語(yǔ)沒(méi)有影響;P_emotion=1.5;//”非?!钡那楦兄禐?.5時(shí),D_modifier為1.5,加強(qiáng)后面的中心語(yǔ)的情感。
例2 {[并 | d | 0 | ], (并), (d)} {[不 | d | -1 | ], (不), (d)} {[妨礙 | v | -1 | ], (妨礙), (v)}
P_emotion=1;
D_modifier=-1; val_main=-1
計(jì)算過(guò)程:
“并”的情感值為0,不更新D_modifier;
“不”的情感值為-1,更新D_modifier,D_modifier=-1
4.2 <評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ)>二元對(duì)提取
對(duì)于每一類(lèi)產(chǎn)品,我們給出了一個(gè)主要特征文件,并對(duì)每個(gè)特征的重要性進(jìn)行了加權(quán)標(biāo)注。這樣,有兩種獲取二元對(duì)的方法:一是識(shí)別出特征文件中提供的特征,依據(jù)特征所在的短語(yǔ)(評(píng)價(jià)對(duì)象),由句法關(guān)系來(lái)找評(píng)價(jià)短語(yǔ);另一種是依據(jù)評(píng)價(jià)短語(yǔ)找評(píng)價(jià)對(duì)象:根據(jù)情感詞所在的短語(yǔ)(評(píng)價(jià)短語(yǔ)),由句法知識(shí)找到情感所針對(duì)的對(duì)象(評(píng)價(jià)對(duì)象),從而獲得<評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ)>二元對(duì)。
由句法關(guān)系提取二元對(duì)示例:
例3 “具有/具/有”表示擁有且存有主述事物的屬性特征。常見(jiàn)的有兩種用法:主述事物+“具有/具/有”+屬性特征,“具有/具/有”+屬性特征+“的”+主述事物。
在第一種用法中,”具有/具/有”是句子中的主要?jiǎng)釉~,作謂語(yǔ),此時(shí)符合要求的二元對(duì)是<主述事物,屬性特征>,如表3中的測(cè)試用例S0002所示。
在第二種用法中,“具有/具/有”之前通常是一個(gè)動(dòng)詞,“具有/具/有”位于一個(gè)“的”字結(jié)構(gòu)內(nèi),符合要求的二元對(duì)是<主述事物,“具有/具/有”+屬性特征+“的”>,如表3中的測(cè)試用例S0001所示。
表3 <評(píng)價(jià)對(duì)象,評(píng)價(jià)特征>二元對(duì)提取示例
例4 狀中結(jié)構(gòu)(ADV)中,中心語(yǔ)是情感短語(yǔ),而修飾詞是介詞短語(yǔ)(在……上,在……方面),這時(shí),情感對(duì)象為介詞的賓語(yǔ)——介詞后的名詞性成分,如S0003所示。
例5 定中結(jié)構(gòu)(ATT)中,修飾語(yǔ)是情感短語(yǔ),此時(shí)中心語(yǔ)即為評(píng)價(jià)對(duì)象,如S0004所示,由“優(yōu)秀的工業(yè)外型設(shè)計(jì)”,可提取出二元對(duì):<工業(yè)外型設(shè)計(jì),優(yōu)秀的>。
例6 主謂結(jié)構(gòu)(SBV)中,謂語(yǔ)是情感短語(yǔ),此時(shí)主語(yǔ)即為評(píng)價(jià)對(duì)象,如S0005所示,由“反光板會(huì)不會(huì)突然壞掉”,可提取出二元對(duì):<反光板,突然壞掉>。
例7 動(dòng)賓結(jié)構(gòu)(OBJ)中,謂語(yǔ)是情感短語(yǔ),此時(shí)賓語(yǔ)即為評(píng)價(jià)對(duì)象,如S0006所示,可提取出二元對(duì):<佳能130的屏幕, 喜歡>。
4.3 評(píng)論整體情感傾向的確定
找出二元對(duì)之后,依據(jù)4.1所提供的傾向性計(jì)算方法,計(jì)算其情感傾向值;根據(jù)評(píng)價(jià)對(duì)象,確定該二元對(duì)屬于哪個(gè)側(cè)面/特征。在評(píng)論整體的情感分析程中,首先可以利用式(3)(滿足4的約束)來(lái)計(jì)算評(píng)論Ri的語(yǔ)義傾向:
(3)
(4)
(5)
其中,NumA是側(cè)面的總數(shù),SO(Aj)是第j個(gè)側(cè)面的語(yǔ)義傾向,SO(All)是整體的評(píng)價(jià),λj是第j個(gè)側(cè)面的評(píng)價(jià)所占的系數(shù),α、β分別為各側(cè)面的評(píng)價(jià)均值、整體的評(píng)價(jià)在Ri的情感傾向確定時(shí)所占的系數(shù)。
在原型中,λj,α、β的值暫由人工指定,放在指定的文本文件中。在算法實(shí)現(xiàn)中,依據(jù)式(5),β采用動(dòng)態(tài)調(diào)整的策略,相應(yīng)地,α的值也做動(dòng)態(tài)地調(diào)整(α=1-β)。如果想通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)這些參數(shù)值,學(xué)好后,放入指定的文本文件即可。
本文所提的評(píng)論傾向性分析思想有點(diǎn)兒類(lèi)似于李巖等[12]。在COAE 2013評(píng)測(cè)的任務(wù)三——觀點(diǎn)句抽取評(píng)測(cè)中,對(duì)于每個(gè)分句,他們都使用哈爾濱工業(yè)大學(xué)的LTP工具進(jìn)行句法分析,得到詞與詞之間的修飾關(guān)系和層次關(guān)系(25種),每個(gè)詞和父結(jié)點(diǎn)構(gòu)成一個(gè)詞語(yǔ)對(duì),利用某種方法對(duì)詞語(yǔ)對(duì)進(jìn)行評(píng)分;子句的得分是將詞語(yǔ)對(duì)的得分按層次加和計(jì)算得到。最后,將子句的得分加和得到文檔的得分。在任務(wù)3的測(cè)評(píng)中,系統(tǒng)整體的Macro F1和Micro F1是最好的。
李巖等[12]基于依存分析的觀點(diǎn)句要素抽取——COAE 2013的任務(wù)四?;舅枷胧潜闅v詞,判斷是否滿足特征(主要有詞性和依存關(guān)系兩種)。人工找到二十種可能的依存關(guān)系:(評(píng)價(jià)對(duì)象,評(píng)價(jià)特征,情感詞)或(評(píng)價(jià)對(duì)象,情感詞)。由于微博數(shù)據(jù)并非規(guī)范化的文體,規(guī)則不可能有完全的覆蓋,嘗試用產(chǎn)品和屬性詞表進(jìn)行匹配提高系統(tǒng)召回率。在評(píng)測(cè)中,系統(tǒng)整體的Macro F1和Micro F1排名第二。
本文所提的方法將二元對(duì)的呈現(xiàn)方式歸結(jié)為五種,簡(jiǎn)化了二元對(duì)的呈現(xiàn)模式。理論上來(lái)講,與李巖等[12]所提的方法有類(lèi)似的結(jié)果。但是,經(jīng)過(guò)實(shí)際測(cè)試,我們的實(shí)驗(yàn)結(jié)果要差一些。部分原因是程序邏輯的問(wèn)題,比如說(shuō),在有多個(gè)正則表達(dá)式可以匹配時(shí),優(yōu)先使用哪個(gè)。
在系統(tǒng)原型實(shí)現(xiàn)過(guò)程中,除了上節(jié)提到的程序邏輯問(wèn)題,我們還發(fā)現(xiàn)了一些需要自然語(yǔ)言理解的底層技術(shù)來(lái)解決的問(wèn)題。
6.1 詞性標(biāo)注錯(cuò)誤
例8 負(fù)責(zé)這項(xiàng)事務(wù)的高級(jí)工程師,非常認(rèn)真負(fù)責(zé)。
負(fù)責(zé)/v 這項(xiàng)/r 事務(wù)/n 的/u 高級(jí)/a 工程師/n ,/w 非常/d 認(rèn)真/ad 負(fù)責(zé)/v 。/w
“負(fù)責(zé)”可做形容詞,也可做動(dòng)詞,第二個(gè)“負(fù)責(zé)”應(yīng)做形容詞,而這個(gè)詞在不同詞性下的含義是不同的,詞性標(biāo)注錯(cuò)誤直接導(dǎo)致情感判斷出錯(cuò)。
6.2 新詞識(shí)別及分詞錯(cuò)誤問(wèn)題
例9 酷派700是一款支持雙模雙待功能的翻蓋雙屏3手機(jī)。
酷/ag 派/v 700/m 是/v 一/m 款/q 支持/v 雙/m 模/ng 雙/m 待/vg 功能/n 的/u 翻蓋/v 雙/m 屏/ng 3/m 手機(jī)/n 。/w
“酷派”是一個(gè)專(zhuān)有名詞,不能被正確識(shí)別。
6.3 指代消解問(wèn)題
例10 很多人抨擊奧迪的致命缺點(diǎn),但這并不影響我毫無(wú)保留地愛(ài)它,為它自豪!
分詞及詞性標(biāo)注之后:
很多/m 人/n 抨擊/v 奧迪/n 的/b 致命/a 缺點(diǎn)/n ,/w 但/c 這/r 并/d 不/d 影響/v 我/r 毫無(wú)/v 保留/v 地/u 愛(ài)/v 它/r ,/w 為/p 它/r 自豪/a !/w
在這里,可以識(shí)別出二元對(duì):<它,毫無(wú)保留地愛(ài)>,<它,自豪>
但是,這樣的結(jié)果感覺(jué)很奇怪,如果通過(guò)指代消解,就可以得到:
<奧迪,毫無(wú)保留地愛(ài)>,<奧迪,自豪>
6.4 詞匯情感標(biāo)注問(wèn)題
目前使用較頻繁的情感資源,如Hownet情感詞匯表,是以詞形的形式給出的。但是,一詞多義在語(yǔ)言中是一個(gè)普遍現(xiàn)象,例如,“次”作為形容詞時(shí)表示負(fù)向情感,而作為量詞時(shí),不具有情感傾向。同一詞性下只有一個(gè)詞義的情況下,用詞性進(jìn)行排歧是一種區(qū)別情感傾向的方法。如果同一詞性下有多個(gè)詞義,表現(xiàn)出不同的語(yǔ)義傾向,此時(shí)通過(guò)詞性并不能正確區(qū)分情感,如“幼稚”[30]。如果能通過(guò)上下文對(duì)出現(xiàn)在情感詞匯表的詞進(jìn)行詞義排歧,那么必將會(huì)提高情感傾向分析的準(zhǔn)確率。
詞義排歧、新詞識(shí)別、詞性標(biāo)注、指代消解都是典型的NLP問(wèn)題,它們是正確地進(jìn)行傾向性分析的基礎(chǔ)。
[1] N Jindal, B Liu. Opinion Spam and Analysis[C]//Proceedings of WSDM’08. 2008: 219-230.
[2] Jindal N, Liu B. Analyzing and detecting review spam[C]//Proceedings of the 7th IEEE Int’l Conf.on Data Mining. Washington: IEEE Computer Society, 2007: 547-552.
[3] 趙妍妍, 秦兵, 劉挺,等. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8): 1834-1848.
[4] 王素格, 李德玉, 魏英杰,等. 基于賦權(quán)粗糙隸屬度的文本情感分類(lèi)方法[J]. 計(jì)算機(jī)研究與發(fā)展,2011,48(5): 855-861.
[5] 梁軍,柴玉梅,原慧斌,等.基于深度學(xué)習(xí)的微博情感分析[J].中文信息學(xué)報(bào),2014, 28(5):155-161.
[6] 李國(guó)林,萬(wàn)常選,邊海容,等.基于語(yǔ)素的金融證券域文本情感探測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2011,48(z2):432-437.
[7] 王昊,楊亮,林鴻飛,等.日本地震的微博熱點(diǎn)事件分析[J].中文信息學(xué)報(bào),2012,26(5):7-13.
[8] 林煜明,王曉玲,朱濤,等.用戶評(píng)論的質(zhì)量檢測(cè)與控制研究綜述[J].軟件學(xué)報(bào),2014, 25(3):506-527.
[9] Ott M, Choi Y Cardie, et al. Finding Deceptive Opinion Spam by Any Stretch of the Imagination [C]//Proceedings of ACL 2011: 309-319.
[10] https://www.mturk.com/mturk/welcome[EB/OL]. [2014-12-8]
[11] Popeseu AM, Etzioni O. Extracting Product Features and Opinions from Reviews [C]//Proceedings of HLT-EMNLP 2005. 2005: 339-346.
[12] 李巖,徐蔚然,陳光. PRIS_COAE CPAE 2013評(píng)測(cè)報(bào)告[C]//第五屆中文傾向性分析評(píng)測(cè)研討會(huì)(COAE 2013)評(píng)測(cè)報(bào)告論文集,2013: 53-69.
[13] 張莉, 錢(qián)玲飛, 許鑫等. 基于核心句及句法關(guān)系的評(píng)價(jià)對(duì)象抽取[J]. 中文信息學(xué)報(bào), 2011, 25(3):23-29.
[14] Titov I, McDonald R. Modeling Online Reviews with Multi-grain Topic Models [C]//Proceedings of WWW 2008. 2008: 111-120.
[15] C Sauper, A Haghighi, R Barzilay. Content Models with Attitude [C]//Proceedings of ACL 2011. 2011: 350-358.
[16] Hu MQ, Liu B. Mining and Summarizing Customer Reviews [C]//Proceedings of KDD 2004. 2004: 68-177.
[17] Shoushan Li, Chengqing Zong and Xia Wang. Sentiment Classification through Combining Classifiers with Multiple Feature Sets [C]//Proceedings of NLP-KE 2007. 2007: 135-140.
[18] 王根, 趙軍. 基于多重冗余標(biāo)記CRFs的句子情感分析研究[J]. 中文信息學(xué)報(bào), 2007, 21(5): 51-55,86.
[19] Andrew L Maas, Raymond E Daly, Peter T Pham, et al. Learning Word Vectors for Sentiment Analysis [C]//Proceedings of ACL 2011: 142-150.
[20] L Jiang, M Yu, M Zhou, et al. Target-dependent Twitter Sentiment Classification [C]//Proceedings of ACL 2011: 151-160.
[21] http://ictclas.nlpir.org/[EB/OL]. [2014-12-8]
[22] 謝濤麗.定中式“V+N”結(jié)構(gòu)研究[D].上海師范大學(xué)碩士學(xué)位論文,2010.
[23] 尹世超.動(dòng)詞直接作定語(yǔ)與名詞中心語(yǔ)的類(lèi)[J].語(yǔ)文研究,2002,(2):1-7.
[24] 呂叔湘.呂叔湘全集(第一卷):中國(guó)文法要略[M].沈陽(yáng): 遼寧教育出版社, 2002.
[25] 張學(xué)會(huì).淺析動(dòng)詞作賓語(yǔ)的謂賓動(dòng)詞[J].大慶師范學(xué)院學(xué)報(bào),2008,28(1):99-101.
[26] 馬新娜.試論形容詞作賓語(yǔ)的述賓短語(yǔ)[D].浙江師范大學(xué)碩士學(xué)位論文,2010.
[27] 武欽青.述程結(jié)構(gòu)“V/A+得+程度補(bǔ)語(yǔ)”研究[D].上海師范大學(xué)碩士學(xué)位論文,2012.
[28] 錢(qián)小飛.“地”字結(jié)構(gòu)識(shí)別[J].現(xiàn)代語(yǔ)文(語(yǔ)言研究),2006,(5):61-63.
[29] 李淑榮.語(yǔ)氣詞“好了”[J].語(yǔ)文學(xué)刊,2006,(7):97-99.
[30] 楊亮,張紹武,林鴻飛等.基于圖排序的詞匯情感消歧研究[J].中文信息學(xué)報(bào),2014, 28(6):129-136.
Semi-automatic Acquisition of Fake Chinese Reviews
HAO Xiulan, XU Fangqu, JIANG Yunliang
(School of Information Engineering, Huzhou University, Huzhou, Zhejiang 313000, China)
An approach is introduced to acquire fake Chinese reviews semi-automatically. It mainly includes a platform to get fake reviews, a syntactic parser, and a sentiment analysis component. Emphasis is on a syntactic based sentiment pair extraction,
computer application; Chinese information processing; sentiment analysis; fake Chinese reviews; semi-automatic acquisition
郝秀蘭(1970—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,數(shù)據(jù)與知識(shí)工程。Email:hxl2221_cn@zjhu.edu.cn蔣云良(1967—),教授,主要研究領(lǐng)域?yàn)橹R(shí)融合,大數(shù)據(jù)處理與專(zhuān)家系統(tǒng)。Email:jylsy@zjhu.edu.cn許方曲(1993—),主要研究領(lǐng)域?yàn)檐浖?yōu)化。Email:2392096782@qq.com
1003-0077(2016)01-0190-08
2013-07-08 定稿日期: 2014-08-10
浙江省自然科學(xué)基金(LY12F02012);國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(201310347007);國(guó)家自然科學(xué)基金(61370173,61202290);浙江省科技計(jì)劃資助項(xiàng)目(2013C31138)
TP391
A