基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法在不同模板上的性能分析

2017-06-06 11:54:24楊云

長(zhǎng)春教育學(xué)院學(xué)報(bào) 2017年4期

楊云

楊云

文本情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究課題，主要是對(duì)網(wǎng)絡(luò)上的主觀性文本信息(如評(píng)論，微博等)進(jìn)行處理。評(píng)價(jià)對(duì)象抽取是文本情感分析的重要組成部分，目的是抽取出主觀性文本中每句話所描述的實(shí)體及其屬性，以便為情感分析的其他任務(wù)提供幫助。本文通過(guò)深入分析經(jīng)預(yù)處理后句子的句法結(jié)構(gòu)，在已有特征上加入了三種特征，并分析在不同窗口大小下的模板性能，選擇性能最佳的模板以抽取更為準(zhǔn)確的評(píng)價(jià)對(duì)象。

句法結(jié)構(gòu)；情感分析；評(píng)價(jià)對(duì)象；模板

一、相關(guān)知識(shí)介紹

文本情感分析[1]亦稱(chēng)評(píng)論挖掘，是把有情感色彩的主觀性文本進(jìn)行分析、處理和歸納的過(guò)程，是一個(gè)重要且有應(yīng)用價(jià)值的研究課題[2]。評(píng)價(jià)對(duì)象抽取[3][4][5]即抽取出該主觀句中所表達(dá)的中心思想，也就是說(shuō)，抽取出該句中所表明的主題，如句子“昨天在京東買(mǎi)了一款手機(jī)，它的像素還不錯(cuò)”中所要抽取的評(píng)價(jià)對(duì)象是“像素”。

本文選用CRF模型的實(shí)現(xiàn)CRF++0.53工具包(http://taku910.github.io/crfpp/網(wǎng)站可供下載)作為序列標(biāo)記工具，用于標(biāo)記并識(shí)別評(píng)價(jià)對(duì)象。該工具的核心文件為crf_learn.exe與crf_test.exe，分別用于訓(xùn)練與識(shí)別。用于評(píng)價(jià)對(duì)象抽取的識(shí)別過(guò)程，是將特征提取后的結(jié)果與相應(yīng)的模板(根據(jù)需要自行定義)輸入到crf_learn.exe中訓(xùn)練，則會(huì)自動(dòng)生成模型(model)；利用crf_test.exe文件，通過(guò)上步生成的model進(jìn)行標(biāo)記；最后將標(biāo)記為評(píng)價(jià)對(duì)象(B-tgt)的特征抽取出即可。

句法分析是指分析句中的詞與詞之間的某種依存關(guān)系，即反映該句的句法結(jié)構(gòu)信息。在文本情感分析領(lǐng)域中，它主要針對(duì)主觀性文本進(jìn)行句法分析?，F(xiàn)有的句法分析工具主要有斯坦福大學(xué)開(kāi)發(fā)的Parser，McDonald的MSTParser及哈爾濱工業(yè)大學(xué)開(kāi)發(fā)的語(yǔ)言技術(shù)平臺(tái)——LTP。本文選用斯坦福的Parser進(jìn)行句法分析。在使用句法分析工具之前，應(yīng)先對(duì)原始語(yǔ)料進(jìn)行分詞處理，再把分詞后的結(jié)果輸入到句法分析工具中，得到分析結(jié)果。

為驗(yàn)證算法的有效性，本文選用信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo)P、R、F作為評(píng)價(jià)對(duì)象抽取效果的驗(yàn)證指標(biāo)，具體的如公式1、2和3所示。

其中，P：準(zhǔn)確率，指識(shí)別正確的評(píng)價(jià)對(duì)象與系統(tǒng)檢索出的評(píng)價(jià)對(duì)象的比值；R：召回率，指識(shí)別正確的評(píng)價(jià)對(duì)象與實(shí)際正確的評(píng)價(jià)對(duì)象的比值；F：F值，指準(zhǔn)確率與召回率的調(diào)和平均值。

另外，為進(jìn)一步減少實(shí)驗(yàn)的誤差，本文選用k折交叉驗(yàn)證的方式來(lái)確定最終的實(shí)驗(yàn)性能。將特征提取的結(jié)果隨機(jī)分成k份，隨機(jī)選取其中的k-1份作為訓(xùn)練數(shù)據(jù)，剩下的1份作為測(cè)試數(shù)據(jù)；將k-1份訓(xùn)練數(shù)據(jù)訓(xùn)練成模型，再用模型來(lái)識(shí)別測(cè)試數(shù)據(jù)；以上過(guò)程重復(fù)k次來(lái)確保結(jié)果更加精準(zhǔn)。對(duì)于k的取值，本文將k設(shè)為10。理論上折數(shù)越大測(cè)試的系統(tǒng)性能越準(zhǔn)確，當(dāng)折數(shù)達(dá)到十折，已足以讓系統(tǒng)性能達(dá)到最優(yōu)。因此，本文采用十折交叉驗(yàn)證的方式來(lái)驗(yàn)證系統(tǒng)性能的準(zhǔn)確性。

要想更為準(zhǔn)確地抽取評(píng)價(jià)對(duì)象，選取窗口大小適宜的模板尤為重要。對(duì)此，本文在7種窗口大小的模板上進(jìn)行了實(shí)驗(yàn)與驗(yàn)證。

二、模板定義

模板反映了每句評(píng)論句中詞間的上下文信息。模板的選取對(duì)于實(shí)驗(yàn)的特征選取起著關(guān)鍵作用。模板用于控制詞之間的窗口大小，窗口過(guò)小，所包含信息過(guò)少，特征利用不全面，導(dǎo)致系統(tǒng)性能降低；窗口過(guò)大，引入了過(guò)多的信息，降低了運(yùn)行效率，實(shí)驗(yàn)效果也未必提高。

定義：大小為2n+1的窗口：(w-n,w-(n-1),…,w0,…,wn-1,wn)。代表以當(dāng)前詞為中心，把窗口大小設(shè)定為前后各n個(gè)詞語(yǔ)。

本文采用該定義方法來(lái)定義模板，模板的大小用于限定組成評(píng)價(jià)對(duì)象的詞語(yǔ)的數(shù)量，為探索性能最佳的模板，本文將探討當(dāng)窗口大小為2—7的系統(tǒng)性能變化。因?yàn)樵u(píng)價(jià)對(duì)象由單個(gè)詞或詞組組成，評(píng)價(jià)對(duì)象的長(zhǎng)度一般都不超過(guò)2，因此探討評(píng)價(jià)對(duì)象長(zhǎng)度在3以?xún)?nèi)的系統(tǒng)性能變化，即窗口大小為2—7。

本文將模板定義成三類(lèi)，以當(dāng)前詞為中心，考慮當(dāng)前詞的前后各一個(gè)詞、各兩個(gè)詞和各三個(gè)詞。具體定義如下：

1.模板一可分以下三種情況：

tmp1-=(-1，0)表示以當(dāng)前詞為中心，考慮當(dāng)前詞的前一個(gè)詞，即窗口大小為2。

tmp1=(-1，0，1)表示以當(dāng)前詞為中心，考慮當(dāng)前詞的前、后各一個(gè)詞，即窗口大小為3。

tmp1+=(0，1)表示以當(dāng)前詞為中心，考慮當(dāng)前詞的后一個(gè)詞，即窗口大小為2。

其中，tmp1-與tmp1+主要反映了模板的非對(duì)稱(chēng)性，將用實(shí)驗(yàn)來(lái)驗(yàn)證模板一中的三個(gè)模板的性能。

2.模板二的定義：

tmp2-=(-2，-1，0)表示以當(dāng)前詞為中心，考慮當(dāng)前詞的前兩個(gè)詞，即窗口大小為3。

tmp2=(-2，-1，0，1，2)表示以當(dāng)前詞為中心，考慮當(dāng)前詞的前、后各兩個(gè)詞，即窗口大小為5。

tmp2+=(0，1，2)表示以當(dāng)前詞為中心，考慮當(dāng)前詞的后兩個(gè)詞，即窗口大小為3。

其中，tmp2-與tmp2+同樣是非對(duì)稱(chēng)模板。

3.模板三的定義：

tmp3=(-3，-2，-1，0，1，2，3)表示以當(dāng)前詞為中心，考慮當(dāng)前詞的前、后各三個(gè)詞，即窗口大小為7。由于評(píng)論中的言語(yǔ)一般比較簡(jiǎn)潔，很少有長(zhǎng)度超過(guò)7的評(píng)價(jià)對(duì)象，因此，這里就只驗(yàn)證對(duì)稱(chēng)模板這種形式。

以tmp1模板、tmp2模板與tmp3模板為例，具體的定義如表1、表2及表3所示。依此類(lèi)推。

表1 tmp1模板定義

表2 tmp2模板定義

表3 tmp3模板定義

以上是對(duì)tmp1模板、tmp2模板與tmp3模板的定義，tmp1-、tmp1+、tmp2-、tmp2+的定義與其類(lèi)似。

三、實(shí)驗(yàn)設(shè)置

本文的對(duì)比實(shí)驗(yàn)采用Jakob[6]的方法，因此選用了與其相同的數(shù)據(jù)集，對(duì)三個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。選用了DarmstadtServiceReviewCorpus(DSRC)數(shù)據(jù)集(http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/)的“服務(wù)”數(shù)據(jù)集234篇，“大學(xué)”數(shù)據(jù)集256篇，TheInternetMovieDatabase(IMDb)數(shù)據(jù)集(http://www.imdb.com/)的“電影”領(lǐng)域的評(píng)論1829篇。

本文的對(duì)比實(shí)驗(yàn)內(nèi)容主要為Jakob文中的5個(gè)特征——已有特征，分別是詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征。在已有特征的基礎(chǔ)上，通過(guò)深入分析句子的句法結(jié)構(gòu)，加入了情感詞特征、依存關(guān)系特征及依存關(guān)系詞特征，并結(jié)合相應(yīng)的模板來(lái)驗(yàn)證特征的選擇對(duì)評(píng)價(jià)對(duì)象抽取的性能影響。具體的特征定義如下：

特征一：詞特征(tk)，指詞本身。

特征二：詞性特征(pos)，指該詞所對(duì)應(yīng)的詞性。

特征三：最短依存路徑(dLn)，該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞有直接依存關(guān)系的詞，若是，則記為1；反之，記為0。

特征四：最短詞距離特征(wDs)，該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞最近的名詞，若是，則記為1；反之，記為0。

特征五：主觀句特征(sSn)，該特征為布爾型特征。用于判斷當(dāng)前詞所在的句子是否是主觀句，若是，則記為1；反之，記為0。

特征六：情感詞特征(stWord)，該特征為布爾型特征。用于判斷當(dāng)前詞是否為情感詞，若是，則記為1；反之，記為0。

特征七：依存關(guān)系特征(tkRel)，表示與當(dāng)前詞有依存關(guān)系的詞的依存標(biāo)簽。

特征八：依存關(guān)系詞特征(rWord)，表示與當(dāng)前詞有直接依存關(guān)系的詞。

在評(píng)價(jià)方式上，本文選用信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo)：準(zhǔn)確率P、召回率R和F值。

為測(cè)試系統(tǒng)性能的準(zhǔn)確性，本文選用十折交叉驗(yàn)證的方式，將特征提取后的結(jié)果分為十份，隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù)并與相應(yīng)的模板一起輸入到CRF模塊中訓(xùn)練成模型，用模型來(lái)標(biāo)識(shí)一份測(cè)試數(shù)據(jù)，以上過(guò)程重復(fù)十次，取十次結(jié)果的平均值作為最終的評(píng)價(jià)結(jié)果。

四、評(píng)價(jià)對(duì)象抽取在不同模板上的性能分析

本文首先在三個(gè)英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，在選取相同特征、相同領(lǐng)域和不同模板的條件下，以選取性能最佳的模板。

在特征選取上，已有特征的組合：詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征的組合；全部特征的組合：詞特征、詞性特征、最短依存路徑特征、最短詞距離特征、主觀句特征、情感詞特征、依存關(guān)系特征和依存關(guān)系詞特征的組合。

在模板的選取上，在三個(gè)領(lǐng)域“服務(wù)”“大學(xué)”和“電影”的數(shù)據(jù)集上，分別驗(yàn)證在tmp1-、tmp1、tmp1+、tmp2-、tmp2、tmp2+及tmp3模板上的評(píng)價(jià)對(duì)象抽取性能。具體的性能變化曲線圖如圖1、2、3所示。

圖1 “服務(wù)”數(shù)據(jù)集上模板性能的驗(yàn)證

圖2 “大學(xué)”數(shù)據(jù)集上模板性能的驗(yàn)證

其中，X軸代表選用的模板，Y軸代表F值，用于衡量實(shí)驗(yàn)的性能。

圖3 “電影”數(shù)據(jù)集上模板性能的驗(yàn)證

從圖1、2和3的性能曲線看出，全部特征的性能要優(yōu)于已有特征；在三個(gè)數(shù)據(jù)集上，tmp1模板的系統(tǒng)性能最好，要優(yōu)于tmp2與tmp3模板的性能。并且tmp1模板的性能要優(yōu)于tmp1-與tmp1+模板，即選用窗口大小為(-1,0,1)的性能最好，優(yōu)于窗口大小為(-1,0)與(0,1)大小的模板；tmp2模板的性能要優(yōu)于tmp2-與tmp2+模板，即選用窗口大小為(-2,-1,0,1,2)的性能最好，優(yōu)于窗口大小為(-2,-1,0)與(0,1,2)大小的模板。由此驗(yàn)證了對(duì)稱(chēng)模板的性能要優(yōu)于非對(duì)稱(chēng)模板，且考慮當(dāng)前詞的前后各一個(gè)詞的模板(tmp1模板)能夠取得更好的性能。

以上三組實(shí)驗(yàn)均是以特征和領(lǐng)域?yàn)椴蛔兞浚０鍨樽兞窟M(jìn)行的實(shí)驗(yàn)，tmp1模板的性能要優(yōu)于其他模板，tmp1模板的窗口為(-1,0,1)，是以當(dāng)前詞為中心，同時(shí)考慮當(dāng)前詞的前后各一個(gè)詞，即評(píng)價(jià)對(duì)象的長(zhǎng)度在3以?xún)?nèi)；而在網(wǎng)絡(luò)評(píng)論中，有一些特殊的評(píng)價(jià)對(duì)象的長(zhǎng)度大于3，這樣的評(píng)價(jià)對(duì)象可由tmp3模板(窗口大小為7)獲取到，但大多數(shù)評(píng)價(jià)對(duì)象的長(zhǎng)度不會(huì)超過(guò)7，因此，窗口過(guò)大可能會(huì)引入不相關(guān)的詞語(yǔ)，同時(shí)也會(huì)降低系統(tǒng)的運(yùn)行效率與性能。

為準(zhǔn)確有效地抽取評(píng)價(jià)對(duì)象，本文在不同模板上進(jìn)行了性能分析，以當(dāng)前詞為中心，考慮當(dāng)前詞前后各3個(gè)詞的7種窗口大小的模板，經(jīng)實(shí)驗(yàn)驗(yàn)證了窗口大小為3的模板抽取評(píng)價(jià)對(duì)象的效果最好，即考慮當(dāng)前詞及當(dāng)前詞前后各1個(gè)詞。

在今后的后續(xù)研究中，繼續(xù)探索更為有效的特征以提高評(píng)價(jià)對(duì)象識(shí)別的精度，為情感分析的上層任務(wù)服務(wù)；面對(duì)中文評(píng)論的不規(guī)范性和復(fù)雜性，將引入語(yǔ)義因素，根據(jù)上下文語(yǔ)義來(lái)識(shí)別評(píng)價(jià)對(duì)象；也可考慮評(píng)論相關(guān)度[7]，獲取更多有用的信息，并探索適合中文的自然語(yǔ)言處理工具，以減少由分詞、詞性標(biāo)注、句法分析錯(cuò)誤而帶來(lái)的誤差，將成為下一步工作的努力方向。

[1]趙妍妍，秦兵，劉挺.文本情感分析[J].軟件學(xué)報(bào)，2010(8)．

[2]KesslerJ，NicolovN．TargetingSentimentExpressionsthroughSupervisedRankingofLinguisticConfigurations[C]．Proc．oftheThirdInternationalAAAIConferenceonWeblogsandSocialMedia．2009．90-97．

[3]YangB，CardieC．JointInferenceforFine-grainedOpinionExtraction[C].Proc.ofACL.2013．

[4]WilsonT，HoffmannP，SomasundaranS.Opinionfinder：ASystemforSubjectivityAnalysis[C].Proc.ofHLT/EMNLP.2005.34-35．

[5]LinW，WilsonT，WiebeJ．WhichSideAreYouOn?IdentifyingPerspectivesattheDocumentandSentenceLevels[C]．Proc．oftheTenthConferenceonComputationalNaturalLanguageLearning(Coling)．USA：AssociationforComputationalLinguistics，2006．109-116．

[6]JakobN，GurevychI．ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditionalRandomFields[C].Proc.ofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).USA：AssociationforComputationalLinguistics，2010.1035-1045．

[7]WangJ，YanZ．Anapproachtorankreviewsbyfusingandminingopinionbasedonreviewpertinence[J].InformationFusion，2015：3-15．

責(zé)任編輯：郭一鶴

TP181

1671-6531（2017）04-0038-04

楊云/長(zhǎng)春教育學(xué)院信息技術(shù)教育部助教，碩士（吉林長(zhǎng)春130061）。

基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法在不同模板上的性能分析

一、相關(guān)知識(shí)介紹

二、模板定義

三、實(shí)驗(yàn)設(shè)置

四、評(píng)價(jià)對(duì)象抽取在不同模板上的性能分析

一、相關(guān)知識(shí)介紹

二、模板定義

三、實(shí)驗(yàn)設(shè)置

四、評(píng)價(jià)對(duì)象抽取在不同模板上的性能分析