楊云
基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法在不同模板上的性能分析
楊云
文本情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究課題,主要是對(duì)網(wǎng)絡(luò)上的主觀性文本信息(如評(píng)論,微博等)進(jìn)行處理。評(píng)價(jià)對(duì)象抽取是文本情感分析的重要組成部分,目的是抽取出主觀性文本中每句話所描述的實(shí)體及其屬性,以便為情感分析的其他任務(wù)提供幫助。本文通過(guò)深入分析經(jīng)預(yù)處理后句子的句法結(jié)構(gòu),在已有特征上加入了三種特征,并分析在不同窗口大小下的模板性能,選擇性能最佳的模板以抽取更為準(zhǔn)確的評(píng)價(jià)對(duì)象。
句法結(jié)構(gòu);情感分析;評(píng)價(jià)對(duì)象;模板
文本情感分析[1]亦稱(chēng)評(píng)論挖掘,是把有情感色彩的主觀性文本進(jìn)行分析、處理和歸納的過(guò)程,是一個(gè)重要且有應(yīng)用價(jià)值的研究課題[2]。評(píng)價(jià)對(duì)象抽取[3][4][5]即抽取出該主觀句中所表達(dá)的中心思想,也就是說(shuō),抽取出該句中所表明的主題,如句子“昨天在京東買(mǎi)了一款手機(jī),它的像素還不錯(cuò)”中所要抽取的評(píng)價(jià)對(duì)象是“像素”。
本文選用CRF模型的實(shí)現(xiàn)CRF++0.53工具包(http://taku910.github.io/crfpp/網(wǎng)站可供下載)作為序列標(biāo)記工具,用于標(biāo)記并識(shí)別評(píng)價(jià)對(duì)象。該工具的核心文件為crf_learn.exe與crf_test.exe,分別用于訓(xùn)練與識(shí)別。用于評(píng)價(jià)對(duì)象抽取的識(shí)別過(guò)程,是將特征提取后的結(jié)果與相應(yīng)的模板(根據(jù)需要自行定義)輸入到crf_learn.exe中訓(xùn)練,則會(huì)自動(dòng)生成模型(model);利用crf_test.exe文件,通過(guò)上步生成的model進(jìn)行標(biāo)記;最后將標(biāo)記為評(píng)價(jià)對(duì)象(B-tgt)的特征抽取出即可。
句法分析是指分析句中的詞與詞之間的某種依存關(guān)系,即反映該句的句法結(jié)構(gòu)信息。在文本情感分析領(lǐng)域中,它主要針對(duì)主觀性文本進(jìn)行句法分析?,F(xiàn)有的句法分析工具主要有斯坦福大學(xué)開(kāi)發(fā)的Parser,McDonald的MSTParser及哈爾濱工業(yè)大學(xué)開(kāi)發(fā)的語(yǔ)言技術(shù)平臺(tái)——LTP。本文選用斯坦福的Parser進(jìn)行句法分析。在使用句法分析工具之前,應(yīng)先對(duì)原始語(yǔ)料進(jìn)行分詞處理,再把分詞后的結(jié)果輸入到句法分析工具中,得到分析結(jié)果。
為驗(yàn)證算法的有效性,本文選用信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo)P、R、F作為評(píng)價(jià)對(duì)象抽取效果的驗(yàn)證指標(biāo),具體的如公式1、2和3所示。
其中,P:準(zhǔn)確率,指識(shí)別正確的評(píng)價(jià)對(duì)象與系統(tǒng)檢索出的評(píng)價(jià)對(duì)象的比值;R:召回率,指識(shí)別正確的評(píng)價(jià)對(duì)象與實(shí)際正確的評(píng)價(jià)對(duì)象的比值;F:F值,指準(zhǔn)確率與召回率的調(diào)和平均值。
另外,為進(jìn)一步減少實(shí)驗(yàn)的誤差,本文選用k折交叉驗(yàn)證的方式來(lái)確定最終的實(shí)驗(yàn)性能。將特征提取的結(jié)果隨機(jī)分成k份,隨機(jī)選取其中的k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為測(cè)試數(shù)據(jù);將k-1份訓(xùn)練數(shù)據(jù)訓(xùn)練成模型,再用模型來(lái)識(shí)別測(cè)試數(shù)據(jù);以上過(guò)程重復(fù)k次來(lái)確保結(jié)果更加精準(zhǔn)。對(duì)于k的取值,本文將k設(shè)為10。理論上折數(shù)越大測(cè)試的系統(tǒng)性能越準(zhǔn)確,當(dāng)折數(shù)達(dá)到十折,已足以讓系統(tǒng)性能達(dá)到最優(yōu)。因此,本文采用十折交叉驗(yàn)證的方式來(lái)驗(yàn)證系統(tǒng)性能的準(zhǔn)確性。
要想更為準(zhǔn)確地抽取評(píng)價(jià)對(duì)象,選取窗口大小適宜的模板尤為重要。對(duì)此,本文在7種窗口大小的模板上進(jìn)行了實(shí)驗(yàn)與驗(yàn)證。
模板反映了每句評(píng)論句中詞間的上下文信息。模板的選取對(duì)于實(shí)驗(yàn)的特征選取起著關(guān)鍵作用。模板用于控制詞之間的窗口大小,窗口過(guò)小,所包含信息過(guò)少,特征利用不全面,導(dǎo)致系統(tǒng)性能降低;窗口過(guò)大,引入了過(guò)多的信息,降低了運(yùn)行效率,實(shí)驗(yàn)效果也未必提高。
定義:大小為2n+1的窗口:(w-n,w-(n-1),…,w0,…,wn-1,wn)。代表以當(dāng)前詞為中心,把窗口大小設(shè)定為前后各n個(gè)詞語(yǔ)。
本文采用該定義方法來(lái)定義模板,模板的大小用于限定組成評(píng)價(jià)對(duì)象的詞語(yǔ)的數(shù)量,為探索性能最佳的模板,本文將探討當(dāng)窗口大小為2—7的系統(tǒng)性能變化。因?yàn)樵u(píng)價(jià)對(duì)象由單個(gè)詞或詞組組成,評(píng)價(jià)對(duì)象的長(zhǎng)度一般都不超過(guò)2,因此探討評(píng)價(jià)對(duì)象長(zhǎng)度在3以?xún)?nèi)的系統(tǒng)性能變化,即窗口大小為2—7。
本文將模板定義成三類(lèi),以當(dāng)前詞為中心,考慮當(dāng)前詞的前后各一個(gè)詞、各兩個(gè)詞和各三個(gè)詞。具體定義如下:
1.模板一可分以下三種情況:
tmp1-=(-1,0)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前一個(gè)詞,即窗口大小為2。
tmp1=(-1,0,1)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各一個(gè)詞,即窗口大小為3。
tmp1+=(0,1)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的后一個(gè)詞,即窗口大小為2。
其中,tmp1-與tmp1+主要反映了模板的非對(duì)稱(chēng)性,將用實(shí)驗(yàn)來(lái)驗(yàn)證模板一中的三個(gè)模板的性能。
2.模板二的定義:
tmp2-=(-2,-1,0)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前兩個(gè)詞,即窗口大小為3。
tmp2=(-2,-1,0,1,2)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各兩個(gè)詞,即窗口大小為5。
tmp2+=(0,1,2)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的后兩個(gè)詞,即窗口大小為3。
其中,tmp2-與tmp2+同樣是非對(duì)稱(chēng)模板。
3.模板三的定義:
tmp3=(-3,-2,-1,0,1,2,3)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各三個(gè)詞,即窗口大小為7。由于評(píng)論中的言語(yǔ)一般比較簡(jiǎn)潔,很少有長(zhǎng)度超過(guò)7的評(píng)價(jià)對(duì)象,因此,這里就只驗(yàn)證對(duì)稱(chēng)模板這種形式。
以tmp1模板、tmp2模板與tmp3模板為例,具體的定義如表1、表2及表3所示。依此類(lèi)推。
表1 tmp1模板定義
表2 tmp2模板定義
表3 tmp3模板定義
以上是對(duì)tmp1模板、tmp2模板與tmp3模板的定義,tmp1-、tmp1+、tmp2-、tmp2+的定義與其類(lèi)似。
本文的對(duì)比實(shí)驗(yàn)采用Jakob[6]的方法,因此選用了與其相同的數(shù)據(jù)集,對(duì)三個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。選用了DarmstadtServiceReviewCorpus(DSRC)數(shù)據(jù)集(http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/)的“服務(wù)”數(shù)據(jù)集234篇,“大學(xué)”數(shù)據(jù)集256篇,TheInternetMovieDatabase(IMDb)數(shù)據(jù)集(http://www.imdb.com/)的“電影”領(lǐng)域的評(píng)論1829篇。
本文的對(duì)比實(shí)驗(yàn)內(nèi)容主要為Jakob文中的5個(gè)特征——已有特征,分別是詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征。在已有特征的基礎(chǔ)上,通過(guò)深入分析句子的句法結(jié)構(gòu),加入了情感詞特征、依存關(guān)系特征及依存關(guān)系詞特征,并結(jié)合相應(yīng)的模板來(lái)驗(yàn)證特征的選擇對(duì)評(píng)價(jià)對(duì)象抽取的性能影響。具體的特征定義如下:
特征一:詞特征(tk),指詞本身。
特征二:詞性特征(pos),指該詞所對(duì)應(yīng)的詞性。
特征三:最短依存路徑(dLn),該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞有直接依存關(guān)系的詞,若是,則記為1;反之,記為0。
特征四:最短詞距離特征(wDs),該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞最近的名詞,若是,則記為1;反之,記為0。
特征五:主觀句特征(sSn),該特征為布爾型特征。用于判斷當(dāng)前詞所在的句子是否是主觀句,若是,則記為1;反之,記為0。
特征六:情感詞特征(stWord),該特征為布爾型特征。用于判斷當(dāng)前詞是否為情感詞,若是,則記為1;反之,記為0。
特征七:依存關(guān)系特征(tkRel),表示與當(dāng)前詞有依存關(guān)系的詞的依存標(biāo)簽。
特征八:依存關(guān)系詞特征(rWord),表示與當(dāng)前詞有直接依存關(guān)系的詞。
在評(píng)價(jià)方式上,本文選用信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率P、召回率R和F值。
為測(cè)試系統(tǒng)性能的準(zhǔn)確性,本文選用十折交叉驗(yàn)證的方式,將特征提取后的結(jié)果分為十份,隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù)并與相應(yīng)的模板一起輸入到CRF模塊中訓(xùn)練成模型,用模型來(lái)標(biāo)識(shí)一份測(cè)試數(shù)據(jù),以上過(guò)程重復(fù)十次,取十次結(jié)果的平均值作為最終的評(píng)價(jià)結(jié)果。
本文首先在三個(gè)英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在選取相同特征、相同領(lǐng)域和不同模板的條件下,以選取性能最佳的模板。
在特征選取上,已有特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征的組合;全部特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征、主觀句特征、情感詞特征、依存關(guān)系特征和依存關(guān)系詞特征的組合。
在模板的選取上,在三個(gè)領(lǐng)域“服務(wù)”“大學(xué)”和“電影”的數(shù)據(jù)集上,分別驗(yàn)證在tmp1-、tmp1、tmp1+、tmp2-、tmp2、tmp2+及tmp3模板上的評(píng)價(jià)對(duì)象抽取性能。具體的性能變化曲線圖如圖1、2、3所示。
圖1 “服務(wù)”數(shù)據(jù)集上模板性能的驗(yàn)證
圖2 “大學(xué)”數(shù)據(jù)集上模板性能的驗(yàn)證
其中,X軸代表選用的模板,Y軸代表F值,用于衡量實(shí)驗(yàn)的性能。
圖3 “電影”數(shù)據(jù)集上模板性能的驗(yàn)證
從圖1、2和3的性能曲線看出,全部特征的性能要優(yōu)于已有特征;在三個(gè)數(shù)據(jù)集上,tmp1模板的系統(tǒng)性能最好,要優(yōu)于tmp2與tmp3模板的性能。并且tmp1模板的性能要優(yōu)于tmp1-與tmp1+模板,即選用窗口大小為(-1,0,1)的性能最好,優(yōu)于窗口大小為(-1,0)與(0,1)大小的模板;tmp2模板的性能要優(yōu)于tmp2-與tmp2+模板,即選用窗口大小為(-2,-1,0,1,2)的性能最好,優(yōu)于窗口大小為(-2,-1,0)與(0,1,2)大小的模板。由此驗(yàn)證了對(duì)稱(chēng)模板的性能要優(yōu)于非對(duì)稱(chēng)模板,且考慮當(dāng)前詞的前后各一個(gè)詞的模板(tmp1模板)能夠取得更好的性能。
以上三組實(shí)驗(yàn)均是以特征和領(lǐng)域?yàn)椴蛔兞浚0鍨樽兞窟M(jìn)行的實(shí)驗(yàn),tmp1模板的性能要優(yōu)于其他模板,tmp1模板的窗口為(-1,0,1),是以當(dāng)前詞為中心,同時(shí)考慮當(dāng)前詞的前后各一個(gè)詞,即評(píng)價(jià)對(duì)象的長(zhǎng)度在3以?xún)?nèi);而在網(wǎng)絡(luò)評(píng)論中,有一些特殊的評(píng)價(jià)對(duì)象的長(zhǎng)度大于3,這樣的評(píng)價(jià)對(duì)象可由tmp3模板(窗口大小為7)獲取到,但大多數(shù)評(píng)價(jià)對(duì)象的長(zhǎng)度不會(huì)超過(guò)7,因此,窗口過(guò)大可能會(huì)引入不相關(guān)的詞語(yǔ),同時(shí)也會(huì)降低系統(tǒng)的運(yùn)行效率與性能。
為準(zhǔn)確有效地抽取評(píng)價(jià)對(duì)象,本文在不同模板上進(jìn)行了性能分析,以當(dāng)前詞為中心,考慮當(dāng)前詞前后各3個(gè)詞的7種窗口大小的模板,經(jīng)實(shí)驗(yàn)驗(yàn)證了窗口大小為3的模板抽取評(píng)價(jià)對(duì)象的效果最好,即考慮當(dāng)前詞及當(dāng)前詞前后各1個(gè)詞。
在今后的后續(xù)研究中,繼續(xù)探索更為有效的特征以提高評(píng)價(jià)對(duì)象識(shí)別的精度,為情感分析的上層任務(wù)服務(wù);面對(duì)中文評(píng)論的不規(guī)范性和復(fù)雜性,將引入語(yǔ)義因素,根據(jù)上下文語(yǔ)義來(lái)識(shí)別評(píng)價(jià)對(duì)象;也可考慮評(píng)論相關(guān)度[7],獲取更多有用的信息,并探索適合中文的自然語(yǔ)言處理工具,以減少由分詞、詞性標(biāo)注、句法分析錯(cuò)誤而帶來(lái)的誤差,將成為下一步工作的努力方向。
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010(8).
[2]KesslerJ,NicolovN.TargetingSentimentExpressionsthroughSupervisedRankingofLinguisticConfigurations[C].Proc.oftheThirdInternationalAAAIConferenceonWeblogsandSocialMedia.2009.90-97.
[3]YangB,CardieC.JointInferenceforFine-grainedOpinionExtraction[C].Proc.ofACL.2013.
[4]WilsonT,HoffmannP,SomasundaranS.Opinionfinder:ASystemforSubjectivityAnalysis[C].Proc.ofHLT/EMNLP.2005.34-35.
[5]LinW,WilsonT,WiebeJ.WhichSideAreYouOn?IdentifyingPerspectivesattheDocumentandSentenceLevels[C].Proc.oftheTenthConferenceonComputationalNaturalLanguageLearning(Coling).USA:AssociationforComputationalLinguistics,2006.109-116.
[6]JakobN,GurevychI.ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditionalRandomFields[C].Proc.ofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).USA:AssociationforComputationalLinguistics,2010.1035-1045.
[7]WangJ,YanZ.Anapproachtorankreviewsbyfusingandminingopinionbasedonreviewpertinence[J].InformationFusion,2015:3-15.
責(zé)任編輯:郭一鶴
TP181
A
1671-6531(2017)04-0038-04
楊云/長(zhǎng)春教育學(xué)院信息技術(shù)教育部助教,碩士(吉林長(zhǎng)春130061)。