• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法在不同模板上的性能分析

      2017-06-06 11:54:24楊云
      關(guān)鍵詞:定義對(duì)象模板

      楊云

      基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法在不同模板上的性能分析

      楊云

      文本情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究課題,主要是對(duì)網(wǎng)絡(luò)上的主觀性文本信息(如評(píng)論,微博等)進(jìn)行處理。評(píng)價(jià)對(duì)象抽取是文本情感分析的重要組成部分,目的是抽取出主觀性文本中每句話所描述的實(shí)體及其屬性,以便為情感分析的其他任務(wù)提供幫助。本文通過(guò)深入分析經(jīng)預(yù)處理后句子的句法結(jié)構(gòu),在已有特征上加入了三種特征,并分析在不同窗口大小下的模板性能,選擇性能最佳的模板以抽取更為準(zhǔn)確的評(píng)價(jià)對(duì)象。

      句法結(jié)構(gòu);情感分析;評(píng)價(jià)對(duì)象;模板

      一、相關(guān)知識(shí)介紹

      文本情感分析[1]亦稱(chēng)評(píng)論挖掘,是把有情感色彩的主觀性文本進(jìn)行分析、處理和歸納的過(guò)程,是一個(gè)重要且有應(yīng)用價(jià)值的研究課題[2]。評(píng)價(jià)對(duì)象抽取[3][4][5]即抽取出該主觀句中所表達(dá)的中心思想,也就是說(shuō),抽取出該句中所表明的主題,如句子“昨天在京東買(mǎi)了一款手機(jī),它的像素還不錯(cuò)”中所要抽取的評(píng)價(jià)對(duì)象是“像素”。

      本文選用CRF模型的實(shí)現(xiàn)CRF++0.53工具包(http://taku910.github.io/crfpp/網(wǎng)站可供下載)作為序列標(biāo)記工具,用于標(biāo)記并識(shí)別評(píng)價(jià)對(duì)象。該工具的核心文件為crf_learn.exe與crf_test.exe,分別用于訓(xùn)練與識(shí)別。用于評(píng)價(jià)對(duì)象抽取的識(shí)別過(guò)程,是將特征提取后的結(jié)果與相應(yīng)的模板(根據(jù)需要自行定義)輸入到crf_learn.exe中訓(xùn)練,則會(huì)自動(dòng)生成模型(model);利用crf_test.exe文件,通過(guò)上步生成的model進(jìn)行標(biāo)記;最后將標(biāo)記為評(píng)價(jià)對(duì)象(B-tgt)的特征抽取出即可。

      句法分析是指分析句中的詞與詞之間的某種依存關(guān)系,即反映該句的句法結(jié)構(gòu)信息。在文本情感分析領(lǐng)域中,它主要針對(duì)主觀性文本進(jìn)行句法分析?,F(xiàn)有的句法分析工具主要有斯坦福大學(xué)開(kāi)發(fā)的Parser,McDonald的MSTParser及哈爾濱工業(yè)大學(xué)開(kāi)發(fā)的語(yǔ)言技術(shù)平臺(tái)——LTP。本文選用斯坦福的Parser進(jìn)行句法分析。在使用句法分析工具之前,應(yīng)先對(duì)原始語(yǔ)料進(jìn)行分詞處理,再把分詞后的結(jié)果輸入到句法分析工具中,得到分析結(jié)果。

      為驗(yàn)證算法的有效性,本文選用信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo)P、R、F作為評(píng)價(jià)對(duì)象抽取效果的驗(yàn)證指標(biāo),具體的如公式1、2和3所示。

      其中,P:準(zhǔn)確率,指識(shí)別正確的評(píng)價(jià)對(duì)象與系統(tǒng)檢索出的評(píng)價(jià)對(duì)象的比值;R:召回率,指識(shí)別正確的評(píng)價(jià)對(duì)象與實(shí)際正確的評(píng)價(jià)對(duì)象的比值;F:F值,指準(zhǔn)確率與召回率的調(diào)和平均值。

      另外,為進(jìn)一步減少實(shí)驗(yàn)的誤差,本文選用k折交叉驗(yàn)證的方式來(lái)確定最終的實(shí)驗(yàn)性能。將特征提取的結(jié)果隨機(jī)分成k份,隨機(jī)選取其中的k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為測(cè)試數(shù)據(jù);將k-1份訓(xùn)練數(shù)據(jù)訓(xùn)練成模型,再用模型來(lái)識(shí)別測(cè)試數(shù)據(jù);以上過(guò)程重復(fù)k次來(lái)確保結(jié)果更加精準(zhǔn)。對(duì)于k的取值,本文將k設(shè)為10。理論上折數(shù)越大測(cè)試的系統(tǒng)性能越準(zhǔn)確,當(dāng)折數(shù)達(dá)到十折,已足以讓系統(tǒng)性能達(dá)到最優(yōu)。因此,本文采用十折交叉驗(yàn)證的方式來(lái)驗(yàn)證系統(tǒng)性能的準(zhǔn)確性。

      要想更為準(zhǔn)確地抽取評(píng)價(jià)對(duì)象,選取窗口大小適宜的模板尤為重要。對(duì)此,本文在7種窗口大小的模板上進(jìn)行了實(shí)驗(yàn)與驗(yàn)證。

      二、模板定義

      模板反映了每句評(píng)論句中詞間的上下文信息。模板的選取對(duì)于實(shí)驗(yàn)的特征選取起著關(guān)鍵作用。模板用于控制詞之間的窗口大小,窗口過(guò)小,所包含信息過(guò)少,特征利用不全面,導(dǎo)致系統(tǒng)性能降低;窗口過(guò)大,引入了過(guò)多的信息,降低了運(yùn)行效率,實(shí)驗(yàn)效果也未必提高。

      定義:大小為2n+1的窗口:(w-n,w-(n-1),…,w0,…,wn-1,wn)。代表以當(dāng)前詞為中心,把窗口大小設(shè)定為前后各n個(gè)詞語(yǔ)。

      本文采用該定義方法來(lái)定義模板,模板的大小用于限定組成評(píng)價(jià)對(duì)象的詞語(yǔ)的數(shù)量,為探索性能最佳的模板,本文將探討當(dāng)窗口大小為2—7的系統(tǒng)性能變化。因?yàn)樵u(píng)價(jià)對(duì)象由單個(gè)詞或詞組組成,評(píng)價(jià)對(duì)象的長(zhǎng)度一般都不超過(guò)2,因此探討評(píng)價(jià)對(duì)象長(zhǎng)度在3以?xún)?nèi)的系統(tǒng)性能變化,即窗口大小為2—7。

      本文將模板定義成三類(lèi),以當(dāng)前詞為中心,考慮當(dāng)前詞的前后各一個(gè)詞、各兩個(gè)詞和各三個(gè)詞。具體定義如下:

      1.模板一可分以下三種情況:

      tmp1-=(-1,0)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前一個(gè)詞,即窗口大小為2。

      tmp1=(-1,0,1)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各一個(gè)詞,即窗口大小為3。

      tmp1+=(0,1)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的后一個(gè)詞,即窗口大小為2。

      其中,tmp1-與tmp1+主要反映了模板的非對(duì)稱(chēng)性,將用實(shí)驗(yàn)來(lái)驗(yàn)證模板一中的三個(gè)模板的性能。

      2.模板二的定義:

      tmp2-=(-2,-1,0)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前兩個(gè)詞,即窗口大小為3。

      tmp2=(-2,-1,0,1,2)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各兩個(gè)詞,即窗口大小為5。

      tmp2+=(0,1,2)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的后兩個(gè)詞,即窗口大小為3。

      其中,tmp2-與tmp2+同樣是非對(duì)稱(chēng)模板。

      3.模板三的定義:

      tmp3=(-3,-2,-1,0,1,2,3)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各三個(gè)詞,即窗口大小為7。由于評(píng)論中的言語(yǔ)一般比較簡(jiǎn)潔,很少有長(zhǎng)度超過(guò)7的評(píng)價(jià)對(duì)象,因此,這里就只驗(yàn)證對(duì)稱(chēng)模板這種形式。

      以tmp1模板、tmp2模板與tmp3模板為例,具體的定義如表1、表2及表3所示。依此類(lèi)推。

      表1 tmp1模板定義

      表2 tmp2模板定義

      表3 tmp3模板定義

      以上是對(duì)tmp1模板、tmp2模板與tmp3模板的定義,tmp1-、tmp1+、tmp2-、tmp2+的定義與其類(lèi)似。

      三、實(shí)驗(yàn)設(shè)置

      本文的對(duì)比實(shí)驗(yàn)采用Jakob[6]的方法,因此選用了與其相同的數(shù)據(jù)集,對(duì)三個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。選用了DarmstadtServiceReviewCorpus(DSRC)數(shù)據(jù)集(http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/)的“服務(wù)”數(shù)據(jù)集234篇,“大學(xué)”數(shù)據(jù)集256篇,TheInternetMovieDatabase(IMDb)數(shù)據(jù)集(http://www.imdb.com/)的“電影”領(lǐng)域的評(píng)論1829篇。

      本文的對(duì)比實(shí)驗(yàn)內(nèi)容主要為Jakob文中的5個(gè)特征——已有特征,分別是詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征。在已有特征的基礎(chǔ)上,通過(guò)深入分析句子的句法結(jié)構(gòu),加入了情感詞特征、依存關(guān)系特征及依存關(guān)系詞特征,并結(jié)合相應(yīng)的模板來(lái)驗(yàn)證特征的選擇對(duì)評(píng)價(jià)對(duì)象抽取的性能影響。具體的特征定義如下:

      特征一:詞特征(tk),指詞本身。

      特征二:詞性特征(pos),指該詞所對(duì)應(yīng)的詞性。

      特征三:最短依存路徑(dLn),該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞有直接依存關(guān)系的詞,若是,則記為1;反之,記為0。

      特征四:最短詞距離特征(wDs),該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞最近的名詞,若是,則記為1;反之,記為0。

      特征五:主觀句特征(sSn),該特征為布爾型特征。用于判斷當(dāng)前詞所在的句子是否是主觀句,若是,則記為1;反之,記為0。

      特征六:情感詞特征(stWord),該特征為布爾型特征。用于判斷當(dāng)前詞是否為情感詞,若是,則記為1;反之,記為0。

      特征七:依存關(guān)系特征(tkRel),表示與當(dāng)前詞有依存關(guān)系的詞的依存標(biāo)簽。

      特征八:依存關(guān)系詞特征(rWord),表示與當(dāng)前詞有直接依存關(guān)系的詞。

      在評(píng)價(jià)方式上,本文選用信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率P、召回率R和F值。

      為測(cè)試系統(tǒng)性能的準(zhǔn)確性,本文選用十折交叉驗(yàn)證的方式,將特征提取后的結(jié)果分為十份,隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù)并與相應(yīng)的模板一起輸入到CRF模塊中訓(xùn)練成模型,用模型來(lái)標(biāo)識(shí)一份測(cè)試數(shù)據(jù),以上過(guò)程重復(fù)十次,取十次結(jié)果的平均值作為最終的評(píng)價(jià)結(jié)果。

      四、評(píng)價(jià)對(duì)象抽取在不同模板上的性能分析

      本文首先在三個(gè)英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在選取相同特征、相同領(lǐng)域和不同模板的條件下,以選取性能最佳的模板。

      在特征選取上,已有特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征的組合;全部特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征、主觀句特征、情感詞特征、依存關(guān)系特征和依存關(guān)系詞特征的組合。

      在模板的選取上,在三個(gè)領(lǐng)域“服務(wù)”“大學(xué)”和“電影”的數(shù)據(jù)集上,分別驗(yàn)證在tmp1-、tmp1、tmp1+、tmp2-、tmp2、tmp2+及tmp3模板上的評(píng)價(jià)對(duì)象抽取性能。具體的性能變化曲線圖如圖1、2、3所示。

      圖1 “服務(wù)”數(shù)據(jù)集上模板性能的驗(yàn)證

      圖2 “大學(xué)”數(shù)據(jù)集上模板性能的驗(yàn)證

      其中,X軸代表選用的模板,Y軸代表F值,用于衡量實(shí)驗(yàn)的性能。

      圖3 “電影”數(shù)據(jù)集上模板性能的驗(yàn)證

      從圖1、2和3的性能曲線看出,全部特征的性能要優(yōu)于已有特征;在三個(gè)數(shù)據(jù)集上,tmp1模板的系統(tǒng)性能最好,要優(yōu)于tmp2與tmp3模板的性能。并且tmp1模板的性能要優(yōu)于tmp1-與tmp1+模板,即選用窗口大小為(-1,0,1)的性能最好,優(yōu)于窗口大小為(-1,0)與(0,1)大小的模板;tmp2模板的性能要優(yōu)于tmp2-與tmp2+模板,即選用窗口大小為(-2,-1,0,1,2)的性能最好,優(yōu)于窗口大小為(-2,-1,0)與(0,1,2)大小的模板。由此驗(yàn)證了對(duì)稱(chēng)模板的性能要優(yōu)于非對(duì)稱(chēng)模板,且考慮當(dāng)前詞的前后各一個(gè)詞的模板(tmp1模板)能夠取得更好的性能。

      以上三組實(shí)驗(yàn)均是以特征和領(lǐng)域?yàn)椴蛔兞浚0鍨樽兞窟M(jìn)行的實(shí)驗(yàn),tmp1模板的性能要優(yōu)于其他模板,tmp1模板的窗口為(-1,0,1),是以當(dāng)前詞為中心,同時(shí)考慮當(dāng)前詞的前后各一個(gè)詞,即評(píng)價(jià)對(duì)象的長(zhǎng)度在3以?xún)?nèi);而在網(wǎng)絡(luò)評(píng)論中,有一些特殊的評(píng)價(jià)對(duì)象的長(zhǎng)度大于3,這樣的評(píng)價(jià)對(duì)象可由tmp3模板(窗口大小為7)獲取到,但大多數(shù)評(píng)價(jià)對(duì)象的長(zhǎng)度不會(huì)超過(guò)7,因此,窗口過(guò)大可能會(huì)引入不相關(guān)的詞語(yǔ),同時(shí)也會(huì)降低系統(tǒng)的運(yùn)行效率與性能。

      為準(zhǔn)確有效地抽取評(píng)價(jià)對(duì)象,本文在不同模板上進(jìn)行了性能分析,以當(dāng)前詞為中心,考慮當(dāng)前詞前后各3個(gè)詞的7種窗口大小的模板,經(jīng)實(shí)驗(yàn)驗(yàn)證了窗口大小為3的模板抽取評(píng)價(jià)對(duì)象的效果最好,即考慮當(dāng)前詞及當(dāng)前詞前后各1個(gè)詞。

      在今后的后續(xù)研究中,繼續(xù)探索更為有效的特征以提高評(píng)價(jià)對(duì)象識(shí)別的精度,為情感分析的上層任務(wù)服務(wù);面對(duì)中文評(píng)論的不規(guī)范性和復(fù)雜性,將引入語(yǔ)義因素,根據(jù)上下文語(yǔ)義來(lái)識(shí)別評(píng)價(jià)對(duì)象;也可考慮評(píng)論相關(guān)度[7],獲取更多有用的信息,并探索適合中文的自然語(yǔ)言處理工具,以減少由分詞、詞性標(biāo)注、句法分析錯(cuò)誤而帶來(lái)的誤差,將成為下一步工作的努力方向。

      [1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010(8).

      [2]KesslerJ,NicolovN.TargetingSentimentExpressionsthroughSupervisedRankingofLinguisticConfigurations[C].Proc.oftheThirdInternationalAAAIConferenceonWeblogsandSocialMedia.2009.90-97.

      [3]YangB,CardieC.JointInferenceforFine-grainedOpinionExtraction[C].Proc.ofACL.2013.

      [4]WilsonT,HoffmannP,SomasundaranS.Opinionfinder:ASystemforSubjectivityAnalysis[C].Proc.ofHLT/EMNLP.2005.34-35.

      [5]LinW,WilsonT,WiebeJ.WhichSideAreYouOn?IdentifyingPerspectivesattheDocumentandSentenceLevels[C].Proc.oftheTenthConferenceonComputationalNaturalLanguageLearning(Coling).USA:AssociationforComputationalLinguistics,2006.109-116.

      [6]JakobN,GurevychI.ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditionalRandomFields[C].Proc.ofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).USA:AssociationforComputationalLinguistics,2010.1035-1045.

      [7]WangJ,YanZ.Anapproachtorankreviewsbyfusingandminingopinionbasedonreviewpertinence[J].InformationFusion,2015:3-15.

      責(zé)任編輯:郭一鶴

      TP181

      A

      1671-6531(2017)04-0038-04

      楊云/長(zhǎng)春教育學(xué)院信息技術(shù)教育部助教,碩士(吉林長(zhǎng)春130061)。

      猜你喜歡
      定義對(duì)象模板
      神秘來(lái)電
      睿士(2023年2期)2023-03-02 02:01:09
      鋁模板在高層建筑施工中的應(yīng)用
      鋁模板在高層建筑施工中的應(yīng)用
      攻略對(duì)象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
      成功的定義
      山東青年(2016年1期)2016-02-28 14:25:25
      區(qū)間對(duì)象族的可鎮(zhèn)定性分析
      鋁模板在高層建筑施工中的應(yīng)用
      城市綜改 可推廣的模板較少
      修辭學(xué)的重大定義
      金湖县| 安岳县| 五寨县| 信丰县| 德阳市| 泸水县| 江永县| 东光县| 额敏县| 宁化县| 体育| 息烽县| 清原| 确山县| 灵武市| 应城市| 巴青县| 山东省| 高碑店市| 达拉特旗| 大渡口区| 平遥县| 太谷县| 新巴尔虎右旗| 邳州市| 织金县| 大方县| 大化| 西丰县| 肥西县| 汝南县| 鄯善县| 通化市| 德清县| 灵石县| 教育| 宁安市| 丘北县| 常州市| 兴仁县| 林甸县|