• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法研究

      2017-07-03 16:16:07楊云
      關(guān)鍵詞:句法結(jié)構(gòu)對(duì)象模板

      楊云

      基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法研究

      楊云

      文本情感分析是自然語(yǔ)言處理領(lǐng)域的重要研究問(wèn)題。本文主要對(duì)文本情感分析的底層任務(wù)——情感信息抽取中的評(píng)價(jià)對(duì)象抽取進(jìn)行研究,為情感分析的上層任務(wù)提供服務(wù)。對(duì)預(yù)處理后的結(jié)果進(jìn)行特征提取,再將特征提取的結(jié)果與相應(yīng)模板輸入CRF(Conditional Random Field)模型進(jìn)行訓(xùn)練與識(shí)別。在特征提取上,通過(guò)深入分析句法結(jié)構(gòu),在已有特征的基礎(chǔ)上加入了三種特征。在模板上,在多種窗口大小的模板上進(jìn)行了對(duì)比實(shí)驗(yàn),選取性能好的模板。實(shí)驗(yàn)結(jié)果驗(yàn)證了此方法的有效性、系統(tǒng)性能均優(yōu)于基線實(shí)驗(yàn)且能為準(zhǔn)確地抽取評(píng)價(jià)對(duì)象。

      句法結(jié)構(gòu);情感分析;評(píng)價(jià)對(duì)象;CRF模型

      文本情感分析亦稱意見(jiàn)挖掘,主要是對(duì)具有感情色彩的主觀性文本進(jìn)行分析、處理、歸納的過(guò)程,是一個(gè)重要且有應(yīng)用價(jià)值的研究課題[1]。文本情感分析主要有三項(xiàng)遞進(jìn)的研究任務(wù):情感信息抽取、情感信息分類和情感信息的檢索與歸納。情感信息抽取中的評(píng)價(jià)對(duì)象抽取是抽取出評(píng)論中所討論的主題,為情感分析任務(wù)提供幫助。

      一、國(guó)內(nèi)外研究現(xiàn)狀

      現(xiàn)有的評(píng)價(jià)對(duì)象抽取方法分為基于規(guī)則/模板和基于統(tǒng)計(jì)的方法?;谝?guī)則/模板有:H u和L i u[2]最先提出評(píng)價(jià)對(duì)象抽取的問(wèn)題,使用關(guān)聯(lián)規(guī)則挖掘算法來(lái)抽取評(píng)價(jià)對(duì)象,認(rèn)為出現(xiàn)頻率較高的名詞是評(píng)價(jià)對(duì)象。Popescu[3]等人通過(guò)定義抽取規(guī)則和規(guī)則模板來(lái)抽取潛在產(chǎn)品特征,并判斷評(píng)價(jià)短語(yǔ)的極性。Zhuang[4]等人通過(guò)定義電影特征、相關(guān)特征的評(píng)價(jià)詞語(yǔ)和特征—評(píng)價(jià)短語(yǔ)對(duì)來(lái)挖掘電影評(píng)論中的顯性特征和部分符合定義規(guī)則的隱性特征。Scaffidi[5]等人通過(guò)抽取特征術(shù)語(yǔ)和排序產(chǎn)品特征來(lái)快速定位用戶所需的產(chǎn)品,從而完成產(chǎn)品特征—評(píng)價(jià)對(duì)象的抽取。趙妍妍[6]等人通過(guò)統(tǒng)計(jì)句中出現(xiàn)頻繁的句法路徑,并對(duì)句法路徑進(jìn)行進(jìn)一步泛化,使用基于句法路徑精確匹配和基于編輯距離的方法來(lái)識(shí)別情感評(píng)價(jià)單元?;诮y(tǒng)計(jì)的方法主要有:Jakob和Gurevych[7]將評(píng)價(jià)對(duì)象抽取任務(wù)建模成序列標(biāo)記任務(wù),使用C R F模型[8]來(lái)標(biāo)記評(píng)價(jià)對(duì)象。L i u[9]等人使用基于詞的翻譯模型(Word-based Translation Model)的評(píng)價(jià)對(duì)象抽取方法,能夠捕獲大跨度的評(píng)價(jià)關(guān)系。L i u[10]等人在W T M方法的基礎(chǔ)上進(jìn)行了改進(jìn),提出了基于部分監(jiān)督詞對(duì)齊模型(PartiallySupervised Word Alignment Model, PSWAM)的評(píng)價(jià)對(duì)象抽取方法,選取置信度高的為最終的評(píng)價(jià)對(duì)象。Liu[11]等人在不同規(guī)模、語(yǔ)言和領(lǐng)域的數(shù)據(jù)集上驗(yàn)證了基于語(yǔ)義和基于詞對(duì)齊模型的評(píng)價(jià)對(duì)象抽取方法的性能,實(shí)驗(yàn)證明系統(tǒng)性能與語(yǔ)言和領(lǐng)域無(wú)關(guān),而與語(yǔ)料的規(guī)模有關(guān)。

      已有的評(píng)價(jià)對(duì)象抽取方法存在不足之處?;谝?guī)則/模板的方法通用性不強(qiáng),有的規(guī)則是根據(jù)傳統(tǒng)算法、語(yǔ)料的特點(diǎn)和領(lǐng)域相關(guān)的詞語(yǔ)而制定,把這些規(guī)則移植到其他領(lǐng)域不會(huì)得到很好的效果;模板的限定范圍有限,不能準(zhǔn)確識(shí)別特殊的評(píng)價(jià)對(duì)象。而基于統(tǒng)計(jì)的方法往往忽略了句子間的內(nèi)部結(jié)構(gòu)信息,如句中的依存關(guān)系等信息,識(shí)別的效果有限。因此,本文將基于規(guī)則/模板的方法與基于統(tǒng)計(jì)模型的方法相結(jié)合,深入考慮句法結(jié)構(gòu)信息和詞與詞之間的依存關(guān)系,使用基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取研究方法,對(duì)分詞、詞性標(biāo)注和句法分析后的結(jié)果進(jìn)行特征提取,并借助C R F模型來(lái)標(biāo)記評(píng)價(jià)對(duì)象,實(shí)驗(yàn)證明能很好地識(shí)別評(píng)價(jià)對(duì)象且優(yōu)于基線實(shí)驗(yàn)方法。

      二、基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法

      本文提出了基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法,圖1給出了系統(tǒng)框圖。

      在預(yù)處理階段對(duì)原始語(yǔ)料進(jìn)行分詞、詞性標(biāo)注和句法分析,使用S ta n f o rd的自然語(yǔ)言處理工具;在特征提取階段,充分考慮句法結(jié)構(gòu)信息,在已有特征的基礎(chǔ)上加入了三種特征;在特征模板的定義上,定義了兩種模板,用于驗(yàn)證不同大小的窗口對(duì)實(shí)驗(yàn)系統(tǒng)性能的影響;最后借助C R F模型來(lái)標(biāo)記評(píng)價(jià)對(duì)象。

      圖1 基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法框圖

      (一)特征描述

      在選取已有特征[7]的基礎(chǔ)上,通過(guò)深入分析句法分析后的句法結(jié)構(gòu),加入三種特征。具體的特征描述如表1所示。

      表1 特征描述

      其中,編號(hào)1—編號(hào)5為已有特征,編號(hào)6—編號(hào)8為本文加入特征。情感詞是情感詞對(duì)挖掘的重要識(shí)別指標(biāo),考慮加入情感詞特征以提高實(shí)驗(yàn)性能;依存關(guān)系標(biāo)簽如“n su b j”等,通常連接著評(píng)價(jià)對(duì)象與評(píng)價(jià)短語(yǔ),即連接著情感詞對(duì);依存關(guān)系詞清晰地展現(xiàn)了與當(dāng)前詞有依存關(guān)系的詞。

      將分詞后的句子:“Canon 的分辨率還是很清晰的,外觀也特別時(shí)尚?!陛斎氲絊tanfordParser 中,得到依存關(guān)系,assmod (分辨率-3,Canon-1) 、assm (Canon-1, 的-2) 、nsubj (清晰的-6, 分辨率-3)、advmod(清晰的-6, 還是-4)、advmod(清晰的-6, 很-5)、nsubj(時(shí)尚-11, 外觀-8)、advmod(時(shí)尚-11, 也-9)、amod(時(shí)尚-11, 特別-10)、dep(清晰的-6, 時(shí)尚-11)。其中,依存關(guān)系標(biāo)簽nsub 連接著情感詞對(duì),nsubj (清晰的-6, 分辨率-3)和nsubj(時(shí)尚-11, 外觀-8)。

      (二)模板定義

      模板反映了每句評(píng)論句中詞間的上下文信息。模板選取的好壞,對(duì)于實(shí)驗(yàn)的特征選取起著關(guān)鍵作用。模板用于控制詞之間的窗口大小,窗口過(guò)小,所包含信息過(guò)少,特征利用不全面,導(dǎo)致系統(tǒng)性能降低;窗口過(guò)大,引入了過(guò)多的信息,降低了運(yùn)行效率,實(shí)驗(yàn)效果也未必提高。

      本文模板定義選用的窗口大小定義的通式為:(w-n,w-(n-1),…,w0,…,w n-1,w n)。為選取性能最佳的模板,探討當(dāng)窗口大小為t m p1=(-1,0,1)與t m p2=(-2,-1,0,1,2)模板的系統(tǒng)性能。

      (三)C R F模塊設(shè)計(jì)

      在C R F模塊中,使用了十折交叉驗(yàn)證的方法,把特征提取的結(jié)果分成十份,隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù),一份作為測(cè)試數(shù)據(jù);再將九份訓(xùn)練數(shù)據(jù)與相應(yīng)地模板輸入到C R F++中生成模型,再用生成的模型來(lái)訓(xùn)練一份測(cè)試數(shù)據(jù)并識(shí)別出評(píng)價(jià)對(duì)象。

      三、實(shí)驗(yàn)及分析

      (一)實(shí)驗(yàn)數(shù)據(jù)

      本文模板定義選用的窗口大小定義的通式為:(w-n,w-(n-1),…,w0,…,wn-1,wn)。為選取性能最佳的模板,探討當(dāng)窗口大小為tmp1 = (-1,0,1)與tmp2 = (-2,-1,0,1,2)模板的系統(tǒng)性能。

      表2 數(shù)據(jù)集規(guī)模統(tǒng)計(jì)

      句子平均長(zhǎng)度=單詞總數(shù)/句子總數(shù);評(píng)價(jià)對(duì)象平均長(zhǎng)度=評(píng)價(jià)對(duì)象總數(shù)/主觀句總數(shù)。

      (二)實(shí)驗(yàn)設(shè)置

      本文選用已有的特征[8]作為基線實(shí)驗(yàn),并在多個(gè)模板上進(jìn)行了對(duì)比與分析。已有特征包括表1中的詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和是否是主觀句特征。并在不同窗口大小的模板上進(jìn)行了對(duì)比實(shí)驗(yàn)。

      本文選用信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率P、召回率R和F值。

      為測(cè)試系統(tǒng)性能的準(zhǔn)確性,選用十折交叉驗(yàn)證的方式,理論上折數(shù)越大測(cè)試的系統(tǒng)性能越準(zhǔn)確,當(dāng)折數(shù)達(dá)到十折,已足以讓系統(tǒng)性能取得最優(yōu)。具體地,將特征提取后的結(jié)果分為十份,隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù)并與相應(yīng)的模板一起輸入到C R F模塊中訓(xùn)練成模型,用模型來(lái)標(biāo)識(shí)一份測(cè)試數(shù)據(jù),以上過(guò)程重復(fù)十次,取十次結(jié)果的平均值作為最終的評(píng)價(jià)結(jié)果。

      (三)實(shí)驗(yàn)結(jié)果與分析

      本部分選取相同的模板,在三個(gè)不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以驗(yàn)證特征與特征組合對(duì)系統(tǒng)性能的影響。表3是已有特征的詞特征、詞性特征及它們的特征組合的實(shí)驗(yàn)結(jié)果。

      表3 基礎(chǔ)特征實(shí)驗(yàn)結(jié)果

      編號(hào)1是詞特征,編號(hào)2是詞性特征,編號(hào)3是詞特征與詞性特征的組合,稱為基本特征。單獨(dú)使用編號(hào)1(詞特征)的效果要好于單獨(dú)使用編號(hào)2(詞性特征)的效果,二者的特征組合編號(hào)3 (基本特征)要優(yōu)于編號(hào)1與編號(hào)2。詞與詞性是組成句子的最基本特征,因而詞與詞性的組合特征更為有效。

      編號(hào)4到編號(hào)9是在基本特征的基礎(chǔ)上,依次加入了最短依存路徑特征、最短詞距離特征、是否是主觀句特征、情感詞特征依存關(guān)系特征與依存關(guān)系詞特征;編號(hào)4到編號(hào)9的系統(tǒng)性能均優(yōu)于編號(hào)3基本特征的組合,且加入最短依存路徑特征(d L n)的效果最明顯,驗(yàn)證了深入分析句中的依存關(guān)系—句法結(jié)構(gòu)信息的必要性。

      編號(hào)10是已有特征的組合;編號(hào)11是在已有特征的基礎(chǔ)上加入了情感詞特征;編號(hào)12與編號(hào)13是在編號(hào)11特征組合的基礎(chǔ)上依存加入了依存關(guān)系特征與依存關(guān)系詞特征;編號(hào)14是所有特征的組合。

      編號(hào)10中已有特征的組合的性能要優(yōu)于編號(hào)1—編號(hào)9;編號(hào)11加入情感詞特征的系統(tǒng)性能要優(yōu)于已有特征,原因是情感詞是識(shí)別評(píng)價(jià)對(duì)象的重要指標(biāo),且最短依存路徑特征1與最短詞距離特征2間接依賴于情感詞特征;編號(hào)12與編號(hào)13在編號(hào)11的基礎(chǔ)上依次加入了依存關(guān)系特征與依存關(guān)系詞特征,依存關(guān)系標(biāo)簽是識(shí)別情感詞對(duì)的重要指標(biāo),實(shí)驗(yàn)性能要優(yōu)于編號(hào)11;編號(hào)14所有的特征組合取得了最佳的系統(tǒng)性能,驗(yàn)證了在已有特征的基礎(chǔ)上加入本文加入的特征是有效的,能夠在合適的窗口大小下識(shí)別評(píng)價(jià)對(duì)象?!半娪啊鳖I(lǐng)域原因是“電影”語(yǔ)料的規(guī)模較大,且電影評(píng)論更為規(guī)范,因此識(shí)別的評(píng)價(jià)對(duì)象更為準(zhǔn)確。

      本文提出了一種基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法,通過(guò)深入分析句子的句法結(jié)構(gòu)信息,在已有特征的基礎(chǔ)上加入了情感詞特征、依存關(guān)系特征與依存關(guān)系詞特征,并在兩個(gè)不同的模板上驗(yàn)證了不同的窗口大小對(duì)實(shí)驗(yàn)性能的影響。經(jīng)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。

      表4 基礎(chǔ)特征與單個(gè)特征組合實(shí)驗(yàn)結(jié)果

      表5 特征組合實(shí)驗(yàn)結(jié)果

      在未來(lái)的工作中,將繼續(xù)探索更為有效的特征以提高評(píng)價(jià)對(duì)象識(shí)別的精度,為情感分析的上層任務(wù)服務(wù)。評(píng)論中有些評(píng)價(jià)對(duì)象為代詞,考慮到評(píng)論句中代詞的影響,嘗試代詞“指代消解”方法加入到本文方法,以提高系統(tǒng)性能,識(shí)別出更為準(zhǔn)確的評(píng)價(jià)對(duì)象。

      [1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010(21).

      [2]Hu M,Liu B.Mining and Summarizing Cus -tomer Reviews [C].Proc.of the tenth ACMSIGKDD international conference on Knowledgediscovery and data mining.New York:ACM,2004.168-177.

      [3]Popescu A,Nguyen B,Etzioni O.OPINE:Extracting Product Features and Opinions fromReviews [C].Proc.of HLT/EMNLP on InteractiveDemonstrations.USA:Association for ComputationalLinguistics,2005.32-33.

      [4]Zhuang L,Jing F,Zhu X.Movie Review Miningand Summarization [C].Proc.of the 15th ACMinternational conference on Information andknowledge management (CIKM).USA:ACM,2006.43-50.

      [5]Scaffidi C,Bierhoff K,Chang E,et al.RedOpal:Product feature Scoring from Reviews[C].Proc.of the 8th ACM conference on Electroniccommerce(EC).USA:ACM,2007.182–191.

      [6]趙妍妍,秦兵,車萬(wàn)翔,等.基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J].軟件學(xué)報(bào),2011,22(5).

      [7]Jakob N,Gurevych I.Extracting Opinion Targetsin a Single and Cross-Domain Setting with Conditional Random Fields [C].Proc.of the 2010Conference on Empirical Methods in Natural LanguageProcessing (EMNLP).USA:Association forComputational Linguistics,2010.1035-1045.

      [8]Lafferty J,McCallum A,Pereira F.ConditionalRandom Fields: Probabilistic Models for Segmentingand Labeling Sequence Data[C]. In Proceedingsof ICML. 2001: 282-289.

      [9]Liu K,Xu L H,Zhao J.Opinion target extractionusing word-based translation model[C].Proc.ofthe 2012 Joint Conference on Empirical Methodsin Natural Language Processing and ComputationalNatural Language Learning (EMNLP).Associationfor Computational Linguistics.2012.1346-1356.

      [10]Liu K,Xu L H,Zhao J.Opinion target extractionusing partially supervised word alignmentmodel [C].Proc.of the Twenty-Third InternationalJoint Conference on Artificial Intelligence.2013.

      [11]Liu K,Xu L H,Zhao J.Syntactic Patterns versusWord Alignment:Extracting Opinion Targets fromOnline Reviews[C].Proc.of ACL.2013.

      責(zé)任編輯:郭一鶴

      T P391

      A

      1671-6531(2017)06-0067-05

      楊云/長(zhǎng)春教育學(xué)院信息技術(shù)教育部助教,碩士(吉林長(zhǎng)春130061)。

      猜你喜歡
      句法結(jié)構(gòu)對(duì)象模板
      神秘來(lái)電
      睿士(2023年2期)2023-03-02 02:01:09
      鋁模板在高層建筑施工中的應(yīng)用
      鋁模板在高層建筑施工中的應(yīng)用
      攻略對(duì)象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      現(xiàn)代漢語(yǔ)句法結(jié)構(gòu)解讀
      山西青年(2017年7期)2017-01-29 18:25:26
      《基本句法結(jié)構(gòu):無(wú)特征句法》評(píng)介
      基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
      區(qū)間對(duì)象族的可鎮(zhèn)定性分析
      鋁模板在高層建筑施工中的應(yīng)用
      城市綜改 可推廣的模板較少
      镇巴县| 灌南县| 青海省| 古交市| 阿拉尔市| 临安市| 静乐县| 灵石县| 共和县| 孙吴县| 贵德县| 阜新| 泸西县| 苏尼特左旗| 盘山县| 湖南省| 西藏| 深州市| 吉水县| 宁海县| 旌德县| 惠州市| 莱阳市| 甘肃省| 化隆| 大城县| 志丹县| 乌苏市| 谷城县| 武宣县| 连平县| 青神县| 益阳市| 民勤县| 石狮市| 彭泽县| 凤山县| 新建县| 汕尾市| 青阳县| 安平县|