• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種多特征融合的中文微博評價對象提取方法

      2016-06-30 20:09:02劉璟朱艷輝田海龍馬進
      電腦知識與技術 2016年14期
      關鍵詞:特征選擇

      劉璟++朱艷輝++田海龍++馬進

      摘要:針對目前中文微博評價對象抽取方法準確率較低的問題,本文提出一種基于條件隨機場的多特征融合方法抽取評價對象,通過分析語義角色、詞頻、形容詞位置特征與正確評價對象的關系,制定了融合基本特征、語義角色特征、詞頻特征和形容詞位置特征的條件隨機場多特征模板,實驗結果表明,本文的方法提高了評價對象抽取的正確率。

      關鍵詞:評價對象提取;特征選擇;中文微博;條件隨機場

      中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)14-0188-03

      1 概述

      在信息爆炸的現(xiàn)代社會,中文微博評價對象抽取研究有非常大的的商業(yè)價值,中文評價對象抽取不僅可以服務于上層的情感分析任務,其結果還可以直接用于生活中數(shù)據(jù)統(tǒng)計分析。

      目前對評價對象的抽取方法主要分為三個類別:基于無監(jiān)督學習的抽取方法、基于監(jiān)督學習的抽取方法和半監(jiān)督學習的方法。Jakob N[1]提出了一種包含句法模式的情緒圖走向方法提取評價對象候選集,然后采用自主學習策略抽取評價對象。文獻[2]和[3]利用條件隨機場模型的序列標注方法抽取評價對象。戴敏,王榮洋[4]引使用條件隨機場抽取評價對象并引入了一些句法特征。宋暉,史南勝[5]對半監(jiān)督學習方法提取評價對象進行了研究。Hu Minqing, Liu Bing[6]使用關聯(lián)規(guī)則提取評價對象的候選集。Xu Liheng[7]利用句法分析信息和隨機游走模型抽取評價對象。劉鴻宇。趙妍妍,秦兵等[8]使用句法路徑自動識別情感評價單元。還有學者采用了話題模型抽取評價對象。本文的目標就是構建一個最優(yōu)的條件隨機場模型抽取中文微博的評價對象。

      2 多特征融合的條件隨機場評價對象抽取方法

      條件隨機場模型在自然語言處理任務中,相對于隱馬爾科夫模型等其他模型,它能更好利用所提供的上下文信息,相對于其他模型性能更好。

      2.1特征選擇算法分析

      1)語義角色特征

      語義角色對評價對象抽取有重要的意義。定義集合SemT,對所有名詞進行計算,滿足以下兩個條件中的任意一個則該名詞屬于集合SemT。切分詞為動詞且該評價對象候選集為受事者,切分詞為形容詞且該評價對象候選集為施事者。定義集合SemF,若名詞屬于實施著或者受事者,且不屬于集合SemT,則該名詞屬于集合SemF。圖1和圖2給出了語義角色與評價對象的關系圖。當切分詞為動詞時,受事者為極大可能為評價對象,當切分詞為形容詞時實施者極大可能為評價對象。

      2)詞頻特征

      經(jīng)統(tǒng)計分析發(fā)現(xiàn),評價對象一般為名詞或名詞短語,對于微博觀點句“我的手機從三星換到三星再換到三星,初體驗總是很美好,到最后放棄的原因都是同一個:老死機?!逼渲忻~“三星”出現(xiàn)了三次,也是本文要抽取的評價對象,通過分析微博觀點句語料,我們發(fā)現(xiàn)在句子中頻繁出現(xiàn)的名詞極有可能為本文要抽取的評價對象。所以本文提出對微博觀點句中所有名詞提取出它在訓練語料中的詞頻作為條件隨機場的一個特征模板。通過統(tǒng)計訓練語料中詞頻與評價對象的關系,其結果如圖3所示,由圖可知,當詞頻為1時,在訓練語料中出現(xiàn)的次數(shù)最多,正確的評價對象個數(shù)也最多,但是正確評價對象所占的比率并不高,也就是當詞頻為1時,正確的評價對象多的同時,不正確的評價對象也非常的多。當詞頻大于等于3小于11時,正確評價對象所占比例達到了60%以上;當詞頻大于等于11的時候,正確評價對象所占比例有個大幅的下降,并進入較低的區(qū)域。

      3)形容詞位置特征

      對訓練語料中正確的評價對象和其與形容詞的位置特征進行統(tǒng)計,其統(tǒng)計結果如圖4所示。由圖我們可以看出當該名詞與形容詞距離在大于等于1小于等于3的時候正確的評價對象個數(shù)都在200以上,有較高的正確率;當該名詞與形容詞最小距離在大于3小于等于7時,正確的評價個數(shù)在150左右,雖然有很多的正確評價對象,但是錯誤的評價對象也多;當該詞與形容詞最小距離大于7時,其正確的評價對象小于50并有趨向于0 的趨勢,其主要原因是,微博短小精悍,一般都不會很長。

      2.2設計條件隨機場多特征融合模板

      特征選擇對條件隨機場模型的評價對象抽取結果很大的影響,因此選擇什么樣的特征是本實驗考慮的重點,通過上文的特征選擇,本文使用到的特征模板如下面的表所示。

      雖然條件機場模型可以容納各種復雜的自定義特征,但是過多的特征也會導致條件隨機場性能降低。我們在相關研究的基礎上,通過分析,根據(jù)自己實驗的特點,制定了基本詞性特征模板和三個擴展特征模板。

      3實驗結果及分析

      實驗評價方法有很多種,本文采用正確率P、召回率R和F值來驗證方法對評價對象抽取的有效性。本文使用第七屆中文傾向分析測試預料中的5000句觀點句作為測試集,得到實驗結果如表5所示:

      將本文的方法與文獻[4]的方法對比得到對比實驗結果如表6所示:

      由實驗結果可知,對于基本的詞性模板,條件隨機場很難判斷評價對象,但是加入了語義角色的模板之后,實驗結果有了很大的提高,語義角色的特征對評價對象抽取有很大的意義。在加入詞頻模板和形容詞位置特征模板F值分別提高了1.5%和4.5%,將本文方法與文獻[4]方法對比,F(xiàn)值提高了3.3%,實驗結果表明,本文的方法有效提高了評價對象抽取的正確率。

      參考文獻:

      [1] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010: 1035-1045.

      [2] Li Fangtao, Han Chao, Huang Minlie, et al. Structure-aware review mining and summarization[C]//Proc of the 23rd International Conference on Computational Linguistics. 2010: 653-661.

      [3] Ma Tengfei.Wan Xiaojun. Opinion target extracton in Chinese news comments[C]//proc of the 23rd International Conference on Computational Liuguistcs, 2010: 23-27.

      [4] 戴敏,王榮洋. 基于句法特征的評價對象抽取方法研究[J]. 中文信息學報,2014,28(4):93-97.

      [5] 宋暉,史南勝. 基于模式匹配與半監(jiān)督學習的評價對象抽取[J]. 計算機工程,2013,39(10):221-226.

      [6] Hu Minqing,Liu Bing. Mining Opinion Features in Customer Reviews[C]//Proc. of the 19th National Conference on Artifical Intelligence. San Jose,USA: AAAI Press,2004.

      [7] Xu Liheng,Liu Kang,Zhao Jun. Mining opinion words and opinion targets in a two-stage framework[C]Proc of the 51st Annual Meeting of the Association for Computational Linguistics. 2013.

      [8] 趙妍妍,秦兵. 基于句法路徑的情感評價單元識別[J].軟件學報,2011,22(5):887-898.

      猜你喜歡
      特征選擇
      二進制登山隊優(yōu)化算法及其在特征選擇中的應用
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于實例學習和協(xié)同子集搜索的特征選擇方法
      電信科學(2017年6期)2017-07-01 15:44:35
      基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
      自動化學報(2017年5期)2017-05-14 06:20:50
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
      聯(lián)合互信息水下目標特征選擇算法
      基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
      非線性電路多軟故障的智能優(yōu)化遞階特征選擇診斷方法
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      計算機工程(2014年6期)2014-02-28 01:26:36
      贡觉县| 沂源县| 稷山县| 绵阳市| 蓬安县| 定南县| 陈巴尔虎旗| 四川省| 紫金县| 酒泉市| 会昌县| 香港| 万州区| 元氏县| 社旗县| 宁城县| 赣州市| 南开区| 宁德市| 南召县| 扶绥县| 十堰市| 涟源市| 漠河县| 包头市| 新乡市| 雷波县| 如皋市| 长泰县| 称多县| 海淀区| 孙吴县| 曲阜市| 漳浦县| 秀山| 葫芦岛市| 濮阳市| 江口县| 和平区| 娄烦县| 许昌市|