• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文產(chǎn)品評論細粒度情感分析綜述

      2017-09-05 04:06胡龍茂
      軟件導刊 2017年7期

      胡龍茂

      摘 要:消費者在購物網(wǎng)站上發(fā)表的購后評論既包含對產(chǎn)品的總體評價,也包含對產(chǎn)品某些特征的評價,如何從評論文本中挖掘出細粒度情感信息是消費者和企業(yè)亟待解決的問題。從中文產(chǎn)品評論的特征識別、觀點識別和情感詞典構(gòu)建等方面介紹了相關(guān)技術(shù)及研究進展,并指出了各自的優(yōu)勢與不足,最后展望了中文產(chǎn)品評論細粒度情感分析未來的研究方向。

      關(guān)鍵詞:中文產(chǎn)品評論;特征識別;觀點識別;情感詞典;細粒度情感

      DOIDOI:10.11907/rjdk.171944

      中圖分類號:TP301

      文獻標識碼:A 文章編號:1672-7800(2017)007-0213-03

      0 引言

      近年來,我國電子商務發(fā)展迅猛,網(wǎng)購市場交易規(guī)模不斷增長,消費者發(fā)表的購后評論也越來越多。評論中往往既包含對產(chǎn)品的總體評價,也包含對產(chǎn)品某些特征的評價。這些評價一方面可以為其他消費者選購商品提供細粒度信息,另一方面也為企業(yè)挖掘不同類別消費者的偏好提供了可能性。

      對產(chǎn)品屬性的評價也稱為細粒度情感分析,一般包含4個任務:①產(chǎn)品特征識別;②與產(chǎn)品特征相關(guān)聯(lián)的觀點抽??;③觀點的極性及強度判斷;④觀點排序[1]。國外學者在較早時候即對英文評論的細粒度情感分析開展了卓有成效的研究[1-2],國內(nèi)學者隨之對中文產(chǎn)品評論開展了研究,也取得了較多研究成果。由于中英文在分詞、句法等方面的差異,本文主要從中文產(chǎn)品評論的特征識別、特征觀點抽取和情感詞典建設(shè)3方面介紹相關(guān)技術(shù)及研究進展。

      1 產(chǎn)品特征識別

      產(chǎn)品特征描述產(chǎn)品的各個方面,Popescu等[1]認為產(chǎn)品特征可細分為5個類別,包括產(chǎn)品的屬性、部件、部件特征、產(chǎn)品的相關(guān)概念和概念特征。如在評論“電腦不錯,顯卡也給力,玩游戲電影畫質(zhì)也毫無壓力”中,顯卡是產(chǎn)品部件,游戲是產(chǎn)品概念。

      1.1 基于無監(jiān)督方法的產(chǎn)品特征識別

      無監(jiān)督方法主要包括基于頻繁項的方法和基于主題模型的方法。

      1.1.1 基于頻繁項的特征識別

      該方法通常將評論中頻繁出現(xiàn)的名詞和名詞短語應用某些過濾規(guī)則抽取出來作為產(chǎn)品特征。Hu和Liu[2]提取出評論中的所有名詞和名詞短語,利用關(guān)聯(lián)規(guī)則挖掘頻繁項, 并把頻繁項作為產(chǎn)品特征候選集,最后通過剪枝移除冗余特征;李實等[3]從中文特點出發(fā),拓展了Hu提出的基于關(guān)聯(lián)規(guī)則的英文評論產(chǎn)品特征識別方法,在識別中文產(chǎn)品特征時,基本達到了接近于Hu的較好效果;熊壯[4]首先利用名詞序列中的互信息識別名詞短語,然后利用關(guān)聯(lián)規(guī)則從評論語料中挖掘文本模式,并利用此文本模式對名詞和名詞短語進行聚類,最后利用從網(wǎng)站上直接獲取的產(chǎn)品品牌和產(chǎn)品型號作為外部資源,結(jié)合人工歸納的“整體-部件”關(guān)系文本模式進行產(chǎn)品特征識別。與Hu的方法相比,召回率降低了2%,準確率提高了10%;郝玫和王道平[5]將產(chǎn)品評論面向供應鏈建立產(chǎn)品評價概念樹,然后對此評價樹采用關(guān)聯(lián)規(guī)則進行頻繁項挖掘,將最小支持度為1%的項轉(zhuǎn)換為客戶關(guān)注特征,查全率達到了90.5%,比僅采用關(guān)聯(lián)規(guī)則高出18.1%。

      徐葉強等[6]首先通過30組詞性規(guī)則確定候選評價對象,然后采用特殊詞過濾、非完整性過濾及非穩(wěn)定性過濾規(guī)則過濾候選評價對象,最后利用評價短語共現(xiàn)規(guī)則及評價對象出現(xiàn)頻率進行置信度排序,置信度高的直接認定為評價對象,置信度低的結(jié)合擴充規(guī)則進行確認。該方法取得了較好效果,F(xiàn)值達到0.681。

      高磊等[7]借鑒分類的思想,在產(chǎn)品對比評論集上采用L1-norm 規(guī)則化的線性回歸方法獲取候選特征集,然后通過詞頻和點互信息剪枝得到最終的產(chǎn)品特征,在4種數(shù)據(jù)集上,F(xiàn)平均值達到了0.74的良好效果;李俊等[8]首先通過模板及頻率剪枝得到候選特征集,然后采用HITS算法對候選集進行排序,從而獲得最終的產(chǎn)品特征,在5種評論集上進行測試,F(xiàn)值可以達到77.3%;張建華等[9]首先抽取了評論中的依存句法庫,進一步分析得到名詞和名詞短語主要屬于8種依存關(guān)系,然后構(gòu)造二叉樹并進行后序遍歷得到產(chǎn)品特征。實驗結(jié)果表明,該方法取得了較好效果。

      基于頻繁項的識別方式簡單高效,但易于將不是產(chǎn)品特征的高頻詞識別為產(chǎn)品特征,同時容易遺漏低頻特征詞。

      1.1.2 基于主題模型的特征識別

      主題模型通常用于發(fā)現(xiàn)文本的話題,由于評論者通常圍繞產(chǎn)品特征發(fā)表意見,學者們開始在產(chǎn)品特征的識別中引入主題模型;馬柏樟和顏志軍[10]將評論中的名詞和名詞短語過濾掉專有名詞和品牌名詞后,采用LDA模型訓練得到候選特征集,然后進行同義詞詞林擴展和遺漏詞補缺,得到最終的產(chǎn)品特征,該方法在兩個評論集上都明顯好于關(guān)聯(lián)規(guī)則方法;佘維軍等[11]首先提取包含名詞、動詞或形容詞的分句,通過詞性模板獲得顯式特征并進行聚類構(gòu)成特征語料庫,然后構(gòu)建must-link 和 cannot-link約束,采用LDA進行主題聚類,獲得產(chǎn)品特征。實驗結(jié)果表明,該方法比僅采用句法分析或LDA的方法更有效。

      為達到較高的準確率和召回率,基于主題模型的識別方式需要大量評論語料。

      1.2 基于半監(jiān)督方法的產(chǎn)品特征識別

      郗亞輝[12]給出觀點種子集合,考慮了產(chǎn)品特征和觀點之間的直接及間接句法依存關(guān)系,利用雙向傳播算法迭代抽取特征及觀點,引入“整體-部分”模式和“沒有”模式提高特征抽取的召回率,然后將抽取到的特征集和觀點集按照HITS算法排序,最后通過計算領(lǐng)域相關(guān)度進行優(yōu)化,得到產(chǎn)品特征,取得了較好效果;楊曉燕等[13]利用詞性模板集得到候選觀點評價對象,采用上下文相關(guān)的方法計算候選評價對象分值,將分值高的10個對象認定為評價對象,然后從包含初始種子集和評價對象的句子中進一步抽取詞性模板,采用上下文相關(guān)的方法計算確定合適的模板,反復迭代抽取模板和評價對象。實驗結(jié)果表明,和上下文無關(guān)的方法相比,該方法的性能獲得了大幅提高。endprint

      基于半監(jiān)督的方式迭代抽取產(chǎn)品特征,不需要很多評論語料,但確定產(chǎn)品特征的閾值參數(shù)需要手工調(diào)整。

      1.3 基于監(jiān)督方法的產(chǎn)品特征識別

      余傳明等[14]針對餐館評論數(shù)據(jù),將其分為服務、口味、環(huán)境、價格4個產(chǎn)品屬性進行標注,利用多個一對一支持向量機進行分類,平均F值達到87.3,大大高于最大熵方法;呂品等[15]將評價對象分為組成部分、功能及性質(zhì),將與之關(guān)聯(lián)的觀點分為觀點內(nèi)容及強度,然后將評論中的詞用12種標記符號進行標注,最后利用CRF進行挖掘。結(jié)果顯示,挖掘評價對象的F值接近或超過80%。

      基于監(jiān)督的特征識別準確率和召回率較高,對于每種訓練集都要進行人工標注,需要消耗較多人力物力。

      2 觀點識別

      主要包括基于語義的方法和基于機器學習的方法。

      2.1 基于語義的觀點識別

      該方法用形容詞和副詞的褒貶含義計算產(chǎn)品特征、句子及篇章的情感傾向。史偉等[16]將情感詞匯分為評價詞語和情感詞語兩類,在此基礎(chǔ)上建立模糊情感本體,然后從HowNet中抽取70個程度詞按0.8~1.5的倍數(shù)乘以情感詞匯分值,同時考慮否定詞的作用,構(gòu)建了從特征層、句子層到文檔層的情感計算方法。實驗結(jié)果表明,該方法具有較高準確性;孫春華和劉業(yè)政[17]將評論中的特征句表示為特征詞、情感詞和修飾詞的三元組,通過上下文識別特征的等同、等級和相關(guān)關(guān)系,對句子和篇章進行傾向性合成。該方法和人工標注的結(jié)果存在顯著的正相關(guān)關(guān)系;陳炯等[18]從評價詞和評價對象的依存句法出發(fā),在評論語料庫中抽取出頻率較高的語法模板庫,然后利用語法模板庫識別評價搭配。實驗結(jié)果表明,該方法是有效的,F(xiàn)值達到將近70%。

      基于語義的觀點識別簡單易行,無需對評論語料進行標注,但識別效果不太好。

      2.2 基于機器學習的觀點識別

      張磊等[19]總結(jié)了中文評論中情感詞與特征詞的5種依存關(guān)系,設(shè)計了詞的詞性、距離及依存關(guān)系的結(jié)構(gòu)、路徑關(guān)系和距離等特征模板,采用最大熵模型抽取了特征-情感對,該方法的平均F值達到75.36%;孫曉和唐陳意等[20]引入詞、詞性、語義角色及語法樹父節(jié)點特征,采用CRFs同步抽取情感詞和情感對象,然后引入語法、詞義等上下文信息,采用最大熵模型進行傾向性判別。實驗結(jié)果顯示,在情感對象-情感詞對的抽取上,F(xiàn)值達到0.831,同時大幅提高了情感分類精度;劉麗等[21]首先采用Tri-train對評論語料進行半自動標注,融合詞、詞性和依存句法等多種特征,采用CRF抽取評價對象和評價詞,然后對評價對象進行語法樹剪枝,獲得正確的評價單元,并形成可視化報告。該方法在評價對象和正負面評價詞的識別上綜合準確率均達到89%左右;賈聞俊等[22]首先通過詞性模板、依存句法模板抽取出名詞實體和評價短語,然后利用分層狄利克雷過程將名詞實體聚類成產(chǎn)品屬性,然后將評價短語的權(quán)重和情感詞典作為先驗知識,采用LDA計算產(chǎn)品屬性的情感傾向,該模型具有較高的情感傾向準確率;彭云等[23]提出了情感詞和特征詞的三類must-link和cannot-link語義關(guān)系,將這三類語義關(guān)系進行融合,構(gòu)建must-link和cannot-link語義圖,然后將此語義關(guān)系圖作為約束,采用LDA進行特征詞、情感詞和特征詞-情感詞對的提取。實驗結(jié)果表明,該方法比AMC的準確率均高出約10%。

      基于機器學習的方式大多需要對語料進行標注,然后利用模型進行訓練以識別觀點。該類方法的準確率較高,但需人工參與程度較高。

      3 情感詞典構(gòu)建

      目前大部分通用情感詞典是通過人工構(gòu)建的,中文情感詞典主要是知網(wǎng)(HowNet)的情感分析詞語集,其中包含了中英文的評價詞和情感詞。由于應用領(lǐng)域的差異及新詞的不斷出現(xiàn),基于人工構(gòu)建的情感詞典在實際使用中效果不太理想,學者們開始聚焦于情感詞典的自動構(gòu)建。

      黃高峰等[24]將情感詞細分為表達情緒的7類細粒度情感詞,從知網(wǎng)中篩選出種子詞集,利用知網(wǎng)的義原層次樹設(shè)計義原相似度計算方法,計算情緒語料庫中抽取的情緒詞和種子詞的相似度,得到了具有權(quán)重的細粒度情感詞庫;郗亞輝[25]首先利用雙向傳播算法獲取評論中的特征詞和情感詞,提出了情感詞之間的4種上下文約束關(guān)系,將這種約束結(jié)合情感詞種子融入標簽傳播算法中,計算出情感詞的褒貶,最后利用上下文計算情感沖突,以識別領(lǐng)域相關(guān)的情感詞。實驗結(jié)果表明,該方法能有效提高情感傾向計算的效果。

      4 結(jié)語

      本文對中文產(chǎn)品評論細粒度情感分析的3方面研究進行了綜述,指出了各自的優(yōu)勢和不足。隨著我國電子商務的發(fā)展,評論的細粒度情感分析日益成為研究熱點,未來需要深入研究的內(nèi)容主要有:①基于監(jiān)督的方法識別產(chǎn)品特征及觀點的準確率較高,但需要對大量語料進行標注,而少量標注或無需標注的方式識別產(chǎn)品特征及觀點的準確率較低,采用半自動方式標注語料有助于節(jié)省人力,且達到較好的識別效果;②微博或?qū)з従W(wǎng)站(如it168)上也發(fā)表了很多產(chǎn)品意見,由于這些評論者和購物網(wǎng)站的賣家沒有直接聯(lián)系,發(fā)表的意見會更客觀。將這些產(chǎn)品評論和購物網(wǎng)站的產(chǎn)品評論結(jié)合起來,有助于提高觀點識別的準確率;③現(xiàn)有的評論語料庫很少,目前舉辦了八屆的中文傾向性分析評測(Chinese Opinion Analysis Evaluation, COAE)提供的測評語料中雖不少涉及了產(chǎn)品評論,但未進行細致的分類,也沒有標注數(shù)據(jù),無法滿足全方位的細粒度情感分析。研究要素級(產(chǎn)品特征及觀點)的標注規(guī)范,收集大量評論數(shù)據(jù)并設(shè)置“篇章─句子─要素級”的標注語料將有助于細粒度情感分析的快速發(fā)展。

      參考文獻:

      [1]POPESCU A-M, ETZIONI O.Extracting product features and opinions from review[C].Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA:Association for Computational Linguistics,2005.endprint

      [2]HU M, LIU B. Mining opinionfeatures in customer reviews[C].Proceedings of the 19th National Conference on Artifical Intelligence. AAAI Press, 2004:755-760.

      [3]李實,葉強,李一軍,等.中文網(wǎng)絡客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學學報,2009(2):142-152.

      [4]熊壯.基于無監(jiān)督學習的產(chǎn)品特征抽取[J].計算機工程與應用,2012,48(10):160-163.

      [5]郝玫,王道平.面向供應鏈的產(chǎn)品評論中客戶關(guān)注特征挖掘方法研究[J].現(xiàn)代圖書情報技術(shù),2014,30(4):65-70.

      [6]徐葉強,朱艷輝,王文華,等.中文產(chǎn)品評論中評價對象的識別研究[J].計算機工程,2012,38(20):140-143.

      [7]高磊,戴新宇,黃書劍,等.基于特征選擇和點互信息剪枝的產(chǎn)品屬性提取方法[J].模式識別與人工智能,2015(2):187-192.

      [8]李俊,陳黎,王亞強,等.面向電子商務網(wǎng)站的產(chǎn)品屬性提取算法[J].小型微型計算機系統(tǒng),2013,34(11):2477-2481.

      [9]張建華,翁鳴,李曉樂,等.基于依存句法和二叉樹模型的評價對象抽取[J].計算機技術(shù)與發(fā)展,2016(2):52-55,60.

      [10]馬柏樟,顏志軍.基于潛在狄利特雷分布模型的網(wǎng)絡評論產(chǎn)品特征抽取方法[J].計算機集成制造系統(tǒng),2014,20(1):96-103.

      [11]佘維軍,劉子平,楊衛(wèi)芳,等.基于改進LDA主題模型的產(chǎn)品特征抽取[J].計算機與現(xiàn)代化,2016(11):1-6,57.

      [12]郗亞輝.產(chǎn)品評論特征及觀點抽取研究[J].情報學報,2014,33(3):326-336.

      [13]楊曉燕,徐戈,廖祥文,等.上下文相關(guān)的雙向自舉觀點評價對象抽取方法[J].計算機工程與應用,2015(15):143-147,178.

      [14]余傳明,陳雷,張小青,等.基于支持向量機的產(chǎn)品屬性識別研究[J].情報學報,2010,29(6):1038-1044.

      [15]呂品,鐘珞,蔡敦波,等.基于CRF的中文評論有效性挖掘產(chǎn)品特征[J].計算機工程與科學,2014,36(2):359-366.

      [16]史偉,王洪偉,何紹義,等.基于語義的中文在線評論情感分析[J].情報學報,2013,32(8):860-867.

      [17]孫春華,劉業(yè)政.基于產(chǎn)品特征詞關(guān)系識別的評論傾向性合成方法[J].情報學報,2013,32(8):844-852.

      [18]陳炯,張虎,曹付元,等.面向中文客戶評論的評價搭配識別研究[J].計算機工程與設(shè)計,2013,34(3):1073-1077.

      [19]張磊,李珊,彭艦,等.基于依存關(guān)系和最大熵的特征—情感對分類[J].電子科技大學學報,2014(3):420-425.

      [20]孫曉,唐陳意.基于層疊模型細粒度情感要素抽取及傾向分析[J].模式識別與人工智能,2015(6):513-520.

      [21]劉麗,王永恒,韋航,等.面向產(chǎn)品評論的細粒度情感分析[J].計算機應用,2015,35(12):3481-3486,3505.

      [22]賈聞俊,張暉,楊春明,等.面向產(chǎn)品屬性的用戶情感模型[J].計算機應用,2016,36(1):175-180.

      [23]彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學報,2017,28(3):676-693.

      [24]黃高峰,周學廣,李娟,等.具有權(quán)重因子的細粒度情感詞庫構(gòu)建方法[J].計算機工程,2014(11):211-214.

      [25]郗亞輝.產(chǎn)品評論中領(lǐng)域情感詞典的構(gòu)建[J].中文信息學報,2016,30(5):136-144.endprint

      子长县| 健康| 贡觉县| 安乡县| 竹溪县| 博罗县| 九龙县| 衡东县| 永川市| 莱州市| 古丈县| 辽宁省| 乌兰察布市| 舟山市| 开平市| 凤冈县| 萨嘎县| 宜兰县| 鄱阳县| 弥勒县| 平原县| 青神县| 遂宁市| 富阳市| 岫岩| 益阳市| 开平市| 中阳县| 阜宁县| 海林市| 封丘县| 丰城市| 岳阳县| 延庆县| 长顺县| 枣阳市| 和林格尔县| 昆山市| 共和县| 和林格尔县| 神农架林区|