• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于評(píng)論短句計(jì)算特征的觀點(diǎn)挖掘

      2017-10-16 10:06:28王倩樂山職業(yè)技術(shù)學(xué)院
      新商務(wù)周刊 2017年3期
      關(guān)鍵詞:短句副詞權(quán)重

      文/王倩,樂山職業(yè)技術(shù)學(xué)院

      基于評(píng)論短句計(jì)算特征的觀點(diǎn)挖掘

      文/王倩,樂山職業(yè)技術(shù)學(xué)院

      為提高產(chǎn)品評(píng)論挖掘的準(zhǔn)確率,本文通過計(jì)算細(xì)粒度屬性詞和程度副詞以及情感詞的詞匯的語(yǔ)義傾向度,設(shè)計(jì)了一種結(jié)合權(quán)重和評(píng)論短句計(jì)算特征的粗粒度情感傾向分析方法,由細(xì)粒度到粗粒度判定web評(píng)論的情感傾向性。本文設(shè)計(jì)了一種基于評(píng)論短句計(jì)算特征的情感分析方法,把結(jié)合屬性詞和副詞權(quán)重計(jì)算方法的結(jié)果進(jìn)行二次分類,結(jié)果表明相對(duì)于直接分類或細(xì)粒度的情感分析結(jié)果,本文設(shè)計(jì)的結(jié)合權(quán)重和評(píng)論短句計(jì)算特征的情感分析方法,分類效果有所提升。

      屬性提??;評(píng)論短句;觀點(diǎn)挖掘;語(yǔ)義傾向度

      引言

      隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的快速發(fā)展,國(guó)內(nèi)外電子商務(wù)公司也得到了迅猛發(fā)展,網(wǎng)絡(luò)購(gòu)物成為很多人購(gòu)物的重要方式。在實(shí)際應(yīng)用中,利用觀點(diǎn)挖掘技術(shù)能發(fā)現(xiàn)顧客的喜好及商品的不足之處,能夠使商家改善服務(wù)質(zhì)量,提高商品性能,并且其他用戶也可以根據(jù)分析結(jié)果進(jìn)行是否購(gòu)物的參考。在中文評(píng)論挖掘中,情感傾向分析一般有詞典方式和分類算法兩類。詞典方式是根據(jù)詞匯的語(yǔ)義傾向性加權(quán)擴(kuò)展到整句,在語(yǔ)義的基礎(chǔ)上研究;分類算法利用現(xiàn)成的工具提取特征,使用分類算法進(jìn)行分類。基于詞典的方法準(zhǔn)確率較高,但依賴性較高。而基于分類算法的普適性相對(duì)較好,缺點(diǎn)是在分類特征不明顯時(shí),容易造成誤判。單一采用上述的某一種算法的準(zhǔn)確率不高,因此結(jié)合兩種方法進(jìn)行分析,,即使用評(píng)論短句這個(gè)計(jì)算特征,送到分類器中進(jìn)行二次分類,提高判定結(jié)果的準(zhǔn)確率。而在這個(gè)過程中,基于詞典的情感分析方法通過對(duì)詞匯的極性和權(quán)重的計(jì)算,謀求整句的情感傾向。因此,研究的開始,詞匯的極性和權(quán)重成為研究的重點(diǎn)。

      1 分析

      使用TF或者TF-IDF算法作為屬性詞權(quán)重的方法忽略了屬性詞與屬性詞之間對(duì)于用戶而言也存在著不同的重要程度,文獻(xiàn)[1]采用出現(xiàn)次數(shù)的比例作為屬性詞權(quán)重的方式簡(jiǎn)單易行,忽略了當(dāng)出現(xiàn)次數(shù)的比例較小時(shí),容易趨向于0而導(dǎo)致屬性詞之間的區(qū)分度不高。程度副詞的權(quán)重研究基本直接使用知網(wǎng)發(fā)布的情感詞集bata版中的副詞詞典,通過根據(jù)語(yǔ)感直接對(duì)其賦值的方式進(jìn)行。

      2 前期準(zhǔn)備

      評(píng)論是使用網(wǎng)絡(luò)爬蟲下載的電商網(wǎng)站的評(píng)論,對(duì)評(píng)論進(jìn)行初步去噪。本節(jié)主要介紹算法的前期準(zhǔn)備工作,包含情感詞、屬性詞、評(píng)論短句提取過程,為算法的實(shí)現(xiàn)提供重要的基礎(chǔ)準(zhǔn)備過程。1、提取情感詞存入本地?cái)?shù)據(jù)庫(kù)中進(jìn)行處理,主要有以下3類:評(píng)價(jià)性的形容詞;情感動(dòng)詞;網(wǎng)絡(luò)新詞。2、屬性詞一般是名詞或名詞短語(yǔ),在提取候選屬性詞時(shí),對(duì)候選的屬性詞用頻數(shù)模型進(jìn)行篩選,出現(xiàn)的次數(shù)降次排列,濾除少于3次的名詞。將附近位置存在情感詞的屬性詞提取為候選屬性。實(shí)驗(yàn)表明窗口長(zhǎng)度閾值選為5。

      3 提取評(píng)論短句

      評(píng)論短句則指忽略次要因素,從紛雜的詞匯群中直接取出能夠明確表達(dá)評(píng)論者的情感傾向和主觀感受的句子。中文評(píng)論挖掘領(lǐng)域的研究者通過分析中文表達(dá)方式,從短語(yǔ)搭配的角度考慮提取過程。如侯敏等人[1]歸納總結(jié)出的普通詞和評(píng)價(jià)詞的組合搭配問題,分析了評(píng)價(jià)詞語(yǔ)的情感傾向。林政等人[2]則考慮了句子的位置信息,將句子分為關(guān)鍵句和細(xì)節(jié)句,從他們的研究工作得到啟發(fā),結(jié)合商品評(píng)論的短文本分類的特點(diǎn),本文采用規(guī)則模板的方法提出評(píng)論短句。通過對(duì)評(píng)論句的詳細(xì)歸納和歸總,提取以下四種規(guī)則模板:

      (1)情感詞單獨(dú)成句、情感詞疊加

      模板的表達(dá)方式:sent,sent+sent;如“不錯(cuò)”、“小巧可愛”;

      (2)包含屬性詞、程度副詞及情感詞的規(guī)則模板

      模板的表達(dá)方式:feature+adverb+sentiment,adverb+senti?ment+feature;

      經(jīng)典的表達(dá)模式,涵蓋了描述對(duì)象、強(qiáng)度修飾、情感表達(dá)三個(gè)方面的內(nèi)容。如“外觀很漂亮”、“很不錯(cuò)的東西”等;

      (3)包含屬性詞、情感詞的規(guī)則模板

      模板的表達(dá)方式:feature+sentiment,sentiment+feature

      如“產(chǎn)品不錯(cuò)”、“粗糙的做工”等;

      (4)包含程度副詞和情感詞的規(guī)則模板

      模板的表達(dá)方式:adverb+sentiment,adverb+sentiment;

      常用的表達(dá)模式,涵蓋了強(qiáng)度修飾、情感表達(dá)的兩方面的內(nèi)容,盡管沒有直接出現(xiàn)屬性詞,隱含了描述的對(duì)象為產(chǎn)品本身,因此需要提取。例如“很喜愛”、“不好”等;以上四種規(guī)則模板表達(dá)方式可以提取八種表達(dá)方式,涵蓋了大部分的中文評(píng)論的表達(dá)方式,對(duì)于相對(duì)表達(dá)比較規(guī)范的商品評(píng)論而言,能夠提取大部分的中文表達(dá)。

      4 權(quán)重設(shè)置

      4.1 屬性詞權(quán)重設(shè)置

      屬性詞的權(quán)重設(shè)置主要解決分句的極性一正一反時(shí),情感極性的傾向值。如對(duì)于評(píng)論句“相機(jī)像素很差,但是價(jià)格很好”類型的句子,使用均一的權(quán)重衡量方式就不能正確的檢測(cè)出來(lái),判定的結(jié)果為0;本文設(shè)計(jì)的屬性方法可以判定出其極性傾向值。

      4.2 程度副詞權(quán)重設(shè)置

      本文在侯敏等人研究的基礎(chǔ)上進(jìn)行改進(jìn)。首先對(duì)知網(wǎng)情感詞典中的程度級(jí)別詞語(yǔ)進(jìn)行人工賦值,以此作為基準(zhǔn)副詞。對(duì)于給定副詞,作如下考慮:先查找基準(zhǔn)程度副詞表,若該副詞存在表中,直接取出其權(quán)重;若不存在,則使用語(yǔ)義相似度計(jì)算,先計(jì)算該副詞與全部基準(zhǔn)副詞的語(yǔ)義相似度,取計(jì)算的語(yǔ)義相似度值最高的10個(gè)值(Top10)的均值,作為該副詞的權(quán)重。

      4.3 評(píng)論短句極性計(jì)算

      根據(jù)我們?cè)诘?節(jié)的采取的規(guī)則模板方法提取出的評(píng)論短句,在數(shù)據(jù)庫(kù)中查詢各評(píng)論短句對(duì)應(yīng)的相關(guān)詞匯的權(quán)重,計(jì)算評(píng)論短句的極性,最后加權(quán)求和得到最后的整句的情感傾向,有以下規(guī)則:

      (1)如果是在評(píng)論短句之內(nèi)的,也就是處在同一個(gè)評(píng)論短句之內(nèi)的詞匯的權(quán)重值進(jìn)行加權(quán)乘積,如果在一個(gè)評(píng)論短句內(nèi)的詞語(yǔ)數(shù)為m個(gè),分別找出它們的權(quán)重值wt(wordj),進(jìn)行加權(quán)乘積:

      其中,word(j)指評(píng)論斷句中的第j個(gè)詞語(yǔ),j=1,2,3…,m;m指該評(píng)論短句中包含的詞語(yǔ)數(shù),wt(word(j))第j個(gè)詞語(yǔ)對(duì)應(yīng)的權(quán)重值。

      (2)由于在一個(gè)整句的評(píng)論句中,不止包含一個(gè)評(píng)論短句,設(shè)有n個(gè)評(píng)論短句,依照公式1分別求出每一個(gè)評(píng)論短句對(duì)應(yīng)的極性值,wt(fs)1、wt(fs)2…wt(fs)n,對(duì)這些評(píng)論短句加權(quán)求和,最終得到整句的情感傾向計(jì)算值Wt(sentence)為:

      其中,Wt(sentence)指整句的最終情感極性傾向值,n指一個(gè)整句中所有評(píng)論短句的個(gè)數(shù),wt(fs)i指第i個(gè)評(píng)論短句的情感傾向權(quán)重值,i=1,2,3…,n。

      5 利用fs計(jì)算特征的情感傾向分析

      5.1 分類器特征提取

      綜合以上分析以上算法的優(yōu)缺點(diǎn),算法在普適性、分類的準(zhǔn)確度方面有缺陷,且有人工參與,因此為了提高算法的普適性和分類的精度,減少人工干預(yù)度,從提取句子特征的角度對(duì)評(píng)論進(jìn)行傾向性分析。歸納出了三類特征,這三類特征的來(lái)源的示意圖如圖1所示。

      圖1 分類器特征來(lái)源示意圖

      5.2 結(jié)果分析

      5.2.1 數(shù)據(jù)集

      實(shí)驗(yàn)使用的數(shù)據(jù)集Dataset1是從本地已下載評(píng)論中隨機(jī)抽取的不同領(lǐng)域商品的評(píng)價(jià)信息,考慮了數(shù)據(jù)集的平衡性,各抽取正負(fù)極性的句子3016條,合計(jì)6132條。

      數(shù)據(jù)集二Dataset2是混合數(shù)據(jù)集,包含COAE中文傾向性評(píng)測(cè)公開的微博的數(shù)據(jù)集和1000條電商網(wǎng)站的商品評(píng)論信息,共計(jì)3152條,混合數(shù)據(jù)集綜合考慮了微博類和電商網(wǎng)站的商品評(píng)論信息,相對(duì)單一考慮電商網(wǎng)站的商品評(píng)論信息而言,更具有代表意義。

      5.2.2 使用評(píng)論短句計(jì)算特征對(duì)結(jié)果的影響

      在Dataset 1和混合數(shù)據(jù)集Datase 2上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,將評(píng)論短句計(jì)算特征作為分類算法的特征送入分類器中,結(jié)果如表1所示:實(shí)驗(yàn)結(jié)果表明,加上fs計(jì)算特征后,在各分類算法上分類都有所提升,說明我們提出的結(jié)合fs計(jì)算特征的有效性。

      表1 評(píng)論短句特征在Dataset2上的影響

      6 結(jié)論

      本文主要研究產(chǎn)品評(píng)論情感傾向的判定,為了提高分類的準(zhǔn)確率,本文中結(jié)合屬性詞和副詞權(quán)重的情感傾向分析方法的基礎(chǔ)上設(shè)計(jì)了一種利用評(píng)論短句計(jì)算特征的情感傾向分析方法,在不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明設(shè)計(jì)方法的有效性。本文設(shè)計(jì)情感傾向性分析方法仍然存在著不足之處,如在負(fù)面評(píng)價(jià)的判定上有著準(zhǔn)確度不高的問題,規(guī)則模板提取評(píng)論短句的方法還存在著覆蓋不全的缺點(diǎn),對(duì)多極性的情感分析未能在其他數(shù)據(jù)集上進(jìn)行驗(yàn)證等等問題,需要在未來(lái)的研究中進(jìn)一步改進(jìn)。

      [1]侯敏,滕永林,陳毓麒.評(píng)價(jià)短語(yǔ)的傾向性分析研究[J].中文信息學(xué)報(bào),2013,27(6):103-109.

      猜你喜歡
      短句副詞權(quán)重
      The Wheels on the Bus
      短句,讓表達(dá)更豐富
      十幾歲(2022年34期)2022-12-06 08:06:24
      副詞“好容易”及其詞匯化成因
      權(quán)重常思“浮名輕”
      短句—副詞+謂語(yǔ)
      短句—謂語(yǔ)+賓語(yǔ)
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      副詞和副詞詞組
      層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      天柱县| 高要市| 达尔| 祁连县| 虞城县| 四子王旗| 红桥区| 夏邑县| 新宾| 兴山县| 固原市| 巴彦县| 晋州市| 金寨县| 商南县| 昆山市| 田林县| 会宁县| 三河市| 济南市| 武穴市| 贺州市| 宜兰县| 固原市| 都昌县| 渝北区| 南木林县| 桃园市| 泰兴市| 隆回县| 璧山县| 汶川县| 勐海县| 疏勒县| 定结县| 天峨县| 登封市| 泰兴市| 建阳市| 保定市| 错那县|