• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM的商品評論情感研究

      2021-03-13 14:38:43韓美玉
      現(xiàn)代信息科技 2021年15期

      摘? 要:為充分挖掘用戶對網(wǎng)購商品的評論信息,為消費(fèi)者的購買決策提供參考,同時(shí)幫助商家改進(jìn)自身產(chǎn)品、提高市場競爭力,文章提出一種基于支持向量機(jī)(SVM)的細(xì)粒度商品評論情感分析方法。首先,使用Python中的網(wǎng)絡(luò)爬蟲獲取京東某品牌的冰箱評論信息作為語料庫并對其進(jìn)行預(yù)處理,將語料數(shù)據(jù)分為訓(xùn)練集和測試集;接著,通過特征選擇對詞匯集做降維處理并使用支持向量機(jī)(SVM)的算法對商品評論信息進(jìn)行情感分類;最后,統(tǒng)計(jì)包含每個(gè)基本屬性和其擴(kuò)充的特征詞集的正面評論個(gè)數(shù)及負(fù)面評論個(gè)數(shù),分析并給出結(jié)論。

      關(guān)鍵詞:SVM;文本情感研究;商品評論情感研究

      中圖分類號:TP181? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2021)15-0122-03

      Abstract: In order to fully mine the online shopping comment information of a certain product, provide reference for consumers’ purchase decision, and help merchants improve their own products and enhance market competitiveness, this paper proposes a fine-grained sentiment analysis method of product comment based on support vector machine (SVM). Firstly, the network crawler in Python is used to obtain the comments of a refrigerator of Jingdong brand as a corpus. The corpus data is divided into training set and test set, and the corpus is preprocessed. Secondly, feature selection is used to reduce the dimension of the word collection and support vector machine (SVM) algorithm is used to classify the product review information. Finally, the number of positive comments and negative comments of each basic attribute and it’s expanded feature word set are counted, analyzed and concluded.

      Keywords: SVM; text emotion research; goods comments emotion research

      0? 引? 言

      隨著電子商務(wù)的發(fā)展,在線購物成為人們生活中的常態(tài),消費(fèi)者在購買商品后往往會(huì)對商品作出評價(jià),這些網(wǎng)購評論信息中包含了對所購商品的情感,充分挖掘和利用這些評價(jià)信息能夠?yàn)樵诰€購物的誠信交易提供參考。對于潛在的消費(fèi)者來說,可以借助評價(jià)信息進(jìn)一步了解商品;對于商家來說,能夠督促其改進(jìn)自身產(chǎn)品、提高市場競爭力。然而,從商品評價(jià)中挖掘出結(jié)構(gòu)化信息的工作卻無法依賴于人工,文本的挖掘和情感研究能夠?yàn)榻鉀Q這一問題提供有效的手段。

      1? 國內(nèi)外研究現(xiàn)狀

      近年來,對文本挖掘和自然語言處理技術(shù)的相關(guān)研究迅速崛起,而其中的情感分析研究更是一個(gè)廣為研究者研究的活躍領(lǐng)域。目前,對情感分析的研究主要包括基于詞典、基于機(jī)器學(xué)習(xí)及基于深度學(xué)習(xí)這三個(gè)方面,本文研究的內(nèi)容屬基于機(jī)器學(xué)習(xí)的情感分析。Pang等以影評信息作為語料,對比分析了四個(gè)文本分類算法的效果,給出了支持向量機(jī)(SVM)的分類效果最優(yōu)的結(jié)論[1]。李明等比較了樸素貝葉斯、決策樹、支持向量機(jī)(SVM)、K最鄰近算法( KNN)四種常用的情感分類算法,實(shí)驗(yàn)發(fā)現(xiàn)支持向量機(jī)(SVM)的召回率和精確率最高,均達(dá)到94.5%[2]。支持向量機(jī)(SVM)最初由Vapnik提出,它能夠保證在特征空間中建構(gòu)最優(yōu)分類超平面,實(shí)現(xiàn)在統(tǒng)計(jì)樣本量較少的情況下具有良好的統(tǒng)計(jì)規(guī)律。本文使用支持向量機(jī)(SVM)對商品評論進(jìn)行情感分析,開展商品評論情感分析和統(tǒng)計(jì)的研究。

      2? 基于SVM的商品評論情感研究

      本文的商品評論情感分析包括下述四個(gè)方面:

      (1)語料庫的準(zhǔn)備。使用Python中的網(wǎng)絡(luò)爬蟲獲取京東在售的海爾冰箱BCD-506WSEBU1商品評論信息作為語料庫,將語料數(shù)據(jù)分為訓(xùn)練集和測試集,對語料庫進(jìn)行預(yù)處理。具體包括以下步驟:

      首先,獲取原始數(shù)據(jù)。使用爬蟲模擬人工登錄的過程,獲取型號為BCD-506WSEBU1的冰箱的評論原始數(shù)據(jù),包括發(fā)起請求、獲取響應(yīng)、解析數(shù)據(jù)和保存數(shù)據(jù)四個(gè)過程。發(fā)起請求即發(fā)起Request請求,在京東網(wǎng)站中找到目標(biāo)商品的評論信息并使其加載數(shù)據(jù),借助瀏覽器的開發(fā)者工具抓包并獲取該冰箱評論信息的真實(shí)URL地址,使用Python中的Request庫發(fā)起HTTP請求,獲取到j(luò)son字符串形式的響應(yīng)內(nèi)容。最后,將json字符串的響應(yīng)內(nèi)容解析并保存在本地即獲取了本研究的原始數(shù)據(jù),實(shí)現(xiàn)代碼見下:

      import requests

      import json

      import time

      import random

      headers = {

      ‘User-Agent’ Mozilla/5.0 (Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/80.0.3987.100 Safari/537.36

      }

      def spider_comment(page=0):

      url=

      ‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100008568481&score=0&sortType=5&page=%s&pageSize=10&isShadowSku=0&rid=0&fold=1’% page

      try:

      r = requests.get(url,headers=headers)

      r.raise_for_status()

      except:

      print(“error”)

      # 將json轉(zhuǎn)換為python對象

      json_obj = json.loads(json_str)

      # 獲取評價(jià)列表

      comments = json_obj[‘comments’]

      # 遍歷列表并寫入

      for comment in comments:

      with open(‘E:/python/comments.txt’,’a+’) as f:

      f.write(comment[‘content’])

      f.write(‘\n’)

      def change_page():

      for i in range(100):

      spider_comment(i)

      time.sleep(random.random( ) * 5)

      print(“ok”)

      if __name__ == ‘__main__’:

      # spider_comment( )

      change_page( )

      第二,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清理。包括識別字符串的語言類型,剔除提取到的中文評論中混雜的英文信息及廣告信息。此外,由于電商平臺對于評論字?jǐn)?shù)達(dá)到一定要求的評論給予獎(jiǎng)勵(lì),導(dǎo)致評論中有較多無意義的感嘆詞,剔除這些無意義的感嘆詞。

      第三,將經(jīng)數(shù)據(jù)清理后的原始數(shù)據(jù)分為訓(xùn)練集和測試集,并進(jìn)行分詞處理。

      (2)特征選擇。在進(jìn)行分類算法之前,需要將高維稀疏空間映射為低維稠密空間,從特征空間中擇優(yōu)選擇一部分特征子集。本研究選用基于特征頻率-倒文檔頻率(TF-IDF)的方法構(gòu)造特征項(xiàng)。TF-IDF的核心思想是:最有意義的特征項(xiàng)應(yīng)該選用在當(dāng)前文本中出現(xiàn)頻率最高而在其他文本中出現(xiàn)頻率足夠小的詞語。通過TF-IDF方法構(gòu)造的特征項(xiàng)具有區(qū)分性強(qiáng),適于分類的特點(diǎn)。假定特征集合為(t1,t2,…tn),可以將特征集合看作一個(gè)詞表,整個(gè)文本為d。特征頻率(TF)表示該特征項(xiàng)在當(dāng)前文本中出現(xiàn)的次數(shù),可以根據(jù)公式(1)計(jì)算,TF越大,代表其重要性越大。倒文檔頻率(IDF)表示了特征項(xiàng)在整個(gè)語料庫中的全局性統(tǒng)計(jì)特征,可以根據(jù)公式(2)計(jì)算。TF-IDF定義為TF與IDF的乘積,可以根據(jù)公式(3)計(jì)算為:

      根據(jù)公式(3)計(jì)算分詞后的TF-IDF值,取前5個(gè)特征詞并建立向量空間模型。

      (3)使用支持向量機(jī)(SVM)的算法對商品評論信息進(jìn)行情感分類。本研究使用SVM分類器對訓(xùn)練集數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后對測試集進(jìn)行結(jié)果預(yù)測,得到分類結(jié)果。

      SVM是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中經(jīng)典的算法,而基于線性核函數(shù)的支持向量機(jī)算法適用于文本分類,SVM是一種兩分類任務(wù)的線性分類模型,其分類準(zhǔn)則為最大間隔準(zhǔn)則[3]。其中,SVM通過拉格朗日對偶法對問題進(jìn)行高效的求解,對偶問題符合KTT條件,當(dāng)KTT條件成立時(shí),拉格朗日乘子ai不為0,得到分類決策函數(shù)為公式(4):

      (4)統(tǒng)計(jì)每個(gè)屬性及其擴(kuò)充的特征詞集的積極評價(jià)和負(fù)面評價(jià)的數(shù)量,分析數(shù)據(jù)并給出結(jié)論。

      技術(shù)路線圖如圖1所示:

      3? 實(shí)驗(yàn)及分析

      本實(shí)驗(yàn)主要分為三部分:第一,對語料數(shù)據(jù)的準(zhǔn)備及預(yù)處理工作;第二,對高維的特征空間進(jìn)行降維,進(jìn)行特征選擇;第三,選取支持向量機(jī)(SVM)的機(jī)器學(xué)習(xí)算法對冰箱的評論信息開展情感分析及統(tǒng)計(jì)工作。

      3.1? 語料數(shù)據(jù)的預(yù)處理

      本文選取京東在售型號為BCD-506WSEBU1的海爾冰箱商品評論信息為研究對象,開展對該商品評論的情感分類研究。本實(shí)驗(yàn)挖掘1 000條原始評論信息,其中訓(xùn)練集共800條,測試集200條,并對數(shù)據(jù)進(jìn)行人工標(biāo)注,實(shí)驗(yàn)數(shù)據(jù)構(gòu)成如表1所示。本研究將評論內(nèi)容只包含正面評價(jià)或者負(fù)面評價(jià)的評論數(shù)據(jù)抽取出來,僅保留那些情感傾向較為明確的評論信息。

      3.2? 特征提取

      通過隨機(jī)抽樣分析發(fā)現(xiàn)評論語句中的情感詞一般與商品屬性相關(guān)。而根據(jù)中文的表達(dá)習(xí)慣,商品的特征屬性一般是名詞,最后,根據(jù)冰箱的產(chǎn)品說明書和基于TF-IDF的方法,構(gòu)建冰箱的特征屬性有外觀、價(jià)格、噪音、質(zhì)量、服務(wù)五類,并建立向量空間模型。

      3.3? 針對冰箱屬性特征的商品評論情感分析實(shí)驗(yàn)

      文本經(jīng)過文本表示和特征選擇后就可以選取支持向量機(jī)(SVM)的機(jī)器學(xué)習(xí)算法進(jìn)行分類研究[4]。使用PMI算法計(jì)算每個(gè)特征屬性與特征詞的相關(guān)程度,取相關(guān)程度較高的前25個(gè)特征詞。構(gòu)造基于SVM的情感分類模型,并將測試集投入構(gòu)建好的情感分類模型中。為了更明確用戶對冰箱屬性相關(guān)的特征詞的情感態(tài)度,分別統(tǒng)計(jì)了每個(gè)屬性及其相關(guān)特征的積極評價(jià)及負(fù)面評價(jià)的數(shù)量,如表2所示。

      通過上述的評論統(tǒng)計(jì)分析可以明顯看出,用戶對冰箱外觀和質(zhì)量持負(fù)面情感的人數(shù)較多,說明用戶對這款冰箱的質(zhì)量并不是很看好;而在物流、服務(wù)和價(jià)格上多數(shù)人持積極情感,表明該冰箱定價(jià)合理,服務(wù)及物流都做得不錯(cuò)。因此,該品牌商家應(yīng)該在冰箱的質(zhì)量方面努力提升,提高用戶滿意度,提升銷量。

      4? 結(jié)? 論

      本文采用基于SVM的算法進(jìn)行文本特征選擇并使用PMI算法擴(kuò)展了商品的屬性特征,以京東在售型號為BCD-506WSEBU1的海爾冰箱為研究對象,對其屬性特征進(jìn)行文本情感分析和統(tǒng)計(jì)。商品屬性特征的評論情感分析對商家和消費(fèi)者都具有重要意義。對于潛在的消費(fèi)者來說,可以借助評價(jià)信息進(jìn)一步了解商品;對于商家來說,能夠督促其改進(jìn)自身產(chǎn)品、提高市場競爭力。本研究的商品評論情感分析僅從積極情感和消極情感兩個(gè)方面進(jìn)行,然而情感是非常復(fù)雜的,因此,后續(xù)研究可以考慮細(xì)化的情感分類研究。

      參考文獻(xiàn):

      [1] PANG B,LEE L,VAITHYANATHAN S.Thumbs up Sentiment classification using machine learning techniques [C]//Computation and Language,may28,2002.

      [2] 李明,胡吉霞,侯琳娜,等.商品評論情感傾向性分析 [J].計(jì)算機(jī)應(yīng)用,2019,39(S2):15-19.

      [3] 宗成慶,夏睿,張家俊.文本數(shù)據(jù)挖掘 [M].北京:清華大學(xué)出版社,2019:65-67.

      [4] 肖江,王曉進(jìn).基于SVM的在線商品評論的情感傾向性分析 [J].信息技術(shù),2016(7):172-175.

      [5] 劉若雨.基于電商評論文本的用戶情感分析 [J].現(xiàn)代信息科技,2021,5(4):85-87+92.

      作者簡介:韓美玉(1991—),女,漢族,寧夏銀川人,助教,碩士研究生,研究方向:文本情感研究。

      3686500338252

      思茅市| 顺义区| 积石山| 同德县| 南皮县| 客服| 亚东县| 金塔县| 迁安市| 长丰县| 景谷| 平乐县| 谷城县| 韶山市| 开平市| 剑川县| 文昌市| 盐源县| 揭东县| 鱼台县| 建德市| 唐海县| 安顺市| 蕲春县| 延寿县| 玉门市| 凌源市| 新营市| 保靖县| 白山市| 大理市| 广昌县| 锦州市| 南城县| 丹棱县| 犍为县| 临沧市| 海安县| 保山市| 北安市| 当阳市|