• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      商品口碑數(shù)據(jù)情感分析及可視化方法研究

      2022-03-21 02:01:29謝蕙李峰穆文慧
      中學生學習報 2022年1期
      關(guān)鍵詞:情感分析預(yù)處理可視化

      謝蕙 李峰 穆文慧

      摘要:研究電子商務(wù)領(lǐng)域口碑數(shù)據(jù)分析的完整流程框架,從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)情感分析再到可視化展示四個流程模塊,重點探討對口碑數(shù)據(jù)進行情感分析的方法和合理的數(shù)據(jù)可視化方案,探索如何把口碑數(shù)據(jù)以更加直觀的可視化形式展示給用戶。

      關(guān)鍵詞:口碑數(shù)據(jù);數(shù)據(jù)獲取;預(yù)處理;情感分析;可視化

      一、研究背景

      近年來,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和居民可支配收入的穩(wěn)定增長,使得網(wǎng)絡(luò)購物成為中國網(wǎng)民不可或缺的消費渠道之一,網(wǎng)購用戶規(guī)模也穩(wěn)定增長。電子商務(wù)的蓬勃發(fā)展豐富了消費者的購物渠道,網(wǎng)絡(luò)購物成為主流消費方式,消費者也越來越喜歡在網(wǎng)絡(luò)平臺上公開分享自己對商品的購買體驗,表達自己對商品的看法。因此,電商平臺上的商品評論信息大量出現(xiàn)。這些口碑數(shù)據(jù)對其他消費者的購買決策產(chǎn)生巨大影響,也使得商家開始關(guān)注用戶對自家產(chǎn)品的口碑數(shù)據(jù),激勵商家將更好的產(chǎn)品展示給消費者,滿足消費者的個性化需求。

      二、研究目的和意義

      電商平臺擁有數(shù)億的用戶背景,而龐大交易數(shù)據(jù)背后的海量口碑數(shù)據(jù)不容忽視。大量研究顯示,一方面,這些商品口碑數(shù)據(jù)對其他消費者的購買行為和商家的產(chǎn)品銷售產(chǎn)生重要大影響;另一方面,數(shù)量巨大、種類繁多、時效性高的評論數(shù)據(jù),給消費者和商家也帶來了信息過載、檢索低效等問題,大量冗余的評論數(shù)據(jù)嚴重干擾了消費者和商家對目標信息的準確定位和快速選擇。同時,現(xiàn)有的評論數(shù)據(jù)多是文本展示,并且存在大量無效評論和過度的主觀描述等一系列問題,對于想要準確購買目標商品的消費者和要優(yōu)化產(chǎn)品和服務(wù)的商家而言,要獲取準確的評論信息較為困難。

      因此,論文研究電商平臺的商品口碑數(shù)據(jù),既可以輔助消費者進行購買決策,又可以幫助商家提取有效的反饋信息進行產(chǎn)品優(yōu)化,具有十分重要的現(xiàn)實意義。

      三、研究現(xiàn)狀和趨勢

      基于商品口碑數(shù)據(jù)對消費者和商家產(chǎn)生的巨大影響,目前,國內(nèi)外有很多學者從各種角度對互聯(lián)網(wǎng)各大電商平臺數(shù)據(jù)進行分析和研究。

      孫妮使用數(shù)據(jù)抓取處理工具和數(shù)據(jù)分析工具研究B2C購物網(wǎng)站消費者的在線評價信息,分析了網(wǎng)絡(luò)購物群體的行為規(guī)律[1]。劉冰等人對喜茶“網(wǎng)紅店”的網(wǎng)絡(luò)口碑數(shù)據(jù)進行分析,挖掘網(wǎng)紅型創(chuàng)業(yè)企業(yè)網(wǎng)絡(luò)口碑中的核心要素,剖析其對消費者購買行為的影響[2]。羅翔曦通過爬蟲程序獲取商品的評價和屬性等基本數(shù)據(jù),提取商品屬性和評價詞,計算出商品的推薦指標[3]。

      基于以上研究,論文將以電商平臺的商品口碑數(shù)據(jù)為研究對象,研究對海量口碑數(shù)據(jù)進行情感分析的方法,同時研究數(shù)據(jù)可視化方案,以期輔助消費者快速進行購買決策,幫助商家有效提取反饋信息進行產(chǎn)品優(yōu)化。

      四、商品口碑數(shù)據(jù)情感分析及可視化方法研究研究思路

      首先通過爬蟲技術(shù)對電子商務(wù)網(wǎng)站爬取商品的用戶評論數(shù)據(jù),對這些數(shù)據(jù)進行去重、壓縮、刪除無效評論等預(yù)處理,然后這些數(shù)據(jù)進行情感分析,建立數(shù)據(jù)模型,獲取商品所具有的優(yōu)缺點,設(shè)計可視化流程,實現(xiàn)可視化圖表方案。論文依據(jù)此研究思路,給出了電子商務(wù)領(lǐng)域口碑數(shù)據(jù)分析的完整流程框架,即從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)情感分析再到可視化展示四個流程模塊,重點研究和探討對口碑數(shù)據(jù)進行情感分析的方法和合理的數(shù)據(jù)可視化方案。

      1. 獲取商品口碑數(shù)據(jù)

      論文使用Python中的網(wǎng)絡(luò)爬蟲框架爬取商品的口碑數(shù)據(jù),獲取商品的評論信息,將爬取的數(shù)據(jù)結(jié)果存儲在csv文件中。首先利用Chrome瀏覽器對某電子商城的網(wǎng)頁源代碼進行分析,構(gòu)造初始頁面URL,采集店鋪地址URL,找到商品詳情頁URL,抓取第一頁的商品評論信息,判斷該頁是否是評論信息的最后一頁,如果是最后一頁,就結(jié)束爬取,否則,繼續(xù)循環(huán)模擬翻頁,獲取下一頁URL,抓取該頁評論信息,直到爬取到最后一頁,爬取結(jié)束。

      2. 口碑數(shù)據(jù)預(yù)處理

      最初爬取到的評論數(shù)據(jù)存在較大的重復(fù)評論以及較多的無用評論,這些數(shù)據(jù)將會對數(shù)據(jù)的有效性情感分析產(chǎn)生干擾,因此,要對評論數(shù)據(jù)進行預(yù)處理。預(yù)處理過程主要包括:去重、壓縮、刪除無效評論等。

      其中,去重的主要目的是為了去重評論數(shù)據(jù)中的重復(fù)部分,以起到去除重復(fù)評論的作用。本研究去重算法的主要思想是利用算法分析文本之間的相似度,再根據(jù)相似度的高低進行文本去重;

      壓縮的主要目的是去掉一條評論語句中連續(xù)出現(xiàn)的重復(fù)內(nèi)容。研究發(fā)現(xiàn),連續(xù)重復(fù)的內(nèi)容會出現(xiàn)在一條評論的開頭或結(jié)尾,所以壓縮操作主要是對語句開頭或結(jié)尾的重復(fù)內(nèi)容進行壓縮處理,以便得到較為精煉的評論語句。

      3. 口碑數(shù)據(jù)情感分析方法研究

      情感分析的主要目的是識別用戶在評論文本中表達的情感信息,了解人們對于某些事物的偏好或者是對于某些社會現(xiàn)象的觀點。這里需要針對在電子商務(wù)網(wǎng)站獲取的商品評論數(shù)據(jù),對文本進行分詞、詞性標注、提取文本關(guān)鍵詞、進行情感分析等處理,從而對數(shù)據(jù)文本進行褒義、貶義和中性的判斷。

      目前常用的數(shù)據(jù)情感分析方法主要有基于情感詞典的數(shù)據(jù)情感分析方法、基于機器學習的數(shù)據(jù)情感分析方法、基于深度學習的數(shù)據(jù)情感分析方法。[4]

      (1)基于情感詞典的數(shù)據(jù)情感分析方法

      該方法是一種較早的數(shù)據(jù)情感分析方法,首先使用現(xiàn)有的知識資源構(gòu)建情感詞典,然后基于情感詞典,構(gòu)建規(guī)則對數(shù)據(jù)進行情感判斷。該方法需要把詞匯或者詞語根據(jù)情感性進行分類,比如,可以根據(jù)極性分類為積極、消極、中性等類別,構(gòu)建不同的情感詞典。判斷情感類別時,可以根據(jù)該詞包含的明確情感性得分標記該詞的極性。

      (2)基于機器學習的數(shù)據(jù)情感分析方法

      該方法首先提取合適的特征,然后設(shè)計分類算法,建立數(shù)據(jù)分類模型,根據(jù)特征項進行數(shù)據(jù)分類。這里的特征提取,其實是一種降維方法,通過統(tǒng)計學方法對特征詞進行選取,抽取隱含的知識規(guī)則,挖掘詞義的信息,獲取情感分析模型中更有價值的數(shù)據(jù)特征,即提升機器學習模型的效果。

      (3)基于深度學習的數(shù)據(jù)情感分析方法

      宋帆在“基于深度學習的商品評論情感分析方法研究”中提出基于深度學習的數(shù)據(jù)情感分析方法,該方法可以學習模仿人類的認知習慣,把特征提取和分類建模緊密關(guān)聯(lián),并且通過網(wǎng)絡(luò)參數(shù)學習自動提取特征項。深度學習囊括機器學習領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)旨在效仿人的大腦對信息的分析、加工、處理過程,獲取有價值的特征。

      基于情感詞典的數(shù)據(jù)情感分析方法和基于機器學習的數(shù)據(jù)情感分析方法都要依賴于實現(xiàn)劃分好的情感字典或特征項,情感字典或特征項對情感判斷有著關(guān)鍵影響。而基于深度學習的數(shù)據(jù)情感分析方法,可以學習模仿人類認知習慣,將特征提取和分類建模緊密關(guān)聯(lián),通過網(wǎng)絡(luò)參數(shù)學習自動提取特征,針對分類模型設(shè)計合理的學習網(wǎng)絡(luò)結(jié)構(gòu),能更好地應(yīng)對商品評論信息中的語句的歧義性、多意性、情感反置等現(xiàn)象。

      4. 數(shù)據(jù)的可視化分析方法研究

      數(shù)據(jù)可視化是利用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù),把分析得到的口碑數(shù)據(jù)以直觀的可視化圖表形式展示在用戶面前時,用戶便能快速獲取數(shù)據(jù)背后隱藏的信息,以提高獲取數(shù)據(jù)價值的準確性和效率,獲得更好的用戶體驗。

      (1)詞云圖

      詞云圖是口碑數(shù)據(jù)可視化研究中心常用的一種工具。對口碑數(shù)據(jù)進行情感分析以后,按照詞頻降序排列,畫出排序較靠前的詞匯的詞云圖,根據(jù)詞語情感分類不同,可以分別畫出正面評論詞云圖和負面評論詞云圖。詞云圖能直觀地把高頻詞匯通過顏色和大小展現(xiàn)給觀眾,能夠?qū)⑽谋拘畔⒏又庇^、準確地呈現(xiàn)出來。

      (2)可視化模型技術(shù)[5]

      可以選擇使用一些可視化模型技術(shù)突出數(shù)據(jù)與數(shù)據(jù)之間的特性。比如,圖表類、抽象類似物、具象類似物、隱喻圖案等這些經(jīng)典的可視化模型也通過不同的展示方式暗示了數(shù)據(jù)間的聯(lián)系。

      其中,圖表類是一種較常用的數(shù)據(jù)可視化方法,可以突出顯示數(shù)據(jù)分析結(jié)論的科學性,同時也有助于在進行數(shù)據(jù)分析的過程中輔助觀眾發(fā)現(xiàn)數(shù)據(jù)的關(guān)鍵信息,便于進行探索式的數(shù)據(jù)發(fā)現(xiàn)。

      五、結(jié)論

      論文提出了電子商務(wù)領(lǐng)域口碑數(shù)據(jù)分析的完整流程框架,即從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)情感分析再到可視化展示四個流程模塊。電商大數(shù)據(jù)作為一個擁有龐大數(shù)據(jù)規(guī)模的產(chǎn)業(yè),將其有效應(yīng)用將對電商行業(yè)產(chǎn)生巨大影響,本論文所研究的口碑數(shù)據(jù)的情感分析和可視化分析是其中非常重要的內(nèi)容,在精準策劃、精準營銷、提升用戶體驗、提高數(shù)據(jù)服務(wù)等方面都有廣泛的應(yīng)用前景。

      參考文獻

      [1]基于B2C網(wǎng)站商品咨詢和評論的網(wǎng)絡(luò)消費者行為規(guī)律研究.孫妮;陳進;汪菲.圖書情報工作.2014-06-15.152-156.

      [2]喜茶“網(wǎng)紅店”網(wǎng)絡(luò)口碑的大數(shù)據(jù)分析.劉冰;張華思;羅超亮.廣西民族大學學報(哲學社會科學版).2018-11-15. 118-126.

      [3]多屬性電商信息采集和推薦系統(tǒng)研究.羅翔曦.云南大學.碩士論文.2018-05.

      [4]基于深度學習的商品評論情感分析方法研究.宋帆.陜西科技大學.碩士論文.2020-05.

      [5]大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析與可視化核心技術(shù)研究.王宇寧.北京郵電大學.碩士論文.2015-12.

      1112500520352

      猜你喜歡
      情感分析預(yù)處理可視化
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
      基于詞典與機器學習的中文微博情感分析
      在線評論情感屬性的動態(tài)變化
      預(yù)測(2016年5期)2016-12-26 17:16:57
      淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
      文本觀點挖掘和情感分析的研究
      都匀市| 柯坪县| 红原县| 上饶县| 南投县| 惠来县| 东城区| 四平市| 龙胜| 额济纳旗| 合川市| 德令哈市| 清流县| 陆河县| 汤原县| 宁河县| 禹城市| 辽宁省| 保亭| 哈尔滨市| 白山市| 巨野县| 旬邑县| 闸北区| 阳春市| 瑞丽市| 石嘴山市| 玉门市| 恩平市| 晋江市| 兴山县| 饶阳县| 台东县| 昌乐县| 资源县| 房产| 始兴县| 兴海县| 南江县| 余干县| 阿勒泰市|