謝蕙 李峰 穆文慧
摘要:研究電子商務(wù)領(lǐng)域口碑數(shù)據(jù)分析的完整流程框架,從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)情感分析再到可視化展示四個流程模塊,重點探討對口碑數(shù)據(jù)進行情感分析的方法和合理的數(shù)據(jù)可視化方案,探索如何把口碑數(shù)據(jù)以更加直觀的可視化形式展示給用戶。
關(guān)鍵詞:口碑數(shù)據(jù);數(shù)據(jù)獲取;預(yù)處理;情感分析;可視化
一、研究背景
近年來,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和居民可支配收入的穩(wěn)定增長,使得網(wǎng)絡(luò)購物成為中國網(wǎng)民不可或缺的消費渠道之一,網(wǎng)購用戶規(guī)模也穩(wěn)定增長。電子商務(wù)的蓬勃發(fā)展豐富了消費者的購物渠道,網(wǎng)絡(luò)購物成為主流消費方式,消費者也越來越喜歡在網(wǎng)絡(luò)平臺上公開分享自己對商品的購買體驗,表達自己對商品的看法。因此,電商平臺上的商品評論信息大量出現(xiàn)。這些口碑數(shù)據(jù)對其他消費者的購買決策產(chǎn)生巨大影響,也使得商家開始關(guān)注用戶對自家產(chǎn)品的口碑數(shù)據(jù),激勵商家將更好的產(chǎn)品展示給消費者,滿足消費者的個性化需求。
二、研究目的和意義
電商平臺擁有數(shù)億的用戶背景,而龐大交易數(shù)據(jù)背后的海量口碑數(shù)據(jù)不容忽視。大量研究顯示,一方面,這些商品口碑數(shù)據(jù)對其他消費者的購買行為和商家的產(chǎn)品銷售產(chǎn)生重要大影響;另一方面,數(shù)量巨大、種類繁多、時效性高的評論數(shù)據(jù),給消費者和商家也帶來了信息過載、檢索低效等問題,大量冗余的評論數(shù)據(jù)嚴重干擾了消費者和商家對目標信息的準確定位和快速選擇。同時,現(xiàn)有的評論數(shù)據(jù)多是文本展示,并且存在大量無效評論和過度的主觀描述等一系列問題,對于想要準確購買目標商品的消費者和要優(yōu)化產(chǎn)品和服務(wù)的商家而言,要獲取準確的評論信息較為困難。
因此,論文研究電商平臺的商品口碑數(shù)據(jù),既可以輔助消費者進行購買決策,又可以幫助商家提取有效的反饋信息進行產(chǎn)品優(yōu)化,具有十分重要的現(xiàn)實意義。
三、研究現(xiàn)狀和趨勢
基于商品口碑數(shù)據(jù)對消費者和商家產(chǎn)生的巨大影響,目前,國內(nèi)外有很多學者從各種角度對互聯(lián)網(wǎng)各大電商平臺數(shù)據(jù)進行分析和研究。
孫妮使用數(shù)據(jù)抓取處理工具和數(shù)據(jù)分析工具研究B2C購物網(wǎng)站消費者的在線評價信息,分析了網(wǎng)絡(luò)購物群體的行為規(guī)律[1]。劉冰等人對喜茶“網(wǎng)紅店”的網(wǎng)絡(luò)口碑數(shù)據(jù)進行分析,挖掘網(wǎng)紅型創(chuàng)業(yè)企業(yè)網(wǎng)絡(luò)口碑中的核心要素,剖析其對消費者購買行為的影響[2]。羅翔曦通過爬蟲程序獲取商品的評價和屬性等基本數(shù)據(jù),提取商品屬性和評價詞,計算出商品的推薦指標[3]。
基于以上研究,論文將以電商平臺的商品口碑數(shù)據(jù)為研究對象,研究對海量口碑數(shù)據(jù)進行情感分析的方法,同時研究數(shù)據(jù)可視化方案,以期輔助消費者快速進行購買決策,幫助商家有效提取反饋信息進行產(chǎn)品優(yōu)化。
四、商品口碑數(shù)據(jù)情感分析及可視化方法研究研究思路
首先通過爬蟲技術(shù)對電子商務(wù)網(wǎng)站爬取商品的用戶評論數(shù)據(jù),對這些數(shù)據(jù)進行去重、壓縮、刪除無效評論等預(yù)處理,然后這些數(shù)據(jù)進行情感分析,建立數(shù)據(jù)模型,獲取商品所具有的優(yōu)缺點,設(shè)計可視化流程,實現(xiàn)可視化圖表方案。論文依據(jù)此研究思路,給出了電子商務(wù)領(lǐng)域口碑數(shù)據(jù)分析的完整流程框架,即從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)情感分析再到可視化展示四個流程模塊,重點研究和探討對口碑數(shù)據(jù)進行情感分析的方法和合理的數(shù)據(jù)可視化方案。
1. 獲取商品口碑數(shù)據(jù)
論文使用Python中的網(wǎng)絡(luò)爬蟲框架爬取商品的口碑數(shù)據(jù),獲取商品的評論信息,將爬取的數(shù)據(jù)結(jié)果存儲在csv文件中。首先利用Chrome瀏覽器對某電子商城的網(wǎng)頁源代碼進行分析,構(gòu)造初始頁面URL,采集店鋪地址URL,找到商品詳情頁URL,抓取第一頁的商品評論信息,判斷該頁是否是評論信息的最后一頁,如果是最后一頁,就結(jié)束爬取,否則,繼續(xù)循環(huán)模擬翻頁,獲取下一頁URL,抓取該頁評論信息,直到爬取到最后一頁,爬取結(jié)束。
2. 口碑數(shù)據(jù)預(yù)處理
最初爬取到的評論數(shù)據(jù)存在較大的重復(fù)評論以及較多的無用評論,這些數(shù)據(jù)將會對數(shù)據(jù)的有效性情感分析產(chǎn)生干擾,因此,要對評論數(shù)據(jù)進行預(yù)處理。預(yù)處理過程主要包括:去重、壓縮、刪除無效評論等。
其中,去重的主要目的是為了去重評論數(shù)據(jù)中的重復(fù)部分,以起到去除重復(fù)評論的作用。本研究去重算法的主要思想是利用算法分析文本之間的相似度,再根據(jù)相似度的高低進行文本去重;
壓縮的主要目的是去掉一條評論語句中連續(xù)出現(xiàn)的重復(fù)內(nèi)容。研究發(fā)現(xiàn),連續(xù)重復(fù)的內(nèi)容會出現(xiàn)在一條評論的開頭或結(jié)尾,所以壓縮操作主要是對語句開頭或結(jié)尾的重復(fù)內(nèi)容進行壓縮處理,以便得到較為精煉的評論語句。
3. 口碑數(shù)據(jù)情感分析方法研究
情感分析的主要目的是識別用戶在評論文本中表達的情感信息,了解人們對于某些事物的偏好或者是對于某些社會現(xiàn)象的觀點。這里需要針對在電子商務(wù)網(wǎng)站獲取的商品評論數(shù)據(jù),對文本進行分詞、詞性標注、提取文本關(guān)鍵詞、進行情感分析等處理,從而對數(shù)據(jù)文本進行褒義、貶義和中性的判斷。
目前常用的數(shù)據(jù)情感分析方法主要有基于情感詞典的數(shù)據(jù)情感分析方法、基于機器學習的數(shù)據(jù)情感分析方法、基于深度學習的數(shù)據(jù)情感分析方法。[4]
(1)基于情感詞典的數(shù)據(jù)情感分析方法
該方法是一種較早的數(shù)據(jù)情感分析方法,首先使用現(xiàn)有的知識資源構(gòu)建情感詞典,然后基于情感詞典,構(gòu)建規(guī)則對數(shù)據(jù)進行情感判斷。該方法需要把詞匯或者詞語根據(jù)情感性進行分類,比如,可以根據(jù)極性分類為積極、消極、中性等類別,構(gòu)建不同的情感詞典。判斷情感類別時,可以根據(jù)該詞包含的明確情感性得分標記該詞的極性。
(2)基于機器學習的數(shù)據(jù)情感分析方法
該方法首先提取合適的特征,然后設(shè)計分類算法,建立數(shù)據(jù)分類模型,根據(jù)特征項進行數(shù)據(jù)分類。這里的特征提取,其實是一種降維方法,通過統(tǒng)計學方法對特征詞進行選取,抽取隱含的知識規(guī)則,挖掘詞義的信息,獲取情感分析模型中更有價值的數(shù)據(jù)特征,即提升機器學習模型的效果。
(3)基于深度學習的數(shù)據(jù)情感分析方法
宋帆在“基于深度學習的商品評論情感分析方法研究”中提出基于深度學習的數(shù)據(jù)情感分析方法,該方法可以學習模仿人類的認知習慣,把特征提取和分類建模緊密關(guān)聯(lián),并且通過網(wǎng)絡(luò)參數(shù)學習自動提取特征項。深度學習囊括機器學習領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)旨在效仿人的大腦對信息的分析、加工、處理過程,獲取有價值的特征。
基于情感詞典的數(shù)據(jù)情感分析方法和基于機器學習的數(shù)據(jù)情感分析方法都要依賴于實現(xiàn)劃分好的情感字典或特征項,情感字典或特征項對情感判斷有著關(guān)鍵影響。而基于深度學習的數(shù)據(jù)情感分析方法,可以學習模仿人類認知習慣,將特征提取和分類建模緊密關(guān)聯(lián),通過網(wǎng)絡(luò)參數(shù)學習自動提取特征,針對分類模型設(shè)計合理的學習網(wǎng)絡(luò)結(jié)構(gòu),能更好地應(yīng)對商品評論信息中的語句的歧義性、多意性、情感反置等現(xiàn)象。
4. 數(shù)據(jù)的可視化分析方法研究
數(shù)據(jù)可視化是利用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù),把分析得到的口碑數(shù)據(jù)以直觀的可視化圖表形式展示在用戶面前時,用戶便能快速獲取數(shù)據(jù)背后隱藏的信息,以提高獲取數(shù)據(jù)價值的準確性和效率,獲得更好的用戶體驗。
(1)詞云圖
詞云圖是口碑數(shù)據(jù)可視化研究中心常用的一種工具。對口碑數(shù)據(jù)進行情感分析以后,按照詞頻降序排列,畫出排序較靠前的詞匯的詞云圖,根據(jù)詞語情感分類不同,可以分別畫出正面評論詞云圖和負面評論詞云圖。詞云圖能直觀地把高頻詞匯通過顏色和大小展現(xiàn)給觀眾,能夠?qū)⑽谋拘畔⒏又庇^、準確地呈現(xiàn)出來。
(2)可視化模型技術(shù)[5]
可以選擇使用一些可視化模型技術(shù)突出數(shù)據(jù)與數(shù)據(jù)之間的特性。比如,圖表類、抽象類似物、具象類似物、隱喻圖案等這些經(jīng)典的可視化模型也通過不同的展示方式暗示了數(shù)據(jù)間的聯(lián)系。
其中,圖表類是一種較常用的數(shù)據(jù)可視化方法,可以突出顯示數(shù)據(jù)分析結(jié)論的科學性,同時也有助于在進行數(shù)據(jù)分析的過程中輔助觀眾發(fā)現(xiàn)數(shù)據(jù)的關(guān)鍵信息,便于進行探索式的數(shù)據(jù)發(fā)現(xiàn)。
五、結(jié)論
論文提出了電子商務(wù)領(lǐng)域口碑數(shù)據(jù)分析的完整流程框架,即從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)情感分析再到可視化展示四個流程模塊。電商大數(shù)據(jù)作為一個擁有龐大數(shù)據(jù)規(guī)模的產(chǎn)業(yè),將其有效應(yīng)用將對電商行業(yè)產(chǎn)生巨大影響,本論文所研究的口碑數(shù)據(jù)的情感分析和可視化分析是其中非常重要的內(nèi)容,在精準策劃、精準營銷、提升用戶體驗、提高數(shù)據(jù)服務(wù)等方面都有廣泛的應(yīng)用前景。
參考文獻
[1]基于B2C網(wǎng)站商品咨詢和評論的網(wǎng)絡(luò)消費者行為規(guī)律研究.孫妮;陳進;汪菲.圖書情報工作.2014-06-15.152-156.
[2]喜茶“網(wǎng)紅店”網(wǎng)絡(luò)口碑的大數(shù)據(jù)分析.劉冰;張華思;羅超亮.廣西民族大學學報(哲學社會科學版).2018-11-15. 118-126.
[3]多屬性電商信息采集和推薦系統(tǒng)研究.羅翔曦.云南大學.碩士論文.2018-05.
[4]基于深度學習的商品評論情感分析方法研究.宋帆.陜西科技大學.碩士論文.2020-05.
[5]大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析與可視化核心技術(shù)研究.王宇寧.北京郵電大學.碩士論文.2015-12.
1112500520352