宋 揚(yáng),唐輝軍,楊 孝(寧波大紅鷹學(xué)院信息工程學(xué)院,寧波315175)
電子商務(wù)中的評價(jià)口碑?dāng)?shù)據(jù)分析關(guān)鍵技術(shù)研究
宋揚(yáng),唐輝軍,楊孝
(寧波大紅鷹學(xué)院信息工程學(xué)院,寧波315175)
隨著我國網(wǎng)絡(luò)經(jīng)濟(jì)的快速發(fā)展以及網(wǎng)上購物市場需求規(guī)模的不斷擴(kuò)大,電商產(chǎn)品的滿意度日益成為被關(guān)注的主要問題。在網(wǎng)絡(luò)購物日益流行的今天,各類電商、商品不斷涌現(xiàn)。為幫助用戶在海量商品中選購到真正適合自身的商品,協(xié)助商家在制定商品營銷策略時(shí),方便、快捷地獲取商品的消費(fèi)者反響,自動化的觀點(diǎn)挖掘變得越來越迫切需要。電子商務(wù)評價(jià)口碑?dāng)?shù)據(jù)挖掘技術(shù)的提出,為解決該問題提供方向。
電子商務(wù);評論信息;口碑搜索;經(jīng)營決策
2014年浙江省大學(xué)生科技創(chuàng)新活動計(jì)劃暨新苗人才計(jì)劃(No.2014R423003)
電子商務(wù)的誕生催生了網(wǎng)絡(luò)經(jīng)濟(jì)的繁榮,也帶給了個(gè)人購物的便捷性和低成本性。根據(jù)數(shù)據(jù)統(tǒng)計(jì),2014全年網(wǎng)購電商交易額突破12.3萬億,網(wǎng)絡(luò)購物的影響力由此可見一斑。在網(wǎng)絡(luò)購物浪潮中,網(wǎng)民們經(jīng)常會對商品的評價(jià)、商品的銷量、店鋪信譽(yù)等比較關(guān)注,并以此作為自己購物的信任首選。賣家也會積極應(yīng)對買家的口碑評價(jià)調(diào)整自己的經(jīng)營策略。淘寶、京東、易迅等眾多電子商務(wù)網(wǎng)站平臺的迅猛崛起,使得商品的展示和銷售絕非在某一特定平臺上,絕大多數(shù)商家選擇在各個(gè)電商平臺上進(jìn)行鋪貨銷售。買家的商品評價(jià)是電商制定運(yùn)行規(guī)則和賣家銷售商品中最重視的信息。
由于目前電子商務(wù)平臺種類繁多,用戶選擇的余地較大,但也相對地造成了某類商品價(jià)格、物流服務(wù)的不統(tǒng)一性,這對一些由于網(wǎng)絡(luò)知識和計(jì)算機(jī)操作相對薄弱的、網(wǎng)絡(luò)安全意識比較差的網(wǎng)購用戶,難以快速、直觀地獲取他們感興趣商品的關(guān)鍵信息,從而無法迅速找到性價(jià)比高的網(wǎng)購商品,甚至出現(xiàn)在網(wǎng)購過程中直接碰到釣魚網(wǎng)站或詐騙網(wǎng)站,造成了一定的經(jīng)濟(jì)損失。這種情況嚴(yán)重影響了電子商務(wù)的發(fā)展,如何快速定位顧客的需求商品信息,商家如何面對口碑開展商務(wù)決策,成了網(wǎng)絡(luò)購物中買賣雙方共同面對的問題。
口碑評論信息是消費(fèi)者在網(wǎng)購結(jié)束并確認(rèn)收貨后通過網(wǎng)絡(luò)交流的所有關(guān)于產(chǎn)品和服務(wù)的具體特性的信息,其中包括消費(fèi)者對本次消費(fèi)商品的質(zhì)量、體驗(yàn)描述等評價(jià)信息[1]。從信息的產(chǎn)生和運(yùn)行過程來分析其主要包括對產(chǎn)品、服務(wù)等的評價(jià),已經(jīng)完成網(wǎng)絡(luò)購物的消費(fèi)者給商品的評論信息一定程度上給后續(xù)購買的消費(fèi)者提供一定的提示信息導(dǎo)向,消費(fèi)者根據(jù)商品的評論進(jìn)行網(wǎng)購,很好地降低了消費(fèi)者的搜尋成本,提高網(wǎng)購消費(fèi)效率,因此哪些因素影響消費(fèi)者,成為了現(xiàn)在研究的主題之一[3~4]。評價(jià)信息除了對后續(xù)購買者有一定的輿論導(dǎo)向外,賣家也可以并根據(jù)有用的評論信息,分析相關(guān)數(shù)據(jù)進(jìn)而做出經(jīng)營戰(zhàn)略調(diào)整[2],把產(chǎn)品更好更大規(guī)模地推廣出去。網(wǎng)絡(luò)市場是個(gè)信息不對稱的市場,賣方對產(chǎn)品的主要質(zhì)量信息擁有比買方更多的信息,在線評論成為了消費(fèi)者與消費(fèi)者、消費(fèi)者與賣家之間重要的溝通渠道[5~6]。
圖1 系統(tǒng)功能圖
由上圖可知:
(1)用戶登錄到電子商務(wù)評價(jià)信息的自動抽取與分析系統(tǒng),賬號和密碼均可自行設(shè)置。
(2)對主題詞進(jìn)行設(shè)置,則將商品網(wǎng)址自行復(fù)制粘貼到“商品網(wǎng)址”框中。
(3)若是需要對主題詞進(jìn)行修改,則打開系統(tǒng)管理中的主題詞管理,在這里分別有“主題詞”、“好評語”、“壞評語”等模塊,其中,“主題詞”有:顏色、寶貝、物流、快遞、服務(wù)態(tài)度、質(zhì)量、款式等;“好評語”有:很好、不錯(cuò)、真品等;”壞評語”有:不好、差、假貨等。
(4)輸入商品網(wǎng)址,對商品的網(wǎng)購地址進(jìn)行有效輸入,進(jìn)而采集相關(guān)數(shù)據(jù)。
(5)進(jìn)行采集分析。
電子商務(wù)評價(jià)信息的自動抽取與分析系統(tǒng)是基于多平臺電子商務(wù)下的口碑評價(jià)信息搜索挖掘。通過對各大電商平臺中的某類商品信息進(jìn)行整合,應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù)從用戶評論中挖掘大眾用戶對商品的口碑評價(jià),并從商品整體和其各個(gè)特征對口碑進(jìn)行分析、歸納和總結(jié),進(jìn)而基于一定可視化工具應(yīng)用的用戶交互式展示,從而開展用戶需求與商家經(jīng)營決策交互。
根據(jù)系統(tǒng)需求分析及其數(shù)據(jù)庫的設(shè)計(jì),相關(guān)電子商務(wù)評價(jià)信息的自動抽取與分析系統(tǒng)設(shè)計(jì)應(yīng)包括系統(tǒng)登錄、評論抓取、系統(tǒng)管理、主題詞管理、用戶管理、密碼修改、開始采集、使用算法分詞、開始分析等功能,實(shí)現(xiàn)對網(wǎng)店銷售評論數(shù)據(jù)的有效挖掘和利用。系統(tǒng)模塊如圖1所示。
該系統(tǒng)的功能流程圖如圖2所示。
圖2 系統(tǒng)流程圖
對電子商務(wù)智能口碑搜索與分析支持關(guān)鍵技術(shù)的研究,重點(diǎn)為多平臺電子商務(wù)網(wǎng)站下的口碑評價(jià)信息搜索挖掘,以此開展用戶需求與商家經(jīng)營決策交互。其主要應(yīng)用的技術(shù)如下:
(1)中文自動分詞技術(shù)
基于搜索的分詞方法可作為中文評價(jià)信息有效應(yīng)用技術(shù)。該技術(shù)實(shí)現(xiàn)可以對預(yù)料中相鄰共現(xiàn)的各個(gè)字的組合的頻率進(jìn)行搜索識別,依據(jù)本系統(tǒng)內(nèi)容,主要從物流、態(tài)度、質(zhì)量三個(gè)方面看評價(jià)分析。這種方法只需對每條商品的評價(jià)信息進(jìn)行預(yù)先設(shè)置內(nèi)容。進(jìn)而根據(jù)評價(jià)信息中的分詞結(jié)果得到識別內(nèi)容。最后依據(jù)分詞結(jié)果可用作商品總體評價(jià)和特征評價(jià)的統(tǒng)計(jì)依據(jù)。其基本實(shí)現(xiàn)流程如圖3所示。
圖3 基于統(tǒng)計(jì)的中文分詞
搜索方式可依據(jù)一定的算法展開,例如后3位最大遍歷查找即為解決該問題的一種方法。其算法流程如圖4所示。
圖4 后3位最大遍歷查找
(2)數(shù)據(jù)采集技術(shù)
數(shù)據(jù)采集技術(shù)主要收集用戶對某一類商品的評價(jià)信息集成。在本項(xiàng)目的實(shí)現(xiàn)過程中,可選用Scrapy作為屏幕抓取和Web數(shù)據(jù)抓取框架,其主要用于抓取Web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy的主要技術(shù)應(yīng)用過程如下:
①基于Python語言端開發(fā)獲取URL,對HTML網(wǎng)頁進(jìn)行清洗。
②Scrapy引擎獲取URL,請求調(diào)度。
③引擎調(diào)度通過下載中間件發(fā)送到下載器。下載器通過預(yù)定義的下載數(shù)據(jù)類型字段,下載到數(shù)據(jù)庫。
在Scrapy的下載數(shù)據(jù)過程中,定義數(shù)據(jù)是十分重要的一項(xiàng)工作。其涉及到最后的數(shù)據(jù)庫生成字段,一個(gè)典型的數(shù)據(jù)字段類型item設(shè)置可以表示為:
from scrapy.item import Item,Field
class Torrent(Item):
name=Field()
url=Field()
description=Field()
size=Field()
(3)基于B/S結(jié)構(gòu)的Web系統(tǒng)
圖5 系統(tǒng)數(shù)據(jù)庫E-R圖
所有技術(shù)依據(jù)B/S結(jié)構(gòu)而實(shí)現(xiàn),首先制定中文自動分詞算法,針對某一需求的商品信息,依據(jù)Scrapy技術(shù)建立網(wǎng)絡(luò)爬蟲,依據(jù)分詞統(tǒng)計(jì)結(jié)果,應(yīng)用作為顯示的交互技術(shù),實(shí)現(xiàn)用戶需求準(zhǔn)備定位和期望,實(shí)現(xiàn)商家經(jīng)營決策支持。頁面主要有以下模塊功能:
數(shù)據(jù)采集模塊功能:用戶只有登錄后才可以進(jìn)行數(shù)據(jù)采集。輸入對應(yīng)的地址進(jìn)行數(shù)據(jù)采集,如沒有登錄,系統(tǒng)提示錯(cuò)誤并返回登錄頁面。用戶采集的商品數(shù)據(jù)庫E-R圖可用圖5來表示。
分詞模塊功能:根據(jù)采集數(shù)據(jù),針對每一條評論信息,采用基于神經(jīng)網(wǎng)絡(luò)分詞算法和基于統(tǒng)計(jì)的算法,分詞的結(jié)果將導(dǎo)入數(shù)據(jù)庫中。
分析模塊功能:進(jìn)行分詞以后,用戶可以查看分詞結(jié)果統(tǒng)計(jì)。
用戶修改資料模塊功能:用戶可以登錄后修改自己的注冊信息。
對電子商務(wù)智能口碑搜索與經(jīng)營決策支持關(guān)鍵技術(shù)的研究旨在通過對各大電商平臺中的某類商品信息進(jìn)行整合,從實(shí)際網(wǎng)絡(luò)購物需求出發(fā),通過商品口碑信息搜索,從用戶評論中挖掘大眾用戶對商品的口碑評價(jià),達(dá)到口碑信息的有效集成和分析,進(jìn)而基于用戶交互式展示,體現(xiàn)經(jīng)營商家決策依據(jù),實(shí)踐證明對于購物者節(jié)省購物時(shí)間提升網(wǎng)購效率,促進(jìn)商家決策依據(jù)具有重要的實(shí)際意義。
[1]朱玉如.口碑傳播在社交化電子商務(wù)網(wǎng)站中的應(yīng)用分析[J].今傳媒,2014(2):121~123
[2]陳明亮.在線口碑傳播原理[M].杭州:浙江大學(xué)出版社,2009
[3]粟佳,廖惠.社會化購物網(wǎng)站的信息傳播研究[J].東南傳播,2012(10):110~111
[4]郭志杰.電子商務(wù)模式?jīng)Q策分析[J].中北大學(xué)學(xué)報(bào).2010(4):79~81
[5]王興德.電子化商務(wù)決策分析[M].北京:清華大學(xué)出版社,2003.
[6]李天姣,宋一飛.Web 2.0時(shí)代下的網(wǎng)絡(luò)口碑傳播——以“大眾點(diǎn)評網(wǎng)”為例[J].今傳媒.2012(07):99~100
E-commerce;Review Information;Reputation Search;Business Decisions
Research on the Key Technologies of Review Reputation Data Mining in E-commerce
SONG Yang,TANG Hui-jun,YANG Xiao
(College of Information Engineering,Ningbo Dahongying University,Ningbo 315175)
Along with the large scale of economy of network and rapid development of the online shopping in our country,product satisfaction has become main problems to be concerned.As the online shopping increasingly becomes popular today,all types of business,goods are constantly emerging.To help users in the massive commodity purchasing to really choose the suitable ones for their demand,assist businesses to make decisions based on getting the repercussions of the consumer conveniently,automated opinion mining is becoming more and more urgent.The introduction of the technology of the data mining to the e-commerce reputation,which provides the direction for solving the problem.
1007-1423(2015)14-0050-04
10.3969/j.issn.1007-1423.2015.14.012
宋揚(yáng)(1992-),男,浙江淳安人,本科,研究方向?yàn)樾畔⒐芾砼c信息系統(tǒng)
唐輝軍(1982-),男,浙江寧波人,研究生,講師,研究方向?yàn)閿?shù)據(jù)挖掘
楊孝(1993-),男,浙江溫州人,本科,研究方向?yàn)榈谌轿锪?/p>
2015-04-01
2015-04-22
1007-1423(2015)14-0054-0610.3969/j.issn.1007-1423.2015.14.013