摘 要:本文從東莞電子商務(wù)的現(xiàn)狀出發(fā),對(duì)在Web數(shù)據(jù)挖掘技術(shù)影響下,東莞電子商務(wù)企業(yè)產(chǎn)生的大量復(fù)雜信息進(jìn)行了實(shí)時(shí)和深層次地分析。隨著數(shù)據(jù)倉庫及Web等新型數(shù)據(jù)源的日益普及,在龐大的信息海洋中找到有用的數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行分析處理,從而發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性變得越來越重要。在對(duì)數(shù)據(jù)進(jìn)行推理的過程中找到對(duì)企業(yè)有用的信息,從而提高企業(yè)在電子商務(wù)中的競爭力,為企業(yè)謀取更多的利潤。
關(guān)鍵詞:東莞電子商務(wù);數(shù)據(jù)挖掘
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)04-0021-03
Abstract:In this paper,for the current situation of electronic commerce in Dongguan,the Web data mining technology was employed to deeply analysis the large number of complex information in real time which produced by Dongguan electronic commerce enterprise. With the growing popularity of data warehouses and new data sources such as Web,it is becoming more and more important to find useful data in a huge ocean of information,and to analyze and process these data. In the process of inference to the data,find the useful information to the enterprise,so as to improve the competitiveness of the enterprise in the e-commerce and make more profit for the enterprise.
Keywords:Dongguan e-commerce;data mining technology
0 引 言
東莞是一座工業(yè)大都市,地處廣州與深圳之間。據(jù)不完全統(tǒng)計(jì),東莞本地網(wǎng)民的數(shù)量已超過350萬,且從事互聯(lián)網(wǎng)相關(guān)的企業(yè),包括網(wǎng)站營銷、網(wǎng)站搭建和網(wǎng)絡(luò)推廣等業(yè)務(wù)的電子商務(wù)企業(yè)有近2000家。此外,在全市范圍內(nèi),具備上網(wǎng)條件的企業(yè)達(dá)到95%,企業(yè)擁有自己網(wǎng)站的數(shù)目為32萬家,其中具有電子商務(wù)功能的網(wǎng)站,比如能夠進(jìn)行商品訂購或商品物流信息查詢的網(wǎng)站約有1500家。據(jù)2016年統(tǒng)計(jì),全市的企業(yè)借助自有的B2B網(wǎng)站開展網(wǎng)上貿(mào)易且完成的訂單額達(dá)到300億,故東莞擁有發(fā)展電子商務(wù)的天然優(yōu)勢,而且發(fā)展電子商務(wù)有利于促進(jìn)企業(yè)信息與東莞工業(yè)智造相互融合,進(jìn)而推動(dòng)企業(yè)結(jié)構(gòu)調(diào)整和轉(zhuǎn)型升級(jí)。東莞目前正全力進(jìn)行產(chǎn)業(yè)結(jié)構(gòu)升級(jí),傳統(tǒng)的制造業(yè)經(jīng)過幾十年的高速發(fā)展,正面臨轉(zhuǎn)型升級(jí)的問題,這也讓電子商務(wù)在東莞擁有更大的發(fā)展空間。2014年東莞獲批創(chuàng)建國家電子商務(wù)示范城市,計(jì)劃用3~5年的時(shí)間建設(shè)成為一個(gè)以“東莞制造”網(wǎng)絡(luò)品牌和跨境貿(mào)易電子商務(wù)為核心的、具有國際影響力的電子商務(wù)名城,這是促進(jìn)實(shí)體經(jīng)濟(jì)外貿(mào)轉(zhuǎn)型的戰(zhàn)略性決策。市政府出臺(tái)了每年1.5億的《東莞市電子商務(wù)專項(xiàng)資金管理暫行辦法》和《東莞市進(jìn)一步加快電子商務(wù)發(fā)展實(shí)施意見》,為電商發(fā)展保駕護(hù)航。可以說,東莞電子商務(wù)已經(jīng)由表及里、從虛到實(shí),從宣傳、啟蒙和推廣階段進(jìn)入了務(wù)實(shí)發(fā)展的實(shí)施階段。
電子商務(wù)的發(fā)展使企業(yè)積累了大量的數(shù)據(jù),那么多的商業(yè)數(shù)據(jù)正迅速充實(shí)著數(shù)據(jù)庫空間,特別是數(shù)據(jù)倉庫及Web等新型數(shù)據(jù)源的日益普及。因此,在龐大的信息海洋中找到需要的或有用的數(shù)據(jù),并將這些數(shù)據(jù)轉(zhuǎn)化為綜合性的信息成為需要解決的問題。通過對(duì)這些數(shù)據(jù)進(jìn)行分析處理,找到數(shù)據(jù)間的關(guān)聯(lián)性,轉(zhuǎn)換成“數(shù)據(jù)資產(chǎn)”為企業(yè)服務(wù),提高企業(yè)的競爭力,從而為企業(yè)謀求更多潛在的利潤。Web數(shù)據(jù)挖掘技術(shù)為這一需求提供了強(qiáng)有力的技術(shù)支持,Web數(shù)據(jù)挖掘?qū)eb頁面內(nèi)容及后臺(tái)交易的數(shù)據(jù)庫進(jìn)行深度挖掘,在大量的數(shù)據(jù)海洋中提取對(duì)企業(yè)有用的信息和隱含的信息,有效地幫助企業(yè)進(jìn)行分析統(tǒng)計(jì)和預(yù)測,使企業(yè)信息資源的價(jià)值得到充分地體現(xiàn)。本文從東莞電子商務(wù)的現(xiàn)狀出發(fā),對(duì)在Web數(shù)據(jù)挖掘技術(shù)影響下,東莞電子商務(wù)企業(yè)產(chǎn)生的大量信息進(jìn)行了實(shí)時(shí)和深層次地分析,通過分析和探究Web日志記錄的規(guī)律,從中找出真正有用的信息,識(shí)別電子商務(wù)潛在的客戶,提高對(duì)最終用戶的服務(wù)質(zhì)量。這對(duì)企業(yè)的決策支持有很大的幫助,可以促進(jìn)企業(yè)優(yōu)化資源,開拓市場,通過電子商務(wù)使企業(yè)更加智能化,使客戶服務(wù)更加個(gè)性化,在網(wǎng)絡(luò)時(shí)代為東莞的電子商務(wù)企業(yè)贏得競爭優(yōu)勢。
1 數(shù)據(jù)挖掘主要方法
數(shù)據(jù)挖掘的技術(shù)是從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、并有潛在價(jià)值的信息的非平凡過程,主要的方法有神經(jīng)網(wǎng)絡(luò)方法、統(tǒng)計(jì)方法、數(shù)據(jù)庫方法和機(jī)器學(xué)習(xí)方法。統(tǒng)計(jì)方法又可細(xì)分為回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、CBR、貝葉斯信念網(wǎng)絡(luò)、遺傳算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。就電子商務(wù)行業(yè)來說,數(shù)據(jù)挖掘職位在企業(yè)內(nèi)部非常重要,營銷管理、客戶管理等環(huán)節(jié)都需要應(yīng)用數(shù)據(jù)挖掘的結(jié)果,利用數(shù)據(jù)分析來發(fā)現(xiàn)企業(yè)內(nèi)部的不足、營銷手段的不足和客戶體驗(yàn)的不足等,同時(shí)還可以利用數(shù)據(jù)挖掘來了解客戶的內(nèi)在需求。為了達(dá)到這些效果,在電子商務(wù)行業(yè),大數(shù)據(jù)挖掘主要采用以下算法以及模型。
1.1 RFM模型
RFM模型是衡量客戶價(jià)值和客戶創(chuàng)造利潤能力的重要手段,對(duì)于有過購買行為的客戶,模型會(huì)通過對(duì)客戶購買的時(shí)間、頻率、金額等幾個(gè)方面進(jìn)行客戶分析,并通過這個(gè)模型進(jìn)行數(shù)據(jù)挖掘,確定該客戶的價(jià)值,與客戶建立長期的關(guān)系。對(duì)于一些長時(shí)間都沒有購買行為的客戶,會(huì)對(duì)他們做出一些有針對(duì)性的營銷活動(dòng)來刺激消費(fèi)。使用RFM模型只要根據(jù)三個(gè)不同的變量進(jìn)行分組就可以實(shí)現(xiàn)會(huì)員區(qū)分。
1.2 Apriori算法
Apriori算法是一種數(shù)據(jù)挖掘工具,屬于關(guān)聯(lián)性分析的一種??梢钥闯瞿膬煞N商品具有關(guān)聯(lián)性。例如衣服和褲子等的搭配穿法,通過Apriori算法,就可以得出兩個(gè)商品之間的關(guān)聯(lián)性,確定商品的陳列等因素,也可以對(duì)客戶的購買經(jīng)歷進(jìn)行組套銷售。
1.3 Spss分析
Spss分析主要是針對(duì)營銷活動(dòng)的精細(xì)化分析,它使?fàn)I銷活動(dòng)對(duì)于客戶而言更加有針對(duì)性,也可以對(duì)數(shù)據(jù)庫中客戶購買過的商品進(jìn)行分析,例如哪些客戶同時(shí)購買過這些商品。尤其現(xiàn)在針對(duì)電子商務(wù)的細(xì)分越來越精細(xì),做好精細(xì)化營銷地分析,對(duì)于企業(yè)的營銷效果有很大的好處。
1.4 網(wǎng)站分析
訪問量、頁面停留等數(shù)據(jù)都是重要的流量指標(biāo)。進(jìn)行網(wǎng)站數(shù)據(jù)挖掘時(shí),流量以及轉(zhuǎn)化率是衡量工作情況的方式之一,通過這個(gè)指標(biāo)來了解其他數(shù)據(jù)的變化也至關(guān)重要。
2 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用流程
數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用流程圖如圖1所示。
圖1 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
2.1 數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)準(zhǔn)備:根據(jù)數(shù)據(jù)挖掘任務(wù)的具體要求,在相關(guān)數(shù)據(jù)源中抽取與挖掘任務(wù)相關(guān)的數(shù)據(jù)集。
(2)數(shù)據(jù)清洗:清除錯(cuò)誤異常樣本,處理缺失數(shù)據(jù),清除重復(fù)樣本。
(3)數(shù)據(jù)審核:數(shù)據(jù)統(tǒng)計(jì)錯(cuò)誤審核、數(shù)據(jù)源錯(cuò)誤審核和數(shù)據(jù)統(tǒng)計(jì)口徑審核。
2.2 數(shù)據(jù)探索和準(zhǔn)備
通知輸入的數(shù)據(jù)質(zhì)量決定著模型輸出的結(jié)果,所以我們要先花時(shí)間對(duì)收集的數(shù)據(jù)進(jìn)行分析和處理。一般來說,這個(gè)階段基本上占據(jù)了整個(gè)項(xiàng)目周期70%的時(shí)間,主要涉及兩項(xiàng)工作:第一,對(duì)數(shù)據(jù)進(jìn)行單變量分析和雙變量分析,驗(yàn)證數(shù)據(jù)是否符合相關(guān)的指標(biāo);第二,因?yàn)槿笔У闹禃?huì)削弱模型的擬合能力或者得到的結(jié)果會(huì)變成有念頭的模型,故需要對(duì)數(shù)據(jù)中的缺失值和異常值進(jìn)行處理,變量轉(zhuǎn)換后產(chǎn)生新的變量。
2.3 算法選擇
根據(jù)建模場景進(jìn)行算法選擇。描述類有分類規(guī)則、聚類分析;預(yù)測類有神經(jīng)網(wǎng)絡(luò)、決策樹、時(shí)間序列、回歸分析、關(guān)聯(lián)分析、貝葉斯網(wǎng)絡(luò)、偏差檢測;評(píng)估類有因子分析、主成分分析、數(shù)學(xué)公式。結(jié)合數(shù)據(jù)情況(如離散值、連續(xù)值、數(shù)據(jù)量大?。┑冗x擇合適的算法。
2.4 模型及評(píng)估優(yōu)化
(1)模型選擇:對(duì)于數(shù)據(jù)挖掘任務(wù),可以先采用LR(分類)測試效果,數(shù)據(jù)挖掘3架馬車(分類/回歸),即RF、GBM和XGBOOST。
(2)Baseline設(shè)置:可利用一些簡單規(guī)則,比如global average預(yù)測和眾數(shù)預(yù)測等。
(3)評(píng)估方法:1)留出法(hold-out):直接將數(shù)據(jù)集分為互斥的兩個(gè)集合,一個(gè)拿來訓(xùn)練,另一個(gè)拿來驗(yàn)證訓(xùn)練的模型,注意保持?jǐn)?shù)據(jù)分布的一致性;2)交叉驗(yàn)證(cross-validation):將數(shù)據(jù)集隨機(jī)分為N份,依次拿一個(gè)fold作為測試,剩下的N-1個(gè)fold作為訓(xùn)練,共實(shí)驗(yàn)N次。
(4)分類任務(wù):錯(cuò)誤率與精度;查全率、查準(zhǔn)率與F1;ROC與AUC等。
(5)回歸任務(wù):平均絕對(duì)值誤差;均方誤差;方差等。
另外,可根據(jù)實(shí)際的業(yè)務(wù)指標(biāo)設(shè)定自己的度量標(biāo)準(zhǔn)。
3 創(chuàng)新點(diǎn)
利用數(shù)據(jù)挖掘技術(shù)可以節(jié)約企業(yè)的成本。節(jié)約成本是企業(yè)盈利的關(guān)鍵,將電子商務(wù)中產(chǎn)生的數(shù)據(jù)信息,比如交易數(shù)據(jù)、庫存數(shù)據(jù)和財(cái)務(wù)數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),找到企業(yè)的投入產(chǎn)出比例,最大限度地利用已有的客戶資源,開發(fā)新的客戶,增加客戶的回頭率,在數(shù)據(jù)挖掘的過程中提取有價(jià)值的商業(yè)信息,為企業(yè)的資源優(yōu)化配置提供依據(jù),使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,實(shí)現(xiàn)最佳的經(jīng)濟(jì)效益。
4 結(jié) 論
數(shù)據(jù)挖掘作為一個(gè)新興的技術(shù)手段已經(jīng)表現(xiàn)出巨大的應(yīng)用潛力。目前,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)方面的應(yīng)用已經(jīng)不僅僅是商家掘取和利用數(shù)據(jù),電子商務(wù)行業(yè)競爭越來越大的今天也是一個(gè)花錢的時(shí)代,花出去的錢能否得到收益是企業(yè)最關(guān)注的,投資回報(bào)率是大家都要考慮的,利用數(shù)據(jù)挖掘技術(shù)來分析電子商務(wù)產(chǎn)生的大量數(shù)據(jù),可以充分挖掘客戶的商品消費(fèi)規(guī)律以及客戶的訪問模式,更有效地幫助企業(yè)制定有針對(duì)性的營銷策略,充分發(fā)揮企業(yè)自身的優(yōu)勢,提高企業(yè)的競爭力。因此數(shù)據(jù)挖掘技術(shù)在電子商務(wù)行業(yè)的位置也越來越重要。
參考文獻(xiàn):
[1] 姜寧,牛永潔.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用——以淘寶網(wǎng)為例 [J].計(jì)算機(jī)時(shí)代,2016(7):49-52.
[2] 程宏水.網(wǎng)絡(luò)數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站設(shè)計(jì)的應(yīng)用 [J].中山大學(xué)研究生學(xué)刊(社會(huì)科學(xué)版),2007(1):107-114.
[3] 孫銘蔚.面向電子商務(wù)的WEB數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究 [J].中國新通信,2016,18(19):101.
作者簡介:吉珊珊(1985-),女,廣東梅州人,講師,網(wǎng)絡(luò)工程師,研究生。研究方向:計(jì)算機(jī)教育。