宋大為 侯婷婷 顧松敏 趙相楠
摘 ?要:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)應(yīng)運(yùn)而生且越來越多的交易活動(dòng)從傳統(tǒng)的線下式交易轉(zhuǎn)到線上交易。而隨著交易量和時(shí)間的累計(jì),相關(guān)的交易數(shù)據(jù)則越來越多。面對如此浩大的數(shù)據(jù),如何從中提取有價(jià)值的信息,受到了廣大電子商務(wù)商家以及電子商務(wù)平臺的重視。文章針對電子商務(wù)這一領(lǐng)域,結(jié)合數(shù)據(jù)挖掘相關(guān)技術(shù),闡述了如何利用數(shù)據(jù)挖掘技術(shù)針對電子商務(wù)中存在的問題以及需求進(jìn)行解決。
關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務(wù);知識發(fā)現(xiàn)
1 概述
電子商務(wù)(E-Commerce)是一種在互聯(lián)網(wǎng)發(fā)展的背景下出現(xiàn)的一種新的商業(yè)模式。是對傳統(tǒng)的商務(wù)交易模式的一種互聯(lián)網(wǎng)化的運(yùn)作。其主要將傳統(tǒng)商務(wù)中的操作流程進(jìn)行互聯(lián)網(wǎng)化而產(chǎn)生的產(chǎn)物。具體是指在互聯(lián)網(wǎng)環(huán)境下,基于瀏覽器/服務(wù)器的方式,商家與消費(fèi)者進(jìn)行跨地域虛擬的商務(wù)活動(dòng),實(shí)現(xiàn)網(wǎng)上購物、網(wǎng)上交易、在線支付和物流配送等一系列的綜合服務(wù)活動(dòng)的一種新型商業(yè)運(yùn)營模式。其具有以下特點(diǎn):
(1)普遍性。商品交易充斥著人們的日常生活,衣食住行,柴米油鹽均無不和商品交易掛鉤。電子商務(wù)作為一個(gè)新興的商業(yè)運(yùn)營模式,它不是一個(gè)完全的新生事物,其主要是利用互聯(lián)網(wǎng)將我們平時(shí)的商品交易行為放到了網(wǎng)絡(luò)上。
(2)跨地域性。傳統(tǒng)商品交易,消費(fèi)者需要到商家的實(shí)體店鋪中進(jìn)行選購和消費(fèi),往往受到地域的限制。而電子商務(wù),通過互聯(lián)網(wǎng)解決了地域性的問題。通過互聯(lián)網(wǎng),身處海南的人可以毫不費(fèi)力的購買到來自內(nèi)蒙古甚至西藏的商品。
(3)虛擬性。與傳統(tǒng)的商品交易不同,電子商務(wù)中消費(fèi)者無法直觀的感受到商品的優(yōu)劣及好壞。其因?yàn)榫W(wǎng)絡(luò)的虛擬性,對商鋪中所提供的消費(fèi)品缺少直觀的感受。
(4)協(xié)調(diào)性。一個(gè)普通的交易是多個(gè)環(huán)節(jié)環(huán)環(huán)相扣的結(jié)果,從消費(fèi)者進(jìn)入網(wǎng)站選購商品,到消費(fèi)者確認(rèn)購買,通過網(wǎng)上銀行支付貨幣,商家通過物流環(huán)節(jié)將消費(fèi)品送到消費(fèi)者手中。往往要經(jīng)歷4-5個(gè)環(huán)節(jié)的操作。
數(shù)據(jù)挖掘(Data mining)是在數(shù)據(jù)大量存儲(chǔ)的背景下應(yīng)需求而產(chǎn)生的一個(gè)技術(shù)。它融合統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識別、計(jì)算機(jī)科學(xué)等諸多領(lǐng)域相關(guān)技術(shù),解決在大量數(shù)據(jù)中挖掘有價(jià)值信息的問題。與諸多的學(xué)科誕生的過程一樣,市場的需求催生新領(lǐng)域的探索,新領(lǐng)域的探索產(chǎn)生新的學(xué)科和技術(shù)。數(shù)據(jù)挖掘應(yīng)用領(lǐng)域十分廣泛,如銀行、電信、保險(xiǎn)、交通、零售等領(lǐng)域。這類領(lǐng)域均存在大量的數(shù)據(jù)存儲(chǔ),并亟待從存儲(chǔ)的大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,以用到實(shí)際的銷售與決策中。隨著互聯(lián)網(wǎng)的發(fā)展,新興產(chǎn)業(yè)伴隨互聯(lián)網(wǎng)而生,互聯(lián)網(wǎng)用戶的廣泛性促使了大量的數(shù)據(jù)積累,大量的網(wǎng)上日志類數(shù)據(jù)的積累成為了數(shù)據(jù)挖掘在互聯(lián)網(wǎng)環(huán)境下應(yīng)用的溫床。而電子商務(wù)作為互聯(lián)網(wǎng)大環(huán)境下的一個(gè)典型且有競爭力的行業(yè),其與數(shù)據(jù)挖掘技術(shù)的結(jié)合最為迫切。
2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是多個(gè)學(xué)科的結(jié)合,其中主要包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域。其主要方法及技術(shù)也多是幾個(gè)領(lǐng)域中的典型方法。其中比較常用的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、分類分析、聚類分析和異常檢測等。
2.1 關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則分析用于發(fā)現(xiàn)數(shù)據(jù)集中高頻繁出現(xiàn)的記錄之間的關(guān)系。最初的提出動(dòng)機(jī)是針對商品銷售中的購物籃分析問題提出的。其主要過程分為兩個(gè)階段:第一個(gè)階段先從數(shù)據(jù)集中挖掘出高頻繁同時(shí)出現(xiàn)的記錄組,第二個(gè)階段再從這些記錄組中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。
2.2 分類分析
分類分析是數(shù)據(jù)挖掘中一種常用技術(shù),可用于預(yù)測或者描述二元和標(biāo)定類型的數(shù)據(jù)集。實(shí)際上就是通過分析樣本數(shù)據(jù)中的數(shù)據(jù),確定每個(gè)類別,并對每個(gè)類別做出精確的描述或建立分類分析模型,然后利用該模型對其他給定的數(shù)據(jù)進(jìn)行分類。因?yàn)樵谒惴ㄖ行枰袠?biāo)定數(shù)據(jù),故其屬于有監(jiān)督學(xué)習(xí)。
2.3 聚類分析
與分類類似,聚類分析同樣是對待測定數(shù)據(jù)集進(jìn)行歸類。但是與分類分析不同的是,聚類分析沒有標(biāo)定數(shù)據(jù),其利用數(shù)據(jù)記錄間的關(guān)系來對待測定數(shù)據(jù)進(jìn)行歸類。其不需要標(biāo)定數(shù)據(jù),往往需要專業(yè)領(lǐng)域的行業(yè)經(jīng)驗(yàn)來確定分類的數(shù)量等相關(guān)參數(shù)。
2.4 異常檢測
數(shù)據(jù)集中常存在著少數(shù)的記錄,他們與其他數(shù)據(jù)的行為或者趨向不一致,這些數(shù)據(jù)被稱為異常點(diǎn)或者離群點(diǎn)。數(shù)據(jù)集中的異常點(diǎn)往往包含重要信息,對數(shù)據(jù)集的了解以及特定的問題領(lǐng)域有著重要的研究價(jià)值。例如,銀行業(yè)中的欺詐行為檢測,就是其在具體領(lǐng)域極其重要的應(yīng)用。
3 電子商務(wù)背景下的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘在傳統(tǒng)行業(yè)的應(yīng)用十分廣泛,能解決的典型問題包括數(shù)據(jù)庫營銷(DatabaseMarketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)、客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)和欺詐檢測(Fraud Detection)等。
針對電子商務(wù)行業(yè)的特點(diǎn),數(shù)據(jù)挖掘在其領(lǐng)域可以有以下幾個(gè)主要方面的應(yīng)用:
3.1 尋找潛在的客戶群體
客戶是企業(yè)的根本,電子商務(wù)中同樣需要積累大量的客戶。因此如何不斷挖掘出新的客戶,增大其客戶量是其為生的根本。利用消費(fèi)者的注冊以及消費(fèi)傾向可以幫助電子商務(wù)平臺吸引更多的消費(fèi)者群體。常用的方法,有客戶分類,并根據(jù)消費(fèi)者的信息來將其歸類。并對其按類別進(jìn)行管理和營銷。主要應(yīng)用方法:分類分析,聚類分析。
3.2 推薦系統(tǒng)
電子商務(wù)平臺容納了大量的商品,消費(fèi)者往往在琳瑯滿目的商品中無法選擇一個(gè)適合自己的商品,陷入了選擇危機(jī)的境地。電子商務(wù)平臺出于用戶體驗(yàn)良好的原則,應(yīng)該為消費(fèi)者解決此類問題。針對不同消費(fèi)者歷史的消費(fèi)信息并結(jié)合消費(fèi)者注冊信息以及最近的店鋪推銷手段,電子商務(wù)平臺可以利用挖掘技術(shù)從上述特征中挖掘出哪些商品適合指定的消費(fèi)者,并將其按照不同消費(fèi)者的需求合理推薦給不同消費(fèi)者。主要應(yīng)用方法:關(guān)聯(lián)分析,聚類分析。
3.3 欺詐檢測
欺詐問題不單單是銀行業(yè)及保險(xiǎn)業(yè)中常見的問題,在新興的電子商務(wù)領(lǐng)域此問題也成為了一個(gè)大大阻礙行業(yè)發(fā)展的不利因素。因?yàn)殡娮由虅?wù)的跨地域性和虛擬性的特點(diǎn),消費(fèi)者無法了解商品質(zhì)量的優(yōu)劣,僅能通過其他購買過該商品的消費(fèi)者對商品的評價(jià)來間接斷定商品的好壞。很多商家針對此特點(diǎn),雇傭網(wǎng)絡(luò)水軍對其所銷售商品進(jìn)行不實(shí)的評論,來隱藏其商品中的缺點(diǎn)夸大其質(zhì)量。對此行為的視而不見會(huì)造成電子商務(wù)平臺信譽(yù)和聲譽(yù)的下降,進(jìn)而阻礙產(chǎn)業(yè)發(fā)展。主要應(yīng)用方法:異常檢測,聚類分析。
4 結(jié)束語
文章對電子商務(wù)的相關(guān)發(fā)展和數(shù)據(jù)挖掘的主要方法進(jìn)行了介紹,并針對電子商務(wù)行業(yè)的特點(diǎn)結(jié)合數(shù)據(jù)挖掘的技術(shù),對數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用做了簡要分析。電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運(yùn)作模式的發(fā)展方向。企業(yè)數(shù)據(jù)量的日益增大,利用數(shù)據(jù)挖掘技術(shù)針對其行業(yè)中存在的問題進(jìn)行解決是必不可少的選擇。
參考文獻(xiàn)
[1]韓治.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用研究[J].信息通信報(bào),2013(6).
[2]錢賀斌.數(shù)據(jù)挖掘一大數(shù)據(jù)時(shí)代的重要工具[J].2013,10.
[3]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù)報(bào),2006,2.
[4]楊智明.數(shù)據(jù)挖掘技術(shù)的研究方向及其常用方法[J].科技信息報(bào),2006.
[5]范文廣.數(shù)據(jù)挖掘技術(shù)的研究[J].佛山科學(xué)技術(shù)學(xué)院學(xué)報(bào),2011,11.