馬培梁/文
大數(shù)據(jù)時(shí)代,善于從中挖掘?qū)ζ髽I(yè)有用的信息,可以開拓 新的市場(chǎng)和機(jī)會(huì)。圖1簡(jiǎn)單說明了數(shù)據(jù)分析的過程。
圖1 大數(shù)據(jù)挖掘過程
為獲得市場(chǎng)競(jìng)爭(zhēng)機(jī)會(huì),很多企業(yè)從客戶細(xì)分角度出發(fā),進(jìn)行有價(jià)值的數(shù)據(jù)挖掘。客戶細(xì)分是1956年美國學(xué)者溫德爾史密斯提出來的。隨著研究的深入,1994年Hughes提出了關(guān)于客戶細(xì)分標(biāo)準(zhǔn)的RFM模型,R(Recency)代表最近一次消費(fèi),F(xiàn)(Frequency)代表消費(fèi)頻次M(Monetary)消費(fèi)額度。目前大多學(xué)者用此模型進(jìn)行客戶細(xì)分。國內(nèi)當(dāng)前利用大數(shù)據(jù)進(jìn)行客戶細(xì)分研究很多,陳靜宇(2004)提出了中間商潛在客戶價(jià)值的能力空間和市場(chǎng)空間分析模型、客戶價(jià)值立方體細(xì)分模型及需求鏈分析模型。毛躍霖(2015)通過建立客戶流失預(yù)測(cè)模型,針對(duì)不同流失進(jìn)行靶向營銷,減少客戶流的流失。王虹、孫紅(2016)提出運(yùn)用混合聚類算法應(yīng)用到汽車銷售公司的客戶細(xì)分管理中。總的來講,大數(shù)據(jù)挖掘和企業(yè)客戶細(xì)分結(jié)合研究,可以針對(duì)細(xì)分結(jié)果的不同,使客戶擁有更好產(chǎn)品體驗(yàn)。
當(dāng)前流行的客戶細(xì)分主要特點(diǎn)有個(gè)性、態(tài)度、行為、忠誠度等,同時(shí)以RFM模型為基礎(chǔ),根據(jù)業(yè)務(wù)需要進(jìn)行細(xì)分。這樣就能更有效根據(jù)客戶不同特征,提供給客戶需要的產(chǎn)品。
(1)K-means算法
通常被稱為勞埃德算法(Lloyd's algorithm),支持沒有任何先驗(yàn)知識(shí)情況下,對(duì)多個(gè)屬性進(jìn)行聚類分析,算法分為以下幾個(gè)步驟:
第一步:隨機(jī)選取k個(gè)樣本均值點(diǎn),默認(rèn)為5個(gè),記第i個(gè)均值為ui;
第二步:求取各個(gè)樣本點(diǎn)到各均值點(diǎn)的距離,距離最短的歸到一類;
j=1、2…k,i=1、2…n,d 第 i個(gè)點(diǎn)到第 j個(gè)均值的距離,xi為第i個(gè)數(shù)據(jù)值。
第三步:再對(duì)第二步得到的新的k類,分別求取均值,得到新的均值點(diǎn);
第四步:重復(fù)二、三步,直到操作得到的樣本均值點(diǎn)不再顯著變化為止。
(2)層次聚類
層次聚類包括兩種凝聚和分裂,凝聚將每個(gè)樣本都看成一個(gè)聚類,自下而上相似的逐漸合為一組,完成聚類。分裂恰好和凝聚相反,由一個(gè)整體分裂成各個(gè)子聚類。
(3)DBSCAN 聚類
該方法主要強(qiáng)調(diào)核心樣本和非核心樣本。一個(gè)聚類是一個(gè)核心樣本的集合,遞歸方法獲取。選取一個(gè)核心樣本查找它鄰居樣本的核心樣本,然后查找新核心樣本的鄰居樣本的核心樣本,最終得到聚類。
某電器公司2018年的銷售數(shù)據(jù)86135條,經(jīng)過預(yù)處理空值和對(duì)部分不合理的異常數(shù)據(jù)進(jìn)行刪除,2018年全年的數(shù)據(jù)有84342條,基于RFM標(biāo)準(zhǔn)進(jìn)行K-means客戶細(xì)分。利用Jupyter-notebook軟件基于python語言編程,進(jìn)行客戶細(xì)分。
首先,按照用戶ID對(duì)各屬性分組,分別對(duì)客戶的訂購日期進(jìn)行取最大日期即得最近訂購日期,訂單ID求個(gè)數(shù)即訂購頻次,訂單金額求和即購買總金額。
其次,將數(shù)據(jù)按照公式:
規(guī)范化.其中訂購日期先換算成天數(shù),以2018/01/01為基準(zhǔn)進(jìn)行規(guī)范化,數(shù)據(jù)均在0至1之間。
由于k-means均值算法分類k值隨機(jī)選取,為了選取更好的分類結(jié)果,評(píng)估最優(yōu)的聚類個(gè)數(shù),有兩種方法:平均輪廓系數(shù)和手肘法.平均輪廓系數(shù)公式表示:
xi表示第i個(gè)聚類點(diǎn)到本類其他店的平均距離。yi表示第i個(gè)聚類點(diǎn)到其他類中點(diǎn)的平均距離Si取值范圍為(-1,1)越接近1表明分類越好。
如下附表所示為K與平局輪廓系數(shù)的關(guān)系。
附表 K與平局輪廓系數(shù)的關(guān)系
因此,當(dāng)K=2時(shí),聚類最好。
手肘法公式表示:
SSE是誤差平方和,代表聚類結(jié)果的好壞,Ci是第i個(gè)簇,p是Ci的樣本點(diǎn),mi是Ci的質(zhì)心。隨著聚類數(shù)k的增大,樣本劃分會(huì)更加精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,那么誤差平方和SSE自然會(huì)逐漸變小。當(dāng)k小于真實(shí)聚類數(shù)時(shí),由于k的增大會(huì)大幅增加每個(gè)簇的聚合程度,故SSE的下降幅度會(huì)很大,而當(dāng)k到達(dá)真實(shí)聚類數(shù)時(shí),再增加k所得到的聚合程度回報(bào)會(huì)迅速變小,所以SSE的下降幅度會(huì)驟減,然后隨著k值的繼續(xù)增大而趨于平緩,也就是說SSE和k的關(guān)系圖是一個(gè)手肘的形狀,而這個(gè)肘部對(duì)應(yīng)的k值就是數(shù)據(jù)的真實(shí)聚類數(shù)。
圖2 k值與SSE之間的變化關(guān)系
本樣本聚類數(shù)評(píng)估,選擇采用手肘法,如圖所示k值與SSE之間的變化關(guān)系。
顯然,肘部對(duì)應(yīng)k值為2。
對(duì)于本數(shù)據(jù)集的聚類而言,最佳聚類數(shù)應(yīng)該選2。因此該電器公司應(yīng)該把客戶分為兩類。A類是最近購買時(shí)間短,購買頻次多,相對(duì)購買金額稍微低些。B類客戶購買日期相對(duì)較長,頻次較低,購買金額也相對(duì)較低,所以公司在重視A類客戶同時(shí),應(yīng)該針對(duì)B類客戶采取不同的策略,以促進(jìn)消費(fèi),增加客戶的消費(fèi)頻度,更多的購買本公司的所需要的電器商品。限于工具功能和數(shù)據(jù)的不足,當(dāng)數(shù)據(jù)量超過一定值時(shí),K-means算法消耗時(shí)間過長,效率變低。后續(xù)研究可以考慮處理海量數(shù)據(jù)用Mini Batch算法,通常處理100萬條以上數(shù)據(jù)。