張線媚(西安思源學(xué)院 工學(xué)院,陜西 西安 710038)
數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用
張線媚
(西安思源學(xué)院 工學(xué)院,陜西 西安 710038)
客戶流失是電信行業(yè)發(fā)展過(guò)程中所面臨的一個(gè)嚴(yán)重問(wèn)題,直接影響到運(yùn)營(yíng)商的企業(yè)效益。本文主要介紹了對(duì)電信行業(yè)客戶流失情況進(jìn)行數(shù)據(jù)挖掘的過(guò)程,改進(jìn)了已有模型存在的缺乏靈活性、難以處理高維度數(shù)據(jù)的缺點(diǎn),根據(jù)運(yùn)營(yíng)商的歷史數(shù)據(jù)資料,利用SAS/EM模塊對(duì)客戶的固有特征和行為特征進(jìn)行挖掘分析,采用決策樹(shù)分類(lèi)算法的CART算法建立了聚類(lèi)分析模型和包括評(píng)估模塊在內(nèi)的一套完整的流失預(yù)測(cè)模型,能夠直觀地顯示出流失客戶的基本特征,并且可以對(duì)任意的數(shù)據(jù)集進(jìn)行分析,有效提高了模型的普遍應(yīng)用性和準(zhǔn)確性。
客戶流失;數(shù)據(jù)挖掘;決策樹(shù);CART算法;聚類(lèi)分析;SAS/EM模塊;客戶流失預(yù)測(cè)模型
在電信這個(gè)服務(wù)型行業(yè)中,客戶關(guān)系管理工作直接關(guān)系著企業(yè)的經(jīng)濟(jì)效益、聲譽(yù)和信譽(yù),而在客戶關(guān)系管理工作中,開(kāi)發(fā)一個(gè)新客戶的成本比挽留一個(gè)老客戶的成本要高出很多倍[1]。
傳統(tǒng)上國(guó)內(nèi)外移動(dòng)運(yùn)營(yíng)商認(rèn)為新客戶在最初兩個(gè)月內(nèi)流失的概率最大,大約為10%左右,所以運(yùn)營(yíng)商會(huì)建立一個(gè)呼叫中心,在客戶使用移動(dòng)電話一個(gè)月左右后,主動(dòng)和客戶聯(lián)系[2],但這樣的方法不切實(shí)際。因此,近年來(lái)好多電信運(yùn)營(yíng)商都開(kāi)始建立客戶流失預(yù)測(cè)模型。
目前主要的做法有采用 SPSS公司的 Clementine工具,使用節(jié)點(diǎn)連接的方式,分別用分類(lèi)回歸樹(shù)(CART)算法和 C5.0算法建立流失預(yù)測(cè)模型[3]。還有一種采用Weka工具的決策樹(shù)分類(lèi)器,應(yīng)用一趟聚類(lèi)算法進(jìn)行聚類(lèi)分析,將分析后的簇群號(hào)作為新的特征增加到原數(shù)據(jù)集中,對(duì)新的數(shù)據(jù)建立決策樹(shù)分類(lèi)模型[4]。該模型準(zhǔn)確率較高,但是模型考慮的變量因素比較少、數(shù)據(jù)量比較小,缺乏普遍性,對(duì)于客戶流失的原因分析具有一定的局限性。
本文采用 SAS軟件,在對(duì)大規(guī)模、高維度的歷史數(shù)據(jù)引入屬性選擇、特征提取和特征選擇的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行處理,然后利用新的數(shù)據(jù)源建立包括模型評(píng)估在內(nèi)的完整的流失預(yù)測(cè)模型。模型中添加了評(píng)估模塊,可以對(duì)流失預(yù)測(cè)的結(jié)果進(jìn)行檢測(cè)優(yōu)化,提高流失預(yù)測(cè)的準(zhǔn)確率;克服了單一評(píng)價(jià)標(biāo)準(zhǔn)的缺陷,結(jié)合了是否流失和流失概率兩個(gè)基本的評(píng)價(jià)標(biāo)準(zhǔn);而且對(duì)于最終的預(yù)測(cè)結(jié)果有詳細(xì)的報(bào)告存儲(chǔ)路徑,以便查看和應(yīng)用于日后的市場(chǎng)運(yùn)營(yíng)策略的改進(jìn)工作中,從而有效地采取挽留措施,減少客戶的流失量,做好客戶關(guān)系管理工作,提高企業(yè)的經(jīng)營(yíng)效益,獲得企業(yè)持續(xù)經(jīng)營(yíng)的成功。
要建立靈活、普遍性高的客戶流失預(yù)測(cè)模型,必須采集大量的客戶信息資源數(shù)據(jù),同時(shí)需要對(duì)其進(jìn)行數(shù)據(jù)的預(yù)處理,得到構(gòu)建模型所需的數(shù)據(jù)形式。因此,在這個(gè)階段需要對(duì)模型所需的原始數(shù)據(jù) (訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù))進(jìn)行分析處理,以便能充分挖掘出客戶的關(guān)鍵性行為特征[5]。
1.1樣本選擇和數(shù)據(jù)描述
以某地區(qū)聯(lián)通運(yùn)營(yíng)商的客戶業(yè)務(wù)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)(包括訓(xùn)練樣本集和測(cè)試樣本集),該樣本數(shù)據(jù)集中總共包含了 695 689條(包含正常客戶和流失客戶)記錄,每條記錄由33項(xiàng)客戶基本信息和48項(xiàng)客戶行為特征(12種業(yè)務(wù),4個(gè)月,共48項(xiàng))以及1項(xiàng)客戶類(lèi)別特征組成。
(1)客戶基本信息:主要是客戶資料數(shù)據(jù)??蛻艋拘畔?shù)據(jù)是客戶的靜態(tài)數(shù)據(jù)(如表1所示),相對(duì)來(lái)說(shuō)比較穩(wěn)定,但是由于這些數(shù)據(jù)在客戶入網(wǎng)填寫(xiě)時(shí)會(huì)包含大量的缺失值,甚至是假的錯(cuò)誤的信息,所以需要進(jìn)行大量的數(shù)據(jù)清洗和轉(zhuǎn)換工作。
表1 客戶基本特征表
(2)客戶消費(fèi)行為特征:主要是客戶在過(guò)去4個(gè)月的消費(fèi)行為數(shù)據(jù)。客戶消費(fèi)行為特征的每條記錄包含了客戶在過(guò)去4個(gè)月的消費(fèi)情況,包括12個(gè)基本消費(fèi)行為,所以該樣本總共包含了 48(12×4=48)項(xiàng)數(shù)據(jù)記錄,如表2所示。
(3)客戶類(lèi)別特征:主要用來(lái)標(biāo)注客戶的狀態(tài)。實(shí)驗(yàn)樣本數(shù)據(jù)集中包含了一個(gè)可以判定類(lèi)別信息的類(lèi)別特征(如表3所示),根據(jù)類(lèi)別信息可以知道每個(gè)客戶的基本狀態(tài)。
表2 客戶消費(fèi)行為特征表(一個(gè)月份)
表3 客戶類(lèi)別特征
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的效果會(huì)直接影響到模型的性能和流失預(yù)測(cè)的結(jié)果,一方面,通過(guò)對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善,可以使得建立的模型更簡(jiǎn)單、準(zhǔn)確,而且便于理解;另一方面,可以根據(jù)整理好的數(shù)據(jù)的特點(diǎn)以及不同算法的要求,選擇合適的執(zhí)行算法,從而降低算法的時(shí)間和空間復(fù)雜度。為了克服已有模型存在的缺乏靈活性缺陷,此處的數(shù)據(jù)預(yù)處理是根據(jù)數(shù)據(jù)的屬性特點(diǎn)分開(kāi)進(jìn)行,主要包括數(shù)據(jù)清洗、特征構(gòu)造和特征選擇等過(guò)程[6]。
(1)數(shù)據(jù)清洗
主要是補(bǔ)全缺失的數(shù)據(jù)、處理不一致的數(shù)值、除去錯(cuò)誤的數(shù)據(jù)。例如:如果某條記錄中存在大量的缺失值,而且這些數(shù)據(jù)很難用正常的方法來(lái)補(bǔ)全,則可以考慮刪除整條記錄數(shù)據(jù);又或者記錄數(shù)據(jù)的某項(xiàng)缺失,在不影響整體樣本數(shù)據(jù)集的情況下,可以考慮用均值來(lái)補(bǔ)全缺失值。
(2)數(shù)據(jù)轉(zhuǎn)換
主要包括構(gòu)造新的衍生特征信息和對(duì)連續(xù)型數(shù)據(jù)進(jìn)行規(guī)范化。在采集的數(shù)據(jù)信息中,消費(fèi)行為特征只有過(guò)去4個(gè)月的消費(fèi)記錄,這幾個(gè)特征不能充分體現(xiàn)客戶在這4個(gè)月以及將來(lái)的消費(fèi)情況。所以,在對(duì)數(shù)據(jù)集進(jìn)行處理時(shí),對(duì)于12項(xiàng)月消費(fèi)行為的記錄采用了構(gòu)造衍生特征的措施,構(gòu)造了24項(xiàng)月均消費(fèi)信息和月均消費(fèi)趨勢(shì)的信息。例如:
月均消費(fèi)行為:為過(guò)去4個(gè)月的費(fèi)用的平均值,表示為mb_fee,即:
月消費(fèi)趨勢(shì):為過(guò)去4個(gè)月的消費(fèi)記錄中后2個(gè)月的總消費(fèi)與前2個(gè)月的總消費(fèi)的比值,表示為trend_fee,即:
(3)特征選擇
這個(gè)步驟將會(huì)直接影響到分類(lèi)預(yù)測(cè)模型的性能。通過(guò)選擇相關(guān)性強(qiáng)的特征,從原始數(shù)據(jù)集中刪除不相關(guān)或者相關(guān)性很小的特征項(xiàng),保留與目標(biāo)特征相關(guān)性大的特征項(xiàng),可以減少樣本的維度,從而大大減少計(jì)算量,降低時(shí)間和空間的復(fù)雜度,簡(jiǎn)化學(xué)習(xí)模型。
經(jīng)過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,最終整理了高維度、大規(guī)模的、用于實(shí)驗(yàn)數(shù)據(jù)集的樣本,總共包含了 631 590條記錄,每條記錄包含33項(xiàng)客戶基本信息和114項(xiàng)客戶消費(fèi)行為特征 (構(gòu)造的24項(xiàng)月均消費(fèi)行為特征、24項(xiàng)月均消費(fèi)趨勢(shì)特征和17項(xiàng)通話行為特征、21項(xiàng)不同時(shí)段通話頻率行為特征、20項(xiàng)服務(wù)消費(fèi)行為特征以及8項(xiàng)手機(jī)上網(wǎng)行為特征)以及1項(xiàng)類(lèi)別特征,總共148項(xiàng)。
因?yàn)楸景咐饕獞?yīng)用兩種模型來(lái)進(jìn)行數(shù)據(jù)挖掘,所以在建立模型時(shí)需要考慮可實(shí)施性來(lái)建立合理的模型。在這里采用SAS/EM模塊來(lái)搭建整個(gè)模型,將聚類(lèi)分析模型和流失預(yù)測(cè)模型布置在同一個(gè)工作區(qū)中,兩個(gè)模型各自執(zhí)行不同的功能,最終完成對(duì)數(shù)據(jù)的挖掘工作。所建立的模型如圖1所示。
圖1 客戶聚類(lèi)分析和流失預(yù)測(cè)模型
2.1聚類(lèi)分析模型
聚類(lèi)分析模型通過(guò)對(duì)客戶的合理劃分來(lái)反映客戶的整體特征,根據(jù)劃分后的類(lèi)別簇群來(lái)判斷不同客戶的固有信息及消費(fèi)特點(diǎn)。
從聚類(lèi)分析模型的顯示結(jié)果(如圖2所示)可以看出,所有的客戶被分為10個(gè)簇群,從各個(gè)簇群的類(lèi)別分布情況來(lái)看,有6個(gè)簇(簇1、簇2、簇4、簇5、簇8、簇9)的客戶基本是由正??蛻艚M成,其他4個(gè)簇的客戶基本是由流失客戶組成,而且通過(guò)與每個(gè)特征分布的均值對(duì)比,可以發(fā)現(xiàn)10號(hào)簇群的差異性最大[7-8]。
2.2流失預(yù)測(cè)模型
對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析是流失預(yù)測(cè)的基礎(chǔ),目的是將客戶劃分為不同的類(lèi)別,這樣可以在不同的客戶群體上進(jìn)行預(yù)測(cè)分析,從而根據(jù)各記錄的類(lèi)別編號(hào)判定流失客戶的所屬類(lèi)別。所以在進(jìn)行流失預(yù)測(cè)分析之前,將每條記錄所在的類(lèi)別編號(hào)作為一項(xiàng)特征添加到實(shí)驗(yàn)數(shù)據(jù)表中,用于流失預(yù)測(cè)建立模型的數(shù)據(jù)集中總共包含了150項(xiàng)特征(148項(xiàng)基本特征+1項(xiàng)聚類(lèi)編號(hào)+1項(xiàng)目標(biāo)特征)和631 590條數(shù)據(jù)記錄。選取其中2/3的數(shù)據(jù)作為訓(xùn)練集,剩余1/3的數(shù)據(jù)作為測(cè)試集,這樣分開(kāi)預(yù)測(cè)主要是后面便于檢測(cè)預(yù)測(cè)模型的準(zhǔn)確度。
本案例使用SAS/EM的決策樹(shù)分類(lèi)節(jié)點(diǎn)作為客戶流失預(yù)測(cè)的基本工具,選用決策樹(shù)分類(lèi)算法中的分類(lèi)與回歸樹(shù)(Classification and Regression Tree,CART)算法構(gòu)建聚類(lèi)分析模型,該算法采用Gini系數(shù)來(lái)度量對(duì)某個(gè)屬性變量測(cè)試輸出的兩組取值的差異性,采用“最佳評(píng)估值”方法來(lái)進(jìn)行樹(shù)剪枝。
在 SAS/EM模塊流失預(yù)測(cè)模型的分析結(jié)果中,圖 3為混淆矩陣,直觀顯示訓(xùn)練集和測(cè)試集的預(yù)測(cè)數(shù)據(jù)結(jié)果,圖 4為 Gini系數(shù)均方誤差曲線圖,通過(guò)訓(xùn)練集和測(cè)試集Gini系數(shù)的均方誤差曲線對(duì)比來(lái)反映模型的誤分率情況。
圖3 混淆矩陣圖
圖4 Gini系數(shù)均方誤差曲線圖
如圖5所示為流失預(yù)測(cè)的樹(shù)狀圖,顯示決策樹(shù)深度為3,從頂部開(kāi)始,直到獲得了最佳分類(lèi)結(jié)果時(shí)才停止分支,當(dāng)其達(dá)到最佳結(jié)果并且獲得了按同一規(guī)則分類(lèi)的客戶時(shí),便會(huì)在底部出現(xiàn)葉子節(jié)點(diǎn)。每個(gè)葉子節(jié)點(diǎn)的產(chǎn)生所依據(jù)的最重要的變量依次為[9]:客戶平均每個(gè)月的總消費(fèi)(MB_TOTAL_FEE)、月均本地通話次數(shù)(CS_LOCAL_COUNT)和月均新業(yè)務(wù)費(fèi)(MB_NEW_FEE)等。
下面根據(jù)圖5所顯示的規(guī)則,結(jié)合聚類(lèi)分析模型的應(yīng)用來(lái)說(shuō)明被分類(lèi)為流失客戶的一個(gè)分支節(jié)點(diǎn),流失客戶基本上具備以下特點(diǎn):
(1)平均每個(gè)月的總消費(fèi)小于 0.015元,流失概率為94.5%;
(2)平均每個(gè)月本地通話次數(shù)小于 0.125,流失概率為95.2%;
(3)平均每個(gè)月的新業(yè)務(wù)費(fèi)小于 6.25元,流失概率為96.0%。
圖5 流失預(yù)測(cè)模型的樹(shù)狀結(jié)構(gòu)圖
從預(yù)測(cè)模型的目標(biāo)分類(lèi)來(lái)看,目標(biāo)客戶主要分為2類(lèi)(正??蛻艉土魇Э蛻簦?,應(yīng)用CART算法來(lái)進(jìn)行流失預(yù)測(cè)分析,那么Gini系數(shù)的最大值為0.5。理想的分類(lèi)應(yīng)該盡量使樣本輸出變量取值的差異性總和達(dá)到最小,即“純度”最大,也就是使得輸出變量的取值差異性下降最快,“純度”增加最快。從圖4所示的Gini系數(shù)均方誤差曲線圖來(lái)看,曲線的下降速度很快,而且Gini系數(shù)的均方誤差取值很小,也就是說(shuō),建立的流失預(yù)測(cè)模型性能很好,接近理想的分類(lèi)。
對(duì)已知客戶狀態(tài)的數(shù)據(jù)利用模型來(lái)進(jìn)行預(yù)測(cè)分析,將得到的預(yù)測(cè)結(jié)果和實(shí)際客戶的狀態(tài)進(jìn)行對(duì)比,可以計(jì)算出預(yù)測(cè)的準(zhǔn)確度。流失預(yù)測(cè)模型的評(píng)估結(jié)果如圖6所示,計(jì)算出準(zhǔn)確度為 96.8%,從整個(gè)模型的預(yù)測(cè)結(jié)果和評(píng)估結(jié)果來(lái)看,建立的客戶流失預(yù)測(cè)模型比較接近理想模型,具有一定的實(shí)踐意義。
本文應(yīng)用數(shù)據(jù)挖掘技術(shù),采用聚類(lèi)分析和決策樹(shù)分類(lèi)算法對(duì)電信行業(yè)中的客戶流失情況進(jìn)行了分析。利用SAS/EM模塊,在建立了分類(lèi)模型后,應(yīng)用 CART算法建立了客戶流失預(yù)測(cè)模型,結(jié)合2種模型的預(yù)測(cè)結(jié)果,對(duì)流失客戶所具備的基本特征做了總結(jié),并且對(duì)建立的流失預(yù)測(cè)模型進(jìn)行了評(píng)估測(cè)試和優(yōu)化。建立的這套完整的模型改進(jìn)了現(xiàn)有流失預(yù)測(cè)模型缺乏靈活性、難以處理大規(guī)模高維度數(shù)據(jù)的缺陷,有效地提高了模型的準(zhǔn)確性(準(zhǔn)確性高達(dá) 96.8%)和普遍應(yīng)用性。
圖6 流失預(yù)測(cè)模型的評(píng)估結(jié)果
[1]劉飛.我國(guó)通信企業(yè)客戶流失預(yù)測(cè)研究綜述[J].企業(yè)科技與發(fā)展,2011(7):273-275.
[2]夏國(guó)恩.客戶流失預(yù)測(cè)的現(xiàn)狀與發(fā)展研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(2):151-153.
[3]師江波,胡建華.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測(cè)分析[J].山西電子技術(shù),2009(1):48-50.
[4]蔣盛益,王連喜.面向電信的客戶流失預(yù)測(cè)模型研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2011,46(5):77-81.
[5]李陽(yáng),劉勝輝,趙洪松.數(shù)據(jù)挖掘在電信行業(yè)客戶流失管理中的研究與應(yīng)用[J].電腦知識(shí)與技術(shù),2010,6(3):518-521.
[6]吳志勇,戴曰章,鞠傳香.數(shù)據(jù)挖掘在電信客戶流失中的應(yīng)用[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)報(bào)),2007,21 (5):28-31.
[7]蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2011.
[8]楊池然,仲文明,周志勇.SAS9.2從入門(mén)到精通[M].北京:電子工業(yè)出版社,2011.
[9]MACLENNAN J,Tang Zhaohui,CRIVAT B.Data mining with Microsoft SQL Server 2008(2nd edition)[M].北京:清華大學(xué)出版社,2010.
The application of data mining to client churning prediction in telecom
Zhang Xianmei
(School of Industry,Xi′an Siyuan University,Xi′an 710038,China)
Client churning is a serious problem in the development of telecommunication industry,and it has immediate influence to the profit of a company.This paper mainly introduces the whole procession of data mining in client churning of telecommunication.According to the data in the provider′s database,by analyzing and mining the natural attribution and action attribution among the clients,we set up a clustering model and an integrated prediction model,including assessment module,which is based on CART algorithm of decision tree in SAS EM module for client churning.The new model improves the disadvantages of the existed models,such as lack of flexibility,unable to process data with high dimensionality,even shows the essential features of customers lost visually.Using this model can analyse arbitrary datasets effectively and it enhances the generational applicability and the prediction accuracy rate.
client churn;data mining;decision tree;CART algorithm;cluster analysis;SAS/EM module;direction model for client churn
TP393
A
1674-7720(2015)15-0099-04
張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(15):99-102.
2015-04-08)
張線媚(1987-),女,碩士,助教,主要研究方向:無(wú)線傳感器網(wǎng)路及計(jì)算機(jī)應(yīng)用、數(shù)據(jù)挖掘。