李瓊陽(yáng),何月華
(許昌學(xué)院 數(shù)理學(xué)院,河南 許昌 461000)
智能手機(jī)的廣泛應(yīng)用,使得移動(dòng)、聯(lián)通和電信在最近的10年里快速發(fā)展.但隨著攜號(hào)轉(zhuǎn)網(wǎng)政策的施行,運(yùn)營(yíng)商的客戶(hù)量增速遲緩,發(fā)卡量穩(wěn)步不前.運(yùn)營(yíng)商之間的競(jìng)爭(zhēng)日益激烈,互相挖取競(jìng)爭(zhēng)對(duì)手客戶(hù)的事情時(shí)常發(fā)生,客戶(hù)流失已成為電信行業(yè)里亟待解決的主要問(wèn)題,高質(zhì)量客戶(hù)的轉(zhuǎn)網(wǎng)往往會(huì)給企業(yè)帶來(lái)非常大的損失.從成本角度來(lái)看,爭(zhēng)取一個(gè)新客戶(hù)的運(yùn)營(yíng)成本遠(yuǎn)比維護(hù)高質(zhì)量老客戶(hù)的成本高.因此,建立一套具有實(shí)際意義的預(yù)警監(jiān)察系統(tǒng),幫助企業(yè)在客戶(hù)流失前做出預(yù)警防范,具有極其重要的作用.
客戶(hù)流失預(yù)警歸根結(jié)底是分類(lèi)問(wèn)題,把現(xiàn)存客戶(hù)分為兩類(lèi):即將流失和非流失,本質(zhì)是一個(gè)二分類(lèi)問(wèn)題.對(duì)于二分類(lèi)問(wèn)題有很多種數(shù)據(jù)挖掘技術(shù)可以利用,如邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等.國(guó)內(nèi)外許多學(xué)者都曾利用這些方法進(jìn)行相應(yīng)的研究,楊英英[1]建立了基于組合決策樹(shù)模型的手機(jī)客戶(hù)流失預(yù)警系統(tǒng);林濤[2]利用卡方檢驗(yàn)和相關(guān)系數(shù)檢驗(yàn)等方式選擇特征,基于邏輯回歸構(gòu)建寬帶用戶(hù)流失預(yù)警模型;彭佳雯[3]建立了基于SOM神經(jīng)網(wǎng)絡(luò)的客戶(hù)價(jià)值評(píng)估及流失分析體系;楊榮等[4]建立了基于基尼系數(shù)的決策樹(shù)模型,對(duì)存量客戶(hù)進(jìn)行流失預(yù)警;崔亞奇[5]基于C5.0算法進(jìn)行了航空客戶(hù)流失分析;戴鳳英[6]先使用Adaboost算法計(jì)算變量特征重要度,選擇重要建模特征,后分別使用Logistic回歸、Adaboost算法和XGBoost算法建立客戶(hù)流失預(yù)測(cè)模型;李?lèi)?ài)民[7]使用K-means聚類(lèi)分析和Logistic回歸建立客戶(hù)流失預(yù)警模型,深刻研究客戶(hù)流失原因,分析各種因素對(duì)客戶(hù)流失的影響程度,從而制定有效的客戶(hù)挽留策略.在算法選擇上,用得最多的是邏輯回歸和決策樹(shù),主要是因?yàn)槟P涂山忉審?qiáng),算法簡(jiǎn)便.本文主要基于客戶(hù)消費(fèi)數(shù)據(jù),利用統(tǒng)計(jì)方法篩選出重要的特征,結(jié)合決策樹(shù)探索構(gòu)建運(yùn)營(yíng)商客戶(hù)流失預(yù)警模型.
為構(gòu)建可靠的客戶(hù)流失預(yù)警模型,需要選擇對(duì)目標(biāo)變量影響力較強(qiáng)的解釋變量,即選擇建模特征.本文采用信息值作為篩選建模變量的依據(jù),用可解釋性強(qiáng)、計(jì)算方法簡(jiǎn)單、可輸出分類(lèi)標(biāo)簽的決策樹(shù)模型作為建模方法.
信息值(informationofvalue)簡(jiǎn)記為IV,常用于度量建模特征對(duì)目標(biāo)變量的影響強(qiáng)度,是建模過(guò)程中選擇建模特征的一個(gè)非常重要的指標(biāo),它與信息理論中的熵比較類(lèi)似,主要用于二分類(lèi)問(wèn)題,下面介紹信息值的計(jì)算.為表述方便,可將二分類(lèi)問(wèn)題中的目標(biāo)變量用0、1表示,其中流失客戶(hù)表示為1,現(xiàn)存客戶(hù)表示為0.證據(jù)權(quán)重記為W,表示建模特征取某一個(gè)具體值時(shí)對(duì)研究問(wèn)題中的流失比例造成的影響,譬如當(dāng)建模特征取值為j時(shí)對(duì)流失比例造成的影響記為Wj,其計(jì)算公式為
(1)
這里BT表示總樣本中的流失客戶(hù)樣本數(shù),GT表示總樣本中的現(xiàn)存客戶(hù)樣本數(shù),Bj表示總樣本中該建模特征取值為j時(shí)的流失客戶(hù)樣本數(shù),Gj指表示總樣本中建模特征取值為j時(shí)的現(xiàn)存客戶(hù)樣本數(shù).
信息值主要用來(lái)衡量一個(gè)建模特征中包含的信息量,假設(shè)該建模特征有q個(gè)取值,則其對(duì)應(yīng)的信息值計(jì)算方法如下:
(2)
從上述公式可知,信息值其實(shí)是建模特征每個(gè)取值所對(duì)應(yīng)的證據(jù)權(quán)重的加權(quán)和式,信息值的大小決定了建模特征對(duì)目標(biāo)變量影響力的強(qiáng)弱.
根據(jù)IV信息值判定一個(gè)變量對(duì)目標(biāo)變量影響程度的規(guī)則如下:
①若IV<0.02,幾乎無(wú)影響,不予考慮;
②若0.02≤IV<0.1,說(shuō)明該變量對(duì)目標(biāo)變量有微弱的影響力;
③若0.1≤IV<0.3,說(shuō)明該變量對(duì)目標(biāo)變量影響力一般;
④若IV≥0.3,說(shuō)明該變量對(duì)目標(biāo)變量有比較強(qiáng)的影響力.
決策樹(shù)是一種常見(jiàn)的機(jī)器學(xué)習(xí)分類(lèi)算法,原理簡(jiǎn)單,對(duì)連續(xù)型變量有很好的處理方法,對(duì)缺失數(shù)據(jù)也不敏感.其具備獨(dú)特的樹(shù)形結(jié)構(gòu),因而能夠高效處理高維、大規(guī)模的樣本數(shù)據(jù).決策樹(shù)建模的核心是如何在樹(shù)形結(jié)構(gòu)劃分時(shí)選擇最優(yōu)的結(jié)點(diǎn)特征.通常,隨著樹(shù)形結(jié)構(gòu)的不斷劃分,決策樹(shù)結(jié)點(diǎn)中的樣本應(yīng)盡可能是同類(lèi)的,即決策樹(shù)結(jié)點(diǎn)的“純度”應(yīng)不斷增大.
決策樹(shù)建模中常用“信息熵”來(lái)衡量樣本集合的純度.假設(shè)目前樣本集合D中第k類(lèi)樣本占比為pk(k=1,2,…,m),則D的信息熵記為E,計(jì)算公式為
(3)
E(D)的值愈小,則表示樣本集合D愈“純”.
假設(shè)某特征a是離散的,有n個(gè)可能值{a1,a2,…,an},若用特征a來(lái)對(duì)集合D進(jìn)一步劃分,則會(huì)產(chǎn)生n個(gè)分支結(jié)點(diǎn),而且第i個(gè)結(jié)點(diǎn)囊括了D中所有在特征a上取值為ai的樣本,記為Di.可利用(3)式算出Di的信息熵.一般說(shuō)來(lái)n個(gè)分支結(jié)點(diǎn)所含有的樣本數(shù)不相同,故賦給每個(gè)分支結(jié)點(diǎn)一定的權(quán)重:|Di|/|D|,其中,|D|是指樣本集合中的樣本數(shù),|Di|指樣本集合中D中所有在特征a上取值為ai的樣本數(shù).由此可算出利用特征a對(duì)樣本集合D進(jìn)一步劃分得到的“信息增益”,記為G,計(jì)算公式為
(4)
通常,信息增益越大,表示利用特征a對(duì)樣本集合D進(jìn)行劃分,使得各分支結(jié)點(diǎn)的純度越高.因此“信息增益”在決策樹(shù)劃分屬性的選擇上有較為廣泛的應(yīng)用.
數(shù)據(jù)獲取:建模數(shù)據(jù)是某地運(yùn)營(yíng)商提供的客戶(hù)消費(fèi)行為數(shù)據(jù),共有100 000個(gè)樣本,樣本數(shù)據(jù)集中有當(dāng)月消費(fèi)額、套餐金額、每月通話(huà)時(shí)長(zhǎng)、入網(wǎng)時(shí)長(zhǎng)、流量使用、賬戶(hù)余額、是否為流失客戶(hù)等共有82個(gè)變量.其中有29 060個(gè)樣本為已流失的樣本,標(biāo)記為“1”,有70 940個(gè)樣本為現(xiàn)存客戶(hù),標(biāo)記為“0”,正負(fù)樣本比例約為1∶ 2.4.
數(shù)據(jù)預(yù)處理:運(yùn)營(yíng)商提供的數(shù)據(jù)并不能夠直接使用,其中可能存在著缺失值、異常值和重復(fù)樣本等問(wèn)題,數(shù)據(jù)質(zhì)量不高,為了保證建模型效率,往往需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.
缺失值的處理方法比較多,對(duì)于樣本來(lái)說(shuō),一個(gè)樣本中如果有20%以上的變量值是缺失的,這個(gè)樣本可以直接刪掉.經(jīng)過(guò)計(jì)算,建模數(shù)據(jù)中沒(méi)有樣本的變量缺失值比例達(dá)到20%.
對(duì)于變量來(lái)說(shuō),當(dāng)此變量只有一種取值時(shí),表明此變量包含的信息量太少,無(wú)研究的必要,可以直接刪掉.當(dāng)變量的缺失值很少時(shí),可以將缺失值直接賦值為0或者是填補(bǔ)一個(gè)合適的值.根據(jù)實(shí)際情況,可以用同一個(gè)常數(shù)、均值、眾數(shù)、中位數(shù)或用某種預(yù)測(cè)的方法預(yù)測(cè)的一個(gè)值[8].經(jīng)過(guò)初步探索,共剔除了3個(gè)無(wú)研究?jī)r(jià)值的變量,剩余的79個(gè)變量中有50個(gè)變量存在缺失值,其中2個(gè)變量缺失比例超過(guò)了70%,故而直接刪除了這兩個(gè)變量,30個(gè)有缺失值的變量缺失比例不超過(guò)5%,18個(gè)有缺失值的變量缺失比例不超過(guò)10%,缺失比例不高,可將缺失值置為0.是否為流失客戶(hù)這個(gè)目標(biāo)變量沒(méi)有缺失值.
在處理異常值時(shí)要根據(jù)情況具體分析,如本月消費(fèi)金額,顯然該變量是非負(fù)的.如果某個(gè)樣本在該變量上的值是負(fù)數(shù),則一定是有問(wèn)題的,可考慮用0來(lái)代替.本文在處理異常值時(shí),用此變量的均值±3倍標(biāo)準(zhǔn)差來(lái)代替.
經(jīng)過(guò)樣本數(shù)據(jù)主鍵的比較,無(wú)重復(fù)樣本.
在實(shí)證分析中,使用R、Excel編寫(xiě)代碼和計(jì)算.
首先計(jì)算每個(gè)解釋變量的信息值,選擇信息值大于0.4的變量進(jìn)入模型.為了保證建模效果,最大限度避免變量之間可能存在的多重共線(xiàn)性,所以繼續(xù)計(jì)算篩選出來(lái)的變量之間的相關(guān)系數(shù),對(duì)于相關(guān)系數(shù)較強(qiáng)的變量,不宜全部進(jìn)入模型,可根據(jù)變量獲取的難度、變量觀(guān)測(cè)數(shù)據(jù)的質(zhì)量、對(duì)目標(biāo)變量的影響力等予以刪除.
最終選出9個(gè)對(duì)目標(biāo)變量(是否為流失用戶(hù))有重要影響的解釋變量,如表1所示
表1 建模變量的影響力
以是否為流失客戶(hù)為被解釋變量,以2.2中篩選出來(lái)的9個(gè)變量為解釋變量,將100 000個(gè)樣本按照7∶ 3的比例隨機(jī)分成訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集中正負(fù)樣本比例大致為1∶ 2.4.訓(xùn)練集中有70 000個(gè)樣本,其中有49 628個(gè)現(xiàn)存客戶(hù)樣本,20 372個(gè)流失客戶(hù)樣本;測(cè)試集中有30 000個(gè)樣本,其中有21 312個(gè)現(xiàn)存客戶(hù)樣本,8 688個(gè)流失客戶(hù)樣本.分別構(gòu)建決策樹(shù)和邏輯回歸模型,將二者在訓(xùn)練集和測(cè)試集上的查準(zhǔn)率、查全率進(jìn)行比較,結(jié)果如下:
表2 建模效果對(duì)比
表中(0,0)表示為正確識(shí)別現(xiàn)存用戶(hù)的樣本數(shù),記為a;(0,1)表示將現(xiàn)存用戶(hù)誤判為流失用戶(hù)的樣本數(shù),記為b;(1,0)表示將流失用戶(hù)誤判為現(xiàn)存用戶(hù)的樣本數(shù),記為c;(1,1)表示正確識(shí)別流失的用戶(hù)樣本數(shù),記為d;查全率記為r,查準(zhǔn)率記為p,計(jì)算公式如下:
(5)
(6)
結(jié)果表明,經(jīng)由信息值篩選出來(lái)的變量是合理的,是對(duì)目標(biāo)變量影響力較強(qiáng)的變量,不論是邏輯回歸算法還是決策樹(shù)算法,都達(dá)到了80%以上的準(zhǔn)確率.但是,決策樹(shù)算法的建模結(jié)果無(wú)論是查準(zhǔn)率還是查全率,都要優(yōu)于邏輯回歸算法,而且決策樹(shù)模型在測(cè)試集的建模結(jié)果依然穩(wěn)健,表明首先基于信息值篩選出來(lái)重要變量,繼而采用決策樹(shù)算法構(gòu)建客戶(hù)流失預(yù)警模型是具有一定的實(shí)用價(jià)值的.
攜號(hào)轉(zhuǎn)網(wǎng)政策的施行,使得三家運(yùn)營(yíng)商面臨著客戶(hù)流失的困境,精準(zhǔn)快速地識(shí)別出即將轉(zhuǎn)網(wǎng)的用戶(hù),對(duì)于企業(yè)的生存和發(fā)展至關(guān)重要.決策樹(shù)算法是目前在建立客戶(hù)流失預(yù)警體系中應(yīng)用最廣泛的分類(lèi)算法之一,本文基于信息值構(gòu)建的分類(lèi)器在識(shí)別流失客戶(hù)上效果顯著,具有較高的實(shí)用價(jià)值.可基于上述模型,對(duì)現(xiàn)存客戶(hù)進(jìn)行預(yù)測(cè),將現(xiàn)存客戶(hù)分為即將流失和不會(huì)流失兩類(lèi),對(duì)于即將流失的用戶(hù)精準(zhǔn)施策,不僅能夠保障運(yùn)營(yíng)商的用戶(hù)量,還可以為企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展提供強(qiáng)有力的支撐.