基于特征選擇的存量客戶(hù)流失預(yù)警分析

2022-10-14 13:05:12李瓊陽(yáng)何月華

許昌學(xué)院學(xué)報(bào) 2022年5期

李瓊陽(yáng),何月華

(許昌學(xué)院數(shù)理學(xué)院，河南許昌 461000)

智能手機(jī)的廣泛應(yīng)用，使得移動(dòng)、聯(lián)通和電信在最近的10年里快速發(fā)展.但隨著攜號(hào)轉(zhuǎn)網(wǎng)政策的施行，運(yùn)營(yíng)商的客戶(hù)量增速遲緩，發(fā)卡量穩(wěn)步不前.運(yùn)營(yíng)商之間的競(jìng)爭(zhēng)日益激烈，互相挖取競(jìng)爭(zhēng)對(duì)手客戶(hù)的事情時(shí)常發(fā)生，客戶(hù)流失已成為電信行業(yè)里亟待解決的主要問(wèn)題，高質(zhì)量客戶(hù)的轉(zhuǎn)網(wǎng)往往會(huì)給企業(yè)帶來(lái)非常大的損失.從成本角度來(lái)看，爭(zhēng)取一個(gè)新客戶(hù)的運(yùn)營(yíng)成本遠(yuǎn)比維護(hù)高質(zhì)量老客戶(hù)的成本高.因此，建立一套具有實(shí)際意義的預(yù)警監(jiān)察系統(tǒng)，幫助企業(yè)在客戶(hù)流失前做出預(yù)警防范，具有極其重要的作用.

客戶(hù)流失預(yù)警歸根結(jié)底是分類(lèi)問(wèn)題，把現(xiàn)存客戶(hù)分為兩類(lèi)：即將流失和非流失，本質(zhì)是一個(gè)二分類(lèi)問(wèn)題.對(duì)于二分類(lèi)問(wèn)題有很多種數(shù)據(jù)挖掘技術(shù)可以利用，如邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等.國(guó)內(nèi)外許多學(xué)者都曾利用這些方法進(jìn)行相應(yīng)的研究，楊英英[1]建立了基于組合決策樹(shù)模型的手機(jī)客戶(hù)流失預(yù)警系統(tǒng)；林濤[2]利用卡方檢驗(yàn)和相關(guān)系數(shù)檢驗(yàn)等方式選擇特征，基于邏輯回歸構(gòu)建寬帶用戶(hù)流失預(yù)警模型；彭佳雯[3]建立了基于SOM神經(jīng)網(wǎng)絡(luò)的客戶(hù)價(jià)值評(píng)估及流失分析體系；楊榮等[4]建立了基于基尼系數(shù)的決策樹(shù)模型，對(duì)存量客戶(hù)進(jìn)行流失預(yù)警；崔亞奇[5]基于C5.0算法進(jìn)行了航空客戶(hù)流失分析；戴鳳英[6]先使用Adaboost算法計(jì)算變量特征重要度，選擇重要建模特征，后分別使用Logistic回歸、Adaboost算法和XGBoost算法建立客戶(hù)流失預(yù)測(cè)模型；李?lèi)?ài)民[7]使用K-means聚類(lèi)分析和Logistic回歸建立客戶(hù)流失預(yù)警模型，深刻研究客戶(hù)流失原因，分析各種因素對(duì)客戶(hù)流失的影響程度，從而制定有效的客戶(hù)挽留策略.在算法選擇上，用得最多的是邏輯回歸和決策樹(shù)，主要是因?yàn)槟Ｐ涂山忉審?qiáng)，算法簡(jiǎn)便.本文主要基于客戶(hù)消費(fèi)數(shù)據(jù)，利用統(tǒng)計(jì)方法篩選出重要的特征，結(jié)合決策樹(shù)探索構(gòu)建運(yùn)營(yíng)商客戶(hù)流失預(yù)警模型.

1 研究方法

為構(gòu)建可靠的客戶(hù)流失預(yù)警模型，需要選擇對(duì)目標(biāo)變量影響力較強(qiáng)的解釋變量，即選擇建模特征.本文采用信息值作為篩選建模變量的依據(jù)，用可解釋性強(qiáng)、計(jì)算方法簡(jiǎn)單、可輸出分類(lèi)標(biāo)簽的決策樹(shù)模型作為建模方法.

1.1 解釋變量重要性的度量

信息值(informationofvalue)簡(jiǎn)記為IV，常用于度量建模特征對(duì)目標(biāo)變量的影響強(qiáng)度，是建模過(guò)程中選擇建模特征的一個(gè)非常重要的指標(biāo)，它與信息理論中的熵比較類(lèi)似，主要用于二分類(lèi)問(wèn)題，下面介紹信息值的計(jì)算.為表述方便，可將二分類(lèi)問(wèn)題中的目標(biāo)變量用0、1表示，其中流失客戶(hù)表示為1，現(xiàn)存客戶(hù)表示為0.證據(jù)權(quán)重記為W，表示建模特征取某一個(gè)具體值時(shí)對(duì)研究問(wèn)題中的流失比例造成的影響，譬如當(dāng)建模特征取值為j時(shí)對(duì)流失比例造成的影響記為Wj，其計(jì)算公式為

(1)

這里BT表示總樣本中的流失客戶(hù)樣本數(shù)，GT表示總樣本中的現(xiàn)存客戶(hù)樣本數(shù)，Bj表示總樣本中該建模特征取值為j時(shí)的流失客戶(hù)樣本數(shù)，Gj指表示總樣本中建模特征取值為j時(shí)的現(xiàn)存客戶(hù)樣本數(shù).

信息值主要用來(lái)衡量一個(gè)建模特征中包含的信息量，假設(shè)該建模特征有q個(gè)取值，則其對(duì)應(yīng)的信息值計(jì)算方法如下：

(2)

從上述公式可知，信息值其實(shí)是建模特征每個(gè)取值所對(duì)應(yīng)的證據(jù)權(quán)重的加權(quán)和式，信息值的大小決定了建模特征對(duì)目標(biāo)變量影響力的強(qiáng)弱.

根據(jù)IV信息值判定一個(gè)變量對(duì)目標(biāo)變量影響程度的規(guī)則如下：

①若IV<0.02，幾乎無(wú)影響，不予考慮；

②若0.02≤IV<0.1，說(shuō)明該變量對(duì)目標(biāo)變量有微弱的影響力；

③若0.1≤IV<0.3，說(shuō)明該變量對(duì)目標(biāo)變量影響力一般；

④若IV≥0.3，說(shuō)明該變量對(duì)目標(biāo)變量有比較強(qiáng)的影響力.

1.2 決策樹(shù)

決策樹(shù)是一種常見(jiàn)的機(jī)器學(xué)習(xí)分類(lèi)算法，原理簡(jiǎn)單，對(duì)連續(xù)型變量有很好的處理方法，對(duì)缺失數(shù)據(jù)也不敏感.其具備獨(dú)特的樹(shù)形結(jié)構(gòu)，因而能夠高效處理高維、大規(guī)模的樣本數(shù)據(jù).決策樹(shù)建模的核心是如何在樹(shù)形結(jié)構(gòu)劃分時(shí)選擇最優(yōu)的結(jié)點(diǎn)特征.通常，隨著樹(shù)形結(jié)構(gòu)的不斷劃分，決策樹(shù)結(jié)點(diǎn)中的樣本應(yīng)盡可能是同類(lèi)的，即決策樹(shù)結(jié)點(diǎn)的“純度”應(yīng)不斷增大.

決策樹(shù)建模中常用“信息熵”來(lái)衡量樣本集合的純度.假設(shè)目前樣本集合D中第k類(lèi)樣本占比為pk(k=1,2,…,m)，則D的信息熵記為E，計(jì)算公式為

(3)

E(D)的值愈小，則表示樣本集合D愈“純”.

假設(shè)某特征a是離散的，有n個(gè)可能值{a1,a2,…,an}，若用特征a來(lái)對(duì)集合D進(jìn)一步劃分，則會(huì)產(chǎn)生n個(gè)分支結(jié)點(diǎn)，而且第i個(gè)結(jié)點(diǎn)囊括了D中所有在特征a上取值為ai的樣本，記為Di.可利用(3)式算出Di的信息熵.一般說(shuō)來(lái)n個(gè)分支結(jié)點(diǎn)所含有的樣本數(shù)不相同，故賦給每個(gè)分支結(jié)點(diǎn)一定的權(quán)重：|Di|/|D|，其中，|D|是指樣本集合中的樣本數(shù)，|Di|指樣本集合中D中所有在特征a上取值為ai的樣本數(shù).由此可算出利用特征a對(duì)樣本集合D進(jìn)一步劃分得到的“信息增益”，記為G,計(jì)算公式為

(4)

通常，信息增益越大，表示利用特征a對(duì)樣本集合D進(jìn)行劃分，使得各分支結(jié)點(diǎn)的純度越高.因此“信息增益”在決策樹(shù)劃分屬性的選擇上有較為廣泛的應(yīng)用.

2 實(shí)證分析

2.1 數(shù)據(jù)獲取和預(yù)處理

數(shù)據(jù)獲取：建模數(shù)據(jù)是某地運(yùn)營(yíng)商提供的客戶(hù)消費(fèi)行為數(shù)據(jù)，共有100 000個(gè)樣本，樣本數(shù)據(jù)集中有當(dāng)月消費(fèi)額、套餐金額、每月通話(huà)時(shí)長(zhǎng)、入網(wǎng)時(shí)長(zhǎng)、流量使用、賬戶(hù)余額、是否為流失客戶(hù)等共有82個(gè)變量.其中有29 060個(gè)樣本為已流失的樣本，標(biāo)記為“1”，有70 940個(gè)樣本為現(xiàn)存客戶(hù)，標(biāo)記為“0”，正負(fù)樣本比例約為1∶ 2.4.

數(shù)據(jù)預(yù)處理：運(yùn)營(yíng)商提供的數(shù)據(jù)并不能夠直接使用，其中可能存在著缺失值、異常值和重復(fù)樣本等問(wèn)題，數(shù)據(jù)質(zhì)量不高，為了保證建模型效率，往往需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.

缺失值的處理方法比較多，對(duì)于樣本來(lái)說(shuō)，一個(gè)樣本中如果有20%以上的變量值是缺失的，這個(gè)樣本可以直接刪掉.經(jīng)過(guò)計(jì)算，建模數(shù)據(jù)中沒(méi)有樣本的變量缺失值比例達(dá)到20%.

對(duì)于變量來(lái)說(shuō)，當(dāng)此變量只有一種取值時(shí)，表明此變量包含的信息量太少，無(wú)研究的必要，可以直接刪掉.當(dāng)變量的缺失值很少時(shí)，可以將缺失值直接賦值為0或者是填補(bǔ)一個(gè)合適的值.根據(jù)實(shí)際情況，可以用同一個(gè)常數(shù)、均值、眾數(shù)、中位數(shù)或用某種預(yù)測(cè)的方法預(yù)測(cè)的一個(gè)值[8].經(jīng)過(guò)初步探索，共剔除了3個(gè)無(wú)研究?jī)r(jià)值的變量，剩余的79個(gè)變量中有50個(gè)變量存在缺失值，其中2個(gè)變量缺失比例超過(guò)了70%，故而直接刪除了這兩個(gè)變量，30個(gè)有缺失值的變量缺失比例不超過(guò)5%，18個(gè)有缺失值的變量缺失比例不超過(guò)10%，缺失比例不高，可將缺失值置為0.是否為流失客戶(hù)這個(gè)目標(biāo)變量沒(méi)有缺失值.

在處理異常值時(shí)要根據(jù)情況具體分析，如本月消費(fèi)金額，顯然該變量是非負(fù)的.如果某個(gè)樣本在該變量上的值是負(fù)數(shù)，則一定是有問(wèn)題的，可考慮用0來(lái)代替.本文在處理異常值時(shí)，用此變量的均值±3倍標(biāo)準(zhǔn)差來(lái)代替.

經(jīng)過(guò)樣本數(shù)據(jù)主鍵的比較，無(wú)重復(fù)樣本.

在實(shí)證分析中，使用R、Excel編寫(xiě)代碼和計(jì)算.

2.2 特征的選擇

首先計(jì)算每個(gè)解釋變量的信息值，選擇信息值大于0.4的變量進(jìn)入模型.為了保證建模效果，最大限度避免變量之間可能存在的多重共線(xiàn)性，所以繼續(xù)計(jì)算篩選出來(lái)的變量之間的相關(guān)系數(shù)，對(duì)于相關(guān)系數(shù)較強(qiáng)的變量，不宜全部進(jìn)入模型，可根據(jù)變量獲取的難度、變量觀(guān)測(cè)數(shù)據(jù)的質(zhì)量、對(duì)目標(biāo)變量的影響力等予以刪除.

最終選出9個(gè)對(duì)目標(biāo)變量(是否為流失用戶(hù))有重要影響的解釋變量，如表1所示

表1 建模變量的影響力

2.3 分類(lèi)器的構(gòu)建及對(duì)比

以是否為流失客戶(hù)為被解釋變量，以2.2中篩選出來(lái)的9個(gè)變量為解釋變量，將100 000個(gè)樣本按照7∶ 3的比例隨機(jī)分成訓(xùn)練集和測(cè)試集，訓(xùn)練集和測(cè)試集中正負(fù)樣本比例大致為1∶ 2.4.訓(xùn)練集中有70 000個(gè)樣本，其中有49 628個(gè)現(xiàn)存客戶(hù)樣本，20 372個(gè)流失客戶(hù)樣本；測(cè)試集中有30 000個(gè)樣本，其中有21 312個(gè)現(xiàn)存客戶(hù)樣本，8 688個(gè)流失客戶(hù)樣本.分別構(gòu)建決策樹(shù)和邏輯回歸模型，將二者在訓(xùn)練集和測(cè)試集上的查準(zhǔn)率、查全率進(jìn)行比較，結(jié)果如下：

表2 建模效果對(duì)比

表中(0,0)表示為正確識(shí)別現(xiàn)存用戶(hù)的樣本數(shù)，記為a；(0,1)表示將現(xiàn)存用戶(hù)誤判為流失用戶(hù)的樣本數(shù)，記為b；(1,0)表示將流失用戶(hù)誤判為現(xiàn)存用戶(hù)的樣本數(shù)，記為c；(1,1)表示正確識(shí)別流失的用戶(hù)樣本數(shù)，記為d；查全率記為r，查準(zhǔn)率記為p，計(jì)算公式如下：

(5)

(6)

結(jié)果表明，經(jīng)由信息值篩選出來(lái)的變量是合理的，是對(duì)目標(biāo)變量影響力較強(qiáng)的變量，不論是邏輯回歸算法還是決策樹(shù)算法，都達(dá)到了80%以上的準(zhǔn)確率.但是，決策樹(shù)算法的建模結(jié)果無(wú)論是查準(zhǔn)率還是查全率，都要優(yōu)于邏輯回歸算法，而且決策樹(shù)模型在測(cè)試集的建模結(jié)果依然穩(wěn)健，表明首先基于信息值篩選出來(lái)重要變量，繼而采用決策樹(shù)算法構(gòu)建客戶(hù)流失預(yù)警模型是具有一定的實(shí)用價(jià)值的.

3 結(jié)論

攜號(hào)轉(zhuǎn)網(wǎng)政策的施行，使得三家運(yùn)營(yíng)商面臨著客戶(hù)流失的困境，精準(zhǔn)快速地識(shí)別出即將轉(zhuǎn)網(wǎng)的用戶(hù)，對(duì)于企業(yè)的生存和發(fā)展至關(guān)重要.決策樹(shù)算法是目前在建立客戶(hù)流失預(yù)警體系中應(yīng)用最廣泛的分類(lèi)算法之一，本文基于信息值構(gòu)建的分類(lèi)器在識(shí)別流失客戶(hù)上效果顯著，具有較高的實(shí)用價(jià)值.可基于上述模型，對(duì)現(xiàn)存客戶(hù)進(jìn)行預(yù)測(cè)，將現(xiàn)存客戶(hù)分為即將流失和不會(huì)流失兩類(lèi)，對(duì)于即將流失的用戶(hù)精準(zhǔn)施策，不僅能夠保障運(yùn)營(yíng)商的用戶(hù)量，還可以為企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展提供強(qiáng)有力的支撐.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看