• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征選擇的存量客戶(hù)流失預(yù)警分析

      2022-10-14 13:05:12李瓊陽(yáng)何月華
      許昌學(xué)院學(xué)報(bào) 2022年5期
      關(guān)鍵詞:樣本數(shù)決策樹(shù)建模

      李瓊陽(yáng),何月華

      (許昌學(xué)院 數(shù)理學(xué)院,河南 許昌 461000)

      智能手機(jī)的廣泛應(yīng)用,使得移動(dòng)、聯(lián)通和電信在最近的10年里快速發(fā)展.但隨著攜號(hào)轉(zhuǎn)網(wǎng)政策的施行,運(yùn)營(yíng)商的客戶(hù)量增速遲緩,發(fā)卡量穩(wěn)步不前.運(yùn)營(yíng)商之間的競(jìng)爭(zhēng)日益激烈,互相挖取競(jìng)爭(zhēng)對(duì)手客戶(hù)的事情時(shí)常發(fā)生,客戶(hù)流失已成為電信行業(yè)里亟待解決的主要問(wèn)題,高質(zhì)量客戶(hù)的轉(zhuǎn)網(wǎng)往往會(huì)給企業(yè)帶來(lái)非常大的損失.從成本角度來(lái)看,爭(zhēng)取一個(gè)新客戶(hù)的運(yùn)營(yíng)成本遠(yuǎn)比維護(hù)高質(zhì)量老客戶(hù)的成本高.因此,建立一套具有實(shí)際意義的預(yù)警監(jiān)察系統(tǒng),幫助企業(yè)在客戶(hù)流失前做出預(yù)警防范,具有極其重要的作用.

      客戶(hù)流失預(yù)警歸根結(jié)底是分類(lèi)問(wèn)題,把現(xiàn)存客戶(hù)分為兩類(lèi):即將流失和非流失,本質(zhì)是一個(gè)二分類(lèi)問(wèn)題.對(duì)于二分類(lèi)問(wèn)題有很多種數(shù)據(jù)挖掘技術(shù)可以利用,如邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等.國(guó)內(nèi)外許多學(xué)者都曾利用這些方法進(jìn)行相應(yīng)的研究,楊英英[1]建立了基于組合決策樹(shù)模型的手機(jī)客戶(hù)流失預(yù)警系統(tǒng);林濤[2]利用卡方檢驗(yàn)和相關(guān)系數(shù)檢驗(yàn)等方式選擇特征,基于邏輯回歸構(gòu)建寬帶用戶(hù)流失預(yù)警模型;彭佳雯[3]建立了基于SOM神經(jīng)網(wǎng)絡(luò)的客戶(hù)價(jià)值評(píng)估及流失分析體系;楊榮等[4]建立了基于基尼系數(shù)的決策樹(shù)模型,對(duì)存量客戶(hù)進(jìn)行流失預(yù)警;崔亞奇[5]基于C5.0算法進(jìn)行了航空客戶(hù)流失分析;戴鳳英[6]先使用Adaboost算法計(jì)算變量特征重要度,選擇重要建模特征,后分別使用Logistic回歸、Adaboost算法和XGBoost算法建立客戶(hù)流失預(yù)測(cè)模型;李?lèi)?ài)民[7]使用K-means聚類(lèi)分析和Logistic回歸建立客戶(hù)流失預(yù)警模型,深刻研究客戶(hù)流失原因,分析各種因素對(duì)客戶(hù)流失的影響程度,從而制定有效的客戶(hù)挽留策略.在算法選擇上,用得最多的是邏輯回歸和決策樹(shù),主要是因?yàn)槟P涂山忉審?qiáng),算法簡(jiǎn)便.本文主要基于客戶(hù)消費(fèi)數(shù)據(jù),利用統(tǒng)計(jì)方法篩選出重要的特征,結(jié)合決策樹(shù)探索構(gòu)建運(yùn)營(yíng)商客戶(hù)流失預(yù)警模型.

      1 研究方法

      為構(gòu)建可靠的客戶(hù)流失預(yù)警模型,需要選擇對(duì)目標(biāo)變量影響力較強(qiáng)的解釋變量,即選擇建模特征.本文采用信息值作為篩選建模變量的依據(jù),用可解釋性強(qiáng)、計(jì)算方法簡(jiǎn)單、可輸出分類(lèi)標(biāo)簽的決策樹(shù)模型作為建模方法.

      1.1 解釋變量重要性的度量

      信息值(informationofvalue)簡(jiǎn)記為IV,常用于度量建模特征對(duì)目標(biāo)變量的影響強(qiáng)度,是建模過(guò)程中選擇建模特征的一個(gè)非常重要的指標(biāo),它與信息理論中的熵比較類(lèi)似,主要用于二分類(lèi)問(wèn)題,下面介紹信息值的計(jì)算.為表述方便,可將二分類(lèi)問(wèn)題中的目標(biāo)變量用0、1表示,其中流失客戶(hù)表示為1,現(xiàn)存客戶(hù)表示為0.證據(jù)權(quán)重記為W,表示建模特征取某一個(gè)具體值時(shí)對(duì)研究問(wèn)題中的流失比例造成的影響,譬如當(dāng)建模特征取值為j時(shí)對(duì)流失比例造成的影響記為Wj,其計(jì)算公式為

      (1)

      這里BT表示總樣本中的流失客戶(hù)樣本數(shù),GT表示總樣本中的現(xiàn)存客戶(hù)樣本數(shù),Bj表示總樣本中該建模特征取值為j時(shí)的流失客戶(hù)樣本數(shù),Gj指表示總樣本中建模特征取值為j時(shí)的現(xiàn)存客戶(hù)樣本數(shù).

      信息值主要用來(lái)衡量一個(gè)建模特征中包含的信息量,假設(shè)該建模特征有q個(gè)取值,則其對(duì)應(yīng)的信息值計(jì)算方法如下:

      (2)

      從上述公式可知,信息值其實(shí)是建模特征每個(gè)取值所對(duì)應(yīng)的證據(jù)權(quán)重的加權(quán)和式,信息值的大小決定了建模特征對(duì)目標(biāo)變量影響力的強(qiáng)弱.

      根據(jù)IV信息值判定一個(gè)變量對(duì)目標(biāo)變量影響程度的規(guī)則如下:

      ①若IV<0.02,幾乎無(wú)影響,不予考慮;

      ②若0.02≤IV<0.1,說(shuō)明該變量對(duì)目標(biāo)變量有微弱的影響力;

      ③若0.1≤IV<0.3,說(shuō)明該變量對(duì)目標(biāo)變量影響力一般;

      ④若IV≥0.3,說(shuō)明該變量對(duì)目標(biāo)變量有比較強(qiáng)的影響力.

      1.2 決策樹(shù)

      決策樹(shù)是一種常見(jiàn)的機(jī)器學(xué)習(xí)分類(lèi)算法,原理簡(jiǎn)單,對(duì)連續(xù)型變量有很好的處理方法,對(duì)缺失數(shù)據(jù)也不敏感.其具備獨(dú)特的樹(shù)形結(jié)構(gòu),因而能夠高效處理高維、大規(guī)模的樣本數(shù)據(jù).決策樹(shù)建模的核心是如何在樹(shù)形結(jié)構(gòu)劃分時(shí)選擇最優(yōu)的結(jié)點(diǎn)特征.通常,隨著樹(shù)形結(jié)構(gòu)的不斷劃分,決策樹(shù)結(jié)點(diǎn)中的樣本應(yīng)盡可能是同類(lèi)的,即決策樹(shù)結(jié)點(diǎn)的“純度”應(yīng)不斷增大.

      決策樹(shù)建模中常用“信息熵”來(lái)衡量樣本集合的純度.假設(shè)目前樣本集合D中第k類(lèi)樣本占比為pk(k=1,2,…,m),則D的信息熵記為E,計(jì)算公式為

      (3)

      E(D)的值愈小,則表示樣本集合D愈“純”.

      假設(shè)某特征a是離散的,有n個(gè)可能值{a1,a2,…,an},若用特征a來(lái)對(duì)集合D進(jìn)一步劃分,則會(huì)產(chǎn)生n個(gè)分支結(jié)點(diǎn),而且第i個(gè)結(jié)點(diǎn)囊括了D中所有在特征a上取值為ai的樣本,記為Di.可利用(3)式算出Di的信息熵.一般說(shuō)來(lái)n個(gè)分支結(jié)點(diǎn)所含有的樣本數(shù)不相同,故賦給每個(gè)分支結(jié)點(diǎn)一定的權(quán)重:|Di|/|D|,其中,|D|是指樣本集合中的樣本數(shù),|Di|指樣本集合中D中所有在特征a上取值為ai的樣本數(shù).由此可算出利用特征a對(duì)樣本集合D進(jìn)一步劃分得到的“信息增益”,記為G,計(jì)算公式為

      (4)

      通常,信息增益越大,表示利用特征a對(duì)樣本集合D進(jìn)行劃分,使得各分支結(jié)點(diǎn)的純度越高.因此“信息增益”在決策樹(shù)劃分屬性的選擇上有較為廣泛的應(yīng)用.

      2 實(shí)證分析

      2.1 數(shù)據(jù)獲取和預(yù)處理

      數(shù)據(jù)獲取:建模數(shù)據(jù)是某地運(yùn)營(yíng)商提供的客戶(hù)消費(fèi)行為數(shù)據(jù),共有100 000個(gè)樣本,樣本數(shù)據(jù)集中有當(dāng)月消費(fèi)額、套餐金額、每月通話(huà)時(shí)長(zhǎng)、入網(wǎng)時(shí)長(zhǎng)、流量使用、賬戶(hù)余額、是否為流失客戶(hù)等共有82個(gè)變量.其中有29 060個(gè)樣本為已流失的樣本,標(biāo)記為“1”,有70 940個(gè)樣本為現(xiàn)存客戶(hù),標(biāo)記為“0”,正負(fù)樣本比例約為1∶ 2.4.

      數(shù)據(jù)預(yù)處理:運(yùn)營(yíng)商提供的數(shù)據(jù)并不能夠直接使用,其中可能存在著缺失值、異常值和重復(fù)樣本等問(wèn)題,數(shù)據(jù)質(zhì)量不高,為了保證建模型效率,往往需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.

      缺失值的處理方法比較多,對(duì)于樣本來(lái)說(shuō),一個(gè)樣本中如果有20%以上的變量值是缺失的,這個(gè)樣本可以直接刪掉.經(jīng)過(guò)計(jì)算,建模數(shù)據(jù)中沒(méi)有樣本的變量缺失值比例達(dá)到20%.

      對(duì)于變量來(lái)說(shuō),當(dāng)此變量只有一種取值時(shí),表明此變量包含的信息量太少,無(wú)研究的必要,可以直接刪掉.當(dāng)變量的缺失值很少時(shí),可以將缺失值直接賦值為0或者是填補(bǔ)一個(gè)合適的值.根據(jù)實(shí)際情況,可以用同一個(gè)常數(shù)、均值、眾數(shù)、中位數(shù)或用某種預(yù)測(cè)的方法預(yù)測(cè)的一個(gè)值[8].經(jīng)過(guò)初步探索,共剔除了3個(gè)無(wú)研究?jī)r(jià)值的變量,剩余的79個(gè)變量中有50個(gè)變量存在缺失值,其中2個(gè)變量缺失比例超過(guò)了70%,故而直接刪除了這兩個(gè)變量,30個(gè)有缺失值的變量缺失比例不超過(guò)5%,18個(gè)有缺失值的變量缺失比例不超過(guò)10%,缺失比例不高,可將缺失值置為0.是否為流失客戶(hù)這個(gè)目標(biāo)變量沒(méi)有缺失值.

      在處理異常值時(shí)要根據(jù)情況具體分析,如本月消費(fèi)金額,顯然該變量是非負(fù)的.如果某個(gè)樣本在該變量上的值是負(fù)數(shù),則一定是有問(wèn)題的,可考慮用0來(lái)代替.本文在處理異常值時(shí),用此變量的均值±3倍標(biāo)準(zhǔn)差來(lái)代替.

      經(jīng)過(guò)樣本數(shù)據(jù)主鍵的比較,無(wú)重復(fù)樣本.

      在實(shí)證分析中,使用R、Excel編寫(xiě)代碼和計(jì)算.

      2.2 特征的選擇

      首先計(jì)算每個(gè)解釋變量的信息值,選擇信息值大于0.4的變量進(jìn)入模型.為了保證建模效果,最大限度避免變量之間可能存在的多重共線(xiàn)性,所以繼續(xù)計(jì)算篩選出來(lái)的變量之間的相關(guān)系數(shù),對(duì)于相關(guān)系數(shù)較強(qiáng)的變量,不宜全部進(jìn)入模型,可根據(jù)變量獲取的難度、變量觀(guān)測(cè)數(shù)據(jù)的質(zhì)量、對(duì)目標(biāo)變量的影響力等予以刪除.

      最終選出9個(gè)對(duì)目標(biāo)變量(是否為流失用戶(hù))有重要影響的解釋變量,如表1所示

      表1 建模變量的影響力

      2.3 分類(lèi)器的構(gòu)建及對(duì)比

      以是否為流失客戶(hù)為被解釋變量,以2.2中篩選出來(lái)的9個(gè)變量為解釋變量,將100 000個(gè)樣本按照7∶ 3的比例隨機(jī)分成訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集中正負(fù)樣本比例大致為1∶ 2.4.訓(xùn)練集中有70 000個(gè)樣本,其中有49 628個(gè)現(xiàn)存客戶(hù)樣本,20 372個(gè)流失客戶(hù)樣本;測(cè)試集中有30 000個(gè)樣本,其中有21 312個(gè)現(xiàn)存客戶(hù)樣本,8 688個(gè)流失客戶(hù)樣本.分別構(gòu)建決策樹(shù)和邏輯回歸模型,將二者在訓(xùn)練集和測(cè)試集上的查準(zhǔn)率、查全率進(jìn)行比較,結(jié)果如下:

      表2 建模效果對(duì)比

      表中(0,0)表示為正確識(shí)別現(xiàn)存用戶(hù)的樣本數(shù),記為a;(0,1)表示將現(xiàn)存用戶(hù)誤判為流失用戶(hù)的樣本數(shù),記為b;(1,0)表示將流失用戶(hù)誤判為現(xiàn)存用戶(hù)的樣本數(shù),記為c;(1,1)表示正確識(shí)別流失的用戶(hù)樣本數(shù),記為d;查全率記為r,查準(zhǔn)率記為p,計(jì)算公式如下:

      (5)

      (6)

      結(jié)果表明,經(jīng)由信息值篩選出來(lái)的變量是合理的,是對(duì)目標(biāo)變量影響力較強(qiáng)的變量,不論是邏輯回歸算法還是決策樹(shù)算法,都達(dá)到了80%以上的準(zhǔn)確率.但是,決策樹(shù)算法的建模結(jié)果無(wú)論是查準(zhǔn)率還是查全率,都要優(yōu)于邏輯回歸算法,而且決策樹(shù)模型在測(cè)試集的建模結(jié)果依然穩(wěn)健,表明首先基于信息值篩選出來(lái)重要變量,繼而采用決策樹(shù)算法構(gòu)建客戶(hù)流失預(yù)警模型是具有一定的實(shí)用價(jià)值的.

      3 結(jié)論

      攜號(hào)轉(zhuǎn)網(wǎng)政策的施行,使得三家運(yùn)營(yíng)商面臨著客戶(hù)流失的困境,精準(zhǔn)快速地識(shí)別出即將轉(zhuǎn)網(wǎng)的用戶(hù),對(duì)于企業(yè)的生存和發(fā)展至關(guān)重要.決策樹(shù)算法是目前在建立客戶(hù)流失預(yù)警體系中應(yīng)用最廣泛的分類(lèi)算法之一,本文基于信息值構(gòu)建的分類(lèi)器在識(shí)別流失客戶(hù)上效果顯著,具有較高的實(shí)用價(jià)值.可基于上述模型,對(duì)現(xiàn)存客戶(hù)進(jìn)行預(yù)測(cè),將現(xiàn)存客戶(hù)分為即將流失和不會(huì)流失兩類(lèi),對(duì)于即將流失的用戶(hù)精準(zhǔn)施策,不僅能夠保障運(yùn)營(yíng)商的用戶(hù)量,還可以為企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展提供強(qiáng)有力的支撐.

      猜你喜歡
      樣本數(shù)決策樹(shù)建模
      勘 誤 聲 明
      聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      不對(duì)稱(chēng)半橋變換器的建模與仿真
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      嘉定区| 彭山县| 清镇市| 巧家县| 如皋市| 聂拉木县| 镶黄旗| 常宁市| 札达县| 石渠县| 新建县| 凤山市| 濉溪县| 丽水市| 固原市| 澄迈县| 延寿县| 通州区| 钦州市| 综艺| 宁波市| 大冶市| 普兰县| 农安县| 临邑县| 万源市| 邯郸县| 长兴县| 小金县| 泽普县| 哈巴河县| 宜春市| 安龙县| 台前县| 临夏县| 合川市| 德令哈市| 浙江省| 高碑店市| 崇仁县| 盐城市|