• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于C5.0算法的電信用戶流失預(yù)警分析

      2014-08-10 08:10:00張衛(wèi)東
      宜賓學(xué)院學(xué)報 2014年6期
      關(guān)鍵詞:通話決策樹數(shù)據(jù)挖掘

      張衛(wèi)東,李 媛

      (成都理工大學(xué)管理科學(xué)學(xué)院,四川成都610059)

      基于C5.0算法的電信用戶流失預(yù)警分析

      張衛(wèi)東,李 媛

      (成都理工大學(xué)管理科學(xué)學(xué)院,四川成都610059)

      穩(wěn)定客戶是電信企業(yè)提高競爭力的關(guān)鍵,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電信企業(yè)的客戶保有,采用基于客戶行為的客戶細分方法,運用信息熵增益的決策樹算法,實現(xiàn)客戶的細分.構(gòu)建客戶流失預(yù)警分析模型,為企業(yè)提供準(zhǔn)確、可靠的決策指導(dǎo),找出流失客戶,幫助電信公司有針對性地改善客戶關(guān)系,避免客戶流失.

      客戶流失;C5.0;業(yè)務(wù);預(yù)警分析

      隨著4G牌照的發(fā)放,電信行業(yè)的競爭勢必更加激烈,中國電信行業(yè)的幾次拆分重組更是把電信市場一塊大蛋糕分成了三塊,由中國移動、中國電信和中國聯(lián)通三家企業(yè)共同分享.一家壟斷的局面被打破,電信行業(yè)進入三國爭霸時代,呈現(xiàn)出激烈的競爭勢態(tài).電信行業(yè)比較特別的是用戶量的多少對運營商前期的資金投入影響不大[1].因此,運營商擁有的固定客戶越多,其企業(yè)前期收入就會越高,企業(yè)的利潤就越大.在日常的運營中,為了占據(jù)更多的市場份額,公司一直把存量運營和客戶保有作為企業(yè)的核心工作,這對企業(yè)品牌建設(shè)、提高企業(yè)利潤乃至以后的發(fā)展都有極為深遠的意義.

      數(shù)據(jù)挖掘在電信行業(yè)有著廣泛的應(yīng)用(如客戶細分、市場細分、個性化業(yè)務(wù)定位、客戶流失預(yù)警分析等).客戶流失預(yù)警分析是通過數(shù)據(jù)挖掘,分析出客戶的業(yè)務(wù)屬性和行為軌跡特征,從而對流失客戶進行定位,為電信公司挽留這類客戶提供決策依據(jù).對于一般的客戶流失預(yù)測任務(wù),使用如決策樹、邏輯回歸、支持向量機等數(shù)據(jù)挖掘算法模型均能獲得理想的效果,而決策樹比一些其它類型的模型更易于理解,模型推出的規(guī)則非常直觀,比較容易從業(yè)務(wù)角度解釋.本文主要通過決策樹算法中的C5.0算法來實現(xiàn)客戶流失的預(yù)警分析,找出離網(wǎng)用戶的特征,幫助電信公司有針對性地改善客戶關(guān)系,防止客戶流失.

      1 模型設(shè)計思路和研究方法

      1.1 確定數(shù)據(jù)源

      數(shù)據(jù)是數(shù)據(jù)挖掘的基礎(chǔ),因此首先要提取用戶的部分通信數(shù)據(jù),主要包括用戶基本信息、捆綁信息、消費信息、行為信息和趨勢信息.然后將客戶分為正常用戶和流失用戶.正常用戶定義為:在數(shù)據(jù)統(tǒng)計日狀態(tài)為正常,包含統(tǒng)計日最近一周有通話行為,統(tǒng)計日當(dāng)月為出賬用戶,統(tǒng)計日下月有通話行為,統(tǒng)計日下月月底狀態(tài)為正常且出賬,統(tǒng)計日第3個月底狀態(tài)為正常且出賬.流失用戶定義為:在數(shù)據(jù)統(tǒng)計日狀態(tài)為正常使用且非停機,包含統(tǒng)計日最近一周有通話行為,截至到統(tǒng)計日的下月月底,已經(jīng)連續(xù)一周及以上無通話行為且3個月后狀態(tài)為預(yù)拆機、拆機,或下月月底為不出賬用戶.提取的用戶數(shù)據(jù)如下:

      用戶編號:用戶電話號碼.

      入網(wǎng)時長:單位:月.本月入網(wǎng),在網(wǎng)時長為1個月,上月入網(wǎng),在網(wǎng)時長為2個月依此類推,本月入網(wǎng)本月離網(wǎng),則在網(wǎng)時長為1個月,本月入網(wǎng)下月離網(wǎng),則在網(wǎng)時長為2個月.1為入網(wǎng)一個月、2為入網(wǎng)兩個月,依此類推.

      是否流失:1是、0否.

      手機卡類型:各運營商手機卡類型不同,如中國移動可分為:1全球通、2神州行、3動感地帶.

      付費類型:1預(yù)付費、0后付費.

      賬戶余額:單位為元,指賬戶本金余額.

      最后一次通話至統(tǒng)計日的天數(shù):最后一次通話至統(tǒng)計日的通話天數(shù),若統(tǒng)計日當(dāng)天有通話,則天數(shù)為0.

      近三個月平均ARPU:單位為元,統(tǒng)計日前三個月的ARPU平均值,如果客戶入網(wǎng)未滿三月,按照實際月出賬算平均值,不包含入網(wǎng)月.

      近一周主叫次數(shù):統(tǒng)計客戶撥叫時,發(fā)生通話的次數(shù).

      近一個月總通話次數(shù):統(tǒng)計客戶撥叫時和被叫時發(fā)生通話的次數(shù)之和.

      總通話時長:單位為分鐘.

      總賬單收入:單位為元.

      手機上網(wǎng):1是、0否.

      集團客戶:1是、0否.

      客戶在上個月有話費返還且上個月返還結(jié)束:1是、0否.

      客戶在本月有話費返還且本月返還結(jié)束:1是、0否.

      捆綁剩余月數(shù):指用戶到期時間最遠的合約剩余的捆綁月數(shù),0表示未參加捆綁業(yè)務(wù).

      通話次數(shù)趨勢值:統(tǒng)計最近四周.

      主叫通話次數(shù)走勢值:統(tǒng)計最近四周

      被叫通話次數(shù)走勢值:統(tǒng)計最近四周.

      上網(wǎng)計費流量走勢值:統(tǒng)計最近四周.

      注:①以上取數(shù)日期,未特別說明均為統(tǒng)計日當(dāng)天數(shù)據(jù).

      ③部分字段處理:字段選擇:將有大量不同取值且無量化操作符的屬性依據(jù)業(yè)務(wù)經(jīng)驗進行刪除(如客戶姓名、身份證號碼等),或?qū)o量化操作符用其他屬性替代(如手機卡類型、付費類型等).連續(xù)型字段屬性進行離散化:表中的賬戶余額總通話時長、總賬單收入等均為連續(xù)型數(shù)據(jù)構(gòu)建的決策樹太過茂盛,且處理速度過慢.為了加快處理速度,應(yīng)對連續(xù)型數(shù)據(jù)進行離散化處理[2].

      1.2 構(gòu)造決策樹

      1.2.1 C5.0算法

      1979年Quinlan提出了ID3算法,主要針對離散型屬性數(shù)據(jù),其后又不斷地改進,形成C4.5,它在ID3基礎(chǔ)上增加了對連續(xù)屬性的離散化.C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,主要在執(zhí)行效率和內(nèi)存使用方面進行了改進.下面對C5.0算法[3]略作介紹.

      C5.0算法選擇分支變量的依據(jù):以信息熵的下降速度作為確定最佳分支變量和分割閥值的依據(jù).信息熵下降就意味著信息的不確定性下降[3].信息熵指信息量的數(shù)學(xué)期望,是信源發(fā)出信息前的平均不確定性,也稱先驗熵[4].

      信息ui()

      i=1,2,…r的發(fā)生概率P(ui)組成信源數(shù)學(xué)模型,

      信息量(單位是bit,取以2為底的對數(shù)):

      信息熵:

      信息熵H(U)的性質(zhì):

      H(U)=0時,表示只存在唯一的可能性,不存在不確定性.

      如果信源的k個信號有相同的發(fā)出概率,即所有的ui有P(ui)=1/k,H(U)達到最大,不確定性最大.

      P(ui)差別越小,H(U)就越大;P(ui)差別大,H(U)就越?。?/p>

      決策樹中熵的應(yīng)用:

      設(shè)S是一個樣本集合,目標(biāo)變量C有k個分類,freq(Ci,S)表示S中屬于Ci類的樣本數(shù),|S|表示樣本集合S的樣本數(shù).則集合S的信息熵定義為:

      如果某屬性變量T,有n個分類,則屬性變量T引入后的條件熵定義為:

      屬性變量T帶來的信息增益為:

      C5.0基本算法可以描述如下:

      %R表示判定對象屬性,C表示目標(biāo)屬性,S表示訓(xùn)練集,Tree()是決策樹生成的函數(shù):

      C5.0算法主要是對C4.5在執(zhí)行效率和內(nèi)存使用改進、通常不需要很長的訓(xùn)練次數(shù)進行估計,面對數(shù)據(jù)遺漏和輸入字段很多的問題時非常穩(wěn)健,與其他算法相比其模型易于理解,生成的規(guī)則有非常直觀的解釋;允許進行多次多于兩個子組的分割.因此此算法特別適合于商業(yè)產(chǎn)生的大數(shù)據(jù).

      1.2.2 使用Clementine軟件建模

      SPSS Clementine是一款易操作、擁有高級建模技術(shù)的數(shù)據(jù)挖掘軟件,能夠幫助用戶發(fā)現(xiàn)和預(yù)測數(shù)據(jù)中有用的關(guān)系,它提供了通向數(shù)據(jù)、統(tǒng)計量和復(fù)雜算法這一抽象世界的可視化窗口[6].每個步驟都由一個圖標(biāo)(即節(jié)點)表示,將各個步驟連接即可形成一個流,表示數(shù)據(jù)沿各個步驟流動.圖形化的操作簡單明了,易用性高[5].

      提取C市電信BOSS、BASS、CRM系統(tǒng)數(shù)據(jù),訓(xùn)練決策樹模型數(shù)據(jù)流如圖1.

      數(shù)據(jù)流說明如下:

      源:數(shù)據(jù)通過SPSS源節(jié)點導(dǎo)入數(shù)據(jù)流中.

      圖1 數(shù)據(jù)流

      定義變量類型:是否流失定義為標(biāo)志類型,入網(wǎng)時長、賬戶余額、近三個月平均ARPU、近一周主叫次數(shù)、近一個月總通話次數(shù)、總通話時長和總賬單收入定義為范圍類型,手機上網(wǎng)、集團客戶和客戶在上個月有話費返還且上個月返還結(jié)束、客戶在本月有話費返還且本月返還結(jié)束定義為集類型,其余均為默認(rèn).

      重新分類:是否流失、手機上網(wǎng)、集團客戶、客戶在上個月有話費返還且上個月返還結(jié)束、客戶在本月有話費返還且本月返結(jié)束的是、否屬性分別替換為1,0.

      篩選字段:過濾客戶姓名,用戶編號,手機卡類型.

      數(shù)據(jù)審核:缺失值插補,極值丟棄,離群值強制形成超節(jié)點.

      離散數(shù)據(jù):主叫通話次數(shù)走勢值、被叫通話次數(shù)走勢值、上網(wǎng)計費流量走勢值按注②規(guī)則離散.

      分區(qū):隨機抽取2/3作為訓(xùn)練集,剩下1/3作為測試集.

      C5.0:以簡單類型多次訓(xùn)練構(gòu)建決策樹.

      評估:選擇重合矩陣,驗證模型準(zhǔn)確率.

      生成的變量重要性如圖2.

      圖2 變量重要性

      以2013年5月1日為統(tǒng)計數(shù)據(jù)日,抽取C州電信2013年3月28日日以前入網(wǎng)且正常使用用戶2 785 109人,剔除公免用戶4 594人、剔除電信員工19 099人、剔除行業(yè)應(yīng)用235 237人、剔除無線寬帶34 276人、剔除后剩余2 491 803人、近一周有通話行為1 319 383人、養(yǎng)卡用戶7 530人、跳蚤用戶5 001人、總篩選用戶1 306 064人,對篩選出的用戶利用訓(xùn)練的流失預(yù)警C5.0模型進行用戶離網(wǎng)分析.利用此模型預(yù)測出離網(wǎng)人數(shù)79 841人,公司對這類人群針對性地進行關(guān)懷,其最終離網(wǎng)67 863人,保留用戶11 978人可以看出用戶流失預(yù)警分析在客戶保有和提高公司利潤方面起到了良好的效果.

      2 總結(jié)

      商業(yè)中的數(shù)據(jù)挖掘在數(shù)據(jù)選擇過程中是基于業(yè)務(wù)知識,數(shù)據(jù)挖掘的目標(biāo)是業(yè)務(wù)目標(biāo)的映射;在數(shù)據(jù)理解過程中把業(yè)務(wù)知識與業(yè)務(wù)問題相關(guān)的數(shù)據(jù)結(jié)合起來,考慮它們是如何相關(guān)的;在建模過程中使用數(shù)據(jù)挖掘算法創(chuàng)建預(yù)測模型,同時解釋模型和業(yè)務(wù)目標(biāo)的特點,也就是說理解它們之間的業(yè)務(wù)相關(guān)性;在實施過程中是將數(shù)據(jù)挖掘結(jié)果用于業(yè)務(wù)實施.總之,沒有堅實的業(yè)務(wù)知識,數(shù)據(jù)挖掘過程的每一步都是不切實際的,更沒有“單純的技術(shù)”步驟.業(yè)務(wù)知識引導(dǎo)過程產(chǎn)生有益的結(jié)果,并使得那些有益的結(jié)果用于商業(yè)實踐.隨著數(shù)據(jù)的日益增加變化,數(shù)據(jù)挖掘是一個長期反復(fù)的過程,業(yè)務(wù)知識是它的核心,驅(qū)動著結(jié)果的持續(xù)優(yōu)化.

      流失用戶的保有在實際操作中是非常復(fù)雜的流程,運營商每個月都要對預(yù)警模型預(yù)測出的客戶進行保有.可以看出,客戶的保有工作是一個長期系統(tǒng)的工程,涉及的部門包括IT部門、市場部門、客戶服務(wù)中心等部門.同時,它也是一個循環(huán)式操作,需要通過對挽留效果的分析及時優(yōu)化模型.挽留效果與模型數(shù)據(jù)的質(zhì)量,各地區(qū)的用戶差異性,挽留的關(guān)鍵時刻選擇、客服人員的溝通技巧等因素密切相關(guān)[7].各運營商自從3G時代以來就傾盡全力來防止其客戶流失,在客戶保有方面投入了大量的人力、財力.文章還有很多的細節(jié)不足,如沒有對用戶細分,不同客戶群體的流失情況不同,不可一概而論,更要進行客戶群體的細分,針對不同的流失客戶群體,比如對高價值客戶流失等要進行更深入的研究,使預(yù)警模型更全面實用.

      [1]趙宏波.數(shù)據(jù)挖掘技術(shù)在電信客戶關(guān)系管理中的應(yīng)用[J].電信技術(shù), 2001(12):10-12.

      [2]鄧松.數(shù)據(jù)挖掘原理與SPSS[M].北京:人民郵電出版社,2007.

      [3]Soman K P,Diwakar S,Ajay V.Insight into data mining theory and practice[M].India:Prentice Hall,2006.

      [4]曹雪虹,張宗橙.信息論與編碼[M].北京:清華大學(xué)出版社,2004.

      [5]廖劍平.數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用[M].北京:清華大學(xué)出版社,2011.

      [6]薛薇,陳歡歌.CLEMENTINE數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社,2010.

      [7]徐懿瑾.基于數(shù)據(jù)挖掘的移動中高端用戶流失預(yù)警分析[J].科技信息,2010(3):72-73.

      【編校:王露】

      Prewarning Analysis of the Telecom Customer Churn Based on C5.0 Algorithm

      ZHANG Weidong,LI Yuan
      (College of Management Science,Chengdu University of Technology,Chengdu,Sichuan 610059,China)

      Holding customers is the key to raise competitiveness of a telecom company.The data mining method was applied to classify telecom customer segmentation.Customer segmentation classification is based on customer behavior analysis and the decision tree combined with information entropy production.Building the customer churn prewarning analysis will be helpful in providing precise and reliable information to enterprise decision makers,which can be used as reference for strategy making and finding out the characteristics of customer churn and help telecommunications companies improve the customer relationship, thus avoiding the customer churn.

      customer churn;C5.0;business;prewarning analysis

      TP301

      A

      1671-5365(2014)06-0119-04

      2014-01-04修回:2014-02-28

      張衛(wèi)東(1989-),男,碩士,研究方向為數(shù)據(jù)分析與統(tǒng)計、數(shù)據(jù)挖掘最優(yōu)化理論

      時間:2014-03-28 17:12

      http://www.cnki.net/kcms/detail/51.1630.Z.20140328.1712.004.html

      猜你喜歡
      通話決策樹數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      《戊戌元日與友人通話》
      中華詩詞(2018年5期)2018-11-22 06:46:08
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      低成本視頻通話APP
      基于決策樹的出租車乘客出行目的識別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      平舆县| 松滋市| 磴口县| 呼图壁县| 临洮县| 青海省| 思茅市| 微山县| 上栗县| 沂源县| 勃利县| 通州区| 雷波县| 溆浦县| 南康市| 突泉县| 阳江市| 密山市| 岗巴县| 定州市| 吉安市| 平南县| 霍林郭勒市| 德格县| 达尔| 余江县| 大连市| 石首市| 红安县| 卓尼县| 徐州市| 淮滨县| 安宁市| 贵德县| 吴桥县| 吕梁市| 寿阳县| 密云县| 徐闻县| 万源市| 三亚市|