• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)挖掘的客戶流失預(yù)測(cè)研究

      2019-05-22 11:18李偉孫新杰陳偉
      電腦知識(shí)與技術(shù) 2019年10期
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

      李偉 孫新杰 陳偉

      摘要:客戶流失是企業(yè)要面臨的重要問題之一,為了能夠有效幫助企業(yè)預(yù)防客戶流失,提出基于企業(yè)的交易數(shù)據(jù)庫,通過數(shù)據(jù)挖掘方式來分析客戶的消費(fèi)行為,構(gòu)建客戶流失特征,采用CART算法構(gòu)造決策樹模型,編程實(shí)現(xiàn)程序來處理流失特征數(shù)據(jù),以來對(duì)客戶流失行為進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)運(yùn)行結(jié)果表明,該方法對(duì)客戶流失預(yù)測(cè)效果較好。

      關(guān)鍵詞:數(shù)據(jù)挖掘;客戶流失;決策樹;CART算法

      中文分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2019)10-0007-02

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      Research on Customer Churn Prediction Based on Data Mining

      LI Wei, SUN Xin-jie, CHEN Wei

      (College of mathematics and information engineering, Liupanshui Normal University, Liupanshui 553004, China)

      Abstract: Customer churn is the enterprise will face one of the important problems, in order to be able to effectively help enterprises to prevent customer defections, based on enterprise's transaction database, through the data mining methods to analyze customer's consumption behavior, building customer churn characteristics, by using the CART algorithm to construct the decision tree model, programming implementation program to process the data description, since to predict customer churn behavior. The experimental results show that the method has a good prediction effect on customer churn.

      Key words: Data Mining; Customer Churn; Decision Tree; CART Algorithm

      在當(dāng)今市場(chǎng)競(jìng)爭(zhēng)環(huán)境下,客戶有了更多的消費(fèi)選擇和渠道,客戶異動(dòng)變得十分普遍,企業(yè)要保持好已經(jīng)擁有的客戶資源才能更好地盈利,因此如何提高客戶的忠誠度來防止客戶流程已經(jīng)成為企業(yè)急需解決的問題。夏國恩等[1]研究了引入網(wǎng)絡(luò)客戶價(jià)值特征和情感特征,來構(gòu)建基于客戶行為特征分析的網(wǎng)絡(luò)客戶流失預(yù)測(cè)模型結(jié)構(gòu)。于小兵等[2] 建立了客戶流失預(yù)測(cè)模型,提出了改進(jìn)粒子群優(yōu)化算法,對(duì)電子商務(wù)客戶樣本進(jìn)行實(shí)證研究。但是對(duì)于企業(yè)而言,在實(shí)踐上還存在一些問題。

      本文通過數(shù)據(jù)挖掘方式來分析客戶的消費(fèi)行為,選取客戶流失的特征,采用CART算法構(gòu)造決策樹模型,來對(duì)客戶進(jìn)行流失預(yù)測(cè),為企業(yè)管理客戶流失提供決策依據(jù)。

      1 相關(guān)技術(shù)

      決策樹[3]在ID3算法被提出了之后,在機(jī)器學(xué)習(xí)和數(shù)據(jù)分析領(lǐng)域更得到快速發(fā)展。決策樹是一種樹狀結(jié)構(gòu),每個(gè)葉子節(jié)點(diǎn)代表一個(gè)分類,非葉子節(jié)點(diǎn)是在某個(gè)特征上的劃分,根據(jù)樣本數(shù)據(jù)在該特征上的不同取值劃分成多個(gè)子集。當(dāng)進(jìn)行分類時(shí),學(xué)習(xí)構(gòu)造決策樹是一個(gè)自上而下的過程。決策樹是一種監(jiān)督學(xué)習(xí),構(gòu)造它的關(guān)鍵問題是在每一步如何選擇適合的特征來拆分樣本。

      CART決策樹是一種高效的非參數(shù)分類和回歸方法,已經(jīng)廣泛應(yīng)用在統(tǒng)計(jì)領(lǐng)域和數(shù)據(jù)挖掘技術(shù)中。由CART 模型構(gòu)建的預(yù)測(cè)樹在很多情況下比常用的統(tǒng)計(jì)方法構(gòu)建的代數(shù)學(xué)預(yù)測(cè)準(zhǔn)則更加準(zhǔn)確,當(dāng)數(shù)據(jù)越復(fù)雜且變量越多,算法的優(yōu)越性就越明顯。CART決策樹從訓(xùn)練樣本數(shù)據(jù)中學(xué)習(xí)決策樹,通過構(gòu)建樹、修剪樹和評(píng)估樹來構(gòu)建二叉樹。如果終節(jié)點(diǎn)為分類變量,那么該樹為分類樹,CART采用GINI值衡量節(jié)點(diǎn)純度,GINI值的計(jì)算公式為:

      [GINI=1-i∈Ip2i]

      當(dāng)GINI值越大時(shí),代表節(jié)點(diǎn)越不純,節(jié)點(diǎn)分類或者預(yù)測(cè)的效果就越差。如果終節(jié)點(diǎn)為連續(xù)變量,則該樹為回歸樹,采用樣本方差衡量節(jié)點(diǎn)純度,回歸方差計(jì)算公式為:

      [σ=i∈Ixi-μ2=i∈Ix2i-nμ2]

      當(dāng)方差的值越大時(shí),代表該節(jié)點(diǎn)的數(shù)據(jù)越分散,預(yù)測(cè)的效果就越差。

      2 構(gòu)建客戶流失特征

      客戶流失是指客戶與企業(yè)不再有交易的關(guān)系,客戶流失的原因主要有產(chǎn)品因素、服務(wù)因素、競(jìng)爭(zhēng)者因素和客戶自身因素等。企業(yè)客戶流失的特征主要體現(xiàn)在如下三個(gè)方面:消費(fèi)次數(shù)越來越少、平均消費(fèi)金額越來越低和很長(zhǎng)時(shí)間沒有消費(fèi)記錄,因此可構(gòu)造的三個(gè)客戶流失特征[4]有總消費(fèi)次數(shù)(frequency)、平均消費(fèi)金額(average)以及最近一次消費(fèi)時(shí)間距離當(dāng)前的天數(shù)(recently)。選取交易數(shù)據(jù)庫中客戶信息表和訂單表,并對(duì)這兩個(gè)表進(jìn)行連接操作,通過分組聚合的方式進(jìn)行查詢得到每個(gè)客戶的總消費(fèi)次數(shù)、平均消費(fèi)金額和最近一次的消費(fèi)時(shí)間,以來構(gòu)建預(yù)測(cè)客戶流失的特征。添加一個(gè)表示客戶流失類型字段type后,得到的新表模式為(UID,frequency,average,recently,type),并基于該表的數(shù)據(jù)進(jìn)行客戶流失預(yù)測(cè)。

      3 設(shè)計(jì)實(shí)現(xiàn)

      將構(gòu)建客戶流失特征后的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集兩部分,采用CART算法構(gòu)造決策樹模型,對(duì)準(zhǔn)流失的客戶進(jìn)行預(yù)測(cè)。算法的程序流程如圖1所示,當(dāng)選擇分裂屬性進(jìn)行分裂時(shí),要遍歷三個(gè)客戶流失特征屬性,并且選擇每個(gè)屬性的最優(yōu)分裂方法,對(duì)比每個(gè)屬性的分裂效果,最后選擇該節(jié)點(diǎn)最優(yōu)的分裂屬性。比較最優(yōu)的分裂屬性需要計(jì)算每個(gè)分裂屬性分裂后的GINI值或樣本方差,前面已經(jīng)給出它們的計(jì)算公式。構(gòu)造完成決策樹后,再采用代價(jià)復(fù)雜度(CCP)的方法,選擇表面誤差率增益值最小的非葉子節(jié)點(diǎn)進(jìn)行剪枝[5]。

      4 實(shí)驗(yàn)分析

      執(zhí)行編寫的CART決策樹算法程序,對(duì)構(gòu)建客戶流失特征表數(shù)據(jù)進(jìn)行處理分析,得到表中每個(gè)客戶的流失類型值。實(shí)驗(yàn)預(yù)測(cè)結(jié)果如表1所示,流失類型有三個(gè)值是非流失、已流失和準(zhǔn)流失,非流失客戶為還將有消費(fèi)的正??蛻?,已流失客戶為很長(zhǎng)時(shí)間沒有消費(fèi)記錄的客戶,準(zhǔn)流失客戶為預(yù)測(cè)將要流失的客戶。企業(yè)應(yīng)對(duì)準(zhǔn)流失客戶引起高度重視,采取必要措施挽留客戶,例如保證產(chǎn)品質(zhì)量、提高服務(wù)水平和推薦新的產(chǎn)品等,以來更好地實(shí)現(xiàn)盈利目標(biāo)。

      5 結(jié)語

      本文提出對(duì)客戶的消費(fèi)行為進(jìn)行數(shù)據(jù)挖掘,構(gòu)建客戶流失特征,采用CART決策樹算法進(jìn)行編程,分析處理客戶流失特征數(shù)據(jù),對(duì)客戶流失進(jìn)行預(yù)測(cè),為企業(yè)下一步的決策提供參考。未來工作中研究的重點(diǎn)是采用大數(shù)據(jù)技術(shù)對(duì)處理算法進(jìn)行并行化改進(jìn),以來加快程序的處理速度。

      參考文獻(xiàn):

      [1] 夏國恩, 馬文斌, 唐嬋娟, 張顯全. 融入客戶價(jià)值特征和情感特征的網(wǎng)絡(luò)客戶流失預(yù)測(cè)研究[J]. 管理學(xué)報(bào), 2018, 15 (3):442-449.

      [2] 于小兵, 盧逸群. 電子商務(wù)客戶流失預(yù)警與預(yù)測(cè)[J]. 系統(tǒng)工程, 2016, 34(9):37-43.

      [3] Jiawei Han, MIcheline Kamber, Jian Pei.數(shù)據(jù)挖掘:概念與技術(shù)[M]. 北京: 機(jī)械工業(yè)出版社, 2012.

      [4] 李偉, 秦鵬, 胡廣勤, 張毓福. 基于商業(yè)大數(shù)據(jù)的客戶分類方案[J].六盤水師范學(xué)院學(xué)報(bào), 2017, 29(6):38-41.

      [5] 李國和, 王峰, 鄭陽, 吳衛(wèi)江, 洪云峰, 周曉明. 基于決策樹生成及剪枝的數(shù)據(jù)集優(yōu)化及其應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2018, 39(1): 205-211.

      【通聯(lián)編輯:王力】

      猜你喜歡
      決策樹數(shù)據(jù)挖掘
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      基于改進(jìn)決策樹的故障診斷方法研究
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      基于決策樹的出租車乘客出行目的識(shí)別
      基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      西林县| 广州市| 海城市| 休宁县| 腾冲县| 仁怀市| 宜章县| 邵阳县| 乳源| 怀集县| 翁源县| 大埔区| 都江堰市| 兴安县| 壤塘县| 阳春市| 玛纳斯县| 三台县| 弋阳县| 汤阴县| 城市| 普定县| 太仆寺旗| 乡城县| 曲沃县| 肇东市| 淅川县| 修武县| 新营市| 鹰潭市| 隆尧县| 普格县| 新干县| 松潘县| 冷水江市| 定边县| 三河市| 兴宁市| 洛浦县| 乐业县| 木兰县|