• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)Boosting的決策樹信用卡客戶流失分析設(shè)想

      2012-04-29 00:44:03廖旺宇
      電腦知識(shí)與技術(shù) 2012年18期
      關(guān)鍵詞:決策樹

      廖旺宇

      摘要:當(dāng)前,信用卡的運(yùn)營收益成為各商業(yè)銀行的主要收入來源,但其營銷競爭已經(jīng)趨于白熱化。因此,信用卡客戶流失分析開始受到各商業(yè)銀行的重視。而由于決策樹具有分類精度高、分類器可解釋性強(qiáng)的特點(diǎn),適合用于客戶流失分析。因此,該文提出了利用Boosting技術(shù)的決策樹集成C5.0進(jìn)行信用卡客戶流失分析的方法。并針對信用卡流失數(shù)據(jù)分布不對稱的特點(diǎn),對Boosting技術(shù)進(jìn)行了相應(yīng)的改進(jìn)嘗試。

      關(guān)鍵詞:客戶流失分析;決策樹;Boosting技術(shù)

      中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)18-4306-02

      The Credit Customers Churn Analysis Based on Improved Boosting Decision Tree

      LIAO Wang-yu

      (Department of Information Technology, Sichuan Higher Institute of Cuisine, Chengdu 610100, China)

      Abstract:Currently, the earnings of the credit card has become the main source of income for banks, but its marketing competition has become intense. Therefore, the credit card customers churn analysis begun to attract the attention of banks. Because of the high classifica tion accuracy and interpretability strong, the decision tree is suitable for the customers churn analysis. So this paper proposes use the boost ing decision tree technology for credit card customers churn analysis. And according to the data asymmetries in the distribution, try to im prove the boosting technology.

      Key words: customers churn analysis; decision tree; boosting technology

      由于政府和商業(yè)銀行都在大力推進(jìn)金融電子化,以及消費(fèi)者消費(fèi)和支付觀念的轉(zhuǎn)變,信用卡在日常生活中的使用越來越頻繁。并且,根據(jù)調(diào)查,信用卡運(yùn)營收益已經(jīng)成為商業(yè)銀行的主要收入來源之一。使得我國的信用卡發(fā)卡行、發(fā)卡量和交易量都在大幅上升。

      伴隨發(fā)卡量大幅上升而來的信用卡市場的日趨飽和,以及信用卡產(chǎn)品自身的功能和服務(wù)趨同,使得各商業(yè)銀行在信用卡營銷中面臨著更加激烈的競爭和嚴(yán)峻的挑戰(zhàn)。如何吸引新的客戶、保持原有客戶開始成為商業(yè)銀行客戶關(guān)系管理關(guān)注的問題。其中,保持原有客戶,即提高客戶忠誠度、降低客戶流失率又是這一問題的重中之重。因?yàn)闋I銷學(xué)原理中開發(fā)新客戶的成本是保留老客戶的成本的數(shù)倍的原理對于信用卡客戶依然適用。而且,我國各商業(yè)銀行的信用卡客戶流失率較高。據(jù)全球?qū)m?xiàng)市場研究公司TNS發(fā)布的《2007中國零售銀行及信用卡服務(wù)競爭力報(bào)告》,我國金融業(yè)最為發(fā)達(dá)的京、滬、穗三地多數(shù)銀行的客戶流失率高達(dá)40%左右。

      與此同時(shí),在信用卡的運(yùn)營過程中,各商業(yè)銀行積累了大量的客戶特征信息(如:客戶姓名、性別、年齡、家庭成員數(shù)、婚姻狀況、職業(yè)、職稱、單位性質(zhì)、受教育狀況、授信水平、還款狀況、收入水平等)、客戶交易歷史(包括:歷史交易次數(shù)、交易金額總額、透支情況等)數(shù)據(jù)。使用傳統(tǒng)的數(shù)據(jù)庫查詢分析的方式從這些海量數(shù)據(jù)中獲得有助于客戶關(guān)系管理的信息卻十分困難。而數(shù)據(jù)挖掘可以對已有的龐大數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)未知的關(guān)系、模式和以數(shù)據(jù)擁有者可以理解并對其有價(jià)值的新穎的方式來總結(jié)數(shù)據(jù)。

      數(shù)據(jù)挖掘的出發(fā)點(diǎn)是智能、自動(dòng)地從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏的知識(shí),它使數(shù)據(jù)庫技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段。作為一門新興的交叉學(xué)科。它綜合了數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別、信息檢索、神經(jīng)網(wǎng)絡(luò)、基于知識(shí)的系統(tǒng)、人工智能、高性能計(jì)算和數(shù)據(jù)可視化,并且被廣泛應(yīng)用。從行業(yè)角度,包括了市場營銷、醫(yī)藥業(yè)、電信業(yè)、金融業(yè)、互聯(lián)網(wǎng)、語言識(shí)別和知識(shí)管理系統(tǒng)等方面;從客戶生命周期角度,包括了潛在客戶識(shí)別、個(gè)性化服務(wù)、客戶流失預(yù)測分析等。[1]

      但是,數(shù)據(jù)挖掘應(yīng)用于商業(yè)銀行的信用卡客戶的流失分析尚不多見。國內(nèi)大型商業(yè)銀行發(fā)卡機(jī)構(gòu)在信用卡營銷過程中實(shí)際應(yīng)用數(shù)學(xué)模型管理流失客戶的意愿較低,提高客戶忠誠度的管理行為仍然執(zhí)行不到位,科學(xué)管理的應(yīng)用效果還未最大化。[2]而且,目前國內(nèi)對客戶流失預(yù)測建模,大多沒有考慮樣本的不對稱分布問題,也沒有對建模屬性的選擇進(jìn)行深入研究,在一定程度上影響了模型預(yù)測的準(zhǔn)確率。而在銀行客戶關(guān)系管理系統(tǒng)(CRM)中信用卡客戶流失分析部分迫切需要應(yīng)用決策樹、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù)手段對數(shù)據(jù)進(jìn)行加工,從中獲取一些反映規(guī)律性、傾向性的信息,從而為銀行決策者、客戶經(jīng)理、客戶服務(wù)人員進(jìn)行客戶保持工作提供支持和參考。因此,研究利用數(shù)據(jù)挖掘技術(shù)建立信用卡客戶流失客戶預(yù)測模型,及時(shí)對有流失傾向的客戶采取適當(dāng)?shù)耐炝舸胧┏蔀樨酱鉀Q的問題。研究利用改進(jìn)的Booting技術(shù)提高信用卡客戶流失分析準(zhǔn)確率十分有意義。

      Boosting技術(shù)可以視為一種動(dòng)態(tài)抽樣策略,它通過從原始的訓(xùn)練集中抽取訓(xùn)練樣本的方式來構(gòu)造決策樹。由于在各商業(yè)銀行信用卡客戶運(yùn)營數(shù)據(jù)中,已流失的客戶數(shù)量必然大大少于未流失的客戶數(shù)量,即存在嚴(yán)重的數(shù)據(jù)分布不對稱。

      如果直接使用Boosting技術(shù),由于在初始化時(shí),令所有訓(xùn)練樣本的權(quán)值相等,會(huì)造成首次所選取的構(gòu)造的訓(xùn)練數(shù)據(jù)中的未流失客戶訓(xùn)練樣本多余流失客戶訓(xùn)練樣本,最終造成決策樹分析結(jié)果產(chǎn)生嚴(yán)重的偏倚。

      雖然在第一次迭代之后,訓(xùn)練集中的樣本的權(quán)值發(fā)生一定的變化,但由于未流失客戶的數(shù)量遠(yuǎn)大于已流失的客戶數(shù)。在被錯(cuò)誤分類的樣本中,未流失的客戶樣本仍然占有較大的比例。由此構(gòu)造的決策樹中的偏倚問題不僅不能得到解決,甚至?xí)訃?yán)重。

      因此,在應(yīng)用中,結(jié)合銀行信用卡客戶流失數(shù)據(jù)的分布不對稱的具體特點(diǎn)對Boosting技術(shù)進(jìn)行如下改進(jìn):

      1)在初始化時(shí),根據(jù)未流失客戶數(shù)量與已流失客戶數(shù)量的比例,對兩類樣本賦予不同的權(quán)值。

      即:未流失客戶的樣本的權(quán)值=(1/樣本總數(shù))*(流失客戶樣本數(shù)/樣本總數(shù))

      流失客戶的樣本的權(quán)值=(1/樣本總數(shù))*(未流失客戶樣本數(shù)/樣本總數(shù))

      2)由于客戶流失分析的主要目的是提前預(yù)測可能流失的客戶,因此在對被錯(cuò)誤分類的樣本調(diào)整其權(quán)值的時(shí)候,在一定程度上偏向于流失的客戶樣本。對于被錯(cuò)誤分類的已流失客戶樣本的權(quán)值增加調(diào)整值的1.1倍。

      即:新的已流失客戶樣本的權(quán)值=舊的已流失客戶樣本權(quán)值+權(quán)值調(diào)整值*1.1

      新的未流未客戶樣本的權(quán)值=舊的未流失客戶樣本權(quán)值+權(quán)值調(diào)整值

      3)對被正確分類的未流失客戶樣本的權(quán)值減少調(diào)整值的1.1倍。

      即:新的未流失客戶樣本的權(quán)值=舊的未流失客戶樣本權(quán)值-權(quán)值調(diào)整值*1.1

      新的已流未客戶樣本的權(quán)值=舊的已流失客戶樣本權(quán)值-權(quán)值調(diào)整值

      然而,決策樹所處理的數(shù)據(jù)集默認(rèn)為均勻分布的數(shù)據(jù)集。因此,將傳統(tǒng)決策樹算法直接應(yīng)用于諸如商業(yè)銀行信用卡客戶流失分析的數(shù)據(jù)分布嚴(yán)重不對稱的數(shù)據(jù)集時(shí),在進(jìn)行樣本屬性選擇是必然會(huì)產(chǎn)生有利于多數(shù)類樣本屬性的偏倚,以至于必然會(huì)影響決策樹分類分析的結(jié)果的精度。

      該文提出基于改進(jìn)的Boosting技術(shù)的信用卡客戶流失分析方法,通過設(shè)想對原有的標(biāo)準(zhǔn)Boosting技術(shù)在權(quán)值的初始化和調(diào)整方面進(jìn)行改進(jìn)。通過改變各訓(xùn)練集樣本的初始權(quán)值,以及在決策樹構(gòu)造迭代過程中權(quán)值調(diào)整幅度的大小,使得Boosting技術(shù)中每次選擇的訓(xùn)練集樣本屬性盡可能趨于均衡。從而使得Boosting技術(shù)在繼續(xù)發(fā)揮提高決策樹分類精度方面的優(yōu)勢的基礎(chǔ)上,盡一步提高了其對于不對稱的樣本數(shù)據(jù)集的適應(yīng)性,盡可能避免了在構(gòu)造的決策樹的過程中進(jìn)行屬性選擇時(shí)產(chǎn)生偏倚。

      猜你喜歡
      決策樹
      基于決策樹和神經(jīng)網(wǎng)絡(luò)的高血壓病危險(xiǎn)因素研究
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于改進(jìn)決策樹的故障診斷方法研究
      決策樹多元分類模型預(yù)測森林植被覆蓋
      電子制作(2017年24期)2017-02-02 07:14:23
      基于決策樹算法的數(shù)據(jù)挖掘應(yīng)用研究
      基于決策樹的出租車乘客出行目的識(shí)別
      基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      電測與儀表(2016年2期)2016-04-12 00:24:40
      基于模糊關(guān)聯(lián)規(guī)則和決策樹的圖像自動(dòng)標(biāo)注
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      阿尔山市| 安远县| 朝阳区| 林口县| 海口市| 离岛区| 岱山县| 出国| 尼玛县| 云和县| 临沂市| 满洲里市| 沙坪坝区| 隆回县| 简阳市| 图木舒克市| 新安县| 锡林郭勒盟| 云霄县| 东宁县| 穆棱市| 大余县| 潢川县| 南岸区| 探索| 水富县| 静安区| 元阳县| 上犹县| 大田县| 宣汉县| 赤壁市| 陵川县| 忻城县| 巫山县| 稷山县| 长岛县| 虎林市| 呼伦贝尔市| 达尔| 北安市|