• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據挖掘的銀行客戶流失預測

      2022-08-08 02:56:14謝宇許紅
      關鍵詞:信用年齡分類

      謝宇 許紅

      (成都信息工程大學 四川成都 610103)

      一、引言及文獻綜述

      在第三次工業(yè)革命的推動下,信息時代繼往開來,重塑了各行各業(yè),其中金融業(yè)也不例外。中國人民銀行、工業(yè)和信息化部、公安部等十部委聯(lián)合發(fā)布《關于促進互聯(lián)網金融健康發(fā)展的指導意見》,落實了互聯(lián)網支付、眾籌融資和互聯(lián)網消費金融等業(yè)態(tài)的監(jiān)管責任,明確其業(yè)務邊界?;ヂ?lián)網公司的入局,一方面爭奪傳統(tǒng)金融業(yè)的市場份額,另一方面以客戶至上為核心的理念在算法和流量加持下得到長足發(fā)展。歸根結底,這是對客戶的爭奪。很多銀行總是不停地獲得新用戶,而對于現(xiàn)有客戶缺少關注。而現(xiàn)在,金融市場用戶增長放緩,拉取新用戶的成本遠高于維護現(xiàn)有客戶的成本,且現(xiàn)有客戶也有著更高的價值。更嚴重的是,流失的客戶會壯大競爭對手的客戶隊伍和規(guī)模,還會導致銀行的聲譽受損。

      針對潛在流失客戶進行積極聯(lián)系和營銷活動,可以極大挖掘這部分用戶的價值。這也是在私域流量大熱下,銀行日常運營應當關注的重點工作,根據客戶現(xiàn)有特征,預測客戶流失意向,有的放矢地進行召回,是提升銀行運營能力的關鍵一步。

      對于客戶流失的研究,一般集中于三個方面。

      首先是關于客戶流失因素的探究。國外學者提出服務缺失、定價問題、便利性缺失是商業(yè)銀行客戶流失的主要原因。國內學者在對流失因素進行多角度分析后,建立忠誠用戶分類模型,專門針對商業(yè)銀行客戶流失因素進行相關性分析,并指出主動交易時間間隔最為重要。

      其次是對于客戶流失的預測研究??蛻袅魇栴}屬于分類問題,國內外學者運用邏輯回歸、決策樹、隨機森林及神經網絡等方法進行相關研究。盧美琴結合某商業(yè)銀行客戶流失狀況,運用決策樹進行客戶流失預測,再采用聚類方法進行用戶分類,提出挽救措施。

      最后是客戶的挽回策略研究。國外學者Farquhar通過與英國銀行業(yè)各級職員訪談,指出客戶價值、品牌價值、產品質量和管理渠道等七個要素是挽留客戶的關鍵要素。國內學者陳明亮根據客戶的當前價值和未來潛在價值進行分類,根據每類客戶的特征制定召回策略。李賽結合金融互聯(lián)網背景下的外部壓力,提出多渠道發(fā)揮優(yōu)勢,差異化提供產品,提升用戶體驗的對策。

      二、理論準備

      (一)相關算法介紹

      本文涉及的建模問題為機器學習中的監(jiān)督學習,屬于分類問題中的二分類,有較多的經典模型可以使用。本文擬采用及時性和效果均得到認可的主流分類機器學習模型,如表1所示。

      表1 主要分類器

      (二)分類評價指標

      本文需針對客戶的信息,構建分類模型以預測客戶流失情況。在實際的生產情況下,流失的用戶所占比例較大幅度低于留存客戶,所以該問題又屬于樣本不平衡的分類問題。對于此類問題,除了平時常用的基于ROC(Receiver Operating Characteristic)的曲線AUC(Area Under Curve),評價指標需要顧及多個方面,尤其是要關注召回率。本文結合混淆矩陣,對準確率、召回率指標進行簡單介紹。

      在監(jiān)督學習中,通常將關注的類看作正類,一般標注為1,其余的類為負類(標注為0),根據分類器在測試集的預測結果,將以上實際情況和預測結果進行兩兩組合,可以得到四種情況的數(shù)量情況,分別是:Ture Positive(TP)——正類預測為正類數(shù);False Negative(FN)——正類預測為負類數(shù);False Positive(FP)——負類預測為正類數(shù);True Negative(TN)——負類預測為負類數(shù)?;诖?,部分常用指標如表2所示。

      表2 常用評價指標

      三、數(shù)據準備及清洗

      (一)數(shù)據來源

      本文所用數(shù)據來自kaggle——創(chuàng)建于2010年的數(shù)據科學競賽平臺。該平臺通過眾包的形式,由一方發(fā)布數(shù)據或者問題,平臺用戶提供解決方案。本文所用數(shù)據是一份銀行客戶流失數(shù)據,總共有10000個樣本,含有年齡、地區(qū)、賬戶余額和購買產品數(shù)等14個特征。

      (二)數(shù)據基本情況

      從流失客戶比例來看,在10000個樣本數(shù)據中,流失客戶占比為20.4%,屬于一般不均衡問題。

      再看部分分類特征,其柱狀圖如圖1所示。從中可以看出,在地區(qū)上,法國人數(shù)最多,西班牙與德國人數(shù)相當。有趣的是,德國的流失客戶反而最多,法國整體的運營情況良好。在性別上,男性人數(shù)高于女性,但其流失客戶數(shù)略低于女性。這說明男性客戶相對更為穩(wěn)定,而女性用戶則是需要特別維護。有信用卡用戶的數(shù)量是無信用卡用戶的兩倍,但是流失比例在有無信用卡方面差距不大,這也是與常識略有不同的地方?;钴S客戶人數(shù)略高于非活躍客戶,但是活躍客戶流失比例低于非活躍客戶。銀行或考慮通過一些活動,促進非活躍客戶轉化為活躍客戶。

      圖1 分類變量與流失客戶柱狀圖

      部分連續(xù)型變量與客戶流失情況的箱線圖如圖2。從年齡來看,流失客戶的年齡分布極端值較少,但是流失客戶的年齡整體大于未流失客戶。未流失客戶的分布相較于流失客戶較為集中,銀行應當更加關注新獲取的用戶和高于平均留存年限的客戶。令人擔憂的是,流失客戶的賬戶余額分布更為均勻,且數(shù)額更大,這或許是由于含有部分加入時間長的客戶。而在用戶的信用分數(shù)、工資或者產品數(shù)方面,客戶流失與否沒有太明顯差異。整體來看,對流失客戶的關注是有章可循的,并且會產生積極影響。

      圖2 連續(xù)變量與客戶流失箱線圖

      四、模型建立

      (一)特征工程

      在傳統(tǒng)的數(shù)據科學建模步驟中,特征工程是第一步,是在描述性統(tǒng)計的基礎上對數(shù)據進行預處理,數(shù)據處理會根據變量類型采取不同方法。本次對連續(xù)變量,比如年齡、余額進行最大最小值編碼,以實現(xiàn)不同量綱的數(shù)據去量綱化,剔除了不同特征在數(shù)值絕對值上的差異,同時提升模型在訓練時的速度。而對于離散型變量,如性別、國籍等,借鑒于數(shù)字電路,運用二進制表示特征的取值。啞變量的引入使得屬性數(shù)據得到很好的處理,而獨熱編碼也會造成特征空間的膨脹,本次實踐中,特征數(shù)量不多,可以直接使用,在數(shù)據維度更加豐富的情況下,可以結合主成分分析等降維手段,提升模型的擬合能力。

      預處理過后的特征工程,是建模中的關鍵環(huán)節(jié)。在輸入數(shù)據確定的情況下,通過特征工程,可以使模型的能力逼近真實情況,得到最接近實際情況的預測結果。常見的特征工程有結合業(yè)務背景的特征構造和基于數(shù)理變換的暴力構造。在數(shù)據科學的比賽中,選手為了提升精度會使用暴力構造,但該方法往往解釋性弱,故在實際工作中會缺少指導意義,也就用得相對較少。

      根據該問題的背景和數(shù)據,構造余額薪酬比、會籍年限年齡比和信用評分年齡比幾個特征。余額薪酬比一定程度上反映客戶的消費透支情況,并能反映客戶的風險偏好和信用情況。會籍年限年齡比反映開通信用卡和年齡的相對關系,可以用于區(qū)分不同年齡段對卡的持有情況。信用評分年齡比,因為信用評分和客戶流失沒有描述性上的差異,這里創(chuàng)造性構造該指標,用于探究。

      通過隨機種子200進行抽樣,以獲得8∶2的訓練集和測試集,以用于本地模型測試。

      (二)參數(shù)調優(yōu)

      一般的超參數(shù)調優(yōu)方法有網格搜索、隨機搜索和貝葉斯優(yōu)化,關于其原理此處不再贅述。本文采用應用最為廣泛、性能穩(wěn)定的網格搜索方法進行最優(yōu)超參數(shù)的選擇。具體調參結果如表3所示。

      表3 主要超參數(shù)結果

      從網格篩選的結果來看,樹模型在訓練集上的效果略優(yōu)于其他模型,但是會出現(xiàn)過擬合的情況。因此,在求得最優(yōu)參數(shù)的基礎上,利用各種方法的最優(yōu)模型進行測試集上的效果測試。

      (三)實證結果分析

      利用上一節(jié)中的結果,訓練各個方法下的最優(yōu)模型。各個模型在正類上的評價指標結果如表4所示。

      表4 主要模型結果

      由上表可知,樹模型的整體表現(xiàn)較好。由于屬于樣本不均衡問題,準確率方面不會有太明顯的差異。而極限提升決策樹的召回率最高,實現(xiàn)了最大限度地預測流失客戶,但是其精確率略低于支持向量機或者隨機森林,這表明預測結果中有少量錯誤的預測。

      為了糾正模型的偏差,發(fā)揮模型的優(yōu)勢,通過對模型結果進行軟投票,以避免投票影響整體結果,最終樣本量為2000的驗證集精確率為0.80,召回率為0.37,F(xiàn)1值為0.51。模型精度尚可,有實際參考價值。

      對于具體特征情況,可以參考圖3的極限提升決策樹特征重要性。這個特征重要性是根據特征在分類時所使用的次數(shù)得出的。從圖中可以看出,賬戶余額和年齡是較為重要的原始特征。這兩個變量在前面的描述性分析部分已體現(xiàn)出較為明顯的差異。緊隨其后的是余額薪酬比和信用評分年齡比兩個構造特征,證明了根據業(yè)務背景進行特征工程的實用性。

      圖3 特征重要性樹狀圖

      樹模型可以為我們提供特征的重要程度,即特征在分類時可以帶來最大信息增益的次數(shù),反映特征的有用性。但是,特征對于客戶的流失情況起正向還是負向作用則需要借助回歸模型,通過其系數(shù)的正負來判斷對流失情況是積極還是消極影響。

      在回歸模型的系數(shù)中,信用分、賬戶余額薪酬比和賬戶余額是對客戶流失有正向作用的特征。尤其是信用分高的優(yōu)質客戶,需要格外重視,而賬戶余額高的客戶流失也不是好的現(xiàn)象,需要進一步了解主要的流失原因,采取針對措施。信用評分年齡比、是否為活躍用戶和產品數(shù)量是抑制客戶流失的特征,證明高信用低年齡是穩(wěn)定的客戶群體?;钴S用戶和購買產品更多的客戶留存可能性更大,也是符合常識的。

      五、結論與不足

      綜上所述,活躍用戶及高信用低年齡的客戶群體是銀行的基本盤,需要重點監(jiān)測,比如當活躍度降低,銀行應當通過一些類似優(yōu)惠券的活動對客戶進行召回。而賬戶余額高的客戶存在著高流失風險,這部分用戶需要重點維護。客戶本來有著較強的購買力,卻沒有挖掘出其價值,銀行應當針對這部分用戶進行有的放矢的營銷。而對于信用分指標,高分值用戶也有著較高的流失可能性,一方面需要進一步研究信用分打分體系是否符合實際情況,能否對業(yè)務進行指導,另一方面則是關注這部分用戶流失的現(xiàn)實狀況,進一步探究。

      本文的目的是識別流失客戶的概率并且提前采取運營措施以實現(xiàn)客戶召回,所以對于模型的整體準確率不必過多關注。數(shù)據整體的流失概率為20%,只要精確率大于這一比率,隨著該比例的增大,模型就越少浪費資源在錯誤的分類上。該模型已經較好地預測出流失客戶并且沒有過多浪費資源。

      未來的工作可以收集更多數(shù)據維度,明確針對已有重點特征的召回或激活策略,并持續(xù)跟蹤,持續(xù)優(yōu)化。

      猜你喜歡
      信用年齡分類
      變小的年齡
      分類算一算
      為食品安全加把“信用鎖”
      信用收縮是否結束
      中國外匯(2019年9期)2019-07-13 05:46:30
      分類討論求坐標
      數(shù)據分析中的分類討論
      教你一招:數(shù)的分類
      TOO YOUNG TO LOCK UP?
      信用中國網
      年齡歧視
      五寨县| 台湾省| 罗定市| 铁力市| 临猗县| 清徐县| 锡林浩特市| 庆城县| 沙雅县| 徐州市| 肃宁县| 仁怀市| 郁南县| 逊克县| 洱源县| 当阳市| 宁蒗| 灯塔市| 龙海市| 百色市| 隆林| 大方县| 东阿县| 班玛县| 常宁市| 昆明市| 泌阳县| 沧源| 哈巴河县| 和平县| 墨脱县| 吉水县| 磐石市| 沁源县| 灵丘县| 岢岚县| 香河县| 长岭县| 阆中市| 綦江县| 兰坪|