葛源溢
摘 ?要:本文針某銀行電話營銷定期存款的數(shù)據(jù),綜合應(yīng)用神經(jīng)網(wǎng)絡(luò)、支持向量機和決策樹等數(shù)據(jù)挖掘方法,運用R軟件建立銀行電話營銷模型,運用案例分析法和比較分析法,通過預(yù)測誤差發(fā)現(xiàn),決策樹和隨機森林模型效果較好。本文的研究結(jié)果對于商業(yè)銀行的客戶管理,發(fā)掘有價值客戶,維護客戶的忠誠度有重要的理論價值和現(xiàn)實意義。
關(guān)鍵詞:決策樹;隨機森林;支持向量機;精準營銷;數(shù)據(jù)挖掘
引言
隨著計算機技術(shù)和金融機構(gòu)的不斷發(fā)展,互聯(lián)網(wǎng)技術(shù)與金融的聯(lián)系越來越密切。金融從業(yè)人員也認識到,數(shù)據(jù)挖掘能夠從大量的客戶歷史數(shù)據(jù)中挖掘出他們所需要的信息。然而,大多數(shù)的金融專業(yè)人士在實際分析、挖掘這些客戶歷史數(shù)據(jù)時都存在不同的缺陷,即使一些金融機構(gòu)引進了數(shù)據(jù)挖掘系統(tǒng),也只是做一些簡單的數(shù)據(jù)分析工作,并沒有對客戶歷史數(shù)據(jù)進行深度的挖掘。
1 決策樹模型
決策樹是目前最流行的機器學習算法之一,在基本的決策樹分類算法中,信息增益(information gain)準則被用來做分割變量的選擇。決策樹算法的基本步驟如下:
Step1:計算每個屬性/特征的數(shù)據(jù)集的熵;
Step2:
a.計算所有分類值的熵;
b.獲取當前屬性;
c.計算當前屬性的平均信息熵;
Step3:選取最高增益屬性,重復,直到得到想要的樹。
本文利用 R 軟件建立決策樹模型。選擇復雜度參數(shù)為 0.02 作為決策樹的剪枝參數(shù),從而將樹的大小控制在理想范圍內(nèi)。最終得到部分分類規(guī)則如下:
規(guī)則1:若 nr.emplo >= 5088 且 duration < 455 則不簽訂定期存款協(xié)議的可能性為98%,簽訂定期存款的可能性為 2%。
規(guī)則2:若 nr.emplo >= 5088 且 455<=duration < 682 則不簽訂定期存款協(xié)議的可能性為 80%,簽訂定期存款的可能性為 20%。
規(guī)則3:若 nr.emplo >= 5088 且 duration >= 682 且 job = ent、hsm、mng、rtr、srv、std、tch 時則不簽訂定期存款協(xié)議的可能性為 58%,簽訂定期存款的可能性為 42%。
規(guī)則4:若 nr.emplo >= 5088 且 duration >= 682 且 job 不是 ent、hsm、mng、rtr、sl?、srv、std、tch 時則不簽訂定期存款協(xié)議的可能性為 65%,簽訂定期存款的可能性為 35%。
2 隨機森林模型
隨機森林(random forest)是一種組成式的監(jiān)督學習方法。在模型建立時,首先從訓練集中有放回地隨機抽取 489 個觀測點,在每棵樹的每個節(jié)點隨機抽取 3 個變量,從而生成了 500 棵傳統(tǒng)決策樹。由建立的隨機森林模型分類結(jié)果可以看出:該隨機森林模型中包含了 500 棵決策樹,每棵決策樹節(jié)點處所選擇的變量個數(shù)為 4。在訓練數(shù)據(jù)集上模型總的預(yù)測誤差為9.06%。
建立隨機森林算法模型時部分變量的相對重要程度:duration(225.421),euribor3m(83.005),job(56.243),age(56.039),cons.price.idx(20.629),emp.var.rate(17.461),marital(16.091),previous(12.155)。
由上表可以看出,在此數(shù)據(jù)集上應(yīng)用隨機森林算法建立模型時,變量
duration(最后一次通話持續(xù)時間)、euribor3m(歐元銀行3月匯率)、job(工作類型)、age(客戶年齡)等變量相對重要程度較高。說明與客戶最近一次聯(lián)系持續(xù)的時間、客戶的工作類型、歐元銀行3月匯率、客戶的年齡、雇員人數(shù)等對客戶簽訂定期存款協(xié)議有著密切的聯(lián)系。因此,在營銷項目中可以重點關(guān)注這些變量的取值,從而更有針對性的尋找客戶。
3 支持向量機模型與綜合比較
3.1 支持向量機模型
支持向量機(Support-vector machine)是一類可用于分類和回歸的監(jiān)督機器學習模型,簡稱為 SVM,具體的包括線性和非線性分類器。本文將支持向量機模型應(yīng)用于測試集數(shù)據(jù),得到測試結(jié)果如下表1所示:
該模型在測試集上的總誤差為 10.6%,在不簽訂銀行定期存款協(xié)議(即 no 類)的預(yù)測錯誤率為 7.2%,在簽訂銀行定期存款協(xié)議(即 yes 類)的預(yù)測錯誤率將為 63.0%。
3.2 模型比較
綜上,本文實現(xiàn)三個模型的預(yù)測誤差如下表2。
通過以上三個模型誤差的比較,假設(shè)不考慮模型的用時時長,通過綜合比較,決策樹分類算法與隨機森林算法總誤差均較小,預(yù)測能力較優(yōu),且解釋性也強,因此較推薦選擇決策樹與隨機森林算法。
根據(jù)前文算法,應(yīng)該認識到良好的信譽有助于增加客戶的忠誠度,在銀行營銷的過程中,老客戶的響應(yīng)度往往更加強烈,這也正是所說的忠誠客戶。這種類型的客戶是銀行業(yè)務(wù)改革、發(fā)展新產(chǎn)品所最需要的人員,而客戶流失不僅會帶來資金的外流,還會影響銀行新體制的創(chuàng)建,所以銀行應(yīng)該嚴防客戶流失。
結(jié)論
本文綜合應(yīng)用多種數(shù)據(jù)挖掘方法建立銀行電話營銷模型,選擇的分類器顯示了不同年齡、職業(yè)、婚姻狀況、受教育程度的客戶對銀行電話營銷會產(chǎn)生不同的結(jié)果,因此銀行應(yīng)該緊跟數(shù)據(jù)時代,建立自己獨特的數(shù)據(jù)庫,這不僅有助于提高電話營銷的效率,還有助于銀行客戶的管理。
參考文獻
[1] ?高麗. 銀行電話營銷成功之路的分析與預(yù)測[D].華中師范大學,2017.
[2] ?王琴. 數(shù)據(jù)挖掘在銀行電話營銷中的應(yīng)用[D].華中科技大學,2015.
[3] ?宣子岳.基于數(shù)據(jù)挖掘的銀行電話營銷預(yù)測研究[J].現(xiàn)代商業(yè),2018(24):24-26.