基于數(shù)據(jù)挖掘的銀行精準營銷策略研究

2019-09-10 01:33:40葛源溢

科學導報·學術(shù) 2019年23期

葛源溢

摘 ?要：本文針某銀行電話營銷定期存款的數(shù)據(jù)，綜合應(yīng)用神經(jīng)網(wǎng)絡(luò)、支持向量機和決策樹等數(shù)據(jù)挖掘方法，運用R軟件建立銀行電話營銷模型，運用案例分析法和比較分析法，通過預(yù)測誤差發(fā)現(xiàn)，決策樹和隨機森林模型效果較好。本文的研究結(jié)果對于商業(yè)銀行的客戶管理，發(fā)掘有價值客戶，維護客戶的忠誠度有重要的理論價值和現(xiàn)實意義。

關(guān)鍵詞：決策樹;隨機森林;支持向量機;精準營銷;數(shù)據(jù)挖掘

引言

隨著計算機技術(shù)和金融機構(gòu)的不斷發(fā)展，互聯(lián)網(wǎng)技術(shù)與金融的聯(lián)系越來越密切。金融從業(yè)人員也認識到，數(shù)據(jù)挖掘能夠從大量的客戶歷史數(shù)據(jù)中挖掘出他們所需要的信息。然而，大多數(shù)的金融專業(yè)人士在實際分析、挖掘這些客戶歷史數(shù)據(jù)時都存在不同的缺陷，即使一些金融機構(gòu)引進了數(shù)據(jù)挖掘系統(tǒng)，也只是做一些簡單的數(shù)據(jù)分析工作，并沒有對客戶歷史數(shù)據(jù)進行深度的挖掘。

1 決策樹模型

決策樹是目前最流行的機器學習算法之一，在基本的決策樹分類算法中，信息增益（information gain）準則被用來做分割變量的選擇。決策樹算法的基本步驟如下：

Step1：計算每個屬性/特征的數(shù)據(jù)集的熵;

Step2：

a.計算所有分類值的熵;

b.獲取當前屬性;

c.計算當前屬性的平均信息熵;

Step3：選取最高增益屬性，重復，直到得到想要的樹。

本文利用 R 軟件建立決策樹模型。選擇復雜度參數(shù)為 0.02 作為決策樹的剪枝參數(shù)，從而將樹的大小控制在理想范圍內(nèi)。最終得到部分分類規(guī)則如下：

規(guī)則1：若 nr.emplo >= 5088 且 duration < 455 則不簽訂定期存款協(xié)議的可能性為98%，簽訂定期存款的可能性為 2%。

規(guī)則2：若 nr.emplo >= 5088 且 455<=duration < 682 則不簽訂定期存款協(xié)議的可能性為 80%，簽訂定期存款的可能性為 20%。

規(guī)則3：若 nr.emplo >= 5088 且 duration >= 682 且 job = ent、hsm、mng、rtr、srv、std、tch 時則不簽訂定期存款協(xié)議的可能性為 58%，簽訂定期存款的可能性為 42%。

規(guī)則4：若 nr.emplo >= 5088 且 duration >= 682 且 job 不是 ent、hsm、mng、rtr、sl?、srv、std、tch 時則不簽訂定期存款協(xié)議的可能性為 65%，簽訂定期存款的可能性為 35%。

2 隨機森林模型

隨機森林（random forest）是一種組成式的監(jiān)督學習方法。在模型建立時，首先從訓練集中有放回地隨機抽取 489 個觀測點，在每棵樹的每個節(jié)點隨機抽取 3 個變量，從而生成了 500 棵傳統(tǒng)決策樹。由建立的隨機森林模型分類結(jié)果可以看出：該隨機森林模型中包含了 500 棵決策樹，每棵決策樹節(jié)點處所選擇的變量個數(shù)為 4。在訓練數(shù)據(jù)集上模型總的預(yù)測誤差為9.06%。

建立隨機森林算法模型時部分變量的相對重要程度：duration（225.421），euribor3m（83.005），job（56.243），age（56.039），cons.price.idx（20.629），emp.var.rate（17.461），marital（16.091），previous（12.155）。

由上表可以看出，在此數(shù)據(jù)集上應(yīng)用隨機森林算法建立模型時，變量

duration（最后一次通話持續(xù)時間）、euribor3m（歐元銀行3月匯率）、job（工作類型）、age（客戶年齡）等變量相對重要程度較高。說明與客戶最近一次聯(lián)系持續(xù)的時間、客戶的工作類型、歐元銀行3月匯率、客戶的年齡、雇員人數(shù)等對客戶簽訂定期存款協(xié)議有著密切的聯(lián)系。因此，在營銷項目中可以重點關(guān)注這些變量的取值，從而更有針對性的尋找客戶。

3 支持向量機模型與綜合比較

3.1 支持向量機模型

支持向量機（Support-vector machine）是一類可用于分類和回歸的監(jiān)督機器學習模型，簡稱為 SVM，具體的包括線性和非線性分類器。本文將支持向量機模型應(yīng)用于測試集數(shù)據(jù)，得到測試結(jié)果如下表1所示：

該模型在測試集上的總誤差為 10.6%，在不簽訂銀行定期存款協(xié)議（即 no 類）的預(yù)測錯誤率為 7.2%，在簽訂銀行定期存款協(xié)議（即 yes 類）的預(yù)測錯誤率將為 63.0%。

3.2 模型比較

綜上，本文實現(xiàn)三個模型的預(yù)測誤差如下表2。

通過以上三個模型誤差的比較，假設(shè)不考慮模型的用時時長，通過綜合比較，決策樹分類算法與隨機森林算法總誤差均較小，預(yù)測能力較優(yōu)，且解釋性也強，因此較推薦選擇決策樹與隨機森林算法。

根據(jù)前文算法，應(yīng)該認識到良好的信譽有助于增加客戶的忠誠度，在銀行營銷的過程中，老客戶的響應(yīng)度往往更加強烈，這也正是所說的忠誠客戶。這種類型的客戶是銀行業(yè)務(wù)改革、發(fā)展新產(chǎn)品所最需要的人員，而客戶流失不僅會帶來資金的外流，還會影響銀行新體制的創(chuàng)建，所以銀行應(yīng)該嚴防客戶流失。

結(jié)論

本文綜合應(yīng)用多種數(shù)據(jù)挖掘方法建立銀行電話營銷模型，選擇的分類器顯示了不同年齡、職業(yè)、婚姻狀況、受教育程度的客戶對銀行電話營銷會產(chǎn)生不同的結(jié)果，因此銀行應(yīng)該緊跟數(shù)據(jù)時代，建立自己獨特的數(shù)據(jù)庫，這不僅有助于提高電話營銷的效率，還有助于銀行客戶的管理。

參考文獻

[1] ?高麗. 銀行電話營銷成功之路的分析與預(yù)測[D].華中師范大學，2017.

[2] ?王琴. 數(shù)據(jù)挖掘在銀行電話營銷中的應(yīng)用[D].華中科技大學，2015.

[3] ?宣子岳.基于數(shù)據(jù)挖掘的銀行電話營銷預(yù)測研究[J].現(xiàn)代商業(yè)，2018（24）：24-26.