李召蝶 董如哲
摘 要:隨著國民經(jīng)濟(jì)的快速增加以及人們金融觀念的轉(zhuǎn)變,我國個人貸款需求呈現(xiàn)穩(wěn)健上升的態(tài)勢。如何從海量客戶中精準(zhǔn)識別目標(biāo)客戶,如何通過合適的途徑將營銷信息推送至客戶,已經(jīng)日益成為商業(yè)銀行面臨的重要問題之一。本文通過對某銀行某次12萬客戶的營銷活動數(shù)據(jù)分析,利用GBDT(梯度下降)+LR(邏輯回歸)方法,根據(jù)營銷渠道將數(shù)據(jù)分層訓(xùn)練,進(jìn)行客戶精準(zhǔn)營銷響應(yīng)預(yù)測,大幅提高了營銷效率。同時在固定成本約束下,實現(xiàn)營銷效果最佳的資源配置最優(yōu)解。
關(guān)鍵詞:精準(zhǔn)營銷;GBDT+LR;最優(yōu)化;營銷策略
1.背景及意義
傳統(tǒng)商業(yè)銀行如何在信息時代通過精準(zhǔn)營銷,準(zhǔn)確定位客戶,提高產(chǎn)品覆蓋度?依托大數(shù)據(jù)分析,可推動商業(yè)銀行精準(zhǔn)營銷基礎(chǔ)上的“客群化”經(jīng)營,匹配客戶特征直達(dá)C端,實現(xiàn)存量客戶挖掘、睡眠客戶喚醒、潛力客戶提升轉(zhuǎn)化,構(gòu)建獲客活客輕入口,提高營銷效率,助力全量客戶維護(hù)與拓展,增強(qiáng)個人業(yè)務(wù)可持續(xù)發(fā)展能力和市場競爭力。
本文依托某銀行在2018年某月開展的個人貸款營銷活動數(shù)據(jù)進(jìn)行分析構(gòu)建。通過機(jī)器學(xué)習(xí)建模過程,大幅提高了傳統(tǒng)營銷的效率,具有一定的現(xiàn)實意義。
營銷活動數(shù)據(jù)基于電話、短信和郵件三種渠道(成本不同),對客戶推送營銷信息。
不同渠道營銷效果,在response進(jìn)行貸款的響應(yīng)客戶中,Phone Call(電話)渠道相比SMS(短信)和Email(郵件)效果最為明顯,此渠道成功客戶數(shù)占全部成功客戶數(shù)的59%,其次為SMS和Email。
未接觸客戶 接觸客戶
2.分析流程圖
Setp1:將數(shù)據(jù)集規(guī)約形成兩個樣本,訓(xùn)練數(shù)據(jù)集樣本和測試數(shù)據(jù)集樣本。
Setp2:對Step1形成的訓(xùn)練數(shù)據(jù)集預(yù)處理和特征工程、特征選擇過程。具體包括缺失值處理、重復(fù)值處理、生成衍生特征、獨(dú)熱編碼等。
Step3:利用Step2形成的已完成數(shù)據(jù)預(yù)處理的訓(xùn)練樣本,使用GBDT+LR方法根據(jù)不同渠道分別建立客戶響應(yīng)模型,對建立好的模型進(jìn)行解釋與評價,利用測試訓(xùn)練集對模型進(jìn)行診斷。
Step4:利用另一個目標(biāo)變量是否觸達(dá)客戶建立GBDT預(yù)測模型,作為全量客戶全渠道預(yù)測的數(shù)據(jù)基礎(chǔ)。
Step5:根據(jù)Step4所形成的數(shù)據(jù)進(jìn)行分析,依據(jù)不同標(biāo)準(zhǔn)對建立營銷方案,并針對反饋效果監(jiān)測、調(diào)整模型。
3.數(shù)據(jù)準(zhǔn)備與預(yù)處理
3.1.數(shù)據(jù)清理
在數(shù)據(jù)建模過程中,數(shù)據(jù)的準(zhǔn)備和預(yù)處理往往占據(jù)著最為重要的地位,同時也會消耗最大量的時間。在此,我們主要通過將少值域數(shù)據(jù)有序離散化、利用決策樹算法進(jìn)行數(shù)據(jù)分箱、利用業(yè)務(wù)知識將變量分組,結(jié)合分組情況對數(shù)據(jù)進(jìn)行相關(guān)性檢驗與過抽樣等創(chuàng)新性方法對數(shù)據(jù)進(jìn)行了前期處理工作。
3.1.1.數(shù)據(jù)變換
首先將數(shù)據(jù)按照4:1的比例分成訓(xùn)練集與測試集,以下數(shù)據(jù)變換完全是基于訓(xùn)練集的。
(1)確定是否存在重復(fù)值
數(shù)據(jù)清理包括重復(fù)值的刪除與缺失值的處理等工作。首先,觀察數(shù)據(jù)中是否存在重復(fù)值,經(jīng)過分析,數(shù)據(jù)中不存在完全重復(fù)的觀測。
(2)數(shù)據(jù)重編碼
對于數(shù)據(jù)中的字符型變量重編碼,將所有的Y值替換為1,N值替換為0。此外對于營銷渠道、性別、教育水平、工作類型,依次編碼為1、2、3、4等。
(3)缺失值處理
隨后,查看變量中的缺失值個數(shù),決定如何對待缺失數(shù)據(jù)。統(tǒng)計發(fā)現(xiàn),大部分變量缺失值在10%以下,但也有幾個變量缺失值超過了70%。
首先,根據(jù)業(yè)務(wù)特征推測數(shù)據(jù)缺失原因,進(jìn)而確定處理規(guī)則。經(jīng)過篩選,大部分存在缺失值的變量不包含0值,如total_investment_bal (當(dāng)前持有理財產(chǎn)品數(shù)額)等,可以推斷這部分缺失值是由于客戶無相關(guān)交易內(nèi)容所致,故此部分缺失值可用0值填充。
此外,僅變量 “信用卡當(dāng)前還款期內(nèi)賬單額”同時存在空值與0值。經(jīng)觀察發(fā)現(xiàn),此變量取空值時,對應(yīng)變量“當(dāng)前信用卡額度”也為空值,故這部分空值是為無信用卡導(dǎo)致的無交易額。因此,可創(chuàng)造一個衍生變量“是否持有信用卡”來標(biāo)識這部分空值。自此,缺失值處理完成。
3.2.變量篩選與屬性構(gòu)造
通過對客戶前六個月歷史數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)很多數(shù)據(jù)具有較強(qiáng)相關(guān)性(相關(guān)系數(shù)超過了0.8),不能夠直接進(jìn)入模型,需要對數(shù)據(jù)進(jìn)行變量篩選?;驹瓌t為:6月份的數(shù)據(jù)全部進(jìn)入模型,同時基于1-6月的數(shù)據(jù),構(gòu)造近三個月/六個月數(shù)據(jù)指標(biāo),代替1-5月的數(shù)據(jù)進(jìn)入模型,以降低變量中的自相關(guān)性。具體方法如下:
(1)開戶時間、受教育水平、性別、工作類別等四項變量
選擇6月的數(shù)據(jù)進(jìn)入模型,其他月份的數(shù)據(jù)刪除。
(2)當(dāng)前是否持有房貸,是否持有保險產(chǎn)品等兩項變量
選擇6月數(shù)據(jù),此外構(gòu)造新變量:房貸(保險)持有類型,分為:
(3)9個數(shù)值型流量數(shù)據(jù)變量
當(dāng)前存款數(shù)量、持有理財產(chǎn)品數(shù)額、信用卡當(dāng)前還款期內(nèi)賬單額、當(dāng)前信用卡額度、信用卡上一個還款期賬單額、賬戶本月取款或者轉(zhuǎn)出數(shù)值、通過ATM取款或者轉(zhuǎn)出數(shù)額、本月取款或者轉(zhuǎn)出次數(shù)、本月賬戶存款或者轉(zhuǎn)入次數(shù)等9個數(shù)值型流量數(shù)據(jù),構(gòu)造近三個月、六個月均值指標(biāo)和偏離度指標(biāo)。其中,三個月存款余額偏離度=6月存款/(4、5、6三個月存款均值)。偏離度指標(biāo)用來衡量該變量的變化趨勢。公式如下:
(4)信用卡額度使用率和ATM渠道偏好等兩個經(jīng)驗指標(biāo)
根據(jù)業(yè)務(wù)經(jīng)驗,信用卡額度使用率是一個衡量貸款意愿和提款金額的重要指標(biāo),定義為:額度使用率= 信用卡當(dāng)前還款期內(nèi)賬單額/當(dāng)前信用卡額度,并構(gòu)造三個月、六個月額度使用偏離度指標(biāo)。同時,設(shè)置ATM渠道偏好指標(biāo),定義為:六個月通過ATM取款或者轉(zhuǎn)出數(shù)額總數(shù)/六個月賬戶取款或者轉(zhuǎn)出數(shù)值總數(shù)。
3.3.數(shù)據(jù)變換
3.3.1.CART決策樹分箱
在對變量進(jìn)行了篩選和重新構(gòu)造后,我們對連續(xù)變量進(jìn)行了基于決策樹的變量分箱處理。CART是二叉樹分類算法,每次僅進(jìn)行二元分類。對于連續(xù)性變量,方法是:依次計算相鄰兩元素值的中位數(shù),將數(shù)據(jù)集一分為二,計算該點(diǎn)作為切割點(diǎn)時,分割前后,基尼值的下降程度。每次切分時,選擇基尼值下降程度最大的點(diǎn)為最優(yōu)切分點(diǎn),再將切分后的數(shù)據(jù)集按同樣原則切分,直至終止條件。
其中,我們將最大分級限定為12級,同時,一個葉節(jié)點(diǎn)所需的最小樣本數(shù)定為5%,防止在分箱階段出現(xiàn)過擬合。
3.4.變量選擇
3.4.1.依據(jù)相關(guān)系數(shù)粗篩變量
我們依據(jù)變量與分析目標(biāo)的相關(guān)性,對變量進(jìn)行進(jìn)一步的篩選。其中,除了本身包含字符型數(shù)據(jù)的分類變量外,我們將值域小于等于20的變量全部視為離散型變量,其他則視為連續(xù)變量。對于連續(xù)變量,使用方差分析(ANOVA)篩選出顯著變量,其中顯著性水平設(shè)為5%。對于離散變量,使用列聯(lián)分析方法,同樣以顯著性水平5%為標(biāo)準(zhǔn)。最終,共篩選出50條連續(xù)變量與 13條離散變量。
3.4.2.IV值篩選
IV定義:IV值(Information Value),即信息價值指標(biāo),衡量了某個特征對目標(biāo)的影響程度,其基本思想是根據(jù)該特征所命中黑白樣本的比率與總黑白樣本的比率,來對比和計算其關(guān)聯(lián)程度,計算公式如下:
通過計算我們篩選出IV值大于0.02的變量進(jìn)入模型,生成的部分IV值如下表所示。
3.4.3.變量聚類
從全部的相關(guān)系數(shù)矩陣中可以看出,目前變量之間依然存在較強(qiáng)相關(guān)性,可能導(dǎo)致模型出現(xiàn)多重共線性問題。因此,通過變量聚類算法,篩選最終進(jìn)入模型的變量特征,篩選原則為:
4.個人貸款營銷響應(yīng)預(yù)測模型
4.1.GBDT+LR模型的設(shè)計與訓(xùn)練
4.1.1.模型設(shè)計思路
根據(jù)業(yè)務(wù)經(jīng)驗分析:
首先,客戶是否貸款與客戶是否具有資金需求有著直接的關(guān)系,所以針對響應(yīng)客戶(response = 1),對其相關(guān)信息建??梢缘玫娇蛻舻馁J款傾向概率;
其次,建模的目的是為了最大化響應(yīng)客戶人數(shù)或者金額。對樣本數(shù)據(jù)的響應(yīng)客戶進(jìn)行分析,我們發(fā)現(xiàn),采取不同的營銷渠道,客戶的貸款金額沒有顯著差別。業(yè)務(wù)上來講,客戶的貸款金額應(yīng)該與客戶本身的資金需求量有關(guān),而與客戶獲取貸款信息的渠道無顯著相關(guān)性。因此貸款金額最大化問題的求解可等效轉(zhuǎn)化為貸款人數(shù)最大化問題的求解,即響應(yīng)客戶數(shù)量的最大化。
營銷渠道的選擇決定了貸款信息能否發(fā)送至客戶,而營銷數(shù)據(jù)能否觸達(dá)客戶對于營銷成功率有著顯著影響。但是,之前的營銷活動是隨機(jī)選擇營銷渠道,沒有考慮到不同客戶的渠道偏好。例如,對于一些客戶,電話營銷往往會被當(dāng)作電信詐騙直接掛掉,于是耗費(fèi)了大量成本但是沒有產(chǎn)生收益;而對于一些老年客戶,郵件發(fā)送往往根本無法觸及,諸如此類。通過不同營銷渠道向客戶傳遞貸款信息,客戶的選擇可能截然不同,因此確定合適的營銷渠道也是至關(guān)重要的。但是,目前的數(shù)據(jù)中,單個客戶僅有一種營銷渠道,若該渠道無法觸及客戶,我們無從確定更換另兩種營銷渠道,客戶的響應(yīng)情況是否有所變化。
于是,我們的模型將分為兩大部分來進(jìn)行:首先根據(jù)原始數(shù)據(jù)的營銷渠道(電話、短信、email)將數(shù)據(jù)分成三個部分,在第一層模型,根據(jù)是否觸達(dá)(contact_ind)變量對三組數(shù)據(jù)分別訓(xùn)練,形成三個不同渠道下的客戶觸達(dá)模型;隨后,在第二層模型通過對客戶響應(yīng)情況(response)與相關(guān)信息建模分析,得到三組客戶相應(yīng)模型;最后,對全量客戶數(shù)據(jù)分別使用這三個模型,以確定客戶的最大響應(yīng)概率。
于是,我們得到了三組模型,每一組模型即為客戶在該營銷渠道的響應(yīng)概率。隨后,我們將全部數(shù)據(jù)分別帶入這三組模型,最終可以得到全部客戶在所有渠道的響應(yīng)概率??蛻舻淖罡唔憫?yīng)概率所對應(yīng)的模型即為應(yīng)采用的營銷渠道,最終達(dá)到全局最優(yōu)解。
因此,此模型結(jié)構(gòu)的實質(zhì)其實是三個以一個GBDT模型作為某重要變量數(shù)據(jù)生成器的GBDT+LR雙層結(jié)構(gòu)模型。同時,該模型會根據(jù)營銷渠道的不同進(jìn)行三類并行計算,以輸出概率最大的模型作為渠道選擇的依據(jù)。具體模型結(jié)構(gòu)如下圖所示:
4.1.2.關(guān)于GBDT+LR
本質(zhì)上GBDT+LR是一種具有stacking思想的二分類器模型,因此可以用來解決二分類問題。這個方法出自于Facebook 2014年的論文 Practical Lessons from Predicting Clicks on Ads at Facebook。綜合使用GBDT與Logist模型,既提高了模型的精準(zhǔn)度,又兼顧了模型的解釋性,Logist模型也可以控制GBDT的過擬合傾向。具體結(jié)構(gòu)見圖:
在本文的模型設(shè)計中,一共三組33個變量作為第一層模型的輸入,通過sklearn.preprocessing模塊的OneHotEncoder進(jìn)行定性特征值數(shù)量為50的轉(zhuǎn)化后,可將特征進(jìn)一步提升到1600維用于分類。
4.1.3.模型效果
模型訓(xùn)練結(jié)果的驗證是基于占全部數(shù)據(jù)20%的測試數(shù)據(jù)集進(jìn)行的。效果評判標(biāo)準(zhǔn)包括ROC曲線、AUC(ROC曲線下方面積)以及正類F1得分。
(1)模型參數(shù)調(diào)優(yōu)
為進(jìn)一步挖掘模型的潛力,本文使用GridSearchCV,根據(jù)貪婪算法,進(jìn)行具備最優(yōu)化調(diào)優(yōu)。通過參數(shù)配置分別對GBDT模型、LR模型、雙層混合模型進(jìn)行了性能調(diào)優(yōu),。
在GBDT樹模型算法中,影響模型性能較大的參數(shù)主要有MAX_DEPTH、N_ESTIMATORS、max_features等。其中max_depth是指每棵的最大深度,n_estimators是指在GBDT中創(chuàng)建決策樹的個數(shù),learn_rate指每次學(xué)習(xí)的步長,通常與n_estimators共同調(diào)整,max_features是指每棵樹所能使用特征的最大個數(shù)。因此,模型在以下參數(shù)范圍內(nèi)進(jìn)行參數(shù)搜索,以找到使模型在訓(xùn)練集上表現(xiàn)最優(yōu)的參數(shù)組合。
在邏輯回歸模型的調(diào)優(yōu)過程中,我們允許模型的class_weight參數(shù)在None默認(rèn)值與balanced之間進(jìn)行調(diào)整,允許模型在是否調(diào)整分類權(quán)重間進(jìn)行選擇,用以降低樣本失衡的影響;允許模型通過solver參數(shù)選擇包括'newton-cg','lbfgs','sag','liblinear'在內(nèi)的更多優(yōu)化算法進(jìn)行擬合。
4.1.4.模型穩(wěn)定性和模型選擇
經(jīng)過參數(shù)調(diào)優(yōu)之后,我們將模型分別應(yīng)用到驗證數(shù)據(jù)集上用以最終確定流失預(yù)警模型的選擇。在驗證集中,AUC與訓(xùn)練集相差不到0.01,模型表現(xiàn)出了極大的穩(wěn)定性。
通過比較各模型在ROC曲線,AUC指標(biāo)和正類F1分值的表現(xiàn),我們發(fā)現(xiàn)雙層混合模型在各項指標(biāo)中都居于首位。不僅如此,通過分析正類識別精準(zhǔn)度和召回率,我們不難發(fā)現(xiàn)GBDT模型在歷次測試中表現(xiàn)出較好的正類識別精準(zhǔn)度,但是在正類召回率上表現(xiàn)上相對保守。與GBDT相比,LR模型在正類召回率方面的表現(xiàn)更好。經(jīng)驗證,雙層混合模型較好地結(jié)合了邏輯回歸與決策樹模型的優(yōu)點(diǎn),表現(xiàn)出較好的識別效果和穩(wěn)定的性能,因此最終被確定為客戶響應(yīng)預(yù)測模型。
4.2.新營銷活動設(shè)計與評估
通過模型輸出的輸出結(jié)果:客戶編號,三個渠道的響應(yīng)概率P1P2P3,可以確定多個不同的最優(yōu)化目標(biāo):第一種,最大化客戶響應(yīng)概率,使得響應(yīng)客戶的期望最大;第二種,在每個客戶只能選擇一種營銷渠道的情況下,選擇每個客戶的最大概率,覆蓋最多的客戶。以下分別討論這兩種營銷策略:
4.2.1.客戶響應(yīng)期望最大化
在這種情況下,允許使用多種渠道覆蓋同一個用戶,力求達(dá)到客戶的響應(yīng)概率的最大化。約束條件如下圖所示:
在具體的營銷執(zhí)行的步驟中,可以對三種渠道按照E-MAIL、短信、電話的順序分別部署,即先部署EMAIL渠道,若客戶響應(yīng),且客戶同時存在于后續(xù)的營銷渠道名單中,則將客戶剔除。一方面可以節(jié)約營銷成本,同時避免對客戶的過度打擾。
4.2.2.客戶最大概率渠道選擇
在這種情況下,同一個用戶只使用一種營銷渠道,因此,對客戶在全部三種營銷渠道的響應(yīng)概率排序,選擇其中最大的作為此客戶的營銷渠道。同時,約束條件如下圖所示:
5.結(jié)束語
與原始營銷活動相比,原始活動共消耗營銷費(fèi)用3.39萬元,成功營銷客戶4306人,成功客戶單客成本7.9元。根據(jù)模型預(yù)測,使用新的營銷策略,第一方案客戶響應(yīng)期望6071人,覆蓋客戶20870人,派發(fā)信息37872人次,單客獲客成本1.6元。與原始方案相比,新的營銷活動的獲客成本預(yù)計將降至原來的1/5左右,活動效率大大提升。
參考文獻(xiàn):
[1]李墦.銀行數(shù)據(jù)挖掘的運(yùn)用及效用研究[D]武漢大學(xué),2012
[2]柳楊亮.基于客戶交易行為的事件式精準(zhǔn)營銷在交通銀行零售板塊中的應(yīng)用研究[D]華東理工大學(xué),2013
[3]王文賢,金陽,陳道斌.基于RFM模型的個人客戶忠誠度研究[J]金融論壇,2012
[4]蔚趙春,凌鴻.商業(yè)銀行大數(shù)據(jù)應(yīng)用的理論、實踐與影響[J]上海金融,2013
[5]劉濤.建設(shè)銀行棗莊分行精準(zhǔn)營銷系統(tǒng)設(shè)計與優(yōu)化[D]天津大學(xué),2012
[6]陳春安.零售大數(shù)據(jù)在商業(yè)銀行的應(yīng)用分析[D].西南財經(jīng)大學(xué),2016