金錚
摘 要:本文意在通過機(jī)器學(xué)習(xí)算法對銀行零售數(shù)據(jù)進(jìn)行深度挖掘,探索傳統(tǒng)商業(yè)銀行基于機(jī)器學(xué)習(xí)模型構(gòu)建精準(zhǔn)營銷策略的切入點(diǎn)。本文使用商業(yè)銀行數(shù)據(jù)分別構(gòu)建基于邏輯回歸算法和隨機(jī)森林算法的理財(cái)產(chǎn)品響應(yīng)預(yù)測模型,并進(jìn)行結(jié)果對比分析,得出經(jīng)過梯度下降優(yōu)化后的邏輯回歸模型效果更好的結(jié)論。并將此模型預(yù)測結(jié)果應(yīng)用于實(shí)際理財(cái)產(chǎn)品營銷中,為改變傳統(tǒng)商業(yè)銀行營銷思路、提升營銷精準(zhǔn)度提供幫助。
關(guān)鍵詞:機(jī)器學(xué)習(xí);商業(yè)銀行;精準(zhǔn)營銷;邏輯回歸;隨機(jī)森林
在數(shù)據(jù)爆炸式增長、新興技術(shù)層出不窮的互聯(lián)網(wǎng)時代,互聯(lián)網(wǎng)金融迅速崛起,金融業(yè)競爭愈發(fā)激烈。隨著營銷模式的轉(zhuǎn)變、客戶個性化需求的增多,銀行業(yè)意識到,傳統(tǒng)的數(shù)據(jù)分析已無法充分挖掘數(shù)據(jù)的價值,也無法滿足現(xiàn)有營銷訴求。各銀行紛紛組建專業(yè)的數(shù)據(jù)團(tuán)隊(duì),開始嘗試通過機(jī)器學(xué)習(xí)等手段進(jìn)行數(shù)據(jù)分析挖掘,從而通過技術(shù)手段驅(qū)動業(yè)務(wù)運(yùn)營。在此背景下,基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷在國內(nèi)銀行業(yè)快速興起。
一、精準(zhǔn)營銷是商業(yè)銀行發(fā)展的必備要素
商業(yè)銀行零售業(yè)務(wù)的業(yè)務(wù)種類繁多、客戶量龐大,依靠傳統(tǒng)營銷經(jīng)驗(yàn)很難找到大量的精準(zhǔn)目標(biāo)客戶。故通過數(shù)據(jù)分析、機(jī)器學(xué)習(xí)模型等方法進(jìn)行海量精準(zhǔn)客戶篩選,從而提升投入產(chǎn)出比成為精準(zhǔn)營銷的關(guān)鍵。
近年來,國內(nèi)銀行業(yè)開展的基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷試點(diǎn)工作也取得了初步成效:某國有銀行分別完成了客戶精準(zhǔn)營銷主題9項(xiàng)功能、產(chǎn)品精準(zhǔn)營銷主題16項(xiàng)功能的全行推廣;某股份制銀行通過精準(zhǔn)營銷不僅實(shí)現(xiàn)了對3000多萬大零售客戶的集中運(yùn)營管理(含信用卡客戶)、為超過400萬的貴賓客戶提供個性化的服務(wù),同時還節(jié)省了超過500萬的營銷成本,最終完成了零售業(yè)務(wù)的二次轉(zhuǎn)型升級;某股份制銀行基于精準(zhǔn)營銷模型結(jié)果為客戶推薦產(chǎn)品,推廣支行的客戶金融資產(chǎn)總額、理財(cái)余額等指標(biāo)均有顯著提升,同時該行為客戶搭建的流失預(yù)測模型,其前30%分位數(shù)提升2.45倍,模型總體預(yù)測效果較為理想。
雖然國內(nèi)銀行業(yè)已有一些可借鑒的精準(zhǔn)營銷成功實(shí)踐經(jīng)驗(yàn),各商業(yè)銀行沉淀的大量客戶數(shù)據(jù)也是一個亟待挖掘的巨大寶庫,但是由于不同銀行的客戶數(shù)據(jù)結(jié)構(gòu)不同,模型也無法復(fù)用。因此我們?nèi)孕柙阢y行業(yè)基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷道路上秉承“智能化、標(biāo)準(zhǔn)化、自動化、規(guī)?;钡脑瓌t不斷進(jìn)行探索。
二、基于機(jī)器學(xué)習(xí)算法的理財(cái)產(chǎn)品響應(yīng)預(yù)測模型
(一)業(yè)務(wù)需求理解與解析
在互聯(lián)網(wǎng)金融時代,隨著客戶對金融知識的理解不斷提升、對資產(chǎn)管理的意識不斷加強(qiáng)、對產(chǎn)品的要求不斷提高,理財(cái)成為商業(yè)銀行營銷的重要產(chǎn)品類型。為了更好、更精準(zhǔn)的為客戶提供個性化產(chǎn)品服務(wù),本文針對某商業(yè)銀行的理財(cái)產(chǎn)品構(gòu)建基于機(jī)器學(xué)習(xí)算法的產(chǎn)品響應(yīng)預(yù)測模型。通過觀察零售客戶購買該類理財(cái)產(chǎn)品的行為特征,對未來1個月客戶購買該類理財(cái)產(chǎn)品的可能性進(jìn)行預(yù)測,并將模型預(yù)測結(jié)果應(yīng)用于實(shí)際產(chǎn)品營銷中,為一線業(yè)務(wù)人員降低營銷成本、提升營銷效益提供有力支撐。
(二)數(shù)據(jù)搜集與整理
數(shù)據(jù)為某商業(yè)銀行零售客戶脫敏數(shù)據(jù),具有真實(shí)性與可靠性?;诒敬尉珳?zhǔn)營銷理財(cái)產(chǎn)品響應(yīng)預(yù)測模型的具體需求,結(jié)合業(yè)務(wù)知識判定,構(gòu)建分類預(yù)測模型。獲取模型目標(biāo)變量的業(yè)務(wù)含義,即客戶未來1個月是否購買該類理財(cái)產(chǎn)品,并進(jìn)行數(shù)據(jù)加工處理。本次搜集并提取的建模所需數(shù)據(jù)寬表包含:自變量237個,因變量1個,客戶數(shù)據(jù)661198條。
(三)數(shù)據(jù)探索與分析
基于數(shù)據(jù)寬表,輸出各自變量的描述性統(tǒng)計(jì)分析結(jié)果,如:自變量TRANSFER_AMT_6的數(shù)據(jù)量為82405、均值為278335.36、標(biāo)準(zhǔn)差為3129411.02、最小值為0、下四分位為0、中位數(shù)為300、上四分位為47100、最大值為470000000,并結(jié)合業(yè)務(wù)知識對自變量進(jìn)行基礎(chǔ)處理,如:錯誤值檢驗(yàn)、缺失值檢驗(yàn)、異常值檢驗(yàn)等。完成基礎(chǔ)數(shù)據(jù)處理后,一方面需要對數(shù)據(jù)進(jìn)行去量綱化,即數(shù)據(jù)標(biāo)準(zhǔn)化,消除不同變量間的量綱,減少因量綱不同造成的誤差;另一方面為了避免模型結(jié)果過擬合,需要將數(shù)據(jù)抽樣劃分為訓(xùn)練集和測試集,劃分比例為7:3,其中訓(xùn)練集是用來對模型進(jìn)行擬合的數(shù)據(jù)樣本,測試集是用來評估最終模型泛化能力的數(shù)據(jù)樣本。
(四)特征選擇
樣本數(shù)據(jù)中的特征(即自變量)過多,需要運(yùn)用統(tǒng)計(jì)知識結(jié)合業(yè)務(wù)知識對特征進(jìn)行篩選,達(dá)到減少特征數(shù)量(降維)、減少模型過擬合、提高模型泛化能力的目的。特征選擇一般分為以下幾種方式。
1.刪除單一值占比過大的特征,如某特征值的單一值占比達(dá)到95%以上,則認(rèn)為這個特征作用不大,需人工刪除;
2.利用卡方檢驗(yàn)篩選變量,檢驗(yàn)定性自變量與定性因變量的相關(guān)關(guān)系,當(dāng)P值小于0.05時,表示自變量分布與因變量分布有顯著差異,需保留該變量,否則刪除;
3.利用變量IV值篩選變量,對變量進(jìn)行WOE轉(zhuǎn)換,計(jì)算變量IV值并設(shè)置閾值,保留變量IV值大于0.1的變量;
4.對變量進(jìn)行多重共線性檢驗(yàn),計(jì)算變量的方差膨脹因子VIF值,保留VIF值小于10的變量;
5.利用PCA進(jìn)行降維,經(jīng)過反復(fù)驗(yàn)證,在模型效果不下降的前提下,盡量減少變量個數(shù),最終保留30個變量作為入模變量。將經(jīng)過以上特征選擇方法進(jìn)行篩選后的自變量與因變量重新加工形成新的數(shù)據(jù)寬表進(jìn)行建模。
三、構(gòu)建基于邏輯回歸算法的預(yù)測模型
客戶是否購買理財(cái)產(chǎn)品的模型采用二元邏輯回歸模型。邏輯回歸(Logistic Regression)是用于處理因變量為分類變量的回歸問題,因變量用P表示概率,P的取值范圍是:0≤P≤1。需要對P進(jìn)行邏輯變換:logit(P)=ln(P/1-P),即可得到邏輯回歸的表達(dá)式為:
P=1/1+e-(Θ0+Θ1X1+Θ2X2+…+ΘnXn)
其中X1,X2,…,Xn分別代表上述特征篩選之后的自變量;Θ0,Θ1,…,Θn分別代表各自變量X的系數(shù),即模型參數(shù)。利用statsmodels中的函數(shù)結(jié)合數(shù)據(jù)得到邏輯回歸模型的參數(shù),最終得到的結(jié)果,如:AUM_M_AD_woe的P值為0.000、FIN_EXPIRE_NUM_M_woe的P值為0.000、SAVDEPT_AMT_M_woe的P值為0.743、TRANSFER_AMT_6_woe的P值為0.036、PRODUCT_NM_woe的P值為0.000等30個入模變量。其中有些變量的P值大于0.05,即表示變量不顯著,需進(jìn)行刪除處理。從原有的30個變量中刪除5個變量(如:SAVDEPT_AMT_M_woe的P值為0.743),還剩顯著變量25個。
此時得到的模型參數(shù)并不是最優(yōu)的,需使用最小損失化函數(shù)對參數(shù)進(jìn)行最優(yōu)化調(diào)整。本文使用梯度下降法對模型損失函數(shù)進(jìn)行最優(yōu)化。梯度下降法的原理是通過迭代,找到目標(biāo)函數(shù)的最小值或收斂到最小值,基本公式為:
Θi=Θi -η( ?J(Θ0,Θ1,…,Θn)/ ?Θi)
其中,η為學(xué)習(xí)率,即每次迭代的步長;J(Θ0,Θ1,…,Θn)是損失函數(shù)。
J(Θ0,Θ1,…,Θn)= ∑N i=1(hΘ(xi 0+xi 1+…+xi n)-yi)2/2N
其中xi 0=1。
Θi=Θi -η(∑N i=1(hΘ(xj 0+xj 1+…+xj n)-yj)xj i/N)
在實(shí)際模型建設(shè)過程之中,步長η太大會導(dǎo)致迭代過快,甚至可能錯過最優(yōu)解;步長η太小,迭代速度太慢,導(dǎo)致很長時間算法都無法結(jié)束。
經(jīng)過梯度下降的邏輯回歸模型的結(jié)果指標(biāo)為:KS=0.712,AUC=0.922。
構(gòu)建基于隨機(jī)森林算法的預(yù)測模型
隨機(jī)森林由Leo Breiman提出,通過bootstrap重采樣技術(shù)從原始訓(xùn)練樣本集M中有放回的重復(fù)隨機(jī)抽取n個樣本,生成新的訓(xùn)練樣本集合后,根據(jù)自助樣本集生成n個分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果根據(jù)分類樹投票多少形成的分?jǐn)?shù)來決定。具體的實(shí)現(xiàn)過程如下:
1)原始訓(xùn)練集為M,應(yīng)用自助法有放回的隨機(jī)抽取n個新的自助樣本集,并由此構(gòu)建k棵分類樹,每次未被抽取到的樣本組成了n個袋外數(shù)據(jù);
2)假設(shè)有a個變量,則在每棵樹的每個節(jié)點(diǎn)處隨機(jī)抽取b個變量,并在b中選擇一個最具分類能力的變量,變量分類的閾值通過檢查每個分類點(diǎn)來確定;
3)每棵樹最大限度的生長,而不做任何的修剪;
4)將生成的多棵分類樹組成隨機(jī)森林,并用隨機(jī)森林分類器對新數(shù)據(jù)進(jìn)行判別、分類,分類結(jié)果根據(jù)分類器的投票多少來決定。
使用隨機(jī)森林模型對該數(shù)據(jù)進(jìn)行建模,模型結(jié)果的指標(biāo)為:KS=0.512,AUC=0.756。
四、邏輯回歸模型與隨機(jī)森林模型結(jié)果對比分析
通過對比兩種模型的結(jié)果可以發(fā)現(xiàn),隨機(jī)森林模型的KS和AUC值顯著低于經(jīng)過梯度下降的邏輯回歸模型的相應(yīng)指標(biāo),故從該商業(yè)銀行的數(shù)據(jù)情況來看,經(jīng)過梯度下降優(yōu)化后的邏輯回歸模型效果更好。
基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷在商業(yè)銀行領(lǐng)域的挑戰(zhàn)。雖然隨著新技術(shù)的不斷興起,基于機(jī)器學(xué)習(xí)算法模型的精準(zhǔn)營銷在商業(yè)銀行領(lǐng)域受到青睞,但是在實(shí)際搭建及應(yīng)用過程中仍會遇到一些挑戰(zhàn)。
從數(shù)據(jù)層面,商業(yè)銀行的數(shù)據(jù)基本上是結(jié)構(gòu)化數(shù)據(jù),相較互聯(lián)網(wǎng)金融公司而言,在非結(jié)構(gòu)化數(shù)據(jù)方面比較欠缺,搭建模型時可能會出現(xiàn)數(shù)據(jù)不夠豐富,模型結(jié)果片面等情況;
從模型層面,篩選變量或者搭建模型的過程中,如果只單純以數(shù)據(jù)及算法產(chǎn)生的結(jié)果來評估變量、模型的好壞,而脫離了業(yè)務(wù)知識及業(yè)務(wù)發(fā)展的實(shí)際情況,即使模型效果指標(biāo)再漂亮對實(shí)際業(yè)務(wù)也是無意義的。因此建模人員對銀行業(yè)基礎(chǔ)業(yè)務(wù)的理解、對數(shù)據(jù)含義的解讀及應(yīng)用能力就顯得尤為重要;
從應(yīng)用層面,精準(zhǔn)營銷模型的好壞除了數(shù)據(jù)、算法等模型本身涉及的方面外,一線業(yè)務(wù)人員是否相信、是否不折不扣的按模型結(jié)果進(jìn)行落地,以及營銷技巧的使用是否得當(dāng)?shù)榷紩δP偷耐茝V、迭代以及評價造成影響,因此業(yè)務(wù)人員的配合與反饋十分關(guān)鍵。
參考文獻(xiàn):
[1]賈俊平.統(tǒng)計(jì)學(xué)(第7版)[M].中國人民大學(xué)出版社,2018.
[2]王芳.基于機(jī)器學(xué)習(xí)理論的電商用戶行為研究[D].北京:物資學(xué)院,2018.
[3]張毅.數(shù)據(jù)為王顛覆營銷:移動時代的大數(shù)據(jù)精準(zhǔn)營銷.人民郵電出版社,2017.
[4]林慶鵬.基于大數(shù)據(jù)挖掘的精準(zhǔn)營銷策略研究[D].蘭州:理工大學(xué),2016.
[5]劉力銀.基于邏輯回歸的推薦技術(shù)研究及應(yīng)用[D].成都:電子科技大學(xué),2013.