• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)算法的商業(yè)銀行精準(zhǔn)營銷模型研究

      2020-05-20 16:08:48金錚
      現(xiàn)代營銷·經(jīng)營版 2020年4期
      關(guān)鍵詞:隨機(jī)森林精準(zhǔn)營銷機(jī)器學(xué)習(xí)

      金錚

      摘 要:本文意在通過機(jī)器學(xué)習(xí)算法對銀行零售數(shù)據(jù)進(jìn)行深度挖掘,探索傳統(tǒng)商業(yè)銀行基于機(jī)器學(xué)習(xí)模型構(gòu)建精準(zhǔn)營銷策略的切入點(diǎn)。本文使用商業(yè)銀行數(shù)據(jù)分別構(gòu)建基于邏輯回歸算法和隨機(jī)森林算法的理財(cái)產(chǎn)品響應(yīng)預(yù)測模型,并進(jìn)行結(jié)果對比分析,得出經(jīng)過梯度下降優(yōu)化后的邏輯回歸模型效果更好的結(jié)論。并將此模型預(yù)測結(jié)果應(yīng)用于實(shí)際理財(cái)產(chǎn)品營銷中,為改變傳統(tǒng)商業(yè)銀行營銷思路、提升營銷精準(zhǔn)度提供幫助。

      關(guān)鍵詞:機(jī)器學(xué)習(xí);商業(yè)銀行;精準(zhǔn)營銷;邏輯回歸;隨機(jī)森林

      在數(shù)據(jù)爆炸式增長、新興技術(shù)層出不窮的互聯(lián)網(wǎng)時代,互聯(lián)網(wǎng)金融迅速崛起,金融業(yè)競爭愈發(fā)激烈。隨著營銷模式的轉(zhuǎn)變、客戶個性化需求的增多,銀行業(yè)意識到,傳統(tǒng)的數(shù)據(jù)分析已無法充分挖掘數(shù)據(jù)的價值,也無法滿足現(xiàn)有營銷訴求。各銀行紛紛組建專業(yè)的數(shù)據(jù)團(tuán)隊(duì),開始嘗試通過機(jī)器學(xué)習(xí)等手段進(jìn)行數(shù)據(jù)分析挖掘,從而通過技術(shù)手段驅(qū)動業(yè)務(wù)運(yùn)營。在此背景下,基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷在國內(nèi)銀行業(yè)快速興起。

      一、精準(zhǔn)營銷是商業(yè)銀行發(fā)展的必備要素

      商業(yè)銀行零售業(yè)務(wù)的業(yè)務(wù)種類繁多、客戶量龐大,依靠傳統(tǒng)營銷經(jīng)驗(yàn)很難找到大量的精準(zhǔn)目標(biāo)客戶。故通過數(shù)據(jù)分析、機(jī)器學(xué)習(xí)模型等方法進(jìn)行海量精準(zhǔn)客戶篩選,從而提升投入產(chǎn)出比成為精準(zhǔn)營銷的關(guān)鍵。

      近年來,國內(nèi)銀行業(yè)開展的基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷試點(diǎn)工作也取得了初步成效:某國有銀行分別完成了客戶精準(zhǔn)營銷主題9項(xiàng)功能、產(chǎn)品精準(zhǔn)營銷主題16項(xiàng)功能的全行推廣;某股份制銀行通過精準(zhǔn)營銷不僅實(shí)現(xiàn)了對3000多萬大零售客戶的集中運(yùn)營管理(含信用卡客戶)、為超過400萬的貴賓客戶提供個性化的服務(wù),同時還節(jié)省了超過500萬的營銷成本,最終完成了零售業(yè)務(wù)的二次轉(zhuǎn)型升級;某股份制銀行基于精準(zhǔn)營銷模型結(jié)果為客戶推薦產(chǎn)品,推廣支行的客戶金融資產(chǎn)總額、理財(cái)余額等指標(biāo)均有顯著提升,同時該行為客戶搭建的流失預(yù)測模型,其前30%分位數(shù)提升2.45倍,模型總體預(yù)測效果較為理想。

      雖然國內(nèi)銀行業(yè)已有一些可借鑒的精準(zhǔn)營銷成功實(shí)踐經(jīng)驗(yàn),各商業(yè)銀行沉淀的大量客戶數(shù)據(jù)也是一個亟待挖掘的巨大寶庫,但是由于不同銀行的客戶數(shù)據(jù)結(jié)構(gòu)不同,模型也無法復(fù)用。因此我們?nèi)孕柙阢y行業(yè)基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷道路上秉承“智能化、標(biāo)準(zhǔn)化、自動化、規(guī)?;钡脑瓌t不斷進(jìn)行探索。

      二、基于機(jī)器學(xué)習(xí)算法的理財(cái)產(chǎn)品響應(yīng)預(yù)測模型

      (一)業(yè)務(wù)需求理解與解析

      在互聯(lián)網(wǎng)金融時代,隨著客戶對金融知識的理解不斷提升、對資產(chǎn)管理的意識不斷加強(qiáng)、對產(chǎn)品的要求不斷提高,理財(cái)成為商業(yè)銀行營銷的重要產(chǎn)品類型。為了更好、更精準(zhǔn)的為客戶提供個性化產(chǎn)品服務(wù),本文針對某商業(yè)銀行的理財(cái)產(chǎn)品構(gòu)建基于機(jī)器學(xué)習(xí)算法的產(chǎn)品響應(yīng)預(yù)測模型。通過觀察零售客戶購買該類理財(cái)產(chǎn)品的行為特征,對未來1個月客戶購買該類理財(cái)產(chǎn)品的可能性進(jìn)行預(yù)測,并將模型預(yù)測結(jié)果應(yīng)用于實(shí)際產(chǎn)品營銷中,為一線業(yè)務(wù)人員降低營銷成本、提升營銷效益提供有力支撐。

      (二)數(shù)據(jù)搜集與整理

      數(shù)據(jù)為某商業(yè)銀行零售客戶脫敏數(shù)據(jù),具有真實(shí)性與可靠性?;诒敬尉珳?zhǔn)營銷理財(cái)產(chǎn)品響應(yīng)預(yù)測模型的具體需求,結(jié)合業(yè)務(wù)知識判定,構(gòu)建分類預(yù)測模型。獲取模型目標(biāo)變量的業(yè)務(wù)含義,即客戶未來1個月是否購買該類理財(cái)產(chǎn)品,并進(jìn)行數(shù)據(jù)加工處理。本次搜集并提取的建模所需數(shù)據(jù)寬表包含:自變量237個,因變量1個,客戶數(shù)據(jù)661198條。

      (三)數(shù)據(jù)探索與分析

      基于數(shù)據(jù)寬表,輸出各自變量的描述性統(tǒng)計(jì)分析結(jié)果,如:自變量TRANSFER_AMT_6的數(shù)據(jù)量為82405、均值為278335.36、標(biāo)準(zhǔn)差為3129411.02、最小值為0、下四分位為0、中位數(shù)為300、上四分位為47100、最大值為470000000,并結(jié)合業(yè)務(wù)知識對自變量進(jìn)行基礎(chǔ)處理,如:錯誤值檢驗(yàn)、缺失值檢驗(yàn)、異常值檢驗(yàn)等。完成基礎(chǔ)數(shù)據(jù)處理后,一方面需要對數(shù)據(jù)進(jìn)行去量綱化,即數(shù)據(jù)標(biāo)準(zhǔn)化,消除不同變量間的量綱,減少因量綱不同造成的誤差;另一方面為了避免模型結(jié)果過擬合,需要將數(shù)據(jù)抽樣劃分為訓(xùn)練集和測試集,劃分比例為7:3,其中訓(xùn)練集是用來對模型進(jìn)行擬合的數(shù)據(jù)樣本,測試集是用來評估最終模型泛化能力的數(shù)據(jù)樣本。

      (四)特征選擇

      樣本數(shù)據(jù)中的特征(即自變量)過多,需要運(yùn)用統(tǒng)計(jì)知識結(jié)合業(yè)務(wù)知識對特征進(jìn)行篩選,達(dá)到減少特征數(shù)量(降維)、減少模型過擬合、提高模型泛化能力的目的。特征選擇一般分為以下幾種方式。

      1.刪除單一值占比過大的特征,如某特征值的單一值占比達(dá)到95%以上,則認(rèn)為這個特征作用不大,需人工刪除;

      2.利用卡方檢驗(yàn)篩選變量,檢驗(yàn)定性自變量與定性因變量的相關(guān)關(guān)系,當(dāng)P值小于0.05時,表示自變量分布與因變量分布有顯著差異,需保留該變量,否則刪除;

      3.利用變量IV值篩選變量,對變量進(jìn)行WOE轉(zhuǎn)換,計(jì)算變量IV值并設(shè)置閾值,保留變量IV值大于0.1的變量;

      4.對變量進(jìn)行多重共線性檢驗(yàn),計(jì)算變量的方差膨脹因子VIF值,保留VIF值小于10的變量;

      5.利用PCA進(jìn)行降維,經(jīng)過反復(fù)驗(yàn)證,在模型效果不下降的前提下,盡量減少變量個數(shù),最終保留30個變量作為入模變量。將經(jīng)過以上特征選擇方法進(jìn)行篩選后的自變量與因變量重新加工形成新的數(shù)據(jù)寬表進(jìn)行建模。

      三、構(gòu)建基于邏輯回歸算法的預(yù)測模型

      客戶是否購買理財(cái)產(chǎn)品的模型采用二元邏輯回歸模型。邏輯回歸(Logistic Regression)是用于處理因變量為分類變量的回歸問題,因變量用P表示概率,P的取值范圍是:0≤P≤1。需要對P進(jìn)行邏輯變換:logit(P)=ln(P/1-P),即可得到邏輯回歸的表達(dá)式為:

      P=1/1+e-(Θ0+Θ1X1+Θ2X2+…+ΘnXn)

      其中X1,X2,…,Xn分別代表上述特征篩選之后的自變量;Θ0,Θ1,…,Θn分別代表各自變量X的系數(shù),即模型參數(shù)。利用statsmodels中的函數(shù)結(jié)合數(shù)據(jù)得到邏輯回歸模型的參數(shù),最終得到的結(jié)果,如:AUM_M_AD_woe的P值為0.000、FIN_EXPIRE_NUM_M_woe的P值為0.000、SAVDEPT_AMT_M_woe的P值為0.743、TRANSFER_AMT_6_woe的P值為0.036、PRODUCT_NM_woe的P值為0.000等30個入模變量。其中有些變量的P值大于0.05,即表示變量不顯著,需進(jìn)行刪除處理。從原有的30個變量中刪除5個變量(如:SAVDEPT_AMT_M_woe的P值為0.743),還剩顯著變量25個。

      此時得到的模型參數(shù)并不是最優(yōu)的,需使用最小損失化函數(shù)對參數(shù)進(jìn)行最優(yōu)化調(diào)整。本文使用梯度下降法對模型損失函數(shù)進(jìn)行最優(yōu)化。梯度下降法的原理是通過迭代,找到目標(biāo)函數(shù)的最小值或收斂到最小值,基本公式為:

      Θi=Θi -η( ?J(Θ0,Θ1,…,Θn)/ ?Θi)

      其中,η為學(xué)習(xí)率,即每次迭代的步長;J(Θ0,Θ1,…,Θn)是損失函數(shù)。

      J(Θ0,Θ1,…,Θn)= ∑N i=1(hΘ(xi 0+xi 1+…+xi n)-yi)2/2N

      其中xi 0=1。

      Θi=Θi -η(∑N i=1(hΘ(xj 0+xj 1+…+xj n)-yj)xj i/N)

      在實(shí)際模型建設(shè)過程之中,步長η太大會導(dǎo)致迭代過快,甚至可能錯過最優(yōu)解;步長η太小,迭代速度太慢,導(dǎo)致很長時間算法都無法結(jié)束。

      經(jīng)過梯度下降的邏輯回歸模型的結(jié)果指標(biāo)為:KS=0.712,AUC=0.922。

      構(gòu)建基于隨機(jī)森林算法的預(yù)測模型

      隨機(jī)森林由Leo Breiman提出,通過bootstrap重采樣技術(shù)從原始訓(xùn)練樣本集M中有放回的重復(fù)隨機(jī)抽取n個樣本,生成新的訓(xùn)練樣本集合后,根據(jù)自助樣本集生成n個分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果根據(jù)分類樹投票多少形成的分?jǐn)?shù)來決定。具體的實(shí)現(xiàn)過程如下:

      1)原始訓(xùn)練集為M,應(yīng)用自助法有放回的隨機(jī)抽取n個新的自助樣本集,并由此構(gòu)建k棵分類樹,每次未被抽取到的樣本組成了n個袋外數(shù)據(jù);

      2)假設(shè)有a個變量,則在每棵樹的每個節(jié)點(diǎn)處隨機(jī)抽取b個變量,并在b中選擇一個最具分類能力的變量,變量分類的閾值通過檢查每個分類點(diǎn)來確定;

      3)每棵樹最大限度的生長,而不做任何的修剪;

      4)將生成的多棵分類樹組成隨機(jī)森林,并用隨機(jī)森林分類器對新數(shù)據(jù)進(jìn)行判別、分類,分類結(jié)果根據(jù)分類器的投票多少來決定。

      使用隨機(jī)森林模型對該數(shù)據(jù)進(jìn)行建模,模型結(jié)果的指標(biāo)為:KS=0.512,AUC=0.756。

      四、邏輯回歸模型與隨機(jī)森林模型結(jié)果對比分析

      通過對比兩種模型的結(jié)果可以發(fā)現(xiàn),隨機(jī)森林模型的KS和AUC值顯著低于經(jīng)過梯度下降的邏輯回歸模型的相應(yīng)指標(biāo),故從該商業(yè)銀行的數(shù)據(jù)情況來看,經(jīng)過梯度下降優(yōu)化后的邏輯回歸模型效果更好。

      基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營銷在商業(yè)銀行領(lǐng)域的挑戰(zhàn)。雖然隨著新技術(shù)的不斷興起,基于機(jī)器學(xué)習(xí)算法模型的精準(zhǔn)營銷在商業(yè)銀行領(lǐng)域受到青睞,但是在實(shí)際搭建及應(yīng)用過程中仍會遇到一些挑戰(zhàn)。

      從數(shù)據(jù)層面,商業(yè)銀行的數(shù)據(jù)基本上是結(jié)構(gòu)化數(shù)據(jù),相較互聯(lián)網(wǎng)金融公司而言,在非結(jié)構(gòu)化數(shù)據(jù)方面比較欠缺,搭建模型時可能會出現(xiàn)數(shù)據(jù)不夠豐富,模型結(jié)果片面等情況;

      從模型層面,篩選變量或者搭建模型的過程中,如果只單純以數(shù)據(jù)及算法產(chǎn)生的結(jié)果來評估變量、模型的好壞,而脫離了業(yè)務(wù)知識及業(yè)務(wù)發(fā)展的實(shí)際情況,即使模型效果指標(biāo)再漂亮對實(shí)際業(yè)務(wù)也是無意義的。因此建模人員對銀行業(yè)基礎(chǔ)業(yè)務(wù)的理解、對數(shù)據(jù)含義的解讀及應(yīng)用能力就顯得尤為重要;

      從應(yīng)用層面,精準(zhǔn)營銷模型的好壞除了數(shù)據(jù)、算法等模型本身涉及的方面外,一線業(yè)務(wù)人員是否相信、是否不折不扣的按模型結(jié)果進(jìn)行落地,以及營銷技巧的使用是否得當(dāng)?shù)榷紩δP偷耐茝V、迭代以及評價造成影響,因此業(yè)務(wù)人員的配合與反饋十分關(guān)鍵。

      參考文獻(xiàn):

      [1]賈俊平.統(tǒng)計(jì)學(xué)(第7版)[M].中國人民大學(xué)出版社,2018.

      [2]王芳.基于機(jī)器學(xué)習(xí)理論的電商用戶行為研究[D].北京:物資學(xué)院,2018.

      [3]張毅.數(shù)據(jù)為王顛覆營銷:移動時代的大數(shù)據(jù)精準(zhǔn)營銷.人民郵電出版社,2017.

      [4]林慶鵬.基于大數(shù)據(jù)挖掘的精準(zhǔn)營銷策略研究[D].蘭州:理工大學(xué),2016.

      [5]劉力銀.基于邏輯回歸的推薦技術(shù)研究及應(yīng)用[D].成都:電子科技大學(xué),2013.

      猜你喜歡
      隨機(jī)森林精準(zhǔn)營銷機(jī)器學(xué)習(xí)
      隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      淺談大數(shù)據(jù)時代的精準(zhǔn)營銷
      商情(2016年43期)2016-12-23 14:26:47
      淺談零售業(yè)客流統(tǒng)計(jì)系統(tǒng)應(yīng)用
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于隨機(jī)森林算法的飛機(jī)發(fā)動機(jī)故障診斷方法的研究
      電信行業(yè)不同目標(biāo)群成長期客戶忠誠度影響因素分析
      中國市場(2016年35期)2016-10-19 02:16:47
      普兰县| 绩溪县| 镇宁| 葫芦岛市| 从化市| 盖州市| 鹤峰县| 车险| 巍山| 邯郸县| 白朗县| 牙克石市| 元江| 阿尔山市| 房山区| 长乐市| 宝兴县| 观塘区| 龙山县| 南开区| 余姚市| 彝良县| 博罗县| 宁德市| 昆明市| 略阳县| 博白县| 沂水县| 伊春市| 会泽县| 轮台县| 汝州市| 九江市| 米易县| 轮台县| 林西县| 崇义县| 洛扎县| 麻江县| 云林县| 义乌市|