摘 ?要:疫情后,互聯(lián)網(wǎng)消費(fèi)金融在國(guó)民經(jīng)濟(jì)復(fù)蘇增長(zhǎng)中發(fā)揮積極作用,但因其產(chǎn)品本身特殊性及過快的發(fā)展性,也伴隨大量的風(fēng)險(xiǎn)。文中在算法可解析性、模型應(yīng)用性(識(shí)別性、準(zhǔn)確性、低成本、穩(wěn)定性)基礎(chǔ)上構(gòu)建了混合特征選擇模型CatBoost-LightGBM,并將此模型應(yīng)用于某知名信貸平臺(tái)。結(jié)果表明,混合特征選擇模型CatBoost-LightGBM在綜合評(píng)價(jià)上顯著優(yōu)于單一模型,對(duì)基礎(chǔ)模型LR有0.19的提升,對(duì)基礎(chǔ)特征的LightGBM、XGboost等模型有0.03的提升。
關(guān)鍵詞:違約風(fēng)險(xiǎn)預(yù)測(cè);消費(fèi)金融;大數(shù)據(jù)風(fēng)控;特征選擇;梯度提升算法
中圖分類號(hào):TP183 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)14-0116-05
Abstract: After the epidemic, internet consumer finance plays a positive role in the recovery and growth of the national economy, but due to the particularity and rapid development of its products, it is also accompanied by a large number of risks. In this paper, a hybrid feature selection model catboost-LightgBM is constructed on the basis of the analytical ability of the algorithm and the application of the model. Finally, the model is applied to a well-known credit platform. The results show that the hybrid feature selection model catboost-LightgBM is significantly better than the single model in the comprehensive evaluation. It improves the basic model LR by 0.19 and the lightgbm, xgboost and other models with basic features by 0.03.
Keywords: default risk prediction; consumer finance; big data risk control; feature selection; gradient lifting algorithm
0 ?引 ?言
我國(guó)消費(fèi)金融在經(jīng)歷起步、探索、發(fā)展等階段后,與互聯(lián)網(wǎng)和信息技術(shù)融合,呈現(xiàn)出新特點(diǎn)。但由于過快增長(zhǎng),也積聚了一定風(fēng)險(xiǎn)。2021年是“十四五”規(guī)劃開局之年,如何更好地利用新契機(jī)、新需求,直面存在的不足和問題,提升內(nèi)生的風(fēng)控能力和水平,是消費(fèi)金融能否實(shí)現(xiàn)可持續(xù)健康發(fā)展的關(guān)鍵。
消費(fèi)金融產(chǎn)品的特性是放款金額小,審批速度快,規(guī)模數(shù)量大,風(fēng)險(xiǎn)細(xì)節(jié)多[1]。因此構(gòu)建一個(gè)高效、精準(zhǔn)、客觀、低成本 但同時(shí)普適的風(fēng)控模型非常重要,一方面不僅僅給企業(yè)自己帶來利潤(rùn)的提升(減少壞賬率),還能通過賦能影響給整個(gè)系統(tǒng)帶來穩(wěn)健性,防止大規(guī)模金融風(fēng)險(xiǎn)。
隨著大數(shù)據(jù)、人工智能的發(fā)展,機(jī)器學(xué)習(xí)逐漸應(yīng)用于金融貸款風(fēng)險(xiǎn)預(yù)測(cè)中,國(guó)內(nèi)外學(xué)者主要分三個(gè)研究方向:一是利用單一的機(jī)器學(xué)習(xí)模型或其改進(jìn)模型,比如Lobna等人采用Logistic回歸來區(qū)分“壞”的貸款人[2],王曉燕等人通過構(gòu)建logit-linear 兩部模型對(duì)銀行貸款違約預(yù)測(cè)研究[3];二是集成學(xué)習(xí)算法,集成學(xué)習(xí)方法因?yàn)榫哂芯雀撸山忉屝詮?qiáng)等特點(diǎn),近年來在風(fēng)控評(píng)估模型中的應(yīng)用也越來越廣泛。例如卞凌志(2021)在周志華深度森林模型的基礎(chǔ)上借鑒殘差學(xué)習(xí)的思想,建立了級(jí)聯(lián)殘差森林(grcForest)的模型進(jìn)一步提高特征提取的多樣性[4]。李澤遠(yuǎn)使用LightGBM對(duì)比卷積神經(jīng)網(wǎng)絡(luò),LightGBM模型性能和穩(wěn)定性結(jié)果顯著[5]。三是深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,Stevenson利用Deep Learning和NLP技術(shù)建立基于文本的貸款違約預(yù)測(cè)模型并用實(shí)驗(yàn)證明其有效性[6]。
在風(fēng)險(xiǎn)評(píng)估模型研究上,近三年的機(jī)器學(xué)習(xí)應(yīng)用模型給本課題的研究開拓了思路。聚焦在金融風(fēng)控領(lǐng)域,算法的“黑箱”與“歧視”[7]可能會(huì)導(dǎo)致監(jiān)管和法律風(fēng)險(xiǎn),因此神經(jīng)網(wǎng)絡(luò)等復(fù)雜的模型或者深度學(xué)習(xí)模型很難在企業(yè)中實(shí)際落地。集成決策樹算法是個(gè)很好的建模方向,它可以有深度學(xué)習(xí)的準(zhǔn)確度,也有統(tǒng)計(jì)學(xué)泛線性模型(例如邏輯回歸)的解釋性。目前的集成決策樹算法在信貸風(fēng)險(xiǎn)評(píng)估模型應(yīng)用中可能會(huì)出現(xiàn)過擬合和穩(wěn)定性差等問題,需要進(jìn)一步深化研究,為此本課題試圖在平衡業(yè)務(wù)可解釋性、模型預(yù)測(cè)精度、穩(wěn)定性及可維護(hù)性之間構(gòu)建一個(gè)不降低精確度但業(yè)務(wù)成本最低的風(fēng)控模型,以期更好的適配消費(fèi)金融的小額信貸場(chǎng)景。
1 ?數(shù)據(jù)分析與數(shù)據(jù)處理
1.1 ?數(shù)據(jù)獲取與變量分析
本次實(shí)驗(yàn)數(shù)據(jù)來源于國(guó)內(nèi)某頭部互聯(lián)網(wǎng)信貸平臺(tái)的貸款記錄,總數(shù)據(jù)量超過120萬條,包含47列變量信息,其中15列為匿名變量,為用戶隱私安全考慮,特將employmentTitle、purpose、postCode和title等信息進(jìn)行脫敏,部分?jǐn)?shù)據(jù)變量信息如表1所示。
1.2 ?數(shù)據(jù)業(yè)務(wù)分析
基于業(yè)務(wù)邏輯理解和業(yè)務(wù)分析方法,預(yù)測(cè)用戶未來一期的還款情況,主要從以下兩個(gè)方面進(jìn)行評(píng)估。一是用戶的還款意愿,二是用戶的還款能力。本文還款意愿的刻畫可以從貸款人的基本信息和信用狀況變量入手,還款能力需要綜合貸款信息、貸款人信息及貸款人的財(cái)務(wù)情況進(jìn)行分析刻畫。
本實(shí)驗(yàn)信貸平臺(tái)平均逾期率在20%左右。從時(shí)間維度來看2009—2017年逐年升高,2018年開始公司不斷優(yōu)化自身的風(fēng)險(xiǎn)控制系統(tǒng),不斷增強(qiáng)違約預(yù)測(cè)模型的效率來提升平臺(tái)的良性發(fā)展。具體如圖1所示。
1.2.1 ?違約用戶影響因素
1.2.1.1 ?貸款利率和貸款期限
該貸款產(chǎn)品業(yè)務(wù)周期持續(xù)139天,貸款期限有3年期和5年期,違約用戶更傾向于選擇5年期,5年期的逾期率32%,是3年期的2倍,表2所示。
綜合分析貸款利率和貸款期限對(duì)逾期率的影響,兩種產(chǎn)品違約用戶的貸款利率平均比正常用戶高2~3個(gè)點(diǎn)。因?yàn)榍捌谫J款時(shí),風(fēng)險(xiǎn)較低的借款人獲得的貸款利率較低,而風(fēng)險(xiǎn)相對(duì)較高的人拿到的貸款利率就越高,如圖2所示。其中isDefault=1代表違約。
1.2.1.2 ?貸款金額
貸款金額的分布來看,貸款金額與違約情況有比較強(qiáng)的相關(guān)性,違約的貸款金額均值高于正常用戶的貸款金額,也就是說單指標(biāo)來看,貸款金額越高違約的風(fēng)險(xiǎn)也就越,如圖3所示。
1.2.1.3 ?工作年限
工作年限是用戶自己填寫,有部分失真,目前看和違約率關(guān)系不大,工作年限違約用戶分析圖如圖4所示。
1.3 ?數(shù)據(jù)異常分析與處理
本文用到的數(shù)據(jù)是業(yè)務(wù)給到的原始數(shù)據(jù),存在缺失、異常等問題,并不能直接建模,需要進(jìn)行一系列的數(shù)據(jù)清洗處理才可使用。
1.3.1 ?缺失值處理
首先刪除無意義的變量,比如PolicyCode只有一個(gè)值,無業(yè)務(wù)分類意義。然后對(duì)留下來的數(shù)據(jù)進(jìn)行缺失值處理。其中工作年限EmploymentLength缺失率高達(dá)5.85%,部分信用指標(biāo)如RevolUtil缺失率在0.07%,財(cái)務(wù)狀況指標(biāo)Dti缺失率在0.03%。為保持?jǐn)?shù)據(jù)集的完整性,利用均值插補(bǔ)法對(duì)缺失值進(jìn)行填充。
1.3.2 ?類別變量處理
類別變量主要分為有序類別變量和無序類別變量,對(duì)于有序類別變量如Grade、subgrade、EmploymentLength進(jìn)行1到n的序數(shù)編碼。
對(duì)日期類型變量IssueDate按照產(chǎn)品上市日期進(jìn)行數(shù)值變化為天數(shù)。對(duì)信用類變量EarliesCreditLine字符串進(jìn)行數(shù)值提取轉(zhuǎn)換。
2 ?算法模型介紹
2.1 ?混合特征選擇模型CatBoost-LightGBM
整個(gè)算法模型架構(gòu)如圖5所示,將數(shù)據(jù)分成兩組,一組進(jìn)行傳統(tǒng)的清洗、補(bǔ)空、數(shù)值歸一化等處理然后入模;另外一組先入模集成樹CatBoost-LightGBM模型,篩選重要特征進(jìn)行構(gòu)造衍生,并將其和基本特征進(jìn)行混合再次入模對(duì)比試驗(yàn)。
數(shù)據(jù)入模CatBoost和LightGBM算法,并給出特征重要性排序。兩種算法模型的TOP20特征如圖6所示。其中CatBoost的特征重要性原理是計(jì)算包含與不包含該特征下模型的損失函數(shù),差別越大表明該個(gè)越重要。LightGBM的特征重要性是基于使用該特征作為分割帶來的總增益來計(jì)算。
對(duì)兩個(gè)模型TOP20重要性的特征進(jìn)行重合度分析,共有12個(gè)重合特征,然后對(duì)這12個(gè)特征按照業(yè)務(wù)規(guī)則再進(jìn)行特征構(gòu)造。比如IssueDate進(jìn)行周、月維度的構(gòu)造;對(duì)貸款金額進(jìn)行WOE分箱離散化;將貸款金額和工作年限做比例;對(duì)貸款金額和年收入做比例等。這樣將新特征共計(jì)87個(gè)入模LightGBM進(jìn)行遞歸后向消除特征法RFE篩選,最終得到74個(gè)混合特征兩種算法模型的TOP20特征圖如圖6所示。
2.2 ?梯度提升算法Boosting
梯隊(duì)提升Boosting算法是一種集成學(xué)習(xí)思想,它是把K個(gè)專家(K個(gè)分類器)進(jìn)行加權(quán)融合,形成一個(gè)新的超級(jí)專家(強(qiáng)分類器),讓這個(gè)超級(jí)專家做判斷。梯隊(duì)提升算法按已經(jīng)被證明是一個(gè)非常重要的算法策略,許多成功的機(jī)器學(xué)習(xí)算法因Boosting而起。
2.2.1 ?XGBoost
XGBoost[8]的全稱是Extreme Gradient Boosting,由華盛頓大學(xué)的陳天奇博士提出。它是由k個(gè)基模型組成的一個(gè)加法運(yùn)算式:
其中yi是第i個(gè)樣本的預(yù)測(cè)值,fk為第k個(gè)樣本的基模型。
XGBoost訓(xùn)練的時(shí)候,是通過加法進(jìn)行訓(xùn)練,也就是每一次只訓(xùn)練一棵樹出來,最后的預(yù)測(cè)結(jié)果是所有樹的加和表示。實(shí)現(xiàn)過程利用了預(yù)排序和近似算法可以降低尋找最優(yōu)分裂點(diǎn)的計(jì)算量,但在節(jié)點(diǎn)分裂過程中仍需要遍歷整個(gè)數(shù)據(jù)集。
2.2.2 ?LightGBM
LightGBM[9]是2017年由微軟推出的可擴(kuò)展機(jī)器學(xué)習(xí)系統(tǒng),可以看作是XGBoost的升級(jí)豪華版,在獲得與XGBoost近似精度的同時(shí),又提供了更快的訓(xùn)練速度與更少的內(nèi)存消耗。首先它基于直方圖算法進(jìn)行優(yōu)化,使數(shù)據(jù)存儲(chǔ)更加方便、運(yùn)算更快、魯棒性強(qiáng)、模型更加穩(wěn)定等。其次該算法使用了帶有深度限制的按葉子生長(zhǎng)策略,可以降低誤差,得到更好的精度。再其次通過單邊梯度采樣來平衡數(shù)據(jù)量和算法精度。
2.2.3 ?CatBoost
CatBoost[10]是俄羅斯的搜索巨頭Yandex在2017年開源的機(jī)器學(xué)習(xí)庫,是Boosting族算法的一種。CatBoost是一種基于對(duì)稱決策樹(oblivious trees)為基學(xué)習(xí)器實(shí)現(xiàn)的參數(shù)較少、支持類別型變量和高準(zhǔn)確性的GBDT框架,主要解決的痛點(diǎn)是高效合理地處理類別型特征,此外,CatBoost還解決了梯度偏差(Gradient Bias)以及預(yù)測(cè)偏移(Prediction shift)的問題,從而減少過擬合的發(fā)生,進(jìn)而提高算法的準(zhǔn)確性和泛化能力。
3 ?模型實(shí)驗(yàn)
3.1 ?評(píng)價(jià)指標(biāo)
對(duì)于二分類模型來說,經(jīng)常會(huì)用AUC來度量。ROC(Receiver Operator Characteristic)即一個(gè)二維坐標(biāo)軸中的曲線,AUC(Area under ROC Curve)即ROC曲線下的面積。AUC越接近1.0,檢測(cè)方法真實(shí)性越高,代表分類效果越好。但是對(duì)于不平衡數(shù)據(jù)且bad rate會(huì)有變化的數(shù)據(jù),AUC的效果容易失真,需額外使用KS(Kolmogorov-Smirnov)值,KS值評(píng)估模型的區(qū)分度(discrimination)是在模型中用于區(qū)分預(yù)測(cè)正負(fù)樣本分隔程度的評(píng)價(jià)指標(biāo)。KS的計(jì)算方法直觀就是:
KS=max(abs(TPR-FPR))
其中TPR:TP/(TP+FN)真陽率或者召回率;FPR:FP/(FP+TN)假陽率或者誤診率。
考慮到模型最終應(yīng)用企業(yè)的通暢性,本實(shí)驗(yàn)額外增加兩個(gè)刻畫模型成本的指標(biāo),一是模型運(yùn)行耗時(shí),二是模型穩(wěn)定性(Stability)。運(yùn)行耗時(shí)可通過Python內(nèi)置的time庫得到。穩(wěn)定性的計(jì)算公式為:
Stablity=-log(abs(AUC|test-AUC)train)
如圖7所示,該模型穩(wěn)定性為:-log(abs(0.735 1-0.773 6))=1.41。圖8中的穩(wěn)定性為:1-abs(0.731 5-0.740 4)×10=2.05??梢钥闯?,圖8的穩(wěn)定性明顯好于圖7。
3.2 ?不平衡處理
為了增強(qiáng)模型的穩(wěn)健性,對(duì)于風(fēng)控的不平衡樣本現(xiàn)狀(違約用戶在總用戶中占比小,會(huì)導(dǎo)致模型偏向多數(shù)類,從而降低少數(shù)類的分類精度),使用SMOTE方法來對(duì)bad的部分加擾動(dòng),這樣就能平衡訓(xùn)練集中的各標(biāo)簽比例。
3.3 ?工具選擇
本實(shí)驗(yàn)的操作系統(tǒng)為Windows10系統(tǒng),16 GB內(nèi)存,i7-8700CPU,Python版本為3.8。編程工具為Pycharm+ Anaconda3。
4 ?實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證混合特征選擇模型的有效性,本文選用阿里云天池公開的某信貸平臺(tái)120萬條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),并對(duì)其分別使用單分類器(邏輯回歸、決策樹、樸素貝葉斯)、集成學(xué)習(xí)算法(隨機(jī)森林、LightGBM、Catboost、XGboost)、神經(jīng)網(wǎng)絡(luò)MLP算法對(duì)比試驗(yàn)。模型參數(shù)均使用默認(rèn)參數(shù)。從表3來看,混合特征入模后對(duì)比之前基礎(chǔ)特征八大算法效果均有提升,其中因?yàn)闃?biāo)準(zhǔn)化和分箱處理的原因,邏輯回歸LR的結(jié)果提升明顯,有0.19個(gè)提升點(diǎn)。但是三大梯度提升樹Boosting模型因?yàn)閷?duì)數(shù)值極值不敏感,且可實(shí)現(xiàn)自動(dòng)編碼,初始入模效果也較好。
在均使用混合特征的試驗(yàn)下,本實(shí)驗(yàn)從模型性能、穩(wěn)定性和成本等綜合維度評(píng)價(jià)分析,邏輯回歸LR耗時(shí)和穩(wěn)定性是最好的,但是分類效果相較三大梯度提升算法仍有差距。MLP神經(jīng)網(wǎng)絡(luò)也可達(dá)到很好的AUC結(jié)果但是耗時(shí)和穩(wěn)定性相對(duì)較差。綜合耗時(shí)、穩(wěn)定性和算法性能指標(biāo)AUC、KS不難發(fā)現(xiàn),LightGBM在本實(shí)驗(yàn)場(chǎng)景下是相對(duì)較優(yōu)的算法分類器,如表4所示。
5 ?結(jié) ?論
在金融風(fēng)控領(lǐng)域,由于銀行監(jiān)管要求,風(fēng)控模型需要滿足解釋型要求才能批準(zhǔn)上線。加上消費(fèi)金融產(chǎn)品用戶多、貸款金額小等特別,風(fēng)險(xiǎn)管控的成本和難度更大。本文通過Boosting集成思想提出了一種基于混合特征選擇的CatBoost-LightGBM集成樹模型,在描述風(fēng)險(xiǎn)影響因素、預(yù)測(cè)違約風(fēng)險(xiǎn)上是顯著有效的,且對(duì)基礎(chǔ)模型LR有0.19的提升,對(duì)基礎(chǔ)特征的LightGBM、XGboost等模型有0.03的提升。
本文僅在公開的數(shù)據(jù)表含有的特征中進(jìn)行挖掘建模,未來還會(huì)綜合用戶的社交屬性、疫情災(zāi)害等外部條件的約束對(duì)用戶無法按時(shí)還款造成的影響,來進(jìn)一步提高模型的準(zhǔn)確性和普適性。
參考文獻(xiàn):
[1] 單良,喬楊.數(shù)據(jù)化風(fēng)控 [M].北京:電子工業(yè)出版社,2018.
[2] ABID L,MASMOUDI A,ZOUARI-GHORBEL S. The Consumer Loan’s Payment Default Predictive Model:an Application of the Logistic Regression and the Discriminant Analysis in a Tunisian Commercial Bank [J].Journal of the Knowledge Economy,2018,9:948-962.
[3] 王小燕,袁騰,段湘斌.基于零膨脹分位數(shù)兩部模型的銀行貸款違約預(yù)測(cè)研究 [J/OL].中國(guó)管理科學(xué):1-15[2021-04-25].https://doi.org/10.16381/j.cnki.issn1003-207x.2020.0441.
[4] 周波,李俊峰. 結(jié)合目標(biāo)檢測(cè)的人體行為識(shí)別 [J]. 自動(dòng)化學(xué)報(bào),2020(9):1961-1970.
[5] 李澤遠(yuǎn).可超越評(píng)分卡模型么?基于LightGBM與卷積神經(jīng)網(wǎng)絡(luò)在貸款違約風(fēng)險(xiǎn)預(yù)測(cè)的研究 [J].特區(qū)經(jīng)濟(jì),2021(5):67-69.
[6] STEVENSON M,MUES C,BRAVO C. The value of text for small business default prediction:A Deep Learning approach [J].European Journal of Operational Research,2021,295(2):758-771.
[7] 黃益平,邱晗.大科技信貸:一個(gè)新的信用風(fēng)險(xiǎn)管理框架 [J].管理世界,2021,37(2):12-21+50+2+16.
[8] CHEN T Q,GUESTRIN C. XGBoost:A Scalable Tree Boosting System [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledeg Discovery and Data Mining.New York:ACM,2016:1-10.
[9] KE G L,MENG Q,F(xiàn)INLEY T,et al. LightGBM:a highly efficientgradient boosting decision tree [C]//Proceedings of the 30thInternational Conference on Neural Information ProcessingSystems. Red Hook:Curran Associates Inc. ,2017:3146-3154.
[10] PROKHORENKOVA L,GUSEV G,VOROBEV A,et al. CatBoost:unbiased boosting with categorical features [C]//Advances in Neural Information Processing Systems.Montreal,2018:6638-6648.
作者簡(jiǎn)介:程楠楠(1987.12—),女,漢族,江蘇南通人,其他高級(jí),碩士,研究方向:商業(yè)分析、機(jī)器學(xué)習(xí)、大數(shù)據(jù)風(fēng)控。