任師攀,彭一寧
(1.國(guó)務(wù)院發(fā)展研究中心辦公廳,北京100010;2.申萬宏源證券有限公司,北京100033)
消費(fèi)金融是指金融機(jī)構(gòu)向消費(fèi)者提供消費(fèi)貸款的一種服務(wù)方式,是關(guān)系到國(guó)計(jì)民生的核心金融業(yè)務(wù)[1]。據(jù)國(guó)家統(tǒng)計(jì)局公開數(shù)據(jù),2018 年我國(guó)全部金融機(jī)構(gòu)人民幣消費(fèi)貸款余額377903 億元,占全部金融機(jī)構(gòu)本外幣各項(xiàng)貸款余額的26.65%,這一比例比2014 年提高約8.95 個(gè)百分點(diǎn),較2010 年提高約11.9個(gè)百分點(diǎn)。居民消費(fèi)貸款需求不斷提高,消費(fèi)金融的重要性逐步凸顯。
邢天才和張夕(2019)[2]通過實(shí)證研究驗(yàn)證了互聯(lián)網(wǎng)消費(fèi)金融的產(chǎn)生和快速發(fā)展對(duì)我國(guó)城鎮(zhèn)居民的消費(fèi)水平和消費(fèi)行為有極強(qiáng)的帶動(dòng)作用。許文彬和王希平(2010)[3]對(duì)比分析了英美兩國(guó)消費(fèi)金融公司的模式,指出消費(fèi)信貸拉動(dòng)經(jīng)濟(jì)增長(zhǎng),我國(guó)消費(fèi)金融公司在業(yè)務(wù)上應(yīng)側(cè)重發(fā)掘銀行信貸難以覆蓋的客戶群體,同時(shí)由于平臺(tái)承擔(dān)的違約風(fēng)險(xiǎn)更高,所以需要更嚴(yán)格的風(fēng)險(xiǎn)控制。鐘鼎禮(2018)[4]指出消費(fèi)金融面臨的風(fēng)險(xiǎn)具有復(fù)雜性、隱蔽性和滯后性等特點(diǎn)。2018 年,上海交通大學(xué)凱原法學(xué)院進(jìn)行的中國(guó)消費(fèi)金融行業(yè)問卷調(diào)查結(jié)果顯示,我國(guó)消費(fèi)金融市場(chǎng)的主要風(fēng)險(xiǎn)是用戶信用風(fēng)險(xiǎn)、欺詐與套現(xiàn)風(fēng)險(xiǎn)、法律滯后糾紛頻發(fā)風(fēng)險(xiǎn)等。尹振濤和程雪軍(2019)[5]分析這是由于忽視行業(yè)風(fēng)控、監(jiān)管體系不健全、征信體系不完善等導(dǎo)致的,我國(guó)消費(fèi)金融公司必須加強(qiáng)與人工智能的結(jié)合,提高風(fēng)險(xiǎn)識(shí)別和防范能力,更好完善風(fēng)控體系。
隨著互聯(lián)網(wǎng)金融和人工智能的蓬勃發(fā)展,機(jī)器學(xué)習(xí)算法在違約風(fēng)險(xiǎn)評(píng)估領(lǐng)域的應(yīng)用越來越多。Khandani 等(2010)[6]基于2005 年1 月至2009 年4 月某大型商業(yè)銀行的用戶交易數(shù)據(jù)和征信數(shù)據(jù),采用決策樹算法構(gòu)建消費(fèi)信貸風(fēng)險(xiǎn)評(píng)估模型。陸愛國(guó)等(2012)[7]將改進(jìn)的支持向量機(jī)算法應(yīng)用于信用評(píng)分中,在公開數(shù)據(jù)集上驗(yàn)證了該方法的有效性。張國(guó)政等(2015)[8]基于商業(yè)銀行個(gè)人消費(fèi)信貸的實(shí)際操作數(shù)據(jù)和Logistic 回歸模型構(gòu)建個(gè)人信用評(píng)分系統(tǒng)。Guégan和Hassani(2018)[9]分別采用支持向量機(jī)、Logistic 回歸、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等模型進(jìn)行信用評(píng)估研究,實(shí)驗(yàn)結(jié)果表明隨機(jī)森林AUC 指標(biāo)最大,預(yù)測(cè)效果最優(yōu)。He 等(2018)[10]采用隨機(jī)森林和XGBoost作為基學(xué)習(xí)器設(shè)計(jì)融合模型用于信用評(píng)估,實(shí)現(xiàn)了更優(yōu)的預(yù)測(cè)性能。馬曉君等(2018)[11]采用P2P平臺(tái)Lending Club 的借貸數(shù)據(jù),構(gòu)建基于LightGBM算法的個(gè)人信用評(píng)級(jí)模型,并指出在選取指標(biāo)時(shí)需要重點(diǎn)關(guān)注貸款金額、利率、年收入、月還款金額、居住地、貸款年份等因素。
現(xiàn)有文獻(xiàn)在實(shí)證分析中普遍只基于平臺(tái)自身數(shù)據(jù)構(gòu)建模型,對(duì)第三方征信數(shù)據(jù)關(guān)注較少,數(shù)據(jù)存在體量小、維度低的問題;在評(píng)價(jià)模型時(shí)僅采用AUC、準(zhǔn)確率等數(shù)學(xué)指標(biāo),沒有從實(shí)際應(yīng)用場(chǎng)景出發(fā)進(jìn)一步分析;而且現(xiàn)有文獻(xiàn)多關(guān)注P2P 信貸違約風(fēng)險(xiǎn)評(píng)估,對(duì)消費(fèi)金融的相關(guān)研究有較大空白。本文基于大規(guī)模消費(fèi)信貸數(shù)據(jù)和征信數(shù)據(jù),將軟投票融合模型應(yīng)用于消費(fèi)信貸違約風(fēng)險(xiǎn)評(píng)估,在有效降低違約率、減少損失的同時(shí),合理控制誤拒率,更好發(fā)揮平臺(tái)的普惠金融作用,為消費(fèi)金融健康發(fā)展提供保障。
捷信集團(tuán)(Home Credit Group)1997 年成立,致力于為缺乏信用記錄的用戶提供貸款,是國(guó)際領(lǐng)先的消費(fèi)金融服務(wù)提供商。2010 年,捷信集團(tuán)在中國(guó)成立全資子公司——捷信消費(fèi)金融有限公司。截至2019 年7 月,捷信在中國(guó)的業(yè)務(wù)覆蓋了29 個(gè)省(自治區(qū))和直轄市,是國(guó)內(nèi)凈利潤(rùn)最高的消費(fèi)金融平臺(tái)(根據(jù)國(guó)內(nèi)各消費(fèi)金融公司2018 年的財(cái)報(bào)分析,捷信消費(fèi)金融公司凈利潤(rùn)為13.96 億元,排名第一)。由于捷信平臺(tái)業(yè)務(wù)覆蓋范圍廣、盈利能力強(qiáng)且數(shù)據(jù)公開,選擇其貸款數(shù)據(jù)進(jìn)行研究具有較強(qiáng)的代表性和現(xiàn)實(shí)意義。
本文采用的數(shù)據(jù)是捷信集團(tuán)2018年8月公開的貸款數(shù)據(jù)集(https://www.kaggle.com/c/home-creditdefault-risk/data)。如圖1 所示,數(shù)據(jù)集共包含7 個(gè)數(shù)據(jù)表,記錄了用戶貸款申請(qǐng)信息、第三方機(jī)構(gòu)征信數(shù)據(jù)和平臺(tái)歷史貸款數(shù)據(jù)。
圖1 數(shù)據(jù)集結(jié)構(gòu)
Application_train 是整個(gè)數(shù)據(jù)集的主表(下文簡(jiǎn)稱“主表”),記錄用戶貸款申請(qǐng)數(shù)據(jù),主鍵是“SK_ID_CURR”(每筆貸款的唯一標(biāo)識(shí)號(hào))。目標(biāo)變量是“TARGET”,取值為0 代表正常還款,取值為1代表違約。主表共307511行、122列,每行記錄一筆貸款。主要列屬性有貸款類型、金額、分期付款額、申請(qǐng)人性別、年齡、受教育程度、當(dāng)前工作從事時(shí)間、收入、車產(chǎn)、房產(chǎn)、居住環(huán)境、最近一次更改身份證明文件的時(shí)間、外部數(shù)據(jù)源的標(biāo)準(zhǔn)化評(píng)分、申請(qǐng)人社交環(huán)境中違約的觀測(cè)數(shù)等。
Bureau 記錄了用戶征信記錄中的貸款信息,主鍵是“SK_BUREAU_ID”(征信記錄中每筆貸款的唯一標(biāo)識(shí)號(hào)),外鍵是“SK_ID_CURR”,共1716428 行、17 列,主要列屬性包括貸款金額、類型、申請(qǐng)時(shí)間、貸款狀況、逾期天數(shù)、剩余期限、逾期最大金額等。
Bureau_balance 記錄了用戶征信記錄中貸款的每月結(jié)算狀態(tài),外鍵是“SK_BUREAU_ID”,共27299925 行、3 列,列屬性分別是外鍵、結(jié)算月份和貸款結(jié)算狀態(tài)。
Previous_application 記錄了用戶在捷信平臺(tái)上的歷史貸款信息,主鍵是“SK_ID_PREV”(捷信平臺(tái)歷史貸款的唯一標(biāo)識(shí)號(hào)),外鍵是“SK_ID_CURR”,共1670214 行、37 列,主要列屬性包括申請(qǐng)貸款金額、最終貸款金額、貸款類型、利率、分期付款額、貸款期限、貸款目的、合同狀態(tài)等。
POS_CASH_balance 記錄了用戶在捷信平臺(tái)上的歷史POS 貸款和現(xiàn)金貸款的每月結(jié)算簡(jiǎn)況,外鍵是“SK_ID_CURR”和“SK_ID_PREV”,共10001358行、8 列,主要列屬性包括結(jié)算月份、貸款期限、剩余還款周期、還款狀態(tài)、貸款逾期天數(shù)等。
Credit_card_balance 記錄了用戶在平臺(tái)上歷史信用卡貸款的每月結(jié)算簡(jiǎn)況,外鍵是“SK_ID_CURR”和“SK_ID_PREV”,共3840312 行、23列,主要列屬性包括結(jié)算月份、當(dāng)月最低還款金額、當(dāng)月還款金額、已還款總額、已還款分期數(shù)、貸款逾期天數(shù)、信用卡額度、當(dāng)月提取金額、當(dāng)月購(gòu)物次數(shù)等。
Installments_payments 記錄了用戶在捷信平臺(tái)上的歷史還款行為,外鍵是“SK_ID_CURR”和“SK_ID_PREV”,共13605401行,8個(gè)屬性,主要列屬性包括還款分期數(shù)、還款方式、應(yīng)還款時(shí)間、實(shí)際還款時(shí)間、本期應(yīng)還金額、本期實(shí)際還款金額等。
主表中共包含307511 筆貸款信息,其中正常還款標(biāo)的282686 筆,違約標(biāo)的24825 筆,違約率為8.07%。
圖2 各年齡貸款標(biāo)的數(shù)占比及違約率
貸款類型方面,現(xiàn)金貸款、循環(huán)貸款標(biāo)的數(shù)分別占比90.48%、9.52%,分別對(duì)應(yīng)8.35%、5.48%的違約率。性別方面,女性貸款標(biāo)的數(shù)接近男性的二倍,違約率為7%,比男性低3.14 個(gè)百分點(diǎn)。由此可見,女性對(duì)消費(fèi)信貸的需求更多,整體上比男性更重視信用,履約能力更強(qiáng)。
如圖2 所示,平臺(tái)用戶的年齡在20 歲至70 歲之間;27 歲至64 歲,各個(gè)年齡對(duì)應(yīng)的貸款次數(shù)分布比較均勻,其他年齡的用戶貸款次數(shù)較少;整體來看,違約率隨年齡的增長(zhǎng)逐漸下降。
圖3 各從事年數(shù)的貸款標(biāo)的數(shù)占比及違約率
如圖3所示,貸款用戶大多從事當(dāng)前工作0年至15 年,貸款標(biāo)的數(shù)隨著當(dāng)前工作從事年數(shù)的增長(zhǎng)逐漸下降;違約率和當(dāng)前工作從事年數(shù)呈負(fù)相關(guān)趨勢(shì)。
借款人學(xué)歷方面,初中學(xué)歷僅占1.24%,高中學(xué)歷占71.02%,高等教育占27.74%,三種學(xué)歷分別對(duì)應(yīng)10.93%、8.94%、5.73%的違約率,表明平臺(tái)的主要服務(wù)對(duì)象是受過高等教育或高中教育的人群,而且學(xué)歷層次越高,貸款的違約率越低。
資產(chǎn)實(shí)力反映借款人的償債能力,與違約率呈負(fù)相關(guān)關(guān)系。擁有房產(chǎn)或公寓的借款人占總數(shù)的69.3%,違約率為7.96%;沒有房產(chǎn)或公寓的借款人群體違約率為8.32%。擁有汽車的借款人占總數(shù)的34%,違約率為7.24%;沒有汽車的借款人群體違約率為8.5%。居住條件方面,租住公寓、與父母同住的借款人群體違約率分別是12.31%、11.7%,遠(yuǎn)高于其他群體。居住環(huán)境方面,10.5%的借款人居住地被評(píng)定為一級(jí),73.8%為二級(jí),15.7%為三級(jí),三個(gè)等級(jí)分別對(duì)應(yīng)4.82%、7.89%、11.1%的違約率。
1.缺失值和異常值處理
由于XGBoost 和LightGBM 具備缺失值處理能力,所以數(shù)據(jù)預(yù)處理階段沒有對(duì)數(shù)值型變量進(jìn)行缺失值填充;對(duì)于類別型變量中的缺失值,將其作為“nan”類進(jìn)行獨(dú)熱編碼(One-Hot)處理。數(shù)據(jù)集中“DAYS_EMPLOYED”(當(dāng)前工作從事天數(shù))等涉及時(shí)間距離的字段存在異常值,用空值將其代替。
2.衍生變量
如表1 所示,為了更多角度地描述借款人信息,本文構(gòu)建了9個(gè)衍生變量。
表1 衍生變量
3.?dāng)?shù)據(jù)集構(gòu)建
為了更直觀地分析征信記錄和歷史貸款信息的重要性,本文在原始數(shù)據(jù)基礎(chǔ)上構(gòu)建了app、app_bureau、app_pre、app_bureau_pre 四個(gè)數(shù)據(jù)集(如表2 所示),分別訓(xùn)練軟投票融合模型,對(duì)比分析不同數(shù)據(jù)集下模型的預(yù)測(cè)能力。
將其他原始數(shù)據(jù)表的統(tǒng)計(jì)信息連接到主表中,并且劃分出訓(xùn)練集(用于訓(xùn)練模型、調(diào)優(yōu)超參數(shù))和測(cè)試集(用于評(píng)價(jià)模型的預(yù)測(cè)能力),主要有以下步驟。
處理Bureau_balance 表:對(duì)分類變量進(jìn)行獨(dú)熱編碼,按照“SK_ID_BUREAU”(信用記錄中貸款的唯一標(biāo)識(shí)號(hào))分組后統(tǒng)計(jì)“MONTHS_BALANCE”(結(jié)算月份)變量的最小值(首個(gè)還款月)、最大值(最近還款月)、元素個(gè)數(shù)(已還款周期數(shù)),以及“STATUS”(貸款狀態(tài))變量生成的各個(gè)啞變量字段的平均值(各個(gè)貸款狀態(tài)的出現(xiàn)次數(shù)占已還款周期數(shù)的比例),生成以“SK_ID_BUREAU”為主鍵的征信記錄結(jié)算信息統(tǒng)計(jì)表。通過“SK_ID_BUREAU”列將生成的信息統(tǒng)計(jì)表連接到Bureau表中。
表2 數(shù)據(jù)集描述
處理Bureau、Previous_applications、POS_CASH_balance、Credit_card_balance、Installments_payments表:首先對(duì)分類變量進(jìn)行獨(dú)熱編碼,然后按照“SK_ID_CURR”(主表中貸款申請(qǐng)的唯一標(biāo)識(shí)號(hào))分組后,統(tǒng)計(jì)數(shù)字型變量的最大值、最小值、平均值等,并且計(jì)算分類變量生成的各個(gè)啞變量字段的平均值,生成以“SK_ID_CURR”為主鍵的征信信息統(tǒng)計(jì)表、平臺(tái)歷史貸款信息統(tǒng)計(jì)表、POS貸款和現(xiàn)金貸款的每月結(jié)算信息統(tǒng)計(jì)表、信用卡貸款每月結(jié)算信息統(tǒng)計(jì)表、平臺(tái)歷史還款信息統(tǒng)計(jì)表。
處理主表:將分類變量進(jìn)行獨(dú)熱編碼后,通過“SK_ID_CURR”列連接其他原始數(shù)據(jù)表生成的信息統(tǒng)計(jì)表,然后以19:1的樣本比例劃分得出訓(xùn)練集(含292131個(gè)樣本)和測(cè)試集(含15376個(gè)樣本)。
1.梯度提升決策樹
梯度提升決策樹(gradient boosting decision tree,GBDT)以決策樹為基學(xué)習(xí)器,利用損失函數(shù)的負(fù)梯度值作為近似殘差擬合模型,是統(tǒng)計(jì)學(xué)習(xí)中性能最好的方法之一。
如式(1)所示,GBDT 可以表示為若干決策樹的加法模型:
其中,T(x;θn)表示決策樹,θn為決策樹的參數(shù),x表示特征變量,N表示決策樹的個(gè)數(shù)。
GBDT 的訓(xùn)練是一個(gè)多輪迭代的過程,初始決策樹f0(x)=0。第n次迭代中,模型如式(2)所示,其中fn-1(x)在第n-1輪已經(jīng)得出。
損失函數(shù)如式(3)所示,其中y是目標(biāo)變量值。
GBDT 利用損失函數(shù)loss 的負(fù)梯度值作為近似殘差擬合模型。當(dāng)N輪迭代后,得到最終模型fN(x)。
目前,GBDT 有許多不同的實(shí)現(xiàn),其中最具代表性的是XGBoost和LightGBM。
2.XGBoost
XGBoost(extreme gradient boosting)是一個(gè)開源的高度可擴(kuò)展的梯度提升樹系統(tǒng),已經(jīng)在許多機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘任務(wù)中得到廣泛應(yīng)用[12]。XGBoost受到廣泛歡迎的重要原因是它可以擴(kuò)展到風(fēng)險(xiǎn)預(yù)測(cè)、網(wǎng)絡(luò)文本分類、惡意軟件識(shí)別、顧客行為預(yù)測(cè)等眾多應(yīng)用場(chǎng)景中。
XGBoost 的主要特點(diǎn)有:采用稀疏感知算法處理稀疏數(shù)據(jù);采用加權(quán)分位數(shù)草圖近似實(shí)現(xiàn)樹模型的學(xué)習(xí);采用緩存感知塊結(jié)構(gòu),實(shí)現(xiàn)了樹模型的核外學(xué)習(xí);并行和分布式計(jì)算加速模型的訓(xùn)練。
3.LightGBM
當(dāng)數(shù)據(jù)維度高、數(shù)據(jù)量大時(shí),GBDT 對(duì)于每個(gè)特征都需要掃描所有數(shù)據(jù)點(diǎn),計(jì)算所有可能的分割節(jié)點(diǎn)的信息增益,導(dǎo)致效率較低。LightGBM(light gradient boosting machine)分別采用基于梯度的單側(cè)采樣(gradient-based one-side sampling,GOSS)和互斥特征捆綁(exclusive feature bundling,EFB)來解決數(shù)據(jù)量大和特征維度高的問題[13]。其中,GOSS方法減少了梯度較小的樣本的比例,僅僅采用具有較大梯度的樣本計(jì)算信息增益;EFB 方法通過捆綁互斥的特征減少了特征數(shù)量。多個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,LightGBM 可以使傳統(tǒng)GBDT 的訓(xùn)練過程加速20倍以上,同時(shí)實(shí)現(xiàn)了幾乎相同的精度[13]。
4.軟投票(soft voting)融合模型
本文設(shè)計(jì)的軟投票融合模型(下文簡(jiǎn)稱“融合模型”)如圖4所示。訓(xùn)練階段,采用貝葉斯優(yōu)化和5折交叉檢驗(yàn)方法對(duì)模型進(jìn)行參數(shù)調(diào)優(yōu),求解最優(yōu)參數(shù)組合;測(cè)試階段,以特征變量作為XGBoost 和Light-GBM 的輸入,并且對(duì)它們輸出的類別概率進(jìn)行軟投票得出預(yù)測(cè)結(jié)果。如式(4)和式(5)所示,軟投票是指對(duì)XGBoost 和LightGBM 輸出的類別概率取平均值后,根據(jù)閾值(默認(rèn)為0.5)確定最終結(jié)果。其中,Pm是指模型m 預(yù)測(cè)的當(dāng)前貸款申請(qǐng)違約的概率,“threshold”代表閾值,“Result”為融合模型的預(yù)測(cè)結(jié)果,1表示違約,0表示正常還款。
圖4 模型設(shè)計(jì)
二分類任務(wù)中常用的評(píng)價(jià)指標(biāo)有AUC(area under the curve)、KS(kolmogorov-smirnov)值、準(zhǔn)確率等,它們均可由混淆矩陣(如表3所示)計(jì)算得出。
準(zhǔn)確率(accuracy)是指分類正確的樣本數(shù)占總樣本的比例。
真正例率(True Positive Rate,TPR)是指1 類(違約)樣本被正確預(yù)測(cè)的比例。
假正例率(False Positive Rate,FPR)是指0類(正常還款)樣本被錯(cuò)誤預(yù)測(cè)的比例。
表3 混淆矩陣
分類模型在結(jié)果預(yù)測(cè)時(shí),首先得出各個(gè)類別的概率值,然后根據(jù)閾值做出分類判斷。由此可見,設(shè)定不同的閾值會(huì)得到不同的分類結(jié)果,模型的準(zhǔn)確率、真正例率等指標(biāo)都會(huì)隨之變化。
如圖5 所示,受試者工作特征曲線(receiver operating characteristic,ROC)呈現(xiàn)了不同閾值設(shè)定下真正例率和假正例率間的關(guān)系。真正例率越高,假正例率越低(ROC 曲線越向上彎曲),模型的預(yù)測(cè)能力越強(qiáng)。AUC,即ROC 曲線下區(qū)域的面積,一般在0.5和1之間,值越大表明模型預(yù)測(cè)越準(zhǔn)確。
KS值反映了模型區(qū)分正負(fù)樣本的能力。如圖6所示,以閾值為自變量,真正例率、假正例率為因變量得到的兩條曲線,即KS 曲線。KS 值是指兩條曲線之間的最大間隔距離,值越大表明模型區(qū)分正負(fù)樣本的能力越強(qiáng)。借助KS 曲線,可以選擇最優(yōu)閾值。例如,圖6中KS值為0.44,最優(yōu)閾值為0.39。
圖5 ROC曲線
圖6 KS曲線
在二分類模型評(píng)價(jià)中,AUC、KS 值通常比其他指標(biāo)更有效,主要原因有:一是相較于準(zhǔn)確率、真正例率等依賴閾值的指標(biāo),AUC、KS 值綜合評(píng)價(jià)了不同閾值設(shè)定下模型的預(yù)測(cè)能力;二是AUC、KS 值對(duì)正負(fù)樣本比例不敏感,適用于樣本不平衡問題。
實(shí)際應(yīng)用中,模型預(yù)測(cè)為0 類(正常還款)的貸款申請(qǐng)會(huì)被通過,預(yù)測(cè)為1 類(違約)的申請(qǐng)則會(huì)被拒絕。為了更全面地評(píng)價(jià)模型,除采用AUC、KS 值和準(zhǔn)確率指標(biāo)外,本文還結(jié)合實(shí)際場(chǎng)景,設(shè)置了違約率和誤拒率兩個(gè)指標(biāo)。如式(9)和式(10)所示,違約率是預(yù)測(cè)正常還款的貸款標(biāo)的中實(shí)際違約的樣本比例,誤拒率是預(yù)測(cè)違約但實(shí)際可以正常還款的貸款標(biāo)的數(shù)占樣本總數(shù)的比例。誤拒率越低,平臺(tái)因錯(cuò)誤拒絕具備償債能力的申請(qǐng)人而導(dǎo)致的用戶流失越少,盈利能力越強(qiáng),越有能力發(fā)揮普惠金融作用。
表4、表5 中,準(zhǔn)確率、違約率、誤拒率是在默認(rèn)閾值(0.5)下得出的。從app_bureau_pre 數(shù)據(jù)集上三個(gè)模型的實(shí)驗(yàn)結(jié)果來看,融合模型的AUC、KS 值和準(zhǔn)確率指標(biāo)最高,表明其預(yù)測(cè)最準(zhǔn)確,區(qū)分正負(fù)樣本的能力最強(qiáng);違約率和誤拒率最低,表明其不僅可以更好地降低壞賬損失,而且更少誤拒用戶的貸款申請(qǐng),保障平臺(tái)的用戶規(guī)模。
表4 app_bureau_pre 數(shù)據(jù)集上三個(gè)模型的各項(xiàng)指標(biāo)對(duì)比
從不同數(shù)據(jù)集上融合模型的各項(xiàng)指標(biāo)來看,征信記錄、歷史貸款記錄的引入均提高了模型的AUC、KS 值和準(zhǔn)確率,即提高了模型的預(yù)測(cè)準(zhǔn)確性和區(qū)分正負(fù)樣本的能力;誤拒率雖然略有增高,但是仍處于較低的水平。以app 數(shù)據(jù)集(僅含主表)為基礎(chǔ),引入征信記錄后,違約率降低0.08%;引入歷史貸款記錄后,違約率降低0.18%;引入征信記錄和歷史貸款記錄后,違約率降低0.28%,充分證明了征信記錄和歷史貸款記錄的重要性。
表5 不同數(shù)據(jù)集上融合模型的各項(xiàng)指標(biāo)對(duì)比
經(jīng)過上述分析,app_bureau_pre數(shù)據(jù)集上訓(xùn)練的融合模型表現(xiàn)最優(yōu)。由于模型違約率、誤拒率與閾值的設(shè)定相關(guān),本文對(duì)融合模型在不同閾值設(shè)定下違約率和誤拒率的變化情況進(jìn)行了探索。如圖7 所示,隨著閾值的增加,模型違約率先迅速增長(zhǎng)后趨于穩(wěn)定,誤拒率則先迅速下降后趨于穩(wěn)定。模型違約率和誤拒率呈負(fù)相關(guān)關(guān)系,這意味著在降低違約率減小損失的過程中,不可避免地增高誤拒率,影響用戶規(guī)模。極端情況下,當(dāng)閾值為0.05時(shí),模型違約率為2.34%,但是誤拒率卻高達(dá)38.55%,導(dǎo)致大量擁有償債能力的用戶流失,對(duì)平臺(tái)的發(fā)展極為不利。因此,選擇一個(gè)合適的閾值非常重要。
本文采用反映模型正負(fù)樣本區(qū)分能力的KS 曲線選擇閾值。如圖8 所示,KS 兩條曲線最大間隔距離(KS值)為0.44,對(duì)應(yīng)的閾值為0.32,即得出最優(yōu)閾值。從圖7 可以得出,當(dāng)閾值為0.32 時(shí),模型違約率為6.85%,誤拒率為1.98%。與數(shù)據(jù)集中捷信平臺(tái)8.07%的貸款違約率相比,軟投票融合模型可以將違約率降低1.22 個(gè)百分點(diǎn),僅以捷信集團(tuán)2018 年總貸款額203 億歐元測(cè)算,可以減少約2.48 億歐元的損失。實(shí)際運(yùn)營(yíng)中,違約往往比誤拒對(duì)平臺(tái)造成的損失更大。與違約率1.22%的降幅相比,1.98%的誤拒率處在合理水平。
圖7 閾值與模型違約率、誤拒率的關(guān)系
圖8 融合模型的KS曲線
本文統(tǒng)計(jì)了重要度前50 位的特征變量的來源。如表6 所示,17 個(gè)特征來源于主表,重要度占比50.88%;17 個(gè)特征來自征信記錄的統(tǒng)計(jì)信息,重要度占比24.27%;16 個(gè)來自平臺(tái)歷史貸款的統(tǒng)計(jì)信息,重要度占比24.85%。結(jié)果表明,在違約風(fēng)險(xiǎn)評(píng)估中,主表中的信息重要程度最高,征信記錄和歷史貸款信息重要程度基本相當(dāng)。
表6 特征來源及重要度占比
圖9 展示了融合模型重要度較高的部分特征,依次是分期付款額/貸款金額、3 個(gè)外部數(shù)據(jù)源的標(biāo)準(zhǔn)化評(píng)分、年齡、當(dāng)前工作的從事年數(shù)、分期付款額、在捷信平臺(tái)上的歷史貸款還款期限的均值、最近一次在平臺(tái)上還款的時(shí)間、最近一次更改身份證明文件的時(shí)間、征信記錄中最近一筆活躍貸款的申請(qǐng)時(shí)間、用戶歷史還款平均逾期天數(shù)、當(dāng)前工作從事年數(shù)/年齡、分期付款額/收入。
圖9 融合模型特征重要度排序
綜合上述分析,總結(jié)得出在消費(fèi)信貸違約風(fēng)險(xiǎn)評(píng)估中最重要的七類因素。
第一,貸款基本情況,如貸款金額、分期付款額、還款期限。分期付款額與貸款金額的比值反映了利率的大小,利率、貸款金額越高,違約風(fēng)險(xiǎn)越高。還款期限可以反映借款人的償債能力,還款期限越長(zhǎng),表明借款人償債能力越弱,違約風(fēng)險(xiǎn)越高。
第二,外部數(shù)據(jù)源的標(biāo)準(zhǔn)化評(píng)分。完備的風(fēng)控體系一般由多個(gè)子系統(tǒng)構(gòu)成,其他子系統(tǒng)的評(píng)分對(duì)違約風(fēng)險(xiǎn)評(píng)估系統(tǒng)有重要的積極意義。
第三,借款人基本信息,如年齡、當(dāng)前工作從事年數(shù)等。違約率隨著年齡和當(dāng)前工作從事年數(shù)的增長(zhǎng)而降低。當(dāng)前工作從事年數(shù)和年齡的比值反映了借款人收入的穩(wěn)定性,比值越高,違約風(fēng)險(xiǎn)越低。
第四,借款人行為信息,如最近一次更改身份證明文件的時(shí)間、最近一次修改注冊(cè)信息的時(shí)間等。身份證明文件是校驗(yàn)借款人身份的重要依據(jù),是提取借款人征信記錄和歷史貸款信息的重要媒介。身份證明文件、注冊(cè)信息修改越頻繁,違約風(fēng)險(xiǎn)越高。
第五,借款人資產(chǎn)實(shí)力,如收入、房產(chǎn)、車產(chǎn)等。資產(chǎn)實(shí)力直觀地反映了借款人的償債能力。收入越高,分期付款額和收入的比值越小,借款人還款壓力越小,違約風(fēng)險(xiǎn)越低。另外,擁有房產(chǎn)、車產(chǎn)也會(huì)降低違約風(fēng)險(xiǎn)。
第六,歷史貸款信息,如還款期限均值、最近還款時(shí)間、歷史還款平均逾期天數(shù)等。借款人在平臺(tái)上的歷史貸款申請(qǐng)信息和行為信息是其信用記錄的重要體現(xiàn)。還款期限均值越小,表明借款人償債能力越強(qiáng);歷史還款平均逾期天數(shù)越低,代表借款人越重視信用,違約風(fēng)險(xiǎn)也越低。
第七,征信信息,如征信記錄中最近一筆活躍貸款的申請(qǐng)時(shí)間、逾期次數(shù)等。征信記錄反映了借款人在其他平臺(tái)的歷史貸款申請(qǐng)信息和行為信息。實(shí)驗(yàn)結(jié)果表明,征信記錄在違約風(fēng)險(xiǎn)評(píng)估中相當(dāng)重要。
本文基于大規(guī)模消費(fèi)信貸數(shù)據(jù)和相關(guān)征信記錄,構(gòu)建軟投票融合模型預(yù)測(cè)貸款申請(qǐng)的違約風(fēng)險(xiǎn);除采用AUC、KS值、準(zhǔn)確率三個(gè)數(shù)學(xué)指標(biāo)外,還從實(shí)際場(chǎng)景出發(fā)提出了違約率和誤拒率,完善模型評(píng)價(jià)體系;識(shí)別出違約率和誤拒率的負(fù)相關(guān)關(guān)系,采用KS 曲線選擇閾值,在降低違約率的同時(shí),將誤拒率控制在合理水平。實(shí)驗(yàn)結(jié)果表明,軟投票融合模型預(yù)測(cè)能力優(yōu)于XGBoost 和LightGBM,準(zhǔn)確率高達(dá)91.99%,可以將違約率降低1.22%,僅以捷信集團(tuán)2018 年總貸款額203 億歐元測(cè)算,減少了約2.48 億歐元的損失。本文總結(jié)了違約風(fēng)險(xiǎn)評(píng)估中需要關(guān)注的七類因素,供相關(guān)研究和實(shí)際應(yīng)用參考。同時(shí),對(duì)消費(fèi)金融平臺(tái)提出以下建議。
第一,利用數(shù)字化手段構(gòu)建線上線下雙向融合的反欺詐機(jī)制,確保輸入違約風(fēng)險(xiǎn)評(píng)估模型的貸款基本情況、借款人基本信息、行為信息、資產(chǎn)實(shí)力等數(shù)據(jù)的真實(shí)性和有效性。
第二,充分利用第三方征信數(shù)據(jù)和歷史貸款數(shù)據(jù)。目前,我國(guó)征信體系不斷完善,國(guó)內(nèi)消費(fèi)金融公司可以通過與第三方權(quán)威征信機(jī)構(gòu)合作擴(kuò)充數(shù)據(jù)源,結(jié)合平臺(tái)用戶數(shù)據(jù)和歷史貸款數(shù)據(jù),構(gòu)建具備自身特色的征信系統(tǒng),有效控制違約風(fēng)險(xiǎn)。
第三,多角度評(píng)價(jià)模型。構(gòu)建違約風(fēng)險(xiǎn)評(píng)估模型時(shí),不僅要關(guān)注AUC、KS、準(zhǔn)確率等技術(shù)指標(biāo),還要從場(chǎng)景出發(fā),在降低違約率、減少損失的同時(shí),也要保證誤拒率處于合理水平,減少因模型“錯(cuò)誤決策”而導(dǎo)致的用戶流失。