陸健健 江開(kāi)忠
摘 要:針對(duì)銀行客戶信用評(píng)估模型不健全不完善等問(wèn)題,在對(duì)比隨機(jī)森林(RF)、GBDT和XGBoost三種集成算法基礎(chǔ)上,提出基于XGBoost算法的金融客戶信用評(píng)估模型。從知名的UCI數(shù)據(jù)庫(kù)中選取德國(guó)某銀行客戶信用數(shù)據(jù)集,在對(duì)數(shù)據(jù)進(jìn)行缺失值、標(biāo)準(zhǔn)化等預(yù)處理后,分別對(duì)隨機(jī)森林(RF)、GBDT算法和XGBoost三種集成算法建立個(gè)人信用評(píng)估模型,然后依據(jù)計(jì)算得到的相關(guān)多元評(píng)價(jià)指標(biāo)對(duì)個(gè)人信用評(píng)估進(jìn)行對(duì)比研究。實(shí)證結(jié)果表明,建立在XGBoost集成算法上的個(gè)人信用評(píng)估模型性能最優(yōu),在準(zhǔn)確率指標(biāo)上比隨機(jī)森林(RF)高出6%,比GBDT算法高0.8%。
關(guān)鍵詞:信用評(píng)估;XGBoost算法;隨機(jī)森林(RF);GBDT算法;ROC曲線
DOI:10. 11907/rjdk. 182067
中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)004-0133-04
0 引言
隨著市場(chǎng)經(jīng)濟(jì)體制在全球的逐步確立,投資交易、經(jīng)濟(jì)融資、證券交易等業(yè)務(wù)在世界快速拓展。然而,由于市場(chǎng)經(jīng)濟(jì)的固有缺陷以及參與主體的紛繁復(fù)雜,使得諸多經(jīng)濟(jì)業(yè)務(wù)難以暢通有效運(yùn)行,擁有交易秩序“潤(rùn)滑劑”作用的信用評(píng)級(jí)應(yīng)運(yùn)而生。經(jīng)過(guò)150年的發(fā)展,信用評(píng)級(jí)體系已經(jīng)從資本市場(chǎng)、商業(yè)市場(chǎng)以及消費(fèi)者個(gè)人3個(gè)層次對(duì)所有市場(chǎng)經(jīng)濟(jì)活動(dòng)進(jìn)行了覆蓋,標(biāo)普、穆迪等國(guó)際性信用評(píng)級(jí)公司為世人所熟知。
伴隨著互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,金融機(jī)構(gòu)面向個(gè)人推廣的服務(wù)在業(yè)務(wù)模式和運(yùn)行機(jī)制上也愈發(fā)多樣。然而,在個(gè)人消費(fèi)信貸業(yè)務(wù)活躍度顯著提升的同時(shí),其所帶來(lái)的個(gè)人信用風(fēng)險(xiǎn)也呈現(xiàn)分散化、普遍化、非系統(tǒng)化等特點(diǎn),給金融機(jī)構(gòu)帶來(lái)莫大的困擾。因此,無(wú)論是國(guó)家還是金融機(jī)構(gòu),對(duì)精準(zhǔn)、有效的個(gè)人信用評(píng)估模型需求都越來(lái)越大。
我國(guó)的信用評(píng)分研究起步較晚[1]。經(jīng)過(guò)幾十年的發(fā)展,中國(guó)人民銀行征信中心是我國(guó)目前為止唯一一家負(fù)責(zé)個(gè)人征信系統(tǒng)建設(shè)、運(yùn)行和管理的權(quán)威信用評(píng)級(jí)機(jī)構(gòu)。中國(guó)人民銀行征信中心所采納的系統(tǒng)依據(jù)個(gè)人信用信息基礎(chǔ)數(shù)據(jù)庫(kù)中采集的個(gè)人基本信息、信貸信息,為有信貸記錄的消費(fèi)者建立一個(gè)通用風(fēng)險(xiǎn)評(píng)分模型,針對(duì)消費(fèi)者在將來(lái)一段時(shí)期內(nèi)的違約概率進(jìn)行預(yù)測(cè)。
個(gè)人信用評(píng)價(jià)研究[2]主要涉及個(gè)人信用評(píng)價(jià)指標(biāo)選取和個(gè)人信用評(píng)價(jià)模型這兩個(gè)研究領(lǐng)域,本文主要研究個(gè)人信用評(píng)價(jià)模型建立。個(gè)人信用評(píng)估模型方法可分為線性判別分析法、回歸分析法、非參數(shù)法及基于樹(shù)的分類判別法、支持向量機(jī)、遺傳算法、神經(jīng)網(wǎng)絡(luò)等。
傳統(tǒng)的個(gè)人信用評(píng)價(jià)模型較多采用單一方法進(jìn)行信用評(píng)價(jià),如徐少峰等[3]利用fisher判別分析,建立判別函數(shù)對(duì)個(gè)人進(jìn)行信用評(píng)估。張成虎[4]則運(yùn)用多元線性判別模型對(duì)個(gè)人信用評(píng)分體系進(jìn)行分析。劉峙廷[5]運(yùn)用AHP層次分析法建立P2P網(wǎng)絡(luò)信貸債務(wù)人風(fēng)險(xiǎn)評(píng)價(jià)體系。周軒[6]運(yùn)用模糊層次分析法確定個(gè)人信用評(píng)分指標(biāo)體系中各指標(biāo)權(quán)重。肖江[7]建立了一個(gè)改進(jìn)的基于BP神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)模型。羅方科[8]對(duì)個(gè)人小額貸款信用評(píng)估建立Logistic回歸模型。其它諸如線性回歸、邏輯斯遆克回歸等回歸分析法、決策樹(shù)、K近鄰判別(KNN)、聚類算法等方法也有較多學(xué)者使用。另外,神經(jīng)網(wǎng)絡(luò)法擁有強(qiáng)大的非線性處理能力[9],對(duì)信用評(píng)價(jià)過(guò)程具有原始數(shù)據(jù)篩選、預(yù)警精度增加、預(yù)測(cè)速度提高等作用,使其在近年來(lái)的單一評(píng)分方法中有較多頻次使用。
面對(duì)眾多評(píng)估方法,模型選擇及優(yōu)化一度成為限制評(píng)級(jí)模型研究的瓶頸。然而近些年,多方法之間的集成綜合互補(bǔ)似乎成為提升模型評(píng)價(jià)質(zhì)量的突破口。姜明輝等[10]通過(guò)把PSO算法引入神經(jīng)網(wǎng)絡(luò)個(gè)人信用評(píng)級(jí)模型中,有效提高了檢測(cè)樣本分類中的預(yù)測(cè)精度。而后姜明輝又以CBR(案例推理)方法結(jié)合BP神經(jīng)網(wǎng)絡(luò)對(duì)個(gè)人信用評(píng)分模型的精確性與錯(cuò)分率進(jìn)行優(yōu)化研究。孫亞男[11]通過(guò)卡方交叉檢測(cè)與決策樹(shù)結(jié)合的方法,將誤差成本引入個(gè)人信用評(píng)級(jí)過(guò)程,進(jìn)而增加信用壞型客戶的判別正確率。向暉[12]則把多元判別分析、logistic回歸、神經(jīng)網(wǎng)路、支持向量機(jī)等多種方法融入個(gè)人信用評(píng)價(jià)模型構(gòu)建,發(fā)現(xiàn)新模型顯著增加了信用預(yù)測(cè)的精度與穩(wěn)健性。肖進(jìn)等[13]針對(duì)銀行客戶信用建立動(dòng)態(tài)分類器集成選擇模型,在進(jìn)行模型融合的同時(shí)也為建模前處理原始數(shù)據(jù)提供了一種新的思路。陳力等[14]在銀行個(gè)人信用卡評(píng)級(jí)應(yīng)用中建立Adaboost-Logistic集成算法融合模型。白鵬飛等[15]在研究互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估方法時(shí)試圖在SVM、隨機(jī)森林、XGBoost等集成模型之上再用投票思想對(duì)其進(jìn)行集成融合,集成后的結(jié)果得到了一定優(yōu)化。楚天玥[16]引入新方法,將GCNN模型與LeNet-5模型相結(jié)合,對(duì)層結(jié)構(gòu)特征進(jìn)行優(yōu)化,加上個(gè)人信用風(fēng)險(xiǎn)特點(diǎn),構(gòu)造出新的個(gè)人信用評(píng)估模型。
本文應(yīng)用隨機(jī)森林、GBDT算法和XGBoost三種集成算法分別建立個(gè)人信用評(píng)估模型,依據(jù)模型評(píng)價(jià)指標(biāo)對(duì)其進(jìn)行對(duì)比研究[17],從而給信用評(píng)估研究者、相關(guān)企事業(yè)單位選擇模型提供參考。
1 相關(guān)理論
1.1 集成分類模型
集成分類模型指基于多個(gè)單一的分類模型所集合而成的模型,而多個(gè)單分類器集成在一起的方法很多,最通用的有兩種[18]:①袋裝法(Bagging),利用相同訓(xùn)練數(shù)據(jù)同時(shí)搭建多個(gè)獨(dú)立模型,通過(guò)投票的方式以少數(shù)服從多數(shù)原則作出最終分類決策,其中最具有代表性的模型是隨機(jī)森林分類器(Random Forest Classifier);②提升法(Boosting),其思想是按照一定的次序搭建多個(gè)分類器,這些分類器之間彼此存在依賴關(guān)系,每一個(gè)后續(xù)分類器的加入都對(duì)現(xiàn)有集成模型性能有所貢獻(xiàn),進(jìn)而不斷提升更新后的集成模型性能,其中較有代表性的是梯度提升決策樹(shù)(Gradient Tree Boosting)。
1.2 XGBoost模型
XGBoost全稱為Extreme Gradient Boosting,它可看作是GBDT的優(yōu)化。GBDT在生成每一棵樹(shù)時(shí)采用梯度下降思想,以所有單棵決策樹(shù)為基礎(chǔ),以損失函數(shù)最小化為目標(biāo)多走一步。與GBDT模型不同的是,XGBoost模型能自動(dòng)利用CPU進(jìn)行多線程并行計(jì)算,并且對(duì)損失函數(shù)進(jìn)行泰勒公式二階展開(kāi),在損失函數(shù)后面增加正則項(xiàng),用于約束損失函數(shù)的下降和模型整體的復(fù)雜度。
XGBoost整體目標(biāo)函數(shù)為:
2 實(shí)證分析
2.1 數(shù)據(jù)來(lái)源與描述
本文數(shù)據(jù)來(lái)源于加州大學(xué)UCI數(shù)據(jù)庫(kù)中著名的信用數(shù)據(jù)集German數(shù)據(jù)集,它是關(guān)于德國(guó)某銀行信用卡個(gè)人用戶業(yè)務(wù)的數(shù)據(jù)。該數(shù)據(jù)集共有1000個(gè)樣本,其中信用好的用戶有700個(gè),信用差的用戶有300,數(shù)據(jù)集中包含20個(gè)屬性列和1個(gè)標(biāo)簽列,20個(gè)屬性中有7個(gè)數(shù)值型屬性和13個(gè)類別型屬性,標(biāo)簽列有兩個(gè)值0或1,其中0代表信用好,1代表信用差,見(jiàn)表1。
2.2 數(shù)據(jù)預(yù)處理
在對(duì)原始數(shù)據(jù)進(jìn)行建模分析之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理即特征工程。首先,對(duì)數(shù)據(jù)表中嚴(yán)重缺失數(shù)據(jù)的樣本記錄剔除,對(duì)少許缺失值樣本采用眾數(shù)(分類型變量)和均值填充。然后,對(duì)所有分類型數(shù)據(jù)進(jìn)行編碼,本文采用的是獨(dú)熱0-1編碼。最后,對(duì)所有數(shù)值型數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本文采用極差標(biāo)準(zhǔn)化:
2.3 模型評(píng)價(jià)指標(biāo)
在給出模型評(píng)價(jià)指標(biāo)之前,先給出分類模型評(píng)價(jià)準(zhǔn)則中最常用的混淆矩陣,如表2所示。
其中:①正類代表信用差,負(fù)類代表信用好;②TP表示實(shí)際為正類預(yù)測(cè)也為正類的樣本個(gè)數(shù),F(xiàn)N表示實(shí)際為正類預(yù)測(cè)為負(fù)類的樣本個(gè)數(shù),F(xiàn)P表示實(shí)際為負(fù)類預(yù)測(cè)為正類的樣本個(gè)數(shù),TN表示實(shí)際為負(fù)類預(yù)測(cè)也為負(fù)類的樣本個(gè)數(shù)。
(1)準(zhǔn)確率(Accuracy)。在傳統(tǒng)分類模型評(píng)價(jià)指標(biāo)體系中,準(zhǔn)確率(Accuracy)是一個(gè)很重要的評(píng)價(jià)指標(biāo),它代表所有正負(fù)類中有多少被正確預(yù)測(cè)出來(lái),其數(shù)學(xué)表達(dá)如下:
(2)精確率(Precision)、召回率(Recall)和F1指標(biāo)。在實(shí)際問(wèn)題中并不關(guān)心總的預(yù)測(cè)正確率,而是更加關(guān)注模型對(duì)某一特定類別的預(yù)測(cè)能力。對(duì)于銀行來(lái)說(shuō),它更在意的是信用差的人被判為信用好的情況,也就是說(shuō)假負(fù)類的比率越低越好。所以引入精確率(Precision)、召回率(Recall)和F1這3個(gè)指標(biāo)。
(3)ROC曲線及AUC值。ROC曲線又稱真正率偽正率圖,其中橫坐標(biāo)表示偽正率,縱坐標(biāo)表示真正率。
由于直接用ROC曲線去定量評(píng)價(jià)不同的分類模型不是很直觀,因此人們通常采用ROC曲線下方的面積,即AUC值作為評(píng)價(jià)指標(biāo),AUC值越大越好。
2.4 結(jié)果對(duì)比與分析
本文模型的構(gòu)建均采用python的sklean程序包實(shí)現(xiàn),此外,除了構(gòu)建XGBoost算法模型,還建立了隨機(jī)森林模型和GBDT算法模型,在使用相同數(shù)據(jù)集的情況下,對(duì)比使用這3種模型。
針對(duì)這3種算法模型,本文給出它們的ROC曲線,為直觀對(duì)比把ROC曲線放在了同一個(gè)圖中,如圖1所示。
表3給出3種算法模型在相同數(shù)據(jù)集上的準(zhǔn)確率、精準(zhǔn)率、召回率、F1得分和AUC值,表中標(biāo)粗的數(shù)字表示每列的最大值。從表中可以看出,XGBoost算法模型在準(zhǔn)確率、召回率、F1得分和AUC值上都具有明顯優(yōu)勢(shì),而隨機(jī)森林精準(zhǔn)率較高,顯然XGBoost算法模型具有較好性能。
3 結(jié)語(yǔ)
建立合理有效而又科學(xué)的個(gè)人信用評(píng)估模型,能為銀行等金融機(jī)構(gòu)提供更加可靠而科學(xué)的決策支持,減少不必要的損失,意義非常重大。本文在對(duì)比多個(gè)集成算法模型基礎(chǔ)上,建立基于目前最流行及性能較好的XGBoost集成算法的信用評(píng)估模型,并在相同的國(guó)際開(kāi)源數(shù)據(jù)集上,對(duì)隨機(jī)森林、GBDT算法和XGBoost算法進(jìn)行比較與對(duì)比研究。實(shí)證結(jié)果表明,在機(jī)器學(xué)習(xí)等領(lǐng)域具有顯著優(yōu)勢(shì)的XGBoost算法對(duì)個(gè)人信用評(píng)估的研究性能較優(yōu)。
參考文獻(xiàn):
[1] 張釗. 基于支持向量機(jī)的個(gè)人信用評(píng)估模型與算法的研究[D]. 北京:首都師范大學(xué),2008.
[2] 郄彥平. 信用環(huán)境評(píng)價(jià)與“自然履約率”[J]. 金融教學(xué)與研究,2013(5):6-10,17.
[3] 徐少鋒. FISHER判別分析在個(gè)人信用評(píng)估中的應(yīng)用[J]. 統(tǒng)計(jì)與決策,2006(2):133-135.
[4] 張成虎,李育林,吳鳴. 基于判別分析的個(gè)人信用評(píng)分模型研究與實(shí)證分析[J]. 大連理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2009,30(1):6-10.
[5] 劉峙廷. 我國(guó)P2P網(wǎng)絡(luò)信貸風(fēng)險(xiǎn)評(píng)估研究[D]. 南寧:廣西大學(xué),2013.
[6] 周軒. 基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行個(gè)人信用評(píng)分模型研究[D].長(zhǎng)沙:湖南大學(xué),2014.
[7] 肖江,陳璐瑜. 改進(jìn)的P2P信貸借款人信用風(fēng)險(xiǎn)的研究[J]. 信息技術(shù),2016(11):212-214,220.
[8] 羅方科,陳曉紅. 基于Logistic回歸模型的個(gè)人小額貸款信用風(fēng)險(xiǎn)評(píng)估及應(yīng)用[J]. 財(cái)經(jīng)理論與實(shí)踐,2017,38(1):30-35.
[9] 王穎林,賴芨宇,郭豐敏. 建設(shè)需求量預(yù)測(cè)分析中的人工神經(jīng)網(wǎng)絡(luò)和多元回歸方法[J]. 武漢工程大學(xué)學(xué)報(bào),2013,35(11):77-80,86.
[10] 殷爽,姜明輝. 基于PSO的個(gè)人信用評(píng)估組合預(yù)測(cè)模型[J]. 經(jīng)濟(jì)研究導(dǎo)刊,2008(14):83-86.
[11] 朱毅峰,孫亞南. 精煉決策樹(shù)模型在個(gè)人信用評(píng)估中的應(yīng)用[J]. 統(tǒng)計(jì)教育,2008(1):5-7.
[12] 向暉,楊勝剛. 個(gè)人信用評(píng)分關(guān)鍵技術(shù)研究的新進(jìn)展[J]. 財(cái)經(jīng)理論與實(shí)踐,2011,32(4):20-24.
[13] 肖進(jìn),劉敦虎,顧新,等. 銀行客戶信用評(píng)估動(dòng)態(tài)分類器集成選擇模型[J]. 管理科學(xué)學(xué)報(bào),2015,18(3):114-126.
[14] 陳力,黃艷瑩,游德創(chuàng). 一種基于Boosting的集成學(xué)習(xí)算法在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[J]. 價(jià)值工程,2017,36(18):170-172.
[15] 白鵬飛,安琪,NICOLAAS FRANSDE ROOIJ,等. 基于多模型融合的互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估方法[J]. 華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,49(6):119-123.
[16] 楚天玥.? 基于LeNet-5模型和門卷積神經(jīng)網(wǎng)絡(luò)的信用評(píng)分模型實(shí)證研究[D]. 深圳:深圳大學(xué),2017.
[17] 張滄生,崔麗娟,楊剛,等. 集成學(xué)習(xí)算法的比較研究[J]. 河北大學(xué)學(xué)報(bào):自然科學(xué)版,2007(5):551-554.
[18] 周峰. 集成分類器模型的研究[D]. 上海:上海交通大學(xué),2007.
[19] 王飛.? 集成分類器及其在個(gè)人信用評(píng)估的應(yīng)用[D]. 長(zhǎng)沙:中南大學(xué),2012.
[20] 邵笑笑.? 個(gè)人信用評(píng)估集成模型研究[D]. 南京:南京信息工程大學(xué),2016.
[21] 房曉南.? 基于半監(jiān)督和集成學(xué)習(xí)的不平衡數(shù)據(jù)特征選擇和分類[D]. 濟(jì)南:山東師范大學(xué),2016.
(責(zé)任編輯:杜能鋼)