戴蓓蓓
摘? ?要:商業(yè)銀行在金融系統(tǒng)中占據(jù)舉足輕重的位置。提高對個(gè)人信貸客戶的風(fēng)險(xiǎn)預(yù)測能力對降低銀行違約壞賬、助力金融業(yè)健康發(fā)展具有積極的現(xiàn)實(shí)意義。因此,采用主成分分析法篩選指標(biāo),結(jié)合多變量判別法和機(jī)器學(xué)習(xí)特點(diǎn),在誤差平方和最小和非負(fù)權(quán)重約束下,挑選Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)和決策樹構(gòu)建線性組合預(yù)測模型。結(jié)果顯示,構(gòu)建的組合模型在個(gè)人信用風(fēng)險(xiǎn)預(yù)測準(zhǔn)確率和第一類誤判率表現(xiàn)上優(yōu)于3種單一模型,并且模型具有較好的泛化穩(wěn)健性。
關(guān)鍵詞:組合預(yù)測模型;Logistic回歸;BP神經(jīng)網(wǎng)絡(luò);決策樹
中圖分類號(hào):F832.33? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1673-291X(2022)35-0069-04
商業(yè)銀行是金融系統(tǒng)的重要組成部分,其信用風(fēng)險(xiǎn)治理能力不僅關(guān)系自身運(yùn)營和大眾利益,更影響經(jīng)濟(jì)社會(huì)健康運(yùn)轉(zhuǎn)。個(gè)人信貸風(fēng)險(xiǎn)是我國商業(yè)銀行面臨的主要風(fēng)險(xiǎn)之一,提升商業(yè)銀行對個(gè)人信貸客戶的風(fēng)險(xiǎn)預(yù)測能力,是規(guī)避銀行壞賬、避免引發(fā)系統(tǒng)性金融風(fēng)險(xiǎn)的重要一環(huán)。
個(gè)人信用風(fēng)險(xiǎn)預(yù)測歸根到底是對貸款者按約還款信用“好”和“壞”的分類預(yù)測過程。其中預(yù)測所選擇的方法非常重要?,F(xiàn)有研究多采用單一方法對個(gè)人信用風(fēng)險(xiǎn)建模分析。根據(jù)Bates和Granger提出的組合預(yù)測模型的觀點(diǎn),基于多個(gè)單項(xiàng)預(yù)測方法建立的組合模型會(huì)有更高的預(yù)測精度。基于此,本文建立一個(gè)基于組合預(yù)測模型的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)預(yù)測體系,對商業(yè)銀行個(gè)人客戶貸款信用風(fēng)險(xiǎn)量化預(yù)測。
一、個(gè)人信用評價(jià)指標(biāo)體系構(gòu)建
本文使用主成分分析法構(gòu)建個(gè)人信用評價(jià)指標(biāo)體系,樣本數(shù)據(jù)來自UCI平臺(tái)上公開的“German Credit Dataset”真實(shí)信息。該數(shù)據(jù)集共1 000條記錄,每條記錄中包含20個(gè)屬性變量和1個(gè)類別變量。其中,類別變量是對該條記錄的二分類信用評估值。從1 000條記錄中隨機(jī)選擇800條數(shù)據(jù)作為建模樣本,200條作為測試樣本集1。因樣本量有限,另隨機(jī)選擇160條測試樣本集2和140條測試樣本集3。
主成分分析法是數(shù)據(jù)降維的常用方法,是將多個(gè)相互關(guān)聯(lián)的指標(biāo)聚合成少數(shù)因子,并保留原指標(biāo)體系絕大部分的信息,達(dá)到提高模型處理效能的目的。使用軟件SPSS 19.0構(gòu)建主成分因子。為獲得更多的解釋信息,挑選前14個(gè)方差累計(jì)貢獻(xiàn)率大于85%的因子作為主成分,通過成分得分系數(shù)矩陣,計(jì)算出最終的主成分因子得分方程,構(gòu)建出新的指標(biāo)體系,如表1所示。
二、單一信用風(fēng)險(xiǎn)預(yù)測模型
(一)基于Logistic回歸模型的信用預(yù)測
Logistic回歸是研究自變量和因變量之間關(guān)系的一種非線性回歸,它不要求自變量滿足正太分布特征,具有較好的判定效果和穩(wěn)健性。模型中,因變量Y表示個(gè)人客戶的信用評級。Y=0表示客戶具有“好”的信用,貸款違約率低;Y=1表示客戶具有“差”的信用,貸款違約率高,銀行應(yīng)拒絕該類客戶的貸款申請。對樣本建立Y和自變量X的邏輯回歸方程:
logit(p)=β0+β1x1+β2x2+β3x3+...+βmxm
在SPSS 19.0中采用后退法(backward conditional)篩選模型自變量,建立Logistic回歸模型。每次迭代剔除顯著性水平最不明顯的變量,直至所有保留變量顯著性水平達(dá)到建模要求。本文經(jīng)過7次迭代處理,模型收斂至穩(wěn)定狀態(tài),9個(gè)自變量在95%的置信水平下Sig.值均小于0.05,將其引入到Logistic回歸模型:
其中,自變量分別代表賬戶信用影響因子、信用卡狀態(tài)因子、分期付款占比一般收入、其他分期付款計(jì)劃、從業(yè)年限、性別婚姻狀況、是否海外員工、現(xiàn)有賬戶狀態(tài)。模型的擬合優(yōu)度方面,在background conditional的7次運(yùn)算中,Cox&Snell R方和Nagelkerke R方的值均下降,-2Log likelihood的值不斷上升,模型擬合度較好,如表2所示。
使用構(gòu)建的Logistic 回歸模型對建模樣本進(jìn)行預(yù)測,發(fā)現(xiàn)800條記錄中有89條被預(yù)測錯(cuò)誤,準(zhǔn)確率為88.875%。其中,第一類誤判率為3.2%,第二類誤判率為29.5%。對3組測試樣本檢驗(yàn)Logistic回歸模型的分類預(yù)測精度。在最終預(yù)測結(jié)果中,測試樣本1的200條記錄中有42條被預(yù)測錯(cuò)誤,準(zhǔn)確率為79%;測試樣本2的160條記錄中有34條記錄被預(yù)測錯(cuò)誤,準(zhǔn)確率為78.75%;測試樣本3的140條記錄中有22條被預(yù)測錯(cuò)誤,準(zhǔn)確率為84.29%。
(二)基于BP神經(jīng)網(wǎng)絡(luò)的信用預(yù)測
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種信息正向傳播、誤差反向修正的多層前饋網(wǎng)絡(luò)。通過模仿人類大腦神經(jīng)網(wǎng)絡(luò),高效解決數(shù)據(jù)分類、預(yù)測等非線性事務(wù)。本文使用MATLB 構(gòu)建基于BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用風(fēng)險(xiǎn)預(yù)測模型。模型涉及的數(shù)據(jù)集是經(jīng)過主成分分析法處理后的1 000條新數(shù)據(jù)。使用800條建模樣本構(gòu)建模型,3組測試樣本集檢驗(yàn)?zāi)P偷姆夯芰Α?/p>
將原始數(shù)據(jù)輸入到MATLAB階段需要進(jìn)行數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)編碼和歸一化處理兩步。模型中,BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)來自經(jīng)過主成分分析得到的14個(gè)連續(xù)數(shù)值型的主成分,不需要進(jìn)行文本數(shù)據(jù)的編碼轉(zhuǎn)換,只需將數(shù)據(jù)進(jìn)行歸一化處理。
模型結(jié)構(gòu)方面,BP神經(jīng)網(wǎng)絡(luò)一般包括1個(gè)輸入層、1個(gè)輸出層和1個(gè)或多個(gè)隱藏層。本文構(gòu)建3層結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò),輸入層的單元數(shù)由輸入維度決定。每條建模數(shù)據(jù)具有14個(gè)影響模型最終結(jié)果的屬性變量,即輸入層的單元數(shù)共有14個(gè)。輸出層的因變量是1個(gè)二分類值,用0表示“好信用”,用1表示“差信用”。此外,隱含層節(jié)點(diǎn)數(shù)對BP神經(jīng)網(wǎng)絡(luò)預(yù)測精度有較大的影響。巖節(jié)點(diǎn)數(shù)太少,神經(jīng)網(wǎng)絡(luò)需要增加訓(xùn)練次數(shù),影響預(yù)測精度;節(jié)點(diǎn)數(shù)太多,模型易出現(xiàn)過擬合。本文經(jīng)過反復(fù)試驗(yàn),確定模型隱藏層單元數(shù)為9時(shí)具有較好的預(yù)測準(zhǔn)確率。
將學(xué)習(xí)率設(shè)為0.07、迭代步驟設(shè)為700步,為防止數(shù)據(jù)過度擬合,學(xué)習(xí)目標(biāo)即預(yù)測值和真實(shí)歷史值之間的誤差平方和設(shè)為0.1,開始訓(xùn)練網(wǎng)絡(luò)。經(jīng)過700迭代,BP神經(jīng)網(wǎng)絡(luò)的誤差平方和為0.316。此時(shí)模型的預(yù)測精度為91.87%,具有較好的訓(xùn)練效果。預(yù)測精度方面,800條建模樣本中有65條被預(yù)測錯(cuò)誤,準(zhǔn)確率為91.87%。第一類誤判率為3.93%;第二類誤判率為17.92%。測試樣本集中,測試樣本1的200條記錄中有51條被預(yù)測錯(cuò)誤,準(zhǔn)確率為74.5%;測試樣本2的準(zhǔn)確率為73.75%;測試樣本3的準(zhǔn)確率為75.71%。
(三)基于決策樹模型的信用預(yù)測
決策樹由節(jié)點(diǎn)和分枝構(gòu)成,基于樣本集推理信息分類規(guī)則實(shí)現(xiàn)數(shù)據(jù)預(yù)測。對一個(gè)數(shù)據(jù)元組,從根節(jié)點(diǎn)自頂向下開始遞歸,每個(gè)內(nèi)部節(jié)點(diǎn)基于某種屬性信息完成判斷,構(gòu)成決策樹從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的分類規(guī)則。使用C5.0算法在SPSS Clementine 12.0中構(gòu)建決策樹。輸入變量是14個(gè)相互獨(dú)立的主成分因子,輸出變量是對客戶的信用評級。
決策樹是一種“有導(dǎo)師”的學(xué)習(xí)機(jī)制,通過對樣本的反復(fù)訓(xùn)練,建立分類推理規(guī)則,并將其應(yīng)用在新樣本分類預(yù)測中。為提高模型對樣本的擬合度和預(yù)測精度,在C5.0算法中應(yīng)用Boosting技術(shù)。經(jīng)過6次迭代,共建立6個(gè)具有不同預(yù)測精度的相關(guān)模型。為規(guī)避樣本過度
擬合,C5.0算法對決策樹采取“后剪枝”處理,本文設(shè)定75%的剪枝率,即保留25%的原始決策樹信息。得到的決策樹分類規(guī)則和樹狀結(jié)構(gòu)圖如圖2。
在檢驗(yàn)樣本集中,樣本的置信度區(qū)間為0.5—1,即樣本的預(yù)測置信度最小值為0.5,最大值為1。對于正確預(yù)測的樣本,預(yù)測置信度的平均值為0.837,對于錯(cuò)誤預(yù)測的樣本,其預(yù)測置信度的平均值為0.625。預(yù)測置信度在0.876以上的樣本中有38%通常是正確的,預(yù)測置信度在0.511以上的樣本中有90.12%通常是正確的。
決策樹模型基于建模樣本集的預(yù)測精度為89%,說明800條樣本中712條預(yù)測正確,88條預(yù)測錯(cuò)誤。其中,第一類誤判率為2.32%,第二類誤判率為31.25%。對測試樣本集中的3組測試樣本檢驗(yàn)決策樹模型的分類預(yù)測精度。在最終預(yù)測結(jié)果中,測試樣本1的準(zhǔn)確率為76.5%,測試樣本2的準(zhǔn)確率為77.5%,測試樣本3的準(zhǔn)確率為77.86%。
三、個(gè)人信用評估組合預(yù)測模型
單一預(yù)測模型一般過濾掉對結(jié)果影響不顯著的因子和信息,在數(shù)據(jù)去噪的同時(shí)造成不同程度的信息丟失;且各單一模型的理論邏輯存在差異,過濾的信息維度不同,影響綜合維度表征下結(jié)果的預(yù)測精度。組合預(yù)測模型,通過線性或非線性方式聚合單一預(yù)測方法,最大化綜合各單一模型涵蓋的信息,提高預(yù)測精度和有效性。本文使用線性方式組合單一預(yù)測模型,記組合預(yù)測模型的預(yù)測值誤差平方和為:
基于誤差平方和最小的組合預(yù)測模型可表示為:
構(gòu)建拉格朗日函數(shù),極小值存在條件下一階導(dǎo)為0,MATLAB下使用最小二乘法,求得組合預(yù)測模型中各單一模型所占權(quán)重:
w1=0.280 3,w2=0.429 5,w3=0.290 2
據(jù)此,可構(gòu)建商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)預(yù)測組合預(yù)測模型:
y=0.280 3y1+0.429 5y2+0.290 2y3
四、模型對比分析
比較Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)、決策樹3個(gè)單一模型和組合預(yù)測模型的分類預(yù)測精度和穩(wěn)定性。
(一)分類預(yù)測精度比較
在建模預(yù)測分類精度方面,組合預(yù)測模型分類精度為92.5%,高于3個(gè)單一模型的分類預(yù)測準(zhǔn)確率。單一模型中,BP神經(jīng)網(wǎng)絡(luò)具有最好的數(shù)據(jù)擬合度,Logistic回歸模型預(yù)測分類精度低于BP神經(jīng)網(wǎng)絡(luò)和決策樹模型,決策樹模型介于二者中間,分類精度為89%。誤判率方面,第二類誤判率最低的是BP神經(jīng)網(wǎng)絡(luò)模型,組合預(yù)測模型的誤判率低于決策樹和Logistic回歸模型,高于BP神經(jīng)網(wǎng)絡(luò)。第一類誤判率最低的是組合預(yù)測模型,為0.36%,它對建模預(yù)測樣本中所有的“好信用”記錄都能較準(zhǔn)確地進(jìn)行分類。
測試樣本上,組合預(yù)測模型在3組測試樣本上的預(yù)測精度均值為82.828%,優(yōu)于單一模型的均值表現(xiàn);組合預(yù)測模型在測試樣本1和2上的分類預(yù)測準(zhǔn)確率高于單一模型,在測試樣本3上的分類預(yù)測準(zhǔn)確率高于BP神經(jīng)網(wǎng)絡(luò)和決策樹模型,低于Logistic回歸模型。說明組合預(yù)測模型的預(yù)測精度不一定高于單一模型,和測試樣本集的選取有很大關(guān)系。在誤判率的均值表現(xiàn)上,組合預(yù)測模型低于單一模型,說明組合預(yù)測模型比單一模型具有更好的糾錯(cuò)能力。
(二)模型穩(wěn)健性比較
穩(wěn)健性衡量模型的泛化能力。評估當(dāng)樣本數(shù)據(jù)發(fā)生改變時(shí),模型能否正常工作,是否仍能保持較高水平的精度和有效性。統(tǒng)計(jì)學(xué)上,一般采用標(biāo)準(zhǔn)差衡量模型針對不同樣本時(shí)的波動(dòng)性,波動(dòng)性越小,樣本的泛化推廣能力越好。在總分類預(yù)測精度標(biāo)準(zhǔn)差和第一類誤判率標(biāo)準(zhǔn)差上,組合預(yù)測模型的值分別為0.002 6和0.005 7,低于3個(gè)單一模型,對檢驗(yàn)樣本的分類預(yù)測精度的波動(dòng)較??;在第二類誤判率標(biāo)準(zhǔn)差上,組合預(yù)測模型值為0.036 7,高于3個(gè)單一模型??傮w上,模型的穩(wěn)健性較單一模型表現(xiàn)好,即訓(xùn)練后的模型對新樣本的適應(yīng)性較好。
五、結(jié)論
本文借鑒國內(nèi)外信用風(fēng)險(xiǎn)預(yù)測相關(guān)研究,探討組合預(yù)測模型在風(fēng)險(xiǎn)客戶分類預(yù)測方面的應(yīng)用。在采用主成分分析法重建信用評估指標(biāo)的基礎(chǔ)上,構(gòu)建基于Logistic 回歸、BP 神經(jīng)網(wǎng)絡(luò)和決策樹的組合預(yù)測模型。三種單一模型分屬多變量判別法和機(jī)器學(xué)習(xí)兩類方法,運(yùn)作機(jī)理不同,具有一定的信息維度互補(bǔ)作用。且BP 神經(jīng)網(wǎng)絡(luò)較Logistic 回歸模型具有更好的數(shù)據(jù)擬合能力,但新樣本集上模型預(yù)測能力較差。為提升精度,同時(shí)平衡組合模型的穩(wěn)健性,組合模型引入決策樹。通過實(shí)證對比分析說明,構(gòu)建的組合模型在個(gè)人信用風(fēng)險(xiǎn)預(yù)測準(zhǔn)確率和第一類誤判率表現(xiàn)上優(yōu)于3種單一模型,并且模型具有較好的泛化穩(wěn)健性。但本文僅將預(yù)測結(jié)果做二分類處理,在今后的工作中,將細(xì)化客戶信用評估級別,對不同的客戶信用等級采取不同授信處理。
參考文獻(xiàn):
[1]? ?方先明,熊鵬.對商業(yè)銀行信用風(fēng)險(xiǎn)監(jiān)測評價(jià)的新思考[J].中央財(cái)經(jīng)大學(xué)學(xué)報(bào),2005,(7):13-18.
[2]? ?張晨,萬相昱.大數(shù)據(jù)背景下個(gè)人信用評估體系建設(shè)和評估模型構(gòu)建[J].征信,2019,37(10):66-71.
[3]? ?王豐效.最小機(jī)會(huì)損失的組合預(yù)測模型精度評價(jià)[J].統(tǒng)計(jì)與決策,2013,(21):37-39.
[4]? ?黃亞駒,等.基于混合算法和BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測研究[J].情報(bào)科學(xué),2018,36(2):24-29.
[5]? ?孫鐵柱,等.基于CRT分類算法的用戶畫像分層模型—以銀行借貸用戶為例[J].情報(bào)科學(xué),2020,38(9):75-81.
[6]? ?楊勝剛,等.個(gè)人信用評估組合模型的構(gòu)建——基于決策樹-神經(jīng)網(wǎng)絡(luò)的研究[J].金融論壇,2013,18(2):57-61,67.
[7]? ?楊劍鋒,等.機(jī)器學(xué)習(xí)分類問題及算法研究綜述[J].統(tǒng)計(jì)與決策,2019,(6):36-40.
[8]? ?邱晗,黃益平,紀(jì)洋,等.金融科技對傳統(tǒng)銀行行為的影響——基于互聯(lián)網(wǎng)理財(cái)?shù)囊暯荹J].金融研究,2018,(11):17-29.
[責(zé)任編輯? ?妤? ?文]