張瑜 廖長勇 王新軍
摘? ?要:本文基于商業(yè)銀行客戶信貸記錄數(shù)據(jù)集,通過運(yùn)用拉普拉斯分層模型對客戶的信用風(fēng)險(xiǎn)進(jìn)行預(yù)測研究。利用客戶群體存在差異化的特點(diǎn),采用XGBoost機(jī)器學(xué)習(xí)算法來選擇分層特征以及結(jié)合多元特征的組合形式來預(yù)測客戶的違約情況。在不同分層特征結(jié)構(gòu)下依次對比拉普拉斯分層模型、單獨(dú)模型、共同模型和隨機(jī)森林四個模型的預(yù)測效果,并建立模擬數(shù)據(jù)集來對拉普拉斯分層模型的性能進(jìn)行驗(yàn)證。研究發(fā)現(xiàn):(1)拉普拉斯分層模型的預(yù)測精度是最高的,預(yù)測性能具有穩(wěn)定性;(2)本文數(shù)據(jù)集所適用的最佳分層特征是貸款金額、年齡和婚姻;(3)分層特征的選擇和數(shù)量會依據(jù)不同數(shù)據(jù)而產(chǎn)生相應(yīng)變化,并非一成不變。結(jié)合本文的研究思路和結(jié)果,以期為商業(yè)銀行在客戶信用風(fēng)險(xiǎn)評估實(shí)踐中提供新的思考和建議。
關(guān)鍵詞:信用風(fēng)險(xiǎn);分層特征;拉普拉斯分層模型;XGBoost算法
中圖分類號:F830.33? 文獻(xiàn)標(biāo)識碼:B? 文章編號:1674-2265(2021)10-0055-06
DOI:10.19647/j.cnki.37-1462/f.2021.10.008
一、研究背景和意義
商業(yè)銀行在國民經(jīng)濟(jì)發(fā)展中扮演著重要角色,其信貸業(yè)務(wù)為擴(kuò)大消費(fèi)、推動企業(yè)發(fā)展做出了巨大貢獻(xiàn)。隨著我國經(jīng)濟(jì)進(jìn)入新常態(tài),企業(yè)轉(zhuǎn)型壓力增大,經(jīng)營風(fēng)險(xiǎn)顯現(xiàn),導(dǎo)致企業(yè)信貸質(zhì)量明顯低于個人信貸。為此,各銀行對信貸業(yè)務(wù)結(jié)構(gòu)做出相應(yīng)調(diào)整,采取逐步擴(kuò)大個人信貸比重的策略。同時,隨著大數(shù)據(jù)時代的來臨,銀行掌握著較大規(guī)模的客戶數(shù)據(jù),促使很多銀行更多地采用大數(shù)據(jù)處理技術(shù)和算法來加強(qiáng)自身業(yè)務(wù)的開展,并規(guī)避相應(yīng)的信貸風(fēng)險(xiǎn)。所以,在衡量客戶信用風(fēng)險(xiǎn)時,大多數(shù)銀行也在嘗試找到一種更為高效的數(shù)據(jù)處理方法,為銀行風(fēng)險(xiǎn)評估、風(fēng)險(xiǎn)預(yù)測、是否接受貸款申請等提供決策依據(jù)。
然而,我國銀行業(yè)的發(fā)展相比國外起步較晚,在信用風(fēng)險(xiǎn)管理和控制領(lǐng)域尚不成熟,許多國外的模型方法嚴(yán)格意義上來講不太適用國內(nèi)的市場環(huán)境,因此,結(jié)合社會主義市場經(jīng)濟(jì)的特點(diǎn)進(jìn)行信用風(fēng)險(xiǎn)管控還需要進(jìn)一步探索和研究。大部分商業(yè)銀行對客戶信用進(jìn)行評估的方法主要有專家系統(tǒng)、信用評分和一些概率模型。本文從應(yīng)用的角度出發(fā),認(rèn)為與其他方法相比,采用XGBoost機(jī)器學(xué)習(xí)算法更為理想,即建立一種默認(rèn)的風(fēng)險(xiǎn)模型,對客戶進(jìn)行精準(zhǔn)分類,使建立的模型具有針對性強(qiáng)和準(zhǔn)確度高的特點(diǎn)。但是商業(yè)銀行在實(shí)際應(yīng)用中卻很難實(shí)現(xiàn),原因在于缺乏相關(guān)的分類標(biāo)準(zhǔn),也沒有統(tǒng)一的分類準(zhǔn)則作為參考,所以對客戶進(jìn)行分類的做法在實(shí)踐中存在很大的難度。在大量相關(guān)研究文獻(xiàn)中也沒有考慮怎樣去解決這一問題,而本文旨在尋找一種科學(xué)的方法以便有效地解決上述難題。
本文基于中國某商業(yè)銀行客戶信貸記錄數(shù)據(jù)集,運(yùn)用拉普拉斯分層模型對客戶信用風(fēng)險(xiǎn)進(jìn)行預(yù)測研究。本文主要貢獻(xiàn)在于:(1)利用商業(yè)銀行信貸客戶群體存在差異的特點(diǎn),采用XGBoost機(jī)器學(xué)習(xí)算法來選擇分層特征,并結(jié)合多元特征的組合形式來預(yù)測客戶的違約情況。在更高維數(shù)據(jù)下,運(yùn)用XGboost算法可以更高效、更快捷地選擇分層特征,為商業(yè)銀行在客戶信用風(fēng)險(xiǎn)評估的實(shí)踐中提供新的思路和方法。(2)在不同分層特征結(jié)構(gòu)下依次對比拉普拉斯分層模型、單獨(dú)模型、共同模型和隨機(jī)森林四個模型的預(yù)測效果,同時建立模擬數(shù)據(jù)集來對拉普拉斯分層模型的性能進(jìn)行驗(yàn)證。因此,本文研究結(jié)論更加穩(wěn)健可信,能為相關(guān)研究提供有益借鑒。
二、信用風(fēng)險(xiǎn)研究及評述
信用風(fēng)險(xiǎn)的研究并不是一個全新領(lǐng)域,早在20世紀(jì)60—70年代,學(xué)者們就從多個方面對其展開了研究,逐步提出了一些理論方法。例如,從應(yīng)用技術(shù)角度來看,依據(jù)一些專業(yè)人士的知識和經(jīng)驗(yàn)進(jìn)行風(fēng)險(xiǎn)評估并做出決策,俗稱專家系統(tǒng),其中應(yīng)用比較廣泛的就是5Cs系統(tǒng);對客戶的信用進(jìn)行評分,依據(jù)評分的等級進(jìn)行決策,這便是信用評分模型,也是應(yīng)用比較多的一種評估模型(Kazi,2016)[1];另外,結(jié)合經(jīng)濟(jì)金融領(lǐng)域的計(jì)量方法,運(yùn)用計(jì)量的理論結(jié)合金融知識對客戶進(jìn)行風(fēng)險(xiǎn)評估,開發(fā)了一系列的風(fēng)險(xiǎn)概率模型,如KMV、死亡率模型和生存分析方法等(Huang等,2010;Hassan等,2018;Duan等,2018)[2-4]。截至目前,隨著大數(shù)據(jù)技術(shù)深入人心,其廣泛的應(yīng)用和發(fā)展前景促使一些學(xué)者或工程人員開始運(yùn)用統(tǒng)計(jì)理論、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法來對客戶信用水平展開研究,如神經(jīng)網(wǎng)絡(luò)、邏輯回歸、遺傳算法、隨機(jī)森林以及超參數(shù)優(yōu)化和集成學(xué)習(xí)等方法(Yeh和Lien,2009;Ogundimu,2019;Gordini,2014;Uddin等,2020;王重仁和韓冬梅,2019)[5-9]。同時,也有研究人員從銀行的內(nèi)外部風(fēng)險(xiǎn)環(huán)境、宏觀經(jīng)濟(jì)影響因素、數(shù)據(jù)分布特征、投資者異質(zhì)信念和上市公司的股價(jià)波動等角度來對信用風(fēng)險(xiǎn)進(jìn)行量化和評估(Duan等,2018;Twum等,2021;Abusharbeh,2020;劉穎和唐毓蔓,2020;周壽彬,2016;單雙等,2020)[4,10-14]。個人客戶的信用風(fēng)險(xiǎn)評估大多也結(jié)合了上述的研究思路和方法模型。許多學(xué)者也相應(yīng)地做了一些研究,特別地,也采用了目前較為流行的一些統(tǒng)計(jì)理論和算法模型進(jìn)行研究。部分學(xué)者還利用特征衍生化、聯(lián)邦學(xué)習(xí)等來對個人信用水平進(jìn)行預(yù)測研究。這些研究從不同層面、依據(jù)不同方法和理論基礎(chǔ)做出了各自的貢獻(xiàn),推動了信用風(fēng)險(xiǎn)研究工作的進(jìn)一步發(fā)展,為以后建立更為統(tǒng)一的風(fēng)險(xiǎn)模型提供了豐富的理論研究成果和參考價(jià)值。雖然對信用風(fēng)險(xiǎn)相關(guān)領(lǐng)域的研究數(shù)不勝數(shù),但依據(jù)數(shù)據(jù)特征將客戶進(jìn)行分層的想法在眾多研究文獻(xiàn)中很少涉及。與此同時,客戶差異化的特點(diǎn)要求對客戶進(jìn)行分類,而分類的結(jié)果與新的技術(shù)和方法相結(jié)合就可以建立較為準(zhǔn)確的預(yù)測評估模型而非簡單地建立線性組合模型或者在一些傳統(tǒng)模型基礎(chǔ)上進(jìn)行適當(dāng)修正。
本文主要針對個人信用風(fēng)險(xiǎn)預(yù)測來開展研究工作,試圖尋找一種可以有效衡量個人客戶是否存在違約的評估方法,建立一套可行的方法論。因此,可以通過已經(jīng)獲得的商業(yè)銀行客戶信貸數(shù)據(jù),結(jié)合拉普拉斯分層模型對客戶信用進(jìn)行評估和預(yù)測分析(Tuck等,2021)[15]。先對客戶進(jìn)行分類,依據(jù)一些顯著的特征來對客戶進(jìn)行分組,將不同的客戶群體按照相似的特征屬性進(jìn)行劃分,進(jìn)而預(yù)測客戶是否存在違約的可能性,分組使得預(yù)測的準(zhǔn)確度會更高。然而,分組的標(biāo)準(zhǔn)并不唯一,它隨著數(shù)據(jù)結(jié)構(gòu)的變化而有所改變,但這并不會影響模型的效果。為了說明分層模型的優(yōu)劣,文中不僅與其他模型(隨機(jī)森林、共同模型和單獨(dú)模型)進(jìn)行了效果對比,而且通過過采樣解決了原始樣本標(biāo)簽類別不平衡的問題,從而建立了一個模擬數(shù)據(jù)集來檢驗(yàn)?zāi)P偷暮脡囊约笆欠窬哂蟹€(wěn)定性。最后,根據(jù)預(yù)測效果可以確定什么樣的分層特征是合適的,并據(jù)此建立相應(yīng)的分層模型來進(jìn)行信用預(yù)測。
三、變量選擇與模型設(shè)定
(一)變量介紹
本文所獲得的真實(shí)客戶信貸數(shù)據(jù)集包括3萬個客戶樣本數(shù)據(jù),合計(jì)24個特征變量,每個變量代表客戶的真實(shí)情況。由于客戶信息保密性的要求,無法獲取客戶的全部信息,但是絲毫不會影響方法的可行性。本文旨在說明運(yùn)用分層模型的方法有助于對客戶信用進(jìn)行更準(zhǔn)確的評估。本文建立的模擬數(shù)據(jù)集(4.6萬個客戶樣本數(shù)據(jù))也是在原始數(shù)據(jù)集基礎(chǔ)上產(chǎn)生的,通過對小樣本進(jìn)行過采樣得到,它的數(shù)據(jù)形式不變,只是與原始數(shù)據(jù)相比分布是不一樣的。表1詳細(xì)展示了數(shù)據(jù)的結(jié)構(gòu)及每個變量的含義和屬性。
從如何選擇分層特征的角度來看,依據(jù)數(shù)據(jù)的特征變量和違約情況,本文初步判斷貸款金額和年齡是先要考慮的因素。從貸款金額的分布圖(見圖1)可知,大多數(shù)客戶的貸款額度主要是小額信貸,基本上屬于個人和家庭消費(fèi)貸款。由于貸款的數(shù)額關(guān)系到客戶的還款意愿和能力,與之相關(guān)的有利息率、期限等因素。從整個客戶的貸款年齡情況看(見圖2),貸款客戶以中年人為主。30歲作為一個年齡界限,30歲之前的貸款需求是逐漸升高的,30歲以后的貸款需求逐漸降低。結(jié)合現(xiàn)實(shí)情況可以認(rèn)為,剛畢業(yè)的大學(xué)生在較長一段時期是依靠貸款來解決生活中的各種問題,隨著能力的提升和收入水平的不斷提高,貸款的需求自然會降低,因此,這種趨勢的變化可能會對違約的發(fā)生產(chǎn)生顯著的影響。所以綜上考慮將貸款金額和年齡作為分層特征是比較合適的。
(二)分層變量選擇
拉普拉斯分層模型的應(yīng)用需要預(yù)先設(shè)定分層特征變量,這是對樣本進(jìn)行分組的基礎(chǔ)。分組的目的是對樣本數(shù)據(jù)進(jìn)行精準(zhǔn)預(yù)測,避免不同類型樣本之間互相干擾。分組的標(biāo)準(zhǔn)主要依據(jù)分層特征,從原始特征中進(jìn)行篩選,選取對最后分類結(jié)果顯著的特征變量作為分層變量。當(dāng)數(shù)據(jù)維度較低時,通過專業(yè)的知識和經(jīng)驗(yàn)可以進(jìn)行初步選擇。但是面臨高維數(shù)據(jù)時更為提倡從數(shù)據(jù)本身的結(jié)構(gòu)、分布特點(diǎn)出發(fā)進(jìn)行選擇,解決人腦不能對數(shù)據(jù)進(jìn)行篩選的缺陷。因此,本文采用的分層變量的提取方法為XGBoost機(jī)器學(xué)習(xí)算法,它可以實(shí)現(xiàn)分類預(yù)測,從數(shù)據(jù)內(nèi)部結(jié)構(gòu)、分布特點(diǎn)出發(fā)進(jìn)行特征選擇。因在其算法內(nèi)部已經(jīng)對所有變量進(jìn)行了排列和篩選,所以可以從中找出那些對分類結(jié)果顯著的變量,從而建立模型所需要的分層變量。
由于XGBoost算法是一種提升樹模型,因此,本文依次建立50棵、100棵、150棵和200棵樹模型,分別得到每種樹模型下的所有特征變量對最終分類結(jié)果的影響程度。根據(jù)四種不同樹模型下變量的貢獻(xiàn)度情況,依次將每種樹模型下前四個特征變量提取出來,出現(xiàn)頻率較高的特征變量有[f0](貸款金額)、[f4](年齡)和[f11](賬單金額),說明這三個特征變量對最終分類的貢獻(xiàn)較大,同時也說明先前對貸款金額和年齡進(jìn)行的圖表分析是合理的。因此,將這兩個特征變量作為后續(xù)分類預(yù)測重要的分層特征(見表2)。
(三)模型介紹
關(guān)注到一些數(shù)據(jù)具有([Z],[X],[Y])這種形式,通常情況下適用于分類預(yù)測和回歸。[Z]代表分層特征變量,是一種劃分的標(biāo)準(zhǔn)或依據(jù),一般[Z]可能由一個或者兩個及以上特征變量組成,如本文(貸款金額,年齡,賬單金額);[Y]代表預(yù)測的目標(biāo)值或者標(biāo)簽,是最終實(shí)現(xiàn)的回歸或分類的結(jié)果,分類時[Y]一般情況下至少有兩個標(biāo)簽;[X]是除了[Z]和[Y]以外的其他特征變量組成的特征矩陣,[X]的特征變量的數(shù)目不確定,可能很多,也可能為0。存在([zi],[xi],[yi])[∈]([Z],[X],[Y]),[i=1,…,k],它是每一層的特征值結(jié)構(gòu)變量。[zi∈]Z是Z中第[i]層的分層特征值;[xi∈X]是對應(yīng)第[i]層的向量矩陣;[yi∈Y]是第[i]層的標(biāo)簽數(shù)組。[k]是層數(shù),它等于[Z]的每一個特征變量下的特征值個數(shù)的乘積,[k]的數(shù)目意味著整個分層模型中層結(jié)構(gòu)的數(shù)量。為了準(zhǔn)確預(yù)測,盡可能地?zé)o限接近標(biāo)簽值,使得誤差最小,模型中需要進(jìn)行正則化項(xiàng)來防止過擬合。
拉普拉斯分層模型的函數(shù)表達(dá)式為:
[l(θzi)=i=1kj=1m(li(xzi,yzi;θzi)j+r(θzi))+L(θzi)]? ?(1)
在表達(dá)式(1)中[l]代表著目標(biāo)損失函數(shù);[m]是第[i]層的樣本數(shù)量;[θzi]是第[i]層需要擬合的參數(shù),模型的訓(xùn)練過程就是不斷調(diào)整和優(yōu)化[θzi],使損失函數(shù)向0接近;r是一種局部正則化,對參數(shù)進(jìn)行懲罰;[L]是拉普拉斯正則化,從整體出發(fā)對參數(shù)進(jìn)行懲罰。
局部損失函數(shù)[li]的表達(dá)式為:
[li(xzi,yzi;θzi)j=yziloghθzixzi+1-yzilog1-hθzixzi,i=1,…,k]? ? ? (2)
局部損失函數(shù)表達(dá)式(2)中的h是sigmoid函數(shù)的形式,即有[hθzixzi=11+e-θTzixzi]。由于本文的預(yù)測目標(biāo)值是典型的二分類問題,因此,將邏輯回歸損失函數(shù)作為局部損失函數(shù),如果是回歸問題可以采用最大均方誤差損失函數(shù)。
選擇L2范數(shù)作為局部損失函數(shù)的正則化項(xiàng),[λ]作為懲罰參數(shù),表達(dá)式如下:
[rθzi=λ2mθzi2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
整體的正則化項(xiàng)度量模型參數(shù)的平滑性,對每層的參數(shù)進(jìn)行懲罰,刻畫層之間的相互關(guān)聯(lián),對于缺失層的參數(shù)通過加權(quán)的方式進(jìn)行構(gòu)建。[Wij]是一個非負(fù)對稱矩陣,[Wij]的變化導(dǎo)致模型發(fā)生改變。當(dāng)[Wij]無限接近0時,所有的參數(shù)都不相等,產(chǎn)生單獨(dú)模型;當(dāng)[Wij]接近無窮大時,所有的參數(shù)幾乎相等,產(chǎn)生共同模型。拉普拉斯正則化項(xiàng)表達(dá)式如下:
[Lθzi=12i,j=1kWijθzi-θzj22,i=1,…,k]? ? ?(4)
完整的損失函數(shù)表達(dá)式為:
[lθzi=i=1kj=1m(yziloghθzixxi+1-yzilog1-hθzixzi+λ2mθzi2)+12i,j=1kWijθzi-θzj22,i=1,…,k]? (5)
將數(shù)據(jù)在模型上進(jìn)行擬合,使得損失函數(shù)的數(shù)值最小,且向0靠近就可以找到最合適的[θ]參數(shù)值。也就說明模型預(yù)測的值與標(biāo)簽值足夠接近,模型的準(zhǔn)確度較高。對于缺失層數(shù)據(jù)無法擬合相關(guān)參數(shù)的問題,模型設(shè)計(jì)中采用了加權(quán)的方式來建立缺失層參數(shù),借力相鄰層參數(shù)的力量來擬合。例如,如果分層特征是(年齡,教育),那么存在缺失特征值(25,本科),存在特征值(26,本科)、(24,本科)、(25,高中)和(25,研究生),通過對四個特征值參數(shù)的加權(quán)平均可以得到特征值(25,本科)的參數(shù)值。通過這樣的方法可以來彌補(bǔ)部分層參數(shù)缺失的情況。
四、實(shí)證結(jié)果與分析
違約情況的分析預(yù)測主要通過對以往歷史數(shù)據(jù)的擬合和分類,尋找一種數(shù)據(jù)分布規(guī)律,從而對未出現(xiàn)的新樣本進(jìn)行估計(jì)和預(yù)測。接下來本文將使用數(shù)據(jù)集來擬合拉普拉斯分層模型,對個人客戶的信用違約情況進(jìn)行預(yù)判,獲得預(yù)測結(jié)果與真實(shí)結(jié)果的偏差。一方面,需要對貸款金額和賬單金額進(jìn)行區(qū)間段的劃分,每個區(qū)間段采用獨(dú)熱編碼的形式作為代表以簡化運(yùn)算。由于貸款金額和賬單金額的數(shù)值較大,因此,會消耗較大計(jì)算資源。而年齡按照每一個實(shí)際年齡作為一個特征值,同時原始數(shù)據(jù)集和模擬數(shù)據(jù)集采用相同的比例劃分訓(xùn)練集和測試集,根據(jù)數(shù)據(jù)集的大小將比例確定為0.2。為了說明拉普拉斯分層模型的預(yù)測效果,將四個模型(分層模型、單獨(dú)模型、共同模型和隨機(jī)森林)得到的預(yù)測誤差結(jié)果進(jìn)行比較,誤差最小則說明性能最佳。另一方面,本文考慮如果不采用算法來選擇分層特征,而是根據(jù)一些可能對違約有影響的特征信息的任意組合形式來組建分層特征,那么預(yù)測結(jié)果和準(zhǔn)確度將會有所差距。為此本文做了相關(guān)實(shí)驗(yàn),選擇貸款金額、年齡、婚姻、教育和性別等特征變量任意組合形成分層特征。當(dāng)分層特征確定的時候,所有模型都處于同一分層特征下進(jìn)行擬合。所以本文依次嘗試組建兩個、三個、四個和五個分層特征進(jìn)行組合,分別在原始數(shù)據(jù)和模擬數(shù)據(jù)集上進(jìn)行擬合,研究不同形式的組合對最終預(yù)測結(jié)果的影響。所有模型的預(yù)測結(jié)果如表3所示。
通過表3模型預(yù)測結(jié)果可以知道,在每種分層特征結(jié)構(gòu)下分層模型始終是四個模型中表現(xiàn)最好的。當(dāng)分層特征結(jié)構(gòu)是(貸款金額,年齡,婚姻)時,誤差可以達(dá)到 0.1311;而通過算法得到的分層特征結(jié)構(gòu)是(貸款金額,年齡,賬單金額)時,誤差為0.1404。雖然通過這種任意組合特征變量得到的誤差略優(yōu)于算法,但是選擇上具有偶然性,并且?guī)в幸欢ǖ闹饔^因素,然而在當(dāng)前的數(shù)據(jù)結(jié)構(gòu)下,它可能是最合適的分層特征結(jié)構(gòu)。當(dāng)然算法并非完全準(zhǔn)確的,也存在算法不能尋找到的某種聯(lián)系和規(guī)律。但是隨著特征變量的增多,數(shù)據(jù)的分布規(guī)律和特點(diǎn)就會發(fā)生很大變化,當(dāng)數(shù)據(jù)是高維數(shù)據(jù)的時候,無法通過人的知識和經(jīng)驗(yàn)判斷去挑選合適的特征。因此,在選擇特征變量的時候算法的優(yōu)勢就可以體現(xiàn)出來,像0.1311和0.1404之間的差距很小,所以算法選擇依然會幫助我們實(shí)現(xiàn)想要的預(yù)期結(jié)果。
本文在原始數(shù)據(jù)集上對所有的模型進(jìn)行了擬合,證明了分層模型的優(yōu)勢所在,即隨著分層特征的改變,分層模型的預(yù)測準(zhǔn)確度始終是最高的。但是需要去檢驗(yàn)分層模型是否具有穩(wěn)定性,是否會因?yàn)閿?shù)據(jù)的變化而變得性能沒有其他模型好。因此,建立模擬數(shù)據(jù)集來擬合所有模型。經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),在所有模型中分層模型依然是表現(xiàn)最好的。
本文將個人客戶信用的違約視作一種二分類問題,運(yùn)用分層模型可以回答“是”與“否”的情形,即個人客戶是否會發(fā)生違約。通過上述數(shù)據(jù)結(jié)果表明,對個人客戶信用的未來判斷是可以進(jìn)行量化和估計(jì)的,對潛在的風(fēng)險(xiǎn)危機(jī)可以采用一些算法和模型進(jìn)行綜合評估。當(dāng)然這種未來預(yù)測的應(yīng)用不僅僅停留在個人客戶,對于企業(yè)客戶依然可以適用,僅僅需要開發(fā)相關(guān)的模型,但是預(yù)測和評估的方法論是不變的。
五、結(jié)論與建議
本文旨在說明運(yùn)用拉普拉斯分層模型,結(jié)合機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)特征選擇和對目標(biāo)客戶進(jìn)行分層的思想有助于對客戶違約情況進(jìn)行較為準(zhǔn)確的判斷,實(shí)驗(yàn)也證明了這一方法的可行性。對客戶按照不同的特征進(jìn)行分組,在實(shí)際應(yīng)用中并不常見。分組使處于不同風(fēng)險(xiǎn)、不同群體的客戶可以實(shí)現(xiàn)精準(zhǔn)化預(yù)測,更好地評估客戶的個人信用風(fēng)險(xiǎn)。因此,本文認(rèn)為如果將它應(yīng)用于信用風(fēng)險(xiǎn)評估的實(shí)踐中,可能會為更好地解決個人信用違約問題產(chǎn)生積極的效果,為銀行信用風(fēng)險(xiǎn)評估提供一些可靠的決策參考依據(jù),但是依然需要實(shí)踐去檢驗(yàn)?zāi)P偷倪m用性。
然而,本文的研究工作也存在不足:第一,由于無法獲得足夠多的樣本數(shù)據(jù),分層使得部分?jǐn)?shù)據(jù)樣本容量不足,造成擬合模型的過程中存在誤差。第二,分層特征的選取不夠全面。由于本文獲得的數(shù)據(jù)只是客戶信用數(shù)據(jù)的一部分,在此基礎(chǔ)上所產(chǎn)生的分層特征并不能完全代表真正的分組標(biāo)準(zhǔn),但是并不會影響方法的可行性。第三,模型訓(xùn)練的過擬合問題是不可避免的,即便使用各種技巧或技術(shù)來解決,偏差依然存在。
為了在實(shí)踐中更好地應(yīng)用這種方法,可考慮以下建議:首先,模型需要較大的數(shù)據(jù)容量,也就意味著客戶數(shù)據(jù)要足夠多,客戶信息要足夠充分和豐富;其次,在實(shí)踐中需要建立基礎(chǔ)模型,通過不斷地訓(xùn)練和迭代,調(diào)整參數(shù)和超參數(shù),保證損失值朝著0的方向前進(jìn);最后,由于各商業(yè)銀行之間處于競爭狀態(tài),不可能分享客戶的信用記錄,所以可以借助第三方(如銀保監(jiān)會、中國人民銀行等)來推動模型的開發(fā)工作。
參考文獻(xiàn):
[1]Kazi R H. 2016. Development of a Credit Scoring Model for Retail Loan Granting Financial Institutions from Frontier Markets [J].International Journal of Economics and Business Research,5(55).
[2]Huang F F,Yong Y, Li Z. 2010. Evaluation of Default Risk Based on KMV Model for ICBC, CCB and BOC [J].International Journal of Economics and Finance,2(1).
[3]Hassan M K,Brodmann J,Rayfield B,Huda M. 2018. Modeling Credit Risk in Credit Unions Using Survival Analysis [J].International Journal of Bank Marketing.
[4]Duan, J C,Kim, B,Kim, W,Shin D. 2018. Default Probabilities of Privately Held Firms [J].Social Science Electronic Publishing,94(9).
[5]Yeh I C, Lien C H. 2009. The Comparisons of Data mining Techniques for the Predictive Accuracy of Probability of Default of Credit Card Clients [J].Expert Systems with Applications,36(2).
[6]Ogundimu E O. 2019. Prediction of Default Probability by Using Statistical Models for Rare Events [J].Journal of the Royal Statistical Society Series A,182(4).
[7]Gordini N. 2014. A Genetic Algorithm Approach for SMEs Bankruptcy Prediction:Empirical Evidence from Italy[J].Expert Systems with Applications,41(14).
[8]Uddin M S,Chi G,Janabi MAMA,Habib T. 2020. Leveraging Random Forest in Micro-enterprises Credit Risk Modelling for Accuracy and Interpretability [J].International Journal of Finance & Economics,(2).
[9]王重仁, 韓冬梅. 基于超參數(shù)優(yōu)化和集成學(xué)習(xí)的互聯(lián)網(wǎng)信貸個人信用評估 [J].統(tǒng)計(jì)與決策,2019,35(1).
[10]Twum A K,Zhongming T,Agyemang A O,Ayamba EC,Chibsah R. 2021. The Impact of Internal and External Factors of Credit Risk on Businesses:An Empirical Study of Chinese Commercial Banks [J].Journal of Corporate Accounting & Finance, 32(1).
[11]Abusharbeh M T. 2020. Determinants of Credit Risk in Palestine:Panel Data Estimation [J].International Journal of Finance & Economics, 1-10.
[12]劉穎,唐毓蔓.一種基于信用評估數(shù)據(jù)分布特征的GAσFCM算法 [J].統(tǒng)計(jì)與決策,2020,(2).
[13]周壽彬.基于反常擴(kuò)散模型的個人信用風(fēng)險(xiǎn)評估方法 [J].統(tǒng)計(jì)與決策,2016,(13).
[14]單雙, 畢秋香, 胡挺. 投資者異質(zhì)信念下的信用債違約風(fēng)險(xiǎn)量化研究——基于我國信用債市場的應(yīng)用 [J]. 南方經(jīng)濟(jì),2020,(2).
[15]Tuck J,Barratt S,Boyd S. 2021. A Distributed Method for Fitting Laplacian Regularized Stratified Models [J]. Journal of Machine Learning Research,22(60).
Credit Risk Forecasts for Bank Customers Based on a Stratified Model
Zhang Yu1/Liao Changyong2/Wang Xinjun2
(1. Department of Labor Economics,Shandong Labor Vocational and Technical College,Jinan? ?250022,Shandong,China;
2. School of Economics,Shandong University,Jinan? ?250100,Shandong,China)
Abstract:Based on the customer credit record data set of a commercial bank,this paper predicts the credit risk of customers by using the Laplacian stratified model. The XGBoost machine learning algorithm is used to select hierarchical features and a combined form of multivariate features to predict customer defaults,taking advantage of the existence of differentiated customer groups. The prediction effects of the four models,Laplace hierarchical model,individual model,common model and random forest,are compared in turn under different hierarchical feature structures,and simulation data sets are built to validate the performance of the Laplace hierarchical model. It is found that:(1)the prediction accuracy of the Laplacian stratified model is the highest and the prediction performance is stable;(2)the best stratification characteristics applied to the dataset in this paper are loan amount,age and marriage. The selection and number of stratification features will change accordingly based on different data and are not set in stone. Combining the research ideas and results of this paper,we aim to provide new thoughts and suggestions for commercial banks in the practice of customer credit risk assessment.
Key Words:credit risk,stratification features,Laplacian stratified model,XGBoost algorithms