毛子林 劉姜
摘? ?要:基于信用風(fēng)險(xiǎn)評(píng)估的文獻(xiàn)隨著時(shí)間的推移以及技術(shù)創(chuàng)新的不斷更新,相關(guān)機(jī)器學(xué)習(xí)方法運(yùn)用近年來也與時(shí)俱進(jìn)。基于此,主要從傳統(tǒng)的機(jī)器學(xué)習(xí)方法、近現(xiàn)代機(jī)器學(xué)習(xí)方法以及近三年來最新研究三個(gè)方面進(jìn)行信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域文獻(xiàn)梳理與評(píng)述,歸納現(xiàn)有機(jī)器學(xué)習(xí)方法存在的問題和不足,并對(duì)未來機(jī)器學(xué)習(xí)方法在金融風(fēng)控領(lǐng)域研究方向做出展望,提出發(fā)展趨勢(shì)。
關(guān)鍵詞:機(jī)器學(xué)習(xí)方法;信用風(fēng)險(xiǎn);評(píng)估
中圖分類號(hào):F830;TP181? ? ? ?文獻(xiàn)標(biāo)志碼:A? 文章編號(hào):1673-291X(2021)23-0117-03
隨著人工智能的發(fā)展和大數(shù)據(jù)時(shí)代的到來,眾多學(xué)者利用機(jī)器學(xué)習(xí)方法對(duì)信用風(fēng)險(xiǎn)評(píng)估展開廣泛研究。信用風(fēng)險(xiǎn)管理在國(guó)內(nèi)外金融機(jī)構(gòu)的穩(wěn)健運(yùn)行中扮演重要角色,傳統(tǒng)的判斷用戶是否違約的方法已經(jīng)不能滿足當(dāng)今數(shù)據(jù)類型多、用戶量大、風(fēng)險(xiǎn)預(yù)測(cè)準(zhǔn)確率高的要求,大量學(xué)者運(yùn)用機(jī)器學(xué)習(xí)方法深入展開相關(guān)討論并做出一系列研究成果,證明該方法具有較好的預(yù)測(cè)和泛化能力。整體來看,我國(guó)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估較國(guó)外起步較晚,起初的文獻(xiàn)大部分都是進(jìn)行傳統(tǒng)單一模型的風(fēng)險(xiǎn)評(píng)估,近年來才開始利用集成機(jī)器學(xué)習(xí)方法進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)。信用風(fēng)險(xiǎn)對(duì)于我國(guó)金融風(fēng)控領(lǐng)域尤為重要,因此,對(duì)此進(jìn)行相關(guān)文獻(xiàn)梳理以及發(fā)展趨勢(shì)研究具有重要意義。
一、基于統(tǒng)計(jì)學(xué)習(xí)方法的信用風(fēng)險(xiǎn)評(píng)估綜述
回歸分析等方法最早用于開展信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域。在國(guó)外,Durand(1941)利用線性判別分析法應(yīng)用信貸評(píng)估系統(tǒng),提出使用基于數(shù)理統(tǒng)計(jì)的模型對(duì)信用風(fēng)險(xiǎn)評(píng)估問題進(jìn)行了研究,是已知文獻(xiàn)中最早被用來進(jìn)行信用風(fēng)險(xiǎn)評(píng)估的方法,自此信用評(píng)估由單純的定性分析轉(zhuǎn)向了定量分析。同時(shí),這一方法存在一定的局限性,它對(duì)于數(shù)據(jù)分布要求的假設(shè)性太強(qiáng),并且樣本分類依據(jù)不是均值而是方差,因此導(dǎo)致最終的分類效果不是特別強(qiáng)。Orgler(1970)在1970年最早使用線性回歸方法針對(duì)貸款者的信用狀況結(jié)合實(shí)際情況進(jìn)行分?jǐn)?shù)評(píng)級(jí),預(yù)測(cè)銀行客戶信用風(fēng)險(xiǎn)。在國(guó)內(nèi),姚路(2017)結(jié)合個(gè)人信用數(shù)據(jù)對(duì)用戶進(jìn)行信用評(píng)價(jià),運(yùn)用多元線性回歸方法進(jìn)行模型構(gòu)建。線性回歸方法從本質(zhì)上來說是用現(xiàn)有用戶信用數(shù)據(jù)對(duì)未知信用狀況的用戶進(jìn)行回歸預(yù)測(cè),最終得出用戶是否違約的概率。
但是線性回歸也有一定的弊端,它所得出的值域介于正負(fù)無(wú)窮大之間,而邏輯回歸方法的出現(xiàn)正好解決了這一問題。Wiginton等(1980)最先提出Logistic 回歸模型用于進(jìn)行信用評(píng)估。邏輯回歸將線性回歸后得出的值進(jìn)行Sigmoid 函數(shù)轉(zhuǎn)換成概率值,在0—1之間設(shè)定經(jīng)驗(yàn)閾值從而實(shí)現(xiàn)二分類問題。Grablowsky(1981)在Logistic基礎(chǔ)上進(jìn)一步提出Probit 回歸模型進(jìn)行風(fēng)險(xiǎn)評(píng)估。該模型主要是將Logistic回歸模型中的似然比對(duì)數(shù)函數(shù)調(diào)整為正態(tài)分布函數(shù)的反函數(shù)。Steenackers等(1989)對(duì)Logistic 回歸模型進(jìn)行優(yōu)化,將用戶信息的各種變量關(guān)系通過該模型進(jìn)行反映,增強(qiáng)了該模型的可解釋性。Ziari (1997)進(jìn)行信用風(fēng)險(xiǎn)評(píng)估時(shí)將線性分析模型與統(tǒng)計(jì)分析模型相結(jié)合,對(duì)比單一的線性分析和統(tǒng)計(jì)分析模型發(fā)現(xiàn)效果更好。在國(guó)內(nèi),胡濱(2011)利用logistic回歸模型對(duì)銀行信貸狀況進(jìn)行分析,以減少信用經(jīng)濟(jì)帶來的損失和風(fēng)險(xiǎn)。李淑錦(2018)運(yùn)用logistic回歸實(shí)證得出傳統(tǒng)金融借貸機(jī)構(gòu)風(fēng)險(xiǎn)低于網(wǎng)貸平臺(tái),同時(shí)考慮閾值的設(shè)定對(duì)規(guī)避模型判斷失誤而導(dǎo)致的資金損失有重要意義。
二、基于現(xiàn)代機(jī)器學(xué)習(xí)方法的信用風(fēng)險(xiǎn)評(píng)估綜述
基于機(jī)器學(xué)習(xí)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型在近年來逐漸興起,展現(xiàn)了相比傳統(tǒng)風(fēng)險(xiǎn)評(píng)估方法較強(qiáng)的優(yōu)越性。常見的現(xiàn)代機(jī)器學(xué)習(xí)方法有BP神經(jīng)網(wǎng)絡(luò)、K近鄰、SVM支持向量機(jī)等。此外,基于樹模型的機(jī)器學(xué)習(xí)方法也廣泛應(yīng)用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估,如基礎(chǔ)的決策樹模型、相關(guān)集成模型如隨機(jī)森林、GBDT、XGBoost、lightGBM等。
在國(guó)外,Makowski(1985)是最先開啟現(xiàn)代機(jī)器學(xué)習(xí)方法在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域應(yīng)用的學(xué)者,他利用用戶信用數(shù)據(jù)在分類樹上構(gòu)建模型,對(duì)好壞客戶進(jìn)行分類并取得了一定效果。Cover 和Hart(1986)提出K近鄰方法,對(duì)于二分類的問題處理比較高效且被廣泛應(yīng)用于信用風(fēng)險(xiǎn)評(píng)估中。Odam(1990)最先將人工神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于個(gè)人信用評(píng)分模型,根據(jù)用戶信用數(shù)據(jù)構(gòu)建評(píng)分體系,指出人工神經(jīng)網(wǎng)絡(luò)在信用評(píng)分過程中有較好的解釋性與應(yīng)用性。Li(2000)對(duì)XGBoost 進(jìn)行信用風(fēng)險(xiǎn)建模研究。Baesensl 等(2003)針對(duì)2003年之前的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型進(jìn)行對(duì)比研究驗(yàn)證發(fā)現(xiàn),線性判別分析法和Logistic 回歸模型在進(jìn)行信用風(fēng)險(xiǎn)評(píng)估表現(xiàn)出較好的效果。Stefan Lessmann 等(2015)在41種分類器對(duì)不同數(shù)據(jù)集進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,集成模型如隨機(jī)森林在信用風(fēng)險(xiǎn)評(píng)估效果上表現(xiàn)最佳。Brown(2012)指出,機(jī)器學(xué)習(xí)方法主要是通過監(jiān)督學(xué)習(xí)對(duì)用戶的信用數(shù)據(jù)進(jìn)行模型構(gòu)建,經(jīng)過數(shù)據(jù)處理、特征提取等一系列操作對(duì)構(gòu)建的模型進(jìn)行用戶行為和特征的預(yù)測(cè),以此來判斷用戶下一次交易違約的可能性。
在國(guó)內(nèi),姜明輝等(2004)利用K近鄰方法研究了信用風(fēng)險(xiǎn)評(píng)估,對(duì)小數(shù)據(jù)集的分類風(fēng)險(xiǎn)問題進(jìn)行實(shí)驗(yàn)分析。劉昕(2007)將人工神經(jīng)網(wǎng)絡(luò)運(yùn)用于銀行信用風(fēng)險(xiǎn)管理,得出神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)的打分法和統(tǒng)計(jì)模型判別正確率更高,并且在第二類錯(cuò)誤率這一關(guān)鍵指標(biāo)上優(yōu)勢(shì)較好。王潤(rùn)華(2010)改進(jìn)支持向量機(jī)進(jìn)行風(fēng)險(xiǎn)評(píng)估,得出多項(xiàng)式核進(jìn)行分類在高斯核和線性核三種方法中表現(xiàn)效果最好。方匡南等(2014)引入Lasso-Logistic 模型,運(yùn)用Lasso方法對(duì)重要的變量特征進(jìn)行選擇,這一組合進(jìn)行個(gè)人信用評(píng)估可以明顯加快計(jì)算速度。付永貴(2016)改進(jìn)線性回歸模型,并在大數(shù)據(jù)的基礎(chǔ)上對(duì)網(wǎng)絡(luò)供應(yīng)商信用數(shù)據(jù)進(jìn)行了研究。羅雅晨(2018)研究了數(shù)據(jù)不平衡問題,基于改進(jìn)的隨機(jī)森林方法提出比例平衡的隨機(jī)森林模型用來建立個(gè)人信用評(píng)分模型。