林奕皓 王宇森 李旭東 許永峰
摘要:為提升互聯(lián)網(wǎng)金融行業(yè)貸款人決策的直觀性與層次性,提出一種信用分級(jí)模型。對(duì)歷史樣本的信用評(píng)價(jià)指標(biāo)進(jìn)行主成分分析,提取關(guān)鍵信息。利用Logit回歸模型得到“是否違約”和“評(píng)價(jià)指標(biāo)主成分”的關(guān)系,依據(jù)回歸方程所得的“違約概率”對(duì)借款人進(jìn)行信用分級(jí)。采用遺傳模擬退火算法(GSAA)改進(jìn)的BP神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)“等級(jí)”和“評(píng)價(jià)指標(biāo)”間的映射規(guī)則。利用Kaggle網(wǎng)站信用數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明,Logit回歸結(jié)果可信度高,“依概率分級(jí)”區(qū)分度高,GSAA算法可有效提升BP神經(jīng)網(wǎng)絡(luò)的精準(zhǔn)分級(jí)率。分級(jí)模型在測(cè)試樣本上的可信度為99.02%,優(yōu)于二值分類和指標(biāo)賦權(quán)模型,可有效降低貸款人資金風(fēng)險(xiǎn),推動(dòng)互聯(lián)網(wǎng)金融行業(yè)高質(zhì)量發(fā)展。
關(guān)鍵詞:互聯(lián)網(wǎng)金融;信用等級(jí);Logit模型;BP神經(jīng)網(wǎng)絡(luò);遺傳模擬退火算法
DOI:10.11907/rjdk.201160 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)006-0029-06
0 引言
隨著普惠金融政策不斷推進(jìn),互聯(lián)網(wǎng)金融行業(yè)持續(xù)發(fā)展。在過(guò)去幾年,網(wǎng)絡(luò)借貸產(chǎn)業(yè)作為一種創(chuàng)新借貸模式,將互聯(lián)網(wǎng)技術(shù)、電子商務(wù)技術(shù)、民間借貸資本市場(chǎng)和金融服務(wù)模式有機(jī)結(jié)合,突破民間借貸地域受限、市場(chǎng)規(guī)模小、需求難匹配等局限,提高傳統(tǒng)金融市場(chǎng)效率,在一定程度上實(shí)現(xiàn)金融借貸民主化與公開化。
作為互聯(lián)網(wǎng)金融借貸的代表,P2P網(wǎng)絡(luò)借貸在發(fā)展過(guò)程中產(chǎn)生諸多問(wèn)題,面臨很大風(fēng)險(xiǎn),不少貸款人面臨巨大投資損失。征信體系不完善、披露機(jī)制不健全、監(jiān)管法規(guī)不夠有效等因素嚴(yán)重制約網(wǎng)絡(luò)借貸產(chǎn)業(yè)發(fā)展。2019年9月,互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)專項(xiàng)整治工作領(lǐng)導(dǎo)小組發(fā)布《關(guān)于加強(qiáng)P2P網(wǎng)貸領(lǐng)域征信體系建設(shè)的通知》,明確互聯(lián)網(wǎng)金融信用評(píng)估的重要性。2020年以來(lái),全國(guó)范圍持續(xù)推進(jìn)網(wǎng)絡(luò)借貸行業(yè)出清,不少P2P平臺(tái)機(jī)構(gòu)向小貸公司轉(zhuǎn)型,申請(qǐng)互聯(lián)網(wǎng)小貸牌照。當(dāng)前,借貸行業(yè)風(fēng)險(xiǎn)出清呈加速趨勢(shì),其中信用風(fēng)險(xiǎn)問(wèn)題始終是社會(huì)熱議話題。
由此可見,建立有效的借款人信用評(píng)估模型,有利于貸款人作出合理決策,保障貸款人資金安全,也有利于網(wǎng)絡(luò)借貸產(chǎn)業(yè)走出發(fā)展困境,推動(dòng)互聯(lián)網(wǎng)金融產(chǎn)業(yè)高質(zhì)量發(fā)展。
1 文獻(xiàn)述評(píng)
近年來(lái),針對(duì)借款人建立信用評(píng)價(jià)模型的研究較多,主要有主客觀組合賦權(quán)、回歸分析和機(jī)器學(xué)習(xí)3種方法。當(dāng)前,絕大多數(shù)學(xué)者將研究重心放在算法改進(jìn)與創(chuàng)新上,追求更高的預(yù)測(cè)精度。本文從信用評(píng)價(jià)結(jié)果形式角度梳理相關(guān)文獻(xiàn),將其分為二值分類和得分評(píng)定兩種。
基于二值分類模型針對(duì)借款人是否違約進(jìn)行預(yù)測(cè)。該模型將信用評(píng)價(jià)歸結(jié)為0-1二值分類問(wèn)題:不違約或違約。如Altman基于二值分類提出Z-score模型,將回歸分析方法應(yīng)用于信用評(píng)價(jià)領(lǐng)域;Desai等、王春峰等通過(guò)判別分析建立信用評(píng)價(jià)模型;許艷秋等利用層次分析法計(jì)算指標(biāo)權(quán)重,用支持向量機(jī)對(duì)個(gè)人信用數(shù)據(jù)分類;劉瀟雅等利用C4.5信息熵增益率進(jìn)行屬性選擇,將基于支持向量機(jī)的信用評(píng)估模型優(yōu)化;楊勝剛等利用決策樹方法篩選個(gè)人信用指標(biāo),結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立兩階段信用評(píng)估模型;李淑錦等通過(guò)納入宏觀經(jīng)濟(jì)變量,提高P2P平臺(tái)借款人信用評(píng)估預(yù)測(cè)精度;熊志斌通過(guò)引入混沌和小生境技術(shù),提出一種改進(jìn)粒子群算法,結(jié)合模糊神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)公司信用狀況。
基于得分評(píng)定的模型針對(duì)借款人信用量化得分進(jìn)行預(yù)測(cè)。這種模型主要利用主客觀賦權(quán)給評(píng)價(jià)指標(biāo)確定權(quán)重,構(gòu)建信用評(píng)價(jià)測(cè)度體系。如Che等使用數(shù)據(jù)包絡(luò)法和模糊層次分析法賦權(quán),構(gòu)建臺(tái)灣中小企業(yè)信用評(píng)分模型;張目等應(yīng)用可變模糊集理論和相對(duì)熵指標(biāo)組合賦權(quán),構(gòu)建戰(zhàn)略性新興產(chǎn)業(yè)信用評(píng)價(jià)模型;陳曉紅等利用層次分析法主觀賦權(quán),利用因子分析法客觀賦權(quán),設(shè)計(jì)一種改進(jìn)的模糊綜合評(píng)價(jià)信用模型;李步軍等采用灰區(qū)間關(guān)聯(lián)分析對(duì)信用評(píng)價(jià)指標(biāo)賦權(quán),構(gòu)建個(gè)人信用評(píng)估模型;李戰(zhàn)江將Logit回歸和統(tǒng)計(jì)抽樣中的分層思想結(jié)合,構(gòu)建小企業(yè)信用評(píng)價(jià)模型。
對(duì)上述模型設(shè)計(jì)進(jìn)行分析發(fā)現(xiàn)存在以下局限:
(1)對(duì)于二值分類模型,模型預(yù)測(cè)輸出是二元離散變量:違約或不違約??紤]整個(gè)借貸市場(chǎng)處于不同信用水平的借款人數(shù)量應(yīng)滿足某個(gè)概率分布,不局限于好客戶或壞客戶兩個(gè)極端。二值分類評(píng)價(jià)結(jié)果有局限性,評(píng)價(jià)層次感不足。
(2)對(duì)于得分評(píng)定模型,模型預(yù)測(cè)輸出是連續(xù)變量:信用評(píng)分值。若貸款人是個(gè)人,由于其它借款人信息的保密性,貸款人較難通過(guò)一個(gè)具體得分值評(píng)估出借款人信用在全體人員中的相對(duì)排名。若貸款人是企業(yè)或公司,由于評(píng)分具有個(gè)體差異性,貸款公司難以開展分級(jí)管理,不利于業(yè)務(wù)精簡(jiǎn)。
綜合以上分析,有必要建立基于等級(jí)劃分的信用評(píng)估模型,為貸款人提供更全面的決策參考。此外,信用等級(jí)劃分有利于借款人認(rèn)清自身信用的相對(duì)水平,提高借款人對(duì)信用的重視程度,規(guī)范借貸行為,降低壞賬風(fēng)險(xiǎn)。近年來(lái)也有少數(shù)學(xué)者構(gòu)建的模型蘊(yùn)含該思想,如張成虎等結(jié)合層次分析法和決策實(shí)驗(yàn)室法確定指標(biāo)體系權(quán)重,將評(píng)級(jí)得分換算成具體的信用等級(jí)。本文基于上述研究,創(chuàng)新地提出用Logit回歸方程所得的違約概率對(duì)歷史借款人信用進(jìn)行等級(jí)劃分,利用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)借款人信用等級(jí),為完善我國(guó)個(gè)人信用評(píng)價(jià)體系提供參考。
2 模型構(gòu)建
信用分級(jí)模型設(shè)計(jì)思路:提取歷史樣本中信用評(píng)價(jià)指標(biāo)主成分,減小指標(biāo)間相關(guān)程度,從而避免Logit回歸出現(xiàn)嚴(yán)重的多重共線性問(wèn)題;利用Logit回歸構(gòu)建“是否違約”和“評(píng)價(jià)指標(biāo)主成分”關(guān)系;利用Logit回歸方程得到的違約概率對(duì)樣本劃分等級(jí);通過(guò)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),獲取“等級(jí)”和“評(píng)價(jià)指標(biāo)”的映射規(guī)則。利用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)分析新樣本的信用等級(jí)。模型構(gòu)建流程如圖l所示。
2.1 主成分分析
對(duì)歷史樣本中的信用評(píng)價(jià)指標(biāo)進(jìn)行主成分分析,所得主成分作為L(zhǎng)ogit模型的輸入變量。若統(tǒng)計(jì)檢驗(yàn)顯示指標(biāo)變量不適合主成分提取,則直接將各評(píng)價(jià)指標(biāo)視為主成分。
主成分分析通過(guò)線性變換降維思想,在丟失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為若干個(gè)不相關(guān)指標(biāo)。歷史樣本中信用評(píng)價(jià)指標(biāo)主成分提取步驟如下:
(1)設(shè)數(shù)據(jù)集中樣本個(gè)數(shù)為n,原始評(píng)價(jià)指標(biāo)個(gè)數(shù)為p,xij為第i個(gè)樣本中第j個(gè)評(píng)價(jià)指標(biāo)值。根據(jù)式(1)對(duì)原始數(shù)據(jù)作標(biāo)準(zhǔn)化處理:
(2)根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣計(jì)算相關(guān)系數(shù)矩陣和相應(yīng)的特征值λj。
(3)根據(jù)式(2)計(jì)算各特征值的貢獻(xiàn)率η,將貢獻(xiàn)率從大到小排序:
選擇累計(jì)貢獻(xiàn)率大于85%(有時(shí)也取80%或90%)的特征值λj所對(duì)應(yīng)的主成分作為原始評(píng)價(jià)指標(biāo)進(jìn)行替代。
2.2 Logit回歸與等級(jí)劃分
利用Logit回歸構(gòu)建歷史樣本中“是否違約”和“評(píng)價(jià)指標(biāo)主成分”的映射關(guān)系。設(shè)被解釋變量“是否違約”為y,解釋變量“評(píng)價(jià)指標(biāo)主成分”為x1,x2,…xk。由于y是二分性質(zhì)變量,即違約(1)或不違約(0),故選用的分類器函數(shù)形式為:
根據(jù)式(3)可得每個(gè)樣本的違約概率,基于違約概率對(duì)歷史樣本分級(jí)。假設(shè)將樣本分為M級(jí),信用等級(jí)最高的為R1,最低的為RM,等級(jí)為i的樣本占總體比例為ri,得到的分級(jí)結(jié)果如表1所示。
2.3 GSAA-BP神經(jīng)網(wǎng)絡(luò)
通過(guò)等級(jí)劃分,可得每個(gè)歷史樣本的評(píng)價(jià)指標(biāo)和對(duì)應(yīng)的信用等級(jí)。利用BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)“等級(jí)”和“評(píng)價(jià)指標(biāo)”映射規(guī)則。為獲得更優(yōu)的神經(jīng)網(wǎng)絡(luò),采用遺傳模擬退火算法(GSAA)優(yōu)化神經(jīng)網(wǎng)絡(luò)的初始閾值與權(quán)值。對(duì)于新樣本,只需將評(píng)價(jià)指標(biāo)輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)即可得到對(duì)應(yīng)的信用等級(jí)。
2.3.1 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)能力,利用梯度搜索技術(shù)學(xué)習(xí)輸入到輸出的非線性映射關(guān)系。三層BP神經(jīng)網(wǎng)絡(luò)具有很好的映射能力,將隱含層設(shè)定為一層。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,輸人為所有信用評(píng)價(jià)指標(biāo),輸出為對(duì)應(yīng)的信用等級(jí)。
2.3.2 遺傳模擬退火算法(GSAA)優(yōu)化神經(jīng)網(wǎng)絡(luò)原理
BP神經(jīng)網(wǎng)絡(luò)收斂速度較慢,訓(xùn)練時(shí)容易陷入局部最優(yōu)解,因此選用遺傳模擬退火算法優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值與閾值。遺傳模擬退火算法是一種混合智能算法,遺傳算法基于仿生思想,能有效處理目標(biāo)函數(shù)和約束條件相關(guān)的優(yōu)化問(wèn)題,但在實(shí)際應(yīng)用中存在早熟、局部范圍搜索能力較差等缺點(diǎn),模擬退火算法能較好地彌補(bǔ)這些缺陷。
遺傳模擬退火算法優(yōu)化神經(jīng)網(wǎng)絡(luò)初始權(quán)值與閾值步驟如下:
(1)種群初始化。隨機(jī)給定一系列神經(jīng)網(wǎng)絡(luò)初始權(quán)值與閾值稱其為種群。其中每一組初始權(quán)值與閾值稱為個(gè)體。優(yōu)化神經(jīng)網(wǎng)絡(luò)初始權(quán)值與閾值過(guò)程就是選取最優(yōu)個(gè)體過(guò)程。
(2)選取個(gè)體適應(yīng)度函數(shù)。個(gè)體適應(yīng)度廠取期望輸出和預(yù)測(cè)輸出的誤差均值的倒數(shù),即:
式(6)中,N為神經(jīng)網(wǎng)絡(luò)輸出個(gè)數(shù)。實(shí)際與預(yù)測(cè)輸出誤差越小則適應(yīng)度越大。
(3)遺傳算法。遺傳算法根據(jù)個(gè)體對(duì)樣本數(shù)據(jù)的適應(yīng)度對(duì)種群實(shí)現(xiàn)尋優(yōu),使問(wèn)題解空間不斷逼近最優(yōu)解,算法分為選擇、交叉、變異3部分。
選擇操作:利用賭輪盤思想,設(shè)種群大小為M,個(gè)體j的適應(yīng)度為fj,則個(gè)體j被選擇的概率為:
個(gè)體適應(yīng)度和被選擇的概率成正比,可保證擇優(yōu)原則。
交叉操作:交叉操作指交換個(gè)體之間的遺傳基因從而產(chǎn)生新的個(gè)體。設(shè)兩個(gè)體分別為Xa和Xb,對(duì)每個(gè)基因作以下交叉運(yùn)算:
式(8)中,r為[0,1]中均勻分布的隨機(jī)數(shù)。
變異操作:在個(gè)體基因中隨機(jī)選取一個(gè)變異元,根據(jù)變異元取值范圍隨機(jī)選取一個(gè)數(shù)代替原來(lái)的基因取值。
(4)模擬退火算法。假設(shè)初始適應(yīng)度最高的個(gè)體為S,經(jīng)過(guò)遺傳算法操作后得到新的種群中適應(yīng)度最高的個(gè)體為S'。若。f(S')≥f(S),則令S'為當(dāng)前最優(yōu)解;若f(S')T,接受S'為當(dāng)前最優(yōu)解。概率PT計(jì)算公式為
式(9)中,T為當(dāng)前迭代溫度,經(jīng)過(guò)每次迭代溫度都會(huì)依據(jù)冷卻系數(shù)而降低。
(5)判斷算法是否終止。根據(jù)設(shè)定的迭代次數(shù)判斷算法是否終止。若是則計(jì)算當(dāng)前所有個(gè)體適應(yīng)度,選擇具有最高適應(yīng)度的個(gè)體作為最終取值;否則轉(zhuǎn)步驟(3)。
利用遺傳模擬退火算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)權(quán)值與閾值步驟如圖3所示。
圖3中,f為適應(yīng)度函數(shù),gen為循環(huán)計(jì)數(shù)器,T為當(dāng)前溫度值,k為冷卻系數(shù),rand()表示[0,1]之間的隨機(jī)數(shù),Gmax為最大遺傳代數(shù)。
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)說(shuō)明
3.1.1 樣本選取
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自Kaggle網(wǎng)站Give me some credit信用數(shù)據(jù)集。該數(shù)據(jù)是當(dāng)?shù)劂y行開展線上貸款業(yè)務(wù)搜集的數(shù)據(jù),共有150000條,其中違約樣本點(diǎn)有10026個(gè),占總樣本點(diǎn)的6.68%;特征變量有10個(gè),分類變量1個(gè):0代表不違約,1代表違約。具體描述如表2所示。
3.1.2 數(shù)據(jù)處理
數(shù)據(jù)集存在缺失值和異常值。對(duì)于缺失值,由于樣本數(shù)據(jù)量大,要?jiǎng)h除缺失值所在樣本。對(duì)于異常值,采用箱線圖法處理。由于樣本具有不平衡性,部分變量(x3、x7、x9)在處理后的取值僅有1個(gè),根據(jù)實(shí)際經(jīng)驗(yàn)增加可能的取值。經(jīng)處理,樣本共有102699條數(shù)據(jù),其中違約樣本點(diǎn)有6139個(gè),占總樣本點(diǎn)的5.98%。
隨機(jī)選取80%的樣本(82159個(gè))作為訓(xùn)練集,剩余20%的樣本作為測(cè)試集。為消除變量間量綱不同帶來(lái)的影響,采用最小最大規(guī)范化方法對(duì)數(shù)據(jù)歸一化處理,將變量取值映射到[0,1]區(qū)間內(nèi),轉(zhuǎn)換公式如下:
式(10)中,Xmax和Xmin。分別表示變量取值的最大值和最小值。
3.2樣本分級(jí)
對(duì)訓(xùn)練集中的信用評(píng)價(jià)指標(biāo)進(jìn)行KMO和Bartlett球形度檢驗(yàn),得KMO值為0.54。評(píng)價(jià)指標(biāo)不適合做主成分分析,將各指標(biāo)視作主成分,作為L(zhǎng)ogit模型的解釋變量。
首先將所有評(píng)價(jià)指標(biāo)引入方程,Logit回歸結(jié)果顯示x8的系數(shù)在10%的顯著性水平下不顯著,故剔除x8后再次求解,結(jié)果顯示回歸結(jié)果在1%的顯著性水平下通過(guò)檢驗(yàn)。各變量回歸系數(shù)如表3所示。
分析回歸系數(shù)符號(hào),可知貸款數(shù)量、逾期拖欠次數(shù)、生活負(fù)擔(dān)人數(shù)等指標(biāo)對(duì)違約具有正向影響,月收入等指標(biāo)具有負(fù)向影響,這符合實(shí)際認(rèn)知,進(jìn)一步說(shuō)明模型結(jié)果可信。利用Logit回歸方程計(jì)算得到的違約概率對(duì)訓(xùn)練集樣本分級(jí)。不失一般性,考慮將訓(xùn)練樣本分為5級(jí)。假設(shè)訓(xùn)練集中違約樣本比例為a,將違約概率排名百分比位于a后的樣本歸人E級(jí),其余樣本平均劃分,結(jié)果如表4所示。
由等級(jí)劃分結(jié)果可知,隨著信用等級(jí)降低,違約樣本比例逐步提升,表明基于違約概率對(duì)樣本等級(jí)劃分的方法是科學(xué)的。
3.3 GSAA-BP神經(jīng)網(wǎng)絡(luò)建立
3.3.1 隱含層神經(jīng)元個(gè)數(shù)確定
建立三層BP神經(jīng)網(wǎng)絡(luò),輸人層是信用數(shù)據(jù)集的10個(gè)原始評(píng)價(jià)指標(biāo),輸出層為等級(jí)劃分結(jié)果。將訓(xùn)練集樣本分為BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練集和BP神經(jīng)網(wǎng)絡(luò)驗(yàn)證集兩組,其中BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練集占80%,為65727條,用于訓(xùn)練含有不同隱含層的BP神經(jīng)網(wǎng)絡(luò)。令等級(jí)為A、B、C、D、E樣本的網(wǎng)絡(luò)輸出分別為1,2,3,4,5。對(duì)于某樣本,若網(wǎng)絡(luò)預(yù)測(cè)輸出值與實(shí)際值誤差小于等于0.05,則稱該樣本實(shí)現(xiàn)精準(zhǔn)分級(jí)。根據(jù)不同神經(jīng)網(wǎng)絡(luò)在BP神經(jīng)網(wǎng)絡(luò)驗(yàn)證集上的精準(zhǔn)分級(jí)率確定隱含層神經(jīng)元個(gè)數(shù)。
神經(jīng)網(wǎng)絡(luò)有關(guān)參數(shù)設(shè)定如下:訓(xùn)練函數(shù)為trainlm函數(shù),隱含層傳遞函數(shù)為tansig函數(shù),輸出層傳遞函數(shù)為purelin函數(shù),最大訓(xùn)練次數(shù)為10000,學(xué)習(xí)率為0.01,最大訓(xùn)練精度為10-3。BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果如圖4所示。
由圖4可知設(shè)定BP神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元個(gè)數(shù)為20。
3.3.2 GSAA-BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練
沿用前文使用的訓(xùn)練參數(shù),設(shè)定BP神經(jīng)網(wǎng)絡(luò)網(wǎng)格結(jié)構(gòu)為10-20-1。在BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練集上訓(xùn)練GSAA-BP神經(jīng)網(wǎng)絡(luò),然后在BP神經(jīng)網(wǎng)絡(luò)測(cè)試集上檢驗(yàn)相應(yīng)的精準(zhǔn)分級(jí)率,取精準(zhǔn)分級(jí)率最高的GSAA-BP神經(jīng)網(wǎng)絡(luò)用于新樣本的信用等級(jí)評(píng)估。遺傳模擬退火算法有關(guān)參數(shù)設(shè)定如下:最大遺傳代數(shù)為30,種群規(guī)模為10,交叉概率為0.9,變異概率為0.05,初始溫度為100,冷卻系數(shù)為0.95。
為驗(yàn)證遺傳模擬退火算法對(duì)神經(jīng)網(wǎng)絡(luò)優(yōu)化的有效性,在BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練集上分別訓(xùn)練GSAA-BP神經(jīng)網(wǎng)絡(luò)和普通BP神經(jīng)網(wǎng)絡(luò),將這兩種神經(jīng)網(wǎng)絡(luò)應(yīng)用于神經(jīng)網(wǎng)絡(luò)驗(yàn)證集,通過(guò)5次重復(fù)試驗(yàn)對(duì)比精準(zhǔn)分級(jí)率,結(jié)果如圖5所示。
由圖5可知,GSAA-BP神經(jīng)網(wǎng)絡(luò)效果更優(yōu)。對(duì)于神經(jīng)網(wǎng)絡(luò)驗(yàn)證集,普通BP神經(jīng)網(wǎng)絡(luò)平均精準(zhǔn)分級(jí)率為86.1%,而GSAA-BP神經(jīng)網(wǎng)絡(luò)平均精準(zhǔn)分級(jí)率達(dá)96.0%,說(shuō)明遺傳模擬退火算法對(duì)神經(jīng)網(wǎng)絡(luò)的優(yōu)化有效。
3.4 模型檢驗(yàn)與分析
3.4.1 模型可信度指標(biāo)
基于貸款人視角建立模型可信度指標(biāo)。根據(jù)借款人信用預(yù)測(cè)結(jié)果確定可靠借款人群體,則貸款人更愿意把資金借給該群體借款人。設(shè)可靠借款人群體人數(shù)為n1,其中實(shí)際違約人數(shù)為m1,構(gòu)建模型可信度指標(biāo)β如下:
由式(11)可知,模型的β值越高,貸款人的資金安全越有保障,該模型在實(shí)際運(yùn)用中更有優(yōu)勢(shì)。
3.4.2 模型可信度指標(biāo)對(duì)比
計(jì)算分級(jí)模型可信度指標(biāo),利用訓(xùn)練好的GSAA-BP神經(jīng)網(wǎng)絡(luò)對(duì)20540個(gè)測(cè)試樣本分級(jí),將測(cè)試樣本的10個(gè)信用評(píng)價(jià)指標(biāo)作為神經(jīng)網(wǎng)絡(luò)輸入可得到對(duì)應(yīng)的信用級(jí)別。一般來(lái)說(shuō),貸款人傾向借款給信用等級(jí)為A、B的借款人,故可靠借款人群體為信用等級(jí)A、B的樣本。經(jīng)計(jì)算得模型可信度為99.02%,遠(yuǎn)高于測(cè)試集樣本中不違約的樣本比例94.02%,初步說(shuō)明構(gòu)建的信用分級(jí)模型有效可信。
為進(jìn)一步說(shuō)明分級(jí)模型優(yōu)勢(shì),將該模型與二值分類模型作對(duì)比?;诙捣诸惖哪P蛯⒔杩钊朔譃楹每蛻艉蛪目蛻魞深悾士煽拷杩钊巳后w預(yù)測(cè)結(jié)果為好客戶樣本。針對(duì)訓(xùn)練集,依次選取Logit回歸、BP神經(jīng)網(wǎng)絡(luò)、KNN、支持向量機(jī)(SVM、SVC)、決策樹算法、隨機(jī)森林算法、XGBoost算法建立二分類模型。將模型運(yùn)用于測(cè)試集,所得可信度與分級(jí)模型對(duì)比并排序,結(jié)果如表5所示。
由表5可知,分級(jí)模型可信度優(yōu)于主流的基準(zhǔn)二分類器。盡管近年來(lái)在分類領(lǐng)域熱門的RF算法和XGBoost算法性能顯著優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但在貸款人視角下,其可信度和本文建立的分級(jí)模型仍有一定差距。
最后,將分級(jí)模型與基于指標(biāo)賦權(quán)的得分評(píng)定模型作對(duì)比。主觀賦權(quán)法受決策者經(jīng)驗(yàn)影響較大,信用預(yù)測(cè)可信度難以確定,在此選用熵權(quán)法作為研究對(duì)象。參考Logit模型的回歸系數(shù)判斷指標(biāo)正負(fù)向,在訓(xùn)練集中運(yùn)用熵權(quán)法得到各指標(biāo)權(quán)重,利用所得權(quán)重計(jì)算測(cè)試集中樣本的信用得分。假設(shè)分級(jí)模型中預(yù)測(cè)信用等級(jí)為A或B的樣本個(gè)數(shù)為y,則選取測(cè)試集中信用評(píng)分排名位于前y位的樣本作為可靠借款人群體。經(jīng)實(shí)驗(yàn),基于熵權(quán)法賦權(quán)的模型可信度為98.13%,低于分級(jí)模型可信度。經(jīng)分析,可能是因?yàn)殪貦?quán)法賦權(quán)過(guò)于依賴評(píng)價(jià)指標(biāo)的特征,沒有利用好借款人是否違約的信息,而分級(jí)模型中采用的Logit模型充分利用該信息以提升預(yù)測(cè)精度。
綜上,通過(guò)橫向?qū)Ρ瓤烧撟C本文信用分級(jí)模型有效可信,可顯著降低貸款人資金風(fēng)險(xiǎn),保障貸款人作出科學(xué)決策。
4 結(jié)語(yǔ)
針對(duì)互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)評(píng)估問(wèn)題,本文綜合運(yùn)用主成分分析、Logit模型、GSAA-BP神經(jīng)網(wǎng)絡(luò),兼顧客觀數(shù)據(jù)和主觀意愿,構(gòu)建出一種信用分級(jí)模型。通過(guò)科學(xué)劃分借款人信用等級(jí),有效測(cè)度借款人違約風(fēng)險(xiǎn),為貸款人提供直觀的決策參考。
本研究的創(chuàng)新點(diǎn)如下:①對(duì)借款人信用評(píng)價(jià)采用等級(jí)劃分,使評(píng)價(jià)結(jié)果有層次,解決了二值分類和得分評(píng)定的局限性;②提出依概率分級(jí)理念,充分利用Logit回歸方程所得的違約概率進(jìn)行等級(jí)劃分;③使用主成分分析對(duì)評(píng)價(jià)指標(biāo)進(jìn)行預(yù)處理,有效避免了Logit回歸可能存在的多重共線性問(wèn)題。后續(xù)研究可從以下方面人手:①豐富信用評(píng)價(jià)視角,如從借款人、管理部門人手;②完善信用分級(jí)方法,使評(píng)價(jià)結(jié)果更精準(zhǔn)可靠。隨著相關(guān)研究的深入,規(guī)避金融風(fēng)險(xiǎn)手段會(huì)更有效,以推動(dòng)互聯(lián)網(wǎng)金融高質(zhì)量發(fā)展。