涂著剛 李正軍 楊 敏
(貴陽(yáng)高新數(shù)通信息有限公司 貴陽(yáng) 550014)
我國(guó)現(xiàn)有商業(yè)銀行尚未建立較為完善的信用風(fēng)險(xiǎn)評(píng)估系統(tǒng),其風(fēng)險(xiǎn)管理工作主要由信貸員完成[1],幫助商業(yè)銀行規(guī)避中小企業(yè)信貸風(fēng)險(xiǎn),構(gòu)建一套科學(xué)嚴(yán)謹(jǐn)?shù)闹行∑髽I(yè)信用評(píng)估模型,對(duì)我國(guó)經(jīng)濟(jì)發(fā)展的轉(zhuǎn)型具有重要意義,也是我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)管理的迫切需要。
商業(yè)銀行對(duì)中小企業(yè)的信用評(píng)級(jí)主要可以分為兩部分,第一部分為構(gòu)建中小企業(yè)信用評(píng)級(jí)指標(biāo)體系,第二部分為評(píng)級(jí)模型及其方法。本文首先量化處理中小企業(yè)信用信息,建立信用評(píng)級(jí)指標(biāo)體系,然后將AdaBoost學(xué)習(xí)方法[2~3]與中小企業(yè)信用評(píng)級(jí)結(jié)合,采用貝葉斯優(yōu)化算法[4]來(lái)構(gòu)建集成信用評(píng)估模型。該模型為商業(yè)銀行在中小企業(yè)的的信用風(fēng)險(xiǎn)管理工作提供了參考,提高了銀行信貸人員的工作效率,降低了銀行對(duì)中小企業(yè)信貸的風(fēng)險(xiǎn)。
針對(duì)我國(guó)商業(yè)銀行在面向中小企業(yè)的信貸風(fēng)險(xiǎn)評(píng)估管理方面尚未建立科學(xué)嚴(yán)謹(jǐn)?shù)男庞迷u(píng)級(jí)制度,本文對(duì)中小企業(yè)信用評(píng)估進(jìn)行研究,其影響因子主要包括財(cái)務(wù)因素和非財(cái)務(wù)因素。財(cái)務(wù)因素主要來(lái)源于企業(yè)財(cái)務(wù)報(bào)表中的財(cái)務(wù)指標(biāo)[5],而非財(cái)務(wù)因素涉及較廣[6],對(duì)于借貸公司法人和股東的背景、社會(huì)關(guān)系難以進(jìn)行定量分析,在一定程度上增加了難度。
根據(jù)國(guó)內(nèi)外著名的評(píng)級(jí)機(jī)構(gòu)[7~8]以及我國(guó)的商業(yè)銀行的評(píng)級(jí)體系,再結(jié)合我國(guó)中小型企業(yè)的特征和發(fā)展現(xiàn)狀,本文建立以下更適應(yīng)我國(guó)國(guó)情的中小型企業(yè)信用評(píng)級(jí)指標(biāo)體系。
表1 中小企業(yè)信用評(píng)級(jí)指標(biāo)體系
Freund在1995年提出了AdaBoost(Adaptive Boost)算法[9],該算法的思想是每迭代一次,增加一個(gè)弱分類器。在本文的AdaBoost[10~11]中,每輪迭代中被正確分類的樣本在下一輪的訓(xùn)練中被選中的概率降低,而被錯(cuò)誤分類的樣本則更有可能被選中,迭代中依次訓(xùn)練弱分類器的權(quán)值,然后將其加權(quán)組合成一個(gè)強(qiáng)分類器。算法流程如下。
1)首 先 對(duì) 樣 本 訓(xùn) 練 集X={(x1,y1),(x2,y2),…,(xM,yM)}初始化訓(xùn)練權(quán)值分布,其中yi(i=1,2,…,M)表示訓(xùn)練樣本的類別標(biāo)簽。每一個(gè)訓(xùn)練樣本最開(kāi)始都被賦予相同的權(quán)值:wi=1/M,這樣訓(xùn)練樣本集的初始權(quán)值分布D1(i)為
2)進(jìn)行迭代
(1)分別利用不同的弱分類器對(duì)訓(xùn)練樣本集X進(jìn) 行 分 類 ,創(chuàng) 建 新 的 樣 本 訓(xùn) 練 集Xk={(xk,1,yk,1),(xk,2,yk,2),…,(xk,M,yk,M)},并計(jì)算其在權(quán)值分布D上的誤差為
(2)選取誤差最小的分類器h作為第k個(gè)基本分類器hk,計(jì)算該分類器在最終的強(qiáng)分類器中所占的權(quán)重:
其中n表示樣本的類別數(shù)目。
(3)更新訓(xùn)練樣本的權(quán)重Dk+1:
(4)歸一化Dk+1(i)。
3)按照步驟2)的公式迭代分別求出弱分類器的權(quán)重系數(shù)。最后將弱分類器加權(quán)組合成一個(gè)強(qiáng)分類器。
貝葉斯優(yōu)化算法(Bayesian Optimization Algo?rithm,BOA)的核心思想是基于概率代理模型[12],在函數(shù)未知的情況下,根據(jù)已有采樣點(diǎn)以及它們之間的聯(lián)系得到預(yù)估函數(shù)的最大值。該算法速度快,迭代次數(shù)少,廣泛應(yīng)用于機(jī)器學(xué)習(xí)和人工智能領(lǐng)域。
本文在已有研究的基礎(chǔ)上,選擇出對(duì)模型具有重要影響的參數(shù),通過(guò)貝葉斯優(yōu)化算法[13]對(duì)參數(shù)進(jìn)行估值,得到最優(yōu)參數(shù)組合,其后利用最優(yōu)參數(shù)組合構(gòu)建AdaBoost-BOA模型[14~15]。在模型中,每次迭代時(shí)樣本被弱分類器分類,選擇出錯(cuò)誤率最小的分類器并計(jì)算權(quán)重,迭代結(jié)束即可得到加權(quán)組合的強(qiáng)分類器。算法流程如圖1。
圖1 AdaBoost-BOA信用評(píng)級(jí)模型算法流程
樣本數(shù)據(jù)的預(yù)處理是首先對(duì)原始數(shù)據(jù)集進(jìn)行評(píng)價(jià)指標(biāo)的選取和缺失值處理,然后對(duì)數(shù)據(jù)進(jìn)行離散化和歸一化,再將樣本數(shù)據(jù)進(jìn)行分組得到訓(xùn)練樣本和測(cè)試樣本。流程如圖2所示。
圖2 數(shù)據(jù)預(yù)處理流程圖
BS(Brier Score)是一個(gè)統(tǒng)計(jì)學(xué)指標(biāo),主要用來(lái)評(píng)價(jià)頻率預(yù)測(cè)準(zhǔn)確度,取值范圍為0~1,其值越靠近0,預(yù)測(cè)準(zhǔn)確度越高。
ROC(Receiver operating characteristic curve)曲線常用來(lái)評(píng)價(jià)分類器在二分類時(shí)的性能,AUC(Ar?ea Under Curve)是ROC與橫縱坐標(biāo)形成的面積,其值越大,分類性能越好。
在本文中,選用了經(jīng)典的AdaBoost、K近鄰判別法(KNN)、XGBoost模型、BP神經(jīng)網(wǎng)絡(luò)以及GB?DT,通過(guò)利用AUC和BS這兩個(gè)分類性能評(píng)價(jià)指標(biāo)對(duì)這些模型與本文提出的AdaBoost-BOA進(jìn)行分析對(duì)比。
表2 信用數(shù)據(jù)集分類模型對(duì)比結(jié)果
從表2中AUC和BS這兩個(gè)評(píng)價(jià)指標(biāo)可以看出,本文提出的AdaBoost-BOA的分類性能最高。
針對(duì)我國(guó)商業(yè)銀行在中小企業(yè)信貸管理方面尚未建立完善的信用評(píng)估體系,本文結(jié)合貝葉斯優(yōu)化算法構(gòu)建了基于AdaBoost-BOA的中小企業(yè)信用評(píng)估模型。實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)的模型相比,本文提出的AdaBoost-BOA能夠得到更小的BS和更大的AUC,表明本文提出的模型具備優(yōu)良的分類性能,比其他常見(jiàn)的分類模型應(yīng)用到中小企業(yè)信用評(píng)級(jí)準(zhǔn)確率更高。