孫治河 張雷
摘 要:采用大數(shù)據(jù)方法預(yù)測企業(yè)違約風(fēng)險(xiǎn)具有重大的現(xiàn)實(shí)意義。傳統(tǒng)的信用評估模型主要是統(tǒng)計(jì)分析模型、判別分析模型等,預(yù)測能力有限。因此,文章建立了基于隨機(jī)森林和支持向量機(jī)兩種機(jī)器學(xué)習(xí)算法的信用預(yù)測模型,并引入ACC、AUC以及FNR評價(jià)指標(biāo)來衡量模型預(yù)測的效果。對比實(shí)驗(yàn)表明,基于隨機(jī)森林的信用預(yù)測模型較支持向量機(jī)模型具有更好的預(yù)測效果,證實(shí)了模型的優(yōu)越性。
關(guān)鍵詞:隨機(jī)森林;支持向量機(jī)(SVM);信用評估模型;中小企業(yè)
0 引言
中小微企業(yè)在吸收社會(huì)就業(yè)和促進(jìn)經(jīng)濟(jì)發(fā)展方面逐漸發(fā)揮著越來越重要的作用[1],而中小企業(yè)本身內(nèi)外部的局限性也使其始終面臨著嚴(yán)重的融資缺口。在此背景下,各金融企業(yè)放寬了對其貸款力度,但信貸危機(jī)問題也隨之而來,需要建立全面客觀的信用評價(jià)模型實(shí)現(xiàn)對中小企業(yè)違約判別預(yù)測,最大化規(guī)避不良信貸風(fēng)險(xiǎn),實(shí)現(xiàn)中小企業(yè)與貸款行業(yè)博弈雙方的平穩(wěn)運(yùn)行和合作共贏。評估體系建立的關(guān)鍵在于科學(xué)指標(biāo)體系的選取和學(xué)習(xí)算法的選擇。
通過大數(shù)據(jù)和機(jī)器學(xué)習(xí)建模的思路針對中小企業(yè)融資問題分別建立了隨機(jī)森林和支持向量機(jī)信用評估模型,克服了傳統(tǒng)方法信息挖掘不足等局限性,健全了融資風(fēng)險(xiǎn)評估體系,進(jìn)一步提高金融機(jī)構(gòu)降低風(fēng)險(xiǎn)的能力[2]。
1 數(shù)據(jù)處理及評價(jià)指標(biāo)建立
采用中小企業(yè)貸款及各項(xiàng)企業(yè)特征數(shù)據(jù)集,包括企業(yè)規(guī)模在內(nèi)的170個(gè)特征值。建立原始指標(biāo)體系之前,應(yīng)用多重插補(bǔ)法和六西格瑪原則對缺失和異常值進(jìn)行了預(yù)處理操作。根據(jù)企業(yè)是否違約劃分?jǐn)?shù)據(jù)集,由于統(tǒng)計(jì)分析可知樣本集存在“統(tǒng)計(jì)性歧視”的不平衡分類情況,會(huì)對模型產(chǎn)生負(fù)面影響,故通過重采樣法加以糾正。
考慮到評價(jià)指標(biāo)體系的全面性、系統(tǒng)科學(xué)性等原則,將信用評估指標(biāo)從財(cái)務(wù)因素指標(biāo)和非財(cái)務(wù)因素指標(biāo)角度劃分為企業(yè)規(guī)模、償債能力、盈利能力、發(fā)展能力4方面共10個(gè)指標(biāo)。
2 兩種機(jī)器學(xué)習(xí)模型對比實(shí)驗(yàn)研究
2.1 基于隨機(jī)森林的信用評估模型
為評價(jià)相同數(shù)據(jù)樣本下不同模型的準(zhǔn)確程度,本文引入林成德等人提出的精度評估方法來評價(jià)模型評估精度[3]。經(jīng)過數(shù)據(jù)處理的指標(biāo)數(shù)據(jù)打包為訓(xùn)練數(shù)據(jù),以企業(yè)是否存在失信行為作為標(biāo)簽向量建立隨機(jī)森林回歸模型?;静襟E如下:
使用Bagging方法形成個(gè)體訓(xùn)練集,從原始訓(xùn)練集中隨機(jī)選擇一定比例的樣本組成新的訓(xùn)練集進(jìn)一步生成分類樹;
從M個(gè)指標(biāo)作選出最具分類能力的指標(biāo)作為節(jié)點(diǎn)的拆分屬性并遴選最佳分割方法的分割節(jié)點(diǎn);
每棵分類樹可在不修剪情況下生長演化;
按照前3個(gè)步驟建立大量的決策樹形成隨機(jī)森林,選取決策樹投票最多的一株為最終分類結(jié)果。
2.2 應(yīng)用網(wǎng)格搜索法選取最佳參數(shù)
2.2.1 決策樹編號(hào)的參數(shù)確定
將n作為決策樹的數(shù)量的估計(jì)值,以10~100為搜索空間,以10為步長進(jìn)行搜索和調(diào)整。當(dāng)子模型增加時(shí),模型的標(biāo)準(zhǔn)差減小,模型泛化能力增強(qiáng)。進(jìn)一步觀察其精度變化可知:當(dāng)子模型數(shù)量增加到70個(gè)左右時(shí),模型精度不再有顯著的提高。因此將70作為決策樹的數(shù)量參數(shù)。
2.2.2 結(jié)點(diǎn)和葉的參數(shù)確定
本文定義了將內(nèi)部節(jié)點(diǎn)重分配所需要的最小樣本數(shù)min_s和葉節(jié)點(diǎn)的最小樣本量定義min_l。當(dāng)節(jié)點(diǎn)的樣本數(shù)小于min_s,則停止分割。通過調(diào)參觀察可知min_s和min_l分別為40和100時(shí),模型取到最高精度83.7%。通過比較基尼系數(shù)和熵指數(shù)可觀察到模型的精度基本保持不變,決策樹的最大深度為9。
2.3? 基于支持向量機(jī)的信用評估模型
如果信用評估問題是線性可分的,那么SVM模型的決定邊界就是對訓(xùn)練集找到的最優(yōu)超平面
D(x)=wTx+b(1)
其中:w是個(gè)特征值的權(quán)值,b是常數(shù)。
其決策函數(shù)為f(x)=sgn(wT+b)(2)
式中:sgn為符號(hào)函數(shù),當(dāng)D(x)>0時(shí),sgn(D(x))=1,反之為0。
在此模型的求解過程中,需要使用核函數(shù)進(jìn)行非線性映射處理到高維特征空間從而轉(zhuǎn)化為線性可分的問題。因此,核函數(shù)和參數(shù)的選擇對SVM回歸效果影響顯著,本文選擇的是徑向基核函數(shù)。此外,還引入了懲罰參數(shù)C,在訓(xùn)練集樣本上采用網(wǎng)格遍歷方法,通過遺傳算法對參數(shù)進(jìn)行優(yōu)化并通過交叉驗(yàn)證檢驗(yàn)。觀察可知,當(dāng)C值為4時(shí),模型精度達(dá)到最大值,即82.5%。
2.4 對比實(shí)驗(yàn)結(jié)果分析
通過實(shí)驗(yàn)得到兩種模型預(yù)測結(jié)果對比如下圖。將使用提取的特征樣本集對測試集上的2 311個(gè)數(shù)據(jù)進(jìn)行了預(yù)測,隨機(jī)森林模型中對數(shù)據(jù)模糊推理和不確定度分別為0%和88.4%,AUC=76%,預(yù)測結(jié)果的準(zhǔn)確率為98.3%;在支持向量機(jī)模型中,F(xiàn)NR僅為3.06%,AUC為73%,預(yù)測的準(zhǔn)確率為96.94%,表明兩種模型都具有良好的效果且隨機(jī)森林模型的評估效果優(yōu)于支持向量機(jī)模型。模型在對企業(yè)不違約的概率判別中顯示出了很好的效果,但對企業(yè)違約概率的判別由于數(shù)據(jù)的不均衡使得實(shí)驗(yàn)結(jié)果較差。隨機(jī)森林模型ROC圖如圖1所示,SVM模型ROC圖如圖2所示。
3 結(jié)語
本文在兼顧原始數(shù)據(jù)可獲得性原則的基礎(chǔ)上,綜合考慮了包含企業(yè)規(guī)模、盈利能力和償債能力等在內(nèi)的財(cái)務(wù)及非財(cái)務(wù)指標(biāo)建立了一套合理且能較好反映企業(yè)信用狀態(tài)的綜合評價(jià)指標(biāo)體系,并進(jìn)一步考慮到數(shù)據(jù)特征采用了適合小樣本數(shù)據(jù)集訓(xùn)練的支持向量機(jī)回歸集成模型和具有良好的噪聲容限和高穩(wěn)定性的隨機(jī)森林模型。實(shí)驗(yàn)結(jié)果顯示,兩種機(jī)器學(xué)習(xí)方法較傳統(tǒng)方法預(yù)測精度好、學(xué)習(xí)效率高。其中,隨機(jī)森林信用評估模型的分類準(zhǔn)確率更是高達(dá)98.3%,表明機(jī)器學(xué)習(xí)方法在進(jìn)行中小企業(yè)信用評估中能更好地進(jìn)行數(shù)據(jù)有效信息的挖掘和具有更好的可行性及有效性。
[參考文獻(xiàn)]
[1]楊元澤.中國中小企業(yè)信貸風(fēng)險(xiǎn)評估研究[J].金融論壇,2009(3):69-73.
[2]薛霏霏.科技型中小企業(yè)信用風(fēng)險(xiǎn)評價(jià)模型及實(shí)證研究[D].大連:東北財(cái)經(jīng)大學(xué),2019.
[3]林成德,彭國蘭.隨機(jī)森林在企業(yè)信用評估指標(biāo)體系確定中的應(yīng)用[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(2):199-203.
(編輯 傅金睿)