陳為民,趙艷秋
(湖南科技大學(xué)商學(xué)院,湖南 湘潭 411100)
機(jī)器學(xué)習(xí)常被應(yīng)用于評(píng)估P2P領(lǐng)域內(nèi)的借款人信用風(fēng)險(xiǎn),信用風(fēng)險(xiǎn)評(píng)估(也稱貸款違約預(yù)測(cè))是利用不同的特征解釋和預(yù)測(cè)借款人未按要求償還貸款的過(guò)程,最終目的是為了幫助投資人做出決策以及借款人的信用得到合理的評(píng)估。通過(guò)閱讀P2P信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域的文獻(xiàn),我們可以發(fā)現(xiàn),越來(lái)越多的研究使用信用風(fēng)險(xiǎn)評(píng)估模型來(lái)評(píng)估違約風(fēng)險(xiǎn),并不斷提出精確度更為優(yōu)秀的評(píng)估模型,從傳統(tǒng)的統(tǒng)計(jì)模型,發(fā)展到如火如荼的機(jī)器學(xué)習(xí)模型,以及近年來(lái)備受推崇的組合模型,但可以發(fā)現(xiàn)除模型準(zhǔn)確度之外,可解釋性也應(yīng)被人們所重視。
雖然現(xiàn)有研究者們提出了一個(gè)又一個(gè)準(zhǔn)確度極高的評(píng)估模型,但不排除最后得到的結(jié)果只是一堆“看上去”毫無(wú)意義的模型參數(shù)和高的準(zhǔn)確度。而我們需要得到的不僅僅是準(zhǔn)確的結(jié)果,我們也需要了解我們從數(shù)據(jù)或特征中學(xué)到了哪些知識(shí),從而導(dǎo)致我們產(chǎn)生了最終的決策,這也是為什么在機(jī)器學(xué)習(xí)構(gòu)建的模型準(zhǔn)確率很高的情況下,統(tǒng)計(jì)模型依舊備受推崇的原因之一。如果一個(gè)模型完全不可解釋,那么在很多領(lǐng)域的應(yīng)用就會(huì)因?yàn)闆](méi)辦法給出更多可靠的信息而受到限制。
本文的可能貢獻(xiàn)在于,基于真實(shí)的人人貸數(shù)據(jù),在保證信用評(píng)估準(zhǔn)確性的同時(shí),利用LIME算法對(duì)借款人信用風(fēng)險(xiǎn)評(píng)估結(jié)果進(jìn)行解釋,希望可以為P2P領(lǐng)域內(nèi)的信貸決策助力。具體來(lái)說(shuō),人人貸數(shù)據(jù)常被用于P2P領(lǐng)域的信用風(fēng)險(xiǎn)研究,但是以往文獻(xiàn)的研究重點(diǎn)并非在可解釋性的研究;機(jī)器學(xué)習(xí)中的樹(shù)模型和邏輯回歸被用于信用風(fēng)險(xiǎn)的評(píng)估;而在模型的結(jié)果解釋方面,選用了LIME算法,該算法從局部解釋的角度出發(fā),對(duì)某個(gè)特定觀測(cè)值的類別分類結(jié)果進(jìn)行解釋,并說(shuō)明某個(gè)變量對(duì)于預(yù)測(cè)結(jié)果的貢獻(xiàn)程度。
本文剩余部分結(jié)構(gòu)為:第二部分是信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域可解釋性相關(guān)的研究。通過(guò)對(duì)相關(guān)研究的梳理,為研究方法和模型的選擇提供了依據(jù);第三部分是實(shí)證,包括對(duì)借款人信用風(fēng)險(xiǎn)的評(píng)估以及基于LIME算法的評(píng)估結(jié)果解釋;第五部分是結(jié)論。
現(xiàn)有的P2P信用風(fēng)險(xiǎn)評(píng)估多用特征重要性評(píng)分或者模型系數(shù)大小對(duì)評(píng)估結(jié)果進(jìn)行解釋,比如邏輯回歸模型的系數(shù)大?。粵Q策樹(shù)模型、XGBoost以及性能更加優(yōu)化的LightGBM模型,但這并滿足可解釋性的目標(biāo)。
指出模型的可解釋性可以從三方面來(lái)體現(xiàn):全局和局部可解釋性、時(shí)間限制以及不同受眾的專業(yè)知識(shí)差異。具體到P2P信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域,全局可解釋性是指解釋“黑箱”模型背后的整個(gè)邏輯,而局部可解釋性是指解釋預(yù)測(cè)結(jié)果的原因,即只需要解釋特定選擇的原因;在時(shí)間限制方面,和短的決策時(shí)間相比,決策者更需要復(fù)雜和詳盡的解釋;關(guān)于不同受眾的專業(yè)知識(shí)差異,對(duì)于信貸領(lǐng)域的研究者來(lái)講,他們會(huì)更加傾向于復(fù)雜的模型,而對(duì)于相關(guān)背景知識(shí)和經(jīng)驗(yàn)較少的投資者而言,透明度高的模型會(huì)更具有可解釋性。
Interpretable Model-agnostic Explanations(LIME)是通過(guò)一個(gè)可解釋的模型g在被解釋分類的數(shù)據(jù)點(diǎn)x處近似擬合模型進(jìn)而解釋分類器f的預(yù)測(cè)一種算法,具體來(lái)說(shuō),為了做到與模型無(wú)關(guān),LIME不會(huì)深入模型內(nèi)部;為了搞清楚哪一部分輸入對(duì)預(yù)測(cè)結(jié)果產(chǎn)生貢獻(xiàn),在被解釋數(shù)據(jù)點(diǎn)x周圍進(jìn)行隨機(jī)擾動(dòng),觀察模型的預(yù)測(cè)行為,然后根據(jù)這些擾動(dòng)的數(shù)據(jù)點(diǎn)z距離被解釋分類點(diǎn)x的距離分配權(quán)重,基于上述學(xué)習(xí)得到一個(gè)可解釋的模型和預(yù)測(cè)結(jié)果。
人人貸是目前我國(guó)P2P網(wǎng)貸行業(yè)影響力較大的網(wǎng)貸平臺(tái)之一,其在合法合規(guī)以及運(yùn)營(yíng)等方面都是P2P行業(yè)的典范,同時(shí)平臺(tái)也積累了大量真實(shí)有效的交易數(shù)據(jù),因此,本文選取人人貸平臺(tái)的實(shí)際交易數(shù)據(jù)作為研究樣本。
我們通過(guò)邏輯回歸模型以及以樹(shù)模型為代表的機(jī)器學(xué)習(xí)模型(決策樹(shù)以及LightGBM)對(duì)樣本進(jìn)行建模,由表1可知集成樹(shù)模型LightGBM的表現(xiàn)要優(yōu)于其余兩個(gè)模型。
表1 各模型精度比較Tab.1 Comparison of accuracy of each model
由表1可知集成模型LightGBM在四種評(píng)價(jià)指標(biāo)中的表現(xiàn)都是最優(yōu)的,故接下來(lái)我們將針對(duì)LightGBM模型的結(jié)果進(jìn)行進(jìn)一步解釋。
3.3.1 LightGBM的特征重要性
一般情況下LightGBM結(jié)果的可解釋性體現(xiàn)在該模型自帶的特征重要性,結(jié)果如下:
表2 LightGBM特征重要性結(jié)果Tab.2 Lightgbm feature importance results
3.3.2 基于LIME算法的結(jié)果討論
LIME在測(cè)試數(shù)據(jù)集中選擇特定樣本,以獲得每個(gè)類的概率值并對(duì)分配概率的原因進(jìn)行說(shuō)明。
圖1 Lime結(jié)果Fig.1 Lime results
圖1是樣本的預(yù)測(cè)結(jié)果,可以看出哪些特征決定樣本被分類到類別0(藍(lán)色),哪些特征決定樣本被分類到類別1(橙色),且具體列出樣本在這些特征的數(shù)值大小,具體來(lái)說(shuō),LightGBM中ProjectStatus和SuccessfulNum是影響借款人違約的重要因素。
為了增加信用評(píng)估的可解釋性,本文首先選擇在建模前對(duì)相關(guān)變量進(jìn)行數(shù)據(jù)探索性分析,找到可能會(huì)對(duì)借款人是否違約產(chǎn)生關(guān)鍵性作用的變量;接著選擇具備特征重要性評(píng)分的樹(shù)模型(決策樹(shù)和LightGBM)以及以模型系數(shù)指代特征重要性的邏輯回歸模型對(duì)數(shù)據(jù)進(jìn)行建模,發(fā)現(xiàn)LightGBM的綜合表現(xiàn)最優(yōu);最后基于LIME算法對(duì)LightGBM模型的結(jié)果進(jìn)行說(shuō)明,得出結(jié)論:在結(jié)構(gòu)化的因素中,除財(cái)務(wù)因素外,借款人之前的借款成功次數(shù)也會(huì)對(duì)借款人是否會(huì)違約產(chǎn)生關(guān)鍵性影響。