董路安,葉 鑫
(大連理工大學(xué)經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116024)
全球金融危機(jī)爆發(fā)以來(lái),銀行和金融機(jī)構(gòu)的風(fēng)險(xiǎn)控制問(wèn)題受到了廣泛的關(guān)注。信用風(fēng)險(xiǎn)評(píng)價(jià)作為風(fēng)險(xiǎn)防控的主要工具之一,為銀行和金融機(jī)構(gòu)有效衡量貸款風(fēng)險(xiǎn),降低潛在信貸違約風(fēng)險(xiǎn),并制定決策提供了保障[1]。隨著人工智能浪潮的來(lái)襲,基于機(jī)器學(xué)習(xí)的信用風(fēng)險(xiǎn)評(píng)價(jià)模型以其精確的預(yù)測(cè)結(jié)果受到銀行等金融機(jī)構(gòu)的青睞,正逐步取代以信用評(píng)分卡和回歸為主的傳統(tǒng)信用風(fēng)險(xiǎn)評(píng)價(jià)[2-5]。但與傳統(tǒng)信用風(fēng)險(xiǎn)評(píng)價(jià)方法相比,機(jī)器學(xué)習(xí)模型是一個(gè)黑箱模型,對(duì)投資者而言缺乏必要的可解釋性[6]。由于投資者缺乏有效的機(jī)制了解機(jī)器學(xué)習(xí)模型內(nèi)部決策過(guò)程,導(dǎo)致投資者無(wú)法完全信任其預(yù)測(cè)結(jié)果[7-8]。同時(shí)為保證申請(qǐng)人具有平等的貸款機(jī)會(huì),歐盟在《一般數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR)中要求銀行所使用的信用風(fēng)險(xiǎn)評(píng)價(jià)模型能夠?yàn)槠漕A(yù)測(cè)結(jié)果提供必要的解釋[9]。這也限制了其在信用風(fēng)險(xiǎn)評(píng)價(jià)中的應(yīng)用及推廣[10]。因此,提高基于機(jī)器學(xué)習(xí)的信用風(fēng)險(xiǎn)評(píng)價(jià)模型可解釋性,構(gòu)建兼顧準(zhǔn)確性與可解釋性的信用風(fēng)險(xiǎn)評(píng)價(jià)模型,成為信用風(fēng)險(xiǎn)評(píng)價(jià)的關(guān)鍵。
為實(shí)現(xiàn)模型的準(zhǔn)確性與可解釋性間的有效權(quán)衡,Craven等[11-12]提出了TREPAN算法,該方法利用神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行重新標(biāo)注,新標(biāo)記的數(shù)據(jù)集(偽數(shù)據(jù)集)被用于決策樹(shù)的訓(xùn)練,并通過(guò)局部和全局約束準(zhǔn)則控制決策樹(shù)的可解釋性,實(shí)驗(yàn)表明所生成的決策樹(shù)更易于決策者理解。Baesens等[6]將TREPAN算法應(yīng)用于信用風(fēng)險(xiǎn)評(píng)價(jià)研究,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法在信用風(fēng)險(xiǎn)評(píng)價(jià)上的可靠性。但TREPAN算法所生成的決策樹(shù)是基于M-of-N形式規(guī)則的,單個(gè)規(guī)則不利于決策者理解[13]。針對(duì)TREPAN算法的局限性,Schmitz等[14]以CART決策樹(shù)為基礎(chǔ)提出了ANN-DT方法,并通過(guò)控制決策樹(shù)最大深度使生成的決策樹(shù)更具有可解釋性。Wu等[15]提出樹(shù)正則化概念,通過(guò)樹(shù)正則化對(duì)黑箱模型進(jìn)行約束,使黑箱模型指導(dǎo)生成的決策樹(shù)具有更好的可解釋性和準(zhǔn)確性。Huysmans等[16]將上述方法歸納為教學(xué)式方法(Pedagogical method)。該類方法參照人類教學(xué)過(guò)程,利用決策樹(shù)(學(xué)生)學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型(教師)的功能,所生成的決策樹(shù)既保留了機(jī)器學(xué)習(xí)模型預(yù)測(cè)精準(zhǔn)的優(yōu)點(diǎn),又能發(fā)揮決策樹(shù)易于決策者理解的優(yōu)勢(shì)。由于教學(xué)式方法在解決模型的準(zhǔn)確性與可解釋性權(quán)衡問(wèn)題上的良好表現(xiàn),引起了國(guó)內(nèi)外學(xué)者的關(guān)注。
總體來(lái)看,教學(xué)式方法在信用風(fēng)險(xiǎn)評(píng)價(jià)領(lǐng)域已進(jìn)行了一些探索性的嘗試,但現(xiàn)有的研究并未對(duì)機(jī)器學(xué)習(xí)模型功能的正確性和可信度進(jìn)行衡量,模型中錯(cuò)誤的或可信度低的功能會(huì)降低決策樹(shù)的預(yù)測(cè)精度,影響其在信用風(fēng)險(xiǎn)評(píng)價(jià)中的效果。同時(shí)在決策樹(shù)構(gòu)建過(guò)程中,現(xiàn)有的方法對(duì)于生成決策樹(shù)的準(zhǔn)確性、可解釋性以及其與機(jī)器學(xué)習(xí)模型的一致性三者間缺乏有效地權(quán)衡,影響整體效果。基于此,本文提出了一種基于改進(jìn)教學(xué)式方法的信用風(fēng)險(xiǎn)評(píng)價(jià)模型構(gòu)建方法。(1)為提高所生成決策樹(shù)在信用風(fēng)險(xiǎn)評(píng)價(jià)中的預(yù)測(cè)精度,該方法對(duì)機(jī)器學(xué)習(xí)模型功能的正確性和可信度進(jìn)行了有效的衡量,決策樹(shù)僅學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型中正確且可信度高的功能。(2)為更好的實(shí)現(xiàn)決策樹(shù)在各評(píng)價(jià)指標(biāo)間的有效權(quán)衡,提出了一種新的決策樹(shù)剪枝方法。在實(shí)證分析中,利用3個(gè)真實(shí)信用風(fēng)險(xiǎn)評(píng)價(jià)數(shù)據(jù)集對(duì)本文方法進(jìn)行了驗(yàn)證,并取得了較好的應(yīng)用效果。
信用風(fēng)險(xiǎn)評(píng)價(jià)本質(zhì)是一種信用分析工具,其核心是預(yù)測(cè)貸款結(jié)果,并輔助投資者進(jìn)行決策。本節(jié)將結(jié)合信用風(fēng)險(xiǎn)評(píng)價(jià)問(wèn)題對(duì)教學(xué)式方法進(jìn)行簡(jiǎn)要的介紹,分析其存在的局限,并提出改進(jìn)的教學(xué)式方法。
教學(xué)式方法模擬人類教學(xué)過(guò)程,將機(jī)器學(xué)習(xí)模型和決策樹(shù)分別視為教師和學(xué)生。機(jī)器學(xué)習(xí)模型(教師)被用來(lái)指導(dǎo)決策樹(shù)(學(xué)生)的構(gòu)建與訓(xùn)練,其目標(biāo)是所生成的決策樹(shù)能夠近似模擬機(jī)器學(xué)習(xí)模型功能,在信用風(fēng)險(xiǎn)評(píng)價(jià)中做出準(zhǔn)確預(yù)測(cè),且模型及其預(yù)測(cè)結(jié)果易于決策者的理解。教學(xué)式方法的流程框架如圖1所示。
圖1 教學(xué)式方法流程框架
(1)
決策樹(shù)通過(guò)學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型的功能,繼承了機(jī)器學(xué)習(xí)模型預(yù)測(cè)精準(zhǔn)的優(yōu)勢(shì),且決策樹(shù)結(jié)構(gòu)簡(jiǎn)單,決策過(guò)程和預(yù)測(cè)結(jié)果易于決策者理解。但現(xiàn)有的方法仍存在以下局限:
(1)現(xiàn)有的方法對(duì)于機(jī)器學(xué)習(xí)模型功能的正確性和可信度缺乏有效的識(shí)別,機(jī)器學(xué)習(xí)模型所包含的錯(cuò)誤的或可信度低的功能,會(huì)導(dǎo)致模型在信用風(fēng)險(xiǎn)評(píng)價(jià)時(shí)做出錯(cuò)誤預(yù)測(cè),影響投資者的決策。決策樹(shù)在學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型過(guò)程中,應(yīng)避免對(duì)于錯(cuò)誤的或可信度低的功能的學(xué)習(xí),而應(yīng)更關(guān)注對(duì)于正確且可信度高的功能的學(xué)習(xí)與模擬,以提高其在信用風(fēng)險(xiǎn)評(píng)價(jià)中的預(yù)測(cè)精度;
(2)在決策樹(shù)生成過(guò)程中,決策樹(shù)剪枝可以有效地提高模型的可解釋性。但現(xiàn)有方法對(duì)于準(zhǔn)確性、可解釋性以及所生成決策樹(shù)與機(jī)器學(xué)習(xí)模型的一致性三者間缺乏有效地權(quán)衡,往往只考慮單一方面,而忽略其他方面,影響整體效果。
針對(duì)上述問(wèn)題,本節(jié)提出一種改進(jìn)的教學(xué)式方法,以構(gòu)建準(zhǔn)確且可解釋的信用風(fēng)險(xiǎn)評(píng)價(jià)模型。相較于傳統(tǒng)教學(xué)式方法,為提高決策樹(shù)的預(yù)測(cè)精度,本方法在偽數(shù)據(jù)集生成階段,對(duì)機(jī)器學(xué)習(xí)模型功能的正確性和可信度進(jìn)行度量,并提出了基于Weight-SMOTE的偽數(shù)據(jù)集生成方法,來(lái)提高正確且可信度高的樣本在偽數(shù)據(jù)集中的比例,以此提高決策樹(shù)對(duì)于機(jī)器學(xué)習(xí)模型中正確且可信度高的功能的學(xué)習(xí)能力。其次,為實(shí)現(xiàn)決策樹(shù)在準(zhǔn)確性、可解釋性及其與機(jī)器學(xué)習(xí)模型一致性間的有效權(quán)衡,在決策樹(shù)生成過(guò)程中,提出了一種新的決策樹(shù)剪枝方法,以提升決策樹(shù)的整體效果。此外,針對(duì)保真度評(píng)價(jià)指標(biāo)的局限性,提出了真保真度評(píng)價(jià)方法,以更有效地衡量決策樹(shù)與機(jī)器學(xué)習(xí)模型正確功能的近似程度。
2.2.1 基于Weight-SMOTE的偽數(shù)據(jù)集生成方法
(2)
算法1:基于Weight-SMOTE的偽數(shù)據(jù)集抽樣算法
步驟1偽樣本集中逾期貸款數(shù)據(jù)抽樣
步驟1.2 根據(jù)偽樣本被選擇的概率,采用輪盤賭方法從集合T0中選擇偽樣本xi;
步驟1.3 根據(jù)式(3),計(jì)算xi與集合T0中剩余偽樣本的歐幾里得距離,距離T0最近的h個(gè)偽樣本被選擇
(3)
其中,n為偽樣本包含的屬性數(shù)量,xiu和xju為偽樣本xi和xj的第u個(gè)屬性的取值;
步驟1.4 從h個(gè)近鄰中隨機(jī)選擇一個(gè)偽樣本xj,與偽樣本xi構(gòu)建新的偽樣本xnew,并將新生成的偽樣本添加至T0,構(gòu)造公式為:
xnew=xi+rand(0,1)×(xj-xi)
(4)
其中rand(0,1)表示區(qū)間(0,1)內(nèi)的一個(gè)隨機(jī)數(shù);
2.2.2 決策樹(shù)剪枝方法
決策樹(shù)剪枝能夠有效提高決策樹(shù)的可解釋性,利于投資者理解決策樹(shù)的決策過(guò)程。在決策樹(shù)生成階段,決策樹(shù)剪枝需要綜合考慮以下三個(gè)方面:1)決策樹(shù)的準(zhǔn)確性,即決策樹(shù)的預(yù)測(cè)標(biāo)簽應(yīng)與實(shí)際標(biāo)簽一致;2)決策樹(shù)的可解釋性,即決策樹(shù)應(yīng)盡可能的簡(jiǎn)潔,利于投資者的理解;3)決策樹(shù)與機(jī)器學(xué)習(xí)模型的一致性,即決策樹(shù)能夠近似模擬機(jī)器學(xué)習(xí)模型。為了實(shí)現(xiàn)決策樹(shù)在以上三方面間的有效權(quán)衡,本文在決策樹(shù)預(yù)剪枝過(guò)程中采用了一種新的決策樹(shù)評(píng)價(jià)方法,該評(píng)價(jià)方法如式(5)所示。
E=∑(yn-y)2+∑(yn-ym)2+λ1φ1+λ2φ2
(5)
式(5)中,∑(yn-y)2反映了決策樹(shù)的準(zhǔn)確性,yn和y分別為決策樹(shù)對(duì)于樣本的預(yù)測(cè)標(biāo)簽和樣本的實(shí)際標(biāo)簽。決策樹(shù)預(yù)測(cè)越準(zhǔn)確則該項(xiàng)值越?。弧?yn-ym)2體現(xiàn)了決策樹(shù)與機(jī)器學(xué)習(xí)模型的一致性,其中ym為機(jī)器學(xué)習(xí)模型對(duì)于樣本的預(yù)測(cè)標(biāo)簽,該項(xiàng)值越小,則說(shuō)明決策樹(shù)與機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果越一致,決策樹(shù)與機(jī)器學(xué)習(xí)模型功能的近似程度越高;λ1φ1與λ2φ2為正則化項(xiàng),反映了決策樹(shù)的可解釋性,其中φ1和φ2分別為決策樹(shù)中葉子節(jié)點(diǎn)數(shù)以及決策樹(shù)的平均路徑長(zhǎng)度,而λ1與λ2為二者的權(quán)重,λ1φ1與λ2φ2之和越小則表明生成的決策樹(shù)可解釋性越高。該評(píng)價(jià)方法從準(zhǔn)確性、可解釋性以及決策樹(shù)與機(jī)器學(xué)習(xí)模型一致性三個(gè)方面對(duì)決策樹(shù)進(jìn)行綜合評(píng)價(jià),確保三者間的有效權(quán)衡。
2.2.3 教學(xué)式方法的評(píng)價(jià)
與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,教學(xué)式方法在訓(xùn)練過(guò)程中使用機(jī)器學(xué)習(xí)模型作為“教師”,來(lái)指導(dǎo)生成一個(gè)能近似表達(dá)機(jī)器學(xué)習(xí)模型功能且易于解釋的決策樹(shù)。因此,教學(xué)式方法的評(píng)價(jià)除需考慮所生成決策樹(shù)的準(zhǔn)確性外,還需考慮所生成決策樹(shù)的可解釋性及其與機(jī)器學(xué)習(xí)模型功能的一致性。
(1)準(zhǔn)確性
教學(xué)式方法所生成的決策樹(shù)需要具備較高的準(zhǔn)確性,才能更精準(zhǔn)的輔助決策。現(xiàn)有研究中,決策樹(shù)的準(zhǔn)確性多采用決策樹(shù)在測(cè)試集上的準(zhǔn)確率來(lái)衡量。準(zhǔn)確率越高,生成的決策樹(shù)越準(zhǔn)確,反之亦然。準(zhǔn)確率的計(jì)算如式(6)所示。
(6)
其中,TP、TN、FP、FN分別為真正類、真負(fù)類、假正類和假負(fù)類[17]。
(2)可解釋性
教學(xué)式方法所生成的決策樹(shù)要易于投資者理解,即需要具備可解釋性,才能夠在信用風(fēng)險(xiǎn)評(píng)價(jià)中為投資者提供更好的決策支持。決策樹(shù)的可解釋性主要由葉子節(jié)點(diǎn)數(shù)、根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的平均路徑長(zhǎng)度兩個(gè)方面所決定。一方面,決策樹(shù)所包含的葉子節(jié)點(diǎn)數(shù)越多,決策樹(shù)所能夠轉(zhuǎn)化得到的規(guī)則越多,投資者解釋規(guī)則所需的時(shí)間也越多,模型的可解釋性越低。另一方面決策樹(shù)的平均路徑越長(zhǎng),決策樹(shù)轉(zhuǎn)化得到的規(guī)則所包含的約束也越多,投資者解釋規(guī)則的難度增加,模型的可解釋性越低。
(3)決策樹(shù)與機(jī)器學(xué)習(xí)模型的一致性
決策樹(shù)與機(jī)器學(xué)習(xí)模型的一致性體現(xiàn)了決策樹(shù)與機(jī)器學(xué)習(xí)模型功能的近似程度,一致性越高,二者功能越相似。現(xiàn)有的研究對(duì)于決策樹(shù)與機(jī)器學(xué)習(xí)模型的一致性的度量多采用保真度評(píng)價(jià)指標(biāo),如式(7)所示。
(7)
其中TBT為決策樹(shù)與機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果一致的樣本數(shù)量,BTP、BTN、BFP、BFN分別代表了機(jī)器學(xué)習(xí)模型預(yù)測(cè)正確的非逾期樣本數(shù)量、預(yù)測(cè)正確的逾期樣本數(shù)量、預(yù)測(cè)錯(cuò)誤的非逾期樣本數(shù)量和預(yù)測(cè)錯(cuò)誤的逾期樣本數(shù)量。保真度通過(guò)決策樹(shù)與機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果的一致性來(lái)有效的衡量決策樹(shù)與機(jī)器學(xué)習(xí)模型整體功能的近似程度,保真度評(píng)價(jià)指標(biāo)既關(guān)注了決策樹(shù)對(duì)于模型中正確功能的學(xué)習(xí)能力,也考慮了模型錯(cuò)誤功能對(duì)于決策樹(shù)預(yù)測(cè)精度的影響。但在改進(jìn)式教學(xué)方法中,通過(guò)基于Weight-SMOTE的偽數(shù)據(jù)集生成方法,保證了決策樹(shù)僅能夠?qū)W習(xí)機(jī)器學(xué)習(xí)模型中正確的功能,避免了決策樹(shù)學(xué)習(xí)模型中錯(cuò)誤的功能。因此決策樹(shù)與機(jī)器學(xué)習(xí)模型的一致性應(yīng)表現(xiàn)為決策樹(shù)與機(jī)器學(xué)習(xí)模型中正確功能的近似程度,近似程度越高,決策樹(shù)模型的價(jià)值越大。而保真度評(píng)價(jià)指標(biāo)難以滿足本文對(duì)于決策樹(shù)與機(jī)器學(xué)習(xí)模型一致性評(píng)價(jià)的實(shí)際需求。
針對(duì)保真度評(píng)價(jià)指標(biāo)的局限性,本文提出了真保真度評(píng)價(jià)指標(biāo)來(lái)更客觀的評(píng)價(jià)決策樹(shù)與機(jī)器學(xué)習(xí)模型中正確功能的近似程度,真保真度可通過(guò)式(8)計(jì)算:
(8)
其中TB為決策樹(shù)與機(jī)器學(xué)習(xí)模型均預(yù)測(cè)正確的樣本數(shù)量,真保真度越大,所生成的決策樹(shù)與機(jī)器學(xué)習(xí)模型正確功能的近似程度越高。
本研究采用隨機(jī)森林作為底層機(jī)器學(xué)習(xí)模型,隨機(jī)森林作為一種集成學(xué)習(xí)方法,在信用風(fēng)險(xiǎn)評(píng)價(jià)領(lǐng)域表現(xiàn)出了良好的效果[2,18]。為了驗(yàn)證本文所提出的改進(jìn)教學(xué)式方法在提高信用風(fēng)險(xiǎn)評(píng)價(jià)機(jī)器學(xué)習(xí)模型可解釋問(wèn)題上的有效性,采用了3個(gè)真實(shí)的信用風(fēng)險(xiǎn)評(píng)價(jià)數(shù)據(jù)集進(jìn)行實(shí)例驗(yàn)證研究。
本文共采用3個(gè)數(shù)據(jù)集:Australian數(shù)據(jù)集、German數(shù)據(jù)集和Lending Club數(shù)據(jù)集。Australian數(shù)據(jù)集和German數(shù)據(jù)集來(lái)自機(jī)器學(xué)習(xí)領(lǐng)域權(quán)威的UCI數(shù)據(jù)庫(kù)。Lending Club數(shù)據(jù)集則來(lái)自美國(guó)最大P2P網(wǎng)貸平臺(tái)——Lending Club平臺(tái)上發(fā)布的2016年全部借款記錄。針對(duì)本文的信用風(fēng)險(xiǎn)評(píng)價(jià)問(wèn)題,本文選擇了全量的標(biāo)記借款狀態(tài)為“Charged off”和“Default”的借款作為逾期貸款(其標(biāo)簽為0),而隨機(jī)選擇了等量的借款狀態(tài)為“Fully paid”的借款記錄作為非逾期借款(其標(biāo)簽為1)。本文參考文獻(xiàn)[2]中所使用的Lending Club數(shù)據(jù)特征,共選擇15個(gè)原始特征并進(jìn)行預(yù)處理,所選特征及預(yù)處理方法如表1所示。在使用數(shù)據(jù)進(jìn)行建模之前,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以避免不同特征取值范圍對(duì)分類結(jié)果的影響[19-20]。
表1 Lending Club數(shù)據(jù)集特征及預(yù)處理方法
為全面的評(píng)價(jià)所提出的方法,本文從準(zhǔn)確性、可解釋性以及決策樹(shù)與機(jī)器學(xué)習(xí)模型一致性三個(gè)方面進(jìn)行評(píng)價(jià)。準(zhǔn)確性采用準(zhǔn)確率進(jìn)行衡量,計(jì)算方式如式(6)所示??山忉屝灾饕獜纳蓻Q策樹(shù)包含的葉子節(jié)點(diǎn)數(shù)、根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的平均路徑長(zhǎng)度兩個(gè)方面評(píng)價(jià)。而決策樹(shù)與機(jī)器學(xué)習(xí)模型一致性則采用真保真度進(jìn)行評(píng)價(jià),其計(jì)算方法如式(8)所示。
為保證實(shí)驗(yàn)結(jié)果的客觀性,所有實(shí)驗(yàn)均采用10折交叉驗(yàn)證。
本文實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置如下:
(1)隨機(jī)森林可調(diào)參數(shù)設(shè)置
隨機(jī)森林規(guī)模及決策樹(shù)最大深度是隨機(jī)森林的關(guān)鍵參數(shù),對(duì)于隨機(jī)森林的分類結(jié)果準(zhǔn)確性具有較大的影響。為獲得最佳的隨機(jī)森林參數(shù),本文采用網(wǎng)格搜索方法對(duì)隨機(jī)森林參數(shù)進(jìn)行調(diào)優(yōu),網(wǎng)格搜索相關(guān)參數(shù)如表2所示。
表2 網(wǎng)格搜索參數(shù)
通過(guò)網(wǎng)格搜索,隨機(jī)森林在各數(shù)據(jù)集上的最佳參數(shù)組合如表3所示。
表3 隨機(jī)森林最佳參數(shù)組合
(2)Weight-SMOTE可調(diào)參數(shù)設(shè)定
在Weight-SMOTE算法中k%的取值反映了投資者所信任的機(jī)器學(xué)習(xí)模型功能的比例,k%的取值越小,則決策樹(shù)學(xué)習(xí)機(jī)器學(xué)習(xí)模型中可信度低的功能的比例越低,其對(duì)于生成決策樹(shù)的效果具有顯著的影響。對(duì)于不同數(shù)據(jù)集和機(jī)器學(xué)習(xí)模型,該參數(shù)不存在通用值,只能依據(jù)實(shí)際情況與投資者的需求進(jìn)行設(shè)定,本文采用試湊法來(lái)確定該參數(shù)。Australian數(shù)據(jù)集、German數(shù)據(jù)集、Lending Club數(shù)據(jù)集的k值分別選取95,95和75。此外,h的取值為5。
(3)決策樹(shù)剪枝可調(diào)參數(shù)設(shè)定
決策樹(shù)剪枝的參數(shù)選擇對(duì)決策樹(shù)的性能具有影響。針對(duì)不同的問(wèn)題與投資者的需求,決策樹(shù)剪枝的參數(shù)選擇也有所不同,因此本文選擇了多組備選參數(shù)。為了保證決策樹(shù)剪枝算法性能,本文針對(duì)所使用的數(shù)據(jù)集,進(jìn)行了探索性實(shí)驗(yàn),以確定各參數(shù)取值區(qū)間,并在區(qū)間內(nèi)均勻選取多個(gè)參數(shù)值,如表4所示。
表4 決策樹(shù)剪枝參數(shù)
3.4.1 信用風(fēng)險(xiǎn)評(píng)價(jià)效果分析
為檢驗(yàn)改進(jìn)的教學(xué)式方法的有效性,本文首先對(duì)比了改進(jìn)的教學(xué)式方法與傳統(tǒng)的教學(xué)式方法、決策樹(shù)以及隨機(jī)森林(RF)在3個(gè)信用風(fēng)險(xiǎn)評(píng)價(jià)數(shù)據(jù)集上的表現(xiàn),由于正則項(xiàng)系數(shù)λ1與λ2對(duì)于生成的決策樹(shù)的效果具有影響,為了檢驗(yàn)不同參數(shù)取值組合下方法的表現(xiàn),每一數(shù)據(jù)集選取了4組具有代表性的λ1與λ2取值,實(shí)驗(yàn)結(jié)果如表5、表6和表7所示。
表5 本文所提方法與對(duì)照方法在German數(shù)據(jù)集上結(jié)果對(duì)比
表6 本文所提方法與對(duì)照方法在Australian數(shù)據(jù)集上結(jié)果對(duì)比
表7 本文所提方法與對(duì)照方法在Lending Club數(shù)據(jù)集上結(jié)果對(duì)比
根據(jù)上述實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:1)在準(zhǔn)確率方面,改進(jìn)教學(xué)式方法整體上優(yōu)于傳統(tǒng)教學(xué)式方法和CART決策樹(shù),在信用風(fēng)險(xiǎn)評(píng)價(jià)中表現(xiàn)出了良好的分類性能。雖然隨機(jī)森林的準(zhǔn)確率在三個(gè)數(shù)據(jù)集上均高于改進(jìn)式教學(xué)方法,但其缺乏可解釋性的弊端也使其預(yù)測(cè)結(jié)果無(wú)法在實(shí)際應(yīng)用中被決策者所信任;2)相比于傳統(tǒng)教學(xué)式方法,改進(jìn)教學(xué)式方法具有更高的真保真度,表明其所生成的決策樹(shù)能夠更好的學(xué)習(xí)和模擬隨機(jī)森林中正確的功能;3)從平均路徑長(zhǎng)度與葉子節(jié)點(diǎn)數(shù)來(lái)看,改進(jìn)教學(xué)式方法所生成的決策樹(shù)包含的葉子節(jié)點(diǎn)數(shù)均少于20,平均路徑長(zhǎng)度均小于5,在三個(gè)數(shù)據(jù)集上均顯著優(yōu)于傳統(tǒng)教學(xué)式方法、CART決策樹(shù)和隨機(jī)森林,表明改進(jìn)式教學(xué)方法所生成的決策樹(shù)具有極強(qiáng)的可解釋性,有助于投資者的理解和掌握。4)通過(guò)分析不同正則項(xiàng)系數(shù)組合下方法的效果,可以看到λ1與λ2對(duì)于所生成的決策樹(shù)的性能具有影響。對(duì)于不同的投資者而言,可以根據(jù)自身的決策偏好選擇合適的正則項(xiàng)系數(shù)的組合,以生成滿足自身決策需求的信用風(fēng)險(xiǎn)評(píng)價(jià)模型。
此外,許多研究表明準(zhǔn)確率與可解釋性間存在制約關(guān)系,模型可解釋性的提高在一定程度上會(huì)造成模型預(yù)測(cè)精度的下降[21-23]。在上述實(shí)驗(yàn)中,改進(jìn)教學(xué)式方法通過(guò)犧牲一定的準(zhǔn)確率,有效的提升了生成決策樹(shù)的可解釋能力,該結(jié)果進(jìn)一步驗(yàn)證了上述研究結(jié)論。
3.4.2 基于Weight-SMOTE的偽數(shù)據(jù)集生成方法對(duì)真保真度的影響分析
表8 基于Weight-SMOTE偽數(shù)據(jù)生成在German數(shù)據(jù)集上真保真度表現(xiàn)
表9 基于Weight-SMOTE偽數(shù)據(jù)生成在Australian數(shù)據(jù)集上真保真度表現(xiàn)
表10 基于Weight-SMOTE偽數(shù)據(jù)生成在Lending Club數(shù)據(jù)集上真保真度表現(xiàn)
由上述結(jié)果可以得出以下結(jié)論:采用基于Weight-SMOTE的偽樣本生成方法對(duì)于提升所生成決策樹(shù)的真保真度具有顯著效果,有利于決策樹(shù)學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型中正確且可信度高的功能。
3.4.3 決策樹(shù)剪枝方法比較
本文對(duì)比采用不同決策樹(shù)剪枝方法的效果,以驗(yàn)證本文所提出的決策樹(shù)剪枝方法能夠更好的實(shí)現(xiàn)準(zhǔn)確率、可解釋性和真保真度三者間的有效權(quán)衡。對(duì)于每一種決策樹(shù)剪枝方法,通過(guò)改變其參數(shù)可獲得一組具有差異的備選決策樹(shù),投資者可以根據(jù)決策樹(shù)的準(zhǔn)確性、可解釋性以及真保真度來(lái)選擇符合自身決策偏好的決策樹(shù)。因此,備選決策樹(shù)集合可以看作是該問(wèn)題的一組解,備選決策樹(shù)集合整體表現(xiàn)越好,越能夠滿足不同投資者的需求。本文采用超體積指標(biāo)(HV值)來(lái)評(píng)價(jià)備選決策樹(shù)集合的整體表現(xiàn),HV值表示解集的Pareto最優(yōu)解與參考點(diǎn)所覆蓋的體積(或面積),HV值越大則表示解集質(zhì)量越高[24]。本文選擇(1,1,1,1)為HV值計(jì)算的參考點(diǎn),并在計(jì)算HV值之前,通過(guò)式(9)對(duì)各評(píng)價(jià)指標(biāo)進(jìn)行轉(zhuǎn)化,使其滿足以最小化為目標(biāo),且取值區(qū)間為[0,1]。
(9)
表11分別給出了不同決策樹(shù)剪枝方法在三個(gè)數(shù)據(jù)集上的HV值。本文所提出的方法HV值在3個(gè)數(shù)據(jù)集上均顯著優(yōu)于基于決策樹(shù)最大深度的剪枝算法和基于決策樹(shù)最大子葉節(jié)點(diǎn)樣本數(shù)的剪枝算法,表明該剪枝方法能夠更好的實(shí)現(xiàn)決策樹(shù)對(duì)于準(zhǔn)確性、可解釋性以及真保真度三者之間的權(quán)衡,其生成的備選決策樹(shù)集合能夠更好的滿足實(shí)際信用風(fēng)險(xiǎn)評(píng)價(jià)的需求。
表11 不同決策樹(shù)剪枝算法HV值
綜合上述實(shí)驗(yàn)分析結(jié)果,本文所提出的改進(jìn)教學(xué)式方法能夠利用機(jī)器學(xué)習(xí)模型指導(dǎo)構(gòu)建兼顧準(zhǔn)確性和可解釋性的信用風(fēng)險(xiǎn)評(píng)價(jià)模型,所生成的決策樹(shù)模型能夠輔助投資者有效識(shí)別具有潛在違約風(fēng)險(xiǎn)的貸款申請(qǐng)。同時(shí),與機(jī)器學(xué)習(xí)模型相比,決策樹(shù)模型可解釋性更高,其決策過(guò)程與預(yù)測(cè)結(jié)果更易于投資者理解。
準(zhǔn)確的信用風(fēng)險(xiǎn)評(píng)價(jià),可為金融機(jī)構(gòu)決策制定提供支持,也有利于保障投資者的收益。機(jī)器學(xué)習(xí)等黑箱模型的廣泛使用,大幅度提高了信用風(fēng)險(xiǎn)評(píng)價(jià)模型的準(zhǔn)確性,但是機(jī)器學(xué)習(xí)模型缺乏可解釋性的弊端使其無(wú)法完全被決策者所信任。教學(xué)式方法通過(guò)模擬人類教學(xué)過(guò)程,利用機(jī)器學(xué)習(xí)模型指導(dǎo)決策樹(shù)的構(gòu)建與訓(xùn)練,所生成的決策樹(shù)能夠近似機(jī)器學(xué)習(xí)模型的功能,滿足信用風(fēng)險(xiǎn)評(píng)價(jià)預(yù)測(cè)需求,且易于決策者的理解。本文針對(duì)教學(xué)式方法的局限性,提出了改進(jìn)的教學(xué)式方法,該方法能夠提高決策樹(shù)與機(jī)器學(xué)習(xí)模型中正確且可信度高的功能的近似程度,同時(shí)采用一種新的決策樹(shù)剪枝方法,使生成的決策樹(shù)能夠?qū)崿F(xiàn)準(zhǔn)確率、可解釋性和真保真度三者間的權(quán)衡。此外,針對(duì)保真度評(píng)價(jià)指標(biāo)的局限性,本文提出了真保真度評(píng)價(jià)指標(biāo),以有效衡量決策樹(shù)與機(jī)器學(xué)習(xí)模型正確功能的近似程度。為了驗(yàn)證所提出方法在實(shí)際使用中的效果,本文利用 2個(gè)UCI信用風(fēng)險(xiǎn)評(píng)價(jià)數(shù)據(jù)集和Lending Club數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文所提出的改進(jìn)的教學(xué)式方法在進(jìn)行信用風(fēng)險(xiǎn)評(píng)價(jià)時(shí)是行之有效的,能夠根據(jù)決策者的不同決策偏好與實(shí)際需求提供相對(duì)準(zhǔn)確且可解釋的信用風(fēng)險(xiǎn)評(píng)價(jià)模型。與基于機(jī)器學(xué)習(xí)的信用風(fēng)險(xiǎn)評(píng)價(jià)模型相比,該方法所生成的決策樹(shù)能夠更好的為決策者提供決策支持。此外,考慮到?jīng)Q策者從眾多決策樹(shù)中選擇符合其決策偏好的決策樹(shù)需要花費(fèi)大量的時(shí)間與精力,本研究未來(lái)的工作將進(jìn)一步研究滿足決策者決策偏好的最優(yōu)決策樹(shù)選擇方法,從而輔助決策者選擇最優(yōu)的決策樹(shù)。同時(shí),為了便于決策者在實(shí)際中的應(yīng)用,動(dòng)態(tài)自適應(yīng)的模型參數(shù)選擇方法也將是未來(lái)研究的重點(diǎn)之一。