遲國(guó)泰, 董冰潔
(大連理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116024)
違約判別臨界點(diǎn),即金融機(jī)構(gòu)是否接受客戶貸款申請(qǐng)并放款的決策參考。違約判別臨界點(diǎn)C的取值不同會(huì)直接導(dǎo)致違約客戶被錯(cuò)誤的劃分為非違約客戶(第二類錯(cuò)誤)[1]。第二類錯(cuò)誤下的貸款成為金融機(jī)構(gòu)不良貸款的重要來(lái)源。
根據(jù)央行公布的數(shù)據(jù),2019年第二季度我國(guó)信用卡逾期未償還金額達(dá)到的800億元,相較2010年的76.86億元,約增長(zhǎng)10.4倍?;ヂ?lián)網(wǎng)公開(kāi)數(shù)據(jù)顯示:平安金融機(jī)構(gòu)財(cái)報(bào)顯示2020年3月末個(gè)人貸款不良率1.52%,較去年末增長(zhǎng)0.33個(gè)百分點(diǎn),其中信用卡不良率增長(zhǎng)幅度最大達(dá)2.32%,比2019年末增加0.66%。如何找到合適的違約判別臨界點(diǎn),最大限度減少第二類錯(cuò)誤造成的損失,對(duì)實(shí)現(xiàn)貸款利潤(rùn)對(duì)于減少金融機(jī)構(gòu)不良貸款損失實(shí)現(xiàn)穩(wěn)健經(jīng)營(yíng)具有重要意義。
利潤(rùn)驅(qū)動(dòng)違約判別臨界點(diǎn)的研究涉及以下兩個(gè)問(wèn)題:
一是如何保證客戶違約概率估算的整體準(zhǔn)確性。如果估算出違約客戶的違約概率和非違約客戶的違約概率均是0.5,那么無(wú)論違約判別臨界點(diǎn)取何值,金融機(jī)構(gòu)都無(wú)法準(zhǔn)確鑒別出違約客戶和非違約客戶。只有當(dāng)計(jì)算出違約客戶的違約概率盡可能大,非違約客戶的違約概率盡可能小時(shí),也即金融機(jī)構(gòu)能保證估算客戶違約概率準(zhǔn)確性時(shí),金融機(jī)構(gòu)通過(guò)設(shè)置違約判別臨界點(diǎn)來(lái)決定是否接收貸款申請(qǐng)的決策才具有意義。因此如何保證客戶違約概率估算的準(zhǔn)確性成為違約判別臨界選擇過(guò)程中需要解決的關(guān)鍵性問(wèn)題。
二是如何找到利潤(rùn)驅(qū)動(dòng)的違約判別臨界點(diǎn)。在保證客戶違約概率估算準(zhǔn)確的前提下,如果違約臨界點(diǎn)設(shè)置過(guò)高,意味著客戶即使有很大的違約可能性,仍然會(huì)被判為非違約客戶,被接受放款,金融機(jī)構(gòu)此時(shí)極可能將一個(gè)違約的客戶“錯(cuò)放”(第二類錯(cuò)誤),此時(shí)金融機(jī)構(gòu)面臨利息和本金損失的可能性增加。在本研究中,假定違約的損失為利息核本金一起損失,即最壞情況下的損失。所以,第二類錯(cuò)誤下的本金和利息損失對(duì)金融機(jī)構(gòu)的影響遠(yuǎn)大于將非違約客戶判斷正確帶來(lái)的利息收益。所以,如何找出實(shí)現(xiàn)貸款利潤(rùn)最大化的違約判別臨界點(diǎn)是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
因此想要研究利潤(rùn)驅(qū)動(dòng)的違約判別臨界點(diǎn)問(wèn)題就一定會(huì)涉及到客戶違約概率的估算問(wèn)題和利潤(rùn)最大化臨界點(diǎn)的選取問(wèn)題。
本研究與已有研究的區(qū)別之處在于:
一是估算客戶違約概率的方法不同。相較于當(dāng)前流行的單一模型方法計(jì)算客戶違約概率[2~9],本研究將多種不同類型的模型加權(quán)平均計(jì)算客戶違約概率,避免使用單一模型計(jì)算違約概率準(zhǔn)確性不高的弊端。
二是求解違約判別臨界點(diǎn)的方法不同。與經(jīng)驗(yàn)似然法和廣義對(duì)稱點(diǎn)估計(jì)[10~12]等以尋找整體判對(duì)率最大的違約判別臨界點(diǎn)的方法不同,本文以貸款利潤(rùn)最大為目標(biāo),求解違約判別臨界點(diǎn)。避免現(xiàn)有方法僅能得到總體準(zhǔn)確率最大違約判別臨界點(diǎn)而不是獲取利潤(rùn)最大的違約判別臨界點(diǎn)(總體準(zhǔn)確率最大的違約判別臨界點(diǎn),并不能代表金融機(jī)構(gòu)能從貸款中獲利或者獲得最大利潤(rùn),因?yàn)榕袛嗾_帶來(lái)的收入遠(yuǎn)小于判斷錯(cuò)誤帶來(lái)的損失)的弊端。
研究發(fā)現(xiàn):(1)在估算客戶違約概率的方法上,本文提出的混合模型計(jì)算的客戶違約概率比單一模型計(jì)算的違約概率要準(zhǔn)確,混合模型有更大的AUC值。(2)在人人貸數(shù)據(jù)集1和人人貸數(shù)據(jù)集2中計(jì)算的利潤(rùn)驅(qū)動(dòng)違約判別臨界點(diǎn)分別為0.1887和0.2219,實(shí)際利潤(rùn)分別為0.001283百萬(wàn)元和2.8228337百萬(wàn)元,高于廣義對(duì)稱點(diǎn)估計(jì)和經(jīng)驗(yàn)似然法等方法計(jì)算的違約判別臨界點(diǎn)所得的實(shí)際利潤(rùn)。(3)通過(guò)構(gòu)造虛擬數(shù)據(jù)集進(jìn)行對(duì)比分析表明,一個(gè)準(zhǔn)確性高的模型有助于緩解違約判別臨界點(diǎn)選取不合適造成的損失。
計(jì)算客戶違約概率分為兩類:一類是統(tǒng)計(jì)模型:邏輯回歸模型、有序邏輯回歸模型、門限回歸模型、生存分析模型。另一類是基于機(jī)器學(xué)習(xí)的模型,如神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、支持向量機(jī)等模型。如,Jabeur構(gòu)造了成本敏感決策樹(shù)模型信用評(píng)價(jià)模型[2]。新近的研究中,將多個(gè)機(jī)器學(xué)習(xí)模型的結(jié)果以投票的方式集成,如Xia、Monika通過(guò)多個(gè)決策樹(shù)構(gòu)建隨機(jī)森林信用評(píng)價(jià)模型[3~4]。
綜上,當(dāng)前研究中估算客戶違約概率的方法主要還是使用單一模型來(lái)估算客戶的違約概率,已有研究表明當(dāng)使用多個(gè)相同的模型構(gòu)建集成模型時(shí),集成模型的準(zhǔn)確性高于單一模型的準(zhǔn)確性[4]。本文借鑒集成模型的思想,使用多種不同類型的模型計(jì)算客戶違約概率,通過(guò)先加權(quán)再平均的方法構(gòu)成混合模型,以此來(lái)保證計(jì)算客戶違約概率的準(zhǔn)確性,避免使用單一模型計(jì)算客戶違約概率不準(zhǔn)確的弊端。
判別臨界點(diǎn)是判別客戶違約狀態(tài)的重要依據(jù),求取判別臨界點(diǎn)的方法有約登指數(shù)、廣義對(duì)稱點(diǎn)估計(jì)以及經(jīng)驗(yàn)似然法等統(tǒng)計(jì)方法。約登指數(shù)(Lai)是找到一個(gè)臨界點(diǎn)能最大區(qū)分違約客戶和非違約客戶,計(jì)算方法是第一類錯(cuò)誤率和第二類錯(cuò)誤率相加再減1[5],即為最優(yōu)臨界點(diǎn);經(jīng)驗(yàn)似然法(Molanes)和廣義對(duì)稱點(diǎn)估計(jì)(Lopezraton)通過(guò)參數(shù)估計(jì)的方法尋找能最大區(qū)分違約客戶和非違約客戶的臨界點(diǎn),但是兩種方法適用的數(shù)據(jù)不同,經(jīng)驗(yàn)似然法適用數(shù)據(jù)是正態(tài)分布的情況,廣義對(duì)稱點(diǎn)計(jì)估則對(duì)數(shù)據(jù)的分布沒(méi)有要求[6,7]。此外,還有Zhang根據(jù)違約判別模型的準(zhǔn)確性最大反推出區(qū)分違約客戶和非違約客戶的最佳分類臨界點(diǎn)[8];Tomczak依據(jù)違約判別模型的G-means最大來(lái)找區(qū)分違約和非違約客戶的臨界點(diǎn)[9]。Perols基于最小化判錯(cuò)成本估算了最優(yōu)臨界點(diǎn)[10]。
綜上,當(dāng)前研究主要是以整體準(zhǔn)確率最大來(lái)尋找違約判別臨界點(diǎn),即找到一個(gè)臨界點(diǎn),這個(gè)臨界點(diǎn)能最大程度的鑒別違約客戶和非違約客戶。但少有研究關(guān)注到整體判別準(zhǔn)確度最大的違約判別臨界點(diǎn)帶來(lái)的利潤(rùn)是否最大,因?yàn)闊o(wú)論臨界點(diǎn)選取為什么值都會(huì)出現(xiàn)將違約客戶錯(cuò)判為非違約的情況,此時(shí)造成的本金和利息的損失遠(yuǎn)大于將非違約客戶判斷正確帶來(lái)利息收入,因此考慮利潤(rùn)驅(qū)動(dòng)下的違約判別臨界點(diǎn)更具有現(xiàn)實(shí)意義。
構(gòu)建本文混合模型的子模型有邏輯回歸模型、樸素貝葉斯模型和支持向量機(jī)模型。選用這三個(gè)模型的原因是,邏輯回歸模型作為經(jīng)典的統(tǒng)計(jì)模型在信貸決策領(lǐng)域得到廣泛的應(yīng)用,樸素貝葉斯模型和線性支持向量機(jī)模型作為常見(jiàn)的機(jī)器學(xué)習(xí)模型在分類預(yù)測(cè)方面具有良好的性能。
本文構(gòu)建的混合均值是由多個(gè)不同類型的子模型先加權(quán)集成,再取平均集成得到。第一次多模型加權(quán),設(shè):f(yi)為3個(gè)子模型加權(quán)后的概率,Pij表示第i個(gè)子模型計(jì)算的客戶j的違約概率,aij是子模型的加權(quán)系數(shù),第一次集成的客戶j的違約概率如式(1)所示:
(1)
加權(quán)系數(shù)aij可以在訓(xùn)練集數(shù)據(jù)中通過(guò)子模型計(jì)算的違約概率與客戶真實(shí)違約狀態(tài)構(gòu)建線性方程使用極大似然估計(jì)法求取,β是常數(shù)項(xiàng)。
第二次多模型取平均。pmix(j)是混合模型計(jì)算的第j個(gè)客戶違約的概率,n取值分別1,2,3表示邏輯回歸子模型、樸素貝葉斯子模型和線性支持向量機(jī)子模型,f(yi)為子模型加權(quán)后的概率,混合模型計(jì)算的第j個(gè)客戶的違約概率如式(2)所示:
(2)
式子(2)含義是通過(guò)多模型的加權(quán)概率來(lái)修正不同違約判別子模型計(jì)算的同一個(gè)客戶違約概率的偏差。
本文混合模型與已有研究[8]的不同之處在于,將多種不同類的模型結(jié)果進(jìn)行加權(quán)再平均的方式,來(lái)獲得一個(gè)準(zhǔn)確性更高的模型,以此來(lái)保證計(jì)算客戶違約概率的準(zhǔn)確性,避免單一模型計(jì)算客戶違約概率不準(zhǔn)確的弊端。
2.2.1 計(jì)算特定違約判別臨界點(diǎn)C1下金融機(jī)構(gòu)的貸款利潤(rùn)
在特定違約判別臨界點(diǎn)C1下,金融機(jī)構(gòu)把違約客戶判為非違約予以放款時(shí),金融機(jī)構(gòu)有實(shí)際損失(記為AL),即本金和利息。由于不同客戶的真實(shí)貸款損失難以結(jié)算,在本研究中,違約的損失為利息核本金一起損失,即最壞情況下的損失。當(dāng)金融機(jī)構(gòu)能把非違約客戶鑒別出來(lái)并予以放款時(shí),金融機(jī)構(gòu)獲得實(shí)際收入(記為AI),即貸款利息。w表示在特定違約判別臨界點(diǎn)C1下的實(shí)際利潤(rùn)。當(dāng)金融機(jī)構(gòu)為某一數(shù)量群體(N個(gè)客戶的群體)貸款時(shí),在某個(gè)特定的違約判別臨界點(diǎn)C1下,金融機(jī)構(gòu)面臨的收入、損失和利潤(rùn)計(jì)算如式(3)、式(4)、式(5)所示:
(3)
(4)
w=AI-AL
(5)
其中,客戶向金融機(jī)構(gòu)申請(qǐng)貸款時(shí)提供貸款金額(記為M,單位元)和貸款期限(記為T,單位月)數(shù)據(jù),利息率 (記為r)。在特定違約判別臨界點(diǎn)C1下,實(shí)際非違約客戶被正確判定為非違約的個(gè)數(shù)(記為n1)、實(shí)際違約客戶被錯(cuò)誤判定為非違約的個(gè)數(shù)(記為n2)。
與現(xiàn)有研究的區(qū)別:本節(jié)給出了金融機(jī)構(gòu)在特定違約判別臨界點(diǎn)C1下所面臨的收入、損失和利潤(rùn)的計(jì)算方法。本節(jié)與已有研究的區(qū)別在于,當(dāng)前研究?jī)H僅關(guān)注到第二類錯(cuò)誤的大小,而本文不僅關(guān)注到第二類錯(cuò)誤的大小,同時(shí)量化了第二類錯(cuò)誤下的成本,以及在特定違約判別臨界點(diǎn)下的收益。
2.2.2 求解利潤(rùn)驅(qū)動(dòng)的違約判別臨界點(diǎn)
根據(jù)3.2.1中,實(shí)際收入(AI)、實(shí)際損失(AL)以及貸款實(shí)際利潤(rùn)w計(jì)算公式。設(shè):基于混合模型的利潤(rùn)最大違約判別臨界點(diǎn)規(guī)劃模型如式(6)所示:
(6)
需要說(shuō)明的是,首先使用訓(xùn)練集數(shù)據(jù)建立混合模型,并使用混合模型計(jì)算訓(xùn)練集中客戶的違約概率,并求取訓(xùn)練集中利潤(rùn)最大化的臨界點(diǎn)C*。在利潤(rùn)最大的臨界點(diǎn)C*下預(yù)測(cè)新客戶(測(cè)試集中客戶)的違約狀態(tài)并決定是否給新客戶貸款。
與現(xiàn)有研究的區(qū)別:已有研究只關(guān)注到在特定違約判別臨界點(diǎn)下第二類錯(cuò)誤的大小,而本文不僅關(guān)注到第二類錯(cuò)誤的大小,同時(shí)以利潤(rùn)最大為目標(biāo)求解最優(yōu)違約判別臨界點(diǎn),同時(shí)避免現(xiàn)有方法,如經(jīng)驗(yàn)似然法和廣義對(duì)稱點(diǎn)估計(jì)等方法計(jì)算的臨界點(diǎn)不是貸款利潤(rùn)最大化違約判別臨界點(diǎn)的弊端。
本文涉及到的模型評(píng)價(jià)指標(biāo)主要有第二類錯(cuò)誤(Type-II Error)、負(fù)元覆蓋率(NCR),AUC值。原因在于貸款損失主要來(lái)自第二類錯(cuò)誤,貸款收入主要來(lái)自于金融機(jī)構(gòu)能準(zhǔn)確判別多少非違約的客戶,因此使用第二類錯(cuò)誤(Type-II Error)和負(fù)元覆蓋率(NCR)來(lái)衡量模型的預(yù)測(cè)能力。此外選用AUC來(lái)衡量模型的整體準(zhǔn)確性,因?yàn)锳UC值不受臨界點(diǎn)取值的影響,能客觀的反映模型整體的準(zhǔn)確性。
本文實(shí)證數(shù)據(jù)為人人貸貸款數(shù)據(jù),每筆貸款數(shù)據(jù)包括學(xué)歷、婚姻狀況、收入水平、貸款金額、貸款利率、貸款時(shí)間、是否違約等36個(gè)維度的數(shù)據(jù)。本文使用的數(shù)據(jù)集從人人貸貸款數(shù)據(jù)中抽樣獲得。由于后文中要計(jì)算實(shí)際收入、實(shí)際損失和貸款實(shí)際利潤(rùn),因此需要保證數(shù)據(jù)集中的客戶借款金額大致相等。
數(shù)據(jù)集1的抽樣方式如下:首先抽取借款金額在1萬(wàn)元(不包含)以下的全部違約樣本608個(gè)樣本;其次,再?gòu)慕杩罱痤~在1萬(wàn)元(不包含)以下的非違約樣本中隨機(jī)抽取608個(gè)樣本,組成一個(gè)共1216個(gè)樣本的平衡數(shù)據(jù)集,記為數(shù)據(jù)集1。
數(shù)據(jù)集2的抽樣方式如下:首先抽取借款金額在1~5萬(wàn)元(包含1萬(wàn)和5萬(wàn))的全部違約樣本2827個(gè)樣本;其次,再?gòu)慕杩罱痤~在1~5萬(wàn)元(包含1萬(wàn)和5萬(wàn))的非違約樣本中隨機(jī)抽取2827個(gè)樣本,組成一個(gè)共5654個(gè)樣本的平衡數(shù)據(jù)集,記為數(shù)據(jù)集2。
借鑒柳向東和陳林的研究,本研究選擇年齡、性別、學(xué)歷、婚姻狀況、收入水平、房產(chǎn)情況、房貸情況、車產(chǎn)情況、車貸情況、工作性質(zhì)、工作時(shí)間、手機(jī)認(rèn)證、學(xué)歷認(rèn)證、居住地認(rèn)證、信用報(bào)告、職稱認(rèn)證和投資人數(shù)等17個(gè)變量建立模型[11,12]。本文使用的17個(gè)變量中有年齡和投資人數(shù)兩個(gè)變量是連續(xù)型變量,剩余15個(gè)變量為分類變量。分類變量使用了獨(dú)熱編碼處理,將分類變量轉(zhuǎn)換成數(shù)值變量,并對(duì)數(shù)據(jù)數(shù)據(jù)進(jìn)行了01標(biāo)準(zhǔn)化處理。
以數(shù)據(jù)集2為例說(shuō)明混合模型的建立過(guò)程。從數(shù)據(jù)集2中隨機(jī)抽取80%的數(shù)據(jù)作為訓(xùn)練集,根據(jù)3.1中方法分別建立分別建立邏輯回歸、樸素貝葉斯和支持向量機(jī)3個(gè)違約判別子模型??蛻粽鎸?shí)狀態(tài)為y,子模型計(jì)算的違約概率為x,建立邏輯回歸方程,使用極大似然估計(jì)法估計(jì)式(1)中3個(gè)子模型的混合權(quán)重系數(shù)。再根據(jù)式(2)計(jì)算訓(xùn)練集中各客戶的違約概率,結(jié)果如表1所示。
表1 混合模型計(jì)算的數(shù)據(jù)集2中訓(xùn)練集客戶違約概率
以3.2中預(yù)測(cè)的客戶違約概率為例(見(jiàn)表1),當(dāng)選取違約判別臨界點(diǎn)為0.0001的情況說(shuō)明實(shí)際收入、實(shí)際損失以及實(shí)際利潤(rùn)的計(jì)算。在特定違約判別臨界點(diǎn)C1下計(jì)算實(shí)際收入(AI)、實(shí)際損失(AL),當(dāng)改變違約判別臨界點(diǎn)C的取值時(shí),金融機(jī)構(gòu)在所有可能的違約臨界點(diǎn)取值下實(shí)際利潤(rùn)和經(jīng)濟(jì)利潤(rùn)的結(jié)果如表2所示,當(dāng)違約判別臨界點(diǎn)的取值為0.5000時(shí),負(fù)元覆蓋率為0.7439表明測(cè)試樣本中74%的非違約客戶被識(shí)別出來(lái),第二類錯(cuò)誤為0.0844表明測(cè)試樣本中只有約8%的違約樣本沒(méi)有被識(shí)別出來(lái),此時(shí)識(shí)別出非違約客戶帶來(lái)的實(shí)際收入為14.8871百萬(wàn)元,沒(méi)有識(shí)別出違約客戶帶來(lái)的實(shí)際損失為5.6033百萬(wàn)元,實(shí)際利潤(rùn)為9.2838百萬(wàn)元。
表2 數(shù)據(jù)集2訓(xùn)練集中不同違約判別臨界點(diǎn)下實(shí)際利潤(rùn)
在數(shù)據(jù)集1和數(shù)據(jù)集2的訓(xùn)練集數(shù)據(jù)中求得的利潤(rùn)最大化的臨界點(diǎn)分別為0.1887和0.2219,在預(yù)測(cè)測(cè)試集中客戶時(shí)以此臨界點(diǎn)作為判別客戶違約狀態(tài)的參考。
3.5.1 子模型和混合模型準(zhǔn)確性差異性檢驗(yàn)
使用10折交叉檢驗(yàn)的方法檢驗(yàn)子模型和混合集成模型的穩(wěn)健性,檢驗(yàn)混合模型與3個(gè)子模型在計(jì)算違約概率的準(zhǔn)確性上是否具有顯著差異。使用T檢驗(yàn)來(lái)檢驗(yàn)兩組數(shù)據(jù)均值是否均有顯著差異,結(jié)果如表4所示。在數(shù)據(jù)集1中,混合模型比3個(gè)子模型的AUC值大約高0.01%。在數(shù)據(jù)集2中混合模型比3個(gè)子模型的AUC值大約高0.005到0.045(即0.9%~4.7%)。這說(shuō)明本文建立得混合模型得違約概率準(zhǔn)確性顯著優(yōu)于單一模型得違約概率。
表3 子模型AUC值與混合模型AUC對(duì)比分析(差異性檢驗(yàn))
表4 不同臨界點(diǎn)求取方法下的測(cè)試集中獲利比較
3.5.2 不同臨界點(diǎn)求取方法的利潤(rùn)比較
使用廣義對(duì)稱點(diǎn)估計(jì)和經(jīng)驗(yàn)似然法求解訓(xùn)練集中違約判別臨界點(diǎn),并根據(jù)求解的違約判別臨界點(diǎn),計(jì)算數(shù)據(jù)集1和數(shù)據(jù)集2測(cè)試集中金融機(jī)構(gòu)的收入、損失和利潤(rùn),結(jié)果見(jiàn)表4。在數(shù)據(jù)集1和數(shù)據(jù)集2中,本研究計(jì)算的訓(xùn)練集中違約判別臨界點(diǎn)臨分別為0.1887和0.2219(見(jiàn)3.4節(jié)),在此違約判別臨界點(diǎn)下測(cè)試集中實(shí)際利潤(rùn)為0.001283百萬(wàn)元和2.8228337百萬(wàn)元,遠(yuǎn)大于其他違約判別臨界點(diǎn)的獲利。數(shù)據(jù)集1和數(shù)據(jù)集2的違約判別臨界點(diǎn)經(jīng)濟(jì)含義是:在保證計(jì)算客戶違約概率準(zhǔn)確的前提下,由于客戶違約時(shí)給金融機(jī)構(gòu)造成的損失遠(yuǎn)大于客戶不違約時(shí)給金融機(jī)構(gòu)帶來(lái)收入,因此為了獲得最大利潤(rùn),金融機(jī)構(gòu)面對(duì)貸款客戶時(shí)應(yīng)該提高貸款門檻,以此降低第二類錯(cuò)誤帶來(lái)的本金和利息的損失。
3.5.3 不同預(yù)測(cè)準(zhǔn)確性模型所能獲取利潤(rùn)的比較
本文從數(shù)據(jù)集1的訓(xùn)練數(shù)據(jù)中構(gòu)造虛擬數(shù)據(jù)集3,從數(shù)據(jù)集2的訓(xùn)練數(shù)據(jù)中構(gòu)造虛擬數(shù)據(jù)集4。應(yīng)該指出,本文之所以選擇從訓(xùn)練集數(shù)據(jù)中構(gòu)造虛擬數(shù)據(jù)原因在于:在訓(xùn)練集中模型都無(wú)法獲取準(zhǔn)確鑒別違約客戶和非違約客戶,并獲取正的利潤(rùn),那么模型在測(cè)試集數(shù)據(jù)中也同樣無(wú)法獲得鑒別違約客戶和非違約客戶,當(dāng)然也就無(wú)法取得最大利潤(rùn)。
虛擬數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的唯一區(qū)別在于,虛擬數(shù)據(jù)集計(jì)算的違約概率為隨機(jī)生成的0到1之間的任意數(shù),即虛擬數(shù)據(jù)集中的違約概率無(wú)法鑒別出客戶的違約狀態(tài)。本文構(gòu)造的虛擬數(shù)據(jù)集3的AUC值為0.5079,遠(yuǎn)小于混合模型在數(shù)據(jù)1訓(xùn)練集中0.7987的AUC值。虛擬數(shù)據(jù)集4的AUC值為0.5516,遠(yuǎn)小于混合模型在數(shù)據(jù)2訓(xùn)練集中0.8822的AUC值。
從虛擬數(shù)據(jù)集3和虛擬數(shù)據(jù)集4的臨界點(diǎn)取值和實(shí)際利潤(rùn)變化曲線來(lái)看(限于篇幅這里未展示),虛線所代表的低準(zhǔn)確度模型,在臨界點(diǎn)所有可能取值的范圍內(nèi)利潤(rùn)均為負(fù)值,且隨著臨界點(diǎn)的增大利潤(rùn)不斷下降。這說(shuō)明,在一個(gè)準(zhǔn)確率低的模型中,無(wú)論違約判別臨界點(diǎn)的取值如何變化,此時(shí)金融機(jī)構(gòu)無(wú)法鑒別違約客戶和非違約客戶。
混合模型計(jì)算的客戶違約概率值較單一模型計(jì)算的違約概率值更準(zhǔn)確。整體準(zhǔn)確度高的違約判別臨界點(diǎn)并不一定是利潤(rùn)最大化的違約判別臨界點(diǎn),本研究尋找的違約臨界判別點(diǎn)比使用保證整體準(zhǔn)確率最大的廣義對(duì)稱點(diǎn)估計(jì)和經(jīng)驗(yàn)似然法挖掘的違約判別臨界點(diǎn)獲取的利潤(rùn)高。
使用混合模型來(lái)計(jì)算客戶違約概率,即使用不同模型計(jì)算客戶違約概率,通過(guò)加權(quán)平均的方式對(duì)不同子模型計(jì)算出的違約概率進(jìn)行了修正,從而保證計(jì)算客戶違約概率的整體準(zhǔn)確性。
通過(guò)定義從貸款中獲得收入、損失和利潤(rùn)的計(jì)算方法,以利潤(rùn)最大為目標(biāo)反推,最優(yōu)判別臨界點(diǎn),以此找到利潤(rùn)最大的違約判別臨界點(diǎn),避免現(xiàn)有臨界點(diǎn)方法計(jì)算的違約判別臨界點(diǎn)不是貸款利潤(rùn)最大化違約判別臨界點(diǎn)的弊端。