鄒柏松
(中南民族大學(xué) 經(jīng)濟學(xué)院,湖北 武漢 430074)
?
信用風險分類預(yù)測單一模型研究及實證分析
鄒柏松
(中南民族大學(xué) 經(jīng)濟學(xué)院,湖北 武漢 430074)
目前,我國商業(yè)銀行所面臨的信用風險隨著信貸業(yè)務(wù)的不斷發(fā)展而逐步增加,如何對企業(yè)信用風險進行有效區(qū)分和管理,是商業(yè)銀行亟待解決的問題。基于此,本文依據(jù)信用評估指標體系分別對Logistic回歸模型、貝葉斯判別模型、支持向量機模型這三類模型進行了設(shè)計與構(gòu)建,同時對三類模型分別進行實證分析和結(jié)果評價,從分類準確率和模型穩(wěn)健性兩方面對結(jié)果進行比較,作為進一步建立組合分類預(yù)測模型的基礎(chǔ)。本文的研究成果,有利于推動我國商業(yè)銀行信用風險定量度量方法的研究,從而有助于提高商業(yè)銀行的風險控制水平,使得不良資產(chǎn)得以降低,在提高我國商業(yè)核心競爭力以及促進消費信貸市場的發(fā)展等方面有巨大的意義。
單一模型;信用風險;統(tǒng)計方法;數(shù)據(jù)挖掘
近年來,我國信用風險管理水平正在逐步提升,可是隨著金融業(yè)對外資銀行政策的逐步開放,我國的商業(yè)銀行所需面對的國際和國內(nèi)競爭壓力越來越大,在如今這樣嚴峻的內(nèi)外形勢的考驗下,為了和國際接軌,需要研究構(gòu)建以計量模型為基礎(chǔ)的信用風險管理系統(tǒng),從而有效和全面地控制風險。
隨著我國商業(yè)銀行信貸業(yè)務(wù)的不斷發(fā)展,銀行將面臨更大的信用風險,如何對企業(yè)信用風險進行有效區(qū)分和管理,是商業(yè)銀行亟待解決的問題。尤其是我國信用風險管理體系還不夠完善,關(guān)于信用風險的度量方法多是借鑒國外現(xiàn)有模型,針對這一情況,本文結(jié)合上市公司財務(wù)指標數(shù)據(jù),選取目前廣泛應(yīng)用的Logistic回歸、貝葉斯判別法等統(tǒng)計方法和支持向量機模型等數(shù)據(jù)挖掘方法,分別比較其實證結(jié)果的優(yōu)劣。
1.二項Logistic回歸模型原理
Logistic函數(shù),即為增長函數(shù),在個人信用評估這一方面,Logistic回歸的應(yīng)用相對來說已經(jīng)比較成熟,同時普遍認為在諸多統(tǒng)計學(xué)方法中穩(wěn)健性和精確性較高,在分類問題中具有較好的特性。由于本文中輸出變量只有0和1兩個值,因此文中采用二項Logistic回歸模型進行建模和預(yù)測,模型可以在充分借鑒一般線性回歸模型的理論和思路的基礎(chǔ)上轉(zhuǎn)換而來。
首先,對于一元線性回歸模型yi=β0+βixi+εi,其回歸方程E(yi)=β0+βixi是對輸出變量均值的預(yù)測。當輸出變量為0/1二分類變量時,如果仍采用一元線性回歸模型建立回歸方程,則是對輸入變量為xi時輸出變量yi=1的概率的預(yù)測。由此給出的啟示是:可利用一般線性回歸模型(可以是一元,也可是多元)對輸出變量取值為1的概率P進行建模,這時候,回歸方程所輸出的變量其取值范圍為0~1,回歸方程的一般形式如下所示:
(1)
在應(yīng)用到實際的過程中,它們之間通常是非線性關(guān)系,一般情況下都和增長函數(shù)一致,所以應(yīng)該采用非線性轉(zhuǎn)換來處理概率P的轉(zhuǎn)換。通過上述分析,進行的兩步處理如下:
(1)把P轉(zhuǎn)換為Ω
(2)
其中,Ω是指發(fā)生比或者相對風險,表示某一事件發(fā)生和不發(fā)生概率之間比值,Ω值越高,相關(guān)公司就越有可能違約,Ω值的取值范圍介于0和+∞之間。
(2)把Ω轉(zhuǎn)換為lnΩ
(3)
其中,lnΩ被稱為LogitP。經(jīng)過這個步驟的轉(zhuǎn)換之后,LogitP和Ω之間依舊呈現(xiàn)出一致的或增長或下降的關(guān)系。
這兩個步驟的轉(zhuǎn)換被稱為Logit變換,經(jīng)過Logit變換,就能夠完成在一般線性回歸模型中構(gòu)建輸出變量以及輸入變量間的多元分析模型的過程,即
(4)
稱式(4)為Logistic回歸方程,顯然LogitP與輸入變量之間是線性關(guān)系。將Ω代入,有
(5)
于是有
(6)
上式(6)是十分有代表性的增長函數(shù),主要體現(xiàn)出了概率P以及輸入變量它們兩者的非線性關(guān)系。
Madalla就曾經(jīng)選擇運用Logistic模型來進行非違約和違約貸款申請人的區(qū)分,通過研究得出,在違約概率P<0.551的情況下屬于非風險貸款,在違約概率P≥0.551的情況下屬于風險貸款,本文中也將該判別標準應(yīng)用于ST類公司和非ST類公司的判定中。
Logistic回歸模型的參數(shù)估計通常采用極大似然法來計算,具體算法如下:
(7)
式(7)即為似然函數(shù)。對該似然函數(shù)取對數(shù)得到:
(8)
通過上式得到的βi(i=1,…,k)的估計值就是極大似然估計。通過證明得出,在樣本隨機時,漸進正態(tài)性、有效性和相合性等是Logistic回歸模型的極大似然估計的重要特點,它一方面解決了線性回歸方法之中的部分缺陷,另一方面它的實際意義也能夠通過相對風險十分明顯地體現(xiàn)出來。
2.Logistic模型實證分析
本文利用Clementine軟件進行建模和預(yù)測,為避免變量之間的多重共線性,采取逐步回歸的方法建立模型,對測試樣本重復(fù)10次2-折交叉驗證來評估模型的準確率,其基本的流程如圖1、圖2所示:
圖1 Logistic訓(xùn)練模型圖
圖2 Logistic測試模型圖
10次建模和預(yù)測得到的預(yù)測準確率及穩(wěn)定性評估值如表1所示:
表1 Logistic模型預(yù)測結(jié)果
其模型收益(Gain)曲線圖如下:
圖3 Logistic訓(xùn)練模型圖
(注:由于本文采取10次2-折交叉驗證的方法,因此10次結(jié)果的平均值是用來進行Gain圖繪制的數(shù)據(jù),下同)
其中隨機曲線表示在完全隨機的情況下一定百分比的數(shù)據(jù)能夠預(yù)測出的ST類公司的百分比,顯然,這是一條45度傾斜的直線。由圖3看出,大約30%的數(shù)據(jù)就可以預(yù)測出80%的ST類公司(標記值為“1”),分類預(yù)測的效果較好。
1.貝葉斯(Bayes)判別的基本原理
貝葉斯判別包含于貝葉斯方法的范圍之內(nèi),貝葉斯方法主要是對不確定性進行研究的一種推理方法,其中用貝葉斯概率來對不確定性進行詳細的表示,而且貝葉斯概率屬于一種主觀概率。通常,經(jīng)典概率反映的是事件的客觀特征,這一概率不會隨人們主觀意識的變化而變化,而貝葉斯概率則不同,它是人們對事物發(fā)生概率的主觀估計。
首先假設(shè)已經(jīng)對研究的對象有了一定程度上的認識是貝葉斯判別法的基本思想,先驗概率通常被用來對這種認識進行描述。對于多個總體的判別來說,不是考慮構(gòu)建判別式,而是對待判樣本屬于各總體的條件概率p(l|x),l=1,2,…,k進行計算,對k個概率的大小進行比較,之后再把判定新樣本來自概率最大的那一個總體。
(10)
(1)訓(xùn)練樣本的觀測值
設(shè)個體分為k類,并分別從第g類中抽得ng(g=1,2,…,k)個訓(xùn)練樣本,p個屬性值,依次用x1,x2,…,xp表示,觀測值如表2所示:
表2 g類訓(xùn)練樣本
(2)建立判別函數(shù)
1)計算各類均值及協(xié)方差陣
(11)
(12)
2)判別系數(shù)
計算協(xié)方差陣S的逆矩陣
令
(13)
(14)
其中
(15)
3)建立判別函數(shù)
建立判別函數(shù)如下:
(16)
對于任一樣X0=(x1,x2,…,xp),代入式(16)中,得出k個值,若其中y(g*)(X0)最大,則該個體X0=(x1,x2,…,xp)屬于g*類(g*=1,2,…,k)。
2.貝葉斯(Bayes)判別模型實證分析
基于Clementine軟件的貝葉斯判別模型對信用風險分類預(yù)測的基本流程如下:
圖4 Bayes訓(xùn)練模型圖
與Logistic回歸模型類似,在進行分類預(yù)測時如果采用貝葉斯判別,也需要進行變量的篩選,將判別能力強的變量挑選出來構(gòu)建判別函數(shù),即逐步判別分析法,如圖4。其模型收益(Gain)曲線圖如圖5所示:
圖5 貝葉斯(Bayes)判別模型收益(Gain)曲線圖
由圖5看出,大約30%的數(shù)據(jù)就可以預(yù)測出75%的ST類公司(標記值為“1”),分類預(yù)測的效果較好。從總的預(yù)測準確率來看,Logistic回歸模型略好于Bayes判別的結(jié)果,但Bayes判別模型的穩(wěn)健性則略強于Logistic回歸模型。
以上即本文采用的兩種基于統(tǒng)計方法的分類預(yù)測模型,這兩種模型均為實際應(yīng)用中比較成熟的模型,相對來說,其準確率和穩(wěn)健性都較好,以下將利用兩種基于數(shù)據(jù)挖掘方法的模型進行分類預(yù)測。
1.支持向量機(SVM)的基本原理
結(jié)構(gòu)風險最小化原則是支持向量機(SVM)所遵守的主要原則,該方法可以使訓(xùn)練及規(guī)模和VC維之間達到平衡的狀態(tài),因此有利于支持向量機在全局最優(yōu)解這一目標實現(xiàn)的同時也實現(xiàn)推廣能力達到最佳的目標。支持向量機(SVM)的基本思想如下,為保證推廣性的置信范圍以及經(jīng)驗風險達到最小值,同時實現(xiàn)對其的正確分類,從輸入空間非線性將非線性可分數(shù)據(jù)集映射到相應(yīng)的高維特征空間,并在該高維特征空間中對有關(guān)規(guī)劃問題進行求解,同時構(gòu)建出一個離超平面最近的向量和超平面之間的距離達到最大的最優(yōu)分類超平面。
2.支持向量機(SVM)模型實證分析
基于Clementine軟件的支持向量機模型對信用風險分類預(yù)測的基本流程如圖6、圖7所示:
圖6 支持向量機(SVM)訓(xùn)練模型圖
圖7 支持向量機(SVM)測試模型圖
利用10次2-折交叉驗證的方法得到的結(jié)果如表3所示:
表3 支持向量機(SVM)模型分類預(yù)測結(jié)果
其模型收益(Gain)曲線圖如圖8所示:
圖8 SVM模型收益(Gain)曲線圖
通過對模型結(jié)果的研究能夠看出,該模型的準確率也比較高,且30%的數(shù)據(jù)就可以預(yù)測出80%的ST類公司,說明模型效率較高。
以上兩大類模型各有優(yōu)劣,基于統(tǒng)計方法的模型優(yōu)勢在于模型的可解釋性較好,從判別方程系數(shù)可以直觀地看出財務(wù)指標的重要程度,同時,建立在統(tǒng)計分析基礎(chǔ)之上的模型通常穩(wěn)定性較好,其不足之處在于建模過程中對樣本要求較高,樣本數(shù)據(jù)的選取對模型結(jié)果的影響較大。基于數(shù)據(jù)挖掘(或機器學(xué)習(xí))方法的模型優(yōu)勢在于模型在訓(xùn)練過程中反復(fù)進行迭代,可以達到較高的預(yù)測精度,但由于是暗箱操作,只能獲得模型的最終結(jié)果而無法獲知具體各變量的引用情況。
我國股市大幅崩盤導(dǎo)致大量上市公司違約現(xiàn)象不斷產(chǎn)生,因此使得我國商業(yè)銀行所面臨的信用風險越來越大,金融業(yè)面臨的最為重要的風險之一即為信用風險,同時信用風險也是我國加入世貿(mào)組織之后金融市場所面臨的一個重大挑戰(zhàn)?;诖?,分別利用統(tǒng)計模型和數(shù)據(jù)挖掘模型進行實證分析,比較各模型自身優(yōu)劣,并進行實證分析和結(jié)果評價。在實際應(yīng)用中,為充分利用這幾類模型的優(yōu)勢,可以將以上幾種模型進行組合,以達到更好的效果。
[1]陳秀梅,程晗.眾籌融資信用風險分析及管理體系構(gòu)建[J].財經(jīng)問題研究,2014(12):47-51.
[2]羅方科,陳曉紅.基于Logistic回歸模型的個人小額貸款信用風險評估及應(yīng)用[J].財經(jīng)理論與實踐,2017,38(1):30-35.
[3]方匡南,范新妍,馬雙鴿.基于網(wǎng)絡(luò)結(jié)構(gòu)Logistic模型的企業(yè)信用風險預(yù)警[J].統(tǒng)計研究,2016,33(4):50-55.
[4]劉祥東,王未卿.我國商業(yè)銀行信用風險識別的多模型比較研究[J].經(jīng)濟經(jīng)緯,2015,32(6):132-137.
[5]林漢川,張萬軍,楊柳.基于大數(shù)據(jù)的個人信用風險評估關(guān)鍵技術(shù)研究[J].管理現(xiàn)代化,2016,36(2):95-97.
[6]丁東洋,周麗莉,劉樂平.貝葉斯方法在信用風險度量中的應(yīng)用研究綜述[J].數(shù)理統(tǒng)計與管理,2013,32(1):42-56.
[7]史小康,何曉群.個人信用風險評分的貝葉斯有偏連接模型研究[J].統(tǒng)計與信息論壇,2015,v.30;No.173(2):3-8.
[8]鄔建平.基于粗糙集和支持向量機的電子商務(wù)信用風險分類[J].數(shù)學(xué)的實踐與認識,2016,46(13):87-92.
[9]隋學(xué)深,喬鵬,丁保利.基于支持向量機的貸款風險等級分類真實性審計研究[J].審計研究,2014(3):21-25.
[10]韓兆洲,林少萍,鄭博儒.多類支持向量機分類技術(shù)及實證[J].統(tǒng)計與決策,2015(19):10-13.
責任編輯:周小梅
2017-05-28
鄒柏松(1987-),男,湖北宜昌人,碩士,中級經(jīng)濟師,研究方向為區(qū)域經(jīng)濟學(xué)。
TM417
A
1009-1890(2017)02-0016-05