李君藝 張宇華
1東莞職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系 廣東 523808 2廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 510006
我國(guó)的金融風(fēng)險(xiǎn)主要表現(xiàn)為信用風(fēng)險(xiǎn),我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)管理已由傳統(tǒng)經(jīng)驗(yàn)判斷時(shí)期逐步發(fā)展到現(xiàn)代信用風(fēng)險(xiǎn)模型化階段。隨著管理信息系統(tǒng)的廣泛使用和電子商務(wù)的深入發(fā)展,我國(guó)商業(yè)銀行大都擁有大量客戶數(shù)據(jù),而面對(duì)海量數(shù)據(jù),傳統(tǒng)的信用風(fēng)險(xiǎn)管理方法逐漸無(wú)法負(fù)荷。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為解決海量數(shù)據(jù)下的信用風(fēng)險(xiǎn)管理問(wèn)題提供了新的思路和方法。數(shù)據(jù)挖掘是以人工智能為基礎(chǔ)的數(shù)據(jù)分析技術(shù),是從大量的、不完全的、有噪聲、模糊的、隨機(jī)的數(shù)據(jù)中,提煉隱含其中的、具有潛在作用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘可以為商業(yè)銀行信用風(fēng)險(xiǎn)提供諸多分析方法,本文對(duì)三種常用的數(shù)據(jù)挖掘方法——多元判別分析、聚類分析和貝葉斯網(wǎng)絡(luò)模型進(jìn)行實(shí)證研究,通過(guò)結(jié)果分析,比較三者作為信用風(fēng)險(xiǎn)評(píng)估方法的優(yōu)劣。
信用風(fēng)險(xiǎn)評(píng)估方法的驗(yàn)證數(shù)據(jù)選用某商業(yè)銀行的數(shù)據(jù),選擇已成功申請(qǐng)房貸的 6000條個(gè)人客戶數(shù)據(jù)為研究對(duì)象,其中5000條數(shù)據(jù)作為訓(xùn)練樣本,1000條數(shù)據(jù)作為結(jié)果驗(yàn)證。LEVEL表示信用風(fēng)險(xiǎn)等級(jí),劃分為 High(H)、Middle(M)、Low(L)三個(gè)等級(jí),各等級(jí)在樣本數(shù)據(jù)中大致均勻分布。LEVEL作為響應(yīng)變量或目標(biāo)變量,其余的變量為客戶信用指標(biāo)集,反應(yīng)客戶的各項(xiàng)屬性,即特征屬性變量,如表1所示。
表1 屬性指標(biāo)列表
以上數(shù)據(jù)以SAS數(shù)據(jù)集的形式儲(chǔ)存于ODS數(shù)據(jù)層,訓(xùn)練數(shù)據(jù)統(tǒng)一存放于數(shù)據(jù)集studydata,驗(yàn)證數(shù)據(jù)存放于數(shù)據(jù)集newdata。
信用風(fēng)險(xiǎn)評(píng)估方法的實(shí)現(xiàn)功能是:在給定的風(fēng)險(xiǎn)等級(jí)分類體系下,根據(jù)分析客戶的以上特征屬性變量,自動(dòng)確定客戶的信用風(fēng)險(xiǎn)等級(jí)類別LEVEL。我們將通過(guò)對(duì)三種不同的分析方法進(jìn)行驗(yàn)證,比較三種方法在信用風(fēng)險(xiǎn)評(píng)估分析中的性能及準(zhǔn)確度。
判別分析是根據(jù)表明研究對(duì)象特征的變量值判別樣品所屬類型的一種分類方法。根據(jù)樣本的已知分類及所測(cè)得的數(shù)據(jù),篩選出最能表明研究對(duì)象特征的變量,并根據(jù)這些變量和已知類別,建立使誤判率最小的判別函數(shù)。在風(fēng)險(xiǎn)評(píng)估算法中,可把風(fēng)險(xiǎn)等級(jí)作為分類變量,各個(gè)指標(biāo)屬性作為數(shù)值變量,從已知分類數(shù)據(jù)中訓(xùn)練出判別函數(shù),用于客戶風(fēng)險(xiǎn)等級(jí)的分類預(yù)測(cè)。
我們利用SAS系統(tǒng)軟件中的STEPDISC、DISCRIM過(guò)程對(duì)信用風(fēng)險(xiǎn)評(píng)估指標(biāo)進(jìn)行判別分析。過(guò)程如下:
(1)指標(biāo)篩選
首先,利用STEPDISC過(guò)程對(duì)指標(biāo)進(jìn)行篩選,選出對(duì)判別分析結(jié)果相關(guān)性較大的指標(biāo)。proc stepdisc data=studydata method=sw;class X20;var X1-X19;run;
STEPDISC過(guò)程逐步選出F值最大,即對(duì)判別效果貢獻(xiàn)最大的變量,選入模型,最后選出Pr>F小于判據(jù)0.15的變量。結(jié)果在19個(gè)變量中選擇了X3,X5,X10,X14,X18,X19共6個(gè)變量。
(2)判別分析過(guò)程
評(píng)估指標(biāo)的變量既有離散型變量也有連續(xù)型變量,數(shù)據(jù)的分布不能確定,我們須采用SAS中的DISCRIM過(guò)程。下面我們將以 studydata作為訓(xùn)練樣本,在前面已經(jīng)過(guò)STEPDISC的變量篩選,現(xiàn)在我們基于 studydata對(duì)新樣本newdata進(jìn)行風(fēng)險(xiǎn)等級(jí)分類。
proc discrim data=newdata testdata=studydata testout=result list;
class x20;
var x3 x5 x10 x14 x18 x19;
run;
Studydata中的風(fēng)險(xiǎn)等級(jí)分類共有H、M、L三級(jí),即X20有三種取值。運(yùn)行過(guò)程是首先得出三個(gè)級(jí)別的線性判別函數(shù)的系數(shù)和常數(shù)項(xiàng),用回代法將newdata每個(gè)觀測(cè)的變量代入三個(gè)判別函數(shù),哪個(gè)函數(shù)值大,觀測(cè)就屬于哪一類。這里我們使用了 LIST選項(xiàng),使分類結(jié)果自動(dòng)列出,并顯視各觀測(cè)分到每一類的后驗(yàn)概率,最后結(jié)果是觀測(cè)被分到后驗(yàn)概率最大的那一項(xiàng)(圖1)。
圖1 PROC DISCRIM部分運(yùn)行結(jié)果
我們把DISCRIM過(guò)程的分類結(jié)果與銀行內(nèi)部的實(shí)際風(fēng)險(xiǎn)評(píng)級(jí)結(jié)果相比,分類正確的數(shù)據(jù)為776條,準(zhǔn)確率達(dá)到77%以上。然后我們嘗試把studydata樣本提高為8000條數(shù)據(jù)時(shí),newdata的分類準(zhǔn)確率提升為80.6%。
聚類分析和判別分析有相似的作用,都是起到分類的作用。但是,判別分析是已知分類然后總結(jié)出判別規(guī)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種方法把觀測(cè)進(jìn)行合理的分類,使得同一類的觀測(cè)比較接近,不同類的觀測(cè)相差較多,這是無(wú)指導(dǎo)的學(xué)習(xí)。因聚類分析適合于分析樣本量少的數(shù)據(jù),下面我們只從newdata中選取100條數(shù)據(jù)作分析。
SAS中的聚類分析過(guò)程有 11種分類方法(METHOD),下面我們采用最短距離法(METHOD=SINGLE),即通過(guò)計(jì)算兩類觀測(cè)間最近一對(duì)的距離,得出分類結(jié)果。
圖2 PROC CLUSTER運(yùn)行結(jié)果
如圖2所示,Cluster History中的變量依次表示分類的類數(shù)、原分類、每步合并入的類、此步類中的觀測(cè)數(shù)、R平方。系統(tǒng)聚類法首先將所有樣本觀測(cè)各獨(dú)自視為1類,然后逐步合并至只有1類。然后,我們?cè)O(shè)信用等級(jí)分類數(shù)ncl為3,接下來(lái),可以用proc tree和proc means進(jìn)一步完善后續(xù)工作。
最后,根據(jù)數(shù)據(jù)集result可以得到將100個(gè)客戶分為3類,再結(jié)合對(duì)各類客戶的定性評(píng)分,可以把信用風(fēng)險(xiǎn)定為高,中,低三個(gè)級(jí)別。與實(shí)際評(píng)級(jí)結(jié)果相比,運(yùn)算結(jié)果準(zhǔn)確的條數(shù)達(dá) 74條,準(zhǔn)確率為 74%。聚類分析只能應(yīng)用于數(shù)據(jù)量較少的樣本,并且只能對(duì)樣本進(jìn)行分類,無(wú)法具體確定每一類的風(fēng)險(xiǎn)級(jí)別。確定每個(gè)分類的風(fēng)險(xiǎn)級(jí)別需要結(jié)合因子分析或人為定性分析。
貝葉斯網(wǎng)絡(luò)的構(gòu)建可以通過(guò)學(xué)習(xí)和人工構(gòu)建兩種方式進(jìn)行。人工構(gòu)建通過(guò)專家經(jīng)驗(yàn)手工構(gòu)造,學(xué)習(xí)則是通過(guò)數(shù)據(jù)分析獲得,即利用機(jī)器學(xué)習(xí)的方法分析數(shù)據(jù)來(lái)獲得貝葉斯網(wǎng)絡(luò)。在訓(xùn)練樣本充分的情況下,可以從數(shù)據(jù)中訓(xùn)練出貝葉斯網(wǎng)絡(luò)模型。貝葉斯網(wǎng)絡(luò)模型的構(gòu)建過(guò)程包括網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí),步驟如下:
(1)各個(gè)指標(biāo)作為節(jié)點(diǎn),運(yùn)用K2算法對(duì)studydata樣本進(jìn)行訓(xùn)練,尋找CH評(píng)分高的貝葉斯網(wǎng)絡(luò)模型,確定節(jié)點(diǎn)間的關(guān)系,生成貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)表。
(2)利用最大似然估計(jì)算法進(jìn)行參數(shù)學(xué)習(xí),確定節(jié)點(diǎn)的概率分配,為每個(gè)節(jié)點(diǎn)各生成一個(gè)條件概率表。
圖3 信用風(fēng)險(xiǎn)評(píng)估貝葉斯網(wǎng)絡(luò)模型
通過(guò)以上步驟構(gòu)建的貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示?,F(xiàn)對(duì)模型進(jìn)行驗(yàn)證。把從前面參數(shù)學(xué)習(xí)取得的 20個(gè)條件概率表,建立20個(gè)數(shù)據(jù)集,依次命名為T(mén)1,T2,…,T20。把網(wǎng)絡(luò)結(jié)構(gòu)表建立一個(gè)獨(dú)立的數(shù)據(jù)集,命名為 network。SAS算法將對(duì)客戶數(shù)據(jù)(newdata)逐條處理,過(guò)程如下:
(1)讀取客戶數(shù)據(jù),初始化運(yùn)算公式:
(2)搜索表Network,獲取屬性變量Xi(i=1,2,…,19)的父節(jié)點(diǎn);
(3)搜索表Ti(i=1,2,…,19),獲得該子節(jié)點(diǎn)與父節(jié)點(diǎn)的聯(lián)合條件概率,將其加入運(yùn)算公式;
(4)搜索表 T20,把 3個(gè)風(fēng)險(xiǎn)等級(jí)下的條件概率分別加入運(yùn)算公式,得出客戶在3個(gè)風(fēng)險(xiǎn)等級(jí)(H,M,L)的概率結(jié)果,最后確定把客戶分到概率最高的一個(gè)等級(jí)。
驗(yàn)證過(guò)程是通過(guò)輸入客戶的數(shù)據(jù)(newdata),得出客戶在3個(gè)信用風(fēng)險(xiǎn)級(jí)別(H,M,L)的概率,最后確定客戶屬于概率最大的一個(gè)級(jí)別。算法流程見(jiàn)圖4。
圖4 貝葉斯網(wǎng)絡(luò)驗(yàn)證算法流程圖
根據(jù)以上過(guò)程,我們使用newdata樣本的1000條數(shù)據(jù)進(jìn)行結(jié)果驗(yàn)證。把模型的分類結(jié)果與銀行內(nèi)部的實(shí)際風(fēng)險(xiǎn)評(píng)級(jí)結(jié)果相比,分類正確的數(shù)據(jù)為886條,準(zhǔn)確率達(dá)到88.6%。
從表2的結(jié)果看,三種分析方法相比,對(duì)于中、低風(fēng)險(xiǎn)級(jí)別的客戶數(shù)據(jù),貝葉斯網(wǎng)絡(luò)方法的準(zhǔn)確率優(yōu)于判別分析和聚類分析;對(duì)于高風(fēng)險(xiǎn)級(jí)別的客戶數(shù)據(jù),貝葉斯網(wǎng)絡(luò)的準(zhǔn)確率與其它兩種方法基本持平。貝葉斯網(wǎng)絡(luò)模型在判斷高風(fēng)險(xiǎn)客戶上沒(méi)有明顯的優(yōu)勢(shì),大約是因?yàn)楦唢L(fēng)險(xiǎn)客戶的指標(biāo)屬性集近似吻合條件獨(dú)立的假定。但是,對(duì)于中、低風(fēng)險(xiǎn)的客戶而言,其影響還款能力的各方面因素大多是相關(guān)的,貝葉斯網(wǎng)絡(luò)模型在解決條件依賴方面有明顯優(yōu)勢(shì)??傮w來(lái)看,貝葉斯網(wǎng)絡(luò)模型的總體準(zhǔn)確率高于判別分析和聚類分析。貝葉斯網(wǎng)絡(luò)能運(yùn)用所有的屬性指標(biāo)并明確確定每個(gè)指標(biāo)的依賴關(guān)系和條件概率,判別分析則只選取相關(guān)性較高的指標(biāo)進(jìn)行概率估算,因此貝葉斯網(wǎng)絡(luò)的精確度顯然要高于判別分析;與聚類分析相比,貝葉斯網(wǎng)絡(luò)是基于對(duì)大量歷史數(shù)據(jù)進(jìn)行學(xué)習(xí)而獲得的,并能用于分析數(shù)據(jù)規(guī)模較大的樣本,而聚類分析能應(yīng)用于數(shù)據(jù)量較少的樣本,并且只能對(duì)樣本進(jìn)行分類,無(wú)法具體確定每一類的風(fēng)險(xiǎn)級(jí)別,在這一點(diǎn)上,貝葉斯網(wǎng)絡(luò)模型明顯優(yōu)于聚類分析。
表2 三種方法正確率對(duì)照表
[1]張連文,郭海鵬.貝葉斯網(wǎng)引論[M].科學(xué)出版社.2006.
[2]譚浩強(qiáng).SAS/PC統(tǒng)計(jì)分析軟件使用技術(shù)[M].國(guó)防工業(yè)出版社.1996.
[3]李君藝,梁智城.SAS判別分析在商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[J].計(jì)算機(jī)安全.2011.
[4]薄純林,王宗軍.基于貝葉斯網(wǎng)絡(luò)的商業(yè)銀行操作風(fēng)險(xiǎn)管理[J].金融理論與實(shí)踐.2008.
[5]汪辦興.我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)模型的國(guó)際比較與改進(jìn).當(dāng)代經(jīng)濟(jì)科學(xué)[J].2007.
[6]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社.2008.
[7]General J.Financial analysis using Bayesian networks[J].Applied Sochastic Modelsin Bussiness and Industry.2001.17(1):57-67.