商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估實(shí)證分析及方法比較

2013-07-23 01:37:40李君藝張宇華

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2013年3期

李君藝張宇華

1東莞職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系廣東 523808 2廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院廣東 510006

0 引言

我國(guó)的金融風(fēng)險(xiǎn)主要表現(xiàn)為信用風(fēng)險(xiǎn)，我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)管理已由傳統(tǒng)經(jīng)驗(yàn)判斷時(shí)期逐步發(fā)展到現(xiàn)代信用風(fēng)險(xiǎn)模型化階段。隨著管理信息系統(tǒng)的廣泛使用和電子商務(wù)的深入發(fā)展，我國(guó)商業(yè)銀行大都擁有大量客戶數(shù)據(jù)，而面對(duì)海量數(shù)據(jù)，傳統(tǒng)的信用風(fēng)險(xiǎn)管理方法逐漸無(wú)法負(fù)荷。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)，為解決海量數(shù)據(jù)下的信用風(fēng)險(xiǎn)管理問(wèn)題提供了新的思路和方法。數(shù)據(jù)挖掘是以人工智能為基礎(chǔ)的數(shù)據(jù)分析技術(shù)，是從大量的、不完全的、有噪聲、模糊的、隨機(jī)的數(shù)據(jù)中，提煉隱含其中的、具有潛在作用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘可以為商業(yè)銀行信用風(fēng)險(xiǎn)提供諸多分析方法，本文對(duì)三種常用的數(shù)據(jù)挖掘方法——多元判別分析、聚類分析和貝葉斯網(wǎng)絡(luò)模型進(jìn)行實(shí)證研究，通過(guò)結(jié)果分析，比較三者作為信用風(fēng)險(xiǎn)評(píng)估方法的優(yōu)劣。

1 商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估指標(biāo)

信用風(fēng)險(xiǎn)評(píng)估方法的驗(yàn)證數(shù)據(jù)選用某商業(yè)銀行的數(shù)據(jù)，選擇已成功申請(qǐng)房貸的 6000條個(gè)人客戶數(shù)據(jù)為研究對(duì)象，其中5000條數(shù)據(jù)作為訓(xùn)練樣本，1000條數(shù)據(jù)作為結(jié)果驗(yàn)證。LEVEL表示信用風(fēng)險(xiǎn)等級(jí)，劃分為 High(H)、Middle(M)、Low(L)三個(gè)等級(jí)，各等級(jí)在樣本數(shù)據(jù)中大致均勻分布。LEVEL作為響應(yīng)變量或目標(biāo)變量，其余的變量為客戶信用指標(biāo)集，反應(yīng)客戶的各項(xiàng)屬性，即特征屬性變量，如表1所示。

表1 屬性指標(biāo)列表

以上數(shù)據(jù)以SAS數(shù)據(jù)集的形式儲(chǔ)存于ODS數(shù)據(jù)層，訓(xùn)練數(shù)據(jù)統(tǒng)一存放于數(shù)據(jù)集studydata，驗(yàn)證數(shù)據(jù)存放于數(shù)據(jù)集newdata。

信用風(fēng)險(xiǎn)評(píng)估方法的實(shí)現(xiàn)功能是：在給定的風(fēng)險(xiǎn)等級(jí)分類體系下，根據(jù)分析客戶的以上特征屬性變量，自動(dòng)確定客戶的信用風(fēng)險(xiǎn)等級(jí)類別LEVEL。我們將通過(guò)對(duì)三種不同的分析方法進(jìn)行驗(yàn)證，比較三種方法在信用風(fēng)險(xiǎn)評(píng)估分析中的性能及準(zhǔn)確度。

2 實(shí)證分析

2.1 多元判別分析

判別分析是根據(jù)表明研究對(duì)象特征的變量值判別樣品所屬類型的一種分類方法。根據(jù)樣本的已知分類及所測(cè)得的數(shù)據(jù)，篩選出最能表明研究對(duì)象特征的變量，并根據(jù)這些變量和已知類別，建立使誤判率最小的判別函數(shù)。在風(fēng)險(xiǎn)評(píng)估算法中，可把風(fēng)險(xiǎn)等級(jí)作為分類變量，各個(gè)指標(biāo)屬性作為數(shù)值變量，從已知分類數(shù)據(jù)中訓(xùn)練出判別函數(shù)，用于客戶風(fēng)險(xiǎn)等級(jí)的分類預(yù)測(cè)。

我們利用SAS系統(tǒng)軟件中的STEPDISC、DISCRIM過(guò)程對(duì)信用風(fēng)險(xiǎn)評(píng)估指標(biāo)進(jìn)行判別分析。過(guò)程如下：

(1)指標(biāo)篩選

首先，利用STEPDISC過(guò)程對(duì)指標(biāo)進(jìn)行篩選，選出對(duì)判別分析結(jié)果相關(guān)性較大的指標(biāo)。proc stepdisc data=studydata method=sw;class X20;var X1-X19;run;

STEPDISC過(guò)程逐步選出F值最大，即對(duì)判別效果貢獻(xiàn)最大的變量，選入模型，最后選出Pr>F小于判據(jù)0.15的變量。結(jié)果在19個(gè)變量中選擇了X3，X5，X10，X14，X18，X19共6個(gè)變量。

(2)判別分析過(guò)程

評(píng)估指標(biāo)的變量既有離散型變量也有連續(xù)型變量，數(shù)據(jù)的分布不能確定，我們須采用SAS中的DISCRIM過(guò)程。下面我們將以 studydata作為訓(xùn)練樣本，在前面已經(jīng)過(guò)STEPDISC的變量篩選，現(xiàn)在我們基于 studydata對(duì)新樣本newdata進(jìn)行風(fēng)險(xiǎn)等級(jí)分類。

proc discrim data=newdata testdata=studydata testout=result list;

class x20;

var x3 x5 x10 x14 x18 x19;

run;

Studydata中的風(fēng)險(xiǎn)等級(jí)分類共有H、M、L三級(jí)，即X20有三種取值。運(yùn)行過(guò)程是首先得出三個(gè)級(jí)別的線性判別函數(shù)的系數(shù)和常數(shù)項(xiàng)，用回代法將newdata每個(gè)觀測(cè)的變量代入三個(gè)判別函數(shù)，哪個(gè)函數(shù)值大，觀測(cè)就屬于哪一類。這里我們使用了 LIST選項(xiàng)，使分類結(jié)果自動(dòng)列出，并顯視各觀測(cè)分到每一類的后驗(yàn)概率，最后結(jié)果是觀測(cè)被分到后驗(yàn)概率最大的那一項(xiàng)(圖1)。

圖1 PROC DISCRIM部分運(yùn)行結(jié)果

我們把DISCRIM過(guò)程的分類結(jié)果與銀行內(nèi)部的實(shí)際風(fēng)險(xiǎn)評(píng)級(jí)結(jié)果相比，分類正確的數(shù)據(jù)為776條，準(zhǔn)確率達(dá)到77%以上。然后我們嘗試把studydata樣本提高為8000條數(shù)據(jù)時(shí)，newdata的分類準(zhǔn)確率提升為80.6%。

2.2 聚類分析

聚類分析和判別分析有相似的作用，都是起到分類的作用。但是，判別分析是已知分類然后總結(jié)出判別規(guī)則，是一種有指導(dǎo)的學(xué)習(xí)；而聚類分析則是有了一批樣本，不知道它們的分類，甚至連分成幾類也不知道，希望用某種方法把觀測(cè)進(jìn)行合理的分類，使得同一類的觀測(cè)比較接近，不同類的觀測(cè)相差較多，這是無(wú)指導(dǎo)的學(xué)習(xí)。因聚類分析適合于分析樣本量少的數(shù)據(jù)，下面我們只從newdata中選取100條數(shù)據(jù)作分析。

SAS中的聚類分析過(guò)程有 11種分類方法(METHOD)，下面我們采用最短距離法(METHOD=SINGLE)，即通過(guò)計(jì)算兩類觀測(cè)間最近一對(duì)的距離，得出分類結(jié)果。

圖2 PROC CLUSTER運(yùn)行結(jié)果

如圖2所示，Cluster History中的變量依次表示分類的類數(shù)、原分類、每步合并入的類、此步類中的觀測(cè)數(shù)、R平方。系統(tǒng)聚類法首先將所有樣本觀測(cè)各獨(dú)自視為1類，然后逐步合并至只有1類。然后，我們?cè)O(shè)信用等級(jí)分類數(shù)ncl為3，接下來(lái)，可以用proc tree和proc means進(jìn)一步完善后續(xù)工作。

最后，根據(jù)數(shù)據(jù)集result可以得到將100個(gè)客戶分為3類，再結(jié)合對(duì)各類客戶的定性評(píng)分，可以把信用風(fēng)險(xiǎn)定為高，中，低三個(gè)級(jí)別。與實(shí)際評(píng)級(jí)結(jié)果相比，運(yùn)算結(jié)果準(zhǔn)確的條數(shù)達(dá) 74條，準(zhǔn)確率為 74%。聚類分析只能應(yīng)用于數(shù)據(jù)量較少的樣本，并且只能對(duì)樣本進(jìn)行分類，無(wú)法具體確定每一類的風(fēng)險(xiǎn)級(jí)別。確定每個(gè)分類的風(fēng)險(xiǎn)級(jí)別需要結(jié)合因子分析或人為定性分析。

2.3 貝葉斯網(wǎng)絡(luò)模型

貝葉斯網(wǎng)絡(luò)的構(gòu)建可以通過(guò)學(xué)習(xí)和人工構(gòu)建兩種方式進(jìn)行。人工構(gòu)建通過(guò)專家經(jīng)驗(yàn)手工構(gòu)造，學(xué)習(xí)則是通過(guò)數(shù)據(jù)分析獲得，即利用機(jī)器學(xué)習(xí)的方法分析數(shù)據(jù)來(lái)獲得貝葉斯網(wǎng)絡(luò)。在訓(xùn)練樣本充分的情況下，可以從數(shù)據(jù)中訓(xùn)練出貝葉斯網(wǎng)絡(luò)模型。貝葉斯網(wǎng)絡(luò)模型的構(gòu)建過(guò)程包括網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)，步驟如下：

(1)各個(gè)指標(biāo)作為節(jié)點(diǎn)，運(yùn)用K2算法對(duì)studydata樣本進(jìn)行訓(xùn)練，尋找CH評(píng)分高的貝葉斯網(wǎng)絡(luò)模型，確定節(jié)點(diǎn)間的關(guān)系，生成貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)表。

(2)利用最大似然估計(jì)算法進(jìn)行參數(shù)學(xué)習(xí)，確定節(jié)點(diǎn)的概率分配，為每個(gè)節(jié)點(diǎn)各生成一個(gè)條件概率表。

圖3 信用風(fēng)險(xiǎn)評(píng)估貝葉斯網(wǎng)絡(luò)模型

通過(guò)以上步驟構(gòu)建的貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示?，F(xiàn)對(duì)模型進(jìn)行驗(yàn)證。把從前面參數(shù)學(xué)習(xí)取得的 20個(gè)條件概率表，建立20個(gè)數(shù)據(jù)集，依次命名為T(mén)1,T2,…,T20。把網(wǎng)絡(luò)結(jié)構(gòu)表建立一個(gè)獨(dú)立的數(shù)據(jù)集，命名為 network。SAS算法將對(duì)客戶數(shù)據(jù)(newdata)逐條處理，過(guò)程如下：

(1)讀取客戶數(shù)據(jù)，初始化運(yùn)算公式：

(2)搜索表Network，獲取屬性變量Xi(i=1,2,…,19)的父節(jié)點(diǎn)；

(3)搜索表Ti(i=1,2,…,19)，獲得該子節(jié)點(diǎn)與父節(jié)點(diǎn)的聯(lián)合條件概率，將其加入運(yùn)算公式；

(4)搜索表 T20，把 3個(gè)風(fēng)險(xiǎn)等級(jí)下的條件概率分別加入運(yùn)算公式，得出客戶在3個(gè)風(fēng)險(xiǎn)等級(jí)(H,M,L)的概率結(jié)果，最后確定把客戶分到概率最高的一個(gè)等級(jí)。

驗(yàn)證過(guò)程是通過(guò)輸入客戶的數(shù)據(jù)(newdata)，得出客戶在3個(gè)信用風(fēng)險(xiǎn)級(jí)別(H,M,L)的概率，最后確定客戶屬于概率最大的一個(gè)級(jí)別。算法流程見(jiàn)圖4。

圖4 貝葉斯網(wǎng)絡(luò)驗(yàn)證算法流程圖

根據(jù)以上過(guò)程，我們使用newdata樣本的1000條數(shù)據(jù)進(jìn)行結(jié)果驗(yàn)證。把模型的分類結(jié)果與銀行內(nèi)部的實(shí)際風(fēng)險(xiǎn)評(píng)級(jí)結(jié)果相比，分類正確的數(shù)據(jù)為886條，準(zhǔn)確率達(dá)到88.6%。

3 結(jié)論

從表2的結(jié)果看，三種分析方法相比，對(duì)于中、低風(fēng)險(xiǎn)級(jí)別的客戶數(shù)據(jù)，貝葉斯網(wǎng)絡(luò)方法的準(zhǔn)確率優(yōu)于判別分析和聚類分析；對(duì)于高風(fēng)險(xiǎn)級(jí)別的客戶數(shù)據(jù)，貝葉斯網(wǎng)絡(luò)的準(zhǔn)確率與其它兩種方法基本持平。貝葉斯網(wǎng)絡(luò)模型在判斷高風(fēng)險(xiǎn)客戶上沒(méi)有明顯的優(yōu)勢(shì)，大約是因?yàn)楦唢L(fēng)險(xiǎn)客戶的指標(biāo)屬性集近似吻合條件獨(dú)立的假定。但是，對(duì)于中、低風(fēng)險(xiǎn)的客戶而言，其影響還款能力的各方面因素大多是相關(guān)的，貝葉斯網(wǎng)絡(luò)模型在解決條件依賴方面有明顯優(yōu)勢(shì)?？傮w來(lái)看，貝葉斯網(wǎng)絡(luò)模型的總體準(zhǔn)確率高于判別分析和聚類分析。貝葉斯網(wǎng)絡(luò)能運(yùn)用所有的屬性指標(biāo)并明確確定每個(gè)指標(biāo)的依賴關(guān)系和條件概率，判別分析則只選取相關(guān)性較高的指標(biāo)進(jìn)行概率估算，因此貝葉斯網(wǎng)絡(luò)的精確度顯然要高于判別分析；與聚類分析相比，貝葉斯網(wǎng)絡(luò)是基于對(duì)大量歷史數(shù)據(jù)進(jìn)行學(xué)習(xí)而獲得的，并能用于分析數(shù)據(jù)規(guī)模較大的樣本，而聚類分析能應(yīng)用于數(shù)據(jù)量較少的樣本，并且只能對(duì)樣本進(jìn)行分類，無(wú)法具體確定每一類的風(fēng)險(xiǎn)級(jí)別，在這一點(diǎn)上，貝葉斯網(wǎng)絡(luò)模型明顯優(yōu)于聚類分析。

表2 三種方法正確率對(duì)照表

[1]張連文,郭海鵬.貝葉斯網(wǎng)引論[M].科學(xué)出版社.2006.

[2]譚浩強(qiáng).SAS/PC統(tǒng)計(jì)分析軟件使用技術(shù)[M].國(guó)防工業(yè)出版社.1996.

[3]李君藝,梁智城.SAS判別分析在商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[J].計(jì)算機(jī)安全.2011.

[4]薄純林，王宗軍.基于貝葉斯網(wǎng)絡(luò)的商業(yè)銀行操作風(fēng)險(xiǎn)管理[J].金融理論與實(shí)踐.2008.

[5]汪辦興.我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)模型的國(guó)際比較與改進(jìn).當(dāng)代經(jīng)濟(jì)科學(xué)[J].2007.

[6]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社.2008.

[7]General J.Financial analysis using Bayesian networks[J].Applied Sochastic Modelsin Bussiness and Industry.2001.17(1):57-67.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看