張宇敬 杜光輝
摘 要:貸款風(fēng)險是金融風(fēng)險中的主要類型,本文運(yùn)用數(shù)據(jù)挖掘中的決策樹技術(shù)對貸款風(fēng)險進(jìn)行預(yù)警,應(yīng)用規(guī)則對客戶貸款信息進(jìn)行預(yù)測,為貸款部門提供決策依據(jù)。
關(guān)鍵詞:決策樹技術(shù);貸款風(fēng)險
1 引言
貸款風(fēng)險是金融風(fēng)險中主要類型,我國銀行貸款風(fēng)險管理比較側(cè)重于風(fēng)險控制的事中和事后的控制,而忽視了風(fēng)險的事前管理。國外大量的成功案例表明,銀行在其經(jīng)營過程中,一些風(fēng)險隱患發(fā)現(xiàn)的越早,對銀行造成的損失就越小。因此,加強(qiáng)銀行貸款風(fēng)險水平的事前監(jiān)測管理,使用數(shù)據(jù)挖掘技術(shù)——決策樹算法對以往海量貸款數(shù)據(jù)進(jìn)行分析,建立和完善貸款風(fēng)險預(yù)警體系,提高自身的風(fēng)險管理水平,是銀行持續(xù)發(fā)展的重要基礎(chǔ)。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining)目的就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。
決策樹算法是數(shù)據(jù)挖掘十大經(jīng)典算法之一。決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。一般情況下都是由上而下根據(jù)相應(yīng)規(guī)則生成而來的,每個決策或者是每個事件所產(chǎn)生的后果都有可能引起兩種或兩種以上的的事件,導(dǎo)致不同的結(jié)果。把這種決策分支以圖形的方式畫出來很像一顆倒立的樹結(jié)構(gòu),所以稱為決策樹。
決策樹包含許多不同的算法,其中最典型的算法有ID3,C4.5,CART等。ID3算法由Qullan在1986年提出的,該算法以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對數(shù)據(jù)的歸納分類,假設(shè)用X代表當(dāng)前樣本集,用Q候選屬性集,候選屬性集中所有屬性皆為離散型,或數(shù)值屬性事先經(jīng)過預(yù)處理轉(zhuǎn)化成離散型。ID3算法描述如下。
ID3算法的核心思想就是在決策樹中的各層分支節(jié)點(diǎn)上利用信息增益的方式選擇屬性。在樹的每個節(jié)點(diǎn)上,將具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性,使用獲得的屬性對樣本集進(jìn)行樣本劃分之后,系統(tǒng)的信息量是最小的。并確保找到一棵簡單的樹。
設(shè)S是s個數(shù)據(jù)樣本的集合,假定類標(biāo)號屬性具有m個不同值,定義m個不同類Ci(i=1,2,3...m)。設(shè)Si是類Ci的樣本數(shù)。對于一個給定的樣本分類所需的期望信息由下式給出:
其中pi是任意樣本屬于Ci的概率,一般可用Si/S來估計。
設(shè)Sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由上劃分子集的熵(熵是對事件對應(yīng)的屬性的不確定性的度量)由下式給出:
其中熵值越小,子集劃分的純度就越高。
由期望信息和熵值可以得到相應(yīng)的信息增益值。對于在分支上將獲得的信息增益可以由下面的公式得到:
ID3算法計算每個屬性的信息增益。并選取具有最高增益的屬性作為給定集合的測試屬性,對被選擇的測試屬性創(chuàng)建一個節(jié)點(diǎn),并以該屬性標(biāo)記,對于該屬性的每個值創(chuàng)建一個分支,并據(jù)此劃分樣本。
3 利用ID3算法構(gòu)造貸款風(fēng)險預(yù)警分析決策樹
3.1 構(gòu)造決策樹
抽取某銀行的貸款數(shù)據(jù),對個人貸款風(fēng)險等級進(jìn)行評定。為了簡化僅選用4個屬性值進(jìn)行確定,各屬性值的取值范圍是這樣定義的。
年齡(age):1、2、3,(1代表20-31歲,2代表32-41歲,3代表42-50歲);年收入(income):0,1,2,3(0代表100000以下,1代表100000-200000,2代表200000-300000,3代表300000以上);存款(poist):0、1、2、3(0代表100000以下,1代表100000-200000,2代表200000-300000,3代表300000以上);負(fù)債(debt):0,1(0代表有負(fù)債,1代表沒有負(fù)債);風(fēng)險等級(grade):A、B、C、D、E(A代表正常類,B代表關(guān)注類,C代表次級類,D代表可疑類,E代表損失類)。表3-1給出了訓(xùn)練樣本集。
最終需要分類的屬性為grade,它有5個不同的值A(chǔ)、B、C、D、E,A有3個樣本,B有2個樣本,C有2個樣本,D有1個樣本,E有2個樣本。
為計算每個屬性的信息增益,首先給定樣本grade分類所需的期望信息:
age屬性的樣本值分布如下所示:
最后計算的信息增益是:
類似的,可以計算:
Gain(income)=0.964 Gain(poist)=0.482 Gain(debt)=0.243
由于age在四個屬性中具有最高的信息增益,所以首先被選為測試屬性,并據(jù)此建根節(jié)點(diǎn)。用age標(biāo)記,并對于每個屬性值,引出一個分支,數(shù)據(jù)集被分為兩個子集age結(jié)點(diǎn)及其分支如圖3.1所示。
類似的可以計算出各個屬性的信息增益,經(jīng)過計算可得知信息增益最大的為收入income,其次為存款poist,最后才是負(fù)債debt。按照上述過程最終可得出決策樹如圖3.2所示。
3.2 提取分類規(guī)則
4 結(jié)論
數(shù)據(jù)挖掘技術(shù)作為一個新興的研究領(lǐng)域,其應(yīng)用前景及發(fā)展空間十分廣闊,特別對于銀行業(yè)及銀行監(jiān)管部門。銀行貸款風(fēng)險預(yù)警系統(tǒng)有助于強(qiáng)化貸前管理。通過對貸款客戶的收入、存款和負(fù)債情況分析,確定是否有風(fēng)險。如果客戶屬于較重風(fēng)險和嚴(yán)重風(fēng)險的等級,則不予貸款;如果屬于中度風(fēng)險的等級,則需在貸款后加強(qiáng)貸后管理,關(guān)注客戶經(jīng)營情況,及時回收;如果屬于輕微風(fēng)險和無風(fēng)險,則貸款給客戶。
[參考文獻(xiàn)]
[1]郭景峰,等.決策樹算法的并行性研究.計算機(jī)工程,2002.
[2]賀向明.《企業(yè)財務(wù)危機(jī)預(yù)警模型基于商業(yè)銀行信貸決策的分析》.2004.
[3]楊明,張載鴻.決策樹學(xué)習(xí)算法ID3的研究.微機(jī)發(fā)展,2002.