決策樹算法在銀行貸款風(fēng)險預(yù)警中的應(yīng)用分析

2013-04-29 05:19:30張宇敬杜光輝

無線互聯(lián)科技 2013年5期

張宇敬　杜光輝

摘要：貸款風(fēng)險是金融風(fēng)險中的主要類型，本文運(yùn)用數(shù)據(jù)挖掘中的決策樹技術(shù)對貸款風(fēng)險進(jìn)行預(yù)警，應(yīng)用規(guī)則對客戶貸款信息進(jìn)行預(yù)測，為貸款部門提供決策依據(jù)。

關(guān)鍵詞：決策樹技術(shù)；貸款風(fēng)險

1 引言

貸款風(fēng)險是金融風(fēng)險中主要類型，我國銀行貸款風(fēng)險管理比較側(cè)重于風(fēng)險控制的事中和事后的控制，而忽視了風(fēng)險的事前管理。國外大量的成功案例表明，銀行在其經(jīng)營過程中，一些風(fēng)險隱患發(fā)現(xiàn)的越早，對銀行造成的損失就越小。因此，加強(qiáng)銀行貸款風(fēng)險水平的事前監(jiān)測管理，使用數(shù)據(jù)挖掘技術(shù)——決策樹算法對以往海量貸款數(shù)據(jù)進(jìn)行分析，建立和完善貸款風(fēng)險預(yù)警體系，提高自身的風(fēng)險管理水平，是銀行持續(xù)發(fā)展的重要基礎(chǔ)。

2 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘（Data Mining）目的就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。

決策樹算法是數(shù)據(jù)挖掘十大經(jīng)典算法之一。決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。一般情況下都是由上而下根據(jù)相應(yīng)規(guī)則生成而來的，每個決策或者是每個事件所產(chǎn)生的后果都有可能引起兩種或兩種以上的的事件，導(dǎo)致不同的結(jié)果。把這種決策分支以圖形的方式畫出來很像一顆倒立的樹結(jié)構(gòu)，所以稱為決策樹。

決策樹包含許多不同的算法，其中最典型的算法有ID3，C4.5，CART等。ID3算法由Qullan在1986年提出的，該算法以信息論為基礎(chǔ)，以信息熵和信息增益度為衡量標(biāo)準(zhǔn)，從而實(shí)現(xiàn)對數(shù)據(jù)的歸納分類，假設(shè)用X代表當(dāng)前樣本集，用Q候選屬性集，候選屬性集中所有屬性皆為離散型，或數(shù)值屬性事先經(jīng)過預(yù)處理轉(zhuǎn)化成離散型。ID3算法描述如下。

ID3算法的核心思想就是在決策樹中的各層分支節(jié)點(diǎn)上利用信息增益的方式選擇屬性。在樹的每個節(jié)點(diǎn)上，將具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性，使用獲得的屬性對樣本集進(jìn)行樣本劃分之后，系統(tǒng)的信息量是最小的。并確保找到一棵簡單的樹。

設(shè)S是s個數(shù)據(jù)樣本的集合，假定類標(biāo)號屬性具有m個不同值，定義m個不同類Ci（i=1，2，3...m）。設(shè)Si是類Ci的樣本數(shù)。對于一個給定的樣本分類所需的期望信息由下式給出：

其中pi是任意樣本屬于Ci的概率，一般可用Si/S來估計。

設(shè)Sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由上劃分子集的熵（熵是對事件對應(yīng)的屬性的不確定性的度量）由下式給出：

其中熵值越小，子集劃分的純度就越高。

由期望信息和熵值可以得到相應(yīng)的信息增益值。對于在分支上將獲得的信息增益可以由下面的公式得到：

ID3算法計算每個屬性的信息增益。并選取具有最高增益的屬性作為給定集合的測試屬性，對被選擇的測試屬性創(chuàng)建一個節(jié)點(diǎn)，并以該屬性標(biāo)記，對于該屬性的每個值創(chuàng)建一個分支，并據(jù)此劃分樣本。

3 利用ID3算法構(gòu)造貸款風(fēng)險預(yù)警分析決策樹

3.1 構(gòu)造決策樹

抽取某銀行的貸款數(shù)據(jù)，對個人貸款風(fēng)險等級進(jìn)行評定。為了簡化僅選用4個屬性值進(jìn)行確定，各屬性值的取值范圍是這樣定義的。

年齡（age）：1、2、3，（1代表20-31歲，2代表32-41歲，3代表42-50歲）；年收入（income）：0，1，2，3（0代表100000以下，1代表100000-200000，2代表200000-300000，3代表300000以上）；存款（poist）：0、1、2、3（0代表100000以下，1代表100000-200000，2代表200000-300000，3代表300000以上）；負(fù)債（debt）：0，1（0代表有負(fù)債，1代表沒有負(fù)債）；風(fēng)險等級（grade）：A、B、C、D、E（A代表正常類，B代表關(guān)注類，C代表次級類，D代表可疑類，E代表損失類）。表3-1給出了訓(xùn)練樣本集。

最終需要分類的屬性為grade，它有5個不同的值A(chǔ)、B、C、D、E，A有3個樣本，B有2個樣本，C有2個樣本，D有1個樣本，E有2個樣本。

為計算每個屬性的信息增益，首先給定樣本grade分類所需的期望信息：

age屬性的樣本值分布如下所示：

最后計算的信息增益是：

類似的，可以計算：

Gain（income）=0.964 Gain（poist）=0.482 Gain（debt）=0.243

由于age在四個屬性中具有最高的信息增益，所以首先被選為測試屬性，并據(jù)此建根節(jié)點(diǎn)。用age標(biāo)記，并對于每個屬性值，引出一個分支，數(shù)據(jù)集被分為兩個子集age結(jié)點(diǎn)及其分支如圖3.1所示。

類似的可以計算出各個屬性的信息增益，經(jīng)過計算可得知信息增益最大的為收入income，其次為存款poist，最后才是負(fù)債debt。按照上述過程最終可得出決策樹如圖3.2所示。

3.2 提取分類規(guī)則

4 結(jié)論

數(shù)據(jù)挖掘技術(shù)作為一個新興的研究領(lǐng)域，其應(yīng)用前景及發(fā)展空間十分廣闊，特別對于銀行業(yè)及銀行監(jiān)管部門。銀行貸款風(fēng)險預(yù)警系統(tǒng)有助于強(qiáng)化貸前管理。通過對貸款客戶的收入、存款和負(fù)債情況分析，確定是否有風(fēng)險。如果客戶屬于較重風(fēng)險和嚴(yán)重風(fēng)險的等級，則不予貸款；如果屬于中度風(fēng)險的等級，則需在貸款后加強(qiáng)貸后管理，關(guān)注客戶經(jīng)營情況，及時回收；如果屬于輕微風(fēng)險和無風(fēng)險，則貸款給客戶。

[參考文獻(xiàn)]

[1]郭景峰，等.決策樹算法的并行性研究.計算機(jī)工程，2002.

[2]賀向明.《企業(yè)財務(wù)危機(jī)預(yù)警模型基于商業(yè)銀行信貸決策的分析》.2004.

[3]楊明，張載鴻.決策樹學(xué)習(xí)算法ID3的研究.微機(jī)發(fā)展，2002.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

決策樹算法在銀行貸款風(fēng)險預(yù)警中的應(yīng)用分析