劉武成,談超洪
(1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,廣西 南寧 530004;2.廣西經(jīng)濟(jì)信息中心,廣西 南寧 530022)
銀行通常運(yùn)用判斷技術(shù)或信用評分模型來決定是否接受一個(gè)客戶的信貸。大部分銀行采用基于性格、資金、抵押品、能力和條件的3C、4C或5C的判斷方法。而對于信用卡申請客戶,銀行使用信用評分或者預(yù)測模型對申請人分類。通常,線性判別分析和Bayes判別是兩種在信用評分模型中常用的統(tǒng)計(jì)方法[1-5]。但是,隨著信息與計(jì)算機(jī)技術(shù)的發(fā)展進(jìn)步,數(shù)據(jù)挖掘的新技術(shù)不斷出現(xiàn)。SAS/EM和SPSS等數(shù)據(jù)挖掘工具不但提供經(jīng)典的方法,同時(shí)支持一些新興的預(yù)測模型和分類技術(shù),例如決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)和 K-臨近值(KNN)。參考文獻(xiàn)[5]將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用在評估埃及銀行的信用風(fēng)險(xiǎn)并比較其與判別分析、概率值分析和邏輯回歸的傳統(tǒng)的技術(shù)的性能。一個(gè)大型的信用卡供應(yīng)商每年必須評估數(shù)萬甚至數(shù)十萬的信用卡申請人。因此,統(tǒng)計(jì)方法和自動化申請程序是極其必要的。數(shù)據(jù)挖掘軟件的出現(xiàn),銀行可以方便地部署一個(gè)預(yù)測模型快速而有效地分析大量申請人。此外,一個(gè)好的信用風(fēng)險(xiǎn)記分模型可以讓管理者在處理信用卡申請人時(shí)做出更好更正確的決定。本文的目的是提出一種信用卡申請人分類的信用評分模型,以解決現(xiàn)有信用評分模型難以適應(yīng)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)、缺失數(shù)據(jù)等問題,并比較該信用評分模型下分類回歸樹模型 (CART)、Bayes模型和神經(jīng)網(wǎng)絡(luò)模型(NN)在信用卡申請人分類預(yù)測中的性能表現(xiàn)。
信用評分模型能夠?qū)⑿庞每ㄉ暾埲说奈磥硇袨橐粤炕问竭M(jìn)行預(yù)測,使用指標(biāo)形式清晰地表示,可判斷申請人在未來特定時(shí)間里違約的概率。信用評分模型廣泛使用在銀行、信貸公司、事業(yè)單位、保險(xiǎn)公司等涉及消費(fèi)信用的企事業(yè)單位中。信用評分模型運(yùn)用先進(jìn)的數(shù)據(jù)挖掘技術(shù),通過對申請人的人口特征、信用歷史記錄和行為記錄等大量的數(shù)據(jù)進(jìn)行系統(tǒng)分析,挖掘數(shù)據(jù)中蘊(yùn)含的行為模式、信用特征,捕捉歷史信息和未來信用表現(xiàn)之間的關(guān)系,預(yù)測申請人今后的信用表現(xiàn)。
根據(jù)大量可量化的借貸人特征,信用評分模型評估借貸人的信貸風(fēng)險(xiǎn),即貸款人按照承諾償還貸款的可能性。近些年來,信用評分模型已應(yīng)用在住房貸款、小型企業(yè)貸款、保險(xiǎn)的申請和續(xù)延[4]。信用評分是一個(gè)基于統(tǒng)計(jì)和數(shù)據(jù)挖掘研究方法的分類過程。一直以來,判別分析和線性回歸是構(gòu)建信用評分模型應(yīng)用最廣泛的技術(shù)。除此之外,還有 Logistic回歸、概率單元分析、非線性平滑方法特別是K-臨近值、最優(yōu)化理論、馬爾可夫模型、遞歸劃分、專家模式、遺傳算法和神經(jīng)網(wǎng)絡(luò)等[1]。
構(gòu)建一個(gè)信用評分模型,首先獲取申請人填寫的客戶相關(guān)資料和銀行提供的內(nèi)部信息,接著對信息進(jìn)行量化處理,然后選用合適的數(shù)據(jù)挖掘技術(shù),建立信用評分模型,對數(shù)據(jù)進(jìn)行分析驗(yàn)證,得出客戶的綜合信用評分,設(shè)定一個(gè)合理的閾值,判定客戶是否通過申請。其流程如圖1所示。
圖1 信用評分模型流程圖
一個(gè)預(yù)測效果好的記分模型需要先前發(fā)放貸款或申請人的歷史數(shù)據(jù)和借貸人特征數(shù)據(jù),實(shí)現(xiàn)對于信用良好的客戶評定的分?jǐn)?shù)高,對于信用欠佳的客戶評定的分?jǐn)?shù)低的結(jié)果。個(gè)人信用評分模型的重要指標(biāo)可以大體劃分為人口、經(jīng)濟(jì)、就業(yè)和行為指標(biāo)[3]。人口指標(biāo)包括年齡、性別、婚姻狀況、地址所屬區(qū)、民族、家屬人數(shù)。這些變量典型地反映了很多區(qū)域、性別和其他相關(guān)差異。經(jīng)濟(jì)指標(biāo)包括月收入、財(cái)產(chǎn)等;就業(yè)指標(biāo)包括工作年數(shù)、工作技能等;行為指標(biāo)包括借貸歷史、借貸數(shù)目等。模型的重要指標(biāo)可以幫助更好地分辨好/壞的申請人[3]。舉例來說,年長女性的風(fēng)險(xiǎn)通常低于年輕男人。通常情況下,年紀(jì)越大,違約風(fēng)險(xiǎn)越低,已婚申請人的家屬的違約風(fēng)險(xiǎn)較高。
從文獻(xiàn)綜述和銀行信用卡中心部門的可靠數(shù)據(jù)可知,選用典型合適的指標(biāo)構(gòu)建模型,其具體描述如表1所示。
不同指標(biāo)對信用評分的結(jié)果影響不同。因此,本文提出根據(jù)指標(biāo)對結(jié)果的相關(guān)性,對指標(biāo)進(jìn)行量化處理時(shí),將不同指標(biāo)乘上相應(yīng)的影響因子,以便達(dá)到更準(zhǔn)確的評估判別結(jié)果。其表達(dá)式為:
其中,xi表示指標(biāo)i量化后的值,δi表示歸一化后的指標(biāo)i的影響因子,yi表示修改后的指標(biāo)的量化值。δi=1,n表示指標(biāo)數(shù)。本文中n為14。
表1 變量描述
分類回歸樹是基于統(tǒng)計(jì)理論的非參數(shù)的數(shù)據(jù)挖掘技術(shù)[6]?;舅枷胧菑母?jié)點(diǎn)開始采用自頂向下的(Topdown)的遞歸方式在每個(gè)節(jié)點(diǎn)上對樣本集按照給定標(biāo)準(zhǔn)選擇分支屬性,然后按照相應(yīng)屬性的所有可能取值向下建立分支、劃分訓(xùn)練樣本,直到一個(gè)節(jié)點(diǎn)上的所有樣本都被劃分到同一個(gè)類,或者某一節(jié)點(diǎn)中的樣本數(shù)量低于給定值。其特點(diǎn)是在計(jì)算過程中充分利用二叉樹的結(jié)構(gòu),即根節(jié)點(diǎn)包含所有樣本,在一定的分割規(guī)則下根節(jié)點(diǎn)被分割為兩個(gè)子節(jié)點(diǎn),這個(gè)過程又在子節(jié)點(diǎn)上重復(fù)進(jìn)行,成為一個(gè)回歸過程,直至不可再分成為葉節(jié)點(diǎn)為止[7]。本文CART采用“二分法”進(jìn)行分支,其定義公式為:
貝葉斯(Bayes)判別分析方法是在信用評分模型中常用的統(tǒng)計(jì)方法。其思路是基于貝葉斯統(tǒng)計(jì)理論,根據(jù)已獲得的每個(gè)類別的樣本數(shù)據(jù),分析并總結(jié)客觀事物分類的規(guī)律性,建立合適的判別函數(shù),然后利用判別函數(shù)對新樣本所屬類別進(jìn)行判定[8-9]。貝葉斯定理求出某類總體的后驗(yàn)概率,即:
其中,qj是 j類的先驗(yàn)概率,pj(x)是 j類的概率密度分布函數(shù),k為類的個(gè)數(shù)。
神經(jīng)網(wǎng)絡(luò)是對人腦或自然的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的抽象和模擬,主要由輸入層、隱藏層和輸出層構(gòu)成[10]。BP神經(jīng)網(wǎng)絡(luò)的主要思想是采用Delta學(xué)習(xí)規(guī)則的權(quán)值修正策略,把學(xué)習(xí)的過程分為兩個(gè)部分,一部分是信息流經(jīng)過輸入和隱含層的處理計(jì)算輸出,另一部分是利用輸出層誤差估計(jì)前一層的誤差,再用這個(gè)誤差估計(jì)更前一層的誤差,形成誤差值的反向傳播,借此調(diào)節(jié)網(wǎng)絡(luò)的權(quán)重[11]。本文神經(jīng)網(wǎng)絡(luò)隱藏側(cè)節(jié)點(diǎn)采用的激活函數(shù)為tansig函數(shù),表達(dá)式如式(4)所示,輸出層及誒單的激活函數(shù)為logsig函數(shù),表達(dá)式如式(5)所示。
SPSS是一款應(yīng)用十分廣泛、集成度非常高的數(shù)據(jù)挖掘軟件,它提供了新興的預(yù)測模型和分類技術(shù)。本文選取分類回歸樹、Bayes判別和神經(jīng)網(wǎng)絡(luò)3種方法,運(yùn)用SPSS軟件平臺,分別構(gòu)建分類回歸樹模型、Bayes判別模型和神經(jīng)網(wǎng)絡(luò)模型。具體步驟如下。
(1)數(shù)據(jù)輸入和抽樣。去除缺失數(shù)據(jù),把未缺失數(shù)據(jù)作為輸入數(shù)據(jù)。
(2)數(shù)據(jù)轉(zhuǎn)換。信用評分模型的目標(biāo)變量是申請人狀態(tài),即一個(gè)具有接受或拒絕兩個(gè)狀態(tài)的二進(jìn)制變量。即設(shè)置目標(biāo)變量 Tar,如果 Tar=0,說明為壞客戶;反之Tar=1,說明為好客戶。
(3)數(shù)據(jù)屬性調(diào)整和設(shè)定目標(biāo)變量。設(shè)置Tar為定位目標(biāo)變量,其他為輸入變量。
(4)數(shù)據(jù)集劃分。把樣本集合劃分成訓(xùn)練集和驗(yàn)證集,訓(xùn)練樣本數(shù)據(jù)用來訓(xùn)練模型,驗(yàn)證樣本數(shù)據(jù)用來驗(yàn)證所建模型。樣本數(shù)據(jù)分為訓(xùn)練樣本(65%)和驗(yàn)證樣本(35%)。
(5)選擇數(shù)據(jù)挖掘方法。本文選取了分類回歸樹、Bayes判別和神經(jīng)網(wǎng)絡(luò)3種方法。在模型中分別運(yùn)用分類回歸樹、Bayes判別和神經(jīng)網(wǎng)絡(luò)進(jìn)行分析驗(yàn)證。數(shù)據(jù)樣本包括3 610個(gè)信用卡申請人,其中 1 083(30%)申請人被拒絕,2 527(70%)申請人被接受。
首先,步驟(1)提出了缺失數(shù)據(jù),這是由于海量信用信息數(shù)據(jù)中,直接剔除缺失數(shù)據(jù),并不會影響數(shù)據(jù)集的整體完備性;步驟(2)及步驟(3)可以保證對非結(jié)構(gòu)化數(shù)據(jù)的有效處理;步驟(4)可以保證利用已有數(shù)據(jù)進(jìn)行分析訓(xùn)練和后繼的驗(yàn)證;步驟(5)可以驗(yàn)證本信用評分模型在3種數(shù)據(jù)挖掘方法下的性能表現(xiàn),選出最適應(yīng)本信用評分模型的數(shù)據(jù)挖掘方法。
在SPSS數(shù)據(jù)挖掘工具中構(gòu)建分類回歸樹、Bayes判別和神經(jīng)網(wǎng)絡(luò)的信用記分模型,并分別對應(yīng)相應(yīng)的模型輸出。將分類回歸樹、Bayes判別和神經(jīng)網(wǎng)絡(luò)3個(gè)預(yù)測模型被連接到計(jì)算準(zhǔn)確率的節(jié)點(diǎn)進(jìn)行運(yùn)算,同時(shí)利用評價(jià)節(jié)點(diǎn)進(jìn)行分析評估。
決策樹易于理解并且可以簡單轉(zhuǎn)換成一組規(guī)則;另外,它不需要先驗(yàn)數(shù)據(jù)就可以對范疇數(shù)據(jù)和數(shù)值數(shù)據(jù)進(jìn)行分類。由于具有以上優(yōu)勢,決策樹方法廣泛應(yīng)用于分類與預(yù)測。分類回歸樹是剪枝過程中基于最小成本原則的決策樹方法。根據(jù)實(shí)驗(yàn)結(jié)果分析,分類回歸樹模型有5條判別申請人狀態(tài)的規(guī)則,具體如表2所示。
表2 申請人狀態(tài)規(guī)則
Bayes判別是線性判別中一種常用的方法??紤]各樣本總體出現(xiàn)概率的大小,預(yù)報(bào)的后驗(yàn)概率及錯判率的估計(jì)以及錯判之后造成的損失,是Bayes判別應(yīng)用于分類與預(yù)測的主要優(yōu)勢。
在SPSS工具中,選擇Mahalanobis距離逐步判別法,得到兩個(gè)線性判別函數(shù)的變量和相關(guān)系數(shù)。應(yīng)用Bayes判別模型,在預(yù)測申請人狀態(tài)里采用9個(gè)具有統(tǒng)計(jì)意義的輸入變量,分別是年齡、性別、就業(yè)、財(cái)產(chǎn)、貸款數(shù)目、住房、家庭電話、期限和貸款歷史。表3的兩個(gè)線性函數(shù)分別對應(yīng)兩個(gè)申請人狀態(tài),每一列數(shù)字都是個(gè)判定方程對應(yīng)自變量的系數(shù)。
通過計(jì)算樣本在每個(gè)判定函數(shù)的判定方程的值,根據(jù)最大函數(shù)值來確定該樣本所對應(yīng)的級別。判別結(jié)果表明女性和年長的申請人被接受的可能性更大。更大數(shù)目和更長期限的申請人很可能被拒絕。
表3 Bayes判別結(jié)果
采用一個(gè)具有以下特征的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行信用卡申請人分類。
用于構(gòu)建NN模型的13個(gè)輸入變量:年齡、性別、婚姻狀況、財(cái)產(chǎn)、工作、現(xiàn)居地址、住房、家庭電話、期限、借貸歷史、借貸數(shù)目、就業(yè),借貸次數(shù)。
只有兩個(gè)值的一個(gè)輸出變量:1表示接受,0表示拒絕。
神經(jīng)網(wǎng)絡(luò)模型中,輸入層有29個(gè)神經(jīng)元輸入,隱藏層有3個(gè)神經(jīng)元輸入,輸出層有1個(gè)神經(jīng)元輸出。在神經(jīng)網(wǎng)絡(luò)中,沒有數(shù)學(xué)模型,只有重要性按降序排列的輸入變量如表4所示。最重要的5個(gè)變量是借貸歷史、期限、貸款數(shù)目、現(xiàn)居地址和現(xiàn)存貸款數(shù)目。
表4 神經(jīng)網(wǎng)絡(luò)輸入變量
在提出的模型條件下,為了選出預(yù)測申請人狀態(tài)效果最佳的模型,對3個(gè)模型進(jìn)行比較。訓(xùn)練樣本和驗(yàn)證樣本的準(zhǔn)確率如表5所示。相對而言,神經(jīng)網(wǎng)絡(luò)模型預(yù)測準(zhǔn)確率較高。
表5 各模型比較
數(shù)據(jù)挖掘技術(shù)包括傳統(tǒng)的統(tǒng)計(jì)方法以及在機(jī)器學(xué)習(xí)和人工智能方面的非傳統(tǒng)的方法。非傳統(tǒng)的統(tǒng)計(jì)學(xué)方法中最重要的兩種方法是神經(jīng)網(wǎng)絡(luò)和決策樹。這兩種數(shù)據(jù)挖掘技術(shù)比傳統(tǒng)的統(tǒng)計(jì)學(xué)方法更能模擬復(fù)雜的非線性和交互作用。本次研究的重點(diǎn)是構(gòu)建和評估包括邏輯回歸、決策樹和神經(jīng)網(wǎng)絡(luò)在內(nèi)的3種信用記分模型,旨在進(jìn)行信用卡申請人分類。結(jié)果顯示神經(jīng)網(wǎng)絡(luò)模型具有相對稍高的預(yù)測準(zhǔn)確度。信用評分模型的性能取決于數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)質(zhì)量和分類的目的。
成熟的技術(shù),如 ANNS,MARS和 SVM,已經(jīng)證明只能稍微提高分類準(zhǔn)確率。在實(shí)際應(yīng)用中,用戶更加喜歡相對容易理解的分類方式,如決策樹和邏輯回歸。隨著數(shù)據(jù)挖掘軟件的發(fā)展,越來越多的銀行已經(jīng)意識到數(shù)據(jù)挖掘模型易于部署并能夠有效增加其競爭優(yōu)勢。
[1]VEDALA R,KUMAR B R.An application of Naive Bayes classification for credit scoring in e-lending platform[C].International Con-ference on Data Science& Engineering(ICDSE), 2012:81-84.
[2]MARIKKANNU P,SHANMUGAPRIYA K.Classification of customer credit data for intelligent credit scoring system using fuzzy setand MC2-Domain driven approach[C].Electronics Computer Technology(ICECT),2011(3):410-414.
[3]HE JING, Zhang Yanchun, Shi Yong, et al.Domaindriven classification based on multiple criteria and multiple Constraint-Level programming for intelligent credit scoring[C].IEEE Transactions on Knowledge and Data Engineering,2010,22(6):826-838.
[4]VOJTEK M,KOCENDA E.Creditscoringmethods[J].Czech Journal of Economics and Finance, 2006,56(3-7):152-167.
[5]ABDOU H, POINTON J, EL-MASRY A.Neural nets versus conventional techniques in credit scoring in Egyptian banking[J].Expert System with Applications, 2008(35):1275-1292.
[6]董連英,邢立新,潘軍,等.高光譜圖像植被類型的CART 決策樹分類[J].吉林大學(xué)學(xué)報(bào),2013,1(1):83-89.
[7]馮少榮,肖文俊.基于樣本選取的決策樹改進(jìn)算法[J].西南交通大學(xué)學(xué)報(bào),2009,10(5):643-647.
[8]胡國勝.入侵檢測的 Fisher、Bayes和 MSE識別算法及等價(jià)性證明[J].計(jì)算機(jī)應(yīng)用與軟件,2012(4):293-296.
[9]董文娟,朱遠(yuǎn)鑫,萬明剛,等.沉積環(huán)境判別與分類的Bayes判別分析法[J].成都大學(xué)學(xué)報(bào),2011,2(30):139-142.
[10]周玉,錢旭,張俊彩,等.可拓神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,1(27):1-5.
[11]王燕妮,樊養(yǎng)余.改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)預(yù)測算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(17):23-26.