• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的持卡人信用風險管理研究

      2012-07-13 04:51:04陳為民張小勇馬超群
      財經(jīng)理論與實踐 2012年5期
      關(guān)鍵詞:支持向量機信用風險數(shù)據(jù)挖掘

      陳為民 張小勇 馬超群

      摘 要:目前的信用卡信用風險研究主要是如何提高模型的預測準確率。針對銀行信用卡數(shù)據(jù)的異質(zhì)性和信用數(shù)據(jù)的高度非線性,本文提出了對持卡人信用風險管理的混合數(shù)據(jù)挖掘方法。該方法包含兩個階段,在聚類階段,樣本數(shù)據(jù)被聚成同質(zhì)的類,刪除孤立點,不一致樣本點重置標簽,使樣本更具有代表性;在分類階段,基于樣本進行訓練生成支持向量機分類器法,對待分樣本分類?;趯嶋H數(shù)據(jù)進行了數(shù)值實驗,并根據(jù)各類樣本的特點提出了相應的風險管理策略。

      關(guān)鍵詞: 信用風險;風險管理;數(shù)據(jù)挖掘;聚類;支持向量機

      中圖分類號:F832.479;TP391文獻標識碼: A 文章編號:1003—7217(2012)05—0036—05

      一、 引 言

      面對國際金融機構(gòu)的競爭,國內(nèi)企業(yè)和個人的信用有效評估,銀行的信貸與項目融資和投資等正面臨著巨大的挑戰(zhàn),對信用風險的有效監(jiān)控和管理已十分迫切。信用評估是政府、金融機構(gòu)、企業(yè)界以及學術(shù)界都高度關(guān)注的問題。

      目前的研究都集中于提高信用評分模型的準確率,對持卡人的信用風險管理很少涉及。一般的信用評分模型的出發(fā)點是是否接受申請人的申請,把申請人分為“信用好”和“信用差”兩類:把能及時還款的客戶歸為“信用好”的客戶;可能拖欠或違約的歸為“信用差”,這些客戶的申請將被拒絕[1]。對于信用評分,已有很多研究,如文獻[2—7]。

      Thomas[8]和Crook等[9]分別對各種模型進行了總結(jié)。由于信用數(shù)據(jù)的高度非線性和經(jīng)濟形勢的影響,分類錯誤不可避免,信用評分模型準確率的提高空間十分有限[8—10]。遲國泰等構(gòu)建了信用卡信用風險評價指標體系,并確定了劃分信用等級的閾值,將根據(jù)申請人資料計算出的個人信用綜合得分和閾值比較,把客戶分為三類:“授予金卡”、“授予普通卡”、“拒絕授予信用卡”[11]。針對持卡人的信用風險的管理,Hsieh提出了集成數(shù)據(jù)挖掘模型,把客戶分成不同類型,并用關(guān)聯(lián)規(guī)則挖掘客戶特征與所屬類型的關(guān)系,為決策提供幫助[12]。

      由于銀行信用卡信用數(shù)據(jù)的異質(zhì)性和信用卡數(shù)據(jù)本身的高度非線性,建立準確率高、魯棒性強的信用評分模型是一個有挑戰(zhàn)性的任務。本文針對信用卡信用數(shù)據(jù)的特點,提出了兩階段混合數(shù)據(jù)挖掘方法。該方法在聚類階段把信用數(shù)據(jù)聚成同質(zhì)的類,刪去孤立點,不一致點重置標簽;在分類階段用支持向量機進行訓練,建立多類支持向量機分類器,把客戶分為多組。聚類過程使樣本數(shù)據(jù)的代表性更強,為建立高準確率的分類器奠定基礎;分類階段采用支持向量機方法,這是目前適合小樣本數(shù)據(jù)的最有效方法之一。該方法既可以用于判斷是否接受客戶的申請,也可以用于信用卡客戶的風險管理。判斷是否接受客戶的申請時,根據(jù)事先設定的閾值,把申請人分為相應的類(如授予金卡、授予普通卡和拒絕申請);對已接受申請的信用卡客戶,設定閾值把客戶分為幾類,實行不同的風險管理措施。二、相關(guān)理論基礎(一) 自組織神經(jīng)網(wǎng)絡

      自組織特征映射(Self—Organizing Map, SOM)神經(jīng)網(wǎng)絡是無教師學習網(wǎng)絡,具有自組織功能。SOM中競爭層神經(jīng)元通過競爭激活,最終僅有一個神經(jīng)元作為競爭的勝利者被激活,與該神經(jīng)元的連接都向?qū)ζ涓偁幱欣姆较蛘{(diào)整。這樣,SOM可以很好地模擬大腦的功能區(qū)域和神經(jīng)元興奮的刺激規(guī)律,具有神經(jīng)元自調(diào)節(jié)結(jié)構(gòu)和自穩(wěn)定能力、實現(xiàn)實時學習識別向量空間中最有意義的特征、抗噪音能力強等特點,被廣泛地應用于分類、聚類模式識別等。

      1. SOM 網(wǎng)絡的結(jié)構(gòu)。SOM將任意維度的輸入轉(zhuǎn)換成一維或二維的離散映射,以拓撲有序的方式實現(xiàn)這個變換。自組織神經(jīng)網(wǎng)絡的輸入層和輸出層之間全部互連,沒有中間層。若輸入層有n個神經(jīng)元,輸出層有m2個神經(jīng)元,輸出層的m2個神經(jīng)元安排在二維網(wǎng)格中。對給定的輸入,通過競爭以若干神經(jīng)元輸出,獲勝的神經(jīng)元g的鄰域Ng內(nèi)的所有神經(jīng)元都有不同程度的興奮,而鄰域之外的神經(jīng)元被抑制。這里的鄰域一般是對稱圖形,形狀可以任意,但是隨時間增大而減小。輸入神經(jīng)元應經(jīng)歷足夠的輸入次數(shù),確保自組織過程能夠?qū)崿F(xiàn)。

      財經(jīng)理論與實踐(雙月刊) 2012年第5期

      2012年第5期(總第179期) 陳為民,張小勇等:基于數(shù)據(jù)挖掘的持卡人信用風險管理研究

      2. SOM 學習過程。對輸入向量U,SOM計算它與每個權(quán)重向量W的距離(如Euclid距離),最接近輸入向量的神經(jīng)元mc稱為最佳匹配單元(best瞞atching unit,BMU),即獲勝神經(jīng)元:

      ‖U—mc‖=min i‖U—mi‖

      (1)

      確定獲勝神經(jīng)元后,權(quán)重向量更新,獲勝神經(jīng)元向輸入向量移動。

      如果SOM的輸入為Uk=(uk1,uk2,…ukn)T,k=1,2,…,N, 競爭層神經(jīng)元j的輸出為Vj,j=1,2,…,M,連接權(quán)重Wj=(w1j,w2j,…wnj)T,第t次迭代獲勝的節(jié)點R的鄰域節(jié)點構(gòu)成集合Ng(t),則SOM學習過程如下:

      步驟1 初始化

      對wij,學習率η(0)、Nk(0)和學習次數(shù)T賦值,wij∈[0,1],η(0)∈(0,1)

      步驟2 歸一化處理

      輸入歸一化k=Uk/‖Uk‖=(k1,k2,…,kn)T ,‖Uk‖=(UTk/Uk)1/2

      權(quán)重歸一化,計算同輸入歸一化相同

      步驟3 確定獲勝神經(jīng)元

      計算權(quán)重向量Wj和輸入向量之間的Euclid距離dj=‖k—j‖,j=1,2,…M,若dg=min j{dj},則神經(jīng)元g獲勝。

      步驟4 調(diào)節(jié)權(quán)重并歸一化

      wj(t+1)=

      j(t)+η(t)(k—j(t)) j∈Ng(t)

      j(t) 否則

      j(t+1)=j(t+1)/‖j(t+1)‖

      步驟5 返回步驟2處理下一個輸入模式,直到第N個

      步驟6 更新η(t)和Ng(t):η(t)=(1—t/T)η(0),Ng(t)=int [Ng(0)exp (—t/T)]

      這里int[]是取整函數(shù)。

      步驟7若t

      統(tǒng)計學習理論(Statistical learning theory, SLT)是小樣本機器學習理論,支持向量機(Support Vector Machine, SVM)方法是統(tǒng)計學習理論的一種實現(xiàn)方法,是小樣本機器學習方法,也是一種前向型神經(jīng)網(wǎng)絡。SVM方法通過非線性映射h,把樣本空間映射到一個高維乃至于無窮維的特征空間(Hilbert空間),在特征空間中可以應用線性方法解決樣本空間中的高度非線性分類和回歸等問題[13]。它較好地實現(xiàn)了結(jié)構(gòu)風險最小化思想,可以說通過核函數(shù)代替內(nèi)積運算避免了維數(shù)災難,采用了最優(yōu)化的思想,是集優(yōu)化、核函數(shù)、推廣能力于一身,因此越來越受到重視。

      分類問題可描述為:對n維數(shù)據(jù)模式xi∈X=Rn和類標簽yi∈Y=—1,1構(gòu)成的訓練集T={(x1,y1),……(xn,yn)}∈(X×Y)n,尋找一個把Rn上的點分成兩部分的規(guī)則,也就是找到X=Rn上的一個實值函數(shù)g(x),對每一個x,有唯一的y=f(x)=sgn (g(x))。兩類樣本點如圖1所示,按最大間隔原則找到把兩類樣本完全分開的直線,l1,l2 之間的距離為分類間隔。若l1,l2的法方向為w,樣本歸一化后,直線l1,l2的方程可分別寫為:

      (w·xi)+b=1和(w·xi)+b=—1

      這里(w·xi)是w與x的內(nèi)積,l1,l2之間的間隔為2/‖w‖。該分類問題可表示成優(yōu)化問題:

      (2)

      若(2)的最優(yōu)解為w*,b*,則(w*·x)+b*=0對應的是圖1中的直線l,是最優(yōu)分類線,稱為最優(yōu)化分超平面,決策函數(shù)為f(x)=sgn ((w場x)+b常。此時l1,l2上的訓練樣本點稱為支持向量。一般應用時,把優(yōu)化問題(2)寫成如下對偶形式:

      (3)

      如果訓練集線性不可分時,任何超平面都不可能完全正確的劃分。引入松弛變量ξi≥0,把分類約束條件yi((w·xi)+b)≥1放松為yi((w·xi)+b)+ξi≥1,∑ni=1ξi是經(jīng)驗風險,即錯誤劃分程度。此時我們的目標是間隔最大,并且經(jīng)驗風險盡可能小,這樣就得到了對線性不可分問題的劃分方法:

      (4)

      圖1 最優(yōu)分類超平面

      (5)

      這里C為懲罰參數(shù)。令其最優(yōu)解為α*=(α*1,…,α*n)T,并且b*=yj—∑li=1yjα*iK(xi,xj), 則決策函數(shù)為f(x)=sgn(∑ni=1yiα*iK(xi,x)+b*)。

      對于非線性分類問題,通過核函數(shù)把特征空間影射到Hilbert空間,從而用線性化方法解決非線性問題,這也是SVM方法的主要優(yōu)點之一。在應用時,核函數(shù)的選擇非常重要,常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、Gauss徑向基核函數(shù)(RBF)、Sigmoid核函數(shù)等。三、兩階段混合數(shù)據(jù)挖掘方法的風險管理模型

      針對銀行信用卡信用數(shù)據(jù)的異質(zhì)性和信用卡數(shù)據(jù)本身的高度非線性,本文提出了兩階段混合神經(jīng)網(wǎng)絡信用卡客戶信用風險管理模型,包括自組織神經(jīng)網(wǎng)絡聚類和支持向量機分類兩個階段,其流程如圖2所示。聚類過程使樣本數(shù)據(jù)的代表性更強,為建立高準確率的分類器奠定基礎;分類階段采用支持向量機方法,這是目前適合小樣本數(shù)據(jù)的最有效方法之一。(一)自組織神經(jīng)網(wǎng)絡聚類

      建立信用風險管理模型要以銀行的實際數(shù)據(jù)為樣本。銀行的信用記錄中客戶已經(jīng)分為“信用好”和“信用差”兩類,但是由于種種原因,可能存在孤立點或不一致樣本,比如登記時出現(xiàn)了筆誤等,這給建立高準確率的分類器帶來了極大挑戰(zhàn)。先把數(shù)據(jù)聚成同質(zhì)的類,然后構(gòu)建評分模型能提高模型的預測效果[14,15]。

      圖2 信用卡風險管理模型流程圖

      在聚類階段,把信用卡數(shù)據(jù)聚成同質(zhì)的類。如果有孤立點,必須把孤立點刪去。這些點很可能是登記錯誤或是一些客戶的異常行為,不具有代表性。不一致點是指如果某一類中只有部分數(shù)據(jù)點與其它數(shù)據(jù)點的信用狀態(tài)不同,原因可能是多方面的,為防止信息丟失不能直接刪去,要認真區(qū)別。(二)支持向量機分類

      SVM是目前處理小樣本分類和回歸問題最好的工具之一,因此本文用SVM作為分類器。采用SVM要解決的三個問題:(1)確定輸入特征;(2)選擇核函數(shù);(3)確定相關(guān)參數(shù)。本文用SOM聚類結(jié)果中的樣本特征作為輸入特征;RBF核函數(shù)能夠較好的擬合非線性關(guān)系,是文獻中用得最多的核函數(shù),因此本文采用RBF核函數(shù);為得到最優(yōu)參數(shù)對訓練集用格點搜索法(grid瞫earch method)確定SVM懲罰參數(shù)和核函數(shù)的參數(shù),初始參數(shù)C=2—5,2—3,…,213,σ,γ=2—13,2—11,…,25,10—折交叉驗證準確率比較高的格點附近進一步細分,重新訓練,直到有滿意的準確率或準確率不再增大為止。

      為了獲得更好的風險管理措施,我們把持卡人分成更多的類型,而不是一般文獻常見的分為“信用好”和“信用差”兩類。四、實證分析(一) 數(shù)據(jù)

      本文用國內(nèi)某銀行的信用卡數(shù)據(jù)進行數(shù)值實驗。該數(shù)據(jù)共有2000個樣本,每個樣本點有14個特征,分別是地區(qū)、證件類別、電話、性別、年齡、出生地、婚姻狀況、家庭人數(shù)、受教育程度、住宅狀況、就業(yè)狀況、單位性質(zhì)、年薪、是否本行客戶。類標簽是客戶的信用狀態(tài),即按時還款還是違約。數(shù)據(jù)的80%用于確定模型參數(shù),20%用作檢驗集。

      對信用數(shù)據(jù)進行了預處理,名義變量進行了數(shù)值化處理;數(shù)值變量進行了歸一化,由于電話和出生地對信用狀況沒有影響,刪除了這兩個特征。

      (二) 信用數(shù)據(jù)的自組織神經(jīng)網(wǎng)絡聚類

      信用評分模型的性能和樣本有很大關(guān)系,經(jīng)過聚類的樣本能提高網(wǎng)絡的預測準確率。本文用自組織神經(jīng)網(wǎng)絡聚類對信用數(shù)據(jù)進行處理。為使樣本更具代表性,信用數(shù)據(jù)進行了多次聚類進行比較,結(jié)果表明聚成3類的情況比較滿意,聚類結(jié)果見表1。聚成3類時1600個樣本中有132個孤立點,類1、類2、類3中“信用好”的樣本數(shù)分別為24、183、675個,“信用差”的樣本數(shù)分別為371、168、51個。孤立點被刪除,類1中“信用好”的樣本數(shù)量很少,我們對這些樣本重新定義為“信用差”;類3中“信用差”的樣本重新定義為“信用好”;類2是樣本不一致的類,不予考慮。信用數(shù)據(jù)的空間分布見圖3。

      表1 信用數(shù)據(jù)聚類結(jié)果

      圖3 信用數(shù)據(jù)的分布

      (三)分類與建議

      目前的信用評分模型基本上是把信用數(shù)據(jù)分為“信用好”和“信用差”兩類,目的是提高評分準確率。但是準確率的提高空間有限,實際應用時效果值得商榷。尤其對第二類錯誤,造成的損失是巨大的。目前僅有遲國泰、許文和孫秀峰把客戶分為三類,閾值t<0.6414時拒絕申請,0.6414≤t<0.8144時授予申請人普通卡,t>0.8144時授予申請人金卡[11]。由于篇幅限制,本文不再討論判斷是否接受客戶的申請,僅以已接受的信用卡客戶的風險管理為例進行多類分類,這里閾值根據(jù)銀行的管理人員建議設置。

      臨界點的設置:對“信用好”和“信用差”的樣本具有很高的準確率;對分成3類的情況,類1和類3分別是“信用好”和“信用差”的樣本,其它的歸為類2;對分成4類的情況,類1和類4分別是“信用好”和“信用差”的樣本,其余兩類采用了最常用的臨界值(0.5)。

      對分成3類的情況,類1的樣本信用很好,銀行可以給他們更高的信用額;類2是必定不能履行義務的,要禁止這些客戶的透支;類3的信用狀態(tài)不確定,發(fā)生改變的可能性較大,要加強監(jiān)督,并降低信用額。對分成4類的情況,類1和類4分別是“信用好”和“信用差”的類;類2履約的可能性較大,他們的信用額不便或適當降低;類4違約的可能性大,要降低信用額。另外,銀行對類2、類3的客戶重點監(jiān)控,追蹤消費行為,及時規(guī)避風險。四、結(jié) 論

      對信用卡申請人的信用進行準確評價是許多學者和銀行界一直關(guān)注的問題,目前的研究基本上是致力于提高評分準確率,由于信用數(shù)據(jù)的高度非線性和經(jīng)濟形勢的影響,提升空間有限。

      本文的目的在于通過對銀行信用卡數(shù)據(jù)庫進行挖掘,將持卡人分成不同的組,針對不同組持卡人的特征提出風險管理措施。該方法首先把信用數(shù)據(jù)聚成同質(zhì)的類,刪去孤立點,不一致點重置標簽;然后用支持向量機進行訓練,得到分類器,把客戶分為多組,最后提出相應的風險管理措施。

      參考文獻:

      [1]Hand D J, Adams N M. Defining attributes for scorecard construction in credit scoring [J]. Journal of Applied Statistics, 2000, 27(5): 527—540.

      [2]Lee, T S, Chiu C C, Lu C J, et al. Credit scoring using the hybrid neural discriminant technique[J]. Expert Systems with Applications, 2002, 23(3): 245–254.

      [3]Lee T S, Chen I F. A two—stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines [J]. Expert Systems with Applications, 2005, 28(4): 743—752

      [4]Huang Z, Chen H, Hsu C J, et al. Credit rating analysis with support vector machines and neural networks: a market comparative study [J]. Decision Support Systems, 2004, 37(4): 543—558.

      [5]Chen M C, Huang S H. Credit scoring and rejected instances reassigning through evolutionary computation techniques [J]. Expert Systems with Applications, 2003,24(4): 433–441.

      [6]Huang Z, Chen H, Hsu C J, et.al. Credit rating analysis with support vector machines and neural networks: a market comparative study [J]. Decision Support Systems, 2004, 37(4) 543—558.

      [7]Chen W M, Ma C Q, Ma L. Mining the customer credit using hybrid support vector machine technique [J]. Expert Systems with Application, 2009, 5 (36), 7611—7616.

      [8]Thomas L C. A survey of credit and behavioural scoring:forecasting financial risk of lending to consumers [J]. International Journal of Forecasting, 2000, 16(2): 149—172.

      [9]Crook J N, Edelman D B, Thomas L C. Recent developments in consumer credit risk assessment [J]. European Journal of Operational Research, 2007, 183: 1447—1465.

      [10]Hand D J. Classifier technology and the illusion of progress [J]. Statistical Science, 2006, 21(1): 1—14.

      [11]1遲國泰,許文,孫秀峰. 個人信用卡信用風險評價體系與模型研究[J]. 同濟大學學報(自然科學版),2006,36(4):557—563.

      [12]Hsieh N C. An integrated data mining and behavioral scoring model for analyzing bank customers [J]. Expert Systems with Application, 2004, 27:623—633.

      [13]Vapnik V N. The nature of statistical learning theory [M]. New York: Springer睼erlag, 1995.

      [14]Berry M. Mastering data mining [M]. New York, NY: John Wiley & Sons, Inc, 2000.

      [15]Lim M K, Sohn S Y. Cluster瞓ased dynamic scoring model [J]. Expert Systems with Application, 2007, 32: 427—431.

      (責任編輯:王鐵軍)

      猜你喜歡
      支持向量機信用風險數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      淺析我國商業(yè)銀行信用風險管理
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      動態(tài)場景中的視覺目標識別方法分析
      論提高裝備故障預測準確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預測
      價值工程(2016年29期)2016-11-14 00:13:35
      基于支持向量機的金融數(shù)據(jù)分析研究
      京東商城電子商務信用風險防范策略
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      個人信用風險評分的指標選擇研究
      晋江市| 河北区| 济源市| 万载县| 景洪市| 台江县| 孝昌县| 永城市| 汉川市| 漳浦县| 滁州市| 蛟河市| 高台县| 利津县| 陵川县| 惠安县| 苍溪县| 桐乡市| 德令哈市| 江北区| 富锦市| 云林县| 逊克县| 江津市| 镇赉县| 汕尾市| 温宿县| 土默特左旗| 易门县| 油尖旺区| 莱西市| 淅川县| 大英县| 义乌市| 洪雅县| 西和县| 门源| 天津市| 西昌市| 连云港市| 寿阳县|