張宇敬+吳紅樂+安英博
摘要:文章選取貝葉斯算法對影響小額信貸風(fēng)險的因素進行挖掘分析,建立了客戶信用風(fēng)險評估模型,確定了財產(chǎn)、收入負(fù)債比、信用記錄等屬性是影響小額信貸風(fēng)險的主要因素,根據(jù)模型規(guī)則能夠比較快速準(zhǔn)確地判斷客戶信用等級,從而有效地控制和降低信貸風(fēng)險的發(fā)生。
關(guān)鍵詞:小額貸款;貝葉斯算法;風(fēng)險管理
一、引言
現(xiàn)代互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,標(biāo)志著人類社會繼農(nóng)業(yè)革命、工業(yè)革命之后的“第三次革命”的到來。時代在改變,舊的生產(chǎn)關(guān)系和生活方式必將被歷史的車輪碾過,成為人類社會發(fā)展道路上的塵埃,新的生產(chǎn)關(guān)系和產(chǎn)業(yè)生態(tài)正在蓬勃發(fā)展。在今天這個大數(shù)據(jù)的時代,借助現(xiàn)代信息技術(shù)和互聯(lián)網(wǎng),人類可以收集、整理和分析海量的信息和數(shù)據(jù),在這些紛繁復(fù)雜的數(shù)據(jù)背后探尋人類行為和社會發(fā)展的軌跡。面對新的行業(yè)生態(tài)和環(huán)境,金融行業(yè)必然要尋求改變,才能順應(yīng)時代。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程,將數(shù)據(jù)挖掘技術(shù)有效地應(yīng)用于銀行業(yè)是技術(shù)發(fā)展的熱點,也是銀行業(yè)自身競爭發(fā)展的迫切需要。
小額貸款從貸款額度上講,屬于小金額。它從貧困人口的實際出發(fā),絕大多數(shù)人從事的是種養(yǎng)業(yè)或是一些風(fēng)險小、易操作、見效快的小型項目。從貸款對象上看,主要是微型企業(yè)和低收入的家庭和個人。貸款用途一般是小規(guī)模農(nóng)業(yè)生產(chǎn),主要用作生產(chǎn)資本,也有一小部分用于教育、醫(yī)療等非生產(chǎn)性目的。與傳統(tǒng)銀行業(yè)務(wù)面臨的風(fēng)險相比,小額貸款的風(fēng)險具有一定的獨特性,一般按參與活動的主體,將風(fēng)險分為:環(huán)境風(fēng)險、信用風(fēng)險和管理風(fēng)險三大類,其中主要還是信用風(fēng)險。信用風(fēng)險是指借款人不能及時還本付息的風(fēng)險。小額貸款活動的借方,一般是缺乏完整和正規(guī)教育的農(nóng)民,他們往往缺少經(jīng)濟體系中的“欠債還錢”和“按照合同辦事”的信用觀念,會導(dǎo)致信用風(fēng)險的產(chǎn)生,使得信貸資金存在嚴(yán)重的風(fēng)險隱患,并且信貸管理中存在著諸多問題,面臨著一些難以掌控的風(fēng)險。因此,運用數(shù)據(jù)挖掘技術(shù)來控制信貸中的風(fēng)險,是信貸管理面臨的重要課題。
二、數(shù)據(jù)分析
數(shù)據(jù)分析是數(shù)據(jù)挖掘前十分重要的一個步驟,正確的數(shù)據(jù)分析有利于提高挖掘模型的準(zhǔn)確性,達(dá)到更好的模型預(yù)測效果。課題組分析的是村鎮(zhèn)銀行個人貸款數(shù)據(jù),將一些涉及個人隱私的屬性和無關(guān)屬性剔除后,發(fā)現(xiàn)該數(shù)據(jù)既包含連續(xù)型的數(shù)據(jù),又有離散型的數(shù)據(jù),且連續(xù)型的數(shù)據(jù)較多。通過RStudio數(shù)據(jù)分析工具進行相關(guān)性分析后發(fā)現(xiàn),各個屬性之間相關(guān)性較低,即各屬性之間可以近似看成是相互獨立的。綜合考慮,該數(shù)據(jù)比較適合采用貝葉斯算法建立分類模型,幫助銀行規(guī)避貸款風(fēng)險。
三、貝葉斯算法
樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法,它是一種簡單有效的常用分類算法。樸素貝葉斯分類的定義如下:
四、構(gòu)建貸款風(fēng)險分析模型
在建立貝葉斯分類模型前,首先應(yīng)完成數(shù)據(jù)預(yù)處理工作,它是建立科學(xué)合理的挖掘模型的基礎(chǔ)。貝葉斯分類模型要求數(shù)據(jù)必須是離散的,因此課題組將原始數(shù)據(jù)中年齡、健康狀況、個人品質(zhì)、銀行信用記錄等屬性離散化,建立貸款風(fēng)險評價指標(biāo),并據(jù)此對樣本數(shù)據(jù)進行數(shù)字化處理。應(yīng)用貝葉斯分類模型時,還應(yīng)注意零概率事件的處理,如果存在零概率事件,將直接影響預(yù)測結(jié)果。因此,進行挖掘之前,需要對零概率事件進行檢驗,一般采用Laplace-估計進行處理。具體處理方法如下:P(Xi|Xi)=nc+mpn+m。通過查詢發(fā)現(xiàn)以下屬性的屬性值存在零概率事件,通過SQL語句(select 屬性 from shuju order by 屬性)查詢并利用屬性的中位數(shù)來填補缺失值。
將處理好的數(shù)據(jù)導(dǎo)入到SQL Server數(shù)據(jù)庫后,即可商業(yè)智能分析工具進行數(shù)據(jù)挖掘。課題組隨機抽取80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩下的20%作為測試數(shù)據(jù)集,通過商業(yè)智能分析工具獲得各個屬性與風(fēng)險等級之間的依賴關(guān)系由弱到強依次是:身體<借款用途<生產(chǎn)經(jīng)營<家庭收入<個人品質(zhì)<信用記錄<收入負(fù)債比<財產(chǎn)。由此可見,當(dāng)貸款人財產(chǎn)屬性值越高,即收入越高,其貸款風(fēng)險越低。同理可得,當(dāng)貸款人的年齡越小,收入越高,家庭成員身體越健康,信用越好,負(fù)債越少,生產(chǎn)經(jīng)營越穩(wěn)定等,貸款的風(fēng)險越低,反之,產(chǎn)生不良貸款的可能性越高。
五、模型評價
由測試數(shù)據(jù)預(yù)測的分類矩陣可知,該模型判別的正確率為80/92≈86.96%,具有較高的準(zhǔn)確率和預(yù)測能力,能夠滿足農(nóng)戶小額信貸風(fēng)險評估的實際需求,為小額信貸公司、村鎮(zhèn)銀行信貸部門防范風(fēng)險提供科學(xué)的決策依據(jù)。(作者單位:河北金融學(xué)院)
基金項目:2015年保定市哲學(xué)社會科學(xué)規(guī)劃課題(201505052);保定市科學(xué)技術(shù)研究與發(fā)展指導(dǎo)計劃項目(15ZG003);河北省教育廳科技重點課題(ZD20131083)
參考文獻:
[1]安英博 張宇敬 張建男.基于樸素貝葉斯的村鎮(zhèn)銀行信用風(fēng)險預(yù)警研究[J].無線互聯(lián)科技,2015(22).
[2]龐利.貝葉斯法則在銀行信貸風(fēng)險中的分析[J].赤峰學(xué)院學(xué)報(自然科學(xué)版),2015(07).
[3]丁東洋 周麗莉 劉樂平. 貝葉斯方法在信用風(fēng)險度量中的應(yīng)用研究綜述[J].數(shù)理統(tǒng)計與管理,2013(01).