• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析

      2017-03-25 22:21李卯
      時(shí)代金融 2017年6期
      關(guān)鍵詞:隨機(jī)森林

      李卯

      【摘要】為了有效控制和防范信貸風(fēng)險(xiǎn),商業(yè)銀行必須對借款人做出準(zhǔn)確的信用評(píng)估。本文通過利用傳統(tǒng)的Logistic回歸與隨機(jī)森林模型,分別建立信用評(píng)分模型,并比較兩個(gè)模型的優(yōu)缺點(diǎn)以達(dá)到最佳的預(yù)測效果,從而有效的降低商業(yè)銀行的個(gè)人信用評(píng)估風(fēng)險(xiǎn),更好地實(shí)現(xiàn)銀行利潤最大化。

      【關(guān)鍵詞】信用評(píng)分 Logistic回歸 隨機(jī)森林

      一、引言

      常用的信用評(píng)分技術(shù)一般分統(tǒng)計(jì)學(xué)方法和非統(tǒng)計(jì)學(xué)方法。統(tǒng)計(jì)學(xué)方法包括線性回歸、判別分析、Logistic回歸,決策樹等,非統(tǒng)計(jì)學(xué)方法包括線性規(guī)劃、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。但是對于這些開發(fā)信用模型的技術(shù),哪種方法最好,還沒有一致的結(jié)論。

      Logistic回歸方法以其強(qiáng)大的穩(wěn)健性和泛化能力被較多地應(yīng)用到評(píng)估方法中;神經(jīng)網(wǎng)絡(luò)對不完全信息具有很強(qiáng)的處理能力,能夠解決現(xiàn)實(shí)生活中的非線性問題,而且分類精度非常高,也是優(yōu)先選擇的信用評(píng)估方法;支持向量機(jī)能處理小樣本、高維度的數(shù)據(jù),并且獲得較高的分類精度,對處于發(fā)展階段的信用評(píng)估系統(tǒng)也是一個(gè)不錯(cuò)的選擇。

      總的來說評(píng)價(jià)指標(biāo)體系被分為兩大類:體現(xiàn)還款能力的指標(biāo)和體現(xiàn)還款意愿的指標(biāo)。這些指標(biāo)相對較容易獲得,并且能在一定程度上反映個(gè)人的真實(shí)還款能力和還款意愿,但是這些指標(biāo)比較片面,容易出現(xiàn)誤判,而且門檻非常高。

      本文以真實(shí)的信貸數(shù)據(jù)為分析對象,使用常見的Logistic回歸、隨機(jī)森林來進(jìn)行研究。利用它們分別建立模型,對客戶進(jìn)行分類,并比較模型預(yù)測結(jié)果。對比發(fā)現(xiàn),兩個(gè)模型都有一定的預(yù)測能力,能將好壞客戶適度地區(qū)分開來。

      二、樣本數(shù)據(jù)

      本文建模時(shí)所采用的數(shù)據(jù)集Credit是一家數(shù)據(jù)挖掘網(wǎng)站上提供的真實(shí)數(shù)據(jù),客戶資料為一家德國信貸銀行的信貸審批數(shù)據(jù)(German Credit data)。該數(shù)據(jù)包含了個(gè)人客戶在向銀行提出貸款申請時(shí)所提供的個(gè)人信息(如:性別、年齡、資產(chǎn)情況等)。其中該數(shù)據(jù)包括1000條記錄,定義了兩類信用卡客戶,第一類為700個(gè)“好客戶”,第二類為300個(gè)“壞客戶”。該數(shù)據(jù)集中有21個(gè)變量,其中20個(gè)是特征變量(自變量),而good-bad是響應(yīng)變量(因變量)。

      三、實(shí)證研究

      (一)Logistic回歸分析

      在建立Logistic回歸模型時(shí),隨機(jī)選取700樣本作為訓(xùn)練集,余下300樣本作為測試集,以0.5為概率界限,對訓(xùn)練集樣本和測試集樣本中的客戶進(jìn)行預(yù)測分類。

      本文利用軟件選用逐步變量選擇法,從模型的輸出結(jié)果中,可以計(jì)算出一個(gè)客戶是一個(gè)好客戶的概率:首先,使用樣本中為“好客戶”的比率作為閾值。對整個(gè)數(shù)據(jù)集進(jìn)行預(yù)測,雖然總的精度達(dá)到0.74,但是對于“壞客戶”的預(yù)測錯(cuò)誤率為74/(12+74)=0.86,沒有達(dá)到理想中的效果。當(dāng)閾值為0.5時(shí)預(yù)測效果沒有達(dá)到理想狀況,因此嘗試采用曲線來選擇最佳的診斷界限值,使用軟件得出回歸分析的曲線如圖3-1所示。

      通過曲線確定的閾值,并由此進(jìn)行預(yù)測,其分類混合矩陣如下所示。

      由預(yù)測結(jié)果可知,測試集樣本預(yù)測結(jié)果精度高達(dá)0.76,而且“壞客戶”預(yù)測為“好客戶”的錯(cuò)誤率下降到26/(39+26)=0.4。采用ROC曲線來確定閾值,對訓(xùn)練集來說,這種預(yù)測方式不僅總的預(yù)測精度得到提升,更重要的事對“壞客戶”的預(yù)測精度得到提升,因?yàn)轭A(yù)測成功可能產(chǎn)生違約風(fēng)險(xiǎn)的“壞客戶”對于銀行來說才是最重要的。

      (二)隨機(jī)森林分析

      本文選取500顆樹在訓(xùn)練集上建立隨機(jī)森林模型,與Logistic回歸一樣,隨機(jī)選取700樣本作為訓(xùn)練集,余下300樣本作為測試集,在測試集上進(jìn)行預(yù)測。通過基于OOB數(shù)據(jù)的模型誤判率均值確定隨機(jī)森林模型當(dāng)mtry數(shù)值為10時(shí)誤差最小。

      由結(jié)果可以看到,訓(xùn)練樣本誤差率為0,測試樣本誤差率為(56+17)/300=0.24。從結(jié)果看,隨機(jī)森林預(yù)測結(jié)果的誤差率是比較小的。

      四、總結(jié)

      在將信用好的客戶判定為信用不好的客戶從而拒絕其貸款申請的方面,無論是訓(xùn)練樣本還是測試樣本,其預(yù)測正確精度是:隨機(jī)森林大于Logistic回歸模型;在第二類誤判,即將信用不好的客戶判定為信用好的客戶從而接受其貸款申請方面,無論是訓(xùn)練樣本還是測試樣本,其預(yù)測正確精度是:隨機(jī)森林大于Logistic回歸模型(一般而言,在銀行和其他金融機(jī)構(gòu)的實(shí)際操作中,第二類誤判給銀行造成的損失更大)。從整體分類精度來看,隨機(jī)森林的整體預(yù)測精度能達(dá)到75%以上,而傳統(tǒng)的Logistic回歸模型整體分類精度只能達(dá)到70%左右。

      從以上分析可以得出,兩種方法都可用于信用評(píng)分模型,其中Logistic回歸目前在信用評(píng)價(jià)領(lǐng)域應(yīng)用最為廣泛,而隨機(jī)森林算法是數(shù)據(jù)挖掘領(lǐng)域較為成功的算法。從預(yù)測結(jié)果也可以看出,模型的穩(wěn)健性是Logistic回歸的優(yōu)點(diǎn),而缺點(diǎn)在于其預(yù)測精度不如隨機(jī)森林等數(shù)據(jù)挖掘算法;對于隨機(jī)森林算法,其模型的訓(xùn)練效果和預(yù)測精度都很好。綜上所述,本文認(rèn)為利用隨機(jī)森林算法建立信用評(píng)分模型比較合適的方法。

      傳統(tǒng)的分析方法與新型的機(jī)器學(xué)習(xí)方法各有利弊,在選擇和運(yùn)用時(shí)要注意具體情況。在此也可以做出如此猜想,將傳統(tǒng)的分析方法與機(jī)器學(xué)習(xí)相結(jié)合使用。例如,可嘗試采用參數(shù)方法與非參數(shù)方法相結(jié)合的方式建立混合模型,即用決策樹或隨機(jī)森林提取特征變量交互作用項(xiàng),引入到回歸方程中,從而完善Logistic回歸,起到變量選擇,考慮交互作用項(xiàng)的作用。

      在國際金融危機(jī)背景下,利用先進(jìn)的計(jì)量分析技術(shù)構(gòu)建有效的消費(fèi)者信用評(píng)估體系成為平衡控制風(fēng)險(xiǎn)與追求增長的關(guān)鍵。消費(fèi)者信用評(píng)估是通過建立信用評(píng)分模型,對信貸申請客戶的后續(xù)信用行為進(jìn)行預(yù)測,并基于客戶的特征變量將其劃分為“好客戶”和“壞客戶”,其分類精度直接關(guān)系信貸的風(fēng)險(xiǎn)。

      參考文獻(xiàn)

      [1]任瀟,姜明輝,車凱,王尚.個(gè)人信用評(píng)估組合模型選擇方案研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2016(5),67-71.

      [2]朱曉明,劉治國.信用評(píng)分模型綜述[J].統(tǒng)計(jì)與決策,2007(2):103-105.

      [3]蕭超武,蔡文學(xué),黃曉字,陳康.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理科學(xué),2014(6):111-113.

      [4]王帥.個(gè)人信用評(píng)分混合模型研究[D].華東師范大學(xué)碩士學(xué)位論文,2010.

      [5]張麗娜,趙敏.我國商業(yè)銀行個(gè)人信用評(píng)分指標(biāo)體系分析[J].市場周刊(理論研究),2007(8):115-117.

      猜你喜歡
      隨機(jī)森林
      拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
      基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測
      呼图壁县| 宜宾市| 齐齐哈尔市| 昌乐县| 磐石市| 深州市| 留坝县| 瑞昌市| 德惠市| 庆安县| 桃园县| 南华县| 读书| 多伦县| 长垣县| 名山县| 芜湖市| 阳东县| 涡阳县| 东至县| 綦江县| 华安县| 武威市| 祁东县| 广汉市| 武隆县| 攀枝花市| 汪清县| 宽甸| 武汉市| 四子王旗| 岳池县| 福贡县| 泗洪县| 衡阳市| 贵德县| 象州县| 吉水县| 定州市| 昭觉县| 景德镇市|