【摘要】本文以中國西南地區(qū)個人小額信貸真實數(shù)據(jù)樣本為基礎,通過建立申請信用評分模型,探討小貸公司風控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性。
【關鍵詞】小貸公司 信用評分 logistic回歸
引言
至2008年中國銀行業(yè)監(jiān)督管理委員會、中國人民銀行頒布《關于小額貸款公司試點的指導意見(銀監(jiān)發(fā)〔2008〕23號)》以來,國內小貸公司迅速崛起,貸款余額逐年穩(wěn)步提升。小貸公司以服務廣大微小企業(yè)、中低收入人群為宗旨,已成為我國多層次金融體系中不可或缺的一環(huán)。
小額貸款業(yè)務金額小、筆數(shù)多,目前國內機構多采取“信貸工廠模式”進行運作,其特點是“人海戰(zhàn)術”、“大數(shù)定律”,即依靠大量銷售人員進行掃樓式營銷,又配比相應風控人員進行準入審核,風險控制主要特點是不斷擴大貸款余額,以減小逾期、不良率。此運營模式的癥結在于人力成本奇高,經營效率相對低下,而風控效果完全取決于風控人員的個人經驗,主觀性較大,缺乏對整個市場客群的全面判斷和對客戶的標準畫像,因此風險常常處于不可控之中。2014年下半年以來,隨著國家宏觀經濟調整,小微企業(yè)生存環(huán)境惡化,以之為主要客群的小貸公司經營也舉步維艱,貸款余額增速明顯放緩,2015年3季度迎來拐點,貸款余額下降趨勢開始顯現(xiàn),如圖1所示。
與小貸行業(yè)的“瓶頸期”境遇不同,互聯(lián)網金融、消費金融公司等新興業(yè)態(tài)依靠大數(shù)據(jù)和先進的風控技術,采取“線上申請、自動審批、快速放款”運作模式,逆勢蓬勃發(fā)展,贏得了市場的認可,其依賴的關鍵技術便是信用評分模型。信用評分模型運用現(xiàn)代數(shù)理統(tǒng)計技術,通過對信貸客戶信用歷史記錄和業(yè)務活動記錄的深度數(shù)據(jù)挖掘、分析和提煉,發(fā)現(xiàn)蘊藏在紛繁復雜數(shù)據(jù)中,反映信貸申請者風險特征和預期信貸表現(xiàn)的知識和規(guī)律,并通過評分的方式總結出來,作為管理決策的科學依據(jù)[1]。早期,國內信用評分模型主要應用于銀行信用卡領域,原因在于銀行信用卡用戶數(shù)量龐大、而金額相對較少,且銀行擁有完善的數(shù)據(jù)庫系統(tǒng)、標準化的數(shù)據(jù)結構及字段,再加上銀行系都能接入央行征信系統(tǒng),模型的建立有著完備的物質基礎。2010年前后,隨著一大批海歸金融從業(yè)者轉戰(zhàn)國內普惠金融市場,信用評分模型應用逐漸普及。以P2P為代表的互聯(lián)網金融有著天然的技術基因,隨著網絡技術的不斷升級,在客戶數(shù)據(jù)獲取方面優(yōu)勢明顯;消費金融公司多數(shù)有著銀行背景(如:北銀消費金融、中銀消費金融)或有著較強的產業(yè)背景(如:馬上消費金融,海爾消費金融),可借鑒的歷史客戶數(shù)據(jù)存量本就龐大,所以也有著評分模型建立的物質基礎。反觀小貸,08年國家政策放開后,一度野蠻生長,卻忽略了技術與人才的沉淀,采取粗放式的運營模式,再加上客群質量普遍較差,數(shù)據(jù)庫建設滯后,鮮有小貸公司建立信用評分模型,并加以應用,因此在這方面國內的研究處于空白狀態(tài)。本文以實證的方法,基于西南地區(qū)個人小額信貸真實數(shù)據(jù)樣本,借助R語言平臺,建立logistic回歸模型,并建立申請信用評分卡,以驗證小貸公司風控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性等問題。
二、數(shù)據(jù)獲取和清洗
數(shù)據(jù)樣本取重慶地區(qū)某小貸公司2015年9月~2017年3月的部分業(yè)務數(shù)據(jù),共計6581條;取審批通過的且有人行征信的,共計1804條。樣本選取時間是2017年4月,所有客戶表現(xiàn)期均在1月以上。由于獲取樣本數(shù)量的局限和方便數(shù)據(jù)處理等原因,特定義本模型的表現(xiàn)期為1月,壞客戶定義為:任何逾期客戶。
剔除掉缺省過多,或無法建模的字段,或不適用于申請信用評分建模字段,按需建立衍生類字段,建立數(shù)據(jù)集市字段如表1所列。
按照7:3的比例隨機選擇1263條樣本作為訓練樣本,剩下540條樣本作為檢驗樣本。
三、模型學習
利用條件推斷樹函數(shù)smbinning對連續(xù)變量離散化處理并分箱,從決策樹的原理可知,“無法分箱”的變量無預測能力,因此刪除,分箱結果見表2。
對剩余變量進行woe轉換,轉化公式如下所示:
根據(jù)各變量的WOE值,發(fā)現(xiàn)有些WOE值出現(xiàn)無窮大,對變量不合理分箱進行臨近分段合并。
然后進行person相關性分析,計算公式如下所示:
找出中等以上相關(correlation≥0.3)變量,見表3。
算出各變量的信息值,計算公示后如公式(3)所示:
對相關性較強的變量,為避免多重共線性,去掉信息值較小的或大于0.5的變量,見表4。
從圖中可知,fend和estates的woe圖形不符合經濟規(guī)律,或有一定虛假成分,在后續(xù)回歸中應該去掉;eductation從5開始不符合經濟規(guī)律,嘗試把5和4合并后,重新畫圖,如圖3所示,隨著學歷的升高,壞客戶概率相應降低,符合經濟規(guī)律。
建立logistic回歸模型,其中P為好客戶的概率,Xi為自變量,βi為回歸系數(shù),如下所示:
通過逐步回歸,排除了不顯著變量cddraw_cddebttoltal,最終得到如下回歸結果,其中sex(性別)、addr(住址)、incometype(收入發(fā)放形式)、cdcredit(信用卡總授信額度合計)、cdholdmob(信用卡最長持卡月數(shù))、cdexpnum12(信用卡近12月現(xiàn)1上次數(shù))、inquirynum6(近6個月累計查詢數(shù))在0.05水平以內顯著,見表6。
Signif.codes:0‘***0.001‘**0.01‘*0.05‘.0.1‘
利用方差膨脹因子VIF檢查各參數(shù)的共線性,計算公式如下所示,其中Ri為復相關系數(shù):
經檢驗,所有參數(shù)的方差膨脹因子均小于5,表明模型不存在多重共線性。
下面,進行評分卡刻度的設定,設優(yōu)比Odds{60:1}時的分值為600,PDO=20,算出B=28.85,A=481.86計算公式如下所示:endprint
用公式(7)進行評分卡的分值分配,其中Wij第i個變量第j個取值的證據(jù)權重;δij是二元變量,表示變量i是否取第j個值。
最終得到標準評分卡,見表7。
四、模型檢驗
(一)分數(shù)分布
根據(jù)訓練樣本及檢驗樣本的直方圖,發(fā)現(xiàn)波峰均向左偏移,表明客群質量總體偏差,與現(xiàn)實情況相符合,見圖4。
(二)模型擬合
畫出訓練樣本及檢驗樣本的擬合曲線,訓練樣本和檢驗樣本曲線基本重合,隨著信用評分的升高,壞客戶占比逐漸走低,符合預期規(guī)律,見圖5。
(三)模型區(qū)分度
由訓練樣本的區(qū)分圖可知,模型有一定區(qū)分能力;但檢驗樣本量過小,區(qū)分度不明顯,見圖6。
(四)K-S統(tǒng)計量
訓練樣本K-S統(tǒng)計量為0.335,在0.3~0.5可接受范圍內,而檢驗樣本K-S統(tǒng)計量僅為0.237,低于可接受水平,見圖7。
(五)Gini系數(shù)
訓練樣本Gini曲線明顯下凹,Gini系數(shù)為0.444,在0.4~0.6可接受范圍內,而檢驗樣本Gini曲線相較平緩,系數(shù)僅為0.296,低于可接受水平,見圖8。
五、結論
本文以實證的方法,基于中國西南地區(qū)個人小額信貸真實數(shù)據(jù)樣本,建立申請信用評分模型,以驗證小貸公司風控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性等問題。從模型的logistic回歸結果看,sex(性別)、addr(住址)、incometype(收入發(fā)放形式)、cdcredit(信用卡總授信額度合計)、cdholdmob(信用卡最長持卡月數(shù))、cdexpnum12(信用卡近12月現(xiàn)1上次數(shù))、inquirynum6(近6個月累計查詢數(shù))等7個變量在0.05水平以內顯著,另4個變量在0.1水平內顯著;從最終模型的檢驗效果看,模型分數(shù)分布符合現(xiàn)實情況,模型表現(xiàn)符合經濟規(guī)律,訓練樣本各項驗證指標均在可接受范圍內,模型具備一定的預測能力。
從實證的結果看,相比銀行、消費金融公司,雖然小貸公司客群整體質量偏差,比如中國西南地區(qū)低收入人群,但信用評分技術仍然適用,仍能通過申請人個人歷史信息提煉出有價值的信息,對信貸的準入決策提供量化依據(jù)。這為小貸公司的技術升級提供了可行性依據(jù)。實踐中,小貸公司可根據(jù)自身業(yè)務特點,統(tǒng)一數(shù)據(jù)庫字段結構,做好客戶數(shù)據(jù)的積累;另外,針對逾期客戶,應根據(jù)自身風險容忍度及催收表現(xiàn)制定“好”、“壞”的劃分標準,以為后續(xù)信用評分模型的建立奠定物質基礎。
當然,本文研究中部分問題還有待進一步解決,如:由于檢驗樣本不足,導致檢驗樣本區(qū)分度不佳,K-S、Gini等各統(tǒng)計指標低于理想水平,對模型的表現(xiàn)提出質疑。筆者將在后續(xù)研究中,不斷積累樣本數(shù)據(jù),進行反復驗證,待樣本數(shù)據(jù)積累到一定程度后,重新建模進行驗證,以求得更可靠結果。
參考文獻
[1]陳建.信用評分模型技術與應用[M].北京:中國財政經濟出版社,2005.
[2]Mamdouh Refaat.信用風險評分卡研究基于SAS的開發(fā)與實施[M].北京:社會科學文獻出版社,2013.
[3]王濟川,郭志剛.logistic回歸模型——方法與應用[M].北京:高等教育出版社,2001.
[4]徐毅,陳麗萍主編.統(tǒng)計建模與R軟件[M].北京:清華大學出版社,2006.
作者簡介:陳亮(1983-),男,漢族,重慶渝中區(qū)人,畢業(yè)于重慶大學經濟與工商管理學院,碩士,任職于重慶匯金小額貸款有限公司,金融研究員,研究方向:普惠金融。endprint