沈曉彤
摘要:P2P網(wǎng)絡(luò)借貸的模式進(jìn)入我國后,經(jīng)歷了野蠻生長期,平臺暴雷期和逐步成熟期,2016年隨著國家相關(guān)政策的出臺,P2P平臺走向了規(guī)范化、可控化,然而道阻且長,P2P平臺的管理不僅要靠國家的法律監(jiān)管,平臺和投資者更要提高風(fēng)險(xiǎn)識別能力。本文利用某借貸平臺的借貸數(shù)據(jù)信息對P2P平臺黑名單進(jìn)行了大數(shù)據(jù)分析,將總體誤判率降低至2.89%,為失信人的初步識別提供了有效方法。
關(guān)鍵詞:P2P;大數(shù)據(jù);隨機(jī)森林;因子分析
一、引言
近年來,互聯(lián)網(wǎng)技術(shù)在全球范圍內(nèi)蓬勃發(fā)展,互聯(lián)網(wǎng)金融也隨之逐漸強(qiáng)大。在此背景之下,一種全新的民間借貸方式——P2P網(wǎng)絡(luò)借貸應(yīng)運(yùn)而生。P2P(Peer to Peer)網(wǎng)絡(luò)借貸是指借貸者和投資者通過互聯(lián)網(wǎng)平臺在線上完成的小額借貸模式,不需要傳統(tǒng)金融機(jī)構(gòu)作為中介參與進(jìn)來。P2P網(wǎng)絡(luò)借貸自2007年進(jìn)入我國,發(fā)展至今已經(jīng)有13年,給投資者和借貸者帶來極大助力的同時(shí),也帶來了極大的風(fēng)險(xiǎn)。由于P2P網(wǎng)絡(luò)借貸平臺擁有大量借貸者身份信息,如何在當(dāng)前的大數(shù)據(jù)的背景下,挖掘失信人群的行為特征,刻畫黑名單用戶的畫像,使得P2P網(wǎng)絡(luò)借貸平臺更全面地了解其客戶的信用情況,這對提高P2P網(wǎng)貸行業(yè)的良性發(fā)展的能力、促進(jìn)我國征信體系的健康發(fā)展和提高企業(yè)抗風(fēng)險(xiǎn)能力有積極的意義。
二、實(shí)證分析過程與結(jié)果
(一)描述性分析
本文數(shù)據(jù)來源于某借貸平臺的歷史借貸信息,包括607條黑名單數(shù)據(jù),9393條一般數(shù)據(jù),共計(jì)10000條完整數(shù)據(jù)。主要包括借貸人個(gè)人信息、借貸詳細(xì)信息、是否列入黑名單等共計(jì)41項(xiàng)條目。
描述性統(tǒng)計(jì)分析可知:(1) 借款數(shù)額集中在5萬元附近,個(gè)案間借款金額差異較大;(2) 借款人年齡多集中在35歲左右,大多是中年人群,已婚人群比例大;(3) 借款人以男性居多,占比74%;(4) 借款人收入集中在5000-10000元間;(5) 擁有不動產(chǎn)的借款人接近57%有房貸,而擁有汽車的借款人,約有31%的人有車貸;(6)借款人的學(xué)歷主要集中在大專及以下,工作行業(yè)主要為零售業(yè)和制造業(yè)。
(二)因子分析
本文選取表1中的變量進(jìn)行因子分析。球形檢驗(yàn)結(jié)果P<0.000,KMO檢驗(yàn)結(jié)果為0.84>0.8。探索性因子分析結(jié)果表明適合的因子個(gè)數(shù)為5個(gè)。
借貸金額、第一天的借貸金額、第一小時(shí)的借貸金額、最后一小時(shí)的借貸金額、最大的借貸金額和從經(jīng)常借貸人處借貸金額對因子PA1的影響較大,因此將因子PA1稱為借款金額因子;借款利率、借款期限和工資對因子PA2的影響較大,因此將因子PA2稱為借款要求因子;有無個(gè)人不動產(chǎn)及是否有房貸對因子PA4影響較大,因此將因子PA4稱為個(gè)人不動產(chǎn)因子;有無汽車及是否有車貸對因子PA3影響較大,因此將因子PA3稱為個(gè)人動產(chǎn)因子;年齡、婚姻狀況對因子PA5影響較大,因此將因子PA5稱為個(gè)人狀況因子。這五個(gè)因子共同構(gòu)成了對借貸人的評價(jià)體系。
(三)隨機(jī)森林回歸
1. 選擇合適參數(shù)
剔除行業(yè)和所處企業(yè)規(guī)模兩個(gè)有缺失值的變量后,最終共有38個(gè)自變量用于建模。本文通過遍歷設(shè)定參數(shù)為1至38進(jìn)行38次建模,并打印每次建模的錯誤率,選擇錯誤率最低為0.127751的mtry取值36。而當(dāng)決策樹取值超過400后,整體錯誤率趨于穩(wěn)定,因此本文將ntree參數(shù)設(shè)定為500。
2. 最終模型結(jié)果
建立隨機(jī)森林模型結(jié)果顯示,基于OOB數(shù)據(jù)的總體誤判率為2.89%。其中,實(shí)際沒有違約的用戶模型判斷正確率為99.06%,實(shí)際違約的用戶模型判斷正確率為66%。采用測試數(shù)據(jù)集對模型進(jìn)行檢驗(yàn),發(fā)現(xiàn)模型對于實(shí)際沒有違約用戶的判斷正確率非常高,但對于實(shí)際違約用戶的判斷正確率僅有57%。因此如果模型根據(jù)用戶的相關(guān)借貸信息判斷該用戶有違約可能,則大概率該用戶會違約。ROC曲線中的線下面積AUC為0.781,表明本文的模型具有一定的識別和判斷價(jià)值。
三、結(jié)論與建議
本文利用某借貸平臺提供的10000條借貸數(shù)據(jù)信息對P2P平臺黑名單進(jìn)行了大數(shù)據(jù)分析。因子分析結(jié)果表明,借款人評估應(yīng)該從借款金額因子、借款要求因子、個(gè)人不動產(chǎn)因子、個(gè)人動產(chǎn)因子、個(gè)人狀況因子五個(gè)維度收集借款人信息。本文還嘗試使用隨機(jī)森林進(jìn)行建模,以期能夠通過模型幫助對借款人進(jìn)行分析。通過遍歷方法本文確定錯誤率最低的參數(shù)為mtry=36,ntree=500,最終建立的模型OOB數(shù)據(jù)的總體誤判率為2.89%,其中將實(shí)際未違約人判定為違約人的概率為低于1%,但將實(shí)際違約人判定為未違約人的概率約為40%,因此該模型適用于對借貸人進(jìn)行初步評估,篩選出極有可能不能按時(shí)還款的借款人。若在預(yù)測中認(rèn)為該借款人有較大概率拖欠借款,即可采取一定的跟進(jìn)或制裁方式來保證借款的回收,例如調(diào)整利息率、縮短還款期、降低信用評級水平等,以有效降低借貸平臺的逾期率和壞賬率,進(jìn)而保證平臺的健康發(fā)展。