□文/郝仁杰
(南京郵電大學(xué) 江蘇·南京)
[提要] 隨著大數(shù)據(jù)時(shí)代的到來(lái),傳統(tǒng)的征信體系不再滿足互聯(lián)網(wǎng)金融對(duì)征信精度的要求。本文基于Logistic回歸、隨機(jī)森林算法的模型來(lái)預(yù)測(cè)P2P網(wǎng)貸中客戶的信用風(fēng)險(xiǎn)。通過(guò)爬蟲技術(shù)抓取某網(wǎng)貸平臺(tái)的交易數(shù)據(jù),然后利用SMOTE重采樣技術(shù)對(duì)數(shù)據(jù)采樣,實(shí)證研究結(jié)果表明:相較于Logistic回歸模型,基于隨機(jī)森林模型的預(yù)測(cè)能顯著降低錯(cuò)誤比例,提高預(yù)測(cè)正確率、召回率和特異性。本研究對(duì)P2P網(wǎng)貸平臺(tái)的信用風(fēng)險(xiǎn)預(yù)警具有參考意義。
隨著“互聯(lián)網(wǎng)+”概念興起,傳統(tǒng)的金融模式已經(jīng)不再滿足時(shí)代的新要求,紛紛提出多式多樣的業(yè)務(wù)模式。隨之而來(lái)的是各種包括政策風(fēng)險(xiǎn)、監(jiān)管風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)、網(wǎng)絡(luò)風(fēng)險(xiǎn)與信用風(fēng)險(xiǎn)在內(nèi)的種種風(fēng)險(xiǎn)。因此,當(dāng)前對(duì)于平臺(tái)而言最重要的是如何利用各自的數(shù)據(jù),通過(guò)大數(shù)據(jù)模型精準(zhǔn)判斷借貸人的違約風(fēng)險(xiǎn),這對(duì)保障投資人的利益、平臺(tái)的安全和行業(yè)的穩(wěn)健發(fā)展都具有很重要的現(xiàn)實(shí)意義。
在國(guó)外,早期的網(wǎng)貸信用風(fēng)險(xiǎn)評(píng)估中,借貸平臺(tái)是通過(guò)投資人而非借貸平臺(tái)來(lái)篩選確定借款人是否值得信賴,這就造成虛假陳述現(xiàn)象比較普遍。后來(lái)引入數(shù)學(xué)建模的形式去評(píng)估信貸風(fēng)險(xiǎn),比較常用的包括判別分析、聚類分析、Logistic回歸等。此后對(duì)模型進(jìn)行進(jìn)一步探索之后,引入了ZE-TA信用風(fēng)險(xiǎn)評(píng)估模型、高斯混合模型和隨機(jī)森林等模型。在國(guó)內(nèi),近幾年內(nèi)的網(wǎng)貸平臺(tái)良莠不齊,發(fā)展模式并沒(méi)有行業(yè)規(guī)范,帶來(lái)更嚴(yán)重的信用風(fēng)險(xiǎn)。有學(xué)者利用現(xiàn)代大數(shù)據(jù)中借貸人的個(gè)人特征、歷史表現(xiàn)、借款信息等三個(gè)方面的數(shù)據(jù)建立模型發(fā)現(xiàn)其對(duì)網(wǎng)貸信用風(fēng)險(xiǎn)存在顯著影響。繆蓮英等學(xué)者通過(guò)Logistic回歸研究發(fā)現(xiàn)社會(huì)資本的存在能夠降低平臺(tái)借款人的違約風(fēng)險(xiǎn)。
目前,對(duì)傳統(tǒng)商業(yè)銀行貸款的信用風(fēng)險(xiǎn)研究比較成熟,但隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)金融的興起,傳統(tǒng)的征信體系已經(jīng)不能滿足現(xiàn)階段對(duì)征信的要求。而且傳統(tǒng)的數(shù)學(xué)模型對(duì)于多變量之間共線性有嚴(yán)格的要求,并不能全面考慮各種特征,并且使用機(jī)器學(xué)習(xí)模型進(jìn)行信用風(fēng)險(xiǎn)研究還處于初步階段。
Logistic回歸模型是典型的廣義線性模型,響應(yīng)變量與自變量之間通過(guò)Logit函數(shù)連接,在0-1分類問(wèn)題中得到廣泛應(yīng)用。假設(shè)因變量Y取值為0或1,事件未發(fā)生定義為Y=0,事件發(fā)生的概率為P,事件未發(fā)生的概率為1-P,把P看成x的線性函數(shù),Logistic回歸的公式可以表示為:
表1 變量說(shuō)明一覽表
隨機(jī)森林是常見(jiàn)的集成學(xué)習(xí)模型,它是基于在基學(xué)習(xí)器為Bagging模型的基礎(chǔ)上,引入了隨機(jī)的概念。一方面是數(shù)據(jù)的隨機(jī):在訓(xùn)練模型的時(shí)候每棵樹會(huì)隨機(jī)又放回的利用訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,大約有1/3的數(shù)據(jù)不會(huì)被選取到;另一方面在樹模型分葉的節(jié)點(diǎn)上,會(huì)隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。
最后兩個(gè)模型的評(píng)價(jià)指標(biāo),本文從訓(xùn)練集、測(cè)試集、未重采樣測(cè)試集根據(jù)混淆舉證計(jì)算得來(lái)的正確率、召回率、特異性、錯(cuò)判率四個(gè)指標(biāo)來(lái)評(píng)價(jià)模型,其中前三個(gè)指標(biāo)越接近1表示模型越好,錯(cuò)判率越接近0越好。
(一)數(shù)據(jù)來(lái)源與變量說(shuō)明。本文選取了國(guó)內(nèi)一個(gè)比較出名的網(wǎng)貸平臺(tái)作為研究目標(biāo)。利用網(wǎng)絡(luò)爬蟲技術(shù)獲取平臺(tái)從一段時(shí)間爬取的借貸數(shù)據(jù),共計(jì)8,864條樣本。樣本所含指標(biāo)如表1所示,包括客戶是否為違約客戶、是否為本地籍、教育水平、婚姻狀況、收入水平、是否有公積金、個(gè)人住房貸款筆數(shù)、商品房貸款筆數(shù)、其他貸款筆數(shù)和貸記卡賬戶數(shù)。(表1)
(二)數(shù)據(jù)預(yù)處理。因?yàn)楸緮?shù)據(jù)集近90%的樣本是屬于非違約的,如果分類器將所有的樣本都分類為該類,盡管最后的分類精度超過(guò)90%,其實(shí)并無(wú)實(shí)際意義。所以,在數(shù)據(jù)不均衡時(shí),評(píng)價(jià)指標(biāo)的參考意義不大。針對(duì)樣本數(shù)據(jù)不平衡的情況,本文用R軟件中的SMOTE函數(shù)進(jìn)行重采樣的處理方式,對(duì)大類的數(shù)據(jù)樣本進(jìn)行欠采樣來(lái)減少大類的數(shù)據(jù)樣本個(gè)數(shù),即采樣的個(gè)數(shù)少于該類樣本的個(gè)數(shù)。得到的樣本集兩個(gè)類別各近占50%。將重采樣剩余的原始數(shù)據(jù)作為整個(gè)數(shù)據(jù)集的測(cè)試集,用重采樣后的數(shù)據(jù)集的70%訓(xùn)練模型,然后先用剩下的30%測(cè)試模型,最后再用整個(gè)數(shù)據(jù)集的測(cè)試集再次驗(yàn)證模型的預(yù)測(cè)效果。
表2 Logistic回歸模型評(píng)價(jià)指標(biāo)一覽表(單位:%)
表3 隨機(jī)森林模型評(píng)估指標(biāo)一覽表(單位:%)
(三)實(shí)證分析
1、Logistic回歸模型建立與預(yù)測(cè)。將經(jīng)過(guò)9個(gè)指標(biāo)作為特征變量,是否違約作為目標(biāo)變量來(lái)建立Logistic回歸模型。首先,考察特征變量間的多重共線性。從相關(guān)系數(shù)矩陣中發(fā)現(xiàn),特征變量之間的共線性比較普遍且復(fù)雜,采用“逐步回歸”對(duì)變量進(jìn)行篩選。將建立的模型分別用重采樣的訓(xùn)練集與測(cè)試集以及未經(jīng)重采樣數(shù)據(jù)集的測(cè)試集進(jìn)行了模型的預(yù)測(cè),通過(guò)正確率、召回率、特異性以及錯(cuò)判率四種指標(biāo)來(lái)檢驗(yàn)?zāi)P皖A(yù)測(cè)效果,結(jié)果如表2所示。(表2)
由表2中的結(jié)果可知,訓(xùn)練集和測(cè)試集以及未重采樣的測(cè)試集所計(jì)算得到的4個(gè)指標(biāo)差異不大。平均來(lái)看,模型的預(yù)測(cè)正確率大概為64%、召回率為64%、特異性為60%以及錯(cuò)判率在35%。
2、隨機(jī)森林模型建立與預(yù)測(cè)。本文采用集成學(xué)習(xí)中隨機(jī)森林的算法,此算法是目前機(jī)器學(xué)習(xí)方法中比較流行且預(yù)測(cè)效果較優(yōu)的集成算法。它避免了過(guò)擬合的誤差,能夠有效地提高模型的預(yù)測(cè)能力。
圖1表示的訓(xùn)練集分類的誤判率,可以看到隨著樹的數(shù)量增多,誤判率漸漸趨于平穩(wěn)。到100棵樹時(shí)誤判率已有平穩(wěn)趨勢(shì),但之后還是有些許波動(dòng),最后在進(jìn)行隨機(jī)森林建模時(shí),樹的參數(shù)選為300。(圖1)
由表3中的結(jié)果可知,訓(xùn)練集和測(cè)試集以及未重采樣的測(cè)試集所計(jì)算得到的四個(gè)指標(biāo)有差異。訓(xùn)練集的整體預(yù)測(cè)效果優(yōu)于其他兩個(gè)訓(xùn)練集,這是由于本身的模型是基于訓(xùn)練集所建立。模型的預(yù)測(cè)正確率大概為85%、召回率為90%、特異性為70%以及錯(cuò)判率在13%左右。這個(gè)驗(yàn)證結(jié)果明顯比Logistic回歸預(yù)測(cè)結(jié)果的精確度有提升。(表3)
借款人違約,對(duì)出借人和P2P平臺(tái)都會(huì)造成巨大損失,更會(huì)制約行業(yè)的發(fā)展。預(yù)警借款人違約風(fēng)險(xiǎn)的有效手段是構(gòu)建全國(guó)性的征信體系,同時(shí)平臺(tái)進(jìn)一步完善審查監(jiān)督制度,但這些都需要多個(gè)參與主體長(zhǎng)期的共同努力才能實(shí)現(xiàn)。就目前來(lái)看,最有效的方法是平臺(tái)基于自身積累的大數(shù)據(jù),構(gòu)建預(yù)測(cè)準(zhǔn)確、性能穩(wěn)定的違約風(fēng)險(xiǎn)預(yù)警模型。
圖1 誤判率趨勢(shì)圖
本文基于Logistic回歸和隨機(jī)森林信用風(fēng)險(xiǎn)預(yù)警模型進(jìn)行分析比較,研究結(jié)果表明:基于三個(gè)樣本集的模型評(píng)價(jià)指標(biāo),隨機(jī)森林所建立的模型計(jì)算得到的準(zhǔn)確率、召回率和特異性比Logistic回歸的高,并且錯(cuò)誤率要低。所以,在對(duì)P2P網(wǎng)貸信用風(fēng)險(xiǎn)預(yù)警時(shí),選用隨機(jī)森林所構(gòu)建的模型預(yù)測(cè)效果會(huì)比較好。而傳統(tǒng)的Logistic回歸,由于必須滿足嚴(yán)格的統(tǒng)計(jì)學(xué)假設(shè),在評(píng)估客戶信用風(fēng)險(xiǎn)時(shí)可能受到較大限制,具有自身的局限性。但是,Logistic回歸模型還是有借鑒之處,比如每個(gè)特征變量對(duì)客戶違約的影響程度以及正負(fù)向關(guān)系是可以通過(guò)模型的系數(shù)可以直觀的看到,這是集成學(xué)習(xí)具有局限的地方。所以,可以將這兩種模型從不同角度去看待,但總的預(yù)測(cè)效果還是由隨機(jī)森林建立的模型更為準(zhǔn)確,并且符合大數(shù)據(jù)時(shí)代的要求。
本文研究基于Logistic回歸與集成學(xué)習(xí)的P2P網(wǎng)貸違約風(fēng)險(xiǎn)預(yù)警,對(duì)P2P網(wǎng)貸平臺(tái)的違約風(fēng)險(xiǎn)預(yù)警具有啟示意義,有助于平臺(tái)更好地預(yù)測(cè)借款人信用風(fēng)險(xiǎn),完善自身風(fēng)控體系。另外,由于數(shù)據(jù)有限,本研究還有需進(jìn)一步深入探討的地方,比如如何提升模型的泛化能力、對(duì)違約客戶的細(xì)化分類以及從更多維度的用戶特征去訓(xùn)練模型。