王飛祥 吳禮好
[摘? ? 要] 隨著網(wǎng)絡在人們生活中的普及使用,傳統(tǒng)的借貸模式也跟著發(fā)生了改變,傳統(tǒng)借貸模式逐漸被網(wǎng)絡借貸模式所替代。如今,網(wǎng)絡借貸違約現(xiàn)象極大地制約了網(wǎng)絡借貸的健康發(fā)展。為減少網(wǎng)絡借貸平臺違約率,現(xiàn)對某一P2P網(wǎng)貸平臺的貸款數(shù)據(jù)進行分析,結(jié)合網(wǎng)貸借款人的基礎信息和借款信息的18個特征變量,建立邏輯回歸違約風險評估模型,并通過混淆矩陣以及ROC曲線檢驗結(jié)果表明,模型具有較高的精度,可以有效預測借款人的違約風險。
[關鍵詞] 網(wǎng)絡借貸;Logistic模型;違約風險
0? ? ? 引? ? 言
隨著我國經(jīng)濟快速發(fā)展,越來越多的人接觸到網(wǎng)絡借貸,而如何從廣大用戶中有效識別出優(yōu)質(zhì)客戶,降低客戶的違約率對網(wǎng)絡借貸平臺來說,對其穩(wěn)健發(fā)展至關重要。據(jù)網(wǎng)貸之家數(shù)據(jù)顯示近三年來網(wǎng)絡借貸平臺正常運營平臺數(shù)量持續(xù)降低,究其原因,借款人的違約不乏為其中一個重要影響因素。因此,能夠精準甄別網(wǎng)貸風險、降低借款人違約率顯得十分必要。
蘇亞,成春林(2017)認為在對網(wǎng)貸借款人違約行為的影響分析中應多維綜合考慮借款人的“軟信息”和“硬信息”。[1]丁嵐,駱品亮(2017)提出Stacking集成策略來降低預測模型中的一、二類錯誤從而達到提升借款人違約風險預測的準確度。[2]熊正德,劉臻煊,熊一鵬(2017)通過將“違約”與“不違約”兩類細分為“提前結(jié)清”“當前正?!薄翱梢伞薄皳p失”四類,構造有序多分類logistic模型,得出“當前正?!焙汀翱梢伞眱深惪蛻舻念A測效果相對準確率更高。[3]沈玉溪,徐浩(2018)運用Lending Club2017年第一季度的交易數(shù)據(jù)通過決策樹模型對借款人的違約風險特征的重要性進行分析。[4]譚中明,謝坤,彭耀鵬(2018)利用Logistic回歸方程式的方法篩選變量建立梯度提升決策樹模型來對借款人的信用風險進行評測,檢驗的結(jié)果表明GBDT模型的預測效果更好,但在特征變量的篩選中借款人收入多少與有無房貸等重要特征并不顯著。[5]舒方媛,趙公民,武勇杰(2019)建立Logistic二分類模型分析了網(wǎng)貸借款人的違約因素,得出信用評級、逾期次數(shù)等因素更為顯著。[6]黃建瓊郭文龍陳曉峰(2020)的研究結(jié)果表明,相對于決策樹和隨機森林模型,采用五只交叉驗證的支持向量機模型具有更好的穩(wěn)定性與泛化能力。[7]以上學者對網(wǎng)絡貸款風險研究多基于單向影響因素探究,往往易忽略現(xiàn)實中多方面因素的影響,因此本文綜合借款人的基礎信息與借款信息的18個特征變量,運用統(tǒng)計分析結(jié)合實證分析方法將借款人是否違約作為目標變量,建立Logistic二分類模型,并通過混淆矩陣和ROC檢驗來檢驗模型的精度,得出模型具有較高的精度能夠有效預測借款人違約風險,對網(wǎng)絡借款人的風險評估具有參考作用。
1? ? ? Logistic模型
(2)混淆矩陣,它的本質(zhì)可以理解為就是一張表格,以真陽性(TP)、真陰性(TN)和假陽性(FP)、假陰性(FN)四個基礎指標組成的表格。如在分類模型中我們需要預測是否違約具有“不違約”(negative)和“違約”(positive)兩類結(jié)果,而這四個基本指標分別表示:
①真陽性:樣本類別為positive,模型預測的結(jié)果是positive;
②真陰性:樣本類別為negative,模型預測的結(jié)果是negative;
③假陽性:樣本類別為negative,而模型預測的結(jié)果是positive;
④假陰性:樣本類別為positive,而模型預測的結(jié)果是negative。
四個基礎指標所組成的混淆矩陣如表1所示。
對于分類模型的評價,在混淆矩陣中,TP與TN的觀測值越大越好,而FP與FN的觀測值越小越好,這樣就表示模型預測的越準確。
在混淆矩陣的基礎上延伸出精確率(Precision)和召回率(Recall)和F1分數(shù),其對應意義如表2所示。
2? ? ? 實證分析
2.1? ?特征變量的選取
數(shù)據(jù)來源為某P2P借貸平臺歷史借款數(shù)據(jù),樣本量為5 000,文中數(shù)據(jù)處理與分析皆使用Python來實現(xiàn)。主要使用了Python中的Numpy、Pandas、Matplotlib、Seaborn處理數(shù)據(jù)、作圖以及機器學習庫。
通過Python的Describe函數(shù)以及Info函數(shù)顯示,樣本包含了3列時間類型(datetime)數(shù)據(jù)、12列浮點型(float)數(shù)據(jù)、15列數(shù)值型(int)數(shù)據(jù)以及23列文本類型(object)數(shù)據(jù)。首先依據(jù)直觀判斷去除與本文研究無關的數(shù)據(jù)和無效的數(shù)據(jù),選取需要的特征變量;其次對數(shù)據(jù)進行初步預處理。缺失值與異常值處理中Isnull函數(shù)能夠查找到數(shù)據(jù)中的缺失值,對于缺失值,一般根據(jù)變量特征類型需要采取中位數(shù)、眾數(shù)或者平均數(shù)等來替代。變量特征數(shù)據(jù)缺失嚴重的則選擇直接刪除這一樣本。數(shù)據(jù)中的有些特征變量為文本型類型如性別,為了更好地識別與建模,需要對它們做One-Hot編碼處理。對于具有連續(xù)性的特征變量,需要做標簽編碼處理。
數(shù)據(jù)預處理效果如表3所示分別為性別、年齡、受教育程度、婚姻狀態(tài)、月收入、工作年限、所在單位規(guī)模、有無房產(chǎn)、有無房貸、有無車產(chǎn)、有無車貸等11個貸款人基礎信息特征變量和借款利率、借款期限、信用分數(shù)、信用等級、逾期次數(shù)、申請貸款筆數(shù)7個貸款人的借款信息特征變量,以及是否違約作為目標變量。
2.2? ?描述性分析
樣本中借款人年齡分布主要集中在30歲到40多歲之間,其中借款人年齡最小的為22歲,最大的為64歲,借款人年齡分布線圖如圖1。
樣本數(shù)據(jù)中借款人借款違約率跟年齡與性別分布如圖2所示,從其柱形圖和折線圖可以看出,借款人貸款違約樣本主要集中在30歲到40歲之間,其次是20歲至30歲的年齡段,違約率將近于48%,50歲到60歲之間年齡段中的貸款違約率相對最少,只占其中的25%;而相對于女性來說男性貸款的違約率則遠遠高于女性借款人。這一結(jié)果表明位于30到40歲之間的借款人的貸款需求高于其他年齡段的借款人,同樣,處于這一年齡段的借款人的違約率也高于其他年齡段的借款人,借款平臺在放款時需加強對這一年齡段的借款人的資格審查,嚴格管控這一年齡段的借款人的違約行為。
網(wǎng)絡借貸違約風險與借款人所受教育程度的關系如圖3所示,隨著學歷的升高,借款人的違約概率逐漸降低。根據(jù)樣本數(shù)據(jù)顯示,借款人所受教育程度在高中或高中以下學歷,其違約的概率明顯高于學歷更高的借款人,說明學歷越高其還款意識或者還款能力越強,能夠及時履行作為借款人的義務如期還款,而學歷低的借款人更容易違約。
2.3? ?實證結(jié)果及分析
將預處理好的樣本數(shù)據(jù)進行切分,隨機種子train_size設為0.8,即樣本數(shù)據(jù)的80%作為訓練集,20%作為測試集,其中特征變量為處理后的借款人基本信息和借款信息,目標變量y為借款人的違約狀態(tài)。將數(shù)據(jù)輸入得到違約風險預測的準確率為98.68%,說明所建立的違約風險模型效果較好。將模型特征變量按重要性排序,如圖4所示,顯然,在所有特征變量中屬于借款人基礎信息特征的貢獻度小于借款人的借款信息即信用信息特征。貢獻度最大的特征變量是違約次數(shù),違約次數(shù)這一特征屬于連續(xù)性變量,隨著次數(shù)的增大其借款人的違約風險越大,說明借款人因某一原因在規(guī)定的時間內(nèi)未能如期還款或者沒有能力償還借款而違約,那么其后續(xù)產(chǎn)生違約的可能性更大,而違約次數(shù)為零的借款人其產(chǎn)生違約的可能性很小;其次,違約風險模型中貢獻度影響僅次于違約次數(shù)這一特征變量的是借款人的借款利率,借款人的借款利率越高,其違約風險越大。在基礎信息特征中對違約風險模型影響最大的特征為收入,借款人是否違約受借款收入的影響,顯然收入越高越具有還款能力。
違約風險預測模型的混淆矩陣和ROC曲線分別如圖5、圖6所示,通過計算得出模型的精確率、召回率和F1分數(shù)分別為98.32%、97.86%和98.09%,模型具有較高的準確性,訓練集、測試集中AUC值分別為0.998 5、0.998 0,AUC值越接近1,說明模型的精度越高。
3? ? ? 結(jié)? ? 論
本文運用統(tǒng)計性分析方法分析了網(wǎng)絡借貸平臺網(wǎng)貸借款人的違約特征,結(jié)合借款人的基礎信息與借款信息的18個特征變量,將是否違約作為目標變量,建立Logistic二分類模型,通過混淆矩陣、F1得分以及ROC曲線檢驗,所建立的違約風險預測模型能夠有效預測網(wǎng)貸借款人的違約風險,有助于網(wǎng)絡借貸平臺對網(wǎng)貸借款人進行貸前的風險評估,從而促進網(wǎng)絡借貸的綠色健康發(fā)展。
主要參考文獻
[1]蘇亞,成春林.P2P網(wǎng)貸借款人違約行為影響因素的實證研究[J].金融發(fā)展研究, 2017(1):70-76.
[2]丁嵐,駱品亮.基于Stacking集成策略的P2P網(wǎng)貸違約風險預警研究[J].投資研究, 2017,36(4):41-54.
[3]熊正德,劉臻煊,熊一鵬.基于有序logistic模型的互聯(lián)網(wǎng)金融客戶違約風險研究[J].系統(tǒng)工程, 2017,35(8):29-38.
[4]沈玉溪,徐浩.P2P網(wǎng)貸借款人違約風險評估——基于決策樹的研究[J].經(jīng)營與管理, 2018(9):13-15.
[5]譚中明,謝坤,彭耀鵬.基于梯度提升決策樹模型的P2P網(wǎng)貸借款人信用風險評測研究[J].軟科學, 2018,32(12):136-140.
[6]舒方媛,趙公民,武勇杰.P2P網(wǎng)貸借款人違約風險影響因素研究——基于Logistic模型的實證分析[J].湖北農(nóng)業(yè)科學,2019,58(4):103-107,119.
[7]黃建瓊,郭文龍,陳曉峰.基于支持向量機的網(wǎng)貸借款人違約風險評估[J].科技和產(chǎn)業(yè), 2020,20(4):40-44.