韓穎 齊翔 李鑫
摘 要 在大數(shù)據(jù)背景下,P2P網(wǎng)貸快速發(fā)展,同時也伴隨著更多的風險,本文通過建立二元Logistic回歸模型對借款人借款行為進行分析,在選取的10個變量里,借款人年齡、所在地、工作性質(zhì)、合同金額對借款人借款行為影響顯著,并且,通過擬合二元Logistic回歸模型對有無逾期的借款人的分類準確率達到75.1%,說明模型擬合效果較好,最后提出相應的建議。
關(guān)鍵詞 Logistic回歸模型 借款人 逾期
中圖分類號:F830 文獻標識碼:A
隨著計算機技術(shù)的發(fā)展,傳統(tǒng)金融業(yè)與互聯(lián)網(wǎng)相融合,形成了新的行業(yè)——互聯(lián)網(wǎng)金融,而P2P網(wǎng)貸則是互聯(lián)網(wǎng)金融的一個重要的組成部分,P2P網(wǎng)貸平臺,是P2P借貸與網(wǎng)絡借貸相結(jié)合的互聯(lián)網(wǎng)金融服務網(wǎng)站,P2P借貸是英文peer to peer lending的簡寫,其中peer指的是個人。為了了解P2P網(wǎng)貸借款人的信用風險,本文通過建立二元Logistic回歸模型分析影響借款人借款行為的影響因素,從而可以減小借款違約率,降低借款人的信用風險。
1 Logistic 回歸模型
當回歸模型里被解釋變量為二分類變量時,二元Logistic 回歸模型是研究被解釋變量與解釋變量之間關(guān)系的常用方法,本文將被解釋變量分為正常借款人(沒有違約)和非正常借款人(違約),這正是一個二分類問題,二元Logistic回歸模型能很好的解決此類問題。二元Logistic回歸模型的核心思想是:假設y表示借款人申請貸款這一事件,取值為1表示借款人違約,取值為0表示借款人履約,用1和0作為被解釋變量的取值進行回歸。本文通過建立二元Logistic回歸模型得到借款人發(fā)生違約的可能性,即因變值為1的概率,所以回歸模型結(jié)果具有直觀含義。
2數(shù)據(jù)來源與指標選取
2.1數(shù)據(jù)來源
本文數(shù)據(jù)來于P2P網(wǎng)貸公司(青蚨普惠),它全面記錄了每一個借款人的信息資料,本文選取了安徽省5個地區(qū)借款人的177條信息,這5個地區(qū)分別為合肥、安慶、馬鞍山、阜陽和蚌埠。其中,正常借款人(沒有違約)人數(shù)為120,非正常借款人(違約)人數(shù)為57。
2.2指標選取
指標的選取對模型的建立相當重要,通過閱讀大量文獻并結(jié)合P2P網(wǎng)貸平臺客戶資料的特點,本文確定了借款人4個方面的指標作為借款人信用風險評價備選指標。如表1所示,其中包括一級指標和二級指標及指標的取值情況。
從表1可知,備選指標有12個,解釋變量較多,變量間可能存在著較強的相關(guān)關(guān)系,如果都引入模型會造成多重共線性的后果,因此,對于可能產(chǎn)生的多重共線性采用VIF(方差膨脹因子)進行檢驗,通過檢驗,除去月還本息(x11)和工作年限(x12)這兩個變量,保留在模型里有10個變量。
3模型分析
3.1模型檢驗
對模型的系數(shù)進行綜合檢驗,所選變量均進入方程,概率p值為0.002,小于顯著性水平,應拒絕所有回歸系數(shù)同時為0的原假設,解釋變量整體與Logit P之間的線性關(guān)系顯著,因此采用該模型合理。
3.2回歸結(jié)果分析
通過SPSS統(tǒng)計軟件里選擇向后逐步進入法建立二元Logit回歸模型,最終保留在模型里的解釋變量為年齡(X2)、工作性質(zhì)(X4)、借款人所在地(X5)、合同金額(X7)和借款利率(X9),如表3所示。
從表2可知,留在模型里的5個指標是:年齡、工作性質(zhì)、借款人所在地、合同金額和借款利率。這5個指標對模型影響顯著。其中:借款人的年齡越大,其違約的可能性越低,信用風險就越?。唤杩钊说墓ぷ餍再|(zhì)里職位越高,風險越低;借款人所在地經(jīng)濟越發(fā)達,違約的概率就越小,風險越低,借款人的借款合同金額越大,風險越高,借款人的借款利率越大,違約的概率越大,風險越高,同時,Exp (B)值代表自變量對因變量的影響程度,取值越大,說明違約的概率就越高,從上表可知,借款人年齡、工作性質(zhì)、所在地對因變量影響較大,而合同金額、借款利率對因變量的影響較小。
4模型驗證
表3顯示了Logit回歸初始階段的混淆矩陣,模型總的預測正確率為67.8%。當所選擇的指標作為方程的解釋變量時,模型總的分類準確率達到75.1%。準確率比沒有解釋變量進入模型時要高很多,因此二元Logit模型評價效果較好。
5結(jié)論與建議
(1)借款人年齡、工作性質(zhì)、所在地、合同金額、借款利率對借款人違約率影響顯著;(2)在影響因素里,借款人年齡、工作性質(zhì)、借款人所在地對因變量影響較大,而合同金融、借款利率對因變量的影響較小。(3)當所選擇的指標為方程的解釋變量時,模型總分類準確率為75.1%,比之前沒有解釋變量進入模型時要高很多,二元Logit模型評價效果較好。
因此,本文認為,對于借款人而言,不要一次性借高數(shù)額的貸款,這樣違約風險就大,對于監(jiān)管部門,應該實現(xiàn)大數(shù)據(jù)資源共享,逐步完善個人征信體系。
基金項目:銅陵學院人文社會科學研究項目。
作者簡介:韓穎(1988-),女,漢族,銅陵學院助教,碩士,主要研究方向:經(jīng)濟統(tǒng)計。
參考文獻
[1] 薛薇.SPSS統(tǒng)計分析方法及應用[M].電子工業(yè)出版社,2013:212-229.
[2] 袁羽.基于Logistic回歸的P2P網(wǎng)絡貸款信用風險度量[D].上海:上海社會科學院,2014.
[3] 董梁,虎明雅.基于Logistic回歸模型的P2P網(wǎng)貸平臺新進借款人信用風險研究[J].江蘇科技大學學報(社會科學版),2016(09):3-5.
[4] 溫小霓,武小娟. P2P網(wǎng)絡借貸成功率影響因素分析——以拍拍貸為例[J].金融論壇,2014(03):1-2.
[5] 王夢佳.基于Logistic回歸模型的P2P網(wǎng)貸平臺借款人信用風險評估[D].北京:北京外國語大學,2015.endprint