韓 穎
(銅陵學(xué)院新校區(qū),安徽 銅陵 244061)
P2P網(wǎng)絡(luò)借貸(簡稱“P2P網(wǎng)貸”)又稱為互聯(lián)網(wǎng)金融點(diǎn)對點(diǎn)借貸,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,傳統(tǒng)金融業(yè)與互聯(lián)網(wǎng)相互融合,形成了新的行業(yè)——互聯(lián)網(wǎng)金融,而P2P網(wǎng)絡(luò)借貸則是互聯(lián)網(wǎng)金融的一個重要的組成部分,P2P網(wǎng)絡(luò)借貸平臺,是P2P借貸與網(wǎng)絡(luò)借貸相結(jié)合的互聯(lián)網(wǎng)金融(ITFIN)服務(wù)網(wǎng)站,P2P借貸是英文peer to peer lending的簡寫,其中peer指的是個人.近幾年來,P2P網(wǎng)貸平臺大量涌現(xiàn),同時(shí)也伴隨著巨大的風(fēng)險(xiǎn),為了了解P2P網(wǎng)絡(luò)借貸借款人的信用風(fēng)險(xiǎn),本文通過建立二元Logistic回歸模型分析影響借款人借款行為的影響因素,從而可以減小借款違約率,降低借款人的信用風(fēng)險(xiǎn),同時(shí)為能夠建立一個能使客戶放心的、安全的、高效的交易平臺提供決策依據(jù),使P2P網(wǎng)貸行業(yè)得到健康地發(fā)展,為客戶提供更優(yōu)質(zhì)的服務(wù).
當(dāng)回歸模型里的被解釋變量為二分類變量時(shí),二元Logistic回歸模型[1]是研究被解釋變量與解釋變量之間關(guān)系的常用方法,本文中將被解釋變量分為正常借款人(沒有違約)和非正常的借款人(違約客戶),這正是一個二分類問題,二元Logistic回歸模型能很好地解決此類問題.二元Logistic回歸模型里解釋變量可以是分類變量,也可以是數(shù)值型變量,此模型的核心思想是:假設(shè)用y表示借款人申請貸款這一事件,取值為1時(shí)表示借款人沒有正常還款(違約),取值為0時(shí)表示借款人正常還款(履約),用1和0作為被解釋變量的取值進(jìn)行回歸[3].本文通過建立二元Logistic回歸模型得到借款人發(fā)生違約的可能性,即因變量取值為1的概率,所以回歸模型結(jié)果具有直觀含義.
本文采用的分析數(shù)據(jù)來自P2P網(wǎng)貸公司(青蚨普惠)關(guān)于借款人信息數(shù)據(jù),它全面記錄了每一個借款人的信息資料,由于部分?jǐn)?shù)據(jù)缺失,并且本文里重點(diǎn)對P2P網(wǎng)貸平臺里安徽省借款人的信用進(jìn)行信用評價(jià),本文選取了安徽省5個地區(qū)的借款人的177條信息,這5個地區(qū)分別為合肥、安慶、馬鞍山、阜陽和蚌埠.迄今為止,正常的借款人(沒有違約)人數(shù)為120位,非正常的借款人(違約)人數(shù)為57位.
其中,借款人的信息資料里包括借款人的姓名、性別、年齡、借款人所在地區(qū)、借款人電話號碼、開戶銀行、銀行賬號、身份證號、工作性質(zhì)、有無住房、婚姻狀況、借款合同金額、借款期數(shù)、借款利率、期供(每期還款額)、產(chǎn)品類型、客戶狀態(tài)、合同編號、客戶經(jīng)理和戶口所在地等信息.
由于客戶資料的隱私性,這些借款人信息資料只是內(nèi)部資料,沒有公開,但是資料信息較為全面,可以將以此數(shù)據(jù)資料作為數(shù)據(jù)分析的來源,分析我國(特別是安徽?。┠壳癙2P網(wǎng)貸平臺的現(xiàn)狀以及風(fēng)險(xiǎn),具有很好的現(xiàn)實(shí)指導(dǎo)意義.
在建立回歸模型前,要對數(shù)據(jù)進(jìn)行整理,同時(shí)還需要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,數(shù)據(jù)整理是為了確保模型建立的有效性,將原始數(shù)據(jù)里與借款人個人信用風(fēng)險(xiǎn)評價(jià)體系沒有關(guān)系的數(shù)據(jù)去掉,例如將借款人姓名、合同編號、借款人電話號碼、開戶銀行、銀行賬號、身份證號、客戶經(jīng)理、戶口所在地等這些數(shù)據(jù)信息刪除.數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)按照同一種方法、同一種模式將里面存在不規(guī)范的數(shù)據(jù)進(jìn)行轉(zhuǎn)換.
指標(biāo)的選取對模型的建立相當(dāng)重要,特別是自變量的選取.通過閱讀大量文獻(xiàn)[5]并結(jié)合P2P網(wǎng)貸平臺客戶資料的特點(diǎn),從借款人基本信息、借款狀況、財(cái)務(wù)信息等方面,確定了下列借款人4個方面的信息指標(biāo)作為借款人信用風(fēng)險(xiǎn)評價(jià)的備選指標(biāo).
2.3.1借款人基本信息
借款人自身的信息,包括性別、年齡、婚姻狀況、借款人所在地,這些信息為借款人的基本信息資料,獲取這些數(shù)據(jù)資料的難度不大,同時(shí)通過基本信息資料能夠了解借款人的基本償還債務(wù)的能力,此類指標(biāo)對借款人是否有違約風(fēng)險(xiǎn)有一定的影響作用.
2.3.2借款人職業(yè)信息
借款人職業(yè)相關(guān)的信息,包括所屬行業(yè)、工作年限.
2.3.3借款人固定資產(chǎn)信息
主要指借款人住房性質(zhì)(有無自有住房),根據(jù)此類信息可以掌握借款人的固定資產(chǎn)狀況.
2.3.4借款產(chǎn)品信息
借款產(chǎn)品信息包括產(chǎn)品類型、借款期限、借款合同金額、月還本息、借款利率,這些指標(biāo)對借款人是否有違約風(fēng)險(xiǎn)影響作用很大.
通過以上的分析,表1給出了借款人信用風(fēng)險(xiǎn)評價(jià)備選指標(biāo)表,包括一級指標(biāo)和二級指標(biāo).
表1 借款人信用風(fēng)險(xiǎn)評價(jià)備選指標(biāo)表
從借款人信用風(fēng)險(xiǎn)評價(jià)備選指標(biāo)表中可以看到,其中的備選指標(biāo)有12個,解釋變量指標(biāo)比較多,有些指標(biāo)間存在著很強(qiáng)的相關(guān)關(guān)系,例如借款金額與月還本息這兩項(xiàng)指標(biāo)具有明顯的正相關(guān)關(guān)系,一般借款金額越大,月還本息就越大,如果我們將這兩個指標(biāo)同時(shí)都引到回歸模型里會造成多重共線性的后果.如果模型里的解釋變量之間存在多重共線性,會對Wald統(tǒng)計(jì)量產(chǎn)生影響,進(jìn)而影響模型的參數(shù)估計(jì)及預(yù)測效果.因此應(yīng)消除多重共線性,
對于可能產(chǎn)生的多重共線性本文采用VIF(方差膨脹因子)進(jìn)行檢驗(yàn),VIF越大,顯示共線性越嚴(yán)重.一般認(rèn)為當(dāng)VIF值>10時(shí),存在較強(qiáng)的多重共線性,通過共線性的檢驗(yàn),除去月還本息(x11)和工作年限(x12)這兩個變量,保留在模型里有10個變量.
對應(yīng)的10個解釋變量的取值情況如表2所示,其中的解釋變量包括數(shù)值型變量和分類型變量,下表為10個解釋變量和被解釋變量(y)的具體取值信息.
表2 變量分類取值表
首先得出樣本數(shù)據(jù)及變量的描述性統(tǒng)計(jì)量的基本信息,如表3和表4所示.
表3 樣本數(shù)據(jù)說明表
表4 樣本描述性統(tǒng)計(jì)量表
表3顯示本文的有效樣本量為177個,其中,違約的借款人有57人,沒有發(fā)生違約的借款人有120人,同時(shí),表4給出了變量的簡單描述性統(tǒng)計(jì)量,篩選后的10個變量的均值和標(biāo)準(zhǔn)差,發(fā)生違約與不發(fā)生違約的借款人對應(yīng)的變量的均值和標(biāo)準(zhǔn)差相差不大.
對二元Logistic回歸方程進(jìn)行檢驗(yàn)包括回歸方程的顯著性、回歸系數(shù)的顯著性檢驗(yàn)、回歸方程的擬合優(yōu)度檢驗(yàn).
3.1.1回歸方程的顯著性檢驗(yàn)
3.1.2回歸系數(shù)的顯著性檢驗(yàn)
3.1.3回歸方程的擬合優(yōu)度檢驗(yàn)
在logit回歸模型里,對于模型的擬合程度的好壞,可以從兩個方面來考察,第一:回歸方程能夠解釋被解釋變量變差的程度,第二,由回歸方程計(jì)算出的預(yù)測值與實(shí)際值之間吻合的程度,即方程錯判率的高低.常見的指標(biāo)有:1)Cox&Snell R2統(tǒng)計(jì)量;2)Nagelkerke R2統(tǒng)計(jì)量;3)混淆矩陣;4)HL 檢驗(yàn).
本文用y表示借款人借款這一事件,取值為1時(shí)表示借款人沒有正常還款(違約),取值為0時(shí)表示借款人正常還款(履行合約),用1和0作為被解釋變量的取值建立回歸模型,得到模型系數(shù)的綜合檢驗(yàn)如表5所示.
表5 模型系數(shù)的綜合檢驗(yàn)[4]
從表5中可知,本步所選變量均進(jìn)入方程,似然比卡方檢驗(yàn)的觀測值為17.360,概率p值為0.002,如果顯著性水平為0.05,此時(shí)p值遠(yuǎn)遠(yuǎn)小于顯著性水平,應(yīng)拒絕所有回歸系數(shù)同時(shí)為0的原假設(shè),認(rèn)為所有回歸系數(shù)不同時(shí)為0,解釋變量整體與logit P之間的線性關(guān)系顯著,因此采用該模型合理.
表6 模型匯總
表6顯示了當(dāng)前模型的擬合程度優(yōu)劣的指標(biāo),-2倍的對數(shù)似然函數(shù)值越小則模型的擬合優(yōu)度越高,同時(shí),Nagelkerke R2為 0.561,可以看出,模型的擬合程度較好.
通過在SPSS統(tǒng)計(jì)軟件里選擇向后逐步進(jìn)入法建立二元回歸模型,經(jīng)過十步回歸,最終保留在模型里的解釋變量為年齡(X2)、工作性質(zhì)(X4)、借款人所在地(X5)、合同金額(X7)和借款利率(X9).結(jié)果如表7所示.
從Logit回歸方程中可以看出,留在模型里的5個指標(biāo)是:年齡、工作性質(zhì)、借款人所在地、合同金額和借款利率.這5個指標(biāo)對模型具有顯著的影響作用,對評價(jià)借款人信用風(fēng)險(xiǎn)起著關(guān)鍵性的作用.其中:借款人的年齡越大,其違約的可能性越低,信用風(fēng)險(xiǎn)就越?。唤杩钊说墓ぷ餍再|(zhì)里職位越高,其違約的概率越小,風(fēng)險(xiǎn)越低;借款人所在地經(jīng)濟(jì)越發(fā)達(dá),違約的概率就越小,風(fēng)險(xiǎn)越低,借款人的借款合同金額越大,違約的概率越大,風(fēng)險(xiǎn)越高,借款人的借款利率越大,違約的概率越大,風(fēng)險(xiǎn)越高,同時(shí),Exp(B)值代表自變量對因變量的影響程度,取值越大,說明違約的概率就越高,從回歸模型可知,年齡、借款人的工作性質(zhì)、借款人所在地對因變量影響較大,而借款合同金額、借款利率對因變量的影響效果相對而言較小.
表7 方程中的變量
表8 分類表
表8顯示了Logit回歸初始階段的混淆矩陣[6],120人沒有逾期且模型預(yù)測正確,正確率為100%,57個人逾期了但模型均預(yù)測錯誤,正確率為0%,模型總的預(yù)測正確率為67.8%,效果不是很理想.
從表9的結(jié)果可以看出,當(dāng)所選擇的指標(biāo)作為方程的解釋變量時(shí),模型對于沒有逾期的分類準(zhǔn)確率為90.8%,對于逾期的分類準(zhǔn)確率為42.1%,模型總的分類準(zhǔn)確率達(dá)到75.1%.這個結(jié)果比之前沒有解釋變量進(jìn)入模型時(shí)準(zhǔn)確率要提高很多,因此二元Logit模型評價(jià)效果較好.
表9 分類表a
(1)借款人的年齡、工作性質(zhì)、借款人所在地、借款合同金額、借款利率對借款人的違約率有顯著的影響;(2)從回歸模型可知,在影響因素里,年齡、借款人的工作性質(zhì)、借款人所在地對因變量影響較大,而借款合同金融、利率對因變量的影響效果相對較小.(3)當(dāng)所選擇的指標(biāo)作為方程的解釋變量時(shí),模型總的分類準(zhǔn)確率達(dá)到75.1%,比之前沒有解釋變量進(jìn)入模型時(shí)的分類準(zhǔn)確率要提高很多,二元Logit模型評價(jià)效果較好.
因此,本文認(rèn)為,對于借款人而言,不要一次性借高數(shù)額的貸款,這樣違約的風(fēng)險(xiǎn)就大,對于監(jiān)管部門而言,應(yīng)該實(shí)現(xiàn)大數(shù)據(jù)資源共享,逐步完善個人征信體系[7],能夠充分讀取到借款人的個人信息,從而降低借款人信用風(fēng)險(xiǎn).
參考文獻(xiàn):
〔1〕薛薇.SPSS統(tǒng)計(jì)分析方法及應(yīng)用[M].北京:電子工業(yè)出版社,2013.212-229.
〔2〕袁羽.基于Logistic回歸的P2P網(wǎng)絡(luò)貸款信用風(fēng)險(xiǎn)度量[J].上海社會科學(xué)院,2014(04):32-36.
〔3〕董梁,虎明雅.基于Logistic回歸模型的P2P網(wǎng)貸平臺新進(jìn)借款人信用風(fēng)險(xiǎn)研究[J].江蘇科技大學(xué)學(xué)報(bào)(社會科學(xué)版),2016(9):3-5.
〔4〕溫小霓,武小娟.P2P網(wǎng)絡(luò)借貸成功率影響因素分析——以拍拍貸為例[J].金融論壇,2014(3):1-2.
〔5〕王夢佳.基于Logistic回歸模型的P2P網(wǎng)貸平臺借款人信用風(fēng)險(xiǎn)評估[J].北京外國語大學(xué),2015(6):13-16.
〔6〕汪莉.基于Logistic回歸模型的中小企業(yè)信用評分研究[J].合肥工業(yè)大學(xué),2008(4):30-35.
〔7〕杜永紅,石買紅,史慧敏.大數(shù)據(jù)環(huán)境下P2P網(wǎng)貸平臺的風(fēng)險(xiǎn)防范與評估 [J].會計(jì)之友,2016(22).
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2018年3期