賈 湖,張聞洲
(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部,天津 300072)
P2P視角下的個人信用風(fēng)險評價研究
賈 湖,張聞洲
(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部,天津 300072)
在分析P2P網(wǎng)貸征信特征的基礎(chǔ)上,建立了具有明顯行業(yè)特征的個人信用風(fēng)險評價指標(biāo)體系;使用支持向量機(jī)和GA-BP神經(jīng)網(wǎng)絡(luò)法來對個人信用風(fēng)險進(jìn)行評估。實(shí)證分析表明支持向量機(jī)有著更高的分類準(zhǔn)確率,同時也驗(yàn)證了該評價模型在實(shí)際中能較為準(zhǔn)確地得到個人信用風(fēng)險評價結(jié)果,有助于提高P2P平臺的風(fēng)險控制能力。
P2P;個人信用風(fēng)險;支持向量機(jī);GA-BP神經(jīng)網(wǎng)絡(luò)
P2P(Peer to Peer)網(wǎng)絡(luò)借貸是基于互聯(lián)網(wǎng)的一種金融模式的創(chuàng)新,在此模式下網(wǎng)貸平臺將貸款需求者與貸款提供者聯(lián)系到一起,分別實(shí)現(xiàn)了雙方的融資和理財需求,平臺在此過程中收取一定的手續(xù)費(fèi)或者利息差作為其利潤來源,比傳統(tǒng)借貸更為方便、快捷。自2005年以來,以Zopa、Lending Club、Prosper等為代表的P2P貸款模式在歐美興起,之后迅速在世界各地蔓延。2006年傳入中國后,迅速發(fā)展,截止至2015年12月,正常運(yùn)營的平臺共計2 595家,交易額約1 400億元[1]。國內(nèi)由于理財途徑的欠缺,利率市場化較為落后,個人投資者對理財有著龐大的市場需求,直接導(dǎo)致了P2P網(wǎng)貸在我國的迅猛發(fā)展。但是由于監(jiān)管問題和我國個人征信機(jī)制不完善,使得P2P平臺的壞賬率遠(yuǎn)高于傳統(tǒng)金融機(jī)構(gòu),這就要求我們對個人信用風(fēng)險重新進(jìn)行研究和評估。與傳統(tǒng)的銀行貸款相比,P2P貸款具有以下優(yōu)點(diǎn):借貸雙方準(zhǔn)入門檻較低;個性化交易合約;收益率大幅度超過銀行理財產(chǎn)品。但是這些原因也客觀上導(dǎo)致了監(jiān)管難,平臺風(fēng)險較高的問題。高風(fēng)險產(chǎn)生的壞賬率也是該行業(yè)為人所詬病的原因,所以平臺的風(fēng)險控制體系就成為其核心競爭力,而基于互聯(lián)網(wǎng)技術(shù)的數(shù)據(jù)產(chǎn)生、數(shù)據(jù)挖掘以及在此后的技術(shù)處理則是每一個風(fēng)險控制者需首要關(guān)注的問題。因此,P2P平臺如何在信息化時代準(zhǔn)確利用已知信息,識別和評價個人信用風(fēng)險、還款能力,值得繼續(xù)深入研究。
目前對個人信用風(fēng)險的研究主要分為兩部分,評價指標(biāo)體系的研究和評價方法的研究。中國建設(shè)銀行于1999年首先提出了基于信用卡的個人信用等級評定辦法,該體系賦予了三大類14個具體指標(biāo)不同權(quán)重,可以對借款人的信用狀況做出量化評價,但評價系統(tǒng)設(shè)計應(yīng)用均基于銀行系統(tǒng),并不適用于其他機(jī)構(gòu)。遲國泰等[2]將個人信用風(fēng)險評價體系分為貸款能力和還款意愿兩大類,共15個指標(biāo),并設(shè)計了負(fù)債情況等三項(xiàng)雙重影響指標(biāo),完善了個人信用風(fēng)險評價模型。陳美蓉等[3]研究了電子商務(wù)和個人信用風(fēng)險,提出了包括靜態(tài)指標(biāo)和動態(tài)追蹤指標(biāo)的評價體系,建立了基于電子商務(wù)的個人信用風(fēng)險評價方法。王楚珺等[4]研究了大數(shù)據(jù)對于P2P平臺控制風(fēng)險的重要性,提出了包括社交網(wǎng)絡(luò)狀況等基于大數(shù)據(jù)控制風(fēng)險的指標(biāo)體系。
在評價方法研究中,熊熊等[5]使用了因子分析和Logistic回歸方法分析了供應(yīng)鏈金融模式和傳統(tǒng)商業(yè)銀行模式下企業(yè)信用評級的不同,并且較為準(zhǔn)確的評價了業(yè)務(wù)的真實(shí)風(fēng)險;王振華[6]針對Hopfield神經(jīng)網(wǎng)絡(luò)的自聯(lián)想特性,提出一種新的帶有粒子群優(yōu)化過程的Hopfield分類算法(PSO-HOP)處理了分類問題,并且通過實(shí)驗(yàn)驗(yàn)證了該方法的較強(qiáng)魯棒性和分類準(zhǔn)確度;遲國泰等[7]構(gòu)建了人的全面發(fā)展綜合評價指標(biāo)體系,建立了基于支持向量機(jī)的人的全面發(fā)展評價模型,通過正交設(shè)計以及AHP法解決了缺乏訓(xùn)練樣本輸入、輸出數(shù)據(jù)情況下如何應(yīng)用支持向量機(jī)進(jìn)行回歸以得到評價結(jié)果的問題。張艷華等[8]通過文本分類實(shí)驗(yàn),驗(yàn)證了SVM法在高維空間下比傳統(tǒng)方法有更強(qiáng)的泛化能力。
BP神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),解決了模式分類與非線性映射問題。遺傳算法是一種仿照生物進(jìn)化規(guī)律而形成的隨機(jī)化搜索方法。傳統(tǒng)優(yōu)化算法BP神經(jīng)網(wǎng)絡(luò)是從單個隨機(jī)初始值開始迭代尋求最優(yōu)解的,這樣的特性導(dǎo)致它極易陷入局部最優(yōu)解,而GA從串集開始搜索,可以尋找全局最優(yōu)解。在GA優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的過程中,主要可以對神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值進(jìn)行優(yōu)化。支持向量機(jī)(SVM,support vector machine)算法基于統(tǒng)計學(xué)習(xí)理論,是一種專門研究小樣本下的機(jī)器學(xué)習(xí)理論。它避免了人工神經(jīng)網(wǎng)絡(luò)方法中的網(wǎng)絡(luò)結(jié)構(gòu)選擇、過學(xué)習(xí)、欠學(xué)習(xí)以及局部最小問題。最初, SVM主要用于解決二分類問題,后來在多分類領(lǐng)域也取得了良好的效果。
SVM算法[9]的核心思想就是在N維空間中找到一個超平面作為決策曲面,使得空間中的點(diǎn)被隔離,從而實(shí)現(xiàn)數(shù)據(jù)的分類問題。顯然,一個點(diǎn)和超平面之間的距離可以表示分類的準(zhǔn)確度,SVM就是要使這個距離最大化,分類原理見圖1。
圖1 SVM分類原理Fig.1 SVM sorting principle
在訓(xùn)練樣本(xi,yi)N中,xi是輸入樣本,yi∈〈-1,+1〉是樣本標(biāo)簽。在線性可分的情況下存在超平面可以將樣本完全分類,設(shè)用于分類的超平面方程為
其中:“·”為點(diǎn)積;w為可調(diào)節(jié)權(quán)值向量;b為偏置。
最優(yōu)超平面是使得每一類數(shù)據(jù)與超平面之間的距離最大的平面,根據(jù)式(1)可設(shè)最優(yōu)超平面方程為
求該間隔最大化問題可以轉(zhuǎn)化為解其對偶問題:
該問題可以使用lagrange乘法來解決,最優(yōu)解可表示為
對于非線性可分的樣例,我們可以將其映射到高維空間來計算,計算過程可以由上述過程推理。在計算中引入了核函數(shù),在處理分類問題中,有多種核函數(shù)可以使用,在具體計算中我們將一一試用以找到最合適的核函數(shù)。在計算非線性可分的過程中,還引進(jìn)了懲罰因子,在計算分類問題中主要有兩類,即C-SVC和V-SVC。
傳統(tǒng)銀行渠道中,個人貸款主要以車貸、房貸、裝修貸款等有抵押標(biāo)的貸款為主,純信用貸款很少,以交通銀行為例,信用貸款需要提交工作證明、收入證明等一系列材料。但是以人人貸為例,在2012年所有貸款中,約有66.7%借款的目的是資金周轉(zhuǎn),創(chuàng)業(yè)投資、個人消費(fèi)緊隨其后,分別占10.0%和7.4%[1]??梢钥闯鰝鹘y(tǒng)銀行貸款渠道沒有滿足大部分人的貸款需求,而且傳統(tǒng)銀行貸款主要考察現(xiàn)有資金償還貸款能力,其評價體系中銀行賬戶資金流水、房產(chǎn)等占據(jù)絕對權(quán)重,這不符合P2P行業(yè)借款人的實(shí)際情況。雖然在P2P借款中這些條件也很重要,但并不是必要條件,如果借款對象其他條件符合資質(zhì),仍然可以授信借款?;谝陨显?建立一個符合P2P行業(yè)的個人信用風(fēng)險評價體系對于促進(jìn)行業(yè)發(fā)展很有必要。
FICO體系是國外最知名的個人信用評分體系,主要涉及五個評價指標(biāo),分別是違約歷史(35%)、債務(wù)負(fù)擔(dān)(30%)、信用歷史(15%)、信用種類(10%)、新申請信用(10%)[10]。
國內(nèi)個人評分機(jī)構(gòu)主要是芝麻信用。其核心評價體系主要涉及五方面:身份信息(15%)、信用歷史(35%)、履約能力(20%)、人脈關(guān)系(5%)、行為偏好(25%)。而騰訊征信則主要考慮四個方面:守約指數(shù)、安全指數(shù)、財富指數(shù)、消費(fèi)指數(shù)。國內(nèi)知名P2P平臺人人貸在借款時有四項(xiàng)核心材料需要提交,分別是身份證信息、工作認(rèn)證、收入認(rèn)證和信用報告。此外人人貸還可以通過一些補(bǔ)充材料提高信用評分,包括房產(chǎn)認(rèn)證、技術(shù)職稱認(rèn)證、結(jié)婚證明、購車證明、學(xué)歷認(rèn)證、手機(jī)實(shí)名認(rèn)證和微博認(rèn)證等。
綜合上述資料,結(jié)合P2P網(wǎng)貸行業(yè)的特征,在設(shè)計指標(biāo)體系時應(yīng)當(dāng)注意以下原則:(1)征信過程簡單化,P2P行業(yè)主要采用線上征信,個人信用的評價依據(jù)很多都來源于用戶在網(wǎng)站上的注冊信息,簡單的征信過程可以提高用戶體驗(yàn);(2)需要提交的材料必須容易獲得,并且提供獲取途徑;(3)獲得的材料必須能夠充分反映客戶的信用狀況。結(jié)合以上資料,研究提出具有P2P特征的個人信用風(fēng)險評價指標(biāo)體系,如表1所列。
表1 具有P2P特征的個人信用風(fēng)險評價指標(biāo)體系Table 1 Person credit risk assessment system with P2P
研究數(shù)據(jù)來自加州大學(xué)歐文分校(University of CaliforniaIrvine)提出的用于機(jī)器學(xué)習(xí)的數(shù)據(jù)庫——UCI數(shù)據(jù)庫中的German數(shù)據(jù)集。該數(shù)據(jù)集中共包含1 000組數(shù)據(jù),其中好客戶700組,壞客戶300組。隨機(jī)抽取70組好客戶和30組壞客戶作為檢驗(yàn)?zāi)P蜏?zhǔn)確度的驗(yàn)證數(shù)據(jù)。指標(biāo)體系中與之不一致的其他數(shù)據(jù)由于無法獲得,使用隨機(jī)數(shù)據(jù)模擬而成。在檢驗(yàn)二分類模型結(jié)果時,直接使用最終數(shù)據(jù);而在三分類中,把原有好客戶再隨機(jī)分類為兩級,以檢驗(yàn)?zāi)P驮诙喾诸愊碌男Ч?/p>
模型計算過程如下:
首先是歸一化數(shù)據(jù):對訓(xùn)練數(shù)據(jù)的歸一化使用了Matlab中的Premnmx函數(shù);對驗(yàn)證數(shù)據(jù)的歸一化使用Tramnmx函數(shù)。
在使用Libsvm之前首先要設(shè)置懲罰因子C,由于Libsvm只有徑向基函數(shù)的參數(shù)尋優(yōu)程序,所以使用該程序來尋找最優(yōu)的C,結(jié)果C為128。
在SVM計算中,使用了Libsvm作為Matlab程序工具箱。該工具箱的輸入語言如下:
模型建立:Model=svmtrain(train_label, train_matrix,[‘libsvm-option’]);
預(yù)測結(jié)果:[predict_label,accuracy]=svmpredict(test_label,test_matrix,model),
其中不同核函數(shù)可以導(dǎo)致不同的預(yù)測精度,具體見表2。
由表2可見,核函數(shù)為linear時準(zhǔn)確度最高,為85%。此時,程序默認(rèn)的SVM模式為C-SVC,將其變?yōu)閂-SVC再次運(yùn)算,結(jié)果為83%,可以看出,使用SVM預(yù)測,結(jié)果的精度最高,可以達(dá)到85%。
表2 二分類四種核函數(shù)預(yù)測精度比較Table 2 Four kinds of kernel function prediction accurac comparison table in binary classification
在神經(jīng)網(wǎng)絡(luò)中,由于理論上三層的神經(jīng)網(wǎng)絡(luò)就足夠?qū)嵤┓诸?所以研究采用三層神經(jīng)網(wǎng)絡(luò)。經(jīng)過試驗(yàn),在隱藏層為13時,網(wǎng)絡(luò)的預(yù)測精度達(dá)到最優(yōu)。采用的學(xué)習(xí)函數(shù)為trainlm,傳遞函數(shù)為tansig。使用GA優(yōu)化下的BP神經(jīng)網(wǎng)絡(luò)見圖2,BP神經(jīng)網(wǎng)絡(luò)運(yùn)算結(jié)果見圖3。
圖2 GA-BP神經(jīng)網(wǎng)絡(luò)Fig.2 GA-BP neutral network
圖3 BP神經(jīng)網(wǎng)絡(luò)Fig.3 BP neutral network
由圖2、圖3可知,GA優(yōu)化下的BP神經(jīng)網(wǎng)絡(luò)在23次迭代以后即達(dá)到預(yù)定精度,訓(xùn)練結(jié)束;而BP神經(jīng)網(wǎng)絡(luò)在經(jīng)過55次迭代以后,訓(xùn)練結(jié)束,仍然沒有達(dá)到預(yù)定精度。用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)分別對數(shù)據(jù)進(jìn)行預(yù)測,由于神經(jīng)網(wǎng)絡(luò)初始權(quán)值不同,所以準(zhǔn)確率有所波動,研究分別記錄了五次運(yùn)行結(jié)果,取其平均值作為最終預(yù)測結(jié)果,準(zhǔn)確率如表3所列。
表3 兩種神經(jīng)網(wǎng)絡(luò)預(yù)測精度比較Table 3 Comparison of two neural network prediction accuracy table
由表3可以看出,GA-BP神經(jīng)網(wǎng)絡(luò)分類準(zhǔn)確率為79%,要高于BP神經(jīng)網(wǎng)絡(luò)的73%,這也符合我們對神經(jīng)網(wǎng)絡(luò)優(yōu)化后的預(yù)期效果;而SVM的準(zhǔn)確率為84%,明顯高于兩種神經(jīng)網(wǎng)絡(luò)方法。
在三分類問題中,使用和以上內(nèi)容相同的歸一化方法,然后利用Libsvm尋找最優(yōu)懲罰因子,C=8 192,如圖4所示,可以看出C的值很大,有過擬合的趨勢,這可能和三分類中每一類型的數(shù)據(jù)較少有關(guān)。
圖4 Libsvm-Matlab參數(shù)尋優(yōu)結(jié)果等高線Fig.4 Parameter optimization result contour map of Libsvm-Matlab
三分類中不同的核函數(shù)同樣可以導(dǎo)致不同的預(yù)測精度,具體見表4。
表4 三分類四種核函數(shù)預(yù)測精度比較Table 4 Predicting accuracy comparative sheet of three sorting and four kinds of neutral network
由表4可見,和二分類問題相同,使用Linear法作為核函數(shù)要優(yōu)于其他方法,此時SVM模式仍然為C-SVC。
在神經(jīng)網(wǎng)絡(luò)模型中,為表現(xiàn)對比,同樣采用三層神經(jīng)網(wǎng)絡(luò),其中隱含層節(jié)點(diǎn)數(shù)為13,傳輸函數(shù)為tansig,學(xué)習(xí)函數(shù)為trainlm,使用GA優(yōu)化下的BP神經(jīng)網(wǎng)絡(luò)見圖5,BP神經(jīng)網(wǎng)絡(luò)運(yùn)算結(jié)果見圖6。
圖5 GA-BP神經(jīng)網(wǎng)絡(luò)Fig.5 GA-BP neutral network
圖6 BP神經(jīng)網(wǎng)絡(luò)Fig.6 BP neutral network
由圖5、圖6可知,GA-BP神經(jīng)網(wǎng)絡(luò)在36次迭代后達(dá)到預(yù)定精度,訓(xùn)練結(jié)束;而BP神經(jīng)網(wǎng)絡(luò)在經(jīng)過58次迭代后,由于Validation checks=50而結(jié)束訓(xùn)練,未達(dá)到要求精度。同樣,我們使用了五組數(shù)據(jù),并用其平均值作為預(yù)測準(zhǔn)確率結(jié)果,見表5。
表5 兩種神經(jīng)網(wǎng)絡(luò)預(yù)測精度比較表Table 5 Predicting accuracy comparative sheet of two kind of neutral network accuracy table
由表5可以看出,BP神經(jīng)網(wǎng)絡(luò)和GA-BP神經(jīng)網(wǎng)絡(luò)在三分類問題中的分類準(zhǔn)確率幾乎相同,約為50%, SVM預(yù)測的最高準(zhǔn)確率為59%,和隨機(jī)預(yù)測的準(zhǔn)確率33%相比具備一定預(yù)測能力,但是仍然很低。神經(jīng)網(wǎng)絡(luò)的預(yù)測精度雖然比較低,但是并沒有出現(xiàn)過擬合現(xiàn)象,而SVM的最佳懲罰因子明顯較高,有過擬合趨勢。由于樣本數(shù)據(jù)中含有部分隨機(jī)數(shù),而且三分類樣本是用二分類樣本產(chǎn)生的,也產(chǎn)生了一些誤差,客觀上影響了結(jié)果的準(zhǔn)確率。
如今,已有一些信用評價機(jī)構(gòu)在商業(yè)模型開始試用SVM,并且取得良好效果。我們使用BP神經(jīng)網(wǎng)絡(luò)、GA-BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)三種方法分別對個人信用風(fēng)險中二分類和三分類問題進(jìn)行研究,可以看出SVM明顯要比兩種神經(jīng)網(wǎng)絡(luò)的方法準(zhǔn)確率高,有更強(qiáng)的學(xué)習(xí)能力。此外神經(jīng)網(wǎng)絡(luò)的方法在三分類問題中都存在精度較低的現(xiàn)象,然而在具體P2P網(wǎng)貸平臺的應(yīng)用中,作為一種高度個性化的交易平臺,客觀上需要將個人信用分為很多級,每一個級別對應(yīng)不同的融資利率,所以在目前信用風(fēng)險評級飛速發(fā)展的情況下,如何在多分類問題中提高模型的準(zhǔn)確率是進(jìn)一步研究的主要方向。
[1] 李鈞.中國P2P借貸服務(wù)行業(yè)白皮書2015[M].北京:中國經(jīng)濟(jì)出版社,2015.
[2] 遲國泰,許文,孫秀峰.個人信用卡信用風(fēng)險評價體系與模型研究[J].同濟(jì)大學(xué)學(xué)報:自然科學(xué)版,2006,34(4):557-563.
[3] 陳美蓉,劉曉紅.電子商務(wù)個人信用評價分析[J].統(tǒng)計與決策, 2005,15(14):38-40.
[4] 王楚珺,劉會芳,尉麗麗.大數(shù)據(jù)在控制P2P網(wǎng)貸風(fēng)險上的應(yīng)用[J].中國商貿(mào),2015,9(3):84-86.
[5] 熊熊,馬佳,馬文杰,等.供應(yīng)鏈金融模式下的信用風(fēng)險評價[J].南開管理評論,2009,12(7):92-98.
[6] 王振華.基于Hopfield神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類[J].計算機(jī)應(yīng)用, 2011,31(S2):92-96.
[7] 遲國泰,程硯秋,李剛.基于支持向量機(jī)的人的全面發(fā)展評價模型及省份實(shí)證[J].管理工程學(xué)報,2012,26(1):98-105.
[8] 張艷華,王海涌,鄭麗英.基于支持向量機(jī)的文本分類技術(shù)研究[J].甘肅科學(xué)學(xué)報,2006,18(3):72-74.
[9] Chang C C,Lin C J.LIBSVM:A Library for Support Vector Machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm,2011.
[10] 姜琳.美國FICO評分系統(tǒng)述評[J].商業(yè)研究,2006,25(20):81-83.
Study on Personal Credit Risk Assessment from P2P Perspective
Jia Hu,Zhang Wenzhou
(College of Management and Economics,Tianjin University,Tianjin300072,China)
On basis of analyzing P2P internet loan credit investigation,personal credit risk assessment index system with obvious industry characteristics has been built;this text uses vector machine and GA-BP neural network method to assess personal credit risk,the empirical analysis shows that supporting vector machine has higher sorting accuracy and verifies that this assessment model in practical can get accurate personal credit risk assessment result and contributes to improving anti-risk ability of P2P.
P2P;Personal credit risk;Support vector machine;GA-BP neural network
F832.479
:A
:1004-0366(2016)05-0130-06
2016-03-07;
:2016-05-09.
賈湖(1963-),男,天津薊縣人,博士,副教授,研究方向?yàn)楣こ探?jīng)濟(jì)、項(xiàng)目管理、項(xiàng)目評價.E-mail:jh4374@iju.edu.cn.
張聞洲.E-mail:zwz_tju@126.com.
Jia Hu,Zhang Wenzhou.Study on Personal Credit Risk Assessment from P2P Perspective[J].Journal of Gansu Sciences,2016,28(5):130-134,147.[賈湖,張聞洲.P2P視角下的個人信用風(fēng)險評價研究[J].甘肅科學(xué)學(xué)報,2016,28(5):130-134,147.]
10.16468/j.cnkii.ssn1004-0366.2016.05.028.