余華銀,雷雅慧
(安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,安徽 蚌埠 233000)
基于決策樹與Logistic回歸的P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)評價(jià)比較分析
余華銀,雷雅慧
(安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,安徽 蚌埠 233000)
P2P網(wǎng)貸行業(yè)在中國發(fā)展迅速,其背后的風(fēng)險(xiǎn)不容忽視。文章旨在研究P2P網(wǎng)貸平臺(tái)存在的信用風(fēng)險(xiǎn),參考銀行對中小企業(yè)的信用風(fēng)險(xiǎn)評價(jià)方法以及國內(nèi)相關(guān)文獻(xiàn)的評價(jià)指標(biāo),構(gòu)建了P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)評價(jià)指標(biāo)體系。運(yùn)用兩種決策樹模型和Logistic回歸對529家網(wǎng)貸平臺(tái)進(jìn)行了實(shí)證分析,建立了網(wǎng)貸平臺(tái)的信用風(fēng)險(xiǎn)評價(jià)模型。結(jié)果表明,3種模型都具有較好的信用風(fēng)險(xiǎn)預(yù)測能力,其中決策樹的預(yù)測能力更優(yōu),具有更好的應(yīng)用前景。
P2P網(wǎng)貸平臺(tái);決策樹;Logistic;信用風(fēng)險(xiǎn)
長期以來,我國中小企業(yè)和個(gè)人貸款難度高、大眾小額理財(cái)?shù)男枨罅看螅谶@種背景下,近年來P2P網(wǎng)貸的優(yōu)勢日益突出,在國內(nèi)得到了迅速發(fā)展。P2P網(wǎng)貸融入互聯(lián)網(wǎng)技術(shù),給民間借貸帶來了新思維,受到了借貸雙方的普遍歡迎,成為互聯(lián)網(wǎng)金融領(lǐng)域的代表模式之一。然而,我國投資者普遍風(fēng)險(xiǎn)意識較弱、投資缺乏理性,很容易被網(wǎng)貸華麗的“包裝”所迷惑。近些年,P2P在國內(nèi)日益蓬勃發(fā)展,看似欣欣向榮的表象下,其潛在的風(fēng)險(xiǎn)也日益顯現(xiàn)。2016年,全年出現(xiàn)因經(jīng)營不善、攜款跑路、黑客攻擊等原因使網(wǎng)站無法正常運(yùn)營而停業(yè)的平臺(tái)就有一千余家??梢姡脚_(tái)的信用風(fēng)險(xiǎn)是投資者甄選平臺(tái)的重要依據(jù),因此,選用恰當(dāng)?shù)姆椒▽ζ脚_(tái)進(jìn)行信用風(fēng)險(xiǎn)評價(jià)是網(wǎng)貸領(lǐng)域研究的焦點(diǎn)。
國內(nèi)外學(xué)者以網(wǎng)貸平臺(tái)真實(shí)數(shù)據(jù)為基礎(chǔ),對信用風(fēng)險(xiǎn)領(lǐng)域展開了研究。孫同陽和謝朝陽從網(wǎng)貸個(gè)人信用風(fēng)險(xiǎn)角度,運(yùn)用決策樹模型進(jìn)行實(shí)證分析,發(fā)現(xiàn)網(wǎng)貸平臺(tái)對個(gè)人信用風(fēng)險(xiǎn)評級方面存在嚴(yán)重問題[1]。王丹和張洪潮參考了傳統(tǒng)金融機(jī)構(gòu)對小微企業(yè)信用評價(jià)方法,運(yùn)用AHP和模糊數(shù)學(xué)綜合評價(jià)法對網(wǎng)貸平臺(tái)進(jìn)行了信用評級[2]。嚴(yán)復(fù)雷和李浩然利用Logit模型對87家網(wǎng)貸平臺(tái)進(jìn)行回歸分析,得出了對網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)有著重要影響的指標(biāo)[3]。潘爽和魏建國運(yùn)用信號傳遞模型探索了分散網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)的有效方式[4]。董梁和胡明雅對新進(jìn)的借款人進(jìn)行研究,以借款人年齡、借款用途、收入等指標(biāo)為依據(jù),運(yùn)用Logistic回歸模型建立了信用風(fēng)險(xiǎn)評價(jià)模型。實(shí)證分析結(jié)果表明,擴(kuò)大評價(jià)指標(biāo)類型和加大對平臺(tái)的審核力度是防范借款人信用風(fēng)險(xiǎn)的有效方法[5]。Laura等人對P2P借款者在貸款時(shí)的描述性語言展開了研究,并使用LIWC軟件對20萬余個(gè)借款請求進(jìn)行了分析。借款請求中,借款者使用具體的描述性語言和定量的詞匯更容易借到貸款;而借款請求中使用個(gè)性化描述語言的借款者較難借到貸款。Chen和Han認(rèn)為,中國和美國兩個(gè)國家信貸結(jié)果的影響因素存在差異,美國影響因素側(cè)重于“硬”信息,而“軟”信息在中國更為可靠。本文以P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)評價(jià)為出發(fā)點(diǎn),比較不同的分類模型在信用風(fēng)險(xiǎn)評價(jià)應(yīng)用中的優(yōu)劣,以期為評價(jià)我國P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)提供理論支持。
1.1 決策樹模型
決策樹的外形呈樹狀結(jié)構(gòu),是利用樣本數(shù)據(jù)的屬性進(jìn)行分類的方法。決策樹算法有眾多思想來源,其中,Quinlan于1986年率先發(fā)明了ID3算法,之后在ID3算法的基礎(chǔ)上分別于1984年和1993年衍生出C4.5算法和CART算法。文章選取C4.5算法和CART算法對樣本數(shù)據(jù)進(jìn)行分類。
CART的基本算法如下:
(1)輸入訓(xùn)練樣本集T,根據(jù)樣本節(jié)點(diǎn)對B=b的判斷為“yes”或“no”,將訓(xùn)練樣本集分為T1和T2,運(yùn)用Gini系數(shù)的定義式,計(jì)算B=b時(shí)的Gini系數(shù)。
(2)選取Gini系數(shù)最小的特征和其對應(yīng)的分割點(diǎn),分別作為最優(yōu)特征和最優(yōu)分割點(diǎn)。根據(jù)樣本數(shù)據(jù)集中的最優(yōu)屬性特征與最優(yōu)分割點(diǎn),在現(xiàn)有的結(jié)點(diǎn)中生成兩個(gè)子節(jié)點(diǎn),將訓(xùn)練樣本數(shù)據(jù)集依照屬性特征分配到兩個(gè)新的子節(jié)點(diǎn)中。
C4.5的基本算法如下:
(1)輸入訓(xùn)練樣本數(shù)據(jù)集T、閾值β和特征集B。若訓(xùn)練樣本數(shù)據(jù)T中所有樣本都屬于同一個(gè)類別,則決策樹F生成為單個(gè)節(jié)點(diǎn)的決策樹,返回決策樹F。
(2)若B為空集,則F為單個(gè)節(jié)點(diǎn)的決策樹,返回F;若B為非空集,則計(jì)算特征集B中的特征對T的信息增益比gR(T,B),選擇gR(T,B)最大的特征Bg。
(3)若Bg的信息增益比比β小,那么F為單個(gè)節(jié)點(diǎn)的樹,把T中樣本數(shù)最多的類作為節(jié)點(diǎn)的類。否則,對與Bg的所有可能值bi,根據(jù)Bg=bi的原則將F分成若干個(gè)非空子集Ti,對Ti中樣本數(shù)最多的類做標(biāo)記,生成子節(jié)點(diǎn),構(gòu)建決策樹F,返回F。
(4)遞歸調(diào)用(1)~(3)步驟,對于第i個(gè)節(jié)點(diǎn),特征集為B-{Bg},訓(xùn)練集為Ti,生成子樹Fi,返回Fi。
1.2 Logistic回歸模型
2.1 數(shù)據(jù)來源與處理
本文用于實(shí)證分析的數(shù)據(jù)來源于國泰安數(shù)據(jù)庫,選取2015年12月至2016年12月數(shù)據(jù)相對完整的529家網(wǎng)貸平臺(tái)數(shù)據(jù)。將獲得的樣本數(shù)據(jù)分為兩個(gè)類別,分別為高風(fēng)險(xiǎn)平臺(tái)和低風(fēng)險(xiǎn)平臺(tái)。將出現(xiàn)跑路、停業(yè)、提現(xiàn)困難等問題的平臺(tái)歸為一類,即高風(fēng)險(xiǎn)平臺(tái);將截至2017年1月尚未出現(xiàn)問題的平臺(tái)歸為一類,即低風(fēng)險(xiǎn)平臺(tái)。若評價(jià)結(jié)果將高風(fēng)險(xiǎn)平臺(tái)歸為低風(fēng)險(xiǎn)平臺(tái),則認(rèn)為結(jié)果存在第一類錯(cuò)誤;若評價(jià)結(jié)果將低風(fēng)險(xiǎn)平臺(tái)歸為高風(fēng)險(xiǎn)平臺(tái),則認(rèn)為結(jié)果存在第二類錯(cuò)誤。樣本數(shù)據(jù)中有55家網(wǎng)貸平臺(tái)被定義為高風(fēng)險(xiǎn)平臺(tái),474家網(wǎng)貸平臺(tái)被定義為低風(fēng)險(xiǎn)平臺(tái)。其中,高風(fēng)險(xiǎn)平臺(tái)僅占樣本總數(shù)的10%,存在嚴(yán)重的樣本不平衡的問題。因此,在將樣本數(shù)據(jù)代入模型運(yùn)算前,使用SMOTE算法平衡樣本數(shù)據(jù),經(jīng)過平衡的樣本數(shù)據(jù)總數(shù)為886,高風(fēng)險(xiǎn)平臺(tái)與低風(fēng)險(xiǎn)平臺(tái)占總平臺(tái)數(shù)量的比例大致相同。
2.2 指標(biāo)體系
現(xiàn)階段,網(wǎng)貸平臺(tái)的信用評價(jià)沒有統(tǒng)一的指標(biāo)體系,相關(guān)文獻(xiàn)不全,評級難度較大。因此,筆者借鑒了銀行對中小企業(yè)的信用風(fēng)險(xiǎn)評價(jià)方法以及國內(nèi)相關(guān)文獻(xiàn)的評價(jià)指標(biāo),基于前人的研究經(jīng)驗(yàn),從經(jīng)營能力、發(fā)展前景、平臺(tái)素質(zhì)、盈利能力4個(gè)方面構(gòu)建了P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)評級指標(biāo)體系。
(1)經(jīng)營能力指標(biāo)。判斷平臺(tái)的各類資產(chǎn)是否能夠快速變現(xiàn)的能力,運(yùn)營能力越好,平臺(tái)資金的流動(dòng)性越強(qiáng),風(fēng)險(xiǎn)越低。平臺(tái)若不能快速得到足夠的資金以支付投資者的本息,資金鏈一旦斷裂,會(huì)出現(xiàn)嚴(yán)重的“擠兌”現(xiàn)象。選擇未來60日待還金額(X1)、日均投資人數(shù)(X2)、日均借款人數(shù)(X3)對網(wǎng)貸平臺(tái)的經(jīng)營能力進(jìn)行衡量。
(2)發(fā)展前景指標(biāo)。平臺(tái)的發(fā)展能力值得關(guān)注,該項(xiàng)指標(biāo)越大,說明平臺(tái)的潛力越大,發(fā)展前景越廣,在未來的同類行業(yè)競爭中優(yōu)勢會(huì)更多,相應(yīng)的信用風(fēng)險(xiǎn)也更小。衡量平臺(tái)發(fā)展前景的指標(biāo)有日均成交量(X4)、平均借款期限(X5)、平均利率(X6)。
(3)償債能力指標(biāo)。平臺(tái)的償債能力是平臺(tái)信用的保障,平臺(tái)的償債能力通常是直接反映平臺(tái)資信的依據(jù),償債能力也是平臺(tái)實(shí)力的體現(xiàn)。選擇注冊資金(X7)、保障方式(X8)、債權(quán)轉(zhuǎn)讓(X9)來衡量平臺(tái)的償債能力。
(4)盈利能力指標(biāo)。該項(xiàng)指標(biāo)主要衡量平臺(tái)的獲利情況,獲利能力是平臺(tái)信用的基礎(chǔ)。由于平臺(tái)具體的獲利數(shù)據(jù)很難獲得,可以用平臺(tái)近30日資金凈流入(X10)、累計(jì)待還金額(X11)、營業(yè)時(shí)間(X12)來衡量網(wǎng)貸平臺(tái)的盈利能力。
2.3 模型構(gòu)建
將樣本數(shù)據(jù)經(jīng)過預(yù)處理后,代入到3個(gè)模型中分別進(jìn)行運(yùn)算。同時(shí),使用10折交叉驗(yàn)證的方法,分別計(jì)算決策樹模型和logistic回歸在訓(xùn)練集和測試集上的第一類錯(cuò)誤率、第二類錯(cuò)誤率和平均分類錯(cuò)誤率。其中,生成的決策樹如圖1所示。
圖1 基于CART算法的決策樹模型
CP值為0.011的CART算法的決策樹如圖1所示,其中,X10屬性是決策樹的根節(jié)點(diǎn),即近30日資金凈流入對平臺(tái)信用風(fēng)險(xiǎn)分類的貢獻(xiàn)程度是最大的。最終,基于CART算法的決策樹由6個(gè)最優(yōu)屬性構(gòu)成,對應(yīng)6條分類規(guī)則,例如:①近30日資金凈流入大于等于110的平臺(tái)均為低風(fēng)險(xiǎn)平臺(tái);②營業(yè)時(shí)間小于3的平臺(tái)均為高風(fēng)險(xiǎn)平臺(tái);③平均借款期限大于3.1的平臺(tái)均為低風(fēng)險(xiǎn)平臺(tái)。其他結(jié)論以此類推。
2.4 結(jié)果分析
將經(jīng)過處理的樣本數(shù)據(jù)代入3種模型進(jìn)行運(yùn)算,將運(yùn)算結(jié)果整理匯總?cè)绫?所示。從實(shí)證結(jié)果來看,3種模型都具有較好的預(yù)測能力。比較而言,C4.5決策樹和CART決策樹總體分類的錯(cuò)誤率較低,表明決策樹模型在P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)評價(jià)方面具有較好的應(yīng)用前景。同時(shí),從表1可看出,CART決策樹模型的準(zhǔn)確率為80%,C4.5決策樹模型的準(zhǔn)確率為77%,明顯優(yōu)于logistic回歸的69%的準(zhǔn)確率。
表1 運(yùn)算結(jié)果匯總
根據(jù)評價(jià)結(jié)果, 對3種模型的魯棒性進(jìn)行比較分析。在訓(xùn)練樣本中CART模型的總誤判率最低,僅為10%;C4.5模型總誤判率為20%;Logistic的總誤判率最高,為29%。相比訓(xùn)練樣本,3種模型在測試樣本的總誤判率都有不同程度的提高,提高比例最低的是Logistic回歸,提高了2%;其次是C4.5模型,提高了3%;最高的是CART模型,提高了10%。這說明Logistic回歸模型的魯棒性最強(qiáng),CART模型和C4.5模型的魯棒性相對較弱,但保持了較低水平,能夠滿足實(shí)際運(yùn)用的需求。最終,運(yùn)用兩種決策樹模型和Logistic回歸對P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)進(jìn)行了建模和預(yù)測,預(yù)測總體結(jié)果較好。并將兩種決策樹模型與Logistic回歸的評價(jià)結(jié)果進(jìn)行比較,得出決策樹模型在P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)評價(jià)方面具有更好的應(yīng)用前景。
我國目前尚未形成完善的個(gè)人征信體系,網(wǎng)貸行業(yè)難以從線上直接獲得個(gè)人信用數(shù)據(jù),僅依靠線下審核的方式,不僅成本高、周期長,而且能夠識別風(fēng)險(xiǎn)的概率也令人擔(dān)憂。因此,建議有關(guān)部門盡快建立完善的征信體系,對網(wǎng)貸平臺(tái)提供開放的信息服務(wù),為網(wǎng)貸平臺(tái)的長遠(yuǎn)發(fā)展創(chuàng)造條件。同時(shí),提醒投資者高度警惕不法平臺(tái)的虛假宣傳,切勿盲目追逐高收益率,應(yīng)綜合考量網(wǎng)貸平臺(tái)風(fēng)險(xiǎn)后謹(jǐn)慎投資。
[1] 孫同陽,謝朝陽.基于決策樹的P2P網(wǎng)貸信用風(fēng)險(xiǎn)評價(jià)[J]. 商業(yè)經(jīng)濟(jì)研究,2015(2):81-82.
[2] 王丹,張洪潮.P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)評級模型構(gòu)建[J]. 財(cái)會(huì)月刊,2016(9):76-80.
[3] 嚴(yán)復(fù)雷,李浩然.P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)影響因素分析[J]. 西南金融,2016(10):13-17.
[4] 潘爽,魏建國. P2P網(wǎng)貸平臺(tái)的信用風(fēng)險(xiǎn)及其分散機(jī)制設(shè)計(jì):基于信號傳遞模型[J]. 財(cái)會(huì)月刊,2017(11):88-91.
[5] 董梁,胡明雅. 基于Logistic回歸模型的P2P網(wǎng)貸平臺(tái)新進(jìn)借款人信用風(fēng)險(xiǎn)研究[J]. 江蘇科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016(3):102-108.
責(zé)任編輯:沈 玲
ComparativeAnalysisonCreditRiskEvaluationofP2PNetworkLoanPlatformBasedonDecisionTreeandLogisticRegression
YU Huayin, LEI Yahui
(Institute of Statistics and Applied Mathematics,Anhui Finance and Economics University, Bengbu 233000, China)
P2P network loan industry grows rapidly in China, and the credit risk problems of the platform are increasingly apparent. This paper aims to explore the credit risk problems of P2P network loan platform, and constructs an evaluation index system by drawing references from banks’ credit risk evaluation on small and middle-sized enterprises and evaluation indexes in domestic related literature. Empirical analysis on 529 network loan platforms is made by using the two decision tree models and Logistic regression and the credit risk model is established. The results show that the three models have strong ability to predict credit risks, and among which the effect of decision tree is superior, having better application prospect.
P2P network loan platform; decision tree; Logistic; credit risk
F830
A
1009-3907(2017)09-0013-04
2017-07-11
安徽省哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目(AHSKY2015D53);安徽財(cái)經(jīng)大學(xué)研究生科研創(chuàng)新基金項(xiàng)目(ACYC2016111)
余華銀(1962-),男,安徽全椒人,教授,主要從事金融與投資統(tǒng)計(jì)研究。