李杰+方衛(wèi)東
【摘要】隨著大數(shù)據(jù)概念的提出,企業(yè)和個人越來越重視數(shù)據(jù)中隱藏的潛在價值。為準(zhǔn)確評價P2P網(wǎng)絡(luò)貸款平臺借款人的信譽度,本文利用因子分析方法從22個自變量中濃縮出8個“共同因子”,建立信用評價指標(biāo)體系,并利用Logistic模型對借款人行為進(jìn)行預(yù)測。這種個人信用評價指標(biāo)體系的篩選保留了大量的信息量,并利用Logistic模型給出了用戶違約概率。
【關(guān)鍵詞】P2P網(wǎng)貸 因子分析 評估指標(biāo)體系 Logistic分析
一、引言
從硅谷到北京,大數(shù)據(jù)的話題正在被傳播。如今,一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代正在開啟[1]。眾多企業(yè)正面臨著海量的管理數(shù)據(jù),越來越關(guān)注如何從海量的數(shù)據(jù)中挖掘提煉出對企業(yè)有效的決策支持信息,提高企業(yè)的生存能力和企業(yè)的發(fā)展速度。某種程度上,數(shù)據(jù)就是企業(yè)最珍貴的財富。而數(shù)據(jù)財富的轉(zhuǎn)化需要一種能夠?qū)⒋罅繑?shù)據(jù)智能化地轉(zhuǎn)化為有價值的信息的技術(shù),以達(dá)到為人們提供決策服務(wù)的目的。隨著計算機(jī)技術(shù)和統(tǒng)計分析方法的發(fā)展,量化分析已經(jīng)成為各個學(xué)科領(lǐng)域中廣泛應(yīng)用的技術(shù)方法。根據(jù)國際權(quán)威高德納咨詢公司的調(diào)查分析報告顯示,數(shù)據(jù)挖掘技術(shù)將是今后幾年全世界范圍內(nèi)重點加大投資研究的十大新興高科技技術(shù)之一,它已經(jīng)引起了學(xué)術(shù)界和工商界的重點關(guān)注,是當(dāng)今數(shù)據(jù)庫系統(tǒng)開發(fā)、研究和應(yīng)用領(lǐng)域的一個熱點技術(shù)[2]。
自2007年國外網(wǎng)絡(luò)貸款平臺模式引入中國以來,國內(nèi)P2P網(wǎng)絡(luò)借貸平臺如雨后春筍般蓬勃發(fā)展。這一模式為很多無法從銀行或其他信貸機(jī)構(gòu)獲取貸款的支持的個人消費者、微企業(yè)主提供了一種新的融資渠道。然而,P2P網(wǎng)貸面臨諸多風(fēng)險:個人信用風(fēng)險,平臺賬戶資金使用不當(dāng)引發(fā)經(jīng)營風(fēng)險,法律風(fēng)險等。目前我國的公民信用體系還不健全,平臺與平臺之間又缺乏聯(lián)系和溝通,各個平臺頻頻出現(xiàn)壞賬,借款人不能及時還款,造成了借款人集中違約,借款人信用風(fēng)險無疑是平臺面臨的最大風(fēng)險。如何有效地識別借款者并預(yù)測其未來的貸款償還表現(xiàn),控制其信用風(fēng)險,已成為當(dāng)前亟待解決的問題。
個人信用評估,是指通過使用科學(xué)嚴(yán)謹(jǐn)?shù)姆治龇椒?,綜合考察影響個人及其家庭的內(nèi)在和外在的主客觀環(huán)境,并對其履行各種經(jīng)濟(jì)承諾的能力進(jìn)行全面的判斷和評估。本文基于某P2P網(wǎng)絡(luò)借貸平臺的個人標(biāo)的數(shù)據(jù),綜合運用因子分析法和Logistic回歸分析法構(gòu)建P2P網(wǎng)貸平臺個人信用評估模型。從模型的預(yù)測結(jié)果看,基于Logistic回歸分析的個人信用評估模型有較高的精度,并能預(yù)判標(biāo)的數(shù)據(jù)違約概率,可控制性強(qiáng)。
二、文獻(xiàn)回顧
自2005年P(guān)2P網(wǎng)絡(luò)貸款平臺首次在英國出現(xiàn)以來,國外理論界也一直致力于對這種新型互聯(lián)網(wǎng)金融借貸模式的探討與研究。國外目前對P2P網(wǎng)貸的研究比較成熟,研究成果非常豐富。Lauri Puro[3]等(2010)通過研究P2P借貸平臺Prosper.com,提出借款人決策建議模型,幫助借款人量化其戰(zhàn)略選擇。Robert&Benjamin(2010)通過研究發(fā)現(xiàn),出借人可以通過網(wǎng)絡(luò)平臺獲取借款人的個人信譽,設(shè)法從中選取出信譽好的借款人進(jìn)行投資。這種方式可以有效緩解道德風(fēng)險,雖然要付出的成本較高,但相比傳統(tǒng)模式還是比較合適的。Durand[4](1941)首先將判別分析法用于信用評分,正式提出使用數(shù)理統(tǒng)計模型輔助消費者授信決策的觀念。William Fair & Earl Isaacs(1958)利用判別分析法建立了著名的FICO信用評分系統(tǒng)。Wiginton[5](1980)在信用評分模型中首次嘗試使用Logistic回歸方法,并與判別分析法進(jìn)行比較。由于Logistic方法前提假設(shè)條件少,并且對變量沒有正態(tài)性假設(shè)的要求,應(yīng)用廣泛,常用來做信用評分模型,延續(xù)至今。
我國社會信用體系建設(shè)經(jīng)歷了三個階段:起步階段、初步發(fā)展階段、加速發(fā)展階段現(xiàn)在已經(jīng)進(jìn)入全面推進(jìn)社會信用體系建設(shè)的加速發(fā)展階段。但與美國相比我國的信用體系尚不完善,P2P網(wǎng)絡(luò)貸款的研究起步也較晚。對P2P網(wǎng)貸的研究一開始停留在對網(wǎng)貸的介紹,營運模式比較等方面。辛憲[6](2009)通過對國外典型P2P網(wǎng)貸平臺的運營模式進(jìn)行研究,將P2P企業(yè)運營模式歸納為:非盈利公益型(Kiva)、單純中介型(Prosper)和復(fù)合中介型(Zopa、Lending Club)三類。陳初[7](2010)也對網(wǎng)貸運營模式進(jìn)行了研究,將運營模式歸納為:綜合授信(以企業(yè)網(wǎng)上行為參數(shù)為基礎(chǔ)),“P2P”網(wǎng)絡(luò)融資模式,網(wǎng)貸企業(yè)做銀行金融業(yè)務(wù)的外包服務(wù)商,為學(xué)生提供貸款。隨著信息技術(shù)的發(fā)展,近年來許多數(shù)據(jù)挖掘的新方法如神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、專家系統(tǒng)等陸續(xù)也被引入信用評分領(lǐng)域中。
三、個人信用風(fēng)險評估模型兩步走
隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)時代的到來,數(shù)據(jù)的收集變得越來越容易,收集信息越來越詳細(xì),維度也越來越高。盡管大數(shù)據(jù)給我們提供了更詳細(xì)的信息,但是維度越高,數(shù)據(jù)量越大研究所面臨的困難也越大。找一種合適的統(tǒng)計方法,在海量數(shù)據(jù)中篩選出有用的信息,降低數(shù)據(jù)維度,簡化模型,減少時間成本,成為人們關(guān)注的焦點?;诖?,本文提出個人信用評估模型兩步走的基本思路,模型建立前最重要的一步是變量降維。第一步:先對樣本數(shù)據(jù)做因子分析。因子分析是一種多變量化簡技術(shù)。目的是分解原始變量,從中歸納出潛在的“類別”,相關(guān)性較強(qiáng)的指標(biāo)歸為一類,不同類變量的相關(guān)性較低。每一類變量代表了一個“共同因子”,即一種內(nèi)在結(jié)構(gòu),因子分析就是要尋找該結(jié)構(gòu)。至于如何利用因子分析法降維,下文會詳細(xì)介紹。第二步:利用機(jī)器學(xué)習(xí)領(lǐng)域的Logistic回歸分析將第一步降維后的“共同因子”進(jìn)行回歸分析,建立預(yù)測“好”、“壞”借款人的模型[8]。不直接使用Logistic回歸分析的原因是:一是樣本數(shù)據(jù)變量較多,數(shù)據(jù)量大;二是變量之間可能會存在多重共線性。通過第一步的因子分析降維,提高運行效率和模型結(jié)果的擬合準(zhǔn)確度。
四、實證研究
(一)數(shù)據(jù)與變量情況
本文數(shù)據(jù)來源于數(shù)多多(DataDuoDuo.com)數(shù)據(jù)交易平臺,購買的數(shù)據(jù)包包含翼龍貸網(wǎng)站記錄的自2013年3月到2015年1月的借款人交易數(shù)據(jù),共包含47718個觀測,該樣本數(shù)據(jù)存在嚴(yán)重的錯登漏登問題,對樣本數(shù)據(jù)初步處理,剩余有效觀測個案為25589個,其中11286個為“好”客戶,14303個為“壞客戶”。樣本數(shù)據(jù)中包含的特征變量44個,可用于建模的變量23個,對變量做以下編碼[9],如表1。
(二)變量降維
本文在翼龍貸樣本數(shù)據(jù)上使用spss22.0來進(jìn)行數(shù)值實驗。因變量為是否違約,因子分析選入22個自變量,表2記錄了因子分析的KMO和巴特利特檢驗。
從KMO和巴特利特檢驗結(jié)果來看,樣本數(shù)據(jù)中變量之間存在較強(qiáng)的多重共線性,所以樣本數(shù)據(jù)適合做因子分析降維。因子分析根據(jù)計算出來的特征根,選取特征根大于1的9個“共同因子”,分別為:Z1(社會特征),Z2(借還次數(shù)),Z3(借還期限),Z4(生活特征),Z5(保險),Z6(收入狀況),Z7(信用記錄),Z8(借款類型),Z9(性別)。spss軟件也給出了樣本數(shù)據(jù)的各個“共同因子”得分,保存為9個有預(yù)測能力的自變量。
(三)Logistic模型估計
二元Logistic回歸是對多元線性回歸方法的一種改進(jìn),其形式為[12]:
其中,P(y=1|X)為客戶違約的概率。利用spss22.0軟件做Logistic分析,輸入9個“共同因子”,表3記錄了Logistic分析參數(shù)估計結(jié)果。
分析輸出結(jié)果,有8個自變量的顯著性都小于0.05,通過了顯著性檢驗,F(xiàn)AC9_2因子即Z9(性別)共同因子對模型結(jié)果無顯著影響,可以將其剔除,得Logistic回歸方程為:
五、結(jié)語
隨著科技的發(fā)展,大數(shù)據(jù)時代的到來,個人信息收集會越來越容易,P2P網(wǎng)貸平臺在進(jìn)行個人評分模型的構(gòu)建時,選擇指標(biāo)的難度卻越來越大,收集的無關(guān)指標(biāo)和冗余指標(biāo)還會降低模型的預(yù)測效果,實際情況和客觀需要都對個人信用風(fēng)險評分領(lǐng)域的指標(biāo)處理方法提出了更高的要求。本文利用翼龍貸網(wǎng)站的樣本數(shù)據(jù),對個人信用評分中的數(shù)據(jù)降維方法和模型建立方法做了研究。首先將多個變量濃縮為幾個具有代表性變量,完成對變量的初步篩選?;诖耍疚慕Y(jié)合傳統(tǒng)的機(jī)器學(xué)習(xí)方法Logistic分析,進(jìn)行指標(biāo)的建模。其優(yōu)點是:可解釋性強(qiáng)、分類精度高,簡單易操作。
參考文獻(xiàn)
[1]Viktor Mayer Schonberger,Kenneth Cukier著.盛楊燕,周濤譯.大數(shù)據(jù)時代[M].浙江:浙江人民出版社,2013:16.
[2]MehmedKantardzic著.閃四清,陳茵,程雁等譯.數(shù)據(jù)挖掘——概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003:1-5.
[3]Lauri Puro Jeffrey E.Teich,Hannele Wallenius,Jyrki Wallenius,Borrower DecisionAid for People-to-People Lending.Decision Support Systems,2010:132-161.
[4]Durand D.Risk Elements in consumer Installment financing.New York:National Bureau of Economic Research,1941:60-72.
[5]Wiginton J C.A note on the comparison of logit and discriminant models ofconsumer credit behaviour.Journal of Financial and Quantitative Analysis,1980,15:757-770.
[6]辛憲.P2P運營模式探微[J].商場現(xiàn)代化,2009,7:19-22.
[7]陳初.對中國“P2P”網(wǎng)絡(luò)融資的思考[J].人民論壇,2010,9:128-129.
[8]余文建,沈益昌,杜洋.基于Logistic模型的個人信用評分體系研究[J].海南金融,2007,3:82-85.
[9]張成虎,李育林,吳鳴.基于判別分析的個人信用評分模型研究與實證分析[J].大連理工大學(xué)學(xué)報,2009,30(1):6-10.
[10]黃秋彧,史小康.個人信用風(fēng)險評分的指標(biāo)選擇研究[J].新疆財經(jīng)大學(xué)學(xué)報,2015,(3):5-15.
[11]王會娟,廖理.中國P2P網(wǎng)絡(luò)借貸平臺信用認(rèn)證機(jī)制研究——來自“人人貸”的經(jīng)驗證據(jù)[J].中國工業(yè)經(jīng)濟(jì),2014,4:136-147.
[12]向暉.個人信用評分組合模型研究與應(yīng)用[D].湖南:湖南大學(xué),2011.