• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的P2P網(wǎng)絡(luò)借貸平臺風險評價

      2020-05-07 14:30:50崔炎炎劉立新
      統(tǒng)計與信息論壇 2020年4期
      關(guān)鍵詞:網(wǎng)貸均值樣本

      崔炎炎,劉立新

      (對外經(jīng)濟貿(mào)易大學 統(tǒng)計學院,北京 100029)

      一、引言

      世界上第一家P2P網(wǎng)絡(luò)借貸平臺(后文簡稱P2P平臺)Zopa于2005年3月在英國成立,P2P,即“Peer to Peer Lending”的縮寫,是指具有資金需求的借款人和有資金供貸出來進行投資的貸款人以互聯(lián)網(wǎng)為渠道進行雙方交易的網(wǎng)絡(luò)借貸模式。最先在國外發(fā)展起來的Zopa、Kiva、Prosper等具有各自特點的P2P平臺為全球不同地區(qū)的資金供需雙方提供了很多便利,也為全世界P2P平臺的發(fā)展構(gòu)建了基礎(chǔ)[1]。

      中國第一家P2P平臺“拍拍貸”于2007年6月在上海成立,開創(chuàng)了中國P2P行業(yè)的新紀元。隨著這種借貸模式逐漸被廣大民眾接受,中國P2P平臺的數(shù)量開始大量增加,很快便具有一定的規(guī)模。人們在適應新的借貸模式帶來的快捷與便利的同時增加了P2P借貸的需求,既給該行業(yè)帶來了商機,也使各P2P平臺間產(chǎn)生了激烈的競爭,良莠不齊的P2P平臺在一定程度上增加了該行業(yè)的風險,給投資者帶來其在發(fā)展中的諸多問題[2-3]。2015年開始,銀監(jiān)會等部委對P2P行業(yè)重點關(guān)注,出臺了一系列整治方案,2018年3月互聯(lián)網(wǎng)金融整治辦下發(fā)的《關(guān)于加大通過互聯(lián)網(wǎng)開展資金管理整治力度及其驗收工作的通知》加速了P2P行業(yè)的監(jiān)管和轉(zhuǎn)型。政策的及時跟進對很多P2P平臺起到了規(guī)范作用,在很大程度上改善了P2P行業(yè)的問題,但一直到今天,伴隨經(jīng)濟下行的壓力,P2P第三方資訊網(wǎng)站的行業(yè)報告仍顯示P2P平臺的停業(yè)及其他情況屢有發(fā)生。2019年3月,P2P平臺團貸網(wǎng)暴雷,因涉嫌非法吸收公眾存款被東莞市公安局立案偵查,給行業(yè)帶來重大的影響[4],嚴重打擊了投資者的信心。

      在目前國內(nèi)P2P平臺問題頻發(fā)、P2P行業(yè)陷入信任危機之際,有必要對P2P平臺的風險評價進行更加深入的研究。只有掌握了良好的P2P平臺風險評價體系,才能更全面、科學地判斷各P2P平臺的風險。一方面,有益于投資者更加理性地對P2P平臺進行選擇;另一方面,有助于各平臺向更加健康可持續(xù)的方向發(fā)展,從而促進中國互聯(lián)網(wǎng)金融體系的穩(wěn)定。鑒于此,本文搜集整理了中國692家P2P平臺和15萬余條網(wǎng)絡(luò)輿情的大數(shù)據(jù)資料來分析P2P平臺的風險情況,希望基于大數(shù)據(jù)資料的全面性獲得更加準確科學的結(jié)論。

      本文的主要創(chuàng)新和特點在于:首先,綜合運用了平臺本身、網(wǎng)絡(luò)輿情和P2P第三方資訊網(wǎng)站的評價信息對P2P平臺的風險情況進行判斷,在考慮數(shù)據(jù)的可獲得性和變量重要性的基礎(chǔ)上,涵蓋了較為全面的P2P平臺風險影響因素,使得P2P風險評價體系的構(gòu)建更加科學;其次,對樣本P2P平臺所應用的風險判別方法既包括傳統(tǒng)的統(tǒng)計模型還涵蓋了新興的機器學習模型,能夠顯示不同判別方法的評價效果,為進一步探究判別P2P平臺風險方法的適用性提供依據(jù)。

      二、文獻回顧

      P2P行業(yè)在中國已經(jīng)發(fā)展了十余年,以“網(wǎng)貸之家”“網(wǎng)貸天眼”為首的一些業(yè)內(nèi)P2P平臺第三方資訊網(wǎng)站為P2P網(wǎng)貸投資者提供了客觀真實的平臺數(shù)據(jù)以供投資參考,也讓很多關(guān)注P2P平臺風險的研究人員擁有易獲取的數(shù)據(jù)資料。王飛等采集了網(wǎng)貸之家的月度發(fā)展指數(shù)作為研究樣本,選擇其中的部分指標作為面板固定效應模型中的核變量,對P2P平臺信任危機下品牌信任重建效果的問題進行研究[5]。葉青等采集了網(wǎng)貸之家、網(wǎng)貸天眼的變量信息,嘗試對P2P問題平臺的初步特征進行概括,并從平臺實力、標的特征、風控能力、治理水平等方面構(gòu)建模型,以提煉能夠甄別P2P問題平臺的風險因素[6]。孫寶文等在網(wǎng)貸之家搜集到861家樣本平臺,并從平臺運營基礎(chǔ)、平臺高管背景、資金實力、平臺收益和管理費用、風險控制能力、網(wǎng)民輿情6個維度整合出14個平臺經(jīng)營特征指標,采用二元變量回歸模型分析陷入提現(xiàn)困境的P2P平臺區(qū)別于正常平臺的整體風險特征[7]。姜琪利用網(wǎng)貸之家、網(wǎng)貸天眼網(wǎng)站2014年1月至2017年11月地區(qū)、類型及代表性平臺的面板數(shù)據(jù)實證檢驗了影響中國P2P平臺成交量的因素,并運用雙重差分法來測度銀行存管對成交量的政策沖擊效應[8]。王偉等在網(wǎng)貸之家采集了54家P2P樣本平臺信息,使用改進的CRITIC法進行評價,發(fā)現(xiàn)2015年5月至2016年8月樣本平臺風險得分和風險評級均處于嚴峻的低水平狀態(tài),從而進一步歸納P2P平臺相關(guān)特征[9]。張文等利用網(wǎng)貸之家的數(shù)據(jù)實證分析了針對真實P2P平臺數(shù)據(jù)的類別分布非均衡性的問題,提出了一種基于K-Means聚類和支持向量機的非均衡分類方法[10]。朱清香等利用網(wǎng)貸之家的數(shù)據(jù)以LAPP法的4個維度為基礎(chǔ)、民營系P2P平臺風險的特點為立足點,選取了20個指標進行實證分析[11]。

      上述研究都運用了網(wǎng)貸之家或網(wǎng)貸天眼網(wǎng)站公布的數(shù)據(jù)資料,主要思路是從兩家網(wǎng)站公布的網(wǎng)貸平臺評級體系中選取部分變量,結(jié)合作者的評價思路進行再加工,從而進行網(wǎng)貸平臺的風險評價。P2P平臺第三方資訊網(wǎng)站提供的數(shù)據(jù)資料能夠代表網(wǎng)貸行業(yè)的部分信息,為構(gòu)建P2P平臺的風險評價體系提供了變量基礎(chǔ)。但也有文章沒有用到P2P平臺第三方資訊網(wǎng)站的數(shù)據(jù)資料。范超等運用國泰安數(shù)據(jù)庫在中國444家P2P平臺基本信息與交易信息基礎(chǔ)上,綜合使用了11種統(tǒng)計模型評估變量的重要性并討論其經(jīng)濟意義[12]。范超等使用的指標信息更加原始,沒有經(jīng)過P2P平臺第三方資訊網(wǎng)站的加工處理,結(jié)合評價思路進行整合,更加直觀,但在一定程度上,會有涵蓋影響P2P平臺風險因素不全面的問題。

      三、P2P平臺風險評價指標體系的構(gòu)建

      (一)指標體系的理論分析

      從已有文獻研究中發(fā)現(xiàn),直接從P2P平臺第三方資訊網(wǎng)站選取一部分風險評價指標的方法具有較強的主觀性,且這些直接被提取的指標含義往往比較綜合且復雜[注]具體可見P2P平臺第三方資訊網(wǎng)站網(wǎng)貸之家的評級指標體系的指標說明。,使得評價體系內(nèi)部指標的涵蓋關(guān)系難以確定;另外,P2P平臺第三方資訊網(wǎng)站的樣本數(shù)量確定有一定難度,有些指標變量的公開數(shù)據(jù)樣本較少[注]P2P平臺第三方資訊網(wǎng)站網(wǎng)貸之家目前只公布評級排名前100家的P2P平臺定量數(shù)據(jù)資料?;蛘邥r期較短,導致數(shù)據(jù)缺失較多,給研究造成了困擾。但是,上述缺陷不能否認P2P平臺第三方資訊網(wǎng)站信息的可靠性和其具有的參考意義,相對于定量數(shù)據(jù)的復雜性和不可獲得性,可以適當參考一些P2P平臺第三方資訊網(wǎng)站的定性以及非結(jié)構(gòu)性數(shù)據(jù)資料。于是本文構(gòu)建的P2P平臺風險評價體系中,定量指標部分主要來自國泰安CSMAR金融經(jīng)濟數(shù)據(jù)庫,定性指標和網(wǎng)絡(luò)輿情部分資料則利用手動收集或網(wǎng)絡(luò)爬蟲技術(shù)爬取于P2P平臺第三方資訊網(wǎng)站。本文借鑒相關(guān)研究并結(jié)合指標變量數(shù)據(jù)的完整性,從平臺的內(nèi)部信息和外部信息兩個維度,考慮P2P平臺的基礎(chǔ)信息、交易信息、資金信息、產(chǎn)品信息、風險防控信息和評論信息六個方面構(gòu)建了P2P平臺的風險評價體系。具體包括以下部分。

      1.基礎(chǔ)信息。判斷一家平臺的好壞,離不開對平臺自身基礎(chǔ)情況的考察。在平臺的基礎(chǔ)信息部分本文選取了4個指標變量,分別是平臺背景、注冊資本、所處地域和運營時間。平臺背景是平臺的信用背書,反映平臺的信譽程度,在所采集的平臺樣本中有國資系、民營系、上市公司系、銀行系和風投系五類平臺背景,為了數(shù)據(jù)處理方便,將這五類平臺背景分別用1,2,3,4,5表示;所處地域是指平臺所屬的省級行政劃分區(qū)域,根據(jù)劃分標準[注]由全國人大六屆四次會議通過的“七五”計劃和1997年、2000年的政策變動可知,中國東部地區(qū)包括11個省級行政區(qū),分別是北京、天津、河北、遼寧、上海、江蘇、浙江、福建、山東、廣東和海南;中部地區(qū)有8個省級行政區(qū),分別是山西、吉林、黑龍江、安徽、江西、河南、湖北、湖南;西部地區(qū)包括的省級行政區(qū)共12個,分別是四川、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆、廣西、內(nèi)蒙古。(臺灣、香港和澳門除外)。將中國省份劃分成東部地區(qū)、中部地區(qū)和西部地區(qū),并用1,2,3表示;運營時間指的是平臺正常運營時間(單位:天)。非問題平臺的運營時間是平臺從創(chuàng)立開始到本文數(shù)據(jù)采集時間截止的運營天數(shù),問題平臺的運營時間是平臺從創(chuàng)立開始到問題發(fā)生時間截止的運營天數(shù)。

      2.交易信息。交易信息能夠反映一家平臺的過往交易狀況,對選擇平臺投資的投資者來說具有重要意義。在平臺交易信息部分,本文采集了2015年9月27日至2019年2月26日以天為頻率的數(shù)據(jù)共1 182天,由于每家平臺成立時間不同,數(shù)據(jù)時間序列不一致,因此對數(shù)據(jù)進行了均值處理,得到了平均成交量(萬元)、平均投資人數(shù)(人)、平均借款期限(月)、平均借款人數(shù)(人)和平均借款集中度5個指標變量。其中,平均借款集中度屬于加工指標,即借款人數(shù)與出借人數(shù)比值的均值,該數(shù)值越高說明平臺投資越分散,平臺風險越低。

      3.資金信息。這里的平臺資金信息,指的是平臺在業(yè)務(wù)經(jīng)營上的資金信息,能夠看到平臺的業(yè)務(wù)經(jīng)營狀態(tài),包括3個指標變量[注]平均未來60日待還金額、平均累計待還金額和平均近30日資金凈流入的數(shù)據(jù)區(qū)間以及數(shù)據(jù)處理方法同平臺交易信息部分的均值處理指標。。一是平均未來60日待還金額(萬元),該指標越高反映平臺的兌付壓力越大;二是平均累計待還金額(萬元),平均累計待還金額是指平臺未還款項目的資金總額均值,與平均未來60日待還金額指標不同的是,平均累計待還金額指標沒有還款期限的迫切要求,更多的是反映一家平臺被使用的廣泛程度;三是平均近30日資金凈流入(萬元),平均近30日資金凈流入是指30日內(nèi)所有投標金額減去所有還款金額(按本金計算)的均值,對于分析平臺人氣和規(guī)模變化情況有一定的作用。

      4.產(chǎn)品信息。產(chǎn)品是平臺的核心競爭力,平臺產(chǎn)品信息能夠反映平臺的產(chǎn)品標的狀況,對于判斷平臺質(zhì)量有重要作用。本文用以下4個指標變量進行表征。首先是平臺產(chǎn)品的平均利率[注]平均利率的數(shù)據(jù)區(qū)間及數(shù)據(jù)處理方法同交易信息部分的均值處理指標。,是數(shù)據(jù)采集區(qū)間內(nèi)平均值處理后的結(jié)果。一般認為,借款人違約風險越高,利率水平越高,平臺就越有風險[13];其次是業(yè)務(wù)類型數(shù)目,業(yè)務(wù)類型數(shù)目是指平臺所開展的借貸業(yè)務(wù)種類的數(shù)目,一般認為平臺所擁有的業(yè)務(wù)種類越多說明平臺風險越低[6];第三是自動投標,自動投標是指平臺是否允許選擇自動投標,屬于分類變量,包括不支持、支持和無公開信息三類,分別用1,2,3表示;最后是債權(quán)轉(zhuǎn)讓,債權(quán)轉(zhuǎn)讓是指債權(quán)人通過訂立債權(quán)轉(zhuǎn)讓合同將債權(quán)的全部或部分轉(zhuǎn)移給第三人,這里的債權(quán)轉(zhuǎn)讓指標是債權(quán)轉(zhuǎn)讓的時間描述,包括不可轉(zhuǎn)讓、有期限限制(幾個月不等)、隨時以及無公開信息四類,分別用1,2,3,4表示。

      5.風險防控信息。風險防控信息是指平臺為保障投資者資金安全和平臺自我整頓所采取的主要措施,良好的風險防控能有效提高平臺應對風險的能力[14],對識別問題平臺具有重要作用,共選取7個指標變量進行表征。

      具體而言,資金存管是指平臺選擇通過銀行或第三方機構(gòu)管理投資者的資金,做到資金和交易分開從而避免資金被挪用的風險防控措施。風險準備金就P2P行業(yè)而言,是指P2P平臺在借款成交時提取一定比例資金存入所建立的獨立賬戶,當該項目逾期時啟動賬戶資金先行賠付投資人本息的風險防控方式。資金存管、風險準備金和投資門檻指標在樣本平臺中都包括有和無兩類,都分別用1和0表示。

      資金保障模式是指P2P平臺承諾的保障平臺資金安全的方法。所采集的樣本中共包括自擔保模式、第三方擔保模式、混合擔保模式、無擔保模式、其他擔保模式以及無公開信息六種類型,分別用1~6進行表示;業(yè)務(wù)投標保障指的是對平臺的業(yè)務(wù)進行擔保,包括實物抵押擔保、第三方機構(gòu)擔保、風險準備金擔保、混合模式擔保、VIP擔保、其他方式擔保、無擔保和無公開信息八種類型,分別用1~8進行表示。

      擔保機構(gòu)是指為P2P平臺提供擔保服務(wù)的機構(gòu)。為了吸引投資者,有的P2P平臺聲稱有擔保方式卻不公布擔保機構(gòu),因為一些擔保公司根本就沒有能力對債務(wù)進行擔保,因此對于合作擔保機構(gòu)的信息披露也應涵蓋在考察范圍內(nèi)[15]。擔保機構(gòu)指標在樣本平臺中包括有擔保機構(gòu)披露和沒有擔保機構(gòu)披露兩類,分別用1和0表示;平臺信息公開程度是指所能獲得的平臺公開信息的程度,具體包括公開的自動投標、債權(quán)轉(zhuǎn)讓、風險準備金、保障模式、投標保障和擔保機構(gòu)定性信息的個數(shù),數(shù)目越多說明信息公開程度越大。

      6.評論信息。平臺的評論信息包括兩部分,一是簡單的打分信息,直接從網(wǎng)貸之家網(wǎng)站爬取計算可得,共涵蓋六個指標變量;二是文本信息,需要進行文本挖掘得到情感得分信息。

      打分信息部分。平臺的打分信息包括六個指標變量,分別是提現(xiàn)得分、體驗得分、站崗得分、服務(wù)得分、被關(guān)注程度和用戶推薦程度。其中,在P2P行業(yè)中的資金站崗通常存在兩種可能,一是投資人信任平臺,將資金經(jīng)第三方支付工具充值給了平臺賬戶,但平臺沒有及時將資金投出從而造成資金閑置的情況。二是投資人投資平臺某借款標的,但標的遲遲不能滿標,資金在不能滿標的借款標的中空置的情況。本文打分信息部分的站崗得分就是針對上述兩種情況對平臺的打分,判斷上述兩種情況發(fā)生的狀況;被關(guān)注程度由網(wǎng)貸之家網(wǎng)站的平臺評論數(shù)目做代理變量,認為評論數(shù)目越多,平臺就越受關(guān)注;用戶推薦程度是由網(wǎng)貸之家網(wǎng)站平臺的網(wǎng)友推薦數(shù)目與評論數(shù)目的比值,比值越大說明用戶推薦程度越高。

      文本信息部分。應用Python軟件爬取了P2P第三方資訊網(wǎng)站網(wǎng)貸之家中樣本平臺的所有評論內(nèi)容(共計151 376條評論數(shù)據(jù)),并對樣本平臺的所有評論進行了情感分析[注]本文文本挖掘應用python工具包snownlp完成,詳情可查詢工具包介紹。,得到每家平臺的用戶評論情感得分指標。

      (二)風險評價指標體系

      根據(jù)指標體系的理論分析,本文構(gòu)建了包括P2P平臺內(nèi)部信息和外部信息2個一級指標、6個二級指標、30個三級指標的P2P平臺風險評價體系,以判別不同P2P平臺的風險情況。為了使評價體系具有可參考性,評價體系中指標的數(shù)據(jù)資料均是在P2P平臺公開信息中提取而來,能夠在長期進行數(shù)據(jù)跟蹤;另外,指標體系同時兼顧了定量指標和定性指標,還結(jié)合研究對象的特點,引入了網(wǎng)絡(luò)輿情的評論信息指標,以求對判別P2P平臺的風險情況進行更加全面的分析。具體如表1所示。

      表1 P2P平臺風險評價體系

      四、風險評價實證分析

      (一)基于大數(shù)據(jù)背景下風險評價方法的選擇

      基于構(gòu)建的P2P平臺風險評價體系對P2P平臺的風險判別模型進行實證分析。文獻資料顯示現(xiàn)有的風險評價方法可以分為兩類,一類是較為傳統(tǒng)的統(tǒng)計模型,另一類則是新興的機器學習模型。借鑒范超等選取的模型,本文選擇Logistic回歸和樸素貝葉斯模型作為傳統(tǒng)模型的代表,而支持向量機(SVM)和隨機森林模型作為機器學習模型的代表[12]。下面對這四種模型的優(yōu)缺點進行介紹。

      1.Logistic回歸模型

      Logistic回歸模型是常用的二分類模型之一,對解決現(xiàn)實生活中因變量是離散的兩類決策問題具有優(yōu)勢性。就本文來看,因變量的選擇有“問題平臺”和“正常平臺”兩類。在模型變量方面,該模型對變量服從的分布沒有要求,適用性較強。另外,該模型能很好地解決非線性問題,被認為是分析被解釋變量是離散變量時某事件發(fā)生概率與解釋變量之間關(guān)系的主流分析方法[16]。模型經(jīng)過logit變換后的基本形式為:

      (1)

      其中,x1,x2,…,xn為解釋變量。實際操作中通常需要對進入該模型的數(shù)據(jù)進行標準化處理,然后將這些標準化后的數(shù)據(jù)轉(zhuǎn)化成相對應的結(jié)構(gòu)化后的數(shù)值,加以簡單的回歸計算后進而判斷所屬的類別。logistic回歸模型的計算方式簡單易理解,但是對自變量之間的多重共線性比較敏感,而且模型容易出現(xiàn)欠擬合情況,所以在分類精度方面可能不理想。

      2.樸素貝葉斯模型

      樸素貝葉斯是一種有監(jiān)督的學習算法,也常被用于解決實際問題中的分類問題,在模型實證之前一般需要對數(shù)據(jù)進行歸一化處理。

      在思想上,樸素貝葉斯模型源于貝葉斯理論,該理論選擇對數(shù)據(jù)點計算后的結(jié)果中具有最高概率的進行判斷決策,即假如用p1(x,y)表示數(shù)據(jù)點(x,y)屬于類別1的概率,用p2(x,y)表示數(shù)據(jù)點(x,y)屬于類別2的概率,那么對于新的數(shù)據(jù)點(x,y)來說,如果p1(x,y)>p2(x,y),那么新的數(shù)據(jù)點(x,y)就被判斷為屬于類別1;反之,如果p1(x,y)

      樸素貝葉斯模型,簡而言之,就是通過事件的先驗概率由貝葉斯理論計算出后驗概率,從而對最大的后驗概率進行所屬類別的判斷。該模型對條件概率分布做出條件獨立性的假設(shè),簡化了計算過程,因此被稱為“樸素”貝葉斯。具體判斷過程如下:假設(shè)分類結(jié)果包括c1,c2,…,cn共計n類,而ck(1≤k≤n)表示其中具體的某一類,每個樣本的屬性由一個n維特征向量X={x1,x2,…xn}表示,則計算屬性條件下的后驗概率公式為:

      (2)

      其中,p(X)由于不依賴于分類可以被當作是常數(shù),那么求解上式的最大值問題就變成求解p(X|ck)·p(ck)的最大值問題,對于每一個分類c1,c2,…,cn都經(jīng)過同樣計算后,未知樣本被判斷為ci類的條件是當且僅當:

      p(X|ci)·p(ci)>p(X|ck)·p(ck)

      1≤i,k≤n;i≠k

      (3)

      經(jīng)過上述過程可以看到,樸素貝葉斯模型的算法邏輯簡單易懂,能夠為很多分類問題提供較為清晰的解釋性。且該模型對樣本數(shù)量的要求不嚴苛,方法的學習效率較高,具有較為廣泛的適用性。但是該模型的缺點也很明顯,即其對條件概率分布中條件相互獨立性的假設(shè),這在實際數(shù)據(jù)中往往會有無法滿足該假設(shè)的情況,從而會對分類結(jié)果的準確性造成一定程度的影響[17]。

      3.支持向量機(SVM)模型

      支持向量機(SVM)模型是近些年常被討論的分類算法模型之一,優(yōu)秀的泛化能力使其在非線性識別問題中表現(xiàn)出較強的優(yōu)勢。其目標函數(shù)和約束條件如下:

      (4)

      s.t.yi(ωTφ(xi)+b)≥1-εi

      其中,i=1,2,…,l;εi(εi≥0)為松弛變量,C(C>0)為懲罰系數(shù),φ(x)為非線性映射函數(shù),b為偏移,ω為權(quán)重向量,yi為研究問題所對應的分類類別。在非線性問題中還會進一步由拉格朗日函數(shù)對偶化上式,將核函數(shù)進行引入從而得到最終的決策函數(shù)如下:

      (5)

      其中,αi為樣本對應的拉格朗日乘子,K(xi,xj)為模型所選擇的核函數(shù)。

      實際操作中需要在眾多核函數(shù)中對所研究問題適用的核函數(shù)進行選擇,并結(jié)合超參數(shù)的調(diào)優(yōu)找到適用于所研究問題的具體參數(shù)結(jié)構(gòu)。在模型結(jié)果判斷過程中,所應用的SVM模型分類器是一個超平面f(x)=ωx-b=0,若f(x)>0則該點屬于類1,若f(x)<0則該點屬于類-1,而SVM模型的最優(yōu)分割使得這兩類中的點到超平面的距離最大化[18]。

      SVM模型對高維數(shù)據(jù)和低維數(shù)據(jù)都能進行良好的學習,因此被廣泛應用于解決實際問題分類的研究中。但是該模型對解決多分類問題和大規(guī)模數(shù)據(jù)樣本問題存在一定的困難,需要進一步改進。本文在實證部分應用Python軟件sklearn包中的SVC函數(shù)對P2P平臺進行風險判別,在分析之前對數(shù)據(jù)進行了標準化處理。

      4.隨機森林模型

      隨機森林模型也是一種有監(jiān)督的算法模型,該模型由眾多分類樹組成,其結(jié)果由眾多分類樹預測結(jié)果匯總進而投票的方式而來。具體而言,該模型首先利用Bootstrap方法有放回地隨機抽取n個樣本,然后建立單棵樹的具有最佳分類特征作為節(jié)點的決策樹模型。重復上述過程k次,則形成了由k棵決策樹組成的隨機森林模型,對于每棵決策樹而言都有其對研究對象所屬類別的判斷結(jié)果,最終隨機森林會將多數(shù)決策樹的判定結(jié)果作為隨機森林模型的結(jié)果進行匯報。

      隨機森林模型集合了眾多決策樹的結(jié)果,屬于一種集成算法。相較于傳統(tǒng)單棵樹的決策,該模型讓多棵樹參與決策,并選出支持率最高的分類結(jié)果,使得模型在運算量沒有顯著增加的前提下提高了預測精度[19],且隨機森林模型實現(xiàn)簡單、抗過擬合能力強,因此被廣泛應用于分類問題的研究。但是隨機森林模型的解釋性不太強,當模型中的單棵決策樹過多時還會使訓練時間過長,需要斟酌單棵決策樹的個數(shù)。應用此模型時,本文利用Python軟件sklearn包中的RandomForestRegressor函數(shù)進行風險判別,并對隨機森林模型中單棵決策樹的數(shù)量、單棵決策樹的深度等超參數(shù)進行了調(diào)優(yōu)。

      下面具體應用上述四種模型進行實證,并對所研究問題的不同評價結(jié)果進行對比分析。

      (二)數(shù)據(jù)來源及說明

      數(shù)據(jù)資料來源于國泰安CSMAR金融經(jīng)濟數(shù)據(jù)庫和P2P平臺第三方資訊網(wǎng)站:網(wǎng)貸之家和網(wǎng)貸天眼。限于數(shù)據(jù)可得性,本文從國泰安數(shù)據(jù)庫整理得到1 027家P2P平臺2015年9月27日至2019年2月26日共1 182天完整的511 568條成交數(shù)據(jù)、25 080條平臺信息數(shù)據(jù)和70 356條平臺產(chǎn)品信息數(shù)據(jù)。經(jīng)過與網(wǎng)貸之家網(wǎng)站、網(wǎng)貸天眼網(wǎng)站公開的P2P平臺數(shù)據(jù)進行匹配,發(fā)現(xiàn)共有692家相同的P2P平臺信息可供采集。于是本文手動收集了網(wǎng)貸之家網(wǎng)站692家各P2P網(wǎng)貸平臺的資金存管、風險準備金、保障模式、投標保障、擔保機構(gòu)信息以及網(wǎng)貸天眼網(wǎng)站問題平臺問題事件發(fā)生時間的數(shù)據(jù)。最后使用python軟件利用網(wǎng)絡(luò)爬蟲技術(shù)從網(wǎng)貸之家網(wǎng)站獲取了692家各P2P平臺打分信息、評論信息的網(wǎng)絡(luò)輿情資料。

      根據(jù)國泰安數(shù)據(jù)庫和網(wǎng)貸之家網(wǎng)站的平臺信息,將數(shù)據(jù)資料中顯示的出現(xiàn)跑路、停業(yè)、提現(xiàn)困難、經(jīng)偵介入、延期兌付、暫停發(fā)標、網(wǎng)站關(guān)閉、爭議的平臺標記為問題平臺,具有高風險。而其他平臺則認為截止到數(shù)據(jù)采集結(jié)束的2019年2月26日期間是沒有出現(xiàn)問題的,屬于正常平臺,具有低風險。在實證分析部分利用構(gòu)建的風險評價體系對這兩類風險平臺進行分類判別,屬于二分類的判別問題。經(jīng)過計算,在樣本的692家平臺中,共有343家問題平臺和349家正常平臺,樣本的問題平臺數(shù)量和正常平臺數(shù)量比例良好。

      (三)模型實證

      在每次實證分析時,對所應用的模型隨機分配訓練集和測試集[注]每次實證隨機抽取75%的數(shù)據(jù)樣本為訓練集,25%的數(shù)據(jù)樣本為測試集。的數(shù)據(jù)樣本,并通過10折交叉驗證和網(wǎng)格搜索的方法對模型中的超參數(shù)進行調(diào)優(yōu)。在對比不同模型的分類效果時,通常應更關(guān)注模型在測試集上的表現(xiàn),因此對測試集上的最終結(jié)果進行10次驗證,得到了平均準確率、精確率、召回率和F1-score[注]精確率、召回率和F1-score是模型準確率之外對模型進行評判的指標。其中,精確率表示預測結(jié)果為問題平臺中真實為問題平臺的比例,召回率表示真實為問題平臺中預測結(jié)果為問題平臺的比例。F1-score則是精確率和召回率的調(diào)和平均,最大值是1,最小值是0。四項對模型分類效果進行判斷的評價指標。在進行模型實證之前,對指標體系中的逆指標進行了取倒數(shù)的正向化處理,并針對不同的模型要求進行了指標數(shù)據(jù)的歸一化、標準化處理。且所應用的四種模型訓練集效果均優(yōu)于測試集,因此不存在過擬合問題。具體的測試集結(jié)果如表2所示。

      表2 模型測試集結(jié)果比較

      通過機器學習模型調(diào)參的過程,可以知道P2P平臺的風險預測分類問題屬于復雜的非線性判別問題。從上表的四個模型結(jié)果可以看到,在問題平臺精確率指標上SVM模型和樸素貝葉斯模型效果更好,能在結(jié)果中更精確的判別問題平臺;而在其他三個指標上SVM和隨機森林模型的測試集結(jié)果更好。因此,綜合來看,SVM模型對本文所研究的問題具有更強的分類判別能力。

      接著,利用10次驗證取平均的方式得到隨機森林模型中指標變量的重要性排序如表3所示。

      表3 隨機森林模型三級指標變量重要性排名

      表3列出了隨機森林模型指標變量重要性排序得到的排名前10的指標,其中資金存管是最重要的判斷指標。運營時間則是排名第二的重要指標變量,而平均利率指標的重要性位列第三。

      從評價體系二級指標的六個方面來看,把各三級指標排序的結(jié)果得分加總,得到這六個方面二級指標得分加總后的總得分,結(jié)果如表4。

      表4 評價體系二級指標重要性排名

      從表4可知,在評價體系的二級指標重要性排序中,風險防控信息排名第一,其次是評論信息,第三是交易信息,產(chǎn)品信息排名最后。在排名第一的風險防控信息中資金存管指標更是位列所有30個三級指標重要性的第一位,貼合評價體系目標,符合實際;評論信息排名第二則說明了外部信息的重要性,眾所周知,P2P平臺是依托互聯(lián)網(wǎng)為渠道進行雙方交易的方式,很多網(wǎng)絡(luò)輿情信息被廣大投資者關(guān)注、交流,能夠在主觀上反映投資者的心態(tài),客觀上披露P2P平臺的狀態(tài),值得重點關(guān)注;排名第三的交易信息則能夠反映P2P平臺的歷史交易記錄,從這些定量數(shù)據(jù)中可以看到資金的流動、變化情況,也具有一定的參考性;對于排名靠后的基礎(chǔ)信息,本文認為基礎(chǔ)信息雖然能夠反映平臺本身的狀況,但所涵蓋的指標更多地在平臺建立之初就已經(jīng)決定,變化可能性較小,對頻繁進行交易的P2P平臺而言作用不大,唯一常常產(chǎn)生變化的就是運營時間指標,也可以在表3中看到它在三級指標中的重要性很大,因此可以在基礎(chǔ)信息方面多留意P2P平臺的運營時間指標;資金信息和產(chǎn)品信息分別位列重要性排名的第五、第六位,這兩部分二級指標中能夠?qū)^(qū)分問題平臺和正常平臺具有較強解釋能力的三級指標是表3中的平均未來60日待還金額指標和平均利率指標,介于現(xiàn)在P2P平臺已經(jīng)在中國發(fā)展了十余年,它的產(chǎn)品同質(zhì)性已經(jīng)較大,所以本文認為產(chǎn)品信息并不如其他方面信息更具判斷性是合理的。另外對于資金信息,雖然都是定量數(shù)據(jù),但其中的三級指標平均累計待還金額和平均近30日資金凈流入都屬于期限較長跨度的指標,平均之后差別就不一定有其他指標差距明顯,所以對判別P2P平臺風險的重要性就不具有鮮明的貢獻,也是合理的。

      (四)重要指標的樣本差異性分析

      通過表3可以看到風險評價體系中重要性排名前10的指標,這些指標對判別問題平臺和正常平臺具有重要作用,那么這些指標在樣本的兩類平臺(問題平臺和正常平臺)之間均值的情況及差異性是怎樣的呢?是否具有顯著的差異性能夠區(qū)分兩類平臺?為了進一步探究P2P平臺風險評價重要性排名前10指標的樣本均值差異性問題,本文運用方差分析F檢驗,得到表5的均值差異性檢驗結(jié)果。為了進一步分析,本文整理了描述性統(tǒng)計結(jié)果得到表6的定量指標均值信息、表7的定性指標數(shù)據(jù)信息。

      表5 重要性排名前10指標的均值差異性檢驗結(jié)果

      注:***表示在1%的水平上顯著,下文的表8同理。

      表6 重要性排名前10定量指標的均值數(shù)據(jù)信息

      表7 重要性排名前10定性指標的數(shù)據(jù)信息

      由表5可知,樣本數(shù)據(jù)中資金存管在正常平臺和問題平臺中存在顯著均值差異,且通過表7計算樣本平臺基本數(shù)據(jù)信息可知正常平臺樣本中僅有14%的平臺不具備資金存管,而問題平臺中則有65%的平臺都不具備資金存管,再次證明了資金存管的重要性。結(jié)合表5和表6可知,樣本數(shù)據(jù)中正常平臺運營時間指標的均值顯著大于問題平臺,而正常平臺的平均利率均值則顯著小于問題平臺。

      指標變量重要性第四至第10位的指標也均在樣本數(shù)據(jù)中的兩類平臺間存在顯著的均值差異。其中,重要性排名第四的平均未來60日待還金額指標在正常平臺的均值顯著小于問題平臺,可見正常平臺的待還壓力較小,資金流動性較強。由評論信息文本挖掘得到的重要性排名第五的情感得分指標在樣本數(shù)據(jù)的正常平臺中均值為0.651,顯著大于問題平臺的0.542,從側(cè)面顯示評論中挖掘的情感信息能較為客觀的反映平臺的狀態(tài)。由表6知,樣本數(shù)據(jù)中正常平臺的被關(guān)注程度均值為295.358,顯著大于問題平臺的141.761,而正常平臺的用戶推薦程度均值0.659與問題平臺的0.485也存在顯著差別。另外,正常平臺平均借款人數(shù)、平均借款期限和服務(wù)得分均值都顯著大于問題平臺。

      綜上,隨機森林模型指標重要性排序前10的指標均值都在樣本數(shù)據(jù)中顯著區(qū)別了兩類平臺,這些指標既具有重要性又具有樣本差異性,對判別P2P正常平臺和問題平臺具有重要作用。

      由表5可知,在重要性排名前10的指標中,共有情感得分、用戶推薦程度、被關(guān)注程度和服務(wù)得分4個三級指標都屬于二級指標評論信息,可見評論信息指標的重要性。因此,進一步對評論信息二級指標下的所有三級指標進行了樣本的均值差異性檢驗,整理后得到表8的檢驗結(jié)果以及表9的均值信息。結(jié)果表明正常平臺的所有評論信息下的三級指標均值都顯著大于問題平臺,更加說明了評論信息能夠較為客觀的反映平臺狀態(tài),可見評論信息的內(nèi)容具有一定的參考性,值得投資者進行關(guān)注。

      表8 評論信息三級指標的均值差異性檢驗結(jié)果

      表9 評論信息三級指標的均值數(shù)據(jù)信息

      五、結(jié)論與建議

      本文綜合運用了平臺本身、網(wǎng)絡(luò)輿情和P2P第三方資訊網(wǎng)站的評價信息構(gòu)建了定性定量相結(jié)合的P2P平臺風險評價體系,共涵蓋2個一級指標,6個二級指標和30個三級指標。選擇Logistic回歸模型、樸素貝葉斯模型、隨機森林模型以及SVM模型對P2P平臺的風險進行判別。從4個模型的實證判別結(jié)果可以看到,在問題平臺精確率指標上SVM模型和樸素貝葉斯模型的效果更好,而在模型準確率、召回率和F1-score指標上SVM和隨機森林模型的測試集結(jié)果更好。因此,在本文所研究的P2P平臺風險評價問題中,總體而言能夠更好地區(qū)分問題平臺和正常平臺的是SVM模型,建議在對新的P2P平臺進行風險判別中應用SVM模型進行判斷。另外,由隨機森林模型得到的P2P平臺風險評價變量指標重要性排序結(jié)果顯示,在本文評價體系的三級指標中,資金存管是最重要的判別P2P平臺風險的指標,其次是運營時間,平均利率指標則位列第三。在評價體系二級指標中,風險防控信息排名第一,其次是評論信息,排名第三的為交易信息。

      通過上述研究,建議P2P平臺向資金存管方向發(fā)展。資金存管指標作為三級指標是最重要的判別P2P平臺風險的指標,且在樣本平臺中正常平臺資金存管的數(shù)量顯著大于問題平臺,說明正常平臺更傾向于進行資金存管。而資金存管所在的二級指標風險防控信息指標也是最重要的二級指標,資金存管又在其中的貢獻最大。進一步說明了加強風險防控、向資金存管方向轉(zhuǎn)變的重要性。因此,監(jiān)管方應及時督促未進行資金存管的平臺加快資金存管步伐,將資金存管納入P2P行業(yè)標準,使開展借貸業(yè)務(wù)的P2P平臺都有合規(guī)的、嚴格的資金存管渠道,而對一些未進行資金存管或資金存管不規(guī)范的P2P平臺進行限期整改。其次,運營時間作為判別P2P平臺風險三級指標中重要性排名第二的指標也應給予關(guān)注,建議投資者慎重選擇新上線的、運營時間較短的平臺,這些新平臺可能為了吸引廣大用戶而采取一些大幅度的優(yōu)惠措施欺騙投資者,使投資者遭受經(jīng)濟損失。通過樣本平臺運營時間指標的均值差異性分析可以看到,正常平臺的運營時間均值都是顯著大于問題平臺的。因此,監(jiān)管方應督促投資者優(yōu)先選擇運營時間長的平臺進行投資,不盲目追求一些新平臺提供的一時的利益。另外,三級指標平均利率作為判別P2P平臺風險重要性排名第三的指標也需要進行關(guān)注,高利率因其代表的高收益而廣受投資者青睞,但高利率是把雙刃劍,利率高的產(chǎn)品也可能成為問題平臺吸引投資者的噱頭,在樣本平臺中,問題平臺的平均利率指標均值就顯著大于正常平臺。因此,投資者需要謹慎選擇高利率產(chǎn)品,注意產(chǎn)品條款中的標的內(nèi)容要求,不單一追求高利率產(chǎn)品。監(jiān)管方則應完善行業(yè)產(chǎn)品規(guī)范,管理P2P產(chǎn)品屬性,對高利率的P2P產(chǎn)品重點監(jiān)督,進行跟蹤調(diào)查。

      評論信息在P2P平臺風險評價二級指標重要性中排名第二,且樣本數(shù)據(jù)顯示評論信息中的所有三級指標在正常平臺中的均值都顯著大于在問題平臺中的結(jié)果,說明評論信息能夠較為客觀的反映平臺的狀態(tài),鑒于這些資料也較易獲得,建議投資者多關(guān)注意向平臺網(wǎng)友的評論內(nèi)容和網(wǎng)絡(luò)輿情資料,觀察后再選擇是否進行投資,監(jiān)管方則要維護評論等輿情資料的透明以供投資者參考,嚴防平臺刷好評、控制評論等行為的發(fā)生。

      通過對隨機森林結(jié)果中重要性排名前10的指標進行均值差異性分析,可以得到正常平臺的平均借款人數(shù)、平均借款期限均值都顯著大于問題平臺,而平均未來60日待還金額均值小于問題平臺。這說明正常平臺人氣更高、資金流動性更強,且都偏向于提供期限長一些的借款標的。因此,建議投資者關(guān)注這些特征對平臺進行選擇,在平臺人氣方面,建議監(jiān)管方要求P2P平臺如實公布平臺活躍用戶數(shù)量,為廣大投資者選擇平臺提供參考,避免一些平臺造假用戶群體意圖形成用戶眾多的假象;在資金流動性方面,建議監(jiān)管方設(shè)定行業(yè)最低可流動性資金要求,一方面為不同投資者的資金需求提供一定的便利,另一方面對平臺的資金要求提供一定標準,把一些無法保證基本資金要求的平臺禁止在行業(yè)之外以防范風險;在借款期限上則建議投資者選擇更有把握的期限長度,如有可能可以選擇借款期限稍長的標的,不要貪圖短期借款標的誘惑,以防范風險。監(jiān)管方也應對P2P平臺上線產(chǎn)品的借款期限加以把控,制定出一定的行業(yè)標準進行嚴格監(jiān)督。

      猜你喜歡
      網(wǎng)貸均值樣本
      用樣本估計總體復習點撥
      P2P網(wǎng)貸中的消費者權(quán)益保護
      中國外匯(2019年10期)2019-08-27 01:58:18
      推動醫(yī)改的“直銷樣本”
      網(wǎng)貸平臺未來亟需轉(zhuǎn)型
      商周刊(2017年17期)2017-09-08 13:08:58
      網(wǎng)貸十年:迎來“去偽存真” 時代
      商周刊(2017年17期)2017-09-08 13:08:58
      隨機微分方程的樣本Lyapunov二次型估計
      均值不等式失效時的解決方法
      均值與方差在生活中的應用
      村企共贏的樣本
      中國網(wǎng)貸地圖
      青河县| 民县| 辽阳县| 岱山县| 额尔古纳市| 丘北县| 武冈市| 瑞安市| 阜平县| 齐齐哈尔市| 广平县| 卫辉市| 武夷山市| 西平县| 大姚县| 红河县| 电白县| 错那县| 屯昌县| 岐山县| 平利县| 库车县| 通河县| 兴城市| 织金县| 阳山县| 玉溪市| 濮阳市| 连江县| 涟源市| 依兰县| 许昌市| 云浮市| 乌拉特后旗| 朔州市| 平乐县| 南通市| 苍梧县| 临夏市| 宁乡县| 时尚|