• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度循環(huán)生存分析在個人信用評估中的應(yīng)用

      2023-11-27 15:30:29李淑錦梅浩
      中國集體經(jīng)濟(jì) 2023年33期
      關(guān)鍵詞:生存分析信用風(fēng)險深度學(xué)習(xí)

      李淑錦 梅浩

      摘要:根據(jù)資金流入的特點,金融機(jī)構(gòu)同時面臨著違約和提前還款風(fēng)險。文章創(chuàng)新性地構(gòu)造了違約和提前還款實際生存時間,將深度循環(huán)生存分析模型(Deep Recurrent Survival Analysis,DRSA)用于預(yù)測個人信貸的風(fēng)險事件概率,在12個月、12~24個月以及24~36個月的時間窗口上對風(fēng)險進(jìn)行評估,并與logistic、Cox-PH、混合治愈模型進(jìn)行比較分析。實證結(jié)果顯示,DRSA模型在信用風(fēng)險評估上是有效的。相較于提前還款而言違約預(yù)測的準(zhǔn)確度更高,在三個時間窗口上分別達(dá)到97.4%、98.8%和99.8%。

      關(guān)鍵詞:生存分析;信用風(fēng)險;競爭風(fēng)險;深度學(xué)習(xí);類別不平衡;LSTM

      一、引言

      2021年12月31日,中國人民銀行發(fā)布了關(guān)于印發(fā)《金融科技發(fā)展規(guī)劃(2022-2025年)》的通知,指出應(yīng)以深化金融數(shù)據(jù)要素應(yīng)用為基礎(chǔ),秉持?jǐn)?shù)字驅(qū)動原則,應(yīng)用數(shù)字化手段不斷增強(qiáng)風(fēng)險識別監(jiān)測、分析預(yù)警能力,提升數(shù)字化營銷能力,洞察客戶行為偏好和真實金融需求。據(jù)《中華人民共和國2021年國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計公報》顯示,我國2021年全部金融機(jī)構(gòu)人民幣消費貸款余額548849億元,增加53181億元。其中,個人短期消費貸款余額93558億元,增加6080億元;個人中長期消費貸款余額455292億元,增加47101億元。隨著貸款需求和規(guī)模的日益壯大,對于金融機(jī)構(gòu)來說,如何應(yīng)用金融科技來深度挖掘借款者的金融數(shù)據(jù),預(yù)測風(fēng)險行為及其時間分布,是在新的金融形勢下把握風(fēng)險與機(jī)遇的一項重大挑戰(zhàn)。

      二、國內(nèi)外文獻(xiàn)梳理

      傳統(tǒng)的信用風(fēng)險模型旨在預(yù)測貸款到期時的違約概率,對貸款的風(fēng)險進(jìn)行評級與區(qū)分。統(tǒng)計和機(jī)器學(xué)習(xí)的二分類方法一直以來都被廣泛應(yīng)用于信貸違約預(yù)測,如Probit回歸、logistic回歸、非參數(shù)隨機(jī)森林法、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。當(dāng)前,銀行、消費金融公司、網(wǎng)絡(luò)小貸等金融機(jī)構(gòu)在原來關(guān)注違約概率的基礎(chǔ)上,提出了估計違約、提前還款風(fēng)險的發(fā)生概率與時間分布等更高要求。

      Narain(1992)最早將生存分析中的加速失效時間方法(accelerated failure time,AFT)引入違約概率建模。Banasilk et al.(1999)將指數(shù)、Weibull和Cox非參數(shù)模型的性能與logistic回歸進(jìn)行了比較,發(fā)現(xiàn)在信用評分中生存分析的預(yù)測效果優(yōu)于logistic。Farewell(1982)、Larson & Dinse(1985)、Bentzen et al.(1989)、Kuk & Chen(1992)都通過logistic-Weibull混合治愈模型將生存函數(shù)分解為事件部分與延遲部分兩類效應(yīng),事件部分刻畫了事件發(fā)生的概率,延遲部分刻畫了事件發(fā)生的時間。在信用風(fēng)險領(lǐng)域,由于違約行為會導(dǎo)致出借方損失本金和利息,普遍地被作為感興趣事件來引入研究。除此以外,提前還款也會導(dǎo)致出借方損失利息,近年來提前還款作為競爭風(fēng)險被逐漸引入到信用風(fēng)險研究中。Ren(2019)提出了深度循環(huán)生存分析模型(Deep Recurrent Survival Analysis,DRSA),研究結(jié)果顯示,DRSA的預(yù)測能力顯著優(yōu)于其他模型。

      通過梳理國內(nèi)外的文獻(xiàn),發(fā)現(xiàn)在其他研究中都是將最近一次還款日期與貸款發(fā)起日相差的月數(shù)作為貸款的生存時間,并將其表示為正常還款行為發(fā)生的次數(shù),這樣的設(shè)計并不科學(xué)。在對模型的識別能力評價方面,很多研究并沒有考慮到樣本不均衡性對概率預(yù)測的影響。

      本文試圖從以下方面進(jìn)行創(chuàng)新:一是重新定義貸款的生存時間,分別獲得違約與提前還款的實際觀測時間;二是根據(jù)競爭風(fēng)險的發(fā)生時間,將競爭風(fēng)險作為刪失數(shù)據(jù)提前排除在后續(xù)的風(fēng)險集中;三是研究引入代價敏感學(xué)習(xí)法,根據(jù)正負(fù)類樣本的比例對損失函數(shù)進(jìn)行修正。

      三、概念界定與評估方法介紹

      (一)違約與提前還款的界定

      生存時間是指個體存活至某一時刻后發(fā)生風(fēng)險的時間,將個體生存時間按先后進(jìn)行排序得到觀測序列0=t(0)<t(1)<t(2)<…t(L),觀測時間t(k)(0≦k≦L)為觀測序列中的時間點,t(L)表示最后觀測到發(fā)生風(fēng)險的時間點。將違約實際生存時間記為T1= ,提前還款實際生存時間記為T2= 。貸款的實際生存時間為T=min{T1,T2}。

      研究選用期限為36個月的分期貸款數(shù)據(jù),借款者按規(guī)定每月償還相應(yīng)利息與本金。定義風(fēng)險集合Rt為在t(0≤t≤36)時刻存在風(fēng)險的個體集合,n 為t時刻風(fēng)險集合的觀測數(shù)量,nt為t時刻因發(fā)生風(fēng)險而退出觀測的數(shù)量,可以得到n =n -nt-1。由于貸款中存在完全還款情況,因此當(dāng)T=0時,n >0,n36=0。在生存分析中,用刪失狀態(tài)變量δ來表示感興趣事件的風(fēng)險是否發(fā)生在觀測期內(nèi),若δ=0,則表示觀測數(shù)據(jù)刪失,未觀測到感興趣事件;表示觀測數(shù)據(jù)未刪失,觀測到感興趣事件。將違約作為感興趣事件,導(dǎo)致個體提前退出觀測的行為除了違約以外,還包括了提前還款,因此將提前還款作刪失處理。

      假設(shè):提前還款會同時償還剩余的全部本金與部分期數(shù)的利息,而違約只償還了部分期數(shù)的本金與利息,并且償還的本金與利息的期數(shù)相同。

      將事件刪失的時間記作C。貸款的違約狀態(tài)變量用二元離散變量來表示:Y=1表示貸款違約,Y=0表示貸款未違約。在該假設(shè)下,可以得到貸款的三種最終信用狀態(tài):

      1. 違約。T1=T2<36,Y=1,δ=1。在觀測期內(nèi)觀測到貸款發(fā)生違約。

      2. 提前還款。T2=C<T1=36,Y=0,δ=0。貸款因發(fā)生提前還款而未觀測到違約。

      3.正常還款。T1=T2=C=36,Y=0,δ=0。在觀測期內(nèi)沒有觀測到貸款發(fā)生違約或提前還款。

      需要注意的是,由于假設(shè)的限定,T1≥T2恒成立,可以將生存時間重新記為T=T2,貸款退出觀測的退出時間可以表示為 =min{C,T}。

      本文分別將在第12、24、36個月觀測貸款數(shù)據(jù)的違約情況。記Tα為實驗選定的觀測時間(12、24或36),生存模型在訓(xùn)練集和測試集上的觀測時間定義不同:在訓(xùn)練集中,已知樣本i刪失時間為Ci,生存時間記為Ti,退出觀測的退出時間可以表示為 i=min{Ci,Ti,Tα};在測試集中,由于事先不確定樣本i的還款情況,所以 i=Tα。

      (二)logistic模型

      該模型屬于二分類模型,是一種Sigmoid函數(shù),能夠?qū)⑤敵鲋缔D(zhuǎn)化為(0,1)之間的數(shù)。logistic函數(shù)的公式為:

      π(Z)= (1)

      式中,Z=[z1,z2,z3,…,zp]T表示p個與還款行為相關(guān)的特征變量組成的向量,b0為常數(shù)項,b為回歸參數(shù)的向量。根據(jù)前文設(shè)定,貸款違約的狀態(tài)變量為Y=1,不違約為Y=0,假設(shè)閾值為μ:

      =0, <μ;1, ≥μ;(2)

      若Y= ,則模型分類正確,否則分類錯誤。

      (三)Cox-PH模型

      在生存分析中,T表示個體生存時間的隨機(jī)變量,X=[x1,x2,x3,…,xq]T表示q個與還款行為相關(guān)的特征變量組成的向量。Cox比例風(fēng)險模型(Cox-PH)是廣泛應(yīng)用于生存分析的回歸模型。Cox-PH屬于半?yún)?shù)回歸模型,具有半?yún)?shù)性質(zhì),模型公式為:

      h(t,X)=h0(t)e (3)

      式中,h0(t)被稱為基準(zhǔn)風(fēng)險函數(shù),β為回歸參數(shù)的向量,指數(shù)項e 中只包含因變量X而不包含t,我們稱X為非時間依賴變量。

      (四)混合治愈模型

      模型的生存函數(shù)表達(dá)形式為:

      S(t|X,Z)=π(Z)S(t|Y=1,X)+1-π(Z)(4)

      式(4)中,S(t|X,Z)是信用貸款的全概率生存公式。π(Z)表示在給定協(xié)變量向量Z的條件下,樣本來源于非免疫子集的可能性;S(t|Y=1,X)表示在已知樣本來源于非免疫子集,在協(xié)變量向量X條件下生存時間大于t的概率。

      π(X)采用二分類模型來解釋事件發(fā)生的可能性,本文采用logistic模型。延遲部分用于解釋風(fēng)險發(fā)生在觀測時間之后的可能性,用Cox-PH來表示。模型的含義:評價對象在t時間之前未違約的概率,可以表示為它一直未發(fā)生違約的概率與在t時刻前未違約且最終會違約的概率之和。

      (五)DRSA模型

      深度循環(huán)生存分析(Deep Recurrent Survival Analysis,DRSA),采用長短期記憶網(wǎng)絡(luò)(Long Short-term Memory,LSTM)來進(jìn)行生存預(yù)測。Ren通過將生存時間離散化后進(jìn)行排序來獲得觀測時間序列,時間序列與上文表示相同。

      DRSA模型的損失函數(shù)來源:一是未刪失數(shù)據(jù)集內(nèi)的樣本在生存時間發(fā)生風(fēng)險的概率。二是未刪失數(shù)據(jù)在生存時間Ti之內(nèi)發(fā)生風(fēng)險的累積概率。三是刪失數(shù)據(jù) i在處的生存概率。因為未刪失數(shù)據(jù)滿足 i=Ti,所以可以將來源二和來源三合并得到完整數(shù)據(jù)集的損失函數(shù)。為了獲得最優(yōu)參數(shù),DRSA模型通過隨機(jī)梯度下降法來最小化損失函數(shù):

      arg minθLT+L? (5)

      四、模型建立與結(jié)果分析

      (一)數(shù)據(jù)來源與特征選取

      研究選用Lending Club借貸平臺上借款發(fā)起日期2016年6月30日至2018年9月30日貸款期限為36個月的個人借款數(shù)據(jù),借款者每月按規(guī)定償還本息,所有項目均已結(jié)項。在對原始數(shù)據(jù)進(jìn)行清洗后,共獲得403963條觀測數(shù)據(jù)。在選取特征時,首先對特征進(jìn)行相關(guān)性檢驗刪除冗余特征,之后對剩余的變量采用卡方分箱的方法進(jìn)行分箱處理,并選入Ⅳ值大于0.02的變量,最終選取了4個分類變量和20個連續(xù)變量。

      (二)建模過程

      1. 劃分?jǐn)?shù)據(jù)集

      將數(shù)據(jù)集按照7:3的比例劃分為訓(xùn)練集(282774條數(shù)據(jù))與測試集(12189條數(shù)據(jù)),按照每12個月的觀測時間窗口對數(shù)據(jù)集進(jìn)行劃分,分別在第12個月、24個月和36個月觀測前0~12個月、12~24個月和24~36個月的貸款情況。

      2.L? 平衡類別權(quán)重

      Finlay(2011)的研究顯示,對于logistic和神經(jīng)網(wǎng)絡(luò)而言,在計算損失函數(shù)時對樣本的類別施加不同權(quán)重的代價懲罰往往能得到更好的效果。代價敏感學(xué)習(xí)(Cost-Sensitive Learning)就是這樣的一類方法。本文采用了Fernández(2018)提出的直接學(xué)習(xí)方法,使用訓(xùn)練數(shù)據(jù)的類別比例來對不同類別的損失施加權(quán)重。

      weight_for_1= (6)

      weight_for_0= (7)

      total表示樣本總數(shù),pos表示違約的樣本數(shù)量,neg表示刪失的樣本數(shù)量,weight_for_1表示計算違約樣本損失函數(shù)的權(quán)重,weight_for_0表示計算刪失樣本損失函數(shù)的權(quán)重。

      根據(jù)表1可知,時間窗口為0~12個月的貸款在測試集上分類的準(zhǔn)確度得到明顯的提升。在經(jīng)過權(quán)重修正后的模型中,前三個模型對貸款違約的識別能力明顯提升,達(dá)到60%以上。DRSA模型的準(zhǔn)確度在經(jīng)過修正后達(dá)到97.23%,模型的分類能力得到明顯的提升,識別違約樣本的準(zhǔn)確度也達(dá)到77.12%,高于其他三個模型。

      (三)模型性能比較

      從AUC來看,Cox-PH和混合治愈模型并沒有改善logistic的預(yù)測能力,Cox-PH的AUC在三個時間窗口上都比logistic更低。DRSA的AUC和準(zhǔn)確度在三個時間窗口上都遠(yuǎn)高于其他三個模型,模型在信用風(fēng)險評估上是有效的。從時間上來看,前三個模型的AUC和準(zhǔn)確度都隨著觀測時間推移而下降,而DRSA模型的預(yù)測性能隨著時間推移而上升,這說明了LSTM能夠把握時間序列之間的相關(guān)性,模型在長期預(yù)測上是有效的。

      五、結(jié)語

      本文采用DRSA模型,在為期12個月的時間窗口上對三年期貸款進(jìn)行了違約預(yù)測,模型取得了較好的預(yù)測性能。本文加入了競爭風(fēng)險研究,通過定義違約和提前還款實際生存時間的方法區(qū)分兩類風(fēng)險,將感興趣事件的競爭風(fēng)險事件做了刪失處理,修正了風(fēng)險集合與預(yù)測概率。類別不平衡的數(shù)據(jù)集會導(dǎo)致模型將少數(shù)類樣本全部預(yù)測為多數(shù)類,研究采用代價敏感學(xué)習(xí)方法對損失函數(shù)中的不同類別施加了損失權(quán)重,改善了模型的分類能力。

      研究結(jié)果顯示,采用DRSA模型評估個人信用風(fēng)險是可行的,DRSA模型采用LSTM方法很好地挖掘了時間序列之間的相關(guān)性。本文的結(jié)果為金融機(jī)構(gòu)預(yù)測信用風(fēng)險帶來的啟示:一是根據(jù)DRSA模型預(yù)測貸中階段的違約水平,根據(jù)違約概率修正貸款利率,同時根據(jù)預(yù)期的貸中違約規(guī)模來預(yù)期壞賬損失。二是預(yù)測貸中階段的提前還款水平,根據(jù)提前還款的時間與規(guī)模預(yù)測借款的久期,幫助金融公司更好地匹配資產(chǎn)與負(fù)債水平。

      參考文獻(xiàn):

      [1]中國人民銀行.中國人民銀行關(guān)于印發(fā)《金融科技發(fā)展規(guī)劃(2022-2025年)》的通知[EB/OL].(2021-12-31)[2022-06-19]. http://www.china-cer.com.cn/file/pdf/金融科技發(fā)展規(guī)劃(2022-2025).pdf.

      [2]國家統(tǒng)計局.中華人民共和國2021年國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計公報[R].2022.

      [3]王會娟,廖理.中國P2P網(wǎng)絡(luò)借貸平臺信用認(rèn)證機(jī)制研究——來自“人人貸”的經(jīng)驗證據(jù)[J].中國工業(yè)經(jīng)濟(jì),2014(04):136-147.

      [4]廖理,李夢然,王正位.聰明的投資者:非完全市場化利率與風(fēng)險識別——來自P2P網(wǎng)絡(luò)借貸的證據(jù)[J].經(jīng)濟(jì)研究,2014,49(07):125-137.

      [5]方匡南,吳見彬,朱建平,等.信貸信息不對稱下的信用卡信用風(fēng)險研究[J].經(jīng)濟(jì)研究,2010,45(S1):97-107.

      [6]方匡南,章貴軍,張惠穎.基于Lasso-logistic模型的個人信用風(fēng)險預(yù)警方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2014,31(02):125-136.

      [7]郭英見,吳沖.基于信息融合的商業(yè)銀行信用風(fēng)險評估模型研究[J].金融研究,2009(01):95-106.

      [8]劉云燾,吳沖,王敏,等.基于支持向量機(jī)的商業(yè)銀行信用風(fēng)險評估模型研究[J].預(yù)測,2005(01):52-55.

      [9]Narain B. Survival Analysis and the Credit Granting Decision[M].Credit Scoring and Credit Control.Oxford,U.K.:OUP,1992:109-121.

      [10]Banasik,J,et al.Not if but when will borrowers default[J].Journal of the Operational Research Society,1999.

      [11]Farewell,V.T.The use of mixture models for the analysis of survival data with long-term survivors[J].Biometrics,1982,38(04):1041-1046.

      [12]Larson,M.G.and Dinse,G.E.A Mixture Model for the Regression Analysis of Competing Risks Data[J].Applied Statistics,1985,34(03):201-211.

      [13]Bentzen S M,Thames H D,Travis E L,et al. Direct Estimation of Latent Time for Radiation Injury in Late-responding Normal Tissues:Gu,Lung,and Spinal Cord[J].International Journal of Radiation Biology,1989,55(01):27-43.

      [14]Chen K C H.A mixture model combining logistic regression with proportional hazards regression[J].Biometrika,1992, 79(03):531-541.

      [15]Ren K,Qin J,Zheng L,et al.Deep Recurrent Survival Analysis[C]//2019:4798-4805.

      [16]Finlay S.Multiple classifier architectures and their application to credit risk assessment[J].European Journal of Operational Research.2011.210(02):368-378.

      *基金項目:國家社會科學(xué)基金項目(17BJY233)。

      (作者單位:杭州電子科技大學(xué)經(jīng)濟(jì)學(xué)院。梅浩為通信作者)

      猜你喜歡
      生存分析信用風(fēng)險深度學(xué)習(xí)
      淺析我國商業(yè)銀行信用風(fēng)險管理
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      京東商城電子商務(wù)信用風(fēng)險防范策略
      制造業(yè)出口貿(mào)易生存分析與跨國比較探討
      乙型肝炎相關(guān)慢加急性肝衰竭死因與HBV抗原變異相關(guān)性的探討
      個人信用風(fēng)險評分的指標(biāo)選擇研究
      醫(yī)學(xué)中生存分析的多結(jié)局風(fēng)險比例模型的實踐應(yīng)用
      台东县| 醴陵市| 泽库县| 玉林市| 应城市| 沅陵县| 平江县| 松滋市| 云阳县| 灵武市| 蕲春县| 兰考县| 威远县| 漳州市| 平度市| 大竹县| 鄯善县| 正蓝旗| 威信县| 涿州市| 四川省| 辰溪县| 会同县| 缙云县| 莱芜市| 宣恩县| 江西省| 九寨沟县| 六枝特区| 酒泉市| 察雅县| 藁城市| 瑞金市| 宁海县| 乌拉特前旗| 谢通门县| 长宁县| 临潭县| 利川市| 莫力| 原阳县|