譚本艷 吳艷 甘子琪
(三峽大學經(jīng)濟與管理學院,湖北 宜昌 443002)
防范化解金融風險,特別是防止發(fā)生系統(tǒng)性金融風險,是我國金融工作的根本性任務。目前,我國各級政府和金融監(jiān)管部門主要關注的是高金融杠桿率、影子銀行、互聯(lián)網(wǎng)金融、大中型企業(yè)債務、房地產(chǎn)金融化泡沫化、地方政府隱性債務等宏觀領域的金融風險,而微觀領域的家庭債務風險卻常常被忽視。根據(jù)上海財經(jīng)大學高等研究院課題組(2018)[1]的研究,我國家庭債務問題十分嚴重,已經(jīng)非常接近家庭能承受的極限,且對消費形成了顯著的擠出效應,導致消費增速連續(xù)多年下滑。更為嚴重的是,家庭債務擠出消費的負面效應已經(jīng)溢出到了實體經(jīng)濟和金融系統(tǒng),加劇了系統(tǒng)性金融風險發(fā)生的可能性。因此,除了關注宏觀領域的金融風險外,也要關注微觀領域的家庭債務風險。
事實上,2011年以來,中國的家庭部門貸款問題不斷顯現(xiàn)。根據(jù)中國人民銀行公布的數(shù)據(jù),2011—2021年,中國的家庭部門貸款總余額從13.601萬億元增長至71.104萬億元,年均增長率達到17.99%,消費性貸款占貸款總余額的比例從65.23%增長至77.19%,中長期貸款占貸款總余額的比例由67.83%增長至75.64%。數(shù)據(jù)表明中國家庭債務呈不斷擴張趨勢,且消費性貸款占比不斷提高,貸款期限呈拉長趨勢。此外,我國很多家庭一定程度上通過民間借貸增加債務,如果考慮民間借款部分,中國家庭債務問題可能更加突出。由于金融風險具有較強的傳染性,為防止該風險在部門之間傳染,中國家庭債務風險問題需要警惕,因此,對其進行預警研究具有重要意義。
在對家庭債務風險進行預警之前,需要對其進行界定。根據(jù)我國家庭債務來源情況,微觀數(shù)據(jù)更能反映我國家庭的真實債務風險水平,而目前從微觀層面對家庭債務風險水平的界定并不統(tǒng)一。隋鈺冰等(2020)[2]用風險債務比例衡量家庭債務的總體風險,比例越高,家庭債務的總體風險越高;黃曉東(2018)[3]認為債務總量指標不能很好地反映家庭債務的真實情況,因而引入家庭流動性約束概念,如果家庭流動性資產(chǎn)與家庭凈收入的一半之比小于1,則認為該家庭面臨流動性約束。然而,這些界定比較單一,本文嘗試從微觀層面的家庭債務因素、人口結構、流動性因素和收入支出狀況四個方面綜合測度家庭債務風險水平,將家庭債務風險界定為:在短時間內(nèi),家庭需要償還債務時,由于負債過多導致家庭人均負債過重,以及由于家庭人口結構、流動性風險和收入風險等原因,使得家庭償債能力急劇下降所引發(fā)的風險。
與本文密切相關的研究主要有兩個方面:一是關于家庭債務風險的測度研究;二是關于家庭債務風險的影響因素研究。
學術界常用宏觀層面的居民部門杠桿率(家庭負債與GDP的比率)、居民部門債務收入比和居民部門資產(chǎn)負債率等指標來測度一個國家的居民債務風險水平(李若愚,2016)[4],從微觀層面對家庭債務風險的測度并不統(tǒng)一,但采用的測度方法總體可以歸納為客觀衡量法和主觀衡量法兩種,且多用過度負債指標表示債務風險水平。從客觀衡量法來看,吳錕等(2020)[5]通過債務償還比率、房貸償還比率、家庭還債之后的人均可支配收入等指標來判斷一個家庭是否過度負債。柴時軍(2020)[6]用資產(chǎn)負債率高于50%、債務收入比高于100%等指標來判定一個家庭有債務風險。Oxera(2004)[7]將債務成本與收入之比超過50%的家庭定義為有巨大償債負擔的家庭。Keese(2009)[8]針對無負債、有負債的家庭分別依據(jù)“家庭收入減去還本付息后是否小于不可扣押收入”和“家庭收入減去債務償還后是否小于社會救助水平”來判斷其是否過度負債。從主觀衡量法來看,陳瑩和武志偉(2015)[9]采用一年內(nèi)是否出現(xiàn)一個月以上拖欠行為、還款困難的程度和家庭是否因還貸款產(chǎn)生較大的心理負擔等指標來定義其是否過度負債。Betti等(2007)[10]通過直接詢問人們是否面臨債務償還困難,以此衡量歐盟國家家庭是否過度負債。但D'alessio和Iezzi(2013)[11]認為過度負債具有多維特性,并利用意大利家庭收入和財富調(diào)查微觀數(shù)據(jù),將家庭資產(chǎn)納入并用主成分分析法構建家庭過度負債綜合指標。
關于影響家庭債務的微觀因素方面,陳斌開和李濤(2011)[12]利用2009年“中國城鎮(zhèn)居民經(jīng)濟狀況與心態(tài)調(diào)查”數(shù)據(jù)研究發(fā)現(xiàn),家庭負債隨著戶主的年齡及家庭收入水平的提高而下降。吳衛(wèi)星等(2013)[13]研究發(fā)現(xiàn)負債與收入的關系存在群體差異,只有在較高負債規(guī)模的家庭中,家庭負債與家庭收入才呈正相關關系,而在其他群體中收入對家庭負債規(guī)模無顯著影響。祝偉和夏瑜擎(2018)[14]指出以住房購買、汽車購買為代表的耐用品消費會顯著增加家庭負債。吳衛(wèi)星等(2018)[15]基于中國家庭微觀調(diào)查數(shù)據(jù)實證發(fā)現(xiàn),較高的金融素養(yǎng)能夠使得家庭使用合理的信貸,從而提高家庭福祉。Disney和Gathergood(2011)[16]根據(jù)YouGov季度債務跟蹤調(diào)查數(shù)據(jù)研究發(fā)現(xiàn),財務文盲家庭的凈資產(chǎn)較低,且更有可能使用成本較高的信貸,從而難以償還債務,陷入過度負債。Brown和Taylor(2014)[17]基于BHPS調(diào)查數(shù)據(jù)實證研究發(fā)現(xiàn),性格特征與不同類型的債務有不同的關聯(lián)。關于影響家庭債務的宏觀因素方面,王海燕等(2021)[18]認為數(shù)字金融發(fā)展會推動家庭杠桿率攀升。Mehmet(2021)[19]依據(jù)1996—2020年中國宏觀數(shù)據(jù)并采用時間序列模型進行定量分析發(fā)現(xiàn),人均GDP和利率對家庭債務有正向影響,但CPI對家庭債務影響不顯著。Lerskullawat(2020)[20]根據(jù)泰國的宏觀數(shù)據(jù)實證研究認為,家庭收入和消費支出、物價上漲等經(jīng)濟因素以及教育、婚姻、青年人口等社會因素對家庭總債務均具有顯著的正向影響。
可以看出,上述研究主要存在以下不足:一是對家庭債務風險的測度主要采用的是單一指標;二是對家庭債務風險的研究還沒有形成預警機制,即缺乏風險預警研究;三是對家庭債務影響因素的研究視角主要集中在回歸模型的線性參數(shù)上,缺乏對家庭債務影響因素的非線性效應研究。
因此,本文主要從以下三個方面對現(xiàn)有文獻進行拓展:第一,從債務因素、人口結構、流動性因素和收入支出狀況四個層面構建中國家庭債務風險指標體系,并進一步采用因子分析法和聚類法構建中國家庭債務風險綜合測度指標;第二,利用中國家庭金融調(diào)查(CHFS)數(shù)據(jù)庫的微觀調(diào)查數(shù)據(jù),構建基于Light-GBM算法的家庭債務風險預警模型,從而有效識別家庭債務風險,起到預警作用;第三,采用機器學習的SHAP和PDP解釋方法分析中國家庭債務影響因素的非線性效應。
1.數(shù)據(jù)來源、數(shù)據(jù)處理及樣本篩選。(1)數(shù)據(jù)來源。本文數(shù)據(jù)來源于中國家庭金融調(diào)查數(shù)據(jù)庫,該數(shù)據(jù)覆蓋了除西藏、新疆、港澳臺地區(qū)以外的全國29個?。ㄗ灾螀^(qū)、直轄市),問卷內(nèi)容涵蓋了家庭的人口學特征、資產(chǎn)與負債、收入與支出等信息。目前該數(shù)據(jù)庫包含了2011年、2013年、2015年、2017年和2019年共5年的數(shù)據(jù),為保證樣本量充足,本文將2013年、2015年、2017年和2019年數(shù)據(jù)進行合并,構成混合截面數(shù)據(jù)。(2)數(shù)據(jù)處理及樣本篩選。①缺失值處理。將負債和收入等主要數(shù)據(jù)缺失的樣本剔除后,其他有關變量的缺失率均在10%以下。對家庭成員年齡缺失用中位數(shù)填補;對戶主婚姻狀態(tài)按戶主小于20歲用“未婚”填補,大于20歲用眾數(shù)填補;對家庭成員是否有工作按年齡為16周歲以下或65周歲以上用“否”填補,否則用眾數(shù)填充。②異常值處理。為避免異常值所造成的偏誤,對收入小于0以及支出等于0的樣本進行剔除,再對總資產(chǎn)、總負債、總收入、總支出進行上下1%截尾處理。③標準化處理。在進行因子分析時,采用Z-score方法進行標準化處理。④樣本篩選。由于本文主要研究家庭債務的風險情況,因此,將總負債為0的樣本剔除。⑤分樣本實證。由于我國存在城鄉(xiāng)二元結構差異,為更客觀反映中國家庭債務風險,本文分別對城鎮(zhèn)和農(nóng)村家庭進行數(shù)據(jù)描述及實證分析。按照上述方法對數(shù)據(jù)處理后,最終得到城鎮(zhèn)和農(nóng)村家庭樣本分別為22545和12778個。
2.預警指標的選取。根據(jù)本文對家庭債務風險的定義,接下來從家庭債務因素、人口結構、流動性因素以及收入支出狀況4個層面進行指標選取,指標選取理由及定義說明如下。
第一,與家庭債務因素直接相關的指標最能直觀反映家庭債務情況。本文在中國家庭實際情況的基礎上,選取了3個債務因素層面的指標,包括債務總規(guī)模(TD)、人均負債(PCD)和房屋負債占總負債比重(Pro_HD)。其中,房屋負債是中國家庭中最典型的債務類型之一,對家庭債務風險有較直接的影響,房屋負債占比一定程度上能夠客觀反映家庭的債務負擔情況。
第二,家庭人口結構特征也會影響家庭債務行為(常思浩,2021)[21],本文從參與工作情況以及勞動年齡的角度選取了2個人口結構特征指標,即無工作人口占比(Pro_NWP)和人口撫養(yǎng)比(PDR)。一般而言,家庭中參與工作的人數(shù)越少,家庭收入來源越少,償債能力可能越弱,因此,無工作人口占比越高,家庭債務風險也越高;人口撫養(yǎng)比是指非勞動年齡人口占勞動年齡人口的比重,其中非勞動年齡人口包括14歲及以下和65歲及以上的人口,勞動年齡人口則為15至64歲的人口,該指標能夠反映一個家庭撫養(yǎng)的經(jīng)濟負擔大小,其取值越大,表明家庭撫養(yǎng)的經(jīng)濟負擔越重,借貸的可能性越大,債務風險越大。
第三,資產(chǎn)流動性因素也是家庭償債能力的重要體現(xiàn)。本文參考已有文獻并結合中國家庭的實際情況,選取了房屋資產(chǎn)占比(Pro_HA)、金融資產(chǎn)占比(Pro_FA)、財務邊際(FM)和金融資產(chǎn)負債率(DFAR)四個指標。其中,房屋資產(chǎn)作為中國家庭的典型資產(chǎn)之一,具有流動性差、以居住功能為主等特點,房屋資產(chǎn)占總資產(chǎn)比重越高,資產(chǎn)的流動性越差,短時間內(nèi)對家庭償債能力提升有限。根據(jù)問卷,金融資產(chǎn)包含個人社保賬戶余額、存款、現(xiàn)金、股票、基金、理財、債券、衍生品、非人民幣資產(chǎn)、黃金、其他金融資產(chǎn)、借出款這12項,與房屋資產(chǎn)相比,金融資產(chǎn)具有流動性較強的特點,一般而言,金融資產(chǎn)占比越高,短時間內(nèi)能夠有效提升家庭償債能力,有利于降低家庭債務風險。財務邊際是學術界常用于衡量家庭債務風險的指標之一(雷海波,2021)[22],本文在借鑒隋鈺冰等 (2020)[2]的定義基礎上,將財務邊際定義為家庭總收入加上流動性較強的資產(chǎn)(主要包含現(xiàn)金、銀行存款和貨幣市場基金),再減去消費支出和應償還的債務之后的剩余。財務邊際越大,表明資產(chǎn)的流動性越強,短期償債能力越強,債務風險越小。金融資產(chǎn)負債率是指總負債占金融資產(chǎn)的比重,能夠直接體現(xiàn)家庭用金融資產(chǎn)擔負債務的能力,該值越大,表明用金融資產(chǎn)償債的壓力越大,風險也越大。
第四,收入支出狀況能夠反映家庭收支水平,同時也一定程度上能夠反映家庭償債能力。本文主要選取債務收入比(DIR)、結余比例(BR)、生存型消費占總收入比(Pro_SCTI)和人均消費(PCC)4個反映收入支出狀況的指標。其中,債務收入比是學術界用于反映家庭債務情況最常用的指標之一,反映了家庭用收入清償債務的能力,該指標值越高,表明用收入清償債務的能力越差,甚至收不抵債,風險自然越高;結余比例為結余(收入減去支出后的剩余)占收入的比重,該指標值越高說明家庭收入用于消費的部分越少,而用于儲蓄的部分越多,償債能力也越強,風險越低;生存型消費是指為了維持生存所必需的物質(zhì)和勞務消費(羅娟,2020)[23],借鑒肖立(2012)[24]的做法,生存型消費由食品、衣著、日用品和居住支出加總得到,該指標一定程度上能夠反映家庭生活水平,生存型消費占總收入比重越高,說明家庭生活水平越低,償還債務的保障能力越低,風險越高;人均消費支出也會影響家庭債務,家庭收入一定時,如果人均消費越高,則儲蓄越少,同時由于“棘輪效應”的存在,家庭很難因收入急劇下降等沖擊而短時間內(nèi)降低消費水平,因而可能會通過信貸的途徑以繼續(xù)維持高消費水平,使得負債需求增加,風險增加。
綜上,本文主要從家庭債務因素、人口結構、流動性因素以及收入支出狀況4個層面選取了13個預警指標,基本能夠綜合反映家庭債務風險情況,各個指標名稱及其說明如表1所示。
表1:預警指標名稱及說明
3.債務風險測度方法。(1)因子分析法。確定好預警指標后,采用因子分析法分別構建城鎮(zhèn)和農(nóng)村家庭債務風險指標,并命名為F。根據(jù)本文分析的需要,進一步將F的取值劃分為兩種狀態(tài),即高風險狀態(tài)和低風險狀態(tài)。(2)層次聚類法。由于人為劃分閾值具有主觀性,故采用層次聚類法,對F進行聚類,從而得到每個家庭的債務風險狀態(tài)。
1.預警模型的介紹。基于輕量級梯度提升樹(Light Gradient Boosting Mechine,LightGBM) 算法的機器學習模型是集成模型的一種,相比于傳統(tǒng)的單一模型,集成模型具有準確率更高、更穩(wěn)定以及穩(wěn)健性更好等優(yōu)點。LightGBM主要通過直方圖做差加速的方法實現(xiàn)速度提升并減少分割增益的計算,同時使用Leaf-wise(Best-first)的決策樹生長策略,使得誤差降低,精度提高。因此,相比于其他集成模型,LightGBM具有訓練速度快、內(nèi)存消耗少等優(yōu)點,比較適合本文的預警分析。
2.數(shù)據(jù)說明。本文分別依據(jù)城鎮(zhèn)和農(nóng)村數(shù)據(jù)集建立預警模型,建模使用的軟件為Python,數(shù)據(jù)沿用債務風險指標構建的數(shù)據(jù),即22545個城鎮(zhèn)家庭和12778個農(nóng)村家庭數(shù)據(jù),均包含13個特征變量(13個預警指標)和1個標簽變量(債務風險狀態(tài))。
3.預警模型的建立。預警模型輸入特征變量為影響每個家庭債務風險的13個預警指標,輸出標簽變量為家庭債務風險狀態(tài)(高風險或低風險)。構建單個家庭的數(shù)據(jù)集向量為:
其中,xj,i(i=1,2,…,13)表示第j個家庭債務風險的影響因素,yj(j=1,2,3,…)表示第j個家庭的債務風險狀態(tài),yj取值為0或1,其中0表示低風險,1表示高風險。
輸入特征變量為:
輸出標簽變量為:對模型進行訓練時,則訓練模型的輸入變量為:
式(4)中,m為訓練樣本個數(shù),n為影響因素個數(shù)。
進一步得到預警模型的對應關系式:
其中,f(φ1,φ2,…,φL)為輸入特征變量到輸出標簽變量的映射關系,此處為LightGBM映射關系;φk(k=1,2,3,…,K)為LightGBM內(nèi)部的參數(shù),K為參數(shù)總數(shù)。訓練模型的過程就是對參數(shù)進行標定的過程。將LightGBM與影響因素的映射關系表示為FLGBM,則構建預警模型表達式如下:
用已知風險狀態(tài)的家庭對模型進行標定,再根據(jù)式(6)可以對測試集樣本進行預測,進而實現(xiàn)預警的目的。
1.預警指標的描述性統(tǒng)計。城鎮(zhèn)和農(nóng)村家庭預警指標的描述性統(tǒng)計如表2所示。根據(jù)表2,各個預警指標在我國城鎮(zhèn)和農(nóng)村之間存在較明顯的差異。具體而言,從債務因素指標來看,在負債家庭中,平均每個城鎮(zhèn)家庭負債總規(guī)模為17.63萬元,農(nóng)村為7.39萬元,前者為后者的2倍多;平均每個城鎮(zhèn)家庭的人均負債為5.45萬元,農(nóng)村為1.76萬元,前者為后者的3倍多;平均每個城鎮(zhèn)家庭的房屋負債占比為44.6%,遠超過農(nóng)村的32.7%。從流動性因素指標來看,平均每個城鎮(zhèn)家庭的房屋資產(chǎn)占比和金融資產(chǎn)占比均高于農(nóng)村家庭,但是財務邊際和金融資產(chǎn)負債率低于農(nóng)村家庭,且不論是城鎮(zhèn)還是農(nóng)村,平均每個家庭的房屋資產(chǎn)占其總資產(chǎn)的比重均超過一半。
表2:預警指標描述性統(tǒng)計
2.預警指標構建及風險類別劃分。因子分析前的KMO值和Bartlett's球狀檢驗均表明數(shù)據(jù)適合進行因子分析。限于篇幅,此處不匯報因子分析過程。最終,聚類結果顯示,在22545個城鎮(zhèn)負債家庭中,高風險和低風險的家庭分別為5650個和16895個;在12778個農(nóng)村負債家庭中,高風險和低風險的家庭分別為1571個和11207個。
3.中國家庭債務風險情況分析。為進一步分析家庭債務風險情況,本文將高(低)風險率定義為高(低)風險家庭數(shù)占總家庭數(shù)的比率,由此,計算得到我國城鎮(zhèn)和農(nóng)村家庭債務高風險率分別為25.06%和12.29%。
此外,基于上述數(shù)據(jù)和測度方法,本文還根據(jù)數(shù)據(jù)庫來源的年份,分別得到了2013年、2015年、2017年和2019年城鎮(zhèn)和農(nóng)村家庭的債務風險狀況,如表3所示。由表3可知,不論是城鎮(zhèn)還是農(nóng)村家庭,高風險率均在40%以下,表明風險整體可控,但從時間維度來看總體都呈現(xiàn)增長的趨勢,且城鎮(zhèn)家庭高風險率一直高于農(nóng)村家庭,可能的原因是,城鎮(zhèn)家庭由于生活成本高等原因?qū)е缕湫刨J需求更高,從而更容易陷入高風險狀態(tài)。
表3:各年份中國城鎮(zhèn)和農(nóng)村家庭的債務風險狀況
4.為考察中國家庭債務風險的異質(zhì)性,本文還進一步對城鎮(zhèn)和農(nóng)村樣本從戶主性別、戶主婚姻狀態(tài)以及家庭所處地區(qū)三個層面分別進行了分組分析,結果如表4所示。根據(jù)表4,城鎮(zhèn)和農(nóng)村家庭的債務風險情況存在以下特征:(1)不同戶主性別。不論是城鎮(zhèn)還是農(nóng)村家庭,戶主為男性的高風險率都低于戶主為女性的高風險率,即戶主為女性的負債家庭其為高風險的可能性更大。這可以借鑒周利和馮大威(2020)[25]的研究結論進行解釋,即相比于男性,女性更容易呈現(xiàn)“大五人格”中的神經(jīng)質(zhì)人格特征,而神經(jīng)質(zhì)程度高的個體更有可能過度負債,因此,女性戶主家庭為高風險家庭的可能性越大。(2)不同戶主婚姻狀態(tài)。對于城鎮(zhèn)家庭而言,戶主已婚家庭的高風險率略高于戶主未婚家庭的高風險率??赡艿脑蚴牵啾扔趹糁魑椿榈某擎?zhèn)家庭,戶主已婚的城鎮(zhèn)家庭要承擔的經(jīng)濟壓力更大,信貸需求更大,從而導致其為高債務風險的可能性越大。而對于農(nóng)村家庭而言,戶主已婚家庭的高風險率低于戶主未婚家庭的高風險率。這可能是因為戶主已婚的農(nóng)村家庭在進行信貸決策時相對更加保守,從而其為高債務風險的概率也更低。(3)不同地區(qū)。無論是城鎮(zhèn)還是農(nóng)村家庭,東部地區(qū)的高風險率均最高,東北部地區(qū)高風險率最低,而中部和西部比較接近。這可能是因為東部地區(qū)基礎設施相對而言更健全,人口更密集,發(fā)展程度也更高,使得家庭消費水平更高,信貸需求更大,高風險的可能性也更大,而其他地區(qū)生活成本相對較低,信貸需求較小,高債務風險的可能性也較小。
表4:城鎮(zhèn)和農(nóng)村家庭債務風險分組分析
1.預警模型的求解。(1)測試集和訓練集劃分。參照一般經(jīng)驗,本文按照3∶1的比例劃分訓練集和測試集,經(jīng)過劃分后,城鎮(zhèn)數(shù)據(jù)集的訓練集中包含16908個樣本,其中高風險樣本有4254個,高風險率為25.16%,測試集中包含5637個樣本,其中高風險樣本有1396個,高風險率為24.76%;農(nóng)村數(shù)據(jù)集的訓練集中包含9583個樣本,其中高風險樣本有1181個,高風險率為12.32%,測試集中包含3195個樣本,其中高風險樣本有390個,高風險率為12.21%。(2)預警模型參數(shù)調(diào)整。當所有參數(shù)都選為默認值時,即不進行參數(shù)調(diào)整,模型在城鎮(zhèn)和農(nóng)村的測試集上的AUC值分別為0.9695和0.9287。為了使模型預警效果更好,本文采用網(wǎng)格搜索和5折交叉驗證進行參數(shù)調(diào)整,并設置learning rate為0.1,網(wǎng)格搜索的參數(shù)列表及得到最優(yōu)參數(shù)結果如表5所示。經(jīng)過參數(shù)調(diào)整后,模型在城鎮(zhèn)和農(nóng)村的測試集上的AUC值分別達到0.9725和0.9599,相比參數(shù)調(diào)整前均有所提高。
表5:LightGBM模型參數(shù)列表及最優(yōu)參數(shù)
2.預警模型的評估。為了評估預警模型的效果,選取了常用的分類模型評估指標,包括混淆矩陣、AUC、準確率、精確率、召回率以及F1得分對預警結果進行評價。其中,混淆矩陣可以直觀展示模型的預警結果;AUC取值范圍為[0,1],若AUC>0.5表明模型效果較好;準確率、精確率、召回率、F1得分值越高表明模型效果越好。根據(jù)預警模型在測試集上的表現(xiàn),繪制混淆矩陣如圖1所示。
圖1:LightGBM模型的混淆矩陣
從圖1(a)可以看出:對于城鎮(zhèn)家庭樣本而言,在測試集的5637個樣本中,預警模型把4241個低風險家庭正確判定為低風險家庭的有4211個,把1396個高風險家庭正確判定為高風險家庭的有1329個,同時把低風險家庭誤判為高風險家庭的有30個,把高風險家庭誤判為低風險家庭的有67個,準確判斷率為98.30%。同理,根據(jù)圖1(b)可以解讀農(nóng)村家庭樣本的混淆矩陣,此處不再一一分析。進一步,預警模型在城鎮(zhèn)測試集上的AUC值、準確率、精確率、召回率、F1得分分別為0.9725、0.9830、0.9779、0.9520、0.9648,在農(nóng)村測試集上的上述5個評估指標值分別為 0.9599、0.9818、0.9213、0.9308、0.9260??梢?,不論是城鎮(zhèn)還是農(nóng)村家庭,本文基于LightGBM算法的機器學習模型都取得了較好的預警效果。
3.預警模型的解釋。相比傳統(tǒng)的統(tǒng)計計量模型,機器學習模型有預測效果好、能夠處理復雜的非線性關系、對大數(shù)據(jù)友好等優(yōu)勢,但也存在可解釋性表現(xiàn)較差的不足,這使得機器學習模型幾乎成為“黑箱”模型。為了對預警模型進行合理解釋,本文利用Lundberg和Lee(2017)[26]引入的機器學習SHAP可解釋工具,從預警模型的特征重要性和預警模型的全局解釋兩方面進行解釋。SHAP可以通過量化并匯總每一個特征對目標變量的貢獻,從而解釋特征對預警結果的影響力,并通過SHAP值的正負來反映影響力的正負。
(1)預警模型的特征重要性 (Feature importance)。我們使用SHAP摘要圖來考察影響家庭債務的主要特征,SHAP摘要圖按輸入特征映射的輸出標簽不同,可分為低、高二類不同風險狀態(tài)的SHAP摘要圖,通常只考查更有實際意義的高風險狀態(tài)SHAP摘要圖。以本文的高風險狀態(tài)SHAP摘要圖為例,輸入特征為反映家庭債務的13個特征,輸出標簽為高低風險二分類狀態(tài),若第j個樣本的第i個特征的取值 (Feature value) 對應的SHAP值 (SHAP value)為正,表明第i個特征對j樣本預警為高風險狀態(tài)的邊際貢獻為正,即樣本j的i特征取該值時,樣本j更有可能為高風險狀態(tài),反之亦然。高風險狀態(tài)家庭的SHAP摘要圖見圖2。
圖2:高風險狀態(tài)家庭的SHAP摘要圖
SHAP摘要圖的作用是從全局的角度對預警模型的特征貢獻度進行排序。圖2中,左側為各個輸入特征的名稱,位置較高的特征表示對預警模型的特征貢獻度較大,右側從淺變深,表示輸入特征的取值由低到高,橫軸表示SHAP值,即每個樣本的各個特征對應的SHAP值的取值范圍和大小。圖中每一行代表1個特征(本文為13個特征),每個點代表一個樣本,每一行上的樣本點是相同的,寬區(qū)域的樣本點比窄區(qū)域多。以城鎮(zhèn)家庭的第1行為例,房屋負債占比在城鎮(zhèn)家庭中排在第1位,說明其對預警模型的貢獻度最高。進一步,當房屋負債占比取值較小時,對應的SHAP值為負,說明房屋負債占比取值較小的樣本點被預測為高風險的概率較小,而隨著取值的增大,SHAP值逐漸變?yōu)檎?,說明房屋負債占比取值較大時的樣本點被預測為高風險的概率也逐漸提高。
此外,從圖2可以看出,對城鎮(zhèn)和農(nóng)村家庭債務預警貢獻度最大的前8個特征中,相同的特征為房屋負債占比、財務邊際、無工作人口占比、人口撫養(yǎng)比、人均消費、房屋資產(chǎn)占比、人均負債??梢?,無論是對城鎮(zhèn)還是農(nóng)村家庭,這7個特征都是影響家庭債務風險的重要因素;不同的特征中,城鎮(zhèn)家庭為債務總規(guī)模,農(nóng)村家庭為結余比例,這說明城鎮(zhèn)家庭借貸總額過大從而增加債務風險可能性更大,而農(nóng)村家庭因收入支出狀況導致債務風險增加的概率更大。
(2)預警模型的全局解釋。為了更直觀地分析家庭特征對債務風險狀態(tài)的影響,本文使用SHAP值映射圖來展示家庭特征與債務風險狀態(tài)之間的非線性關系,SHAP值映射圖的橫坐標為特征的取值,縱坐標為SHAP值,從SHAP值等于0處作一條水平線,穿過圖形上的兩點分別為安全點和預警點。為了進行對比分析,并結合前文的SHAP摘要圖,本文選取7個影響城鎮(zhèn)和農(nóng)村家庭債務風險的共同重要特征再加上債務總規(guī)模共8個特征,即房屋負債占比、財務邊際、人口撫養(yǎng)比、無工作人口占比、人均消費、房屋資產(chǎn)占比、債務總規(guī)模、人均負債,進行SHAP值映射分析,對應的SHAP值映射圖分別如圖3和圖4所示。
圖3:城鎮(zhèn)家庭8個特征的SHAP值映射圖
圖4:農(nóng)村家庭8個特征的SHAP值映射圖
SHAP值越大,意味著模型將樣本預警為高風險狀態(tài)的概率增加,從圖3和圖4可以看出,無論是城鎮(zhèn)還是農(nóng)村家庭,我們選取的8個特征和高風險狀態(tài)之間均呈現(xiàn)出以下特征:①從債務因素層面,隨著房屋負債占比、債務總規(guī)模和人均負債的增加,SHAP值增加,家庭為高風險的可能性越大。②從人口結構層面,隨著人口撫養(yǎng)比和無工作人口占比的增加,對應的SHAP值增加,家庭為高風險的概率增加。③從流動性因素層面,隨著房屋資產(chǎn)占比的增加,SHAP值增加,家庭為高風險的可能性越大,而隨著財務邊際的增加,SHAP值反而減少,家庭為高風險的可能性越小。④從收入支出狀況層面,隨著人均消費的增加,SHAP值增加,家庭為高風險的可能性增加。
進一步,本文將SHAP值小于0的區(qū)間定義為安全區(qū)間,將SHAP值大于0的區(qū)間定義為預警區(qū)間,對應的特征臨界點分別為安全點和預警點,城鎮(zhèn)和農(nóng)村家庭8個影響債務風險的重要特征的安全和預警參考值如表6所示。
表6:8個特征的安全和預警參考值
由表6知,對于同一個特征而言,城鎮(zhèn)和農(nóng)村家庭的安全值和預警值存在差異。根據(jù)預警參考值,本文選取的8個特征對城鎮(zhèn)(農(nóng)村)家庭債務存在明顯的非線性效應,具體而言,當某個特征超過以下預警值后,城鎮(zhèn)(農(nóng)村)負債家庭被預警為高風險的可能性會明顯增加:①房屋負債占總負債的比重超過67%(49%)(括號內(nèi)為農(nóng)村家庭的預警值,下同);②財務邊際小于-15(-12)萬元;③人口撫養(yǎng)比高于50%(70%);④未參與工作的人口超過總人口的50%(50%);⑤人均消費超過3.5(2)萬元/年;⑥房屋資產(chǎn)占比高于83%(72%);⑦債務總規(guī)模超過25(16)萬元;⑧人均負債超過10(3)萬元。
1.更換參數(shù)列表重新調(diào)整參數(shù)。為克服基本模型的參數(shù)列表選擇可能存在的局限性,接下來對部分參數(shù)列表進行更換。按照給定的新范圍采用5折交叉驗證和網(wǎng)格搜索重新調(diào)整參數(shù),并將learning_rate提高至0.15,最終,城鎮(zhèn)和農(nóng)村的預警模型AUC值分別由最初0.9695和0.9287提升至0.9716和0.9519,效果的提升程度均與基本模型接近,說明基本模型的調(diào)參效果已經(jīng)達到相對最優(yōu)。
2.更換機器學習方法。為了驗證LightGBM模型預警效果的可靠性,引入邏輯回歸(Logistic Regression,LR)、決策樹(Decision Tree,DT)以及隨機森林(Random Forest,RF)作為對比模型,為了防止過擬合,同樣采用網(wǎng)格搜索和5折交叉驗證分別對其主要參數(shù)進行調(diào)整。在分別對城鎮(zhèn)和農(nóng)村樣本建立上述模型并調(diào)參后,所有對比模型的各個評估指標值均低于LightGBM模型,可見無論是城鎮(zhèn)還是農(nóng)村,LightGBM模型效果均最好。
3.更換預警模型解釋方法。(1)特征重要性排序。LightGBM模型的plot_importance方法也可以輸出特征重要性排序圖。根據(jù)此方法得出的影響城鎮(zhèn)和農(nóng)村家庭債務風險的共同重要特征與前文SHAP摘要圖得出的結論一致。(2)部分依賴圖(Partial Dependence Plot,PDP)。PDP圖的縱軸為對應特征對模型預測結果相較于基線值的變化,反映了該特征對預測結果的邊際貢獻。城鎮(zhèn)和農(nóng)村家庭8個重要特征的PDP圖分別見圖5和圖6。根據(jù)圖5和圖6,無論是城鎮(zhèn)還是農(nóng)村家庭,房屋負債占比、人口撫養(yǎng)比、無工作人口占比、人均消費、房屋資產(chǎn)占比、債務總規(guī)模以及人均負債的折線均在基線上方(對預測值有正影響),且隨著這些特征值增大,正影響越大,即風險越大;而財務邊際的折線在基線下方(對預測值有負影響),且隨著財務邊際的增加,負影響越大,風險越小,這均與SHAP映射圖得出的結果一致。類似地,基于PDP圖的含義,將對預測值影響顯著增加的臨界值點作為預警點,各個特征的預警點如對應圖中的標注所示,可以發(fā)現(xiàn)基于PDP圖得到的預警值與前文基于SHAP映射圖得到的預警參考值較為接近,這進一步說明了前文的研究結果具有穩(wěn)健性。
圖5:城鎮(zhèn)家庭8個特征的PDP圖
圖6:農(nóng)村家庭8個特征的PDP圖
本文基于2013年、2015年、2017年和2019年CHFS數(shù)據(jù),對中國家庭債務風險進行了測度,并通過構建機器學習模型進行了預警分析,得出以下主要結論:
第一,根據(jù)因子分析和層次聚類結果得到中國城鎮(zhèn)和農(nóng)村的高風險率分別約為25.06%和12.29%,且從時間維度來看,不論是城鎮(zhèn)家庭還是農(nóng)村家庭,每年的高風險率均在40%以下,但高風險率均呈上升趨勢。進一步的分組分析發(fā)現(xiàn),高風險率在戶主不同性別、戶主不同婚姻狀態(tài)以及家庭所處不同地區(qū)之間存在差異性,具體表現(xiàn)為戶主為女性的家庭、東部地區(qū)家庭、戶主已婚的城鎮(zhèn)家庭和戶主未婚的農(nóng)村家庭為高風險家庭的概率更大。
第二,通過參數(shù)調(diào)整后,LightGBM取得了較大的性能提升,最終預警結果顯示,模型在城鎮(zhèn)和農(nóng)村測試集上AUC值分別達到了0.9725和0.9599,且準確率、精確率、召回率、F1得分也均達到0.9以上,能夠?qū)崿F(xiàn)較好預警效果。
第三,基于LightGBM模型的SHAP特征分析發(fā)現(xiàn),房屋負債占比、財務邊際、人口撫養(yǎng)比、無工作人口占比、人均消費、房屋資產(chǎn)占比、人均負債是影響城鎮(zhèn)和農(nóng)村家庭債務風險的主要共同指標。
第四,基于SHAP值的映射關系分析發(fā)現(xiàn),對于一個城鎮(zhèn)負債家庭而言,如果其房屋負債占比超過總負債的67%,或財務邊際低于-15萬元,或人口撫養(yǎng)比超過50%,或超過一半的家庭成員沒有工作,則該家庭被預警為高風險的可能性將增加;對于一個農(nóng)村負債家庭而言,如果其房屋負債占總負債比重接近甚至超過一半,或財務邊際小于-12萬元,或人口撫養(yǎng)比超過70%,或超過50%的人口沒有參加工作,則該家庭被預警為高風險的可能性將增加。
第五,經(jīng)過更換機器學習參數(shù)、機器學習算法以及預警模型的可解釋方法,顯示本文研究結論具有穩(wěn)健性。
根據(jù)研究結論,提出如下政策建議:
第一,我國城鎮(zhèn)和農(nóng)村家庭的整體債務風險雖總體可控,但仍不能忽視家庭債務風險對經(jīng)濟的負面影響。對此,政府可以通過開展免費的家庭金融知識培訓等方式提高居民的債務風險意識,引導居民正確評估信貸風險,從而避免過度負債。
第二,基于LightGBM算法的機器學習能夠較準確地識別出高債務風險家庭,有較好的預警作用,政府及相關金融部門應當充分利用大數(shù)據(jù)及機器學習算法的優(yōu)勢,不斷完善預警方法,并逐步建立一套統(tǒng)一的家庭債務風險預警機制,對可能存在的高債務風險做到“早識別、早預警、早發(fā)現(xiàn)、早處置”,進而降低系統(tǒng)性金融風險發(fā)生的概率。
第三,基于家庭債務因素、人口結構、流動性因素以及收入支出狀況會顯著影響家庭債務的高風險概率,規(guī)避家庭高債務風險可以從這幾個方面出發(fā)。一方面,金融信貸機構在進行放貸決策時,應當重點關注客戶的這些指標,合理評估其償債能力,從而降低被違約的可能性;另一方面,相關機構應當繼續(xù)構建、完善微觀家庭數(shù)據(jù)庫,為進一步建立家庭債務風險預警機制提供更全面可靠的大數(shù)據(jù)支撐,從而輔助金融機構建立科學合理的債務風險評估體系。
第四,基于城鎮(zhèn)和農(nóng)村家庭的房屋負債占比、財務邊際、人口撫養(yǎng)比、無工作人口占比等影響家庭債務風險的重要指標存在不同的高風險預警值,政府和居民家庭應當共同努力,將各個指標值控制在預警值以下。具體而言,一是重視家庭因房屋負債比重過高帶來的風險問題,應繼續(xù)建立完善長效住房保障制度,并繼續(xù)落實“房住不炒”政策,緩解家庭因貸款購房導致的過度負債問題;二是持續(xù)優(yōu)化金融環(huán)境,提高居民金融資產(chǎn)可得性,提高家庭金融資產(chǎn)占總資產(chǎn)的比例,以保證合理的家庭資產(chǎn)流動性,從而提高家庭償債能力;三是由于無工作人口占比增加會顯著降低家庭抵御債務風險的能力,政府應繼續(xù)完善就業(yè)優(yōu)先政策體系,鼓勵創(chuàng)業(yè),多渠道為居民提供更多參與工作的機會,鼓勵居民積極就業(yè),降低家庭中無工作人口占總人口的比例;四是由于人口撫養(yǎng)比過高會增加家庭被預警為高風險的可能性,政府應當繼續(xù)完善養(yǎng)老保險等制度,提高社會保障水平,減輕家庭因生育、教育、醫(yī)療以及養(yǎng)老等方面的經(jīng)濟負擔。