• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機(jī)器學(xué)習(xí)算法的信用風(fēng)險(xiǎn)量化模型研究

      2023-05-21 23:26:07李沐勛
      金融經(jīng)濟(jì) 2023年4期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)債券市場(chǎng)

      李沐勛

      摘要:傳統(tǒng)的信用風(fēng)險(xiǎn)計(jì)量模型難以處理高維數(shù)據(jù)和非線性問(wèn)題,多具備較嚴(yán)格的假設(shè)條件,計(jì)算結(jié)果常與實(shí)際情形存在較大的誤差。本文綜合考慮影響信用風(fēng)險(xiǎn)的內(nèi)生變量和外生變量,使用更優(yōu)的非線性變換方式擬合數(shù)據(jù),并借助機(jī)器學(xué)習(xí)強(qiáng)大的算力和學(xué)習(xí)迭代優(yōu)勢(shì)量化信用風(fēng)險(xiǎn)。實(shí)證結(jié)果表明,該模型算法可提高預(yù)測(cè)結(jié)果的擬合度和準(zhǔn)確性。

      關(guān)鍵詞:債券市場(chǎng);機(jī)器學(xué)習(xí);信用風(fēng)險(xiǎn)計(jì)量

      中圖分類號(hào):F832.5? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1007-0753(2023)04-0075-09

      一、引言

      信用風(fēng)險(xiǎn)作為金融市場(chǎng)風(fēng)險(xiǎn)的重要組成之一,其被衡量的方式始終被市場(chǎng)參與方所重視。投資者、金融機(jī)構(gòu)、監(jiān)管部門出于風(fēng)控需求,對(duì)信用風(fēng)險(xiǎn)衡量的要求也趨于更加精準(zhǔn)和動(dòng)態(tài)。信用風(fēng)險(xiǎn)計(jì)量模型則在其中扮演最為關(guān)鍵和重要的角色,其科學(xué)性和準(zhǔn)確性成為風(fēng)險(xiǎn)計(jì)量結(jié)果好壞的基礎(chǔ)性因素。

      金融學(xué)中大部分研究對(duì)象的本質(zhì)都是復(fù)雜、多維和非線性的。傳統(tǒng)的信用風(fēng)險(xiǎn)計(jì)量模型難以處理高維數(shù)據(jù)和非線性問(wèn)題,多具備較嚴(yán)格的假設(shè)條件,并且算力難以支持大量模擬和迭代優(yōu)化,因此計(jì)算結(jié)果常與實(shí)際情形存在較大誤差。

      隨著金融工程的發(fā)展和計(jì)算機(jī)算力的增長(zhǎng),機(jī)器學(xué)習(xí)作為人工智能的重要成果之一,在金融風(fēng)控領(lǐng)域的應(yīng)用日益廣泛。該類算法將概率論、統(tǒng)計(jì)學(xué)、最優(yōu)化理論等科學(xué)理論與計(jì)算機(jī)的強(qiáng)大算力相結(jié)合,既可快速、自動(dòng)地處理高維數(shù)據(jù),還能在不斷學(xué)習(xí)和優(yōu)化過(guò)程中提高模型的泛化能力,通過(guò)復(fù)雜多樣的函數(shù)輸出更準(zhǔn)確的預(yù)測(cè)結(jié)果??梢灶A(yù)見,機(jī)器學(xué)習(xí)模型的應(yīng)用和迭代將帶動(dòng)信用風(fēng)控技術(shù)進(jìn)入新紀(jì)元。

      本文利用統(tǒng)計(jì)學(xué)原理以及機(jī)器學(xué)習(xí)算法,構(gòu)建資產(chǎn)信用風(fēng)險(xiǎn)溢價(jià)和違約概率量化模型,以解決傳統(tǒng)模型中的各類局限和不足,輸出更準(zhǔn)確的量化預(yù)測(cè)結(jié)果。

      二、傳統(tǒng)信用風(fēng)險(xiǎn)衡量模型

      信用風(fēng)險(xiǎn)衡量模型的發(fā)展經(jīng)歷了三個(gè)階段:第一階段為20世紀(jì)60年代之前的專家分析法,通過(guò)專家經(jīng)驗(yàn)和主觀分析來(lái)評(píng)估信用風(fēng)險(xiǎn);第二階段為20世紀(jì)70年代至90年代的信用評(píng)分模型,包括線性概率模型、Logit/Probit模型和Z-score模型,20世紀(jì)60年代的信用卡業(yè)務(wù)催生了該類模型的發(fā)展,這也是數(shù)學(xué)模型首次應(yīng)用于信用風(fēng)險(xiǎn)領(lǐng)域;第三階段為20世紀(jì)90年代至今的違約概率模型,例如KMV模型、CreditMetrics模型和CreditRist+模型,該階段的模型將金融理論與數(shù)學(xué)相結(jié)合,對(duì)信用風(fēng)險(xiǎn)的評(píng)估由分類上升至計(jì)量。目前,信用評(píng)分模型仍被國(guó)內(nèi)外評(píng)級(jí)機(jī)構(gòu)和多數(shù)金融機(jī)構(gòu)應(yīng)用于信用風(fēng)險(xiǎn)評(píng)估,違約概率模型則多被商業(yè)銀行使用,用于信貸審批、信用卡額度審批和信用風(fēng)險(xiǎn)敞口的計(jì)算。

      然而信用風(fēng)險(xiǎn)衡量模型的發(fā)展已停滯近三十年,其固有的缺陷也日益暴露,難以滿足更高的風(fēng)控需求。信用評(píng)分模型使用了較多的內(nèi)生變量,例如財(cái)務(wù)數(shù)據(jù)、主體資質(zhì)、資產(chǎn)特征等,但最終僅輸出分類結(jié)果,并無(wú)進(jìn)一步的量化信息;并且模型計(jì)算中僅使用初等函數(shù),應(yīng)用的數(shù)學(xué)理論較為簡(jiǎn)單。而違約概率模型雖然實(shí)現(xiàn)了進(jìn)一步的風(fēng)險(xiǎn)計(jì)量,但考慮的內(nèi)生變量較少,例如KMV模型中僅考慮資產(chǎn)與負(fù)債規(guī)模的內(nèi)生變量,CreditMetrics模型和CreditRist+模型僅使用了違約頻率的外生變量,并且應(yīng)用的統(tǒng)計(jì)學(xué)模型局限于正態(tài)分布,弱化了擬合度和尾部風(fēng)險(xiǎn)。此外,傳統(tǒng)模型中尚未探索出信用風(fēng)險(xiǎn)溢價(jià)與違約概率之間的映射關(guān)系,以及對(duì)違約的預(yù)警功能。

      三、模型算法原理

      外生變量是資產(chǎn)信用風(fēng)險(xiǎn)變化的直接體現(xiàn),例如生存率、死亡率(違約率)、等級(jí)遷徙率等,可通過(guò)簡(jiǎn)單的計(jì)算統(tǒng)計(jì)得到。內(nèi)生變量是影響資產(chǎn)信用風(fēng)險(xiǎn)的本源性因素,例如資產(chǎn)歸屬主體的資質(zhì)、財(cái)務(wù)狀況和經(jīng)營(yíng)狀況,它們之間通過(guò)復(fù)雜的聯(lián)系和變化影響著資產(chǎn)的違約概率,難以用簡(jiǎn)單的函數(shù)進(jìn)行表達(dá)。此時(shí)可通過(guò)引入具有代表性的標(biāo)簽值作為中間變量,一方面構(gòu)建更顯著的映射特征,另一方面強(qiáng)化深度,尋找更優(yōu)的非線性變換方式以擬合數(shù)據(jù)。

      鑒于此,在變量選擇上,本文使用財(cái)務(wù)、經(jīng)營(yíng)、行業(yè)和宏觀數(shù)據(jù)等與資產(chǎn)相關(guān)的特征值作為內(nèi)生變量,多維度囊括關(guān)于資產(chǎn)的有效信息;使用標(biāo)簽屬性顯著的信用利差作為中間變量,根據(jù)信用利差和違約頻率的正相關(guān)性,建立單變量映射函數(shù);使用違約頻率作為外生變量,將模型訓(xùn)練結(jié)果擬合至直觀的統(tǒng)計(jì)數(shù)據(jù)。通過(guò)上述變量的選擇,模擬信用風(fēng)險(xiǎn)由內(nèi)至外的演變過(guò)程。

      本文量化模型先后運(yùn)用分布擬合、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等算法原理,輸入變量包括資產(chǎn)到期收益率、無(wú)風(fēng)險(xiǎn)利率、定性指標(biāo)和定量指標(biāo)等特征值以及違約頻率統(tǒng)計(jì)值;輸出變量包括信用利差、等級(jí)序列、違約概率和違約分類結(jié)果。

      四、模型算法的實(shí)證

      (一)信用利差與偏正態(tài)分布

      信用利差即信用風(fēng)險(xiǎn)溢價(jià),金融市場(chǎng)體現(xiàn)風(fēng)險(xiǎn)與收益對(duì)等的原則,越低的信用利差說(shuō)明資產(chǎn)的違約風(fēng)險(xiǎn)越小。對(duì)信用債而言,業(yè)界多采用票面利率與國(guó)債收益率之差作為信用利差,由于票面利率多為固定利率,信用利差的變化也單純由國(guó)債收益率的變動(dòng)引起。本文選擇債券到期收益率代替票面利率,到期收益率的變動(dòng)可體現(xiàn)資產(chǎn)回報(bào)率的變化,便于動(dòng)態(tài)反映信用風(fēng)險(xiǎn)。當(dāng)投資者認(rèn)為債券發(fā)行人信用質(zhì)量顯著下降時(shí),該只債券遭到拋售,買入價(jià)格的下降和剩余期限的減少導(dǎo)致到期收益率上升,信用利差隨之上升,如表1所示。而到期收益率的上升變相地增加了發(fā)行人的還款壓力,增大了債券的違約概率。

      目前業(yè)界對(duì)信用利差數(shù)據(jù)的建模多采用正態(tài)分布,但正態(tài)分布具有左右完美對(duì)稱的性質(zhì),而實(shí)際情形中利差分布較多呈現(xiàn)左偏或右偏、單側(cè)瘦尾或肥尾的狀態(tài),此情形下,使用正態(tài)分布建模常導(dǎo)致某個(gè)區(qū)間的累積分布值被高估或低估,模型誤差增大。例如默頓、KMV和CreditMetrics等模型中正態(tài)分布的應(yīng)用均導(dǎo)致了模型結(jié)果與數(shù)據(jù)實(shí)際呈現(xiàn)的肥尾現(xiàn)象不符。因此,本文引入偏正態(tài)分布對(duì)利差數(shù)據(jù)進(jìn)行建模,保證模型具備更高的擬合度和精準(zhǔn)度。

      Azzalini(1985)首次提出偏正態(tài)分布的概念,并給出了相關(guān)定義式、性質(zhì)、最大似然估計(jì)以及多維形式的歸納 。引入偏度參數(shù)λ,若將標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)與累積分布函數(shù)分別記為φ(x)和(x),則偏正態(tài)分布概率密度函數(shù)為:

      f ( x; μ, σ, λ ) =? 2-σ φ (? )( λ )? ? ? ? ?(1)

      提取截至2021年末我國(guó)房地產(chǎn)業(yè)和銀行業(yè)的全部存續(xù)債券(剔除結(jié)構(gòu)化產(chǎn)品)的相關(guān)數(shù)據(jù)(數(shù)據(jù)來(lái)源于WIND金融終端),計(jì)算信用利差并進(jìn)行數(shù)據(jù)清洗,根據(jù)信用利差樣本進(jìn)行偏正態(tài)分布的參數(shù)估計(jì)和卡方擬合優(yōu)度檢驗(yàn),結(jié)果如圖2和圖3所示。房地產(chǎn)業(yè)和銀行業(yè)樣本容量分別為3 282個(gè)和835個(gè),P值分別為0.230 8和0.262 8,結(jié)果均無(wú)顯著性差異,模型結(jié)果和實(shí)際數(shù)據(jù)具備一致性。可視化效果同樣說(shuō)明,概率分布與原始數(shù)據(jù)擬合度較高,偏正態(tài)分布可更準(zhǔn)確地反映信用利差分布的實(shí)際情況。

      對(duì)信用利差進(jìn)行分箱處理,建立信用等級(jí)和信用風(fēng)險(xiǎn)的映射關(guān)系,利差數(shù)值越小代表信用風(fēng)險(xiǎn)越低,對(duì)應(yīng)的信用等級(jí)越高。此處分箱處理的為理論利差分布,而非樣本觀測(cè)值。

      常用的無(wú)監(jiān)督學(xué)習(xí)數(shù)據(jù)分箱方法包括等距分箱、等頻分箱和聚類分箱等。聚類分箱法由于對(duì)特征值定義缺乏明確的量化標(biāo)準(zhǔn),類個(gè)數(shù)取決于建模人員的主觀意見(例如將債券分為投資級(jí)和高收益級(jí)),因此不作為備選方法。等距分箱法是對(duì)隨機(jī)變量進(jìn)行等距分組,會(huì)產(chǎn)生樣本數(shù)量較高(眾數(shù))或極少(尾部)的箱體,對(duì)樣本數(shù)量較高的箱體的風(fēng)控效果較差。從信用風(fēng)險(xiǎn)衡量的實(shí)際業(yè)務(wù)需求角度來(lái)講,分箱后建立的等級(jí)序列需具備較好的區(qū)分效果,以便嚴(yán)格把控風(fēng)險(xiǎn)和降低投資虧損概率。提升序列區(qū)分度問(wèn)題存在最優(yōu)解,即等級(jí)序列與概率之間呈均勻分布,此時(shí)不存在任何一個(gè)箱體的區(qū)分度高于或低于其他箱體,因此選擇等頻分箱法更符合建模需求。

      以箱體數(shù)量9個(gè)為例,分別代表1—9個(gè)信用利差區(qū)間即等級(jí)序列。每個(gè)箱體在偏正態(tài)分布上具有相等的積分值,因此通過(guò)逆累積分布函數(shù)即可求得每個(gè)箱體的利差區(qū)間閾值。為方便理解,同樣給予級(jí)別符號(hào)對(duì)應(yīng)表示。表2為房地產(chǎn)業(yè)樣本的等頻分箱結(jié)果??梢钥匆?,測(cè)試樣本的分箱結(jié)果與理論值較為接近,卡方擬合優(yōu)度檢驗(yàn)結(jié)果無(wú)顯著性差異,整體區(qū)分度較顯著。

      (二)違約概率與冪律分布

      對(duì)違約數(shù)據(jù)的統(tǒng)計(jì)表明,當(dāng)資產(chǎn)的信用質(zhì)量下降時(shí),違約概率將以類指數(shù)形式增長(zhǎng)。目前我國(guó)較多商業(yè)銀行使用指數(shù)分布對(duì)違約概率進(jìn)行預(yù)測(cè)(周四軍和彭建剛,2008),即首先根據(jù)卡普蘭生存分析法統(tǒng)計(jì)不同時(shí)間期限下樣本的累積違約頻率,再根據(jù)數(shù)據(jù)真值進(jìn)行指數(shù)分布擬合得到對(duì)違約概率的預(yù)測(cè)。但指數(shù)分布的無(wú)記憶性特點(diǎn)與違約事件相矛盾,表現(xiàn)為系統(tǒng)內(nèi)下一時(shí)刻的狀態(tài)僅與當(dāng)前狀態(tài)有關(guān),而與過(guò)去無(wú)關(guān),該特點(diǎn)忽略了信用質(zhì)量變化過(guò)程對(duì)違約概率所造成的影響,因此其盡管與違約率數(shù)據(jù)擬合度較高,但并不具備經(jīng)濟(jì)學(xué)解釋性。

      冪律分布同樣體現(xiàn)出與違約率數(shù)據(jù)的高擬合度,并且其內(nèi)在原理應(yīng)用于違約事件具備良好的解釋性。冪律現(xiàn)象可簡(jiǎn)單描述為事件發(fā)生的概率與事件規(guī)模的某個(gè)負(fù)指數(shù)成比例。導(dǎo)致冪律現(xiàn)象的原因包括自組織臨界論、優(yōu)先鏈接理論和大偏差理論,各理論均在極端事件的金融問(wèn)題的應(yīng)用中有著重要作用(胡海波和王林,2005)。

      將等級(jí)序列定義為隨機(jī)變量x,對(duì)應(yīng)的y值為違約概率。在樣本數(shù)據(jù)同時(shí)包括x值和y值時(shí),使用曲線擬合可獲得目標(biāo)函數(shù)表達(dá)式和擬合優(yōu)度,實(shí)現(xiàn)參數(shù)估計(jì)和假設(shè)檢驗(yàn)的效果。本文以穆迪評(píng)級(jí)官方披露的1983—2020年全球平均累積違約率數(shù)據(jù)為樣本進(jìn)行檢驗(yàn),各期限下的違約數(shù)據(jù)擬合效果如表3所示,10年期樣本的擬合結(jié)果如圖4所示。

      根據(jù)表2信用利差的等頻分箱數(shù)據(jù),統(tǒng)計(jì)序列1—9下房地產(chǎn)業(yè)樣本1年期違約率,使用冪律分布進(jìn)行曲線擬合,結(jié)果如表4所示。由于我國(guó)信用債市場(chǎng)目前所積累的違約樣本依舊較少,樣本數(shù)據(jù)存在刪失和截尾現(xiàn)象,因此擬合效果有所減弱。

      (三)信用利差與違約概率

      根據(jù)前述原理,可建立信用利差與違約概率之間的函數(shù)關(guān)系,步驟如下:

      (1)定義資產(chǎn)的信用利差為x,信用風(fēng)險(xiǎn)為u,違約概率為y,均為連續(xù)變量;

      (2)信用利差x取值范圍為[0,+ ∞);

      (3)信用風(fēng)險(xiǎn)u取值范圍為[0, k],k越大代表信用風(fēng)險(xiǎn)越大;

      (4)違約概率y取值范圍為[0, 1],理論上可取至1;

      (5)信用利差x服從偏正態(tài)概率分布,定義偏正態(tài)概率分布的累積分布函數(shù)為skew (x);

      (6)等頻分箱原則表明信用風(fēng)險(xiǎn)u的大小通過(guò)信用利差x在偏正態(tài)分布中所處的位置體現(xiàn),x的累積分布函數(shù)值越小則信用風(fēng)險(xiǎn)越低,skew(x) 與u之間為線性正相關(guān),滿足:

      u = k ·skew(x)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)

      (7)給定期限下,信用風(fēng)險(xiǎn)u和違約概率y之間滿足參數(shù)為C和α的冪律函數(shù):

      y = C · u-α? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)

      (8)則信用利差x與違約概率y之間的函數(shù)關(guān)系為:

      y = C · k-α[skew(x)]-α? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (5)

      將前述偏正態(tài)分布和冪律函數(shù)的參數(shù)估計(jì)值代入公式(5),在利差樣本最小值和最大值范圍內(nèi)創(chuàng)建等差序列,生成利差向量x,并繪制函數(shù)曲線。圖5為理論模型下房地產(chǎn)業(yè)信用利差與1年期違約概率的映射關(guān)系。樣本中信用利差最大值為686.29bp,此時(shí)資產(chǎn)的1年期違約概率約為11.96%。

      (四)信用利差預(yù)測(cè)與BP神經(jīng)網(wǎng)絡(luò)

      計(jì)算機(jī)算力的增長(zhǎng)和人工智能的發(fā)展推動(dòng)了機(jī)器學(xué)習(xí)在金融風(fēng)控領(lǐng)域的應(yīng)用。其中,神經(jīng)網(wǎng)絡(luò)算法(聞新等,2015)具有優(yōu)良的多維非線性映射能力和柔性的網(wǎng)絡(luò)結(jié)構(gòu),其理論上可擬合出變量任何形式的變化,因此在機(jī)器學(xué)習(xí)算法中具備極高的上限。其中,由Rumelhart和Mcclelland(1986)提出的BP神經(jīng)網(wǎng)絡(luò)是基于誤差逆向傳播(Back Propagation,BP)對(duì)多層前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的算法。該算法并非在建模前將描述變量之間關(guān)系的函數(shù)表達(dá)式揭露并固定下來(lái),而是使用最速下降法,通過(guò)反向傳播方式反復(fù)訓(xùn)練和調(diào)整網(wǎng)絡(luò)的權(quán)值和偏差,使輸出結(jié)果與期望結(jié)果盡可能地接近,即網(wǎng)絡(luò)輸出層的誤差平方和最小。

      本文首先選擇截至2021年末房地產(chǎn)業(yè)和銀行業(yè)存續(xù)債券的發(fā)行主體,作為兩組樣本進(jìn)行對(duì)比和模型穩(wěn)健性檢驗(yàn);其次選擇結(jié)構(gòu)化財(cái)務(wù)數(shù)據(jù)作為特征值,先后使用信用利差和等級(jí)序列作為標(biāo)簽值,進(jìn)行BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練。數(shù)據(jù)清洗方面,對(duì)相同發(fā)行人的債券僅保留單一值,并剔除信用利差小于零的樣本。特征值選擇方面,選擇WIND金融終端中包括盈利能力、收益質(zhì)量、現(xiàn)金流量、資本結(jié)構(gòu)、償債能力和運(yùn)營(yíng)能力的全部財(cái)務(wù)指標(biāo),分類進(jìn)行主成分分析。選擇每類中主成分累積貢獻(xiàn)度大于90%的指標(biāo)納入特征值,進(jìn)行數(shù)據(jù)降維;同時(shí)對(duì)數(shù)據(jù)進(jìn)行歸一化處理,消除不同特征值之間的量綱差距。最終房地產(chǎn)業(yè)樣本組的樣本數(shù)量為695個(gè),特征值數(shù)量為23個(gè);銀行業(yè)樣本組的樣本數(shù)量為820個(gè),特征值數(shù)量為18個(gè)①。

      需要指出的是,對(duì)信用利差的預(yù)測(cè)并不具備建立時(shí)間序列模型的條件。信用債發(fā)行主體的財(cái)務(wù)數(shù)據(jù)所披露的頻率通常以年度為基準(zhǔn),季度和半年度報(bào)告的數(shù)據(jù)完整性較差且未經(jīng)過(guò)審計(jì),數(shù)據(jù)集質(zhì)量并不理想。而債券發(fā)行期限通常以3至10年為主,這意味著數(shù)據(jù)集的最大時(shí)間窗口通常在10個(gè)步長(zhǎng)以內(nèi),若再對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練集與測(cè)試集的分割,則每個(gè)數(shù)據(jù)集的時(shí)間步長(zhǎng)極短,模型難以在訓(xùn)練學(xué)習(xí)中發(fā)現(xiàn)規(guī)律。因此,在對(duì)信用風(fēng)險(xiǎn)的動(dòng)態(tài)監(jiān)測(cè)過(guò)程中,應(yīng)定期抓取存續(xù)樣本和采集特征值,重新訓(xùn)練模型并獲得預(yù)測(cè)結(jié)果。

      本文使用列文伯格·馬夸爾特算法,將訓(xùn)練集、驗(yàn)證集與測(cè)試集數(shù)量設(shè)置為2∶1∶1;隱含層數(shù)量根據(jù)經(jīng)驗(yàn)公式設(shè)置為? 層,其中n和m分別為輸入節(jié)點(diǎn)數(shù)量和輸出節(jié)點(diǎn)數(shù)量;經(jīng)歷10輪完整學(xué)習(xí),并記錄測(cè)試集回歸系數(shù)R的均值和最大值。

      將僅使用財(cái)務(wù)指標(biāo)的訓(xùn)練過(guò)程記為“訓(xùn)練1”,其測(cè)試集回歸結(jié)果如表5所示,可見訓(xùn)練結(jié)果較為一般。銀行業(yè)的回歸系數(shù)高于房地產(chǎn)業(yè),對(duì)信用利差預(yù)測(cè)的準(zhǔn)確性高于對(duì)等級(jí)序列預(yù)測(cè)。在特征值中引入部分經(jīng)營(yíng)數(shù)據(jù)和文本數(shù)據(jù)以優(yōu)化預(yù)測(cè)結(jié)果,對(duì)于房地產(chǎn)業(yè)樣本,在特征值中引入所在省份的GDP總量、GDP增速、股東背景和債券擔(dān)保方式;對(duì)于銀行業(yè)樣本,引入存貸款總額、不良貸款率、撥備率、凈息差和股東背景,并再次訓(xùn)練記為“訓(xùn)練2”。

      訓(xùn)練2測(cè)試集回歸結(jié)果如表6所示??梢钥闯?,引入除財(cái)務(wù)數(shù)據(jù)外的其他評(píng)價(jià)要素后,模型預(yù)測(cè)的準(zhǔn)確性顯著上升,其中房地產(chǎn)業(yè)的提升效果更為明顯。銀行業(yè)的回歸結(jié)果依然優(yōu)于房地產(chǎn)業(yè),可能與商業(yè)銀行所披露的數(shù)據(jù)質(zhì)量更高、信用利差跨度較小有關(guān)。使用等級(jí)序列進(jìn)行預(yù)測(cè)的準(zhǔn)確性略低,可能與位于序列端點(diǎn)的樣本被誤分類有關(guān)。其中,銀行業(yè)在訓(xùn)練2中回歸系數(shù)最高的一次學(xué)習(xí)結(jié)果如圖6所示。

      信用風(fēng)險(xiǎn)的內(nèi)源性體現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)對(duì)風(fēng)險(xiǎn)衡量的重要性,即決定信用風(fēng)險(xiǎn)的因素不僅包括定量數(shù)據(jù),還包括對(duì)定性指標(biāo)的加工處理。由于定性指標(biāo)判別所需的時(shí)長(zhǎng)較長(zhǎng)、工作量極大,本文僅進(jìn)行了少量定性指標(biāo)的判別,因此呈現(xiàn)的訓(xùn)練結(jié)果并非最優(yōu),但仍優(yōu)于傳統(tǒng)的信用風(fēng)險(xiǎn)衡量模型,特別是對(duì)評(píng)級(jí)結(jié)果95%以上集中于AA-以上的中國(guó)債券市場(chǎng)而言,可起到深度量化的效果。將新樣本的特征值數(shù)據(jù)輸入BP神經(jīng)網(wǎng)絡(luò)模型,即可輸出該樣本信用利差的預(yù)測(cè)結(jié)果;再將輸出的信用利差代入公式(5),即可獲得對(duì)應(yīng)時(shí)間期限下的違約概率。實(shí)際操作過(guò)程中,提取聚類后樣本在不同時(shí)間截點(diǎn)的信用利差、特征值數(shù)據(jù)和累積違約概率,即可通過(guò)BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)對(duì)信用風(fēng)險(xiǎn)的動(dòng)態(tài)量化。

      (五)違約預(yù)測(cè)與支持向量機(jī)

      目前宏觀經(jīng)濟(jì)下行導(dǎo)致信用風(fēng)險(xiǎn)加劇,資產(chǎn)違約問(wèn)題日漸凸顯,金融風(fēng)控對(duì)違約預(yù)警提出了更強(qiáng)的需求。支持向量機(jī)(SVM)為有監(jiān)督學(xué)習(xí)中的廣義線性分類器,十分適合解決二分類和回歸問(wèn)題(周志華,2016)。該算法根據(jù)VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,在樣本中求解最大邊距超平面,尋找分割樣本的最優(yōu)決策邊界(Vapnik和Chervonenkis,1964) 。對(duì)于線性不可分問(wèn)題,SVM通過(guò)徑向基函數(shù)核,將非線性低維空間樣本映射至高維空間,使其變?yōu)榫€性可分問(wèn)題,在該空間中尋找最優(yōu)分類超平面。因此,滿足利用高維財(cái)務(wù)數(shù)據(jù)解決二分類問(wèn)題的違約預(yù)警需求(張杰和趙峰,2013)。

      由于季度財(cái)務(wù)數(shù)據(jù)可獲取性較低,本文統(tǒng)一選取年度財(cái)務(wù)數(shù)據(jù)納入多維數(shù)據(jù)集。行業(yè)聚類上選擇房地產(chǎn)業(yè)樣本,該行業(yè)違約樣本較多,可降低樣本不均衡的影響。對(duì)于違約樣本,本文選取違約前的年度財(cái)務(wù)數(shù)據(jù);對(duì)于未違約樣本,本文選取2021年末財(cái)務(wù)數(shù)據(jù),代表存續(xù)債券發(fā)行人的最新財(cái)務(wù)狀況。在進(jìn)行數(shù)據(jù)清洗、歸一化處理和主成分分析后,最終總樣本數(shù)量為585個(gè),數(shù)據(jù)集特征值數(shù)量為30個(gè);違約樣本數(shù)量為25個(gè),未違約樣本數(shù)量為560個(gè)②。

      違約事件的特點(diǎn)導(dǎo)致樣本顯著不均衡,因此使用誤分類代價(jià)增強(qiáng)和Stratified K-fold交叉驗(yàn)證解決樣本不均衡和過(guò)擬合問(wèn)題,增強(qiáng)訓(xùn)練模型的穩(wěn)定性。

      誤分類代價(jià)增強(qiáng)方面,由于金融風(fēng)控領(lǐng)域更注重對(duì)正樣本(即違約樣本)的篩選能力,以盡可能減小遺漏正樣本造成的損失,對(duì)誤分類正樣本的代價(jià)進(jìn)行設(shè)置。權(quán)重設(shè)置為向上取整后樣本集中負(fù)樣本與正樣本數(shù)量的比值。

      Stratified K-fold交叉驗(yàn)證方面,將數(shù)據(jù)集分為5個(gè)容量相等的折疊,每個(gè)折疊具有相等數(shù)量的違約樣本;每次選取1個(gè)折疊作為測(cè)試集,剩余4個(gè)作為訓(xùn)練集,并取訓(xùn)練集中1個(gè)折疊為驗(yàn)證集,重復(fù)5次直至每個(gè)折疊均用作驗(yàn)證集,最終取驗(yàn)證數(shù)據(jù)的平均精度作為結(jié)果。

      本文使用一對(duì)一多類方式,分別使用以下核函數(shù)進(jìn)行模型訓(xùn)練。除優(yōu)化高斯核之外,均對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。最終測(cè)試集測(cè)試結(jié)果如表7所示,模型誤差如圖7所示。查全率反映實(shí)際違約樣本中預(yù)測(cè)正確的比例,因此在信用風(fēng)險(xiǎn)衡量方面,該指標(biāo)相對(duì)查準(zhǔn)率更被看重。綜合而言,高斯核和優(yōu)化高斯核的SVM模型表現(xiàn)最優(yōu)。優(yōu)化高斯核模型為可優(yōu)化模型中的最佳點(diǎn)超參數(shù)模型,對(duì)高斯核模型中的核尺度和框約束級(jí)別均做了調(diào)整,未對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。由于原始數(shù)據(jù)集指標(biāo)中絕大多數(shù)為比率指標(biāo),其余規(guī)模指標(biāo)在爬取時(shí)對(duì)計(jì)算單位進(jìn)行了處理,因此模型表現(xiàn)未受到顯著影響。

      結(jié)果反映出SVM算法的測(cè)試效果較好,可對(duì)違約風(fēng)險(xiǎn)進(jìn)行有效預(yù)警。在資產(chǎn)存續(xù)期內(nèi),利用資產(chǎn)最近一期的財(cái)務(wù)數(shù)據(jù)建立多維數(shù)據(jù)集,可實(shí)現(xiàn)對(duì)違約風(fēng)險(xiǎn)的定期動(dòng)態(tài)跟蹤,為投資決策的調(diào)整提供參考依據(jù)。

      五、結(jié)論

      (一)改進(jìn)與創(chuàng)新

      與傳統(tǒng)模型相比,本文一方面綜合考慮內(nèi)生變量與外生變量,通過(guò)引入中間變量完整了信用風(fēng)險(xiǎn)傳遞的邏輯關(guān)系;另一方面,驗(yàn)證了機(jī)器學(xué)習(xí)模型在信用風(fēng)險(xiǎn)衡量領(lǐng)域應(yīng)用的可行性,依靠算力模擬和迭代優(yōu)化,機(jī)器學(xué)習(xí)提高了量化結(jié)果的準(zhǔn)確度。

      在函數(shù)使用方面,本文模型弱化了線性和基礎(chǔ)函數(shù)在信用風(fēng)險(xiǎn)衡量領(lǐng)域的應(yīng)用,使用非線性和積分變換等復(fù)雜函數(shù)映射變量關(guān)系,依靠BP神經(jīng)網(wǎng)絡(luò)的多層網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)更復(fù)雜更精細(xì)的算法。

      在實(shí)際風(fēng)控需求方面,等頻分箱處理、信用利差與違約概率映射、神經(jīng)網(wǎng)絡(luò)隱含層數(shù)設(shè)置、特征值選擇和優(yōu)化方向等內(nèi)容均能對(duì)風(fēng)控工作起到借鑒作用。

      (二)局限性

      外生變量的推論統(tǒng)計(jì)需要具備大量樣本,以避免欠擬合現(xiàn)象。因此,當(dāng)資產(chǎn)為信貸資產(chǎn)時(shí),商業(yè)銀行可通過(guò)積累的大量樣本進(jìn)行數(shù)據(jù)擬合;而當(dāng)資產(chǎn)為標(biāo)準(zhǔn)化債券時(shí),由于我國(guó)債券市場(chǎng)積累的違約樣本不足,刪失和截尾現(xiàn)象較多,數(shù)據(jù)擬合度難以提升。

      在BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面,受限于人力成本和時(shí)間成本,本文未將獲取較為困難的經(jīng)營(yíng)數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)納入數(shù)據(jù)集,因此測(cè)試結(jié)果并非最優(yōu)。未來(lái),在特征值中加入處理后的文本和字段信息,可進(jìn)一步提升模型泛化能力。

      各類機(jī)器學(xué)習(xí)均具備一定局限性。例如BP神經(jīng)網(wǎng)絡(luò)易出現(xiàn)收斂速度慢和局部極小值的問(wèn)題;支持向量機(jī)對(duì)缺失數(shù)據(jù)和異常數(shù)據(jù)較為敏感,對(duì)數(shù)據(jù)預(yù)處理要求較高。同時(shí)多數(shù)機(jī)器學(xué)習(xí)具有“黑箱特性”,即算法過(guò)程難以使用人類語(yǔ)言描述,困于被廣泛理解和接受。

      (三)政策建議

      本文構(gòu)建的模型可幫助投資者或風(fēng)控人員量化信用風(fēng)險(xiǎn)和預(yù)警違約風(fēng)險(xiǎn),使其根據(jù)自身需求進(jìn)行資產(chǎn)配置或調(diào)整投資頭寸,做到風(fēng)險(xiǎn)和收益的平衡。對(duì)監(jiān)管機(jī)構(gòu)而言,有助于其把控市場(chǎng)整體信用風(fēng)險(xiǎn),為監(jiān)管政策的制定提供借鑒,落實(shí)經(jīng)濟(jì)回穩(wěn)向上的發(fā)展政策。因此,對(duì)金融市場(chǎng)的信用風(fēng)險(xiǎn)防控,本文提出以下建議:

      一是加強(qiáng)信息披露維度和頻率,推進(jìn)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)。數(shù)據(jù)基礎(chǔ)設(shè)施的完善可提升風(fēng)險(xiǎn)量化的精準(zhǔn)性和風(fēng)險(xiǎn)監(jiān)測(cè)的及時(shí)性,而目前交易市場(chǎng)中關(guān)于各類資產(chǎn)的違約率數(shù)據(jù)存在刪失和截尾現(xiàn)象,披露頻率較低,影響信用風(fēng)險(xiǎn)衡量的準(zhǔn)確性和動(dòng)態(tài)跟蹤。對(duì)此,應(yīng)加強(qiáng)公開市場(chǎng)數(shù)據(jù)披露的維度和頻率,提升數(shù)據(jù)的有效性和時(shí)效性。

      二是規(guī)范信息披露口徑和標(biāo)準(zhǔn)。商業(yè)銀行受到嚴(yán)格監(jiān)管,所披露的規(guī)范化數(shù)據(jù)提升了數(shù)據(jù)集質(zhì)量,有利于降低金融市場(chǎng)中的信噪比,提高模型的訓(xùn)練效果。相比而言,其他行業(yè)的數(shù)據(jù)口徑不一、可使用指標(biāo)數(shù)量較少,增加了噪聲信息。對(duì)此,各類非金融企業(yè)行業(yè)協(xié)會(huì)應(yīng)規(guī)范數(shù)據(jù)披露標(biāo)準(zhǔn),包括統(tǒng)計(jì)準(zhǔn)則、口徑和管理方法等,提升數(shù)據(jù)質(zhì)量和真實(shí)性。

      三是加強(qiáng)高風(fēng)險(xiǎn)資產(chǎn)市場(chǎng)化經(jīng)營(yíng)能力,健全違約資產(chǎn)處置機(jī)制。借鑒成熟的金融市場(chǎng)的機(jī)制設(shè)置經(jīng)驗(yàn),例如完善高收益?zhèn)袌?chǎng)和違約資產(chǎn)的分類處置,真實(shí)反映信用風(fēng)險(xiǎn),進(jìn)而提升高風(fēng)險(xiǎn)資產(chǎn)的定價(jià)合理性、交易流動(dòng)性和市場(chǎng)穩(wěn)定性,實(shí)現(xiàn)整個(gè)金融市場(chǎng)的資源配置優(yōu)化、風(fēng)險(xiǎn)分散和經(jīng)濟(jì)調(diào)節(jié)等功能。

      注釋:

      ① 數(shù)據(jù)集較為龐大,限于篇幅本文不再列出,僅作者留存?zhèn)洳椤?/p>

      ② 限于篇幅本文不再將數(shù)據(jù)集列出,作者留存?zhèn)浒浮?/p>

      參考文獻(xiàn):

      [1] AZZALINI A. A class of distributions which includes the normal ones[J]. Scandinavian Journal of Statistics, 1985,12:171-178.

      [2] 周四軍,彭建剛.商業(yè)銀行信用風(fēng)險(xiǎn)量化新方法:死亡率模型[J].統(tǒng)計(jì)與決策, 2008(14):26-28.

      [3] 胡海波,王林.冪律分布研究簡(jiǎn)史[J].物理, 2005, 34(12):889-896.

      [4] 聞新,李新,張興旺.應(yīng)用MATLAB實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)[M].北京:國(guó)防工業(yè)出版社, 2015:95-159.

      [5] RUMELHART D E, MCCLELLAND J L.Parallel Distributed Processing[M]. Massachusetts: MIT Press, 1986:318-362.

      [6] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:? 125-135.

      [7] VAPNIK V,CHERVONENKIS A. A note on class of perceptron[J]. Automation and Remote Control, 1964, 25(01).

      [8] 張杰,趙峰.基于支持向量機(jī)的中小企業(yè)技術(shù)信貸違約預(yù)測(cè)[J].統(tǒng)計(jì)與決策, 2013(20):66-69.

      (責(zé)任編輯:張艷妮/校對(duì):唐詩(shī)柔)

      Abstract: Traditional credit-risk measurement models have difficulty in dealing with high-dimensional data and nonlinear problems, and often have strict assumptions, leading to large errors between the calculated results and the actual situation. This paper considers both endogenous and exogenous variables that affect credit risk, uses a more optimal nonlinear transformation method to fit the data, and quantifies credit risk with the powerful computational and iterative learning advantages of machine learning. Empirical results show that the algorithm of this model can improve the fitting and accuracy of predictive results.

      Keywords: Bond market; Machine learning; Credit-risk measurement

      猜你喜歡
      機(jī)器學(xué)習(xí)債券市場(chǎng)
      債券市場(chǎng)對(duì)外開放的進(jìn)程與展望
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      我國(guó)債券市場(chǎng)的久期分析
      招远市| 馆陶县| 富锦市| 宾川县| 泉州市| 南部县| 盘山县| 蓬莱市| 陆丰市| 富川| 银川市| 郎溪县| 文昌市| 武定县| 刚察县| 黄骅市| 松阳县| 内乡县| 丰宁| 台湾省| 肃宁县| 安国市| 时尚| 中西区| 烟台市| 繁峙县| 奎屯市| 哈密市| 巧家县| 元谋县| 当涂县| 松原市| 油尖旺区| 海门市| 大连市| 聂荣县| 桦南县| 花垣县| 乐清市| 盐山县| 大同县|