□ 李仁祥
(蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 甘肅 蘭州 730020)
由于地震損失數(shù)據(jù)具有尖峰厚尾的特性,使得傳統(tǒng)的均值線性模型不能很好的解釋。于是考慮選擇使用分位數(shù)回歸,因?yàn)榉治粩?shù)回歸不用設(shè)定像傳統(tǒng)均值模型的正態(tài)分布假設(shè)以及建立分布的參數(shù)。近幾年研究提出了函數(shù)系數(shù)的分位數(shù)回歸模型,該模型假設(shè)模型的回歸參數(shù)和分位數(shù)水平p有某些函數(shù)關(guān)系,這樣可以直接估計(jì)出函數(shù)關(guān)系,避免了分位數(shù)回歸需要在不同分位數(shù)水平下建模的局限性。例如,孟生旺和李云仙通(2019)[1]過分析了傳統(tǒng)分?jǐn)?shù)回歸和函數(shù)系數(shù)分位數(shù)回歸的優(yōu)缺點(diǎn),并基于我國(guó)地震損失數(shù)據(jù)討論的它們的應(yīng)用和以及計(jì)算了在不同條件下的風(fēng)險(xiǎn)度量。但是,影響地震損失的個(gè)因素不一定是線性的關(guān)系,如果只是使用分位數(shù)回歸模型討論可能會(huì)有一定的偏差。例如,許啟發(fā)(2014)[2]使用神經(jīng)網(wǎng)絡(luò)分位數(shù)的VaR風(fēng)險(xiǎn)測(cè)度,解決了VaR風(fēng)險(xiǎn)測(cè)度在尾部風(fēng)險(xiǎn)測(cè)度的難題。阮素梅和于寧(2015)[3]使用神經(jīng)網(wǎng)絡(luò)分位數(shù)模型對(duì)證券投資收益條件密度函數(shù)預(yù)測(cè)。何耀耀等(2013)[4]使用神經(jīng)網(wǎng)絡(luò)分位數(shù)模型推測(cè)電力系統(tǒng)短期負(fù)荷,得到了更精確的結(jié)果。
機(jī)器學(xué)習(xí)算法作為一個(gè)新的預(yù)測(cè)模型,在很多的領(lǐng)域獲得了一定的效果,尤其在車險(xiǎn)損失的預(yù)測(cè)和車險(xiǎn)費(fèi)率的厘定。例如,孟生旺(2012)[5]首次使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)汽車保險(xiǎn)的索賠頻率,提高了汽車保險(xiǎn)索賠頻率的預(yù)測(cè)準(zhǔn)確度。孟生旺(2017)[6]把機(jī)器學(xué)習(xí)算法使用在索賠發(fā)生概率和累積賠款預(yù)測(cè)當(dāng)中,并基于真實(shí)的汽車保險(xiǎn)損失數(shù)據(jù)進(jìn)行實(shí)證檢驗(yàn)。
本文將對(duì)地震損失數(shù)據(jù)分別建立線性回歸模型、線性分位數(shù)回歸模型和神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸模型,對(duì)比3個(gè)模型的結(jié)果。神經(jīng)網(wǎng)絡(luò)模型目前尚未被用到地震損失數(shù)據(jù)預(yù)測(cè)當(dāng)中,所以本研究具有一定的理論意義;并且相關(guān)管理人員在進(jìn)行決策的時(shí)候,本研究結(jié)果可以提供一些參考,具有一定的意義。
為了彌補(bǔ)線性回歸只能描述解釋變量對(duì)被解釋變量條件均值影響和隨機(jī)項(xiàng)要均值是0并且同方差的正態(tài)分布,Koenker等提出了分位數(shù)回歸模型。分位數(shù)回歸模型描述了解釋變量對(duì)于被解釋變量的條件變化影響,以及它的隨機(jī)項(xiàng)不用具體的分布假設(shè)。
給一個(gè)分位點(diǎn)τ(0<τ<1),y為被解釋變量,x為解釋變量,則分位數(shù)回歸模型為:QT(Y|x)=XTβτ。其中QT(Y|x)被叫做是τ的條件分為數(shù)函數(shù)。βτ為估計(jì)參數(shù)。
分位數(shù)回歸主要有兩種參數(shù)估計(jì)的方法一種是單純形算法,另一種是內(nèi)點(diǎn)法。單純形算法在處理樣本量不大并且自變量個(gè)數(shù)不多時(shí)候得出的參數(shù)穩(wěn)定性比較好,但是處理大量數(shù)據(jù)運(yùn)算時(shí)候速度會(huì)明顯下降。而內(nèi)點(diǎn)法適合樣本量比較大,自變量不多的數(shù)據(jù)。比較常用的是單純形算法,本文就使用單純形算法進(jìn)行參數(shù)估計(jì)。建立非對(duì)稱損失函數(shù)
基于非對(duì)稱損失函數(shù),可以通過下式得到回歸系數(shù)的估計(jì)量:
神經(jīng)網(wǎng)絡(luò)分位數(shù)(QRNN)模型是一個(gè)非參數(shù)的分位數(shù)回歸模型。本文使用實(shí)踐中應(yīng)用最多的單個(gè)隱含層前饋神經(jīng)網(wǎng)絡(luò),其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為含有m個(gè)輸入變量(xi,i=1,2,…,m)的輸入層,對(duì)于本文這些變量是地震指數(shù),含有n個(gè)神經(jīng)單元的隱含層和1個(gè)輸出層,對(duì)于本文輸出層輸出的數(shù)據(jù)就是地震損失數(shù)據(jù)。模型結(jié)構(gòu)建立如下:
(1)建立從輸入層到隱含層的連接。
(2)從隱含層到輸出層的模型連接結(jié)構(gòu)。
本文根據(jù)Cannon提出的AIC準(zhǔn)則進(jìn)行最優(yōu)隱含層節(jié)點(diǎn)數(shù)的選取。
依據(jù)AIC準(zhǔn)則,使AIC(τ,n)值最小的n*值為最優(yōu)隱含層節(jié)點(diǎn)個(gè)數(shù),即:
確定好隱含層節(jié)點(diǎn)個(gè)數(shù)后,通過優(yōu)化目標(biāo)函數(shù)來實(shí)現(xiàn)參數(shù)估計(jì)。
從中國(guó)地震信息網(wǎng)中獲得我國(guó)大陸地區(qū)每次發(fā)生地震災(zāi)害的基礎(chǔ)數(shù)據(jù)信息,再綜合不同時(shí)間不同發(fā)生地震災(zāi)害事件所在省地震局的地震災(zāi)害評(píng)估信息,本文收集了1990年到2015年一共278次的地震災(zāi)害和經(jīng)濟(jì)損失信息(單位:萬元)。因?yàn)榈卣鹪斐傻漠?dāng)年經(jīng)濟(jì)損失受通貨膨脹或者經(jīng)濟(jì)增長(zhǎng)的影響,在進(jìn)行分析前,本節(jié)基于GDP的增長(zhǎng)率,把地震造成的經(jīng)濟(jì)損失數(shù)據(jù)調(diào)節(jié)到了1990年的水平。
通過初步分析得出,直接經(jīng)濟(jì)損失最小值是3,最大值是49960678,均值是184189,標(biāo)準(zhǔn)差是2996217。由此可以得出,樣本數(shù)據(jù)具有離散性大,有極端值的情況,直接通過觀察散點(diǎn)圖來得出地震經(jīng)濟(jì)損失與地震損失指數(shù)的關(guān)系比較困難。為了后續(xù)數(shù)據(jù)的直觀展示,本小結(jié)對(duì)地震直接經(jīng)濟(jì)損失數(shù)據(jù)取對(duì)數(shù),但是后續(xù)的數(shù)據(jù)分析還是使用未進(jìn)行取對(duì)數(shù)的數(shù)據(jù),取完對(duì)數(shù)之后的地震直接經(jīng)濟(jì)損失數(shù)據(jù)的基本統(tǒng)計(jì)量為:最小值是1.244,最大值是17.727,均值是6.509,標(biāo)準(zhǔn)差是2.108696,能夠看出對(duì)地震直接經(jīng)濟(jì)損失數(shù)據(jù)取完對(duì)數(shù)之后,數(shù)據(jù)離散程度得到了一定的降低。
對(duì)地震損失數(shù)據(jù)做Shapiro-Wilk檢驗(yàn),得出p值分別為0.0001539和小于2.2e-16。P值都小于0.05,表明地震損失數(shù)據(jù)在5%置信水平下拒絕原假設(shè),也就是說地震損失數(shù)據(jù)不服從正態(tài)分布。因此使用線性回歸分析不能較好的預(yù)測(cè)地震損失的規(guī)律,所以本文討論使用分位數(shù)回歸和神經(jīng)網(wǎng)絡(luò)分位數(shù)模型對(duì)地震損失數(shù)據(jù)規(guī)律進(jìn)行揭示。
考慮到地震震級(jí)和烈度之間有一定相關(guān)關(guān)系,所以本文先使用主成分分析對(duì)震級(jí)和烈度做了分析,取其第一主成分作為地震損失指數(shù)(d)。分別做了地震震級(jí)、地震烈度和地震損失指數(shù)對(duì)地震損失數(shù)據(jù)的線性回歸,其中地震損失指數(shù)得出模型的R方是最大的為0.054,其它兩個(gè)模型分別是0.044和0.038,也就是說地震指數(shù)模型的效果比其它兩個(gè)模型要好。所以本文接下來將使用由地震震級(jí)、地震烈度構(gòu)成的地震損失指數(shù)作為被解釋變量。d=0.85*震級(jí)+0.85*烈度
(1)線性回歸模型和分位數(shù)回歸的結(jié)果就比較
表1是關(guān)于線性回歸模型和分位數(shù)回歸模型的實(shí)證結(jié)果比較,分位數(shù)回歸的分位點(diǎn)分別選取0.15、0.25、0.5、0.75、0.9這5個(gè)數(shù)。
表1 線性回歸與分位數(shù)回歸對(duì)比
比較表1中的線性回歸模型和分位數(shù)回歸模型結(jié)果可知,線性回歸模型和分位數(shù)回歸模型中的高分位點(diǎn)結(jié)果更接近。從表1中分位數(shù)回歸來看地震損失指數(shù)在低分為點(diǎn)和最高分位點(diǎn)影響的顯著性沒有中間分位點(diǎn)的大,但在線性回歸模型中顯示有明顯的顯著影響;從之前的理論可以得知,線性回歸模型只能顯變量的一個(gè)平均變化情況,并不能像分位數(shù)回歸模型一樣能夠解釋每個(gè)分位點(diǎn)的變動(dòng)情況,因此線性回歸模型在解釋方面不夠精確,應(yīng)該選擇分位數(shù)回歸模型進(jìn)行分析結(jié)果。
(2)神經(jīng)網(wǎng)絡(luò)分位數(shù)模型與分位數(shù)回歸結(jié)果比較
根據(jù)AIC準(zhǔn)則,神經(jīng)網(wǎng)絡(luò)隱藏層的節(jié)點(diǎn)數(shù)選擇為5,建立神經(jīng)網(wǎng)絡(luò)分位數(shù)模型。
通過對(duì)均方誤差(RMSE)的計(jì)算,見表2,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)分位數(shù)模型的預(yù)測(cè)結(jié)果在分位點(diǎn)比較小的情況下表現(xiàn)比分位數(shù)回歸模型好,精度高。同時(shí)在高分位數(shù)這塊,與神經(jīng)網(wǎng)絡(luò)分位數(shù)相差不大。出現(xiàn)這樣的原因是因?yàn)樵诟叻治稽c(diǎn)附近有很大的地震損失數(shù)據(jù),比如唐山大地震和四川汶川大地震這樣的數(shù)據(jù),造成了在高分位點(diǎn)附近兩種模型效果相差不大的情況。但是就表4低分位點(diǎn)附近的數(shù)值進(jìn)一步說明了前面的結(jié)論地震損失指數(shù)這個(gè)變量對(duì)地震損失數(shù)據(jù)的影響表現(xiàn)出非線性關(guān)系。所以使用神經(jīng)網(wǎng)絡(luò)分位數(shù)模型進(jìn)行結(jié)果預(yù)測(cè)和解釋是相對(duì)有效的。
表2 神經(jīng)網(wǎng)絡(luò)分位數(shù)與分位數(shù)回歸RMSE對(duì)比
本文先對(duì)變量進(jìn)行一個(gè)整合對(duì)比,選出最適合的變量進(jìn)行建模。然后分別使用了線性模型、線性分位數(shù)回歸模型和神經(jīng)網(wǎng)絡(luò)分位數(shù)模型構(gòu)建模型,通過比較發(fā)現(xiàn)線性回歸模型只有一個(gè)結(jié)果因?yàn)樗菍?duì)均值回歸建模的,所以不能夠完全說明變量的分布特征。但是分位數(shù)回歸模型能夠解釋各變量在不同分位點(diǎn)的變化、影響程度以及分布情況。又因?yàn)樽兞颗c解釋變量之間存在一定的非線性關(guān)系,使用線性回歸模型和線性分位數(shù)回歸模型進(jìn)行分析就會(huì)出現(xiàn)一定的偏差。因此,為了說明變量之間的分布特征,還能獲得較好的預(yù)測(cè)精度,本文選擇了神經(jīng)網(wǎng)絡(luò)分位數(shù)模型進(jìn)行分析。所以使用神經(jīng)網(wǎng)絡(luò)分位數(shù)模型進(jìn)行地震損失數(shù)據(jù)的預(yù)測(cè)具有一定的參考價(jià)值,并且發(fā)現(xiàn)使用該模型在低分位點(diǎn)附近有較好的效果,這為行業(yè)相關(guān)的管理者提供了一些有用的信息。