基于A R IM A 和LST M 的組合模型對(duì)壽險(xiǎn)保費(fèi)收入的預(yù)測(cè)

2021-12-13 07:31:26馮一鉑

科學(xué)技術(shù)創(chuàng)新 2021年33期

馮一鉑

（喀什大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，新疆喀什 844000）

隨著我國(guó)經(jīng)濟(jì)的繁榮發(fā)展，保險(xiǎn)行業(yè)在國(guó)家的政策下發(fā)展迅速，人們對(duì)于保險(xiǎn)了解的更加深入，這使得越來越多人愿意給自己及家人一份保障。因此壽險(xiǎn)保費(fèi)收入的預(yù)測(cè)，在國(guó)家、地區(qū)、公司對(duì)于下一階段政策的制定具有重要的指導(dǎo)意義。

基于傳統(tǒng)的保費(fèi)收入預(yù)測(cè)方法，使用單一預(yù)測(cè)模型對(duì)保費(fèi)收入進(jìn)行預(yù)測(cè)。孫景云等[1]對(duì)2004-2010 年兩家保險(xiǎn)公司的壽險(xiǎn)和財(cái)險(xiǎn)保費(fèi)收入進(jìn)行預(yù)測(cè)和分析，證明了ARIMA 乘積季節(jié)模型在保費(fèi)收入預(yù)測(cè)上有良好的適宜性；尹成遠(yuǎn)等[2]對(duì)1980-2010 年我國(guó)保費(fèi)收入進(jìn)行預(yù)測(cè)分析，通過模型預(yù)測(cè)我國(guó)“十二五”期間每年保費(fèi)收入，并結(jié)合《中國(guó)保險(xiǎn)業(yè)發(fā)展“十二五”規(guī)劃綱要》做出展望；張?chǎng)蔚萚4]基于灰色最優(yōu)化模型以東北三省為例，對(duì)保費(fèi)收入進(jìn)行預(yù)測(cè)，證明了經(jīng)過創(chuàng)新改進(jìn)的灰色最優(yōu)模型極大地提高了預(yù)測(cè)準(zhǔn)確度；何淑菁等[5]運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)對(duì)我國(guó)人身保費(fèi)收入進(jìn)行預(yù)測(cè)，表明神經(jīng)網(wǎng)絡(luò)模型與計(jì)量經(jīng)濟(jì)模型相比具有更高的預(yù)測(cè)精度。

通過查閱相關(guān)文獻(xiàn)以及學(xué)習(xí)，發(fā)現(xiàn)傳統(tǒng)模型的預(yù)測(cè)雖然有著操作簡(jiǎn)單、運(yùn)行速度快的優(yōu)點(diǎn)，但未考慮保費(fèi)收入時(shí)間序列數(shù)據(jù)是線性和非線性的組合，僅是單一的進(jìn)行線性或非線性預(yù)測(cè)。傳統(tǒng)的時(shí)間序列模型只能擬合保費(fèi)收入的線性時(shí)間序列部分，而神經(jīng)網(wǎng)絡(luò)算法可以任意地逼近非線性數(shù)據(jù)，所以本文將傳統(tǒng)的時(shí)間序列模型與神經(jīng)網(wǎng)絡(luò)算法進(jìn)行組合，構(gòu)建線性模型和非線性模型的組合模型對(duì)保費(fèi)收入進(jìn)行預(yù)測(cè)，并證明組合模型的預(yù)測(cè)準(zhǔn)確率比使用單個(gè)模型更準(zhǔn)確。神經(jīng)網(wǎng)絡(luò)算法可以很好地?cái)M合非線性數(shù)據(jù)，在眾多深度學(xué)習(xí)模型中，LSTM 神經(jīng)網(wǎng)絡(luò)[5-6]在時(shí)序數(shù)據(jù)分析中較BP 神經(jīng)網(wǎng)絡(luò)[5-6]表現(xiàn)出更強(qiáng)的適應(yīng)性，所以本文提出ARIMA 與LSTM 組合預(yù)測(cè)的方法，并利用銀保監(jiān)會(huì)公布的北京、天津、上海三個(gè)地區(qū)2006 年1月至2020 年12 月，共180 個(gè)月的壽險(xiǎn)保費(fèi)收入月度數(shù)據(jù)證明模型的有效性。

1 相關(guān)的模型理論及簡(jiǎn)介

1.1 ARIMA 模型

ARIMA(p,d,q)模型[1-3]叫差分自回歸移動(dòng)平均模型，AR 是自回歸，p 是自回歸項(xiàng)，MA 是移動(dòng)平均，q 為移動(dòng)平均項(xiàng)，d 為時(shí)間序列成為平穩(wěn)時(shí)所需做的差分次數(shù)。ARIMA 模型就是指將非平穩(wěn)時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列，然后將因變量?jī)H對(duì)它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。ARIMA 模型的通用表達(dá)[8]式為：

其中yt為時(shí)間序列y 的當(dāng)期值，yt-1為yt前一期的值，yt-2則為yt-1前一期的值，依次類推，Φ1，Φ2，……，Φp是自回歸系數(shù)，p 是自回歸階數(shù)，Θ1，Θ2，……，Θp是移動(dòng)平均系數(shù)，q 是移動(dòng)平均階數(shù)，{εt}是白噪聲序列。

1.2 LSTM 模型

長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)，是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的變型。RNN 進(jìn)行訓(xùn)練時(shí)采用通過時(shí)間反向傳播算法，為了解決在處理長(zhǎng)期依賴時(shí)的消失梯度問題，Hochreiter&Schmidhuber 提出長(zhǎng)短期記憶網(wǎng)絡(luò)模型，LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）相比傳統(tǒng)的RNN，有著更為精細(xì)的信息傳遞機(jī)制，能有效的解決長(zhǎng)時(shí)間的依賴問題。同時(shí)，作為Encoder-Decoder 框架中的基本細(xì)成單元，也能實(shí)現(xiàn)時(shí)間序列數(shù)據(jù)的編碼和解碼，用記憶單元代替RNN 中隱含層的LSTM 神經(jīng)元實(shí)現(xiàn)對(duì)過去信息的記憶，每個(gè)記憶單元中包含一個(gè)或多個(gè)記憶細(xì)胞和三個(gè)門控制器,LSTM 的核心是一個(gè)記憶單元，由遺忘門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)組成，“門”結(jié)構(gòu)能夠控制信息在網(wǎng)絡(luò)中的狀態(tài)。“門”結(jié)構(gòu)依賴于Sigmoid 激活函數(shù)，當(dāng)輸出為0 時(shí)，表示丟棄信息，當(dāng)輸出為1時(shí)，表示完全保留信息，其他情況表示保留部分信息。

1.3 組合模型

由于壽險(xiǎn)保費(fèi)收入時(shí)間序列數(shù)據(jù)比較復(fù)雜，既有線性趨勢(shì)又有非線性趨勢(shì)，使用單一的ARIMA 模型或LSTM 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)誤差都會(huì)比較大。所以，先利用ARIMA 模型預(yù)測(cè)各地區(qū)壽險(xiǎn)保費(fèi)收入的時(shí)間序列線性部分，時(shí)間序列的非線性部分就包含在了ARIMA 模型的誤差部分，然后利用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)ARIMA 的誤差序列進(jìn)行預(yù)測(cè)，將ARIMA 的預(yù)測(cè)值和LSTM 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值求和，則可得到最終的組合模型預(yù)測(cè)值。

2 實(shí)驗(yàn)過程

2.1 ARIMA 模型的建立

ARIMA 模型以2017 年1 月至2020 年12 月48 個(gè)月的數(shù)據(jù)作為測(cè)試集，其他月份的數(shù)據(jù)為訓(xùn)練集，該模型利用Python構(gòu)建。

2.1.1 壽險(xiǎn)保費(fèi)收入時(shí)間序列平穩(wěn)化

在使用ARIMA 模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)前，先通過ADF 檢驗(yàn)即單位根檢驗(yàn)來判斷差分前后的序列是否平穩(wěn)。在0.05 的顯著性水平下，原始序列不平穩(wěn)。分別對(duì)不同地區(qū)數(shù)據(jù)進(jìn)行差分，可以看出北京、天津和上海的數(shù)據(jù)都在進(jìn)行12 階差分后數(shù)據(jù)趨于平穩(wěn)，故d北京=2、d天津=2、d上海=2。隨后利用自相關(guān)（ACF）圖和偏自相關(guān)（PACF）圖，以及AIC 最小的準(zhǔn)則來確定p 和q 的值。

最終通過實(shí)驗(yàn)確定三個(gè)地區(qū)的ARIMA 模型，北京壽險(xiǎn)保費(fèi)收入的模型為ARIMA（0,2,1），天津壽險(xiǎn)保費(fèi)收入的模型為ARIMA（1,2,1），上海壽險(xiǎn)保費(fèi)收入的模型為ARIMA(0,2,1)。

2.1.2 參數(shù)估計(jì)及模型的檢驗(yàn)

利用最大似然法進(jìn)行各個(gè)階數(shù)的參數(shù)估計(jì)，得到各階的系數(shù)估計(jì)以及標(biāo)準(zhǔn)誤差。估計(jì)結(jié)果如表1 所示。

表1 ARIMA 系數(shù)估計(jì)結(jié)果（注：括號(hào)內(nèi)數(shù)值為標(biāo)準(zhǔn)誤差）

對(duì)三個(gè)模型的殘差序列進(jìn)行Ljung_Box 檢驗(yàn)，得到北京、天津、上海三個(gè)地區(qū)ARIMA 模型得殘差序列的Ljung_Box 檢驗(yàn)結(jié)果的p 值分別為0.983、0.369、0.479，在0.05 的顯著性水平下，可以判斷三個(gè)殘差序列均為白噪聲，表明所構(gòu)建的模型是有效的。

2.2 LSTM 神經(jīng)網(wǎng)絡(luò)的建立

通過Python 的keras 庫實(shí)現(xiàn)LSTM 神經(jīng)網(wǎng)絡(luò)的構(gòu)建。使用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)各地區(qū)殘差序列進(jìn)行預(yù)測(cè)，同樣使用2017 年1 月至2020 年12 月的數(shù)據(jù)作為測(cè)試集，并對(duì)數(shù)據(jù)進(jìn)行歸一化處理。選用滾動(dòng)式的神經(jīng)網(wǎng)絡(luò)，將數(shù)據(jù)的時(shí)間步長(zhǎng)(time step)都設(shè)置為12，即以前某年的12 個(gè)月為輸入，第二年的第一個(gè)月為輸出?？紤]到壽險(xiǎn)保費(fèi)收入序列較簡(jiǎn)單，所以本文構(gòu)建的LSTM神經(jīng)網(wǎng)絡(luò)，在隱藏層中使用雙曲正切函數(shù)(tanh)為激活函數(shù)，迭代次數(shù)為400 次，批大小(batch size)統(tǒng)一設(shè)置為10。

為驗(yàn)證LSTM 神經(jīng)網(wǎng)絡(luò)在時(shí)序數(shù)據(jù)上的擬合效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)，BP 神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置與LSTM 神經(jīng)網(wǎng)絡(luò)一致。通過計(jì)算指標(biāo)的均方誤差（RMSE）和平均誤差百分比（MAPE）來判斷，其結(jié)果越小越好。結(jié)果如表2 所示。

表2 LSTM 神經(jīng)網(wǎng)絡(luò)和BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果對(duì)照

通過表3 可知LSTM 神經(jīng)網(wǎng)絡(luò)中的RMSE 和MAPE 都比BP 神經(jīng)網(wǎng)絡(luò)中的值低，表明了LSTM 神經(jīng)網(wǎng)絡(luò)在時(shí)序預(yù)測(cè)中較BP 神經(jīng)網(wǎng)絡(luò)更精確。故使用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)北京、天津、上海三個(gè)地區(qū)壽險(xiǎn)保費(fèi)收入的ARIMA 模型的殘差序列進(jìn)行訓(xùn)練和預(yù)測(cè)。

表3 ARIMA 模型和組合模型的預(yù)測(cè)結(jié)果對(duì)照

2.3 組合模型的建立與對(duì)比分析

組合模型先利用北京、天津、上海三個(gè)地區(qū)ARIMA 模型進(jìn)行預(yù)測(cè)，再利用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)三個(gè)殘差序列進(jìn)行預(yù)測(cè)，將ARIMA 模型的預(yù)測(cè)結(jié)果與LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)殘差的預(yù)測(cè)結(jié)果進(jìn)行相加得到最終的預(yù)測(cè)結(jié)果，預(yù)測(cè)結(jié)果如表3 所示。

通過表3 可知，組合模型較傳統(tǒng)ARIMA 模型在RMES 和MAPE 都有明顯的下降：北京地區(qū)MAPE 下降了9.8%、RMSE 下降了51.97；天津地區(qū)分別下降了4.5%、28.49；上海地區(qū)分別下降了18.7%、57.56。同時(shí)組合模型的擬合的精確度得到了提升：北京、天津、上海三個(gè)地區(qū)分別提升了33.79%、28.7%、18.77%。

3 結(jié)論

本文主要運(yùn)用ARIMA 模型以及LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)建了對(duì)時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè)的組合模型。利用北京、天津、上海三個(gè)地區(qū)壽險(xiǎn)保費(fèi)收入數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證，主要結(jié)論如下：動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)LSTM 較靜態(tài)網(wǎng)絡(luò)BP 神經(jīng)網(wǎng)絡(luò)在時(shí)序預(yù)測(cè)上更精確；組合模型保持ARIMA 模型實(shí)操簡(jiǎn)單、運(yùn)行速度快的基礎(chǔ)上提升了模型的預(yù)測(cè)精度；組合模型是基于處理線性與非線性問題提出的，具有一定的可適用性，也可處理其他時(shí)序預(yù)測(cè)。

本文將傳統(tǒng)的統(tǒng)計(jì)方法與深度學(xué)習(xí)技術(shù)融合，在保險(xiǎn)金融方向利用深度學(xué)習(xí)前沿技術(shù)進(jìn)行了積極探索。但本文也有值得改進(jìn)的方向，包括建立的ARIMA 模型較簡(jiǎn)單，未考慮季節(jié)因素；在對(duì)ARIMA 模型和LSTM 神經(jīng)網(wǎng)絡(luò)進(jìn)行組合時(shí)，組合方法不夠創(chuàng)新，后來學(xué)者可在模型的組合上做更好的優(yōu)化。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看