馮一鉑
(喀什大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,新疆喀什 844000)
隨著我國(guó)經(jīng)濟(jì)的繁榮發(fā)展,保險(xiǎn)行業(yè)在國(guó)家的政策下發(fā)展迅速,人們對(duì)于保險(xiǎn)了解的更加深入,這使得越來越多人愿意給自己及家人一份保障。因此壽險(xiǎn)保費(fèi)收入的預(yù)測(cè),在國(guó)家、地區(qū)、公司對(duì)于下一階段政策的制定具有重要的指導(dǎo)意義。
基于傳統(tǒng)的保費(fèi)收入預(yù)測(cè)方法,使用單一預(yù)測(cè)模型對(duì)保費(fèi)收入進(jìn)行預(yù)測(cè)。孫景云等[1]對(duì)2004-2010 年兩家保險(xiǎn)公司的壽險(xiǎn)和財(cái)險(xiǎn)保費(fèi)收入進(jìn)行預(yù)測(cè)和分析,證明了ARIMA 乘積季節(jié)模型在保費(fèi)收入預(yù)測(cè)上有良好的適宜性;尹成遠(yuǎn)等[2]對(duì)1980-2010 年我國(guó)保費(fèi)收入進(jìn)行預(yù)測(cè)分析,通過模型預(yù)測(cè)我國(guó)“十二五”期間每年保費(fèi)收入,并結(jié)合《中國(guó)保險(xiǎn)業(yè)發(fā)展“十二五”規(guī)劃綱要》做出展望;張?chǎng)蔚萚4]基于灰色最優(yōu)化模型以東北三省為例,對(duì)保費(fèi)收入進(jìn)行預(yù)測(cè),證明了經(jīng)過創(chuàng)新改進(jìn)的灰色最優(yōu)模型極大地提高了預(yù)測(cè)準(zhǔn)確度;何淑菁等[5]運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)對(duì)我國(guó)人身保費(fèi)收入進(jìn)行預(yù)測(cè),表明神經(jīng)網(wǎng)絡(luò)模型與計(jì)量經(jīng)濟(jì)模型相比具有更高的預(yù)測(cè)精度。
通過查閱相關(guān)文獻(xiàn)以及學(xué)習(xí),發(fā)現(xiàn)傳統(tǒng)模型的預(yù)測(cè)雖然有著操作簡(jiǎn)單、運(yùn)行速度快的優(yōu)點(diǎn),但未考慮保費(fèi)收入時(shí)間序列數(shù)據(jù)是線性和非線性的組合,僅是單一的進(jìn)行線性或非線性預(yù)測(cè)。傳統(tǒng)的時(shí)間序列模型只能擬合保費(fèi)收入的線性時(shí)間序列部分,而神經(jīng)網(wǎng)絡(luò)算法可以任意地逼近非線性數(shù)據(jù),所以本文將傳統(tǒng)的時(shí)間序列模型與神經(jīng)網(wǎng)絡(luò)算法進(jìn)行組合,構(gòu)建線性模型和非線性模型的組合模型對(duì)保費(fèi)收入進(jìn)行預(yù)測(cè),并證明組合模型的預(yù)測(cè)準(zhǔn)確率比使用單個(gè)模型更準(zhǔn)確。神經(jīng)網(wǎng)絡(luò)算法可以很好地?cái)M合非線性數(shù)據(jù),在眾多深度學(xué)習(xí)模型中,LSTM 神經(jīng)網(wǎng)絡(luò)[5-6]在時(shí)序數(shù)據(jù)分析中較BP 神經(jīng)網(wǎng)絡(luò)[5-6]表現(xiàn)出更強(qiáng)的適應(yīng)性,所以本文提出ARIMA 與LSTM 組合預(yù)測(cè)的方法,并利用銀保監(jiān)會(huì)公布的北京、天津、上海三個(gè)地區(qū)2006 年1月至2020 年12 月,共180 個(gè)月的壽險(xiǎn)保費(fèi)收入月度數(shù)據(jù)證明模型的有效性。
ARIMA(p,d,q)模型[1-3]叫差分自回歸移動(dòng)平均模型,AR 是自回歸,p 是自回歸項(xiàng),MA 是移動(dòng)平均,q 為移動(dòng)平均項(xiàng),d 為時(shí)間序列成為平穩(wěn)時(shí)所需做的差分次數(shù)。ARIMA 模型就是指將非平穩(wěn)時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列,然后將因變量?jī)H對(duì)它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。ARIMA 模型的通用表達(dá)[8]式為:
其中yt為時(shí)間序列y 的當(dāng)期值,yt-1為yt前一期的值,yt-2則為yt-1前一期的值,依次類推,Φ1,Φ2,……,Φp是自回歸系數(shù),p 是自回歸階數(shù),Θ1,Θ2,……,Θp是移動(dòng)平均系數(shù),q 是移動(dòng)平均階數(shù),{εt}是白噪聲序列。
長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的變型。RNN 進(jìn)行訓(xùn)練時(shí)采用通過時(shí)間反向傳播算法,為了解決在處理長(zhǎng)期依賴時(shí)的消失梯度問題,Hochreiter&Schmidhuber 提出長(zhǎng)短期記憶網(wǎng)絡(luò)模型,LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))相比傳統(tǒng)的RNN,有著更為精細(xì)的信息傳遞機(jī)制,能有效的解決長(zhǎng)時(shí)間的依賴問題。同時(shí),作為Encoder-Decoder 框架中的基本細(xì)成單元,也能實(shí)現(xiàn)時(shí)間序列數(shù)據(jù)的編碼和解碼,用記憶單元代替RNN 中隱含層的LSTM 神經(jīng)元實(shí)現(xiàn)對(duì)過去信息的記憶,每個(gè)記憶單元中包含一個(gè)或多個(gè)記憶細(xì)胞和三個(gè)門控制器,LSTM 的核心是一個(gè)記憶單元,由遺忘門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)組成,“門”結(jié)構(gòu)能夠控制信息在網(wǎng)絡(luò)中的狀態(tài)。“門”結(jié)構(gòu)依賴于Sigmoid 激活函數(shù),當(dāng)輸出為0 時(shí),表示丟棄信息,當(dāng)輸出為1時(shí),表示完全保留信息,其他情況表示保留部分信息。
由于壽險(xiǎn)保費(fèi)收入時(shí)間序列數(shù)據(jù)比較復(fù)雜,既有線性趨勢(shì)又有非線性趨勢(shì),使用單一的ARIMA 模型或LSTM 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)誤差都會(huì)比較大。所以,先利用ARIMA 模型預(yù)測(cè)各地區(qū)壽險(xiǎn)保費(fèi)收入的時(shí)間序列線性部分,時(shí)間序列的非線性部分就包含在了ARIMA 模型的誤差部分,然后利用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)ARIMA 的誤差序列進(jìn)行預(yù)測(cè),將ARIMA 的預(yù)測(cè)值和LSTM 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值求和,則可得到最終的組合模型預(yù)測(cè)值。
ARIMA 模型以2017 年1 月至2020 年12 月48 個(gè)月的數(shù)據(jù)作為測(cè)試集,其他月份的數(shù)據(jù)為訓(xùn)練集,該模型利用Python構(gòu)建。
2.1.1 壽險(xiǎn)保費(fèi)收入時(shí)間序列平穩(wěn)化
在使用ARIMA 模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)前,先通過ADF 檢驗(yàn)即單位根檢驗(yàn)來判斷差分前后的序列是否平穩(wěn)。在0.05 的顯著性水平下,原始序列不平穩(wěn)。分別對(duì)不同地區(qū)數(shù)據(jù)進(jìn)行差分,可以看出北京、天津和上海的數(shù)據(jù)都在進(jìn)行12 階差分后數(shù)據(jù)趨于平穩(wěn),故d北京=2、d天津=2、d上海=2。隨后利用自相關(guān)(ACF)圖和偏自相關(guān)(PACF)圖,以及AIC 最小的準(zhǔn)則來確定p 和q 的值。
最終通過實(shí)驗(yàn)確定三個(gè)地區(qū)的ARIMA 模型,北京壽險(xiǎn)保費(fèi)收入的模型為ARIMA(0,2,1),天津壽險(xiǎn)保費(fèi)收入的模型為ARIMA(1,2,1),上海壽險(xiǎn)保費(fèi)收入的模型為ARIMA(0,2,1)。
2.1.2 參數(shù)估計(jì)及模型的檢驗(yàn)
利用最大似然法進(jìn)行各個(gè)階數(shù)的參數(shù)估計(jì),得到各階的系數(shù)估計(jì)以及標(biāo)準(zhǔn)誤差。估計(jì)結(jié)果如表1 所示。
表1 ARIMA 系數(shù)估計(jì)結(jié)果(注:括號(hào)內(nèi)數(shù)值為標(biāo)準(zhǔn)誤差)
對(duì)三個(gè)模型的殘差序列進(jìn)行Ljung_Box 檢驗(yàn),得到北京、天津、上海三個(gè)地區(qū)ARIMA 模型得殘差序列的Ljung_Box 檢驗(yàn)結(jié)果的p 值分別為0.983、0.369、0.479,在0.05 的顯著性水平下,可以判斷三個(gè)殘差序列均為白噪聲,表明所構(gòu)建的模型是有效的。
通過Python 的keras 庫實(shí)現(xiàn)LSTM 神經(jīng)網(wǎng)絡(luò)的構(gòu)建。使用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)各地區(qū)殘差序列進(jìn)行預(yù)測(cè),同樣使用2017 年1 月至2020 年12 月的數(shù)據(jù)作為測(cè)試集,并對(duì)數(shù)據(jù)進(jìn)行歸一化處理。選用滾動(dòng)式的神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)的時(shí)間步長(zhǎng)(time step)都設(shè)置為12,即以前某年的12 個(gè)月為輸入,第二年的第一個(gè)月為輸出??紤]到壽險(xiǎn)保費(fèi)收入序列較簡(jiǎn)單,所以本文構(gòu)建的LSTM神經(jīng)網(wǎng)絡(luò),在隱藏層中使用雙曲正切函數(shù)(tanh)為激活函數(shù),迭代次數(shù)為400 次,批大小(batch size)統(tǒng)一設(shè)置為10。
為驗(yàn)證LSTM 神經(jīng)網(wǎng)絡(luò)在時(shí)序數(shù)據(jù)上的擬合效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò),BP 神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置與LSTM 神經(jīng)網(wǎng)絡(luò)一致。通過計(jì)算指標(biāo)的均方誤差(RMSE)和平均誤差百分比(MAPE)來判斷,其結(jié)果越小越好。結(jié)果如表2 所示。
表2 LSTM 神經(jīng)網(wǎng)絡(luò)和BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果對(duì)照
通過表3 可知LSTM 神經(jīng)網(wǎng)絡(luò)中的RMSE 和MAPE 都比BP 神經(jīng)網(wǎng)絡(luò)中的值低,表明了LSTM 神經(jīng)網(wǎng)絡(luò)在時(shí)序預(yù)測(cè)中較BP 神經(jīng)網(wǎng)絡(luò)更精確。故使用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)北京、天津、上海三個(gè)地區(qū)壽險(xiǎn)保費(fèi)收入的ARIMA 模型的殘差序列進(jìn)行訓(xùn)練和預(yù)測(cè)。
表3 ARIMA 模型和組合模型的預(yù)測(cè)結(jié)果對(duì)照
組合模型先利用北京、天津、上海三個(gè)地區(qū)ARIMA 模型進(jìn)行預(yù)測(cè),再利用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)三個(gè)殘差序列進(jìn)行預(yù)測(cè),將ARIMA 模型的預(yù)測(cè)結(jié)果與LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)殘差的預(yù)測(cè)結(jié)果進(jìn)行相加得到最終的預(yù)測(cè)結(jié)果,預(yù)測(cè)結(jié)果如表3 所示。
通過表3 可知,組合模型較傳統(tǒng)ARIMA 模型在RMES 和MAPE 都有明顯的下降:北京地區(qū)MAPE 下降了9.8%、RMSE 下降了51.97;天津地區(qū)分別下降了4.5%、28.49;上海地區(qū)分別下降了18.7%、57.56。同時(shí)組合模型的擬合的精確度得到了提升:北京、天津、上海三個(gè)地區(qū)分別提升了33.79%、28.7%、18.77%。
本文主要運(yùn)用ARIMA 模型以及LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)建了對(duì)時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè)的組合模型。利用北京、天津、上海三個(gè)地區(qū)壽險(xiǎn)保費(fèi)收入數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證,主要結(jié)論如下:動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)LSTM 較靜態(tài)網(wǎng)絡(luò)BP 神經(jīng)網(wǎng)絡(luò)在時(shí)序預(yù)測(cè)上更精確;組合模型保持ARIMA 模型實(shí)操簡(jiǎn)單、運(yùn)行速度快的基礎(chǔ)上提升了模型的預(yù)測(cè)精度;組合模型是基于處理線性與非線性問題提出的,具有一定的可適用性,也可處理其他時(shí)序預(yù)測(cè)。
本文將傳統(tǒng)的統(tǒng)計(jì)方法與深度學(xué)習(xí)技術(shù)融合,在保險(xiǎn)金融方向利用深度學(xué)習(xí)前沿技術(shù)進(jìn)行了積極探索。但本文也有值得改進(jìn)的方向,包括建立的ARIMA 模型較簡(jiǎn)單,未考慮季節(jié)因素;在對(duì)ARIMA 模型和LSTM 神經(jīng)網(wǎng)絡(luò)進(jìn)行組合時(shí),組合方法不夠創(chuàng)新,后來學(xué)者可在模型的組合上做更好的優(yōu)化。