張琳,黎星言
(湖南大學(xué)金融與統(tǒng)計(jì)學(xué)院,長(zhǎng)沙 410082)
2020年9月19日,銀保監(jiān)會(huì)印發(fā)的《關(guān)于實(shí)施車險(xiǎn)綜合改革的指導(dǎo)意見(jiàn)》,明確了機(jī)動(dòng)車輛保險(xiǎn)綜合改革的主要原則和基本目標(biāo):以“保障提升消費(fèi)者權(quán)益”為目標(biāo),健全市場(chǎng)化條款費(fèi)率形成機(jī)制,支持車險(xiǎn)產(chǎn)品的創(chuàng)新與優(yōu)化。自2020年車險(xiǎn)綜合改革實(shí)施至2021年2月,全國(guó)車險(xiǎn)綜合費(fèi)用率同比下降9.39%,手續(xù)費(fèi)率同比下降6.75%。改革至今,89%的保單簽單保費(fèi)降低,其中64%的保單保費(fèi)降幅多于30%;第三者責(zé)任險(xiǎn)平均保額同比上升49%;車險(xiǎn)改革目標(biāo)已初顯成效。然而,保險(xiǎn)公司由于讓利于消費(fèi)者,保費(fèi)收入受到負(fù)面影響,平安車險(xiǎn)保費(fèi)收入同比下滑8.83%;中國(guó)人保車險(xiǎn)保費(fèi)收入同比下滑6.7%。
實(shí)施車險(xiǎn)綜合改革后,財(cái)險(xiǎn)公司面臨更加激烈的市場(chǎng)競(jìng)爭(zhēng),經(jīng)營(yíng)模式粗放、管理效率低下、車險(xiǎn)產(chǎn)品單一、理賠要求復(fù)雜、業(yè)務(wù)數(shù)據(jù)缺失等市場(chǎng)問(wèn)題亟待解決。其中,精細(xì)定價(jià)是車險(xiǎn)綜合改革的核心問(wèn)題,各公司應(yīng)基于精算模型進(jìn)行風(fēng)險(xiǎn)定價(jià)。市場(chǎng)化的車險(xiǎn)經(jīng)營(yíng)模式,意味著公司進(jìn)行自主費(fèi)率制定,根據(jù)被保人的駕駛行為、年齡等費(fèi)率因子,進(jìn)行精細(xì)定價(jià)。靈活使用精算模型,以保證定價(jià)的科學(xué)性和合理性。廣義線性模型被廣泛用于保險(xiǎn)精算模型的構(gòu)建中,然而,我國(guó)商業(yè)車險(xiǎn)市場(chǎng)中頻繁出現(xiàn)“高保低賠”、“理賠糾紛”等現(xiàn)象,說(shuō)明以車型為核心的費(fèi)率厘定方式有待改進(jìn)。為幫助保險(xiǎn)公司實(shí)現(xiàn)盈利,本文將采用拓展的GLM模型,并納入中國(guó)保險(xiǎn)汽車安全指數(shù)測(cè)評(píng)結(jié)果作為從車因子,以提高費(fèi)率厘定的科學(xué)性。NELDER等提出GLM模型,將函數(shù)分布擴(kuò)展至指數(shù)族分布,為風(fēng)險(xiǎn)因子在保險(xiǎn)中的應(yīng)用奠定基礎(chǔ)。FINGER提出索賠頻率受到車齡、車型、車輛用途、駕駛?cè)四挲g、性別、婚姻等風(fēng)險(xiǎn)因素影響。CERCHIARA等運(yùn)用GLM,研究保險(xiǎn)種類、風(fēng)險(xiǎn)暴露日歷年、承保年限、投保人年齡等風(fēng)險(xiǎn)因子對(duì)壽險(xiǎn)續(xù)保率的影響。OHLSSON等介紹了如何使用費(fèi)率風(fēng)險(xiǎn)因子通過(guò)GLM預(yù)測(cè)非壽險(xiǎn)保費(fèi)。隨著數(shù)據(jù)的可用性增加和統(tǒng)計(jì)技術(shù)的發(fā)展,保險(xiǎn)中的精算模型也得到發(fā)展。傳統(tǒng)的GLM模型對(duì)連續(xù)型變量的解釋性較差,為解決此問(wèn)題,HASTIE等在線性預(yù)測(cè)的基礎(chǔ)上引入非參光滑函數(shù),得到廣義線性可加模型。DENUIT等研究車險(xiǎn)定價(jià)時(shí),考慮了離散、連續(xù)、分類以及空間變量,并基于GAM使用密集型仿真方法進(jìn)行統(tǒng)計(jì)推斷。ZUUR等使用單調(diào)P樣條函數(shù)作為GAM模型中的非線性預(yù)測(cè)函數(shù),研究圣保羅呼吸疾病對(duì)死亡率的影響。
我國(guó)保險(xiǎn)精算業(yè)近年來(lái)借鑒國(guó)外的先進(jìn)研究方法,結(jié)合實(shí)際情況制定純風(fēng)險(xiǎn)保費(fèi)。孟生旺說(shuō)明了廣義線性模型在車輛保險(xiǎn)定價(jià)中的具體應(yīng)用以及注意事項(xiàng)。徐昕等針對(duì)零膨脹的保險(xiǎn)數(shù)據(jù),建立零膨脹廣義模型-ZIGP,擬合結(jié)果表明:該模型能有效提高費(fèi)率厘定的科學(xué)性。徐昕等建立三參數(shù)形式負(fù)二項(xiàng)分布以改善費(fèi)率厘定中的過(guò)離散問(wèn)題。孟生旺等對(duì)于非壽險(xiǎn)定價(jià)中的多水平費(fèi)率因子,使用3種不同廣義線性模型擬合,試驗(yàn)結(jié)果顯示,廣義線性混合模型效果最優(yōu)。童麗娟通過(guò)保險(xiǎn)數(shù)據(jù)擬合結(jié)果表明:GAM對(duì)具有非線性影響的解釋變量擬合效果更好,同時(shí)結(jié)合馬爾可夫蒙特卡洛與貝葉斯理論進(jìn)行參數(shù)估計(jì)。張連增等使用GAM研究省份、車齡、公路里程數(shù)、年齡以及車重等對(duì)索賠頻率的影響,發(fā)現(xiàn)除車型因子外,其余因子都顯著影響索賠頻率,且車齡、年齡、車重對(duì)其具有非線性影響。
GAM由兩部分組成:解釋變量部分、響應(yīng)變量與聯(lián)結(jié)函數(shù)。
解釋變量部分:預(yù)測(cè)變量進(jìn)行一系列平滑處理后的線性組合。
式中:=(,,,,…)為解釋變量;為截距項(xiàng);f (·)為多種基函數(shù)組合形成的平滑函數(shù),包括多項(xiàng)式函數(shù)、三次樣條函數(shù)、薄板樣條函數(shù)、B樣條函數(shù)、P樣條函數(shù)等,同時(shí)由懲罰函數(shù)控制非參數(shù)函數(shù)的平滑程度。GAM模型估計(jì)平滑參數(shù)的方法包括GCV、REML、GACV、UBRE等,利用最小二乘懲罰法和擬極大似然懲罰法估計(jì)系數(shù)β。
響應(yīng)變量與連接函數(shù):觀測(cè)值相互獨(dú)立,且服從指數(shù)族分布,并通過(guò)單調(diào)可導(dǎo)聯(lián)結(jié)函數(shù)與解釋變量部分進(jìn)行聯(lián)系,即:
式中:函數(shù)(·)和(·)根據(jù)的分布決定;為尺度參數(shù);為自然參數(shù);為響應(yīng)變量的均值;(·)為聯(lián)結(jié)函數(shù),如identity、logit、inverse、log等。
GAM模型中響應(yīng)變量服從指數(shù)族分布,其方差為均值的函數(shù)。其次,GAM將解釋變量的可加線性與非線性結(jié)構(gòu)進(jìn)行聯(lián)結(jié)函數(shù)逆處理,然后用來(lái)表示響應(yīng)變量的均值,解釋變量部分由于非參預(yù)測(cè)函數(shù)的引入,使該模型具有靈活性。
AIC作為衡量模型復(fù)雜程度與擬合優(yōu)度的指標(biāo)之一,其公式為AIC=-2ln()+2,其中為模型的似然函數(shù),表示參數(shù)個(gè)數(shù),被廣泛用于模型的選取判斷。AIC值越小,意味著模型在擬合性與一般性中達(dá)到更優(yōu)的平衡。在GAM中,較小的UBRE值代表較好的擬合效果。
本文采取的數(shù)據(jù)集包括“保險(xiǎn)公司2018年至2020年的35 666條承保理賠數(shù)據(jù)”與“中保研、中國(guó)汽研聯(lián)合發(fā)布的52款車型碰撞測(cè)試指標(biāo)”。該數(shù)據(jù)的解釋變量有,車齡(共3類)、年齡(共4類)、性別(男、女)、耐撞性與維修經(jīng)濟(jì)性等級(jí),其余變量有分組與連續(xù)型兩種形式,如耐撞性得分、NCD系數(shù)、新車上市價(jià)_萬(wàn)、耐撞性與維修經(jīng)濟(jì)性得分、維修比、維修經(jīng)濟(jì)性得分;響應(yīng)變量為索賠次數(shù)。具體數(shù)據(jù)見(jiàn)表1。
表1 數(shù)據(jù)集變量說(shuō)明
不同汽車在低速行駛狀況下發(fā)生刮擦或碰撞事故的損失不同。中國(guó)保險(xiǎn)汽車安全指數(shù)(C-IASI)發(fā)布了多項(xiàng)指標(biāo),其中耐撞性分?jǐn)?shù)是用以量化車輛承受碰撞力的能力,車輛吸收碰撞過(guò)程中對(duì)于物理位移及形變的控制能力以及對(duì)結(jié)構(gòu)和高價(jià)零件損傷的保護(hù)能力。維修比是車輛發(fā)生碰撞事故后,將車輛恢復(fù)到正常狀態(tài)在當(dāng)前社會(huì)平均生產(chǎn)力狀態(tài)下所需維修費(fèi)用與車輛廠家指導(dǎo)價(jià)格的比值。維修經(jīng)濟(jì)性是車輛發(fā)生碰撞事故后,將車輛恢復(fù)到正常狀態(tài)所需的經(jīng)濟(jì)成本高低評(píng)價(jià)指標(biāo)。而綜合指標(biāo)“耐撞性與維修經(jīng)濟(jì)性”從車輛的耐撞性、可維修性、維修經(jīng)濟(jì)性和碰撞兼容性對(duì)車輛進(jìn)行多維度評(píng)價(jià),其結(jié)果為等級(jí)G、A、M、P或數(shù)值得分的形式。
選取索賠次數(shù)作為響應(yīng)變量,該變量為離散變量,因此,常用的分布族有負(fù)二項(xiàng)分布、泊松分布。假設(shè)響應(yīng)變量服從泊松分布,將log設(shè)為GLM模型中的聯(lián)結(jié)函數(shù)。索賠次數(shù)在GLM、GAM中的表達(dá)形式分別為:
式中:=(,,…)為解釋變量;=(|)是的條件期望值;β(=0,1,2,…)為待估參數(shù);f (·)為GAM模型中的非線性平滑函數(shù)。
本文自變量中的車齡、年齡、性別、耐撞性與維修經(jīng)濟(jì)性等級(jí)為分類或等級(jí)變量,屬于模型的線性預(yù)測(cè)部分。其余解釋變量:耐撞性得分、NCD系數(shù)、新車上市價(jià)_萬(wàn)、耐撞性與維修經(jīng)濟(jì)性得分、維修比、維修經(jīng)濟(jì)性得分本身為連續(xù)型變量,它們屬于線性或非線性預(yù)測(cè)部分還需要通過(guò)擬合結(jié)果來(lái)決定。同時(shí),某些安全指數(shù)指標(biāo)由于具有相關(guān)性,可能會(huì)降低模型的精確度,所以也需要通過(guò)模型結(jié)果篩選出解釋性強(qiáng)的指標(biāo)組合引入模型。所有解釋變量都為離散變量時(shí),構(gòu)造廣義線性模型,從人因素有性別、年齡、NCD系數(shù),從車因素有車齡、新車上市價(jià),已選測(cè)試因子:耐撞性得分。待選測(cè)試因子為耐撞性與維修經(jīng)濟(jì)性等級(jí),耐撞性與維修經(jīng)濟(jì)性得分以及維修比、維修經(jīng)濟(jì)性得分。建立的3種泊松GLM都含有從人、從車、已選測(cè)試因子。而GLM1在待選因子中選取維修經(jīng)濟(jì)得分;GLM2選擇維修比;GLM3包括耐撞性與維修經(jīng)濟(jì)性等級(jí)。當(dāng)GLM模型中有些變量顯著性較差,或個(gè)別組別不顯著時(shí),可以利用GAM模型,選擇平滑函數(shù)擬合連續(xù)型變量的非線性影響。
建立GLM模型后,通過(guò)R軟件,得到3種回歸模型的參數(shù)估計(jì)結(jié)果與AIC值。GLM2將GLM1中的維修經(jīng)濟(jì)性得分換為維修比,GLM3使用總分-耐撞性與維修經(jīng)濟(jì)性等級(jí)代替GLM2中的維修比與耐撞性得分。從表2的分析來(lái)看,常數(shù)項(xiàng)和性別、車齡的所有組別在3種模型中顯著。年齡除[25-28]組別,NCD除[0.48-0.8]在所有模型中不顯著,其余區(qū)間全顯著;新車上市價(jià)與耐撞性與維修經(jīng)濟(jì)性在3組中預(yù)測(cè)效果較差,至多一組在獨(dú)立模型內(nèi)顯著;耐撞性得分與維修經(jīng)濟(jì)性得分或維修比組合形成GLM1或GLM2時(shí),所有組別系數(shù)皆顯著。模型的AIC升序排列為:GLM2(26 343.1)<GLM3(26 346.97)<GLM1(26 351.67),GLM2的AIC最小,估計(jì)結(jié)果更準(zhǔn)確,GLM2考慮“維修比”與“耐撞性分?jǐn)?shù)”量化汽車碰撞的影響。
表2 GLM模型回歸結(jié)果
由于上述3種GLM模型中有些變量顯著性較差,存在個(gè)別組別不顯著的現(xiàn)象,所以引入GAM模型的非線性預(yù)測(cè)方法解決這些問(wèn)題。首先,將GLM中的NCD系數(shù)以及新車上市價(jià)替換成連續(xù)型變量,然后將GLM1、GLM2中的分組變量,維修經(jīng)濟(jì)性得分或維修比與耐撞性得分,換為連續(xù)型數(shù)值,再將GLM3中耐撞性與維修經(jīng)濟(jì)性等級(jí)換為耐撞性與維修經(jīng)濟(jì)性得分,最后性別、年齡、車齡依舊作為分類變量代入模型中,得到3種GAM模型,記為:GAM1、GAM2、GAM3。
表3記錄所有GLM與GAM的AIC值,序號(hào)相同代表兩模型選擇的變量種類相同,但GAM在GLM基礎(chǔ)上引入非線性函數(shù)處理某些連續(xù)變量。由AIC結(jié)果可知:本文構(gòu)造的GAM擬合度要優(yōu)于GLM模型,所有GAM模型中AIC最大值小于GLM模型中的最小值,相差范圍[152.18,193.76];GAM模型中GAM1的AIC最小,為26 157.91,比GAM2低7.78,因此GAM2擬合效果較好。
表3 GLM與GAM模型的AIC值
表4~5分別顯示GAM模型中的連續(xù)變量(表4)與分組變量(表5)的回歸顯著性。每個(gè)GAM所選擇的連續(xù)型變量都顯著,但僅GAM1的所有分組變量的參數(shù)估計(jì)結(jié)果較理想,同時(shí)GAM1模型的UBRE值為-0.480 7,比GAM2小0.000 2,所以本文使用GAM1進(jìn)行數(shù)據(jù)擬合。
表4 GAM模型非線性回歸結(jié)果
表5 GAM模型線性回歸結(jié)果
利用GAM1模型對(duì)數(shù)據(jù)進(jìn)行擬合,得到索賠次數(shù)統(tǒng)計(jì)特征見(jiàn)表6,平均索賠次數(shù)為0.118 57,范圍為0.018 06~0.714 99。由圖1可知,NCD與索賠次數(shù)的同向關(guān)系,即隨著NCD的增加,索賠次數(shù)也隨之增加。由圖2可知,新車上市價(jià)對(duì)索賠次數(shù)的影響波動(dòng)較大。新車上市價(jià)在20~30萬(wàn)元之間時(shí),整體索賠次數(shù)較高,在27萬(wàn)元左右達(dá)到峰值,37萬(wàn)元為其最低點(diǎn)。
表6 索賠次數(shù)預(yù)測(cè)值
圖1 NCD的影響效應(yīng)
圖2 新車上市價(jià)的影響效應(yīng)
由圖3可知,女性的平均索賠次數(shù)高于男性。圖4為車齡與索賠次數(shù)的關(guān)系圖,由圖可知,隨著車齡的增長(zhǎng),索賠次數(shù)隨之降低,可能是因?yàn)檐圐g大的車主行駛年份久,駕駛經(jīng)驗(yàn)較豐富,因此索賠次數(shù)較少。圖5表示索賠次數(shù)隨年齡增加而降低,年齡超過(guò)28歲以上索賠次數(shù)相差不大,一般年齡小的人開(kāi)車時(shí)間也不長(zhǎng),屬于容易發(fā)生事故的高風(fēng)險(xiǎn)人群;而到達(dá)一定歲數(shù)后,行駛經(jīng)驗(yàn)對(duì)索賠次數(shù)的抑制作用大致不變。
圖3 性別與索賠次數(shù)
圖4 車齡與索賠次數(shù)
圖5 年齡與索賠次數(shù)
本文使用C-IASI指標(biāo)和車損數(shù)據(jù),研究廣義線性模型與廣義線性可加模型在車險(xiǎn)索賠次數(shù)中的建模應(yīng)用。首先利用GLM模型嘗試多種費(fèi)率因子的組合,并對(duì)其進(jìn)行篩選,得到非線性預(yù)測(cè)因子,即將離散型變量轉(zhuǎn)換為連續(xù)型變量,從而構(gòu)建GAM模型。實(shí)證結(jié)果表明,索賠次數(shù)受到年齡、車齡、性別的線性影響,新車上市價(jià)、NCD對(duì)其具有非線性影響;相比于其他C-IASI指標(biāo)的選取,維修經(jīng)濟(jì)性得分與耐撞性得分組合對(duì)索賠次數(shù)的預(yù)測(cè)效果較好。預(yù)測(cè)結(jié)果表明,年齡或車齡與索賠次數(shù)呈負(fù)相關(guān),年齡(或車齡)越大,索賠次數(shù)越小。女性索賠次數(shù)高于男性。非線性預(yù)測(cè)部分:NCD與索賠次數(shù)具有正相關(guān)關(guān)系,即索賠次數(shù)隨NCD的增加而增長(zhǎng),新車上市價(jià)對(duì)索賠次數(shù)的影響波動(dòng)性大,27萬(wàn)元左右達(dá)到最高點(diǎn),37萬(wàn)元左右降至最低點(diǎn)。