郭哲琦,高蘇浩
(中國人民大學(xué)統(tǒng)計(jì)學(xué)院,北京 100872)
風(fēng)險保費(fèi)由純保費(fèi)和風(fēng)險附加構(gòu)成。純保費(fèi)通常使用廣義線性模型進(jìn)行厘定,而風(fēng)險附加通過各種保費(fèi)原理進(jìn)行計(jì)算。在厘定純保費(fèi)的廣義線性模型中,既可以分別建立索賠頻率和案均賠款的預(yù)測模型,將兩者相乘即得純保費(fèi)的預(yù)測值;也可以分別建立出險概率和累積賠款的預(yù)測模型,將兩者相乘求得純保費(fèi)的預(yù)測值。在純保費(fèi)的基礎(chǔ)上,再應(yīng)用期望值保費(fèi)原理或標(biāo)準(zhǔn)差保費(fèi)原理計(jì)算風(fēng)險保費(fèi)。這種定價方法在風(fēng)險保費(fèi)的計(jì)算過程中,需要人為設(shè)定風(fēng)險附加系數(shù),存在一定的主觀任意性。Heras 等(2018)[1]提出應(yīng)用分位回歸計(jì)算風(fēng)險保費(fèi),也被稱作分位數(shù)保費(fèi)原理。在這種方法中,將風(fēng)險保費(fèi)看作一個整體,用分位回歸進(jìn)行預(yù)測。應(yīng)用分位回歸計(jì)算風(fēng)險保費(fèi)的基本原理是把實(shí)際賠款超過風(fēng)險保費(fèi)的概率控制在一個合理的水平上,比如不超過0.1%。從分位回歸計(jì)算的風(fēng)險保費(fèi)中減去純保費(fèi)也可以分離出風(fēng)險附加。與傳統(tǒng)的廣義線性模型相比,應(yīng)用分位回歸計(jì)算風(fēng)險保費(fèi)具有一定優(yōu)勢[2]。但是在應(yīng)用分位數(shù)保費(fèi)原理時,仍然需要人為設(shè)定分位數(shù)水平,比如將95%的分位數(shù)作為風(fēng)險保費(fèi)。這種設(shè)定分位數(shù)水平的方法可能導(dǎo)致保單組合在總體上的風(fēng)險保費(fèi)偏離實(shí)際需要。在分位回歸中,如果將分位數(shù)水平設(shè)定為50%,那么就會得到分位回歸的特例,即中位數(shù)回歸。在費(fèi)率厘定中風(fēng)險保費(fèi)的分位數(shù)水平通常大于50%,應(yīng)用分位回歸厘定風(fēng)險保費(fèi)相當(dāng)于在中位數(shù)的基礎(chǔ)上計(jì)算風(fēng)險附加,這與風(fēng)險保費(fèi)的概念不是十分吻合。此外,保險損失往往是右偏的,具有較長的右尾,中位數(shù)遠(yuǎn)小于均值(即純保費(fèi)),分位數(shù)對尾部數(shù)據(jù)并不敏感,這使得分位數(shù)保費(fèi)原理在定價邏輯上不是十分合理。
基于已有研究,本文提出了期望分位數(shù)[3](Expectile)保費(fèi)原理,即應(yīng)用期望分位回歸代替分位回歸厘定風(fēng)險保費(fèi)。在50%的分位數(shù)水平上,期望分位回歸等價于均值回歸,因此,應(yīng)用期望分位回歸厘定風(fēng)險保費(fèi),相當(dāng)于在均值(亦即純保費(fèi))基礎(chǔ)上計(jì)算風(fēng)險附加,這與風(fēng)險保費(fèi)等于純保費(fèi)與風(fēng)險附加之和的定義在邏輯上完全吻合;此外,期望分位數(shù)不僅與損失發(fā)生概率相關(guān),而且與損失金額有關(guān),因此用期望分位數(shù)計(jì)算風(fēng)險附加更加合理。無論是在廣義線性模型的基礎(chǔ)上應(yīng)用期望值原理或標(biāo)準(zhǔn)差原理計(jì)算風(fēng)險保費(fèi),還是直接應(yīng)用分位回歸或期望分位回歸計(jì)算風(fēng)險保費(fèi),都需要確定風(fēng)險附加系數(shù)或分位數(shù)水平。現(xiàn)有文獻(xiàn)在研究中都是人為給定一個具體數(shù)值,如將分位數(shù)水平設(shè)定為95%,缺乏客觀依據(jù)。為此,本文提出一種自上而下的定價思路,在控制保單組合總體風(fēng)險水平的基礎(chǔ)上,比如要求保單組合的總賠款超過總風(fēng)險保費(fèi)的概率小于0.1%,通過Bootstrap 方法計(jì)算出保單組合的總風(fēng)險保費(fèi),然后再將其分解到個體保單上,要求保單組合的總風(fēng)險保費(fèi)等于個體保單的風(fēng)險保費(fèi)之和,從而提供了一種基于實(shí)際數(shù)據(jù)計(jì)算風(fēng)險附加系數(shù)或分位數(shù)水平的新思路。
假設(shè)隨機(jī)變量Yi的分布函數(shù)為FYi(y),對于[0,1]區(qū)間內(nèi)任意一個分位數(shù)水平τ,隨機(jī)變量Yi的τ分位數(shù)q(τ)定義如下:
在分位回歸中,假設(shè)因變量Yi的τ分位數(shù)q(τ|xi)與協(xié)變量xi的關(guān)系可以表示為:
其中,xi=(1,xi1,xi2,…,xim)T,i=1,2,…,n,n為樣本量,m為協(xié)變量維數(shù),回歸系數(shù)向量β(τ)可以通過最小化下述非對稱線性損失函數(shù)求得[4]:
最小化式(3)的一階條件為:
即:
式(5)表明分位數(shù)q(τ|xi)與Yi的具體取值無關(guān),對極端值不敏感,這可能導(dǎo)致低估尾部風(fēng)險,從而影響風(fēng)險保費(fèi)的合理性。
傳統(tǒng)分位回歸的預(yù)測值在相鄰分位數(shù)之間可能出現(xiàn)交叉現(xiàn)象,即不同分位數(shù)水平上的預(yù)測值可能是相同的,這會造成相互矛盾的結(jié)果,為此,F(xiàn)rumento 和Bottai(2016)[5]提出了一種函數(shù)系數(shù)分位回歸,即將回歸系數(shù)表示為分位數(shù)水平τ的函數(shù):
其中,b1(τ),…,bh(τ)是關(guān)于τ的給定函數(shù),b0(τ)一般設(shè)置為1,γj=(γj0,γj1,···,γjh),γjk(k=1,…,h)是給定函數(shù)的系數(shù)。
函數(shù)系數(shù)分位回歸的一般形式如下:
如果令h=2,那么式(7)中的Γ 和b(τ)可以表示為[6]:
最小化下述損失函數(shù),即可求得函數(shù)系數(shù)分位回歸的參數(shù)估計(jì)值:
類比分位數(shù)q(τ),Newey和Powel(l1987)[7]提出了期望分位數(shù)Q(τ)。對于給定的分位數(shù)水平τ,隨機(jī)變量Yi的期望分位數(shù)Q(τ)的定義如下:
其中,I(·)是示性函數(shù)。
在風(fēng)險管理中,分位數(shù)稱作VaR 風(fēng)險度量。類似地,Kuan 等(2009)[8]將期望分位數(shù)稱作EVaR 風(fēng)險度量[9]。分位數(shù)VaR 不滿足風(fēng)險度量的一致性要求,而期望分位數(shù)EVaR 不僅滿足風(fēng)險度量的一致性要求,即具有平移不變性、單調(diào)性、正齊次性和次可加性,而且具有許多其他良好性質(zhì)[7,10]:
(1)EVaRτ是分位數(shù)水平τ的嚴(yán)格單調(diào)增函數(shù),τ∈(0,1)。
(2)EVaRτ是Yi的嚴(yán)格單調(diào)增函數(shù),即Yi′≥Yia.s.且。
(3)EVaRτ(-Yi)=-EVaRτ(Yi)。
(4)若Yi關(guān)于y對稱,則EVaRτ(Yi)+EVaR1-τ(Yi)=2y。
(5)EVaRτ具有可引出性(Elicitability),即通過最小化目標(biāo)函數(shù)可以求得EVaR風(fēng)險度量[11]。
可以證明,只有EVaR是同時滿足一致性和可引出性的風(fēng)險度量[12]。
EVaR 不僅具有良好的理論性質(zhì),而且在風(fēng)險管理中也有較為直觀的解釋??山邮苡蚴抢斫怙L(fēng)險度量的另一種常見形式。譬如,若將可接受域定義為風(fēng)險度量值小于一個給定值的那些風(fēng)險所組成的集合,則對于具有平移不變性的風(fēng)險度量ρ,可接受域的定義如下:
對于VaRτ,風(fēng)險Yi的可接受域Aρ可以表示為[13]:
對于期望分位數(shù)EVaRτ,風(fēng)險Yi的可接受域可以表示為:
由此可見,在應(yīng)用VaRτ風(fēng)險度量的條件下,如果損失小于特定額度的概率與損失大于特定額度的概率之比足夠大,那么這個風(fēng)險就是可接受的。在應(yīng)用期望分位數(shù)EVaRτ的條件下,如果特定額度以下?lián)p失的期望值與特定額度以上損失的期望值之比足夠大,那么這個風(fēng)險就是可以接受的。
在期望分位回歸中,假設(shè)因變量Yi在τ水平下的期望分位數(shù)Q(τ|xi)與協(xié)變量xi有如下的關(guān)系:
其中,φ(τ)表示在τ分位數(shù)水平下的回歸系數(shù)。
通過最小化下述的非對稱平方損失函數(shù)可以求得期望分位回歸的系數(shù)φ(τ):
當(dāng)分位數(shù)水平τ=0.5 時,分位回歸的預(yù)測值就是中位數(shù),而期望分位回歸的預(yù)測值就是均值。
為了預(yù)測每份保單的風(fēng)險保費(fèi),本文應(yīng)用兩階段建模。第一階段使用Logistic 回歸建立出險概率的預(yù)測模型;第二階段在損失已經(jīng)發(fā)生的條件下,建立累積損失的預(yù)測模型。累積損失是保單在整個保險期間的損失金額之和,可以使用Gamma 回歸、分位回歸、函數(shù)系數(shù)分位回歸或期望分位回歸建立預(yù)測模型。
令第i份保單未出險的概率為pi=FNi(0|xi),出險概率為1-pi=1-FNi(0|xi),其中,Ni代表第i份保單的索賠次數(shù),F(xiàn)Ni代表Ni的分布函數(shù)。當(dāng)?shù)趇份保單的風(fēng)險暴露為ei時,建立Logistic回歸模型為:
其中,xi表示協(xié)變量,θ為回歸系數(shù)向量。
令Yi代表保單的累積損失(部分保單沒有出險,所以他們的累積損失為零),用表示在出險條件下的累積損失(即大于零的累積損失觀察值),則:
其中,xi表示協(xié)變量,ξ為回歸系數(shù)向量。
因此,在期望值保費(fèi)原理和標(biāo)準(zhǔn)差保費(fèi)原理下,第i份保單的風(fēng)險保費(fèi)可以分別表示為:
其中,α表示風(fēng)險附加系數(shù),伽馬回歸的離散參數(shù)φ為:
其中,I表示有索賠的個體保單數(shù)量,r+1 表示模型中回歸系數(shù)的個數(shù),μi根據(jù)Gamma 回歸的系數(shù)估計(jì)值計(jì)算得到。
在期望值原理和標(biāo)準(zhǔn)差原理的風(fēng)險保費(fèi)計(jì)算公式中,令每份保單的風(fēng)險保費(fèi)之和等于保單組合的總風(fēng)險保費(fèi),即=C,即可求得相應(yīng)的風(fēng)險附加系數(shù)α。這里的C表示保單組合的總風(fēng)險保費(fèi)。
類比式(16)和基于兩階段分位回歸的保費(fèi)定價原理[2],在第二階段建模中建立關(guān)于非零累積損失的期望分位回歸,并提出兩階段期望分位回歸,即基于Logistic回歸和期望分位回歸的結(jié)果計(jì)算第i個保單的風(fēng)險保費(fèi):
根據(jù)式(22)中給定保單組合的總風(fēng)險保費(fèi)C,可以計(jì)算出使式(22)成立的分位數(shù)水平τ,從而求得第i個保單的風(fēng)險保費(fèi)。基于兩階段期望分位回歸計(jì)算風(fēng)險保費(fèi)不僅解決了將保單組合的總風(fēng)險保費(fèi)C分?jǐn)偟矫恳环輦€體保單的問題,而且避免了在含零累積損失數(shù)據(jù)中對非零累積損失數(shù)據(jù)建模需要借助索賠概率pi轉(zhuǎn)化分位數(shù)水平的問題[1,6],簡化了計(jì)算過程。如果第二階段建立的是關(guān)于的分位回歸或函數(shù)系數(shù)分位回歸,那么可以將替換為分位回歸或函數(shù)系數(shù)分位回歸的預(yù)測值。利用式(22)求得使等式成立的分位數(shù)水平τ,得到分位回歸和函數(shù)系數(shù)分位回歸模型下的風(fēng)險保費(fèi)分別為和。
在風(fēng)險保費(fèi)定價模型的有關(guān)研究中,R 程序包insuranceData 中的dataCar 數(shù)據(jù)集被多次用來檢驗(yàn)和比較不同模型的預(yù)測性能[1,14,15],該數(shù)據(jù)集包含67856份保單的損失觀察值。為了與現(xiàn)有文獻(xiàn)中的模型進(jìn)行比較,本文也選用該數(shù)據(jù)集進(jìn)行建模,有關(guān)變量的名稱和含義如下頁表1所示。
表1 數(shù)據(jù)集dataCar的有關(guān)變量
保單的累積索賠金額存在明顯的厚尾性,索賠金額經(jīng)過對數(shù)變換以后的分布如下頁圖1所示,本文使用經(jīng)過對數(shù)變換以后的索賠金額作為因變量進(jìn)行回歸建模。
圖1 索賠金額對數(shù)的直方圖
駕駛員年齡agecat有6 個水平,車齡νeh_age有4 個水平,他們的不同組合形成了24 個風(fēng)險類別,如下頁表2所示。其中,V是車齡νeh_age,A是駕駛?cè)四挲g,例如V=1,A=1 代表νeh_age=1 且agecat=1。表2 也列示了每個類別的保單數(shù)、風(fēng)險暴露、發(fā)生索賠的保單數(shù)、索賠次數(shù),以及發(fā)生索賠保單的平均索賠金額。
表2 各個風(fēng)險類別的數(shù)據(jù)特征
本文采用自上而下的方法厘定各個風(fēng)險類別的風(fēng)險保費(fèi),先根據(jù)保單組合的歷史索賠數(shù)據(jù),計(jì)算保單組合的總風(fēng)險保費(fèi),使得總風(fēng)險保費(fèi)大于實(shí)際索賠金額的概率足夠大,比如達(dá)到99.9%;再應(yīng)用回歸模型計(jì)算各個風(fēng)險類別的風(fēng)險保費(fèi),并要求保單組合的總風(fēng)險保費(fèi)等于各個風(fēng)險類別的風(fēng)險保費(fèi)之和,在這種約束條件下可以求得唯一的風(fēng)險附加系數(shù)或分位數(shù)水平。
在本例中,將總索賠金額的99.9%分位數(shù)作為保單組合的總風(fēng)險保費(fèi)C,即可確保該保單組合的實(shí)際索賠金額大于總風(fēng)險保費(fèi)的概率不超過0.1%,即保險公司遭受虧損風(fēng)險的概率不超過0.1%。在實(shí)際情況中,保險公司可以根據(jù)自身情況調(diào)整分位數(shù)水平,本文以99.9%的分位數(shù)水平為例進(jìn)行展示。為了計(jì)算保單組合的總風(fēng)險保費(fèi),可以利用Bootstrap 方法從67856 份保單中有放回地隨機(jī)抽取67856個樣本計(jì)算總索賠金額,一共抽取10000次,得到10000個總索賠金額的隨機(jī)樣本,由此可以較好地逼近總索賠金額的真實(shí)分布(當(dāng)樣本足夠大時,Bootstrap 方法能夠無偏地接近總體分布,估計(jì)結(jié)果精度高且穩(wěn)定[16])。如果將總索賠金額的99.9%分位數(shù)作為保單組合的總風(fēng)險保費(fèi),那么總風(fēng)險保費(fèi)為C=10192385。下面計(jì)算每個風(fēng)險類別的風(fēng)險保費(fèi),使其總和正好等于保單組合的總風(fēng)險保費(fèi)。
下頁表3 展示了Logistic 回歸、Gamma 回歸、分位回歸、函數(shù)系數(shù)分位回歸、期望分位回歸的系數(shù)估計(jì)值以及相應(yīng)的標(biāo)準(zhǔn)誤和P值。在分位回歸、函數(shù)系數(shù)分位回歸和期望分位回歸模型中,應(yīng)用式(22),可以求得相應(yīng)的分位數(shù)水平分別為75.41%、74.33%和84.97%。從表3 可以看出,各個模型的回歸系數(shù)估計(jì)值在正負(fù)號上基本一致,車齡(V)越大,索賠概率越低,索賠金額越大;駕駛?cè)四挲g(A)越大,索賠概率越低,索賠金額越小。
表3 回歸模型的參數(shù)估計(jì)值
下頁表4 展示了應(yīng)用Logistic 回歸預(yù)測的各風(fēng)險類別的索賠概率、基于Gamma 回歸預(yù)測的各風(fēng)險類別的純保費(fèi),以及應(yīng)用不同方法計(jì)算的風(fēng)險保費(fèi)。本例中,如果要求各個風(fēng)險類別的風(fēng)險保費(fèi)之和等于總風(fēng)險保費(fèi),那么在期望值原理和標(biāo)準(zhǔn)差原理下,求得的風(fēng)險附加系數(shù)分別為α=10.06%和α=1.94%。
表4 不同方法計(jì)算的風(fēng)險保費(fèi)
前面應(yīng)用五種模型求得了五種不同的風(fēng)險保費(fèi),為了比較他們的相對優(yōu)劣,每次將其中一個模型作為基準(zhǔn)模型,其他模型作為競爭模型,計(jì)算競爭模型的風(fēng)險保費(fèi)與基準(zhǔn)模型的風(fēng)險保費(fèi)之比Ri(i=1,2,…,I),根據(jù)Ri從小到大的順序?qū)鶞?zhǔn)模型的風(fēng)險保費(fèi)和實(shí)際損失觀察值進(jìn)行排序,并據(jù)此繪制有序洛倫茲曲線,計(jì)算基尼指數(shù),結(jié)果如下頁表5 所示?;嶂笖?shù)的具體計(jì)算方法參見文獻(xiàn)[17]。
表5 基于基尼系數(shù)的模型比較(單位:%)
從表5 可以看出,若以期望值原理作為基準(zhǔn)模型,則它的相對最大劣勢為1.84;若以標(biāo)準(zhǔn)差原理為基準(zhǔn)模型,則它的相對最大劣勢為1.81。類似地,分別以分位回歸、函數(shù)系數(shù)分位回歸和期望分位回歸作為基準(zhǔn)模型時,他們各自的相對最大劣勢分別為6.64、3.37 和1.16。根據(jù)Mini-max 準(zhǔn)則,期望分位回歸作為基準(zhǔn)模型時的相對最大劣勢只有1.16,數(shù)值最小,所以它在上述五個模型中是最優(yōu)模型。
應(yīng)用期望分位回歸厘定的風(fēng)險保費(fèi)具有良好的可解釋性。下頁圖2 是期望分位回歸與Gamma 回歸的系數(shù)估計(jì)值在分位數(shù)水平τ∈[0,1]上的情況。實(shí)線表示期望分位回歸的系數(shù)估計(jì)值,陰影部分表示其置信水平為95%的置信區(qū)間,虛線表示Gamma 回歸系數(shù)估計(jì)值。Gamma 回歸與期望分位回歸的系數(shù)估計(jì)值正負(fù)號在大部分分位數(shù)水平上保持一致,且每幅圖在τ∈[0.8,1]上均有交集。截距項(xiàng)代表的是基準(zhǔn)類別V=1,A=1的系數(shù)估計(jì)值。分位數(shù)水平τ升高,截距項(xiàng)的估計(jì)值隨之上升,說明保險公司需要收取更高的風(fēng)險保費(fèi)來平衡V=1,A=1不斷增長的風(fēng)險水平。期望分位回歸的系數(shù)估計(jì)值代表了不同類別之間風(fēng)險保費(fèi)的相對差異。例如,圖2(b)展示了類別V=2,A=1 與V=1,A=1 在風(fēng)險保費(fèi)上的相對差異。當(dāng)系數(shù)估計(jì)值大于0時,兩個類別的風(fēng)險保費(fèi)之比大于1,說明V=2,A=1 的風(fēng)險保費(fèi)比V=1,A=1 高,前者的相對風(fēng)險水平更高;小于0 則反之。根據(jù)圖2(b)可知,期望分位回歸的系數(shù)估計(jì)值起初隨著τ的增大而增大,且為正值,說明V=2,A=1 的風(fēng)險保費(fèi)更高。當(dāng)τ→1 時,系數(shù)估計(jì)值迅速下降并且變?yōu)樨?fù)值。因此,在極端分位數(shù)水平上,V=2,A=1 的風(fēng)險保費(fèi)下降,最終小于類別V=1,A=1 的風(fēng)險保費(fèi)。從圖2 還可以看出,車齡(V)的回歸系數(shù)大多數(shù)情況下大于零,說明隨著汽車使用年限的增大,風(fēng)險保費(fèi)逐步提高;駕駛?cè)四挲g(A)的回歸系數(shù)在大多數(shù)情況下小于零,說明隨著駕駛?cè)四挲g的增大,風(fēng)險保費(fèi)越來越低。
圖2 分位數(shù)水平對期望分位回歸系數(shù)的影響
在風(fēng)險保費(fèi)的理論與應(yīng)用研究中,關(guān)于純保費(fèi)的研究較多,而對風(fēng)險附加的關(guān)注相對較少。期望分位數(shù)的理論性質(zhì)表明,應(yīng)用期望分位數(shù)預(yù)測風(fēng)險保費(fèi)具有一定優(yōu)勢,可以更好地滿足保險定價的實(shí)際需要。本文提出期望分位數(shù)保費(fèi)原理,即應(yīng)用期望分位回歸預(yù)測風(fēng)險保費(fèi),代替基于廣義線性模型的期望值保費(fèi)原理和標(biāo)準(zhǔn)差保費(fèi)原理以及基于分位回歸的分位數(shù)保費(fèi)原理。對非零損失數(shù)據(jù)使用期望分位回歸建模,令各個風(fēng)險類別的分位數(shù)水平一致,避免了需要借助水平概率轉(zhuǎn)化分位數(shù)水平的問題,簡化了計(jì)算過程。此外,為了基于實(shí)際數(shù)據(jù)確定各種保費(fèi)原理中的風(fēng)險附加系數(shù)或分位數(shù)水平,本文提出了一種自上而下計(jì)算風(fēng)險保費(fèi)的方法,避免了現(xiàn)有文獻(xiàn)中確定風(fēng)險附加系數(shù)和分位數(shù)水平的主觀任意性。基于R程序包insuranceData 中一個實(shí)際數(shù)據(jù)集dataCar 進(jìn)行的實(shí)證分析結(jié)果表明,應(yīng)用期望分位回歸預(yù)測風(fēng)險保費(fèi)要優(yōu)于現(xiàn)有方法。
為了與現(xiàn)有文獻(xiàn)中的其他模型在相同基礎(chǔ)上進(jìn)行比較,本文在建立期望分位回歸模型時,僅考慮了現(xiàn)有文獻(xiàn)中使用的變量,并沒有考慮變量之間的交互效應(yīng)和非線性效應(yīng)。此外,在后續(xù)研究中,可以嘗試將函數(shù)系數(shù)引入期望分位回歸,建立參數(shù)系數(shù)的期望分位回歸模型,進(jìn)一步提高期望分位回歸模型在風(fēng)險保費(fèi)厘定中的靈活性。