康萌萌,孟生旺
(1山東財經大學 保險學院,山東 濟南250014;2中國人民大學 統(tǒng)計學院,北京100872)
信度模型是非壽險精算學中最為重要的成果。從20世紀初至今,信度理論先后經歷了兩個發(fā)展階段:一是早期的有限波動信度理論;二是現代以貝葉斯理論為基礎的最精確信度理論。有限波動信度方法旨在限制數據中的隨機波動對估計的影響,雖強調了結果的穩(wěn)定性,但缺乏堅實的統(tǒng)計理論支持,因此其研究相對較少?,F代信度理論之父Arthur Bailey將貝葉斯方法引入信度理論的研究中[1];20世紀60年代末,瑞士精算家Bühlmann提出簡單Bühlmann信度模型,在均方誤差最小意義下導出了信度保費的公式,在某種意義上這是最接近真實風險的保費估計值[2]。隨著信度理論不斷發(fā)展,信度模型變得越來越靈活,出現了各種更加符合實際的 信 度 模 型,如 Bühlmann-Straub 模 型、Hachemeister模 型、Jewell分 層 模 型 等[3]129-163[4]。Dannenlurg借助方差分量法引入了交叉分類的信度模型,在該模型中所有風險因子均被視為有可能存在交互影響,建立了計算信度估計值的公式,該公式通過把風險變量分解添加到相互獨立的方差分量中求得信度估計值[5]。Dannenlurg通過矩估計方法給出了交叉分類信度模型結構參數的估計和保費預測值,然而用矩估計方法估計出來的參數依賴于現有歷史數據,在數據資料不充足的情況下很難得到參數的無偏后驗估計。同時,矩估計方法計算繁雜,大大限制了交叉分類信度模型在實踐中的應用。因此,筆者主要考慮使用貝葉斯方法和來估計參數,預測保費。
在實際應用中,利用貝葉斯方法分析信度模型存在兩點困難:一是基于歷史經驗數據對條件密度和結構函數的估計比較困難;二是即使知道或者估計出條件密度和結構函數,但是由于積分計算的困難和復雜,也很難得到貝葉斯保費的顯示表達式。由于這兩個方面的困難,使貝葉斯保費的應用受到極大的限制。近幾年,隨著計算機技術的發(fā)展和貝葉斯方法的改進,特別是馬爾可夫鏈蒙特卡洛方法的應用,使原來異常復雜的數值計算問題迎刃而解,對參數后驗分布的模擬也更為方便。隨著現代貝葉斯理論及其應用的日趨成熟,許多學者開始利用貝葉斯方法估計信度模型的參數[6]。同時,通過對交叉分類信度模型的分解發(fā)現交叉分類信度模型的結構與縱向數據極為相似,因此可以利用縱向數據的方法對其進行分析。譬如Frees等人將5種基本信度模型表示為線性混合模型的形式,用最小無偏估計量估計信度保費[7];Antonio等則在gamma分布假設下,將廣義線性混合模型用于交叉分類信度模型的費率厘定[8];康萌萌假設在因變量服從泊松、過離散泊松和負二項分布的情況下,用廣義線性混合模型厘定了信度保費[9]。
針對傳統(tǒng)交叉分類信度模型中結構參數無偏估計的不足和計算過于繁雜,本文構建了基于模型的交叉分類信度模型,并借助于MCMC模擬中的Gibbs抽樣,通過WinBUGS和SAS軟件包進行仿真分析,得到模型中索賠額的后驗分布以及保費預測值。
Dannenburg D.(1995)借助方差分量方法引入了交叉分類的信度模型,通過帶有違約風險的貸款模型給出了雙向交叉分類模型的模型形式和參數估計方法。在此模型中,將債務人的婚姻狀況和在目前公司的工作時間作為兩個風險因素。令I為婚姻狀況的水平,J為在目前公司的工作時間水平,I=J=3,兩個風險因素都有三個水平值?;橐鰻顩r分為單身、離異、其他三個層次(i=1,2,3);工作時間分為少于兩年、兩年至十年、十年以上三個層次(j=1,2,3)。此時,兩種分類因素地位是對等的,所以采用交叉分類信度模型,兩個因素的交互作用也包括在模型中。令Kij為婚姻狀況第i類和工作時間第j類的觀測個數,即(i,j)中的觀測個數,Xijk為(i,j)中第k個觀測。觀測總個數為401,數據是不平衡的,即每個(i,j)中的觀測個數不相等。交叉分類信度模型假設:
其中αi,βj,γij,δijk被認為是獨立隨機變量,均值為0,方差分別為為已知數,在本例中為1;模型中的參數都是未知數,必須利用已知數據進行估計出來反映了與個體風險因子無關的小組與小組之間的變化,刻畫了小組內部風險的變化情況;αi,βj分別為婚姻狀況、工作時間觀測值的主要效應,其方差分別為,反映了不同婚姻狀況、不同工作時間之間的變化情況。
Dannenburg D.采用矩估計方法對交叉分類模型進行了估計,計算過程如下所示:
在貝葉斯分析中要對后驗分布的統(tǒng)計特征進行歸納,如計算各階矩、分位點等,就需要計算關于后驗分布f(θ|x)的各種積分。當f(x|θ)、f(θ)所表示的密度函數具有高維特征或比較復雜時,采用推導的方法來直接計算后驗分布f(θ|x)就變得非常困難。為了解決這一困難引入MCMC方法,MCMC方法是一種特殊的蒙特卡洛方法,它通過對馬爾可夫鏈進行蒙特卡洛模擬,使得到的后驗分布為馬爾可夫鏈的平穩(wěn)分布,進而計算后驗分布的積分。本質上,MCMC方法是使用馬爾可夫鏈的蒙特卡洛積分,蒙特卡洛積分是通過抽樣點{x(t),t=0,1,…}來估計函數h(X)的期望,其估算公式為:
這樣通過估計h(X)的均值可以得到總體的均值,當抽樣點 {x(t)}相互獨立時可以增加抽樣次數n來提高估計精度,并且經過一段時間的迭代而X(t)的分布可以收斂到一個平穩(wěn)分布。這時,MCMC算法的估算式應當去掉收斂以前的迭代而用收斂后的迭代值來估計。在客觀應用中,判斷是否收斂可以通過觀察WinBUGS軟件中的軌跡圖來進行。至此,可以把MCMC方法概括為如下三步:
第一,在X上選一個“合適的”馬爾可夫鏈,使其轉移核為p(·|·),“合適的”含義主要指π(X)應是其相應的平穩(wěn)分布。
第二,由X中的某一點X(0)出發(fā),用第一步中的馬爾可夫鏈產生點序列X(1),…,X(n)。
第三,對某個m和大的n,任一函數f(x)的期望估計如下:
由于MCMC方法的基本思想是通過建立一個平穩(wěn)分布為π(x)的馬爾可夫鏈來得到π(x)的樣本。因此,構造轉移核使已知的概率分布π(x)為平穩(wěn)分布是至關重要的。不同的轉移核將導致不同的MCMC方法、如 Metropolis-Hasting迭代法、Gibbs樣本法等,而Gibbs樣本法由于計算原理比較簡便而被廣泛應用。
Gibbs抽樣的關鍵在于僅需要考慮單變量條件分布,這樣的條件分布比復雜的聯(lián)合分布更容易計算,而且通常在形式上更簡單(通常是正態(tài)分布、逆卡方分布或者其他的一般先驗分布)。因此,對n個單變量條件分布里面的n個隨機變量依次計算要比直接對聯(lián)合分布里的一個n維向量積分容易得多。
記X= (X1,…,Xn)T,X-i= (X1,…,Xi-1,Xi+1,…,Xn)T。若Xi|Xi-1=x-i的單變量條件密度f(xi|x-i),i=1,…,n易于被抽樣,那么從初值x(0)開始,一次完整的Gibbs抽樣要經過以下三個步驟:
(1)選擇一個x(t)組成的點序列。
(2)對(1)中所選順序的每一個i抽取Xi*|x(-ti)~f(xi|x(-ti))。
(3)當(2)對X的每一個組成以選定順序完成以后,令X(t+1)=X*。
記x(t)=(xt1,…,xtn),則x(t)到x(t+1)的轉移概率函數為:
根據Dannenburg D.交叉分類信度模型:
假定:①αi,βj和γij相互獨立,且αi~ormal(0,Γα),βi~normal(0,Γβ),γij~normal(0,Γγ)。
②Xijk服從均值為μij、方差為Γδ的正態(tài)分布。
③m服從均值為μm、方差為Γm的正態(tài)分布。
④以上分布的先驗分布為:μm~normal(0,0.000 001),Γm~gamma(0.1,0.01),Γα~gamma(0.1,0.01),Γβ~gamma(0.1,0.01),Γγ~gamma(0.1,0.01),Γδ~gamma(0.1,0.01)。
本文利用Winbugs對模型進行估計。WinBUGS是英國劍橋公共衛(wèi)生研究所推出的利用MCMC方法進行貝葉斯推斷的專用軟件包,使用WinBUGS可以很方便地對許多常用的模型和分布進行Gibbs抽樣,編程者只要設置好變量的先驗分布并對所研究的模型進行一般性描述,就能很容易實現對模型的貝葉斯分析。在WinBUGS中可以使用有向模型方式對模型進行直觀的描述,也可以直接編寫模型程序。Gibbs抽樣收斂后,可以得到參數的后驗分布的均值、標準差、95%置信區(qū)間和中位數等信息,并給出后驗分布的核密度估計圖、參數的Gibbs抽樣動態(tài)圖等,使抽樣結果更直觀、可靠。為了減少參數自相關的影響,保證模擬的結果具有隨機分布的性質,共進行0000次模擬后選取第100 00~100 000次的結果作為樣本,結果見表1。
從表1中可以看出,模型抽樣模擬結果厘定出了兩個風險因素不同分類組合下一年的經驗平均賠付額Yij=Xij,Kij+1,也叫貝葉斯保費,即表1中y[i,j]的均值,例如在婚姻為單身、工作時間少于兩年的組中,下一年的貝葉斯保費為187。MC error表示MC誤差是用于描述模型模擬效果的,由樣本的均值和后驗分布的均值比較得到。Jimmy Fox等人曾指出,當參數的后驗分布的估計比較正確時MC誤差應當比較小。通常MC誤差小于標準差的1/20時就可以認為達到了要求。5.00%和95.00%分別表示分布的5%分位點和95%的分位點。從表1中可以看到,該模型模擬結果的標準差和MC誤差都很小,說明模型具有很好的穩(wěn)定性,且表1中給出了貝葉斯保費均值、5%的分位點、中位數和95%的分位點,從而為保險公司厘定保費提供了一定的參考范圍。另外,在WinBUGS中可以設定其他的分位點,公司可以根據需要來獲得想要的數據范圍。
表1 Winbugs90 000次抽樣迭代參數后驗估計統(tǒng)計量表
廣義線性混合效應模型(Generalized linear Mixed Models,GLMMs)常用來分析非獨立響應變量的數據,如縱向數據和重復測量數據,它是在廣義線性模型的基礎上,在線性預測中引入隨機效應,通過隨機效應表現重復測量值間的相關結構,從而克服了過度離散和總體異質性問題。不足的是由于模型中包括了隨機效應,似然函數可能包括高維數值積分,使邊際似然計算復雜化,最大似然估計變得非常困難,甚至沒有可能,所以過去一段時間大多數研究者一直致力于尋找避免復雜積分而容易估計的算法程序。
假定要分析的數據由N個對象的觀測值組成,ni代表對于第i個對象的觀測次數,一般情況下N是相對于各個ni來說較大的值。Yi=(Yi1,Yi2,…,Yini)′是對第i個對象的觀測向量。在給定第i個對象的隨機效應bi的條件下,Yi1,Yi2,…,Yini是來自某一指數族分布的獨立的隨機變量,即:
其中φ(·)和c(·)是已知函數,θ是自然參數,φ為尺度參數。連接函數為:
其中β(p×1)為固定效應;bi(q×1)為對應于第i個觀測對象的隨機效應,隨機效應反映了各觀測對象間的異質性以及同一個對象不同觀測間的相關性;Xi(ni×p)和Zi(ni×q)分別為對應于p個固定效應和q個隨機效應的設計矩陣。
再假定隨機效應bi(i=1,…,N)獨立同分布,其密度函數為π(bi|D),其中D為隨機效應bi的協(xié)方差,是未知參數。關于未知參數β和D的似然函數為:
其中的積分是關于隨機效應bi的q維的積分,在一般情況下該積分很難直接積出,因此要求似然函數關于未知參數的最大值需要用數值積分或者Bayes方法等。本文采用 Wolfinger和O’connell(1993)提出的偽似然法,偽似然法用加權正態(tài)混合模型通過迭代分析線性化偽變量來使準似然函數最大化。這種方法被稱為“偽似然”,因為每次迭代最大化的擬似然函數是偽變量而不是原始數據。
SAS程序中PROC GLIMMIX過程運用上述方法估計非線性混合模型。該SAS程序中提供了不同的線性化方法,其默認方法為限制性/殘差虛擬似然法,產生的虛擬似然函數可用不同的最優(yōu)化技術加以極大化,默認優(yōu)化技術為Newton-Raphson算法。
先對索賠額數據進行簡單分析,從直方圖(圖1)中可以看出,索賠額不呈正態(tài)分布有很長的右尾,這與伽馬分布和逆高斯分布相似。因此,用這兩種模型來描述賠付金額的變化規(guī)律,通過箱線圖可以看出每組(i,j)索賠額變化不同且相差較大,因此在分析數據時應將隨機因素考慮在內。
伽馬分布和逆高斯分布的密度函數為:
伽馬分布:
逆高斯分布:
其中伽馬分布的均值為μ,方差為μ2/v,尺度參數為v;逆高斯分布的均值為μ,方差為σ2μ3,尺度參數為σ。可以證明,伽馬分布和逆高斯分布的偏度系數都可以表示為變異系數(CV)的若干倍數,分別為2CV和3CV,因此在均值和方差給定的條件下(此時變異系數也是給定的,它等于標準差與均值之比),逆高斯分布的尾部更厚,因此適合于更加右偏的損失數據。
圖1 索賠額分布圖
在交叉分類模型中將隨機效應引入均值中,即令μij=exp(m+αi+βj),可以得到交叉分類信度模型的廣義線性混合模型,并用偽似然函數估計模型的參數(見表2)。
表2 固定效應和隨機效應參數估計值表
表2給出了SAS PROC GLIMMIX程序中模型固定效應和隨機效應擬合效果。該模型僅有一個固定效應,即μIG=5.471;μGa=5.475,表明了交叉分類模型中索賠額的總均數的對數為5.471(inverse-Gaussian),5.4752(gamma)。在研究總體中索賠額可估計為:PIG=exp(5.471)=237.579;PGa=exp(5.475)=238.698。SAS PROC GLIMMIX程序中用到的數據是偽似然值,所以用其計算的-2LL的值并不能進行模型的比較,并且PROC GLIMMIX過程也不能提供總隨機效應的檢驗,這是目前SAS PROC GLIMMIX程序中存在的缺陷,所以表2中僅給出了隨機效應的估計值和標準差。
各組下一年的索賠額可以利用公式μij=exp(m+αi+βj)求出。表3給出了伽馬廣義線性混合模型和逆高斯廣義線性混合模型的估計值,并且將前面矩估計和MCMC模擬的估計值一同列出。從表3中可以看出矩估計方法、MCMC模擬和廣義線性混合模型得到的結果相似,MCMC模擬更為保守一些。
表3 交叉分類信度模型預測值
對于財產保險公司來說,經驗估費是保險產品定價中的一個重要環(huán)節(jié),也一直是各家公司不斷探索、力求完善的一項工作。在交叉分類信度模型中由于歷史賠付數據不全,使通過矩估計法對歷史數據推斷得到的未來年度的保費不僅繁瑣,而且具有很大的不可靠性,并且得到的估計結果是確定的點估計,沒有給出相應的置信區(qū)間?;诰毓烙嫷倪@些不足,本文討論了利用MCMC和GLMM方法對交叉分類信度模型進行估計,根據模型的估計情況可以得到下面的結論:
MCMC方法的運用具有以下優(yōu)勢:能夠在歷史數據不完備的情形下,利用 WinBUGS軟件包較容易地預測下一年度的保費;能夠直觀地表示各參數的后驗分布,并據此進行區(qū)間估計,相對于傳統(tǒng)模型只能進行點估計更為科學;該模型彌補了傳統(tǒng)模型的不足,提高了計算精度,對保險公司經驗費率厘定方法的改進具有現實意義。
GLMM方法的運用具有以下優(yōu)點:大大簡化了交叉分類信度模型的計算過程;許多統(tǒng)計軟件(如SAS)可以處理此類模型,使操作變得更加方便;精算師對費率厘定過程又有了新的解釋,可以利用圖形和其它診斷工具選擇模型,并對模型的實用性做出評價。
[1] Bailey A L.Credibility Provedures,Proceedings of the Casualty[J].Actuarial Society,1950(37).
[2] Bühlmann H.Experience Rating and Credibility[J].Astin Bulletin,1967(4).
[3] Hachemeister C A.Credibility for Regression Models With Application to Trend[M].Kahn P M.Credibility:Theory and Applications,New York:Academic Press.
[4] Jewell W S.The Use of Collateral Data in Credibility Theory:A Hierarchical Model[J].Giorndle dell'Istituto Haliano degli Attuari,1975(38).
[5] Dannenlurg D R,Kaas R,Goovaerts M J.Practical Actuarial Credibility Models[R].Institute of Actuarial Science and Econometrics,University of Amsterdam,1996.
[6] Scollnik D P M.Actuarial Modeling With MCMC and BUGS[J].North American Actuarial Journal,2001(2).
[7] Frees E W,Young V R,Luo Y.A Longitudinal Data Analysis Interpretation of Credibility Models[J].Insurance:Mathematics and Economics,1999(24).
[8] Antonio K,Beirlant J.Actuarial Statistics With Generalized Linear Mixed Models[J].Insurance:Mathematics and Economics,2007(40).
[9] 康萌萌.基于廣義線性混合模型的經驗費率厘定[J].統(tǒng)計與信息論壇,2009(7).