• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多元有序Logistic模型在車險(xiǎn)索賠次數(shù)預(yù)測(cè)中的應(yīng)用

      2022-01-18 07:02:30李浩男
      關(guān)鍵詞:泊松車險(xiǎn)次數(shù)

      李浩男

      (南開大學(xué)金融學(xué)院,天津300350)

      一、引言

      車險(xiǎn)定價(jià)一直以來都是研究的熱點(diǎn),2020年9月19日啟動(dòng)的商業(yè)車險(xiǎn)綜合改革,對(duì)車險(xiǎn)定價(jià)的精確性和合理性提出更高的要求,是我國(guó)車險(xiǎn)高質(zhì)量發(fā)展的重要契機(jī)。廣義線性模型作為車險(xiǎn)索賠的建模分析重要手段之一,自1972年Nelder J A和Wedderburn R 首次給出定義以來,學(xué)術(shù)界不斷為該方法增加新元素,例如Anderson等(2004)[1]對(duì)指數(shù)分布族的深入討論;同時(shí)國(guó)內(nèi)外相關(guān)的著作也越來越豐富,如Frees(2010)[2]、孟生旺等(2015)[3]。

      由于免賠額與無賠款優(yōu)待等條款的存在,實(shí)務(wù)中車險(xiǎn)索賠數(shù)據(jù)存在大量的零次索賠,傳統(tǒng)的廣義線性模型無法解決索賠數(shù)據(jù)零膨脹、過離散以及異質(zhì)性的特征。此時(shí),解決零膨脹的一個(gè)有效的方法是將模型分為零點(diǎn)概率和計(jì)數(shù)分布兩個(gè)部分,即(a,b,1)型的零膨脹模型。Yip 和Yau(2005)[4]首次使用零膨脹模型分析了車險(xiǎn)索賠次數(shù),分別討論了泊松分布與負(fù)二項(xiàng)分布下的零膨脹模型。為了提升擬合結(jié)果,進(jìn)一步完善零膨脹模型一直是研究熱點(diǎn)。孟生旺和楊亮(2015)[5]基于傳統(tǒng)零膨脹模型增加了隨機(jī)效應(yīng),以此分析索賠數(shù)據(jù)組內(nèi)的相依性。張連增和王締(2019)[6]對(duì)比零膨脹模型與Hurdle 模型,實(shí)證結(jié)果顯示零膨脹負(fù)二項(xiàng)模型更好。徐昕(2020)[7]探討了零膨脹廣義泊松模型的推廣形式,并給出了模型和參數(shù)估計(jì)方法。

      為了進(jìn)一步解決零膨脹特征導(dǎo)致的過離散和異質(zhì)性問題,在零膨脹模型的基礎(chǔ)上提出了混合泊松模型(Mixed Poisson, MP)。 Joe 和Zhu(2005)[8]、Nikoloulopoulos和Karlis(2008)[9]先后對(duì)比了不同的混合泊松模型,分析了索賠頻率數(shù)據(jù)的零膨脹、過離散以及厚尾特征。王選鶴等(2018)[10]研究了零膨脹混合泊松的有限混合模型,實(shí)證結(jié)果表明該模型有助于改進(jìn)對(duì)索賠次數(shù)的估計(jì)結(jié)果;殷崔紅等(2019)[11]討論了開放式的混合泊松模型,提升了模型的自適應(yīng)性。

      綜合已有研究可以發(fā)現(xiàn),學(xué)者們大多使用混合泊松或零膨脹泊松來研究索賠次數(shù),在一定程度上可以解決零膨脹、過離散和尾部概率的問題。但是在應(yīng)用層面,此類模型計(jì)算復(fù)雜、模型求解比較困難,同時(shí)參數(shù)難以直觀解釋;另一方面,確定混合泊松模型的混合個(gè)數(shù)時(shí)仍包含較大的主觀性。索賠次數(shù)的零膨脹問題可以視為(a,b,0)型計(jì)數(shù)模型的“后遺癥”,因?yàn)椴煌螖?shù)之間的發(fā)生概率需滿足遞推關(guān)系(Panjer,1981)[12],使用極大似然估計(jì)方法會(huì)受到該遞推關(guān)系的影響。大量零次索賠的存在將迫使模型給予零點(diǎn)概率過高的權(quán)重,從而“拉偏”了對(duì)尾部風(fēng)險(xiǎn)的估計(jì),導(dǎo)致模型結(jié)果并不理想。

      為了避免計(jì)數(shù)分布遞推關(guān)系對(duì)模型的影響,已有學(xué)者使用二元Logistic 回歸研究車險(xiǎn)索賠次數(shù)(張連增和孫維偉,2012;Duan等,2018)[13,14],但是這些討論僅限于是否發(fā)生索賠,只使用了索賠次數(shù)中的部分信息。本文將索賠次數(shù)視為有序分類變量,引入多元有序Logistic 回歸模型(Ordered Lo?gistic Regression,OLR),該模型作為L(zhǎng)ogistic模型的一個(gè)重要分類,其較多應(yīng)用于醫(yī)學(xué)分析中,如Kanbayashi 等(2018)[15]利用OLR 模型探究了不同程度膽堿能綜合征的發(fā)病因素。在保險(xiǎn)領(lǐng)域,劉威和劉昌平(2018)[16]使用該模型分析了社保對(duì)農(nóng)村老年人健康狀況的影響,討論了模型異質(zhì)性。

      本文采用OLR 模型分析索賠頻率數(shù)據(jù)。首先,參考Agresti(2003)[17]對(duì)OLR 連接函數(shù)的討論,選擇了3種不同的連接函數(shù)建立OLR模型;其次,基于OLR模型的概率意義,定義了相對(duì)風(fēng)險(xiǎn)系數(shù),以分析風(fēng)險(xiǎn)因素變動(dòng)引起的索賠概率的相對(duì)變化;最后,利用一組車險(xiǎn)索賠數(shù)據(jù),實(shí)證分析的結(jié)果驗(yàn)證了該方法在車險(xiǎn)索賠領(lǐng)域的實(shí)用價(jià)值。OLR模型相較于已有方法在模型構(gòu)建、參數(shù)估計(jì)、結(jié)果分析上都更為容易。

      二、模型構(gòu)建與評(píng)價(jià)

      傳統(tǒng)的(a,b,0)型計(jì)數(shù)分布必須滿足式(1)(Panjer,1981)[12]:

      上式中只有a、b兩個(gè)參數(shù),3 個(gè)概率值構(gòu)成的兩個(gè)方程即可完全確定分布。使用傳統(tǒng)分布估計(jì)時(shí),當(dāng)索賠次數(shù)超過3 次以后,索賠次數(shù)估計(jì)值會(huì)出現(xiàn)較大偏差(薛智雯,2018)[18]。即使是將零點(diǎn)概率單獨(dú)剝離出來的零膨脹模型,也仍然沒有擺脫這種遞推關(guān)系,模型估計(jì)的靈活性同樣受到限制。零膨脹混合泊松模型通過多個(gè)分布的混合擴(kuò)展了參數(shù)的個(gè)數(shù),提升了模型估計(jì)的準(zhǔn)確性,但是一方面,混合模型降低了參數(shù)的可解釋性,另一方面,混合個(gè)數(shù)的確定包含了過多的主觀性。

      為了避免計(jì)數(shù)分布遞推關(guān)系的影響,本文將索賠次數(shù)作為分類變量,應(yīng)用多元有序Logistic 回歸模型,該模型可拓展性較強(qiáng),并且結(jié)果具有概率意義,解釋力更強(qiáng)。索賠次數(shù)的高低可以反映駕駛員風(fēng)險(xiǎn)等級(jí)的排序,所以將索賠次數(shù)視作分類變量在實(shí)際意義上是合理的。

      (一)模型構(gòu)建

      OLR 模型作為廣義線性模型的一個(gè)重要分支,其連接函數(shù)是累積概率的轉(zhuǎn)換形式。本文實(shí)證結(jié)果表明,不同的連接函數(shù)對(duì)模型的預(yù)測(cè)結(jié)果影響很小,故選擇更為平滑的Logit 連接函數(shù),構(gòu)建的OLR模型如下:

      其中pi= Pr(Y=i|X)是索賠次數(shù)為i次的概率,K為索賠次數(shù)最大值。根據(jù)式(2),可以推出索賠k次的概率pk,即:

      同時(shí)考慮概率的規(guī)范性約束:

      Mccullagh(1980)[19]證明了當(dāng)樣本數(shù)n足夠大時(shí),極大似然法得到的有序模型是唯一確定的。將模型參數(shù)的估計(jì)值代入式(3)和(4),可以計(jì)算出不同索賠次數(shù)的發(fā)生概率。

      Logistic模型的結(jié)果具有概率意義,駕駛員或車輛信息發(fā)生變化時(shí),將引起索賠概率的變動(dòng),從而影響預(yù)期索賠頻率。定義相對(duì)風(fēng)險(xiǎn)系數(shù)I來分析解釋變量變動(dòng)對(duì)預(yù)期索賠頻率的影響,計(jì)算公式為:

      其中xb為解釋變量的基礎(chǔ)類別。

      (二)模型評(píng)價(jià)

      為了客觀評(píng)價(jià)OLR 模型的預(yù)測(cè)能力,將OLR模型與泊松模型(Poisson)、零膨脹泊松模型(ZIP)和零膨脹負(fù)二項(xiàng)模型(ZINB)相比較,選用相同的解釋變量訓(xùn)練模型。由于這些模型之間不存在嵌套關(guān)系,赤池信息準(zhǔn)則(AIC)、貝葉斯信息準(zhǔn)則(BIC)和偏差(Deviance)等模型評(píng)價(jià)指標(biāo)并不能客觀地反映模型的優(yōu)劣(Kuha,2004)[20]。另一方面,由于數(shù)據(jù)集本身的“零膨脹”特點(diǎn),如果按照最小化貝葉斯誤差來確定分類,那么所有駕駛員的索賠次數(shù)都將被預(yù)測(cè)為0次,所以比較預(yù)測(cè)的準(zhǔn)確率也沒有任何實(shí)際意義。

      一個(gè)保險(xiǎn)合同組中不同索賠次數(shù)的情況往往更值得關(guān)注,參考殷崔紅等(2019)[11]使用的模型比較方法,本文選擇卡方檢驗(yàn)來評(píng)價(jià)模型對(duì)合同組的預(yù)測(cè)能力,卡方統(tǒng)計(jì)量定義為:

      上式中,Oi為實(shí)際觀測(cè)到索賠i次的樣本數(shù),Ei為索賠i次樣本數(shù)的預(yù)測(cè)值。

      三、實(shí)證分析

      本文以國(guó)內(nèi)2017年某車險(xiǎn)數(shù)據(jù)為分析樣本,包含172254 條有效數(shù)據(jù)①。原數(shù)據(jù)中包含索賠次數(shù)和17個(gè)解釋變量,本文從泊松回歸模型出發(fā),根據(jù)AIC 準(zhǔn)則,使用向前向后逐步回歸,確定最終模型包含8 個(gè)解釋變量,如表1。在使用OLR 模型時(shí),本文將被解釋變量索賠次數(shù)視為分類變量。

      表1 變量符號(hào)及說明

      連續(xù)變量描述統(tǒng)計(jì)如表2,分類變量頻數(shù)統(tǒng)計(jì)如表3。

      表2 連續(xù)變量描述統(tǒng)計(jì)

      表3 分類變量頻數(shù)統(tǒng)計(jì)

      數(shù)據(jù)集中零次索賠的占比約為94.8%,索賠次數(shù)有明顯的“零膨脹”特征。為了保證數(shù)據(jù)結(jié)構(gòu)的一致性,本文根據(jù)索賠次數(shù)隨機(jī)分層抽樣,將樣本數(shù)據(jù)分為訓(xùn)練集(70%,樣本數(shù)為120578)和測(cè)試集(30%,樣本數(shù)為51676)。

      (一)模型估計(jì)

      為了對(duì)比OLR 模型與泊松模型、ZIP 模型和ZINB模型的差異,所有模型使用相同的解釋變量,差異僅為索賠次數(shù)的變量類型。本文將分類變量中頻數(shù)最多的分類視為基礎(chǔ)類別,使用R軟件得到OLR模型極大似然估計(jì)結(jié)果,如表4。

      表4 極大似然估計(jì)結(jié)果(連接函數(shù)為L(zhǎng)ogit)

      CarKindOthers Age CarAge NonDeductible0 LYClaim1截距項(xiàng)0|1 1|2 2|3 3|4 4|5-10.0339 0.0056 0.0439-0.5588 0.2290 3.1003 5.7936 8.7370 10.5142 11.3963 0.0000 0.0031 0.0096 0.0393 0.0836 0.1273 0.1442 0.3303 0.7531 1.1610-4.68E+07 1.8084 4.5935-14.2190 2.7396 24.3522 40.1710 26.4488 13.9606 9.8159 0.0000 0.0706 0.0000 0.0000 0.0062 0.0000 0.0000 0.0000 0.0000 0.0000解釋變量Estimate 標(biāo)準(zhǔn)誤 t統(tǒng)計(jì)量P值

      使用似然比檢驗(yàn)對(duì)整個(gè)模型進(jìn)行檢驗(yàn),p值顯著小于0.05,模型整體有意義,如表5。

      表5 模型整體檢驗(yàn)(原假設(shè)為模型僅包含截距項(xiàng))

      (二)模型評(píng)價(jià)

      參考Agresti(2003)[17]對(duì)連接函數(shù)的討論,本文分別選擇Logit、Probit 和負(fù)雙對(duì)數(shù)(Nloglog)三種連接函數(shù)建立OLR 模型,并與Poisson、ZIP 和ZINB模型相比較,索賠次數(shù)預(yù)測(cè)結(jié)果如表6。

      表6 測(cè)試集索賠次數(shù)預(yù)測(cè)結(jié)果比較

      由表6可以發(fā)現(xiàn),泊松模型完全未考慮數(shù)據(jù)中的零膨脹、過離散和異質(zhì)性,其卡方值為863.19,顯著高于其他5個(gè)模型,尾部概率的估計(jì)明顯偏離實(shí)際值。ZIP 和ZINB 的卡方值非常接近,一定程度上解決了零膨脹問題,但是當(dāng)索賠次數(shù)超過3 次后,預(yù)測(cè)效果明顯降低。OLR模型的卡方值最小,并且對(duì)尾部風(fēng)險(xiǎn)的預(yù)測(cè)效果更好。其中,以Probit為連接函數(shù)的OLR 模型預(yù)測(cè)結(jié)果最優(yōu),但是三個(gè)OLR 模型的卡方值屬于同一個(gè)量級(jí),差異可能來源于隨機(jī)性,所以無法在統(tǒng)計(jì)意義上確定哪一種連接函數(shù)的OLR模型更好。

      估計(jì)索賠頻率是車險(xiǎn)精算建模的重要工作,因?yàn)閺V義線性模型的分析基于被解釋變量的均值(王選鶴等,2018)[10],所以不同模型對(duì)索賠頻率的估計(jì)差異較小,如下表。

      表7 測(cè)試集索賠頻率估計(jì)及誤差

      OLR 模型整體上優(yōu)于泊松模型和零膨脹模型,以Probit 為連接函數(shù)的OLR模型的誤差最小,僅為0.002583。

      (三)模型應(yīng)用

      不同連接函數(shù)的OLR 模型差異較小,本文選擇更平滑且更常用的Logit 作為連接函數(shù),進(jìn)行下一步分析。按照OLR 模型的思路,分析某一變量對(duì)于不同索賠次數(shù)發(fā)生概率的影響,本文以車型(CarKind)為例,討論不同車型索賠概率的差異。

      固定其他條件不變,設(shè)定連續(xù)變量取值為平均值,分類變量取值為基礎(chǔ)類別,計(jì)算不同車型的索賠概率,結(jié)果如圖1。樣本數(shù)據(jù)中,車型為Others的索賠次數(shù)全為0,所以圖1中Others類別的車型0次索賠概率接近1,其他次數(shù)索賠幾乎為0。

      圖1 不同車型索賠概率對(duì)比

      由于Others 樣本數(shù)僅為96,考慮到統(tǒng)計(jì)顯著性,主要分析其他三種車型相對(duì)風(fēng)險(xiǎn)關(guān)系。在3種車型中Type2索賠的概率最高,而Type3發(fā)生索賠的概率最低。另外,索賠1-5 次的圖形具有極高的相關(guān)性,在發(fā)生索賠的條件下,不同車型的相對(duì)風(fēng)險(xiǎn)關(guān)系是穩(wěn)定的,也就是說索賠次數(shù)的大小,并沒有影響解釋變量與被解釋變量之間的相關(guān)關(guān)系。使用相對(duì)風(fēng)險(xiǎn)系數(shù)I來評(píng)估不同車型對(duì)索賠頻率的影響,結(jié)果如表8。

      表8 不同車型相對(duì)風(fēng)險(xiǎn)系數(shù)

      就這3 種車型而言,Type3 的相對(duì)風(fēng)險(xiǎn)系數(shù)為Type2 的0.7745 倍。如果僅考慮這一樣本集的經(jīng)驗(yàn)數(shù)據(jù),在其他條件一樣的情況下,Type3 車型保單的純保費(fèi)應(yīng)為Type2的0.7745倍。類似地,可以根據(jù)不同投保人的特征計(jì)算對(duì)應(yīng)的相對(duì)風(fēng)險(xiǎn)系數(shù),為差異化定價(jià)提供參考。

      四、小結(jié)

      為解決車險(xiǎn)索賠次數(shù)建模面臨的零膨脹等一系列問題,本文選擇了多元有序Logistic 回歸模型,分別使用Logit、Probit和Nloglog三種連接函數(shù)建立OLR 模型,并與泊松模型、ZIP 模型和ZINB模型相比較。OLR模型解決了部分“零膨脹”帶來的問題,該模型顯著優(yōu)于現(xiàn)有的泊松模型、ZIP 模型和ZINB模型,以Probit作為連接函數(shù)的OLR模型卡方值最小。特別是,OLR 模型克服了傳統(tǒng)計(jì)數(shù)分布的限制,參數(shù)估計(jì)更靈活,對(duì)尾部概率的預(yù)測(cè)也更準(zhǔn)確。但是不同連接函數(shù)的OLR模型的預(yù)測(cè)能力相近,卡方值的差異可能來源于隨機(jī)因素,所以無法從統(tǒng)計(jì)意義上確定使用哪種連接函數(shù)的OLR模型更適合分析車險(xiǎn)索賠次數(shù)。

      在保險(xiǎn)實(shí)務(wù)中,不同風(fēng)險(xiǎn)因素對(duì)索賠概率的影響是關(guān)注的重點(diǎn),而模型的預(yù)測(cè)能力與解釋性呈反比關(guān)系,現(xiàn)有的混合泊松模型已經(jīng)開始面臨參數(shù)解釋性差的難題,復(fù)雜的混合分布讓風(fēng)險(xiǎn)來源更加難以識(shí)別。OLR 模型不僅具有很好的預(yù)測(cè)能力,并且結(jié)果具有概率意義,所以較好的解釋力是其與生俱來的優(yōu)勢(shì)。在解決“零膨脹”問題的基礎(chǔ)上,OLR模型可以分析不同風(fēng)險(xiǎn)因素變動(dòng)對(duì)索賠概率的影響。例如,本文對(duì)車型(CarKind)的分析,不同車型的相對(duì)風(fēng)險(xiǎn)系數(shù)可以作為車險(xiǎn)定價(jià)的參考。另外,在模型應(yīng)用過程中,當(dāng)研究不同索賠次數(shù)的發(fā)生概率時(shí),解釋變量與索賠次數(shù)之間的相關(guān)關(guān)系是不變的。

      上述結(jié)論證明OLR模型可以合理應(yīng)用于承保核保等一系列環(huán)節(jié),能幫助險(xiǎn)企綜合考慮人、車等多個(gè)因素,以實(shí)現(xiàn)風(fēng)險(xiǎn)識(shí)別,選擇目標(biāo)客戶群體。

      [注 釋]

      ①本文的數(shù)據(jù)來自國(guó)內(nèi)某財(cái)產(chǎn)保險(xiǎn)公司2017年的機(jī)動(dòng)車輛保險(xiǎn)業(yè)務(wù),車輛類型為貨車。原數(shù)據(jù)共有173335 條保單數(shù)據(jù),剔除了“賠付金額”為負(fù)的8 條數(shù)據(jù)和“NCD 滿期基準(zhǔn)保費(fèi)”為負(fù)的1073 條數(shù)據(jù),保留了172254 條有效數(shù)據(jù)。

      猜你喜歡
      泊松車險(xiǎn)次數(shù)
      基于泊松對(duì)相關(guān)的偽隨機(jī)數(shù)發(fā)生器的統(tǒng)計(jì)測(cè)試方法
      機(jī)場(chǎng)航站樓年雷擊次數(shù)計(jì)算
      基于改進(jìn)DeepFM的車險(xiǎn)索賠預(yù)測(cè)模型的研究
      2020年,我國(guó)汽車召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長(zhǎng)3.9%
      商用汽車(2021年4期)2021-10-13 07:16:02
      一種基于5G網(wǎng)絡(luò)平臺(tái)下的車險(xiǎn)理賠
      帶有雙臨界項(xiàng)的薛定諤-泊松系統(tǒng)非平凡解的存在性
      一類無界算子的二次數(shù)值域和譜
      依據(jù)“次數(shù)”求概率
      泊松著色代數(shù)
      一季度車險(xiǎn)費(fèi)率下降0.07% 保費(fèi)收入1500多億
      洛浦县| 南投市| 陕西省| 呼玛县| 定结县| 新田县| 同心县| 麻江县| 靖远县| 宿迁市| 阜城县| 兖州市| 石林| 合川市| 眉山市| 右玉县| 黄山市| 淅川县| 无棣县| 都昌县| 若羌县| 博湖县| 边坝县| 甘德县| 房产| 木兰县| 横峰县| 南和县| 庆云县| 滨州市| 上饶县| 个旧市| 松溪县| 江北区| 康定县| 基隆市| 潞城市| 共和县| 尼玛县| 徐水县| 石棉县|