陳 希 ,李迪安 ,高 星 ,陳 帥 ,謝邦昌
(1.廈門大學(xué) 經(jīng)濟學(xué)院,福建 廈門 361005;2臺灣輔仁大學(xué) 統(tǒng)計資訊學(xué)系,臺北)
隨著人們收入水平的提高和消費意識的改變,保險產(chǎn)品日益增多,公眾對購買保險的熱情越來越高,保險行業(yè)也隨之迅速發(fā)展。與此同時,決策者在獲取利益時應(yīng)注意到行業(yè)存在的巨大風(fēng)險。保險業(yè)與其他行業(yè)相比,最大的差異在于它是以多樣化的風(fēng)險為經(jīng)營對象的特殊服務(wù)業(yè)。不同的客戶有著完全不同的需求,也為保險公司提供不同的收益率。在保險業(yè),通常根據(jù)客戶價值、客戶貢獻(xiàn)、客戶理賠風(fēng)險、保險市場、保險產(chǎn)品等進行細(xì)分。本文掌握的是保險公司的客戶資料,主要針對客戶的理賠索取這類保險業(yè)面臨的主要風(fēng)險進行闡述。另外,高風(fēng)險客戶的索賠直接造成保險公司的理賠支出,而理賠是關(guān)乎保險公司盈利的重要事宜。
在保險行業(yè)過去的客戶理賠的研究中,少有涉及數(shù)據(jù)挖掘的領(lǐng)域,多半利用傳統(tǒng)統(tǒng)計方法或是單純的專業(yè)分析,這些方法雖然能夠發(fā)現(xiàn)“發(fā)生理賠”的一些表面特征,如重復(fù)投保、高額投保、頻繁投保等,但可能都忽略了海量數(shù)據(jù)中隱含、尚未被挖掘出的寶貴信息,而數(shù)據(jù)挖掘為另一種從不同角度切入的新方法。保險公司可以利用數(shù)據(jù)庫中多年來收集起來卻沒有實際運用到的寶貴數(shù)據(jù),通過數(shù)據(jù)挖掘的技術(shù),了解所擁有的客戶的特征,以及其中具有何種特征的客戶存在著高風(fēng)險。根據(jù)數(shù)據(jù)挖掘的結(jié)果,也可以更清楚知道未來目標(biāo)的客戶群在哪里,針對目標(biāo)客戶群推行保險理賠產(chǎn)品進而獲得更大的效益。
本文利用數(shù)據(jù)挖掘技術(shù)對客戶理賠概率進行預(yù)測,按理賠概率高低將客戶分成若干等級,從而有針對性地對理賠概率高的客戶增加保險金額度或提高保險費率,或者將這部分客戶群作為非重點營銷對象,達(dá)到了運用“針對不同理賠風(fēng)險等級的保戶銷售有差異的保險產(chǎn)品”的營銷戰(zhàn)略,從而最大程度地分散非系統(tǒng)性風(fēng)險同時降低公司保險投資風(fēng)險,避免經(jīng)濟損失。
本文借助數(shù)據(jù)挖掘分類算法,對高風(fēng)險保戶的理賠風(fēng)險建立一個科學(xué)的分析與預(yù)測模型,在模型基礎(chǔ)上設(shè)定未來客戶“是否發(fā)生理賠”的最適分割點,幫助決策者做出適當(dāng)?shù)臓I銷策略。
按照CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘方法論)的標(biāo)準(zhǔn),數(shù)據(jù)挖掘在保險業(yè)中的應(yīng)用可以劃分為以下六個步驟:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估與模型發(fā)布。第一,商業(yè)理解:明確挖掘目標(biāo),即找出高風(fēng)險理賠客戶特征,指導(dǎo)公司進行營銷決策;第二,數(shù)據(jù)理解:本文使用的數(shù)據(jù)來自中國臺灣某著名保險公司,數(shù)據(jù)集共29個變量,變量類型有類別型、布爾型和順序類別型,不同類型的變量對應(yīng)于所要解決的不同問題;第三,數(shù)據(jù)準(zhǔn)備:一方面對龐大而復(fù)雜的數(shù)據(jù)進行預(yù)處理,剔除缺失數(shù)據(jù),并區(qū)分目標(biāo)變量與解釋變量,另一方面從描述統(tǒng)計角度篩選出高風(fēng)險客戶數(shù)據(jù)集;第四,建立模型:針對不同的數(shù)據(jù)挖掘目標(biāo)和數(shù)據(jù)特性,采用不同的挖掘算法建立模型;第五,模型評估:對產(chǎn)生的模型結(jié)果需要進行比對驗證、準(zhǔn)確度驗證、支持度驗證等檢驗以確定模型的價值,文中除了用增益圖和分類矩陣進行評估之外,還利用驗證集考查模型的泛化能力;第六,模型發(fā)布:只有把模型發(fā)布到?jīng)Q策者手中,才能真正通過數(shù)據(jù)挖掘降低保險公司發(fā)生理賠業(yè)務(wù)的概率與成本。
本研究使用的數(shù)據(jù)來自中國臺灣某著名保險公司自1981年至2002年間投保傷害險和健康險的客戶資料。該資料共包含65535個客戶樣本,共29個字段(依次編號為Q1至Q29):客戶基本信息(Q1~Q6)、投保數(shù)據(jù)基本資料(Q7~Q24)和理賠信息(Q25~Q29)三個資料組。
(1)數(shù)據(jù)預(yù)處理。①屬性概化。將存在缺失值以及可用其他同類屬性來代替它的較高層概念的那些屬性刪除。比如:保額與保額組別、繳費年期指示與繳費年期、投保年齡與年齡組別、已繳保費與已繳保費組別等含義重復(fù),僅保留“組別”字段;而理賠總金額可以通過理賠件次和理賠金組別進行推斷,故刪之。②相關(guān)分析。一方面要減少輸入變量之間的冗余度,保證計算的效率和輸出的簡捷;另一方面,與輸出變量無關(guān)的輸入可能會延誤甚至誤導(dǎo)挖掘進程,因此要保證輸入變量與輸出變量(有無理賠)之間有一定的相關(guān)度。此外有些屬性可以根據(jù)邏輯上直觀的判斷決定取舍。在相關(guān)分析基礎(chǔ)上,又把理陪件次、投保件次、理賠金組別等字段刪去。預(yù)處理后變量的詳細(xì)說明見表1。
(2)數(shù)據(jù)準(zhǔn)備。本分析主要關(guān)注高風(fēng)險客戶是否會發(fā)生理賠。在65535條客戶記錄中,無理賠客戶占96.77%,有理賠客戶只占3.23%。因此,首先需要界定“高理賠風(fēng)險客戶群”:將17個解釋變量與因變量(有無理賠)做交叉頻數(shù)分析,通過各個解釋變量對理賠情況的發(fā)生概率找出對有無理賠分布產(chǎn)生重要影響的因素,界定出一個特殊的客戶群體。經(jīng)分析,把具有表2中屬性特征的保戶界定為高理賠風(fēng)險保戶。
依據(jù)以上的特征,把具有以上特征的保戶從總體中分離出來,共有19335個保戶,該人群中受理賠的比例為10.96%,遠(yuǎn)高于總體比例受理賠3.23%。因為所有的理賠記錄都發(fā)生在這一人群中,其所具有的理賠風(fēng)險是遠(yuǎn)高于其它保戶的,因此對高理賠風(fēng)險保戶群體是否會發(fā)生理賠進行建模將更有現(xiàn)實意義。
表1 變量預(yù)處理及其編號
表2 高理賠風(fēng)險保戶具有的屬性特征
表3 四種決策樹算法在兩類數(shù)據(jù)集上的預(yù)測準(zhǔn)確率
在分離出的高理賠風(fēng)險客戶群中,無理賠客戶的占比仍高達(dá)89.04%。由于分類算法對存在有偏數(shù)據(jù)的處理效果是相當(dāng)不理想的,因此在進行決策樹挖掘算法前,應(yīng)對高理賠風(fēng)險客戶數(shù)據(jù)再次預(yù)處理,使得有無理賠客戶分布基本平衡。在SPSS-Clementine軟件中,通過設(shè)置平衡節(jié)點,就能使數(shù)據(jù)分布均衡。經(jīng)處理,無理賠客戶占比46.77%,有理賠客戶占比53.23%,代價是樣本量的下降。在此基礎(chǔ)上,使用分類算法對高理賠風(fēng)險客戶做深入挖掘。
2.2.1 決策樹模型。Clementine12.0提供四種決策樹算法:C5.0、CHAID、C&RT和Quest。利用Type節(jié)點設(shè)置輸出輸入變量,再通過Partition節(jié)點將數(shù)據(jù)集分成70%測試集和30%訓(xùn)練集,使用訓(xùn)練集建立分類模型,再將模型運用于測試集,利用混淆矩陣度量模型的性能。決策樹模型的數(shù)據(jù)流如圖1所示。
對四種算法分別建立起模型之后,再透過Analysis節(jié)點可以得到表3所示,關(guān)于四種算法在兩類數(shù)據(jù)集中的預(yù)測準(zhǔn)確率。分析得出C5.0模型在兩大數(shù)據(jù)集的預(yù)測效果是最好的,再取C5.0模型結(jié)果來分析高風(fēng)險理賠保戶共有的一些個人信息特征。
(1)分類規(guī)則。表4是由C5.0模型使用推進方法產(chǎn)生“有理賠”結(jié)果的部分規(guī)則集,各規(guī)則集的估計精確度在88%以上。由規(guī)則集,可歸納出“發(fā)生理賠”的客戶主要具有以下特征:已婚,女性,老年人居多,職業(yè)類別為0,主要集中在臺北、新竹及臺中地區(qū),以月繳或年繳方式,投保月份主要是下半年。
(2)樹模型。對C5.0模型使用推進方法得到的樹模型如圖2所示,每個節(jié)點位置顯示的直方圖為在該節(jié)點中的觀測值在因變量(有無理賠)上的取值分布情況,在非末端的節(jié)點方框下方的變量名,表示其子節(jié)點的劃分變量,而具體取值則在其子節(jié)點上方均有標(biāo)示。
表4 產(chǎn)生有理賠結(jié)果的規(guī)則條件(僅取其中4條)
在C5.0決策樹上,第二層右側(cè)的節(jié)點29有理賠很少,僅有53例,所占比例不到測試集中理賠總數(shù)的0.04%。這些客戶的保單狀況為停繳,契約撤銷,解約-保戶主動和注銷-公司主動。事實上,當(dāng)契約取消、解約或注銷都看成保戶與保險公司的合同中止,因而保險公司也就沒有了理賠義務(wù),故對這部分的保戶可基本忽略。而相應(yīng)左側(cè)的節(jié)點1下的子樹很大,覆蓋了大量的有理賠客戶信息。由于分析有理賠客戶的相關(guān)信息是本研究的主要目的,因此,我們特別關(guān)注有理賠多的節(jié)點。從圖中可以清晰看到,已婚的客戶群(節(jié)點8)的樣本數(shù)最多,有1518個,占53.735%,同時也是發(fā)生有理賠事件最多的一類,因此有必要進一步考察該節(jié)點。模型以投保月份為是劃分變量對節(jié)點8進行分類,雖然各個月份下都有一定的理賠事件發(fā)生,但第四層右側(cè)的節(jié)點16(即投保月份在7月份后)所含的有理賠保戶比左邊的多700多個,且主要集中在新竹和臺中兩個地區(qū);模型將新竹地區(qū)的597個有理賠保戶歸為月繳投保一類。同時,臺北地區(qū)也有16個理賠的,主要是老年人。跟蹤節(jié)點9(投保月份在上半年)到葉節(jié)點14這條子鏈可以發(fā)現(xiàn),節(jié)點9中204個有理賠保戶被完全分到節(jié)點14,其客戶特征為:正常繳費,已婚,4月投保且購買的是健康險。此外,對于最左側(cè)的節(jié)點4,有理賠客戶僅為217個,也產(chǎn)生了相應(yīng)的分類規(guī)則,即正常繳費,職業(yè)類別為0,女性。
綜合分析C5.0模型產(chǎn)生的分類規(guī)則及樹模型,發(fā)現(xiàn)影響“有無理賠”的主要解釋變量是:婚姻狀況,職業(yè)類別,性別,投保月份,保險形態(tài)1,地區(qū)別,年齡組別,繳別。此外,在以投保月份為屬性進行分類時,下半年投保的有理賠客戶要明顯比上半年的多,為后面模型處理方便,可考慮將投保月份分為上半年和下半年。
2.2.2 支持向量機、貝葉斯網(wǎng)絡(luò)以及l(fā)ogistic回歸。首先,在C5.0模型對輸入變量進行屬性約減的基礎(chǔ)上,即在接下去的分類算法模型建立過程中,只將約減后的八個重要變量作為輸入,以有無理賠作為因變量,訓(xùn)練出新的分類模型,從而得到相應(yīng)的高風(fēng)險保戶的理賠概率預(yù)測模型;最后根據(jù)各個分類預(yù)測結(jié)果的準(zhǔn)確性評估模型。整個建模數(shù)據(jù)流如圖3所示。
模型建立完畢,此時要估計不同性能的模型,以便選出最好的模型。評估模型優(yōu)劣的準(zhǔn)則有:整體精確性、ROC曲線下方面積、利潤、提升等指標(biāo)。在此,選用“整體精確性”作為評估模型的準(zhǔn)則;由表5和表6判斷出,支持向量機模型優(yōu)于其他兩個模型。所以選擇支持向量機模型作為最終模型。
表5 三種分類模型的評估準(zhǔn)則得分
表6 分類矩陣表
表7 無理賠概率分布表
根據(jù)上述模型評價結(jié)果,選擇SVM模型來構(gòu)建“全體高風(fēng)險保戶”發(fā)生理賠概率的評分模型。先將全體高風(fēng)險保戶帶入訓(xùn)練得到的SVM模型中,估計出每一個樣本不發(fā)生理賠的概率。保險公司可以根據(jù)自身所能承擔(dān)的風(fēng)險狀況,來決定適當(dāng)?shù)母怕史指铧c,作為保險客戶是否發(fā)生理賠的一個預(yù)測標(biāo)準(zhǔn),若新客戶不發(fā)生理賠的SVM模型預(yù)測值高于該分割點,則認(rèn)為此保戶將不會要求理賠,此時可按照已制定的保險金額度接受其投保申請;反之若低于該分割點,則應(yīng)該對其提高保險金額度或者保費率。如果保險公司想以客觀的統(tǒng)計方法來確定分割點,則可以通過計算最大的K-S值來獲得SVM模型的最適分割點。
定義“K-S值”:各分?jǐn)?shù)下對應(yīng)的累計“壞”客戶百分比與累計“好”客戶百分比之差的最大值。在數(shù)據(jù)挖掘中或信用評分中,K-S值越大,表示評分模型能夠越理想地區(qū)分 “好”、“壞”客戶。另外,該評分模型還能繪制出K-S曲線:將所有申請者的信用評分由小到大排列,分別計算每一個分?jǐn)?shù)之下“好”、“壞”客戶累計所占的百分比,再將這兩種累計百分比與評分做在同一張圖形上,得到K-S曲線。
針對高風(fēng)險客戶發(fā)生理賠的概率預(yù)測模型,K-S值是由SVM模型估計得到全體樣本的無理賠概率值后,發(fā)生理賠的累積百分比減去無理賠的累積百分比所得到的絕對值,計算公式:K-S=sup|Fr-Fn|。K-S 值越大,表示“無理賠”與“有理賠”的累積百分比在該分割點或區(qū)間的差異越大,該分割點或區(qū)間就越能有效地分辨出高風(fēng)險保戶發(fā)生理賠概率的高低,故可用來決定最適分割點,以判斷無理賠的概率要大于多少時才能被保險公司視為不發(fā)生理賠的高風(fēng)險保戶。計算結(jié)果如表7、圖4所示。
模型建立后,需要對模型的預(yù)測能力、穩(wěn)定性進行檢驗后才能運用到實際業(yè)務(wù)中去。國際上用K-S指標(biāo)來衡量驗證結(jié)果是否優(yōu)于期望值,具體標(biāo)準(zhǔn)是,如果模型的K-S值達(dá)到30%,則該模型是有效的,若K-S值超過30%,則模型區(qū)分度越高。
由表4可以發(fā)現(xiàn),SVM模型的K-S值達(dá)到68.98%,說明SVM模型具有較好的預(yù)測功能,發(fā)展的模型具有成功的應(yīng)用價值。同時,KS達(dá)到最大值36.84%的無理賠概率區(qū)間為0.99~0.992,因此本研究設(shè)定0.99為高風(fēng)險保戶是否發(fā)生理賠模型的最適分割點,即無理賠概率大于0.99的客戶風(fēng)險相對較低,保險公司可按照已有的保費標(biāo)準(zhǔn)接受其投保申請。
本文利用分類算法對臺灣某保險公司的健康險和傷害險保戶進行了高風(fēng)險理賠特征發(fā)掘和高風(fēng)險保戶識別,幫助保險公司控制和分散理賠風(fēng)險,同時為它們針對不同風(fēng)險等級的保戶銷售相應(yīng)的保險產(chǎn)品和制定差別保險費率提供依據(jù)。綜合全文,我們得出如下結(jié)論:
(1)從保戶的個人基本信息來看,婚姻狀況、年齡和性別是區(qū)分保戶理賠風(fēng)險高低的關(guān)鍵因素。綜合本文各種模型的實證結(jié)果,對于保戶具有“已婚,女性,未滿14歲和老人”特征的當(dāng)屬高風(fēng)險理賠人群。因此,對于這部分群體,保險公司應(yīng)該給予特別關(guān)注,并可以適當(dāng)提高保險費率以分散非系統(tǒng)性風(fēng)險。
(2)從投保相關(guān)信息來看,地域分布、保險形態(tài)(或險種)和繳費方式成為劃分保戶風(fēng)險等級的重要變量。其中,臺北、新竹和臺中是理賠事件的高發(fā)地區(qū);健康險業(yè)務(wù)的開展將使保險公司承擔(dān)較之傷害險更大的理賠風(fēng)險;按月繳納保險費的繳費方式同樣也是高風(fēng)險理賠客戶具有的典型特征之一。
(3)依據(jù)SVM模型實施的結(jié)果,無理賠概率0.99是高風(fēng)險保戶是否發(fā)生理賠的最佳分割點處的概率值,即:無理賠概率大于0.99的保戶將被視為 “基本無理賠風(fēng)險保戶”或“基本不發(fā)生理賠保戶”,保險公司可按照一般標(biāo)準(zhǔn)的保費額度或保險費率接受該類客戶的投保申請。對于無理賠概率小于0.99的保戶,保險公司應(yīng)該“按級”銷售差異產(chǎn)品,即越遠(yuǎn)離最佳分割點概率值的保戶,其理賠額度越低,理賠資格審查越嚴(yán)格,保費額度越大,保險費率越高。
[1]田今朝,戴穩(wěn)勝,謝邦昌.保險業(yè)的數(shù)據(jù)挖掘應(yīng)用[J].中國統(tǒng)計,2005,(02).
[2]王星,謝邦昌,戴穩(wěn)勝.數(shù)據(jù)挖掘在保險業(yè)中的應(yīng)用[J].北京統(tǒng)計,2004,(04).
[3]畢建欣.數(shù)據(jù)挖掘技術(shù)在保險領(lǐng)域中的應(yīng)用[J].華南金融電腦,2004,(08).
[4]吉根林,孫志揮.基于數(shù)據(jù)挖掘技術(shù)的保險業(yè)務(wù)風(fēng)險分析[J].計算機工程,2002,(2).
[5]田金蘭.用決策樹方法挖掘保險業(yè)務(wù)數(shù)據(jù)中的投資風(fēng)險分析[J].小型微型計算機系統(tǒng)2000,(10).
[6]鮑觀健.臺灣保險業(yè)發(fā)展之研究[D].廣州:暨南大學(xué),2003.
[7]李玉泉.大陸保險市場開放對臺灣保險業(yè)的機遇與挑戰(zhàn)[J].中國保險,2005,(3).
[8]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.