Apriori算法在保險業(yè)中的應用

2010-07-27 06:40:40于燕麗

中國新技術(shù)新產(chǎn)品 2010年1期

于燕麗

（1.中國海洋大學信息科學與工程學院,山東青島 266071；2.青島理工大學琴島學院計算機工程系, 山東青島 266106）

1 引言

客戶作為企業(yè)的一種資產(chǎn)，對提高企業(yè)競爭力的重要性日益增加。在當前競爭激烈的商業(yè)時代,所有公司都紛紛從以產(chǎn)品為中心轉(zhuǎn)向以客戶為中心，保險業(yè)格外突出。如何找出新客戶、失去的客戶及老客戶尤其是給公司帶來最大利潤的20%的“黃金客戶”各屬性間的關(guān)聯(lián)規(guī)則[1]，同時又能以用戶易理解的形式概括出來，這是決策者策劃營銷產(chǎn)品的關(guān)鍵。保險公司經(jīng)過多年發(fā)展,已積累了大量寶貴的客戶數(shù)據(jù)資源,如何處理這些海量數(shù)據(jù),更好地匯總、分析這些歷史數(shù)據(jù)并從中挖掘出業(yè)務內(nèi)在規(guī)律,將其變?yōu)橛杏玫男畔⒑蜕虣C,將會主導未來相當長時間內(nèi)各個保險公司的工作戰(zhàn)略。

數(shù)據(jù)挖掘（Data Mining，簡稱 DM），簡單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取人們感興趣的知識，這些知識是隱諱的、事先未知的、潛在有用的信息。[2]

常用的數(shù)據(jù)挖掘方法有：（1）關(guān)聯(lián)分析。（2）序列模式分析。（3）分類分析。（4）聚類分析。（5）孤立點分析。在這些分類方法中,關(guān)聯(lián)分析方法由于自身的優(yōu)點而廣被使用。

2 數(shù)據(jù)挖掘在保險公司客戶管理中的應用

2.1 Apriori算法

Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法[3]。其核心是基于兩階段頻集思想的遞推算法。該算法的基本思想：

2.1.1 找出所有的頻繁項集：根據(jù)定義，這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣，即滿足Support不小于Minsupport的所有項目子集。

2.1.2 由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則：根據(jù)定義，這些規(guī)則必須滿足最小支持度和最小置信度。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。

頻繁項集的生成原理：從包含每個項的C1中找出1項頻繁集的集合L1。然后，連接LK-1產(chǎn)生K項候選集的集合CK，并根據(jù)Apriori性質(zhì)刪除那些具有非頻繁子集的候選集。最后，掃描數(shù)據(jù)庫一次，統(tǒng)計候選集的支持計數(shù)，與最小支持計數(shù)相比，形成頻繁集。[4]

表1 數(shù)據(jù)樣本

2.2 數(shù)據(jù)挖掘在某保險公司中的應用

2.2.1 數(shù)據(jù)預處理

現(xiàn)有某保險公司統(tǒng)計的個人投保數(shù)據(jù)若干，從中取出10人的三維數(shù)據(jù)作為解釋說明算法應用代表，將這些數(shù)據(jù)作為抽樣數(shù)據(jù)分析關(guān)聯(lián)規(guī)則，以供公司決策層使用。數(shù)據(jù)見表1。

在表1中編號表示投保人保單號的唯一標識。insurance表示該保險公司的個人保險的類型：A（養(yǎng)老保險類），B（意外傷害保險類），C（未成年保險類）。

age和income為連續(xù)數(shù)值型數(shù)據(jù)，對其進行離散化、分組：age 分為 a：1-18，b：19-30，c：31-45，d：46-60，e：61-80 共 5 組；income 分為 m：1200-6000，n：6000-120000，o：12000-36000，p：36000以上共 4組。A 用 x表示，B用y表示，C用z表示。通過數(shù)據(jù)預處理轉(zhuǎn)換后得到的數(shù)據(jù)見表2。

表2 數(shù)據(jù)預處理后的數(shù)據(jù)項目集

經(jīng)過數(shù)據(jù)預處理之后，將一些對結(jié)果影響不大的數(shù)據(jù)預先清除掉，以便提高算法的效率。

2.2.2 算法的實現(xiàn)：對以上數(shù)據(jù)進行Apriori算法，求出頻繁集，求出置信度。然后由置信度得到年齡、收入、險種之間的關(guān)聯(lián)關(guān)系。因此，當有客戶上門時，我們就可以對癥下藥了。這對企業(yè)的工作的展開有很大的推動作用。

表3是算法的核心內(nèi)容：

2.2.3 算法的結(jié)果

進行Apriori算法，得到的結(jié)果如圖程序運行結(jié)果下（圖1）：

通過算法的運行，我們得到了如上的結(jié)果。從圖中可以看出，年齡在19歲-30歲、收入在1200元-6000元的客戶和年齡在31歲-45歲、收入在6000元-12000元的客戶買意外傷害類保險的可能性都是100%。當然，通過運用Apriori算法，我們還會得到其他類似的關(guān)聯(lián)關(guān)系，這些都對企業(yè)的決策有著重要的指導作用。

表3

圖1 程序運行結(jié)果

3 結(jié)束語

本文在一個有1000條記錄的客戶數(shù)據(jù)集上測試了該算法。所以對于這一數(shù)據(jù)集來說,該方法的結(jié)果還是有實用價值的。如果有規(guī)模更大的企業(yè),它的客戶記錄應該更多,這樣用更多的數(shù)據(jù)訓練可能會提高該方法的準確性。

[1]羅華等.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)及其在保險業(yè)中的應用.微計算機信息 2004

[2]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].電子工業(yè)出版社,2002.8

[3]洪玉峰,湯靜煜.數(shù)據(jù)挖掘技術(shù)及工具發(fā)展和應用.北京統(tǒng)計,2004.12

[4]邵峰晶、于忠清.數(shù)據(jù)挖掘原理與算法[M];中國水利水電出版社;2007.6