于燕麗
(1.中國海洋大學 信息科學與工程學院,山東 青島 266071;2.青島理工大學琴島學院 計算機工程系, 山東 青島 266106)
客戶作為企業(yè)的一種資產(chǎn),對提高企業(yè)競爭力的重要性日益增加。在當前競爭激烈的商業(yè)時代,所有公司都紛紛從以產(chǎn)品為中心轉(zhuǎn)向以客戶為中心,保險業(yè)格外突出。如何找出新客戶、失去的客戶及老客戶尤其是給公司帶來最大利潤的20%的“黃金客戶”各屬性間的關(guān)聯(lián)規(guī)則[1],同時又能以用戶易理解的形式概括出來,這是決策者策劃營銷產(chǎn)品的關(guān)鍵。保險公司經(jīng)過多年發(fā)展,已積累了大量寶貴的客戶數(shù)據(jù)資源,如何處理這些海量數(shù)據(jù),更好地匯總、分析這些歷史數(shù)據(jù)并從中挖掘出業(yè)務內(nèi)在規(guī)律,將其變?yōu)橛杏玫男畔⒑蜕虣C,將會主導未來相當長時間內(nèi)各個保險公司的工作戰(zhàn)略。
數(shù)據(jù)挖掘(Data Mining,簡稱 DM),簡單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。[2]
常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。(2)序列模式分析。(3)分類分析。(4)聚類分析。(5)孤立點分析。在這些分類方法中,關(guān)聯(lián)分析方法由于自身的優(yōu)點而廣被使用。
2.1 Apriori算法
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法[3]。其核心是基于兩階段頻集思想的遞推算法。該算法的基本思想:
2.1.1 找出所有的頻繁項集:根據(jù)定義,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣,即滿足Support不小于Minsupport的所有項目子集。
2.1.2 由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。
頻繁項集的生成原理:從包含每個項的C1中找出1項頻繁集的集合L1。然后,連接LK-1產(chǎn)生K項候選集的集合CK,并根據(jù)Apriori性質(zhì)刪除那些具有非頻繁子集的候選集。最后,掃描數(shù)據(jù)庫一次,統(tǒng)計候選集的支持計數(shù),與最小支持計數(shù)相比,形成頻繁集。[4]
表1 數(shù)據(jù)樣本
2.2 數(shù)據(jù)挖掘在某保險公司中的應用
2.2.1 數(shù)據(jù)預處理
現(xiàn)有某保險公司統(tǒng)計的個人投保數(shù)據(jù)若干,從中取出10人的三維數(shù)據(jù)作為解釋說明算法應用代表,將這些數(shù)據(jù)作為抽樣數(shù)據(jù)分析關(guān)聯(lián)規(guī)則,以供公司決策層使用。數(shù)據(jù)見表1。
在表1中編號表示投保人保單號的唯一標識。insurance表示該保險公司的個人保險的類型:A(養(yǎng)老保險類),B(意外傷害保險類),C(未成年保險類)。
age和income為連續(xù)數(shù)值型數(shù)據(jù),對其進行離散化、分組:age 分為 a:1-18,b:19-30,c:31-45,d:46-60,e:61-80 共 5 組 ;income 分為 m:1200-6000,n:6000-120000,o:12000-36000,p:36000以上共 4組。A 用 x表示,B用y表示,C用z表示。通過數(shù)據(jù)預處理轉(zhuǎn)換后得到的數(shù)據(jù)見表2。
表2 數(shù)據(jù)預處理后的數(shù)據(jù)項目集
經(jīng)過數(shù)據(jù)預處理之后,將一些對結(jié)果影響不大的數(shù)據(jù)預先清除掉,以便提高算法的效率。
2.2.2 算法的實現(xiàn):對以上數(shù)據(jù)進行Apriori算法,求出頻繁集,求出置信度。然后由置信度得到年齡、收入、險種之間的關(guān)聯(lián)關(guān)系。因此,當有客戶上門時,我們就可以對癥下藥了。這對企業(yè)的工作的展開有很大的推動作用。
表3是算法的核心內(nèi)容:
2.2.3 算法的結(jié)果
進行Apriori算法,得到的結(jié)果如圖程序運行結(jié)果下(圖1):
通過算法的運行,我們得到了如上的結(jié)果。從圖中可以看出,年齡在19歲-30歲、收入在1200元-6000元的客戶和年齡在31歲-45歲、收入在6000元-12000元的客戶買意外傷害類保險的可能性都是100%。當然,通過運用Apriori算法,我們還會得到其他類似的關(guān)聯(lián)關(guān)系,這些都對企業(yè)的決策有著重要的指導作用。
表3
圖1 程序運行結(jié)果
本文在一個有1000條記錄的客戶數(shù)據(jù)集上測試了該算法。 所以對于這一數(shù)據(jù)集來說,該方法的結(jié)果還是有實用價值的。如果有規(guī)模更大的企業(yè),它的客戶記錄應該更多,這樣用更多的數(shù)據(jù)訓練可能會提高該方法的準確性。
[1]羅華等.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)及其在保險業(yè)中的應用.微計算機信息 2004
[2]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].電子工業(yè)出版社,2002.8
[3]洪玉峰,湯靜煜.數(shù)據(jù)挖掘技術(shù)及工具發(fā)展和應用.北京統(tǒng)計,2004.12
[4]邵峰晶、于忠清.數(shù)據(jù)挖掘原理與算法[M];中國水利水電出版社;2007.6