王姍姍
摘 要:近幾年許多行業(yè)都步入大數(shù)據(jù)時代,但數(shù)據(jù)挖掘技術在我國保險領域的應用相對不多,并且我國保險公司也要考慮通過改變傳統(tǒng)的經(jīng)營方法來提升業(yè)績,因此加大對數(shù)據(jù)的利用力度,過渡到數(shù)字化營銷模式對保險公司來說十分關鍵。主要研究決策樹算法在保險公司客戶識別方面的應用,根據(jù)加入誤分代價的決策樹模型建立的分類規(guī)則,找出了影響我國居民是否購買保險產(chǎn)品的主要因素。
關鍵詞:決策樹;誤分代價;基尼指數(shù)
中圖分類號:F23 文獻標識碼:A doi:10.19311/j.cnki.1672-3198.2019.35.059
1 數(shù)據(jù)處理
選取2015年中國綜合社會調查數(shù)據(jù),根據(jù)相關研究選取其中的性別、年齡、個人年收入、是否擁有城市/農村基本醫(yī)療保險情況這四個影響因素。性別是名義變量,給男性賦值1,女性賦值2。將年齡以及個人年收入進行分段劃分,并且對這兩個影響因素數(shù)據(jù)進行離散化處理。
初始數(shù)據(jù)共有10968條,對其進行精簡,只保留明確回答是否購買了商業(yè)醫(yī)療保險的數(shù)據(jù),即購買了或是未購買的,凡是回答“無法回答、拒絕回答、不知道、不適用”的都不適用于本文的研究,故直接將其舍去,處理后的數(shù)據(jù)為10747條。對于其中個人年收入的缺失值對其進行同類插補將其補齊。最后得到的數(shù)據(jù)中購買商業(yè)醫(yī)療保險的居民有950個,未購買商業(yè)醫(yī)療保險的居民有9797個。
2 決策樹分析
2.1 樣本不平衡處理
由于本文中購買商業(yè)醫(yī)療保險的居民有950個,未購買商業(yè)醫(yī)療保險的居民有9797個,樣本存在嚴重的不平衡性,因此我們在建模時要對購買了商業(yè)醫(yī)療保險的樣本增加誤分代價。
2.2 模型建立
決策樹是使用類似于一棵樹的結構來表示類的劃分,樹的構建可以看成是變量(屬性)選擇的過程,內部節(jié)點表示樹選擇哪幾個變量(屬性)作為劃分,每棵樹的葉節(jié)點表示為一個類的標號,樹的最頂層為根節(jié)點。本文用CART決策樹(回歸樹)對居民是否購買醫(yī)療保險進行分類,該算法是一個二叉樹,即每一個非葉節(jié)點只能引申出兩個分支,因此十分適合用于本文的研究。將處理過后的10747條樣本劃分為訓練集和驗證集,隨機抽取80%為訓練集,剩下的20%為驗證集。
決策樹算法中包含最核心的兩個問題,即特征選擇和剪枝,關于特征選擇目前比較流行的方法是信息增益、增益率、基尼系數(shù)和卡方檢驗。CART算法的特征選擇就是基于基尼系數(shù)得以實現(xiàn)的,其選擇的標準就是每個子節(jié)點達到最高的純度,即落在子節(jié)點中的所有觀察都屬于同一個分類。
依次計算出各個屬性的基尼指數(shù),并比較各屬性基尼指數(shù)的大小得到個人年收入的基尼指數(shù)最大,從而確定個人年收入為第一個劃分屬性。個人年收入基尼指數(shù)計算步驟如下:
首先在對樣本劃分前,總的訓練數(shù)據(jù)共有2類,即N=2,其中參與商業(yè)保險的居民共有760,未參與商業(yè)保險的居民共7878,D=7118。
首先利用個人年收入進行劃分,此屬性共有7個值,K=7,即a1=1,a2=2,a3=3, a4P=4,a5=5,a6=6,a7=7,數(shù)據(jù)集劃分成1個集合,即D1,D2,D3,D4,D5,D6,D7。
其中Dk表示包含個人年收入為編碼取k的樣本,Dk表示總共有多少個樣本位于此區(qū)間,其中購買了醫(yī)療保險的有X人,Py=1=P1=XDk表示a=k時購買了商業(yè)醫(yī)療保險的人數(shù)占樣本總體的比例,Py=-1=P2=Dk-XDk表示未購買醫(yī)療保險的比例。
購買商業(yè)醫(yī)療保險的樣本量比未購買商業(yè)保險的樣本量少很多,因此使用加入誤分代價的CART決策樹模型,根據(jù)樣本中購買了醫(yī)療保險和未購買醫(yī)療保險的人數(shù)比例進行設置誤分代價如表5。
進行建模得到的決策樹風險如表6。
從上表可以看出分類的標準誤差很低,說明分類的效果比較理想,得到簡單樹形圖為圖1。
2.3 模型結果解釋
建模得到的特征重要性如表7所示。
可以看到影響到我國居民是否購買商業(yè)醫(yī)療保險的因素由重要性的從高到低依次為您個人去年全年的總收入、是否參加基本醫(yī)療保險、年齡、性別。從這點我們可以看出,收入是一個人是否會購買商業(yè)醫(yī)療保險的首要決定因素,當收入達到一個較高水平時居民會選擇購買商業(yè)醫(yī)療保險,例如在本文的模型中可以看到收入高于9萬元時居民會購買商業(yè)醫(yī)療保險,這說明我國居民在家庭較為富裕的情況下才會考慮為自己購買醫(yī)療保險增加保障。
對于保險公司來說,需要在營銷時著重了解潛在客戶的收入情況,將收入較高的潛在客戶作為首要推銷目標,降低營銷成本。
參考文獻
[1]王星,謝邦昌,戴穩(wěn)勝.數(shù)據(jù)挖掘在保險業(yè)中的應用[J].數(shù)據(jù),2004,24(4):50-51.
[2]王書爽.基于后修正貝葉斯決策樹模型的保險企業(yè)營銷決策[J].統(tǒng)計與決策,2013,14(3):180-182.
[3]Zhang Y,Chi 在X,Xie F D,Li N.A weights-based accuracy evaluation method for multi class multipliable classifier [J].Journal of Computational Information Systems,2008,4(2):589-594.
[4]Bolton R N,Kennan P K,Bramlett M D.Implications of loyalty program membership and service experiences for customer relation and value [J].Journal of the Academy of Marketing Svience,2000,20(1):95-108.