我國居民保險購買行為的決策樹模型分析

2019-12-11 10:12王姍姍

現(xiàn)代商貿工業(yè) 2019年35期

王姍姍

摘要：近幾年許多行業(yè)都步入大數(shù)據(jù)時代，但數(shù)據(jù)挖掘技術在我國保險領域的應用相對不多，并且我國保險公司也要考慮通過改變傳統(tǒng)的經(jīng)營方法來提升業(yè)績，因此加大對數(shù)據(jù)的利用力度，過渡到數(shù)字化營銷模式對保險公司來說十分關鍵。主要研究決策樹算法在保險公司客戶識別方面的應用，根據(jù)加入誤分代價的決策樹模型建立的分類規(guī)則，找出了影響我國居民是否購買保險產(chǎn)品的主要因素。

關鍵詞：決策樹;誤分代價;基尼指數(shù)

中圖分類號：F23 文獻標識碼：A doi：10.19311/j.cnki.1672-3198.2019.35.059

1 數(shù)據(jù)處理

選取2015年中國綜合社會調查數(shù)據(jù)，根據(jù)相關研究選取其中的性別、年齡、個人年收入、是否擁有城市/農村基本醫(yī)療保險情況這四個影響因素。性別是名義變量，給男性賦值1，女性賦值2。將年齡以及個人年收入進行分段劃分，并且對這兩個影響因素數(shù)據(jù)進行離散化處理。

初始數(shù)據(jù)共有10968條，對其進行精簡，只保留明確回答是否購買了商業(yè)醫(yī)療保險的數(shù)據(jù)，即購買了或是未購買的，凡是回答“無法回答、拒絕回答、不知道、不適用”的都不適用于本文的研究，故直接將其舍去，處理后的數(shù)據(jù)為10747條。對于其中個人年收入的缺失值對其進行同類插補將其補齊。最后得到的數(shù)據(jù)中購買商業(yè)醫(yī)療保險的居民有950個，未購買商業(yè)醫(yī)療保險的居民有9797個。

2 決策樹分析

2.1 樣本不平衡處理

由于本文中購買商業(yè)醫(yī)療保險的居民有950個，未購買商業(yè)醫(yī)療保險的居民有9797個，樣本存在嚴重的不平衡性，因此我們在建模時要對購買了商業(yè)醫(yī)療保險的樣本增加誤分代價。

2.2 模型建立

決策樹是使用類似于一棵樹的結構來表示類的劃分，樹的構建可以看成是變量（屬性）選擇的過程，內部節(jié)點表示樹選擇哪幾個變量（屬性）作為劃分，每棵樹的葉節(jié)點表示為一個類的標號，樹的最頂層為根節(jié)點。本文用CART決策樹（回歸樹）對居民是否購買醫(yī)療保險進行分類，該算法是一個二叉樹，即每一個非葉節(jié)點只能引申出兩個分支，因此十分適合用于本文的研究。將處理過后的10747條樣本劃分為訓練集和驗證集，隨機抽取80%為訓練集，剩下的20%為驗證集。

決策樹算法中包含最核心的兩個問題，即特征選擇和剪枝，關于特征選擇目前比較流行的方法是信息增益、增益率、基尼系數(shù)和卡方檢驗。CART算法的特征選擇就是基于基尼系數(shù)得以實現(xiàn)的，其選擇的標準就是每個子節(jié)點達到最高的純度，即落在子節(jié)點中的所有觀察都屬于同一個分類。

依次計算出各個屬性的基尼指數(shù)，并比較各屬性基尼指數(shù)的大小得到個人年收入的基尼指數(shù)最大，從而確定個人年收入為第一個劃分屬性。個人年收入基尼指數(shù)計算步驟如下：

首先在對樣本劃分前，總的訓練數(shù)據(jù)共有2類，即N=2，其中參與商業(yè)保險的居民共有760，未參與商業(yè)保險的居民共7878，D=7118。

首先利用個人年收入進行劃分，此屬性共有7個值，K=7，即a1=1，a2=2，a3=3， a4P=4，a5=5，a6=6，a7=7，數(shù)據(jù)集劃分成1個集合，即D1，D2，D3，D4，D5，D6，D7。

其中Dk表示包含個人年收入為編碼取k的樣本，Dk表示總共有多少個樣本位于此區(qū)間，其中購買了醫(yī)療保險的有X人，Py=1=P1=XDk表示a=k時購買了商業(yè)醫(yī)療保險的人數(shù)占樣本總體的比例，Py=-1=P2=Dk-XDk表示未購買醫(yī)療保險的比例。

購買商業(yè)醫(yī)療保險的樣本量比未購買商業(yè)保險的樣本量少很多，因此使用加入誤分代價的CART決策樹模型，根據(jù)樣本中購買了醫(yī)療保險和未購買醫(yī)療保險的人數(shù)比例進行設置誤分代價如表5。

進行建模得到的決策樹風險如表6。

從上表可以看出分類的標準誤差很低，說明分類的效果比較理想，得到簡單樹形圖為圖1。

2.3 模型結果解釋

建模得到的特征重要性如表7所示。

可以看到影響到我國居民是否購買商業(yè)醫(yī)療保險的因素由重要性的從高到低依次為您個人去年全年的總收入、是否參加基本醫(yī)療保險、年齡、性別。從這點我們可以看出，收入是一個人是否會購買商業(yè)醫(yī)療保險的首要決定因素，當收入達到一個較高水平時居民會選擇購買商業(yè)醫(yī)療保險，例如在本文的模型中可以看到收入高于9萬元時居民會購買商業(yè)醫(yī)療保險，這說明我國居民在家庭較為富裕的情況下才會考慮為自己購買醫(yī)療保險增加保障。

對于保險公司來說，需要在營銷時著重了解潛在客戶的收入情況，將收入較高的潛在客戶作為首要推銷目標，降低營銷成本。

參考文獻

[1]王星，謝邦昌，戴穩(wěn)勝.數(shù)據(jù)挖掘在保險業(yè)中的應用[J].數(shù)據(jù)，2004，24（4）：50-51.

[2]王書爽.基于后修正貝葉斯決策樹模型的保險企業(yè)營銷決策[J].統(tǒng)計與決策，2013，14（3）：180-182.

[3]Zhang Y，Chi 在X，Xie F D，Li N.A weights-based accuracy evaluation method for multi class multipliable classifier [J].Journal of Computational Information Systems，2008，4（2）：589-594.

[4]Bolton R N，Kennan P K，Bramlett M D.Implications of loyalty program membership and service experiences for customer relation and value [J].Journal of the Academy of Marketing Svience，2000，20（1）：95-108.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

我國居民保險購買行為的決策樹模型分析