• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      我國居民保險購買行為的決策樹模型分析

      2019-12-11 10:12王姍姍
      現(xiàn)代商貿工業(yè) 2019年35期
      關鍵詞:決策樹

      王姍姍

      摘 要:近幾年許多行業(yè)都步入大數(shù)據(jù)時代,但數(shù)據(jù)挖掘技術在我國保險領域的應用相對不多,并且我國保險公司也要考慮通過改變傳統(tǒng)的經(jīng)營方法來提升業(yè)績,因此加大對數(shù)據(jù)的利用力度,過渡到數(shù)字化營銷模式對保險公司來說十分關鍵。主要研究決策樹算法在保險公司客戶識別方面的應用,根據(jù)加入誤分代價的決策樹模型建立的分類規(guī)則,找出了影響我國居民是否購買保險產(chǎn)品的主要因素。

      關鍵詞:決策樹;誤分代價;基尼指數(shù)

      中圖分類號:F23 文獻標識碼:A doi:10.19311/j.cnki.1672-3198.2019.35.059

      1 數(shù)據(jù)處理

      選取2015年中國綜合社會調查數(shù)據(jù),根據(jù)相關研究選取其中的性別、年齡、個人年收入、是否擁有城市/農村基本醫(yī)療保險情況這四個影響因素。性別是名義變量,給男性賦值1,女性賦值2。將年齡以及個人年收入進行分段劃分,并且對這兩個影響因素數(shù)據(jù)進行離散化處理。

      初始數(shù)據(jù)共有10968條,對其進行精簡,只保留明確回答是否購買了商業(yè)醫(yī)療保險的數(shù)據(jù),即購買了或是未購買的,凡是回答“無法回答、拒絕回答、不知道、不適用”的都不適用于本文的研究,故直接將其舍去,處理后的數(shù)據(jù)為10747條。對于其中個人年收入的缺失值對其進行同類插補將其補齊。最后得到的數(shù)據(jù)中購買商業(yè)醫(yī)療保險的居民有950個,未購買商業(yè)醫(yī)療保險的居民有9797個。

      2 決策樹分析

      2.1 樣本不平衡處理

      由于本文中購買商業(yè)醫(yī)療保險的居民有950個,未購買商業(yè)醫(yī)療保險的居民有9797個,樣本存在嚴重的不平衡性,因此我們在建模時要對購買了商業(yè)醫(yī)療保險的樣本增加誤分代價。

      2.2 模型建立

      決策樹是使用類似于一棵樹的結構來表示類的劃分,樹的構建可以看成是變量(屬性)選擇的過程,內部節(jié)點表示樹選擇哪幾個變量(屬性)作為劃分,每棵樹的葉節(jié)點表示為一個類的標號,樹的最頂層為根節(jié)點。本文用CART決策樹(回歸樹)對居民是否購買醫(yī)療保險進行分類,該算法是一個二叉樹,即每一個非葉節(jié)點只能引申出兩個分支,因此十分適合用于本文的研究。將處理過后的10747條樣本劃分為訓練集和驗證集,隨機抽取80%為訓練集,剩下的20%為驗證集。

      決策樹算法中包含最核心的兩個問題,即特征選擇和剪枝,關于特征選擇目前比較流行的方法是信息增益、增益率、基尼系數(shù)和卡方檢驗。CART算法的特征選擇就是基于基尼系數(shù)得以實現(xiàn)的,其選擇的標準就是每個子節(jié)點達到最高的純度,即落在子節(jié)點中的所有觀察都屬于同一個分類。

      依次計算出各個屬性的基尼指數(shù),并比較各屬性基尼指數(shù)的大小得到個人年收入的基尼指數(shù)最大,從而確定個人年收入為第一個劃分屬性。個人年收入基尼指數(shù)計算步驟如下:

      首先在對樣本劃分前,總的訓練數(shù)據(jù)共有2類,即N=2,其中參與商業(yè)保險的居民共有760,未參與商業(yè)保險的居民共7878,D=7118。

      首先利用個人年收入進行劃分,此屬性共有7個值,K=7,即a1=1,a2=2,a3=3, a4P=4,a5=5,a6=6,a7=7,數(shù)據(jù)集劃分成1個集合,即D1,D2,D3,D4,D5,D6,D7。

      其中Dk表示包含個人年收入為編碼取k的樣本,Dk表示總共有多少個樣本位于此區(qū)間,其中購買了醫(yī)療保險的有X人,Py=1=P1=XDk表示a=k時購買了商業(yè)醫(yī)療保險的人數(shù)占樣本總體的比例,Py=-1=P2=Dk-XDk表示未購買醫(yī)療保險的比例。

      購買商業(yè)醫(yī)療保險的樣本量比未購買商業(yè)保險的樣本量少很多,因此使用加入誤分代價的CART決策樹模型,根據(jù)樣本中購買了醫(yī)療保險和未購買醫(yī)療保險的人數(shù)比例進行設置誤分代價如表5。

      進行建模得到的決策樹風險如表6。

      從上表可以看出分類的標準誤差很低,說明分類的效果比較理想,得到簡單樹形圖為圖1。

      2.3 模型結果解釋

      建模得到的特征重要性如表7所示。

      可以看到影響到我國居民是否購買商業(yè)醫(yī)療保險的因素由重要性的從高到低依次為您個人去年全年的總收入、是否參加基本醫(yī)療保險、年齡、性別。從這點我們可以看出,收入是一個人是否會購買商業(yè)醫(yī)療保險的首要決定因素,當收入達到一個較高水平時居民會選擇購買商業(yè)醫(yī)療保險,例如在本文的模型中可以看到收入高于9萬元時居民會購買商業(yè)醫(yī)療保險,這說明我國居民在家庭較為富裕的情況下才會考慮為自己購買醫(yī)療保險增加保障。

      對于保險公司來說,需要在營銷時著重了解潛在客戶的收入情況,將收入較高的潛在客戶作為首要推銷目標,降低營銷成本。

      參考文獻

      [1]王星,謝邦昌,戴穩(wěn)勝.數(shù)據(jù)挖掘在保險業(yè)中的應用[J].數(shù)據(jù),2004,24(4):50-51.

      [2]王書爽.基于后修正貝葉斯決策樹模型的保險企業(yè)營銷決策[J].統(tǒng)計與決策,2013,14(3):180-182.

      [3]Zhang Y,Chi 在X,Xie F D,Li N.A weights-based accuracy evaluation method for multi class multipliable classifier [J].Journal of Computational Information Systems,2008,4(2):589-594.

      [4]Bolton R N,Kennan P K,Bramlett M D.Implications of loyalty program membership and service experiences for customer relation and value [J].Journal of the Academy of Marketing Svience,2000,20(1):95-108.

      猜你喜歡
      決策樹
      基于決策樹和神經(jīng)網(wǎng)絡的高血壓病危險因素研究
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應用
      面向分布式數(shù)據(jù)流大數(shù)據(jù)分類的多變量決策樹
      基于改進決策樹的故障診斷方法研究
      決策樹多元分類模型預測森林植被覆蓋
      基于決策樹的出租車乘客出行目的識別
      基于決策樹的復雜電網(wǎng)多諧波源監(jiān)管
      基于模糊關聯(lián)規(guī)則和決策樹的圖像自動標注
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      仲巴县| 昭通市| 龙里县| 洛隆县| 哈巴河县| 额尔古纳市| 祁阳县| 吉安县| 保定市| 凤城市| 云林县| 南阳市| 湖口县| 宁阳县| 苍梧县| 金昌市| 邻水| 萨迦县| 安陆市| 茶陵县| 西盟| 虎林市| 方山县| 平顶山市| 济宁市| 晋中市| 乌拉特后旗| 新津县| 尼勒克县| 舒城县| 徐闻县| 叙永县| 拜城县| 衢州市| 临泽县| 饶平县| 广昌县| 洛宁县| 化德县| 阿拉尔市| 容城县|