林鵬程 唐輝
摘? 要:為了實現(xiàn)保險場景的精準營銷,同時充分利用千萬級客戶和保單歷史成交記錄的數(shù)據(jù)特點,本文經(jīng)熱門算法研究和統(tǒng)計理論分析,提出一種基于XGBoost改造的Deep Forest級聯(lián)算法。該算法采用XGBoost淺層機器學習算法作為Deep Forest級聯(lián)構(gòu)建塊,同時用AUC-PR標準作為級聯(lián)構(gòu)建深度學習不平衡樣本評價的自適應過程,并將此算法分別與原有XGBoost算法和原始Deep Forest算法進行性能比較。經(jīng)實踐,上述算法應用投產(chǎn)于保險購買預測場景中,分別比原有XGBoost算法和原Deep Forest算法提高5.5%和2.8%,效果顯著;同時提出的淺層學習向基于Deep Forest深度優(yōu)化操作流程,也為其他類似應用場景提供了實踐參考方向。
關鍵詞:Deep Forest;XGBoost;深度學習;保險精準營銷
中圖分類號:TP301.6? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)22-0116-07
Abstract:In order to realize the precise marketing of the insurance scenario,and make full use of the data characteristics of tens of millions of customers and the historical transaction records of insurance policies,this paper proposes a Deep Forest cascade algorithm based on XGBoost transformation through popular algorithm research and statistical theory analysis. This algorithm adopts XGBoost shallow machine learning algorithm as the building block of Deep Forest cascade,and uses AUC-PR standard as the adaptive process of cascading deep learning unbalanced sample evaluation,and compares the performance of this algorithm with the original XGBoost algorithm and the original Deep Forest algorithm respectively. Practice has proved that the above algorithm applied in the prediction scenario of insurance purchase is improved by 5.5% and 2.8%,respectively,compared with the original XGBoost algorithm and the original Deep Forest algorithm. At the same time,the proposed shallow learning direction based on Deep Forest depth optimization operation process also provides practical reference for other similar application scenarios.
Keywords:Deep Forest;XGBoost;deep learning;insurance precision marketing
0? 引? 言
近年來,保險的作用越來越受到人們的認可;購買保險已成為大家的日常消費行為。而人們更希望根據(jù)自身的經(jīng)濟情況、家庭財力情況和風險承受能力購買合適的保險產(chǎn)品。盡管大多數(shù)保險公司在保單銷售、客戶服務中留下了大量的客戶、保單及客戶服務的歷史數(shù)據(jù),但是向客戶推銷保險產(chǎn)品時,常常還是依靠經(jīng)驗或隨機選擇客戶進行推銷,成功率較低,耗費大量人力和物力成本。因此,如何利用既有數(shù)據(jù)合理地分析和預測客戶未來購買保險產(chǎn)品的行為成為金融保險領域重要的研究課題。
目前,在研究預測客戶購買行為方面大部分集中在互聯(lián)網(wǎng)、銀行、基金證券等領域。文獻[1]運用既定的需求成熟度模型計算客戶多元屬性中的相關系數(shù),并運用統(tǒng)計學進行假設檢定,確保系數(shù)的合理性和穩(wěn)定性,運用線性回歸算法來完成對銀行客戶購買行為的預測;文獻[2]立足于RFM分析模式,采用k-means算法對客戶進行聚類分析,然后借助馬爾可夫鏈理論,建立相關轉(zhuǎn)移矩陣,同時利用Dirichlet-multinomial模型來估計轉(zhuǎn)移概率,從而解決客戶信息單一性的不足和轉(zhuǎn)移矩陣內(nèi)的多項式分配問題,從而完成客戶購買傾向預測;文獻[3]分別運用常規(guī)機器學習算法,例如Logistic回歸、SVM(支持向量機)算法和Logistic回歸-支持向量機平均融合算法對上網(wǎng)客戶進行購買預測行為;文獻[4]中李棟等人主要是利用果蠅優(yōu)化算法(ELM)計算極限學習機(ELM)參數(shù),從而構(gòu)建極限學習機淺層神經(jīng)網(wǎng)絡,進行客戶購買基金行為的預測。
在保險領域中,研究客戶購買預測行為的相關文獻較少,目前已有的基本上是通過統(tǒng)計和常規(guī)分類算法進行實驗研究。比如文獻[5,6]基本通過經(jīng)驗法則或者問卷調(diào)查的形式,利用二元Logistic回歸統(tǒng)計分析方法來計算客戶購買保險的意愿;文獻[7]主要通過改進支持向量機等多種機器學習方式進行實踐,嘗試得出客戶購買預測行為。
雖然上述方式在一定程度上實現(xiàn)了客戶購買行為預測能力,但是在大型保險公司中面向的往往是對上億規(guī)模用戶的保險購買行為預測,每個用戶的大量特征還存在稀疏性強的特點,這種場景下往往更適合采用樹狀算法進行分類預測[8];為了進一步提升樹形算法準確性,往往采取bagging或者boosting集成的方式進行模型構(gòu)建,比如隨機森林(RF)或者梯度決策樹(GBDT)方式,但這些集成方式由于淺層學習和評估標準不可微,優(yōu)化效果主要靠人工調(diào)整參數(shù),和深度學習自動化迭代更新權重參數(shù)相比,存在最優(yōu)的局限性;特別是當大量的訓練數(shù)據(jù)可用時,淺層學習能力往往不如深度學習能力[9]。
為進一步實現(xiàn)保險精準營銷,須將原有的基于樹形集成方式(例如XGBoost)的客戶購買保險行為預測模型進一步做深度優(yōu)化,本文采用深度森林(Deep Forest)[10]作為一種新型的深度學習能力,并針對其級聯(lián)結(jié)構(gòu)中在實際保險購買行為預測業(yè)務中的不足,提出了一種改進實踐算法——基于XGBoost改造的Deep Forest級聯(lián)算法。
實踐表明,基于XGBoost改造的Deep Forest級聯(lián)算法應用于保險產(chǎn)品購買預測模型中,預測效果和實際應用效果在深度優(yōu)化方面均比原有單個XGBoost效果更優(yōu),同時也比原有Deep Forest優(yōu)化效果更穩(wěn)定。
1? Deep Forest算法簡介
當前主流的人工智能技術主要實現(xiàn)深度學習,而其中典型的技術是采用神經(jīng)網(wǎng)絡技術,而Deep Forest則另辟蹊徑地進行深度學習,本節(jié)主要介紹Deep Forest算法原理,同時根據(jù)保險購買預測場景業(yè)務情況,對該算法進行相關局限性分析。
1.1? 原理介紹
傳統(tǒng)的基于神經(jīng)網(wǎng)絡深度學習算法,要求各層節(jié)點都是可微模塊,才能使用反向傳播機制(Back-propagation)來更新各層參數(shù)。若遇到各層節(jié)點是采用擅長處理表格型數(shù)據(jù)(或者離散數(shù)據(jù))等其他不可微模型時,神經(jīng)網(wǎng)絡結(jié)構(gòu)難于進行深度學習。對此,南京大學的周志華團隊于2017年提出了一套新型的深度結(jié)構(gòu)學習算法——Deep Forest,算法過程如圖1所示。探索在不可微情景下的表示學習能力,同時,能夠構(gòu)建具有自適應模型復雜度的多層結(jié)構(gòu)。
Deep Forest有別于以往基于神經(jīng)網(wǎng)絡的深度學習算法,特別是在處理深度學習過程中的特征關系處理能力(FeatureRelationships)和表征學習能力(Representation Learning)。有自身獨特之處。
首先,特征關系處理能力方面,Deep Forest是通過構(gòu)建多粒度掃描方法(Multi-GrainedScanning),對原始特征輸入進行變換,增強特征表達能力,適合于對原始序列數(shù)據(jù)(sequencedata,例如聲音、圖像等)的特征工程處理。
其次,在表征學習能力方面,Deep Forest構(gòu)建一套級聯(lián)結(jié)構(gòu)(Cascadeforeststructure),級聯(lián)中的每一層接收由上一層處理后的特征信息,并將該層處理結(jié)果傳遞給下一層。級聯(lián)的每層包含兩個隨機森林(RandomForest)和兩個完全隨機樹森林(Completely-randomtreeforest)。級聯(lián)過程中,每次擴展一個新的層之前,會將整個級聯(lián)性能在交叉驗證數(shù)據(jù)集上進行評估,如果沒有顯著的效果增強,則訓練過程被終止,因此級聯(lián)過程的層數(shù)是自動確定的。這種級聯(lián)結(jié)構(gòu)的表征學習能力,非常適用于離散型或者表格型等場景數(shù)據(jù)。
而相比于深度神經(jīng)網(wǎng)絡,Deep Forest級聯(lián)結(jié)構(gòu)也有明顯的優(yōu)勢。首先,Deep Forest的參數(shù)主要依靠原生隨機森林或者完全隨機數(shù)森林等基分類器參數(shù),相比于深度神經(jīng)網(wǎng)絡的上百個調(diào)優(yōu)參數(shù)要少很多;其次,它可以根據(jù)數(shù)據(jù)規(guī)模和特定應用場景,自適應完成級聯(lián)層數(shù),無需人工額外干預;最后,Deep Forest提供級聯(lián)框架為其他非微模型的深度優(yōu)化提供了重要參考依據(jù)[11]。
Deep Forest的出現(xiàn),為深度學習在深度神經(jīng)網(wǎng)絡之外的方法,打開了一扇門。
1.2? 應用局限性分析
盡管Deep Forest在學術領域得到了實踐認可,但是將其用于構(gòu)建保險購買預測場景的模型構(gòu)建,特別是效果優(yōu)化方面,仍存在如下局限性:
首先,Deep Forest級聯(lián)過程中采用隨機森林和完全隨機樹森林兩種基分類器,雖然能最大化克服過擬合的問題,但是由于這兩種基分類器在樣本抽取和樣本特征抽樣的隨機性,訓練效果穩(wěn)定性往往同這兩個基分類器設定的隨機參數(shù)有很強的相關性,而隨機參數(shù)選取自身與訓練樣本數(shù)量和分布特性非常敏感,這種敏感的關系多數(shù)情況通過人工方式不斷調(diào)優(yōu)確定。構(gòu)建保險購買預測模型,由于樣本數(shù)據(jù)特征隨著時間推移,易造成概念偏移,需要模型定期進行迭代。每次迭代訓練數(shù)據(jù),無論量級和分布都會因業(yè)務需要發(fā)生變化,因此在完全無人工干預的情況下,容易因之前單個隨機森林參數(shù)設定不再適用于新場景,造成冗余的級聯(lián)訓練(有時候?qū)蛹壌笥?0),最后導致模型過于復雜,而收斂效果往往無顯著提升。
其次,保險購買預測應用場景是一個典型的不平衡樣本的二元分類問題,正負樣本比例高達1:180;而Deep Forest級聯(lián)每層評價標準采用精確度(Accuracy)作為模型自適應完成訓練指標,往往容易造成評價失真,無法客觀評價最終級聯(lián)模型是否在業(yè)務上滿足精準預測和查全率的指標要求。
最后,雖然Deep Forest算法在眾多領域?qū)嶒炛芯邆鋬?yōu)越的表現(xiàn)性能,但是在保險購買預測模型實踐中如何用好Deep Forest算法,需要研究一個有科學依據(jù)的、合理的進階式應用方案,以實現(xiàn)傳統(tǒng)樹形集成算法深入優(yōu)化能力。
對此,本文希望結(jié)合Deep Forest的優(yōu)勢特點,克服上述的現(xiàn)有不足,使得原有保險購買行為預測淺層模型具備深度學習的能力,對現(xiàn)有的Deep Forest進行優(yōu)化改進,提出了基于XGBoost改造的Deep Forest算法。
2? 基于XGBoost改造的Deep Forest算法
為了更好地實現(xiàn)保險精準營銷的購買預測,本節(jié)主要對Deep Forest算法進行相關原理分析,并對其中的不足提出相關改造措施。
2.1? 引入XGBoost的原因
分析如圖2中Deep Forest級聯(lián)結(jié)構(gòu)[10],假設r表示級聯(lián)塊中每個基分類器的權重,N代表級聯(lián)的第N層,Nm代表第N層上有m個基分類器,F(xiàn)Ni表示第N層的第i個基分類器,ZN-1表示第N層的上一層輸入,μ為基分類器的期望結(jié)果,代表平均預測能力,σ2為平均方差,代表訓練和預測的差異效果,Y代表預測值結(jié)果。
可以看出假設m給定的情況下,則要求各個分類器方差要最小。為了使每一層的輸入數(shù)據(jù)穩(wěn)定,由(2)(3)(4)可以看出,在每層給定相同m的情況下,級聯(lián)效果的方差也是和各自基分類器有關。
因此對于Deep Forest,在給定基分類器個數(shù)的前提下,要發(fā)揮最佳自動化迭代效果,對于基分類器要求較高,即要同時滿足偏差和方差小的特性。
原始Deep Forest級聯(lián)中,采用的是隨機森林和完全隨機樹森林作為基分類器,這種分類器屬于Bagging集成方式,而Bagging方式比較擅長處理方差大的問題,比如通過增加集成中樹的顆數(shù)或隨機采樣。偏差學習方面需要根據(jù)特定的訓練數(shù)據(jù)進行大量的算法調(diào)參(比如樹的深度)[12],因此不太適用于多輪模型迭代的自動化應用場景。
保險購買行為預測場景訓練數(shù)據(jù)每天具有千萬級別的客戶和投保數(shù)據(jù)更新,而且部分字段會隨著時間推移發(fā)生非平穩(wěn)性變化,因此容易造成訓練樣本和測試數(shù)據(jù)在一定時間內(nèi)須重新迭代訓練,因此對基分類器要求具備較強的偏差自適應處理能力。
目前基于樹的集成中,擅長處理偏差的方法是Boosting結(jié)構(gòu)。它是一種多個弱分類器的集成技術,通過每個弱分類器預測結(jié)果相加,根據(jù)給定的損失函數(shù)計算集成模型中下一個弱分類器的預測內(nèi)容和自身弱分類器的權重,通過反復迭代,最終形成一套強大的分類器。
XGBoost[13]是GradientBoosting的實現(xiàn),通過對損失函數(shù)引入二階泰勒展開進一步的擬合和構(gòu)建每個弱分類器,由算法自動計算所需的每個弱分類器個數(shù)和相關系數(shù),全程無須人工特殊參與。
在每次計算損失時,引入上述正則計算,則會在整體上減小方差,進而達到基分類器既實現(xiàn)偏差小,又實現(xiàn)方差小的目的[14]。
另外,XGBoost有別于其他實現(xiàn)GradientBoosting技術的算法,主要體現(xiàn)在:
首先,在弱分類器選擇上不僅支持CART分類器,同時支持線性分類器;其次,在分類器訓練分割點選擇計算上,最大化采取CPU多線程并行計算方式,對于訓練數(shù)據(jù)的稀疏情況(比如缺失值)提供相關默認處理方式,以及對于特征列的存儲做了內(nèi)存壓縮和優(yōu)化,因此在時間和空間上提高了算法效率。
綜合上述考慮,保險購買行為預測場景中可將XGBoost作為Deep Forest的基分類器使用。
2.2? 樣本不均衡評估標準選擇
Deep Forest級聯(lián)結(jié)構(gòu)默認情況下是采用準確度(Accuracy)來度量每層性能。
在保險購買預測的二分類問題中,相關的混淆矩陣如表1所示。
實際場景中,真實不發(fā)生購買的人群數(shù)量遠大于真實發(fā)生購買的人群數(shù)量,屬于正負樣本比例非常不均衡的應用場景。因此若用式(10),無法客觀地評價識別TP的能力。
針對衡量TP的識別能力,有如下公式[15]:
應用式(11)(12),以Recall為X軸,Precision為Y軸,或者應用式(13)(14),以FalsePositiveRate為X軸,TruePositiveRate為Y軸,分別得到RP、AUC曲線[15],如圖3所示。
許多研究表明,PR曲線相比于準確度,更適用于高度傾斜數(shù)據(jù)集(Highly-skeweddatasets)的評價指標[16]。
AUC-PR、AUC-ROC分別是指PR曲線下以及AUC- ROC曲線下的面積,值越大,代表模型區(qū)分正樣本和負樣本的能力越強[16]。
為了讓Deep Forest更加充分客觀地評價每一個級聯(lián)層的性能,將評估標準按AUC-PR進行修改,最終訓練得到的模型采用AUC-ROC再次進行評估。
2.3? 改進算法說明
綜合以上分析,在保險購買預測應用中,提出了基于XGBoost改造的Deep Forest級聯(lián)算法的使用。具體算法示意過程如圖4所示。
在應用過程中,采用XGBoost對原始特征和樣本淺層學習并且完成特征選擇,而在級聯(lián)過程中,采用XGBoost淺層機器學習算法作為Deep Forest級聯(lián)構(gòu)建塊,級聯(lián)過程中每層是由上一層每個構(gòu)建塊的交叉驗證輸出值和初始選擇的特征值進行拼接,作為該層輸入供各構(gòu)建塊進行訓練,各層用AUC-PR標準作為級聯(lián)構(gòu)建深度學習的自適應過程。
假設每層構(gòu)建塊的個數(shù)M,每個構(gòu)建塊的參數(shù)Mi,連續(xù)i次(early_stopping_rounds)作為整體算法的超參數(shù)設置。
具體訓練步驟的算法描述如下:
輸入:訓練集D={(X1,Y1),(X2,Y2),…,(Xn,Yn)}
特征集F={F1,F(xiàn)2…,F(xiàn)n}
過程:Base_gcforest_mXgboost(D,F(xiàn)):
F’,M=XGBoost(D,F(xiàn))#利用XGBoost進行特征選擇。#F’為選擇后的特征,M為選擇特征所使用的參數(shù)
While(1):#進入級聯(lián)計算
For(i=0;i<M;i++):#M為每層構(gòu)建塊的個數(shù)
Dit,Dif=XGBoost-i(D,F(xiàn)’,Mi)
#Dit,Dif分別為第i個構(gòu)建塊XGBoost經(jīng)K
#折交叉驗證的各個訓練集計算的正負概率值
#Mi為第i個構(gòu)建塊的M參數(shù)隨機微調(diào)取值
Sum_Dt=Sum_Dt+Dit#累加所有構(gòu)建塊正概率值
Sum_Df=Sum_Df+Dif#累加所有構(gòu)建塊負概率值
R(L)=AUC-PR(D,Max(Sum_Dt/M,Sum_Df/M))
#根據(jù)D中的真實值與該層各個構(gòu)建塊預測均值最大值作為預測值,進行當前L層的AUC-PR計算。
If(R(L-I)>max(R(L),R(L-1),R(L-2),..,R(L-I+1)):
break#如果當前L層AUC-PR值連續(xù)I次未大于L-I層AUC-PR值,則結(jié)束級聯(lián),最好的層數(shù)記為L-I層
Dtf=(D1t,D1f,D2t,D2f,D3tD3f,,….Dmt,Dmf)
//將構(gòu)建塊每項結(jié)果進行疊加拼接
D<-(D,Dtf)#將該層計算出來的每個樣本正負概率值,拼接訓練集D,形成新的D,作為下一層輸入
對于預測部分,取AUC-PR值最大的層(即上述訓練步驟中的L-I層),計算運算到該層中各個XGBoost構(gòu)建塊的預測結(jié)果,進行求和取均值,并且將最大值作為最終的預測結(jié)果。
另外,在保險購買預測場景中,通過將每層分類器進行5折交叉驗證,用于控制樣本過擬合風險。
在這種改進之后,能夠使得XGBoost得到進一步的深度優(yōu)化,整個框架下的級聯(lián)收斂效果穩(wěn)定性得到加強,另外非常便于處理樣本不平衡的場景使用。
3? 實際應用
3.1? 場景數(shù)據(jù)
在保險購買預測模型中,通過業(yè)務場景確認、特征選取以及數(shù)據(jù)追溯加工,經(jīng)數(shù)據(jù)提取、探查和清洗,最終得到相關客戶保單等數(shù)據(jù),作為原始特征及訓練樣本數(shù)據(jù)。數(shù)據(jù)統(tǒng)計情況如表2所示。
在所有的特征數(shù)中,類型特征占比在60%左右,類型特征中二值特征占比在80%左右。
業(yè)務場景的目標是預測客戶是否會再次購買保險產(chǎn)品的行為,過程中將購買行為作為正樣本,不購買行為作為負樣本進行標識。從標注情況來看,該學習樣本具有正負樣本比例不均衡特點;同時,根據(jù)業(yè)務應用場景,最終模型效果不僅要滿足精準預測要求,而且還需滿足不同使用場景下對預測群體的查全率要求。
因此,該場景具有典型的數(shù)據(jù)量大、特征稀疏,同時正負樣本比例不均衡的特點。
3.2? 應用方案說明
為了客觀評價改進算法和原有算法的性能,在實驗過程中,采取如下應用對比流程,如圖5所示。
由單個XGBoost分類器進行完成數(shù)據(jù)訓練后,按特征重要性排序提取相關特征,然后分別送入Deep Forest原始算法和基于XGBoost改造的Deep Forest級聯(lián)算法進行訓練生成模型,最后用AUC-PR和AUC-ROC進行性能評價。
兩種級聯(lián)算法的超參數(shù)設置如表3所示,可以看出,兩個深度優(yōu)化算法主要在級聯(lián)構(gòu)建塊和自適應評價標準上有所區(qū)別。
3.3? 結(jié)果分析
3.3.1? 特征計算結(jié)果
原始樣本經(jīng)特征加工后的特征變量,使用XGBoost進行特征變量挑選,最終選取了35個特征變量,從而可以判斷這些特征變量對客戶購買預測行為影響更為明顯。分析結(jié)果如圖6所示。3個算法將利用相同的35個特征開展模型構(gòu)建。
3.3.2? 算法效果分析
結(jié)合35個特征和原始樣本,分別在Deep Forest、基于XGBoost改造的Deep Forest級聯(lián)算法進行效果實驗比較,采用相同的測試數(shù)據(jù)集進行驗證結(jié)果,相關的AUC-ROC曲線和AUC-PR曲線對比如圖7和圖8所示。
結(jié)果表明,在三輪參數(shù)調(diào)優(yōu)過程中,基于Deep Forest改造的多層XGBoost的訓練效果,無論在AUC-ROC或AUC-PR方面,都比原有的Deep Forest級聯(lián)效果更好,而且效果更加穩(wěn)定。
同時本文還加入單個XGBoost與基于XGBoost改造的Deep Forest級聯(lián)算法的比較;可以看出,改進算法與單個XGBoost在性能方面相比,也得到了深度優(yōu)化的效果。
3.3.3? 實際投產(chǎn)效果對比
根據(jù)上述三個算法完成的三個模型,分別在相同的預測集進行投產(chǎn)預測。
跟蹤三個月在同一查準率的情況,三個模型實際產(chǎn)生的效果表現(xiàn)如圖9所示。
圖9中,相同條件是指同一個地區(qū),同一群客戶,同樣的時間段內(nèi)進行比較。成交率是“模型預測客戶購買保險行為,且客戶實際會購買保險人數(shù)”與“預測客戶購買保險行為”人數(shù)的比值。由于該預測是對客戶未來一段時間內(nèi)發(fā)生購買保險行為的預測,而該統(tǒng)計結(jié)果只是距離模型投產(chǎn)之后兩個月的情況,因此實際成交結(jié)果還會增長。
從數(shù)據(jù)實驗測試和現(xiàn)有投產(chǎn)效果對比來看,基于XGBoost改造的Deep Forest級聯(lián)算法的實際生產(chǎn)效果,分別比原有XGBoost算法和原Deep Forest算法提高2.8%和5.6%。因此可以認為基于XGBoost改造的Deep Forest級聯(lián)算法在深度學習方面,起到一定的優(yōu)化效果。
4? 結(jié)? 論
針對保險購買預測數(shù)據(jù)中樣本量大、特征稀疏以及正負樣本比例不均衡的場景應用,本文在原始Deep Forest算法基礎上,提出了基于XGBoost改造的Deep Forest級聯(lián)算法。該算法將XGBoost作為基分類器,引入Deep Forest級聯(lián)構(gòu)建塊,同時將AUC-PR值作為Deep Forest級聯(lián)自適應評價標準。
通過保險購買預測場景中的對比應用,實踐表明,基于XGBoost改造的Deep Forest級聯(lián)算法,在預測效果上均比原始Deep Forest更優(yōu),可為其他相似場景下的應用提供新的思路。同時,本文提出和使用的算法對比方案,也可為淺層機器學習算法向深度優(yōu)化方向發(fā)展過程中的對比分析提供重要實踐參考和借鑒。
參考文獻:
[1] 田敏,李純青,李雪萍.需求成熟度模型的商業(yè)銀行零售客戶交叉購買行為預測研究 [J].西安工業(yè)大學學報,2013,33(5):392-397.
[2] 黃聰,王東.基于RFM分析模式與馬爾可夫鏈的客戶行為預測模型研究 [J].情報雜志,2009,28(S2):143-146+69.
[3] 祝歆,劉瀟蔓,陳樹廣,等.基于機器學習融合算法的網(wǎng)絡購買行為預測研究 [J].統(tǒng)計與信息論壇,2017,32(12):94-100.
[4] 李棟,張文宇.基于FOA-ELM的客戶基金購買行為預測仿真 [J].計算機仿真,2014,31(6):233-237.
[5] 吳玉鋒.社會階層、社會資本與我國城鄉(xiāng)居民商業(yè)保險購買行為——基于CGSS2015的調(diào)查數(shù)據(jù) [J].中國軟科學,2018(6):56-66.
[6] 王壘.互聯(lián)網(wǎng)人身保險購買意愿研究 [D].杭州:浙江財經(jīng)大學,2016.
[7] 賴春燕.數(shù)據(jù)挖掘在我國家庭保險購買行為分析上的應用 [D].哈爾濱:哈爾濱工業(yè)大學,2017.
[8] MURTHYSK.AutomaticConstructionofDecisionTreesfromData:AMulti-DisciplinarySurvey [J].DataMiningandKnowledgeDiscovery,1998,2(4):345-389.
[9] 孫志軍,薛磊,許陽明,等.深度學習研究綜述 [J].計算機應用研究,2012,29(8):2806-2810.
[10] ZHOU Z H,F(xiàn)ENG J. Deep Forest:Towards an Alternative to Deep Neural Networks [C]//IJCAI-17,2017:3553-3559(2018-05-14).https://arxiv.org/abs/1702.08835v2.
[11] FENG J,YU Y,ZHOU Z H,.Multi-Layered Gradient Boosting Decision Trees [C]//arXiv:1806.00007.(2018-05-31).https://arxiv.org/abs/1806.00007.
[12] 曹正鳳.隨機森林算法優(yōu)化研究 [D].北京:首都經(jīng)濟貿(mào)易大學,2014.
[13] CHEN T Q,HE T,BENESTY M,etal.XGBoost:Extreme Gradient Boosting [EB/OL].(2019-08-01). http://ftp.igh.cnrs.fr/pub/CRAN/web/packages/xgboost/index.html.
[14] DIDRIKN.TreeBoosting WithXgboost-Why Does XGBoostwin“Every”Machine Learning Competition [EB/OL].(2017-10-22).https://brage.bibsys.no/xmlui/bitstream/handle/11250/24 33761/16128_FULLTEXT.pdf.
[15] 周志華.機器學習:第1版 [M].北京:清華大學出版社,2016.
[16] DAVIS J,GOADRICHM.xgboost:The Relationship Between Precision-Recall and ROC Curves [EB/OL].International Conference on Machine Learning.(2006-01-15).https://minds.wisconsin.edu/bitstream/handle/1793/60482/TR1551.pdf?sequence=1&is Allowed=y.
作者簡介:林鵬程(1980-),男,漢族,福建龍巖人,算法工程師,碩士,研究方向:人工智能在企業(yè)中的應用;唐輝(1981-),男,漢族,湖北天門人,高級工程師,碩士,研究方向:人工智能在企業(yè)中的應用。