林怡婷,蔡 濤,鄧喜珊,張?zhí)煊?,張婷婷,王延?/p>
(寧波工程學(xué)院 理學(xué)院,浙江 寧波 315211)
大數(shù)據(jù)時(shí)代,眾多數(shù)據(jù)呈現(xiàn)海量、高維、復(fù)雜等特點(diǎn),這使得傳統(tǒng)的統(tǒng)計(jì)方法受到巨大挑戰(zhàn)。高維數(shù)據(jù)變量選擇成為現(xiàn)代統(tǒng)計(jì)的前沿?zé)狳c(diǎn)問(wèn)題,解決高維數(shù)據(jù)稀疏化的最有效最常用手段是基于罰函數(shù)的正則化方法。近20年來(lái),統(tǒng)計(jì)家們提出了很多罰方法同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì)。目前較為流行使用的懲罰函數(shù)主要有Lasso、SCAD[1]、MCP[2]以及這三者的衍生。劉建偉等[3]總結(jié)了多種正則化稀疏模型,曾津等[4]介紹了多種處理高維數(shù)據(jù)的變量選擇方法;他們均提到了Lasso、SCAD和MCP具有較強(qiáng)的變量選擇能力。但Lasso方法是有偏估計(jì),而SCAD和MCP罰方法具有無(wú)偏性、稀疏性和連續(xù)性。相對(duì)SCAD估計(jì)而言,MCP變量選擇的結(jié)果更加稀疏。
Logisitc回歸模型常常用于分類問(wèn)題,但在高維情形下,會(huì)出現(xiàn)估計(jì)結(jié)果不穩(wěn)定的問(wèn)題。進(jìn)而,基于懲罰函數(shù)的Logistic回歸模型被提出并得到廣泛應(yīng)用,該模型可以有效克服參數(shù)估計(jì)的不穩(wěn)定性和模型過(guò)擬合問(wèn)題,同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì)。
鑒于上述原因,本文提出基于MCP罰的Logistic回歸模型,并以某商業(yè)銀行客戶流失歷史數(shù)據(jù)為例探究MCP-Logistic模型選取變量的能力以及預(yù)測(cè)效果。特別地,在正則化參數(shù)選擇方面,提出一種正則化參數(shù)直接給定方法,不需要預(yù)調(diào)節(jié),極大減少了計(jì)算量。在實(shí)際數(shù)據(jù)分析中,將MCP-Logistic模型與基于Lasso、SCAD的Logistic模型以及決策樹(shù)模型[5]對(duì)比,驗(yàn)證本文提出方法的有效性。
(1)MCP-Logistic模型
MCP方法是在所有滿足無(wú)偏性條件的懲罰函數(shù)中,擁有較好的理論性質(zhì)的一種方法。ZHANG[2]證明了MCP是一個(gè)近似無(wú)偏稀疏的方法。李春紅等[6]證明了MCP估計(jì)的漸進(jìn)正態(tài)性。MCP適合應(yīng)用于自變量相關(guān)性較高的情形,特別是在處理相關(guān)性較高變量都是重要變量的數(shù)據(jù)結(jié)構(gòu),當(dāng)一個(gè)很強(qiáng)的變量被選入模型之后,其他相關(guān)變量就很難進(jìn)入模型。MCP回歸隨著βj的增大,懲罰力度從λ逐漸減少至0,對(duì)回歸系數(shù)采取有差別的懲罰,以此來(lái)得到更精確的估計(jì)。
設(shè)有獨(dú)立同分布的觀測(cè)(xi,yi)(i=1,2,…,n),其中xi=(xi1,…,xip)T是解釋變量,記X=|x1,…,xn|為預(yù)測(cè)矩陣,y=(y1,…,yn)(yi∈{0,1})是二元響應(yīng)變量,β=(β1,…,βp)T表示模型的回歸系數(shù)。因此,Logistic回歸模型的MCP估計(jì)為:
上式中,MCP的懲罰函數(shù)定義為:
其中λ≥0,γ>1。當(dāng)對(duì)MCP的懲罰函數(shù)進(jìn)行一階求導(dǎo)時(shí),可得到
從上式可看出:隨著βj逐漸增大時(shí),懲罰力度呈線性下降;而當(dāng)βj>γλ時(shí),懲罰力度為0。這一結(jié)果說(shuō)明MCP滿足了稀疏以及無(wú)偏性的特征。
(2)Lasso-Logistic模型和SCAD-Logistic模型
Lasso是通過(guò)在RSS最小化的計(jì)算中加入一個(gè)l1范數(shù)作為懲罰項(xiàng)對(duì)系數(shù)進(jìn)行壓縮。Lasso估計(jì)的優(yōu)點(diǎn)在于可以同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì),缺點(diǎn)在于對(duì)回歸系數(shù)的全部分量都進(jìn)行相同程度的懲罰,這導(dǎo)致了對(duì)目標(biāo)變量回歸系數(shù)的有偏估計(jì)。Lasso-Logistic模型如下:
由于Lasso不具備變量選擇的Oracle性質(zhì),F(xiàn)AN和LI[1]提出一種無(wú)偏估計(jì)方法,即SCAD?;赟CAD估計(jì)的Logistic回歸模型為:
其中,SCAD的懲罰函數(shù)定義為:
(3)決策樹(shù)模型
作為對(duì)比,本文利用CART分類樹(shù)模型,其算法使用基尼系數(shù)來(lái)代替原先經(jīng)典算法(比如ID3、C4.5)的屬性度量標(biāo)準(zhǔn),即通過(guò)計(jì)算模型的不純度作為分類的標(biāo)準(zhǔn)。當(dāng)基尼系數(shù)越小,不純度越低時(shí),代表該特征選擇得越好。
設(shè)樣本X的個(gè)數(shù)為N,共有K個(gè)類別,且第k個(gè)類別的數(shù)量為nk,第k個(gè)類別的概率為,則樣本X的基尼系數(shù)的表達(dá)式如下:
若根據(jù)特征A將樣本X分成X1和X2,則在特征A條件下,樣本的基尼系數(shù)表達(dá)式為:
對(duì)于MCP、Lasso和SCAD這3種正則化方法,常見(jiàn)的正則化參數(shù)選取方法有:交叉驗(yàn)證CV和信息準(zhǔn)則IC[7]。交叉驗(yàn)證是一種評(píng)估模型的泛化能力的方法,統(tǒng)計(jì)學(xué)界還細(xì)分了多種交叉驗(yàn)證方法:簡(jiǎn)單交叉驗(yàn)證、留一交叉驗(yàn)證、K折交叉驗(yàn)證、自助法等[8]。
但以上方法需要實(shí)現(xiàn)給定一系列正則化參數(shù),然后根據(jù)以上準(zhǔn)則選擇最優(yōu)正則化參數(shù)值,存在計(jì)算量大的缺點(diǎn),而且CV方法容易出現(xiàn)模型過(guò)擬合現(xiàn)象。本文提出正則化參數(shù)給定方法如下
其中,n表示樣本量,p表示數(shù)據(jù)的維數(shù),ε>0取值為0.05或者0.01,c為給定常數(shù)。利用公式(4),正則化參數(shù)無(wú)需調(diào)節(jié)(tuning free),故我們稱該方法為T(mén)F方法。同時(shí),作為對(duì)比,本文選用CV方法來(lái)選取罰Logistic模型的正則化參數(shù)。
對(duì)分類模型進(jìn)行評(píng)估的常用指標(biāo)主要是混淆矩陣和ROC曲線、AUC面積?;煜仃囀呛饬糠诸愋蛿?shù)據(jù)模型準(zhǔn)確度中最基本,最直觀,計(jì)算最簡(jiǎn)單的方法,也是繪制ROC曲線的基礎(chǔ)。從混淆矩陣可衍生出很多指標(biāo),常用的指標(biāo)有準(zhǔn)確率ACC和F值。準(zhǔn)確率ACC指的是分類模型中判斷正確的結(jié)果占總觀測(cè)樣本的比重;精確率PPV指的是真正例占預(yù)測(cè)為正例樣本的比重;召回率TPR指的是真正例占真實(shí)情況為正例樣本的比重;F值指的是精確率PPV和召回率TPR加權(quán)調(diào)和平均數(shù)。一般來(lái)說(shuō),ACC、PPV、TPR、F值越接近1,模型越好。表1為評(píng)價(jià)指標(biāo)的公式表:
表1 評(píng)價(jià)指標(biāo)公式表
ROC曲線的縱坐標(biāo)是真正例率(TPR),橫坐標(biāo)是假正例率(FPR)。AUC值為ROC曲線下方的面積求和,其范圍在0到1之間,若AUC值越接近1,說(shuō)明模型的泛化能力越好。本文將主要從準(zhǔn)確率ACC、F值和AUC值來(lái)綜合評(píng)價(jià)銀行流失客戶預(yù)測(cè)模型的能力。
本節(jié)將對(duì)銀行客戶流失預(yù)警進(jìn)行實(shí)證分析,并且通過(guò)不同的模型評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較各模型的預(yù)測(cè)能力與變量選擇能力。算法方面,Lasso、SCAD和MCP估計(jì)使用R軟件中的glmnet包實(shí)現(xiàn),決策樹(shù)利用rpart包實(shí)現(xiàn)。正則化參數(shù)選擇方面,利用TF方法和CV方法。
1)異常值處理
本文數(shù)據(jù)來(lái)自某商業(yè)銀行客戶流失歷史數(shù)據(jù)[9],該數(shù)據(jù)集中包含17 241條樣本,50個(gè)字段。這些字段主要包括客戶基本信息和業(yè)務(wù)指標(biāo)兩個(gè)方面。其中客戶信息指標(biāo)主要包括開(kāi)戶時(shí)長(zhǎng)、性別、年齡,業(yè)務(wù)指標(biāo)包括存款筆數(shù)、交易金額、交易筆數(shù)等。在各變量中,由于本幣活期月均余額占比與本幣定期月均余額占比之和為1,因此刪去冗余變量本幣活期月均余額占比。此外,手機(jī)銀行交易總數(shù)這一變量的值均為0,因此刪去該變量。
2)特征構(gòu)造
由于原始信息可能對(duì)因變量產(chǎn)生的影響不夠顯著,因此通過(guò)構(gòu)造衍生變量的方法,使得新變量具有商業(yè)意義,并能夠提取出有用的信息。表2展示了部分衍生變量的構(gòu)造方法,這些特征對(duì)目標(biāo)變量相關(guān)且具有實(shí)際意義。
表2 部分衍生變量的特征構(gòu)造公式表
特征構(gòu)造后數(shù)據(jù)集的字段增加到69個(gè)。在確定自變量的個(gè)數(shù)之后,為了避免由于變量間量綱的不同造成模型的誤差,事先將各指標(biāo)變量進(jìn)行標(biāo)準(zhǔn)化處理。
銀行客戶流失數(shù)據(jù)往往是非平衡二分類數(shù)據(jù)集,即數(shù)據(jù)中的響應(yīng)變量分布不均衡,響應(yīng)變量值為0的觀測(cè)數(shù)目遠(yuǎn)遠(yuǎn)大于響應(yīng)變量為1的觀測(cè)數(shù)目。常用樣本平衡的處理辦法是欠采樣法、過(guò)采樣法、人工數(shù)據(jù)生成法和代價(jià)敏感學(xué)習(xí)。欠采樣主要是減少來(lái)自多數(shù)類的觀測(cè)值,從而達(dá)到數(shù)據(jù)集的平衡,其缺陷就是可能損失大量信息。過(guò)采樣主要是增加來(lái)自小數(shù)類的重復(fù)觀測(cè)值,其缺陷就是容易出現(xiàn)過(guò)擬合的現(xiàn)象。
由于欠采樣法與過(guò)采樣法均有明顯的缺陷,因此本文通過(guò)欠采樣與過(guò)采樣相結(jié)合的方式解決二分類數(shù)據(jù)集不平衡的問(wèn)題,利用R軟件中的ROSE包可實(shí)現(xiàn)數(shù)據(jù)集的處理。
通過(guò)坐標(biāo)下降算法估計(jì)MCP-Logistic模型參數(shù),通過(guò)TF方法選擇正則化參數(shù)。模型估計(jì)結(jié)果如表3所示。
表3 MCP-Logistic非零參數(shù)估計(jì)表
由表3可知:MCP估計(jì)在選擇變量后得到了7個(gè)重要變量的估計(jì)系數(shù)。從結(jié)果來(lái)看,本幣活期月均余額、本幣定期銷戶總金額、本幣總?cè)】罟P數(shù)這3個(gè)指標(biāo)的數(shù)值越大,銀行客戶流失的可能性越大。其余的4個(gè)負(fù)系數(shù)值對(duì)應(yīng)的指標(biāo)值越大,銀行客戶流失的可能性越小。其中,本幣活期存款總余額、本幣總?cè)】罟P數(shù)是左右銀行客戶流失的重要因素。該結(jié)果比較符合實(shí)際。
接下來(lái)分別對(duì)MCP-Logistic模型、Lasso-Logistic模型、SCAD-Logistic模型和決策樹(shù)模型進(jìn)行模型評(píng)估。表4給出了不同模型的效果比較表:
表4 模型評(píng)價(jià)指標(biāo)結(jié)果表
由表4可知:一方面,通過(guò)正則化參數(shù)選取方式的對(duì)比,發(fā)現(xiàn)利用TF方法確定的正則化參數(shù)在壓縮變量方面具有顯著的優(yōu)勢(shì),選擇了更加稀疏的模型;而從預(yù)測(cè)效果方面,在CV方法和TF方法下,3類正則化方法的準(zhǔn)確率、F值及ACU值各指標(biāo)取值相當(dāng)。
另一方面,通過(guò)模型之間的對(duì)比,可發(fā)現(xiàn)MCP-Logistic模型在高維變量選擇和預(yù)測(cè)方面都表現(xiàn)出較為良好的性能。從壓縮變量程度來(lái)看,MCP-Logistic模型和決策樹(shù)模型對(duì)處理自變量高相關(guān)性的效果均較好。從準(zhǔn)確率與AUC值來(lái)看,Lasso-Logistic模型的準(zhǔn)確率略高于其他模型,MCP-Logistic模型的AUC值略高于其他模型,4種模型的準(zhǔn)確率與AUC值相差不大,因此不能判斷模型的優(yōu)劣。由于該數(shù)據(jù)集更注重的是正確預(yù)測(cè)客戶流失數(shù),因此單從準(zhǔn)確率和AUC值來(lái)判斷模型優(yōu)劣是不合理的,而F值是精確率PPV和召回率TPR加權(quán)調(diào)和平均數(shù),所以本文通過(guò)F值(β取2)來(lái)判斷模型的預(yù)測(cè)分類能力,使得結(jié)果在保證精確率PPV的條件下,盡量提升召回率TPR。從F值來(lái)看,MCP-Logistic模型的F值較大,尤其是決策樹(shù)模型的F值遠(yuǎn)不如MCP估計(jì)下的模型,因此可認(rèn)為MCP方法具有更好的預(yù)測(cè)分類能力。
綜合上述的結(jié)果分析,可以得出MCP估計(jì)的Logistic回歸模型在處理高維數(shù)據(jù)變量選擇問(wèn)題方面具有較好的效果。
本文主要探究MCP-Logistic模型在銀行客戶的流失情況分析中的應(yīng)用,并提出了正則化參數(shù)的確定方法。從研究結(jié)果來(lái)看,MCP-Logistic模型最終選取得到7個(gè)重要變量的系數(shù)估計(jì)以及計(jì)算得到F值為0.421 0,這說(shuō)明該模型對(duì)于高維數(shù)據(jù)變量的壓縮效果更好,且具有較好的分類預(yù)測(cè)能力。