余自林,張曉龍
(1.武漢科技大學計算機科學與技術(shù)學院,湖北 武漢,430065;2. 武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065)
?
基于有效特征選擇的高價值移動通信用戶預測方法
余自林,張曉龍
(1.武漢科技大學計算機科學與技術(shù)學院,湖北 武漢,430065;2. 武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065)
高價值移動通信用戶預測是電信客戶關(guān)系管理中的一項重要內(nèi)容。針對建立預測模型時遇到的高維、大規(guī)模、類不平衡等數(shù)據(jù)處理問題,提出了一種基于有效特征選擇的預測方法。利用欠采樣方式從初始不平衡數(shù)據(jù)集提取多個平衡訓練集,使用結(jié)合Pearson相關(guān)性分析和隨機森林特征重要性評估的特征選擇策略,在集成學習方法中嵌入加權(quán)和投票機制獲得最優(yōu)的特征子集,最后采用隨機森林算法建立預測模型。實驗結(jié)果表明,該預測模型可以有效降低特征集的維度并提升對高價值移動通信用戶的預測性能。
移動通信用戶;不平衡數(shù)據(jù)集;特征選擇;Pearson相關(guān)分析;隨機森林;預測模型
隨著“互聯(lián)網(wǎng)+”商業(yè)模式的快速推廣以及4G通信市場競爭的全面展開,如何識別并發(fā)展高價值用戶是移動通信企業(yè)能否增加利潤并提高市場競爭力的關(guān)鍵。目前對高價值電信用戶的定義并無統(tǒng)一標準,相關(guān)學術(shù)研究集中于用戶細分[1-3]和流失預警[4-5]等方面,對用戶預測類的研究相對較少,因此根據(jù)客戶消費記錄和流失數(shù)據(jù)建立高價值移動通信用戶的預測模型具有重要的應(yīng)用價值。然而,這些用于建模的數(shù)據(jù)屬于大規(guī)模的高維不平衡數(shù)據(jù)集,其冗余特征不僅會增加應(yīng)用成本,還可能導致過擬合現(xiàn)象的發(fā)生,從而降低模型的泛化能力和對少數(shù)類的預測性能[6],所以設(shè)計有效的特征選擇方法以降低特征集的維度是建立預測模型的核心工作。
對于高價值移動通信用戶數(shù)據(jù)集,在選擇最優(yōu)特征子集時,需要考慮類不平衡問題所帶來的訓練集提取、特征子集尋優(yōu)等問題。文獻[7]提出了基于過濾式(Filter)的EFSBS方法,使用對稱的不確定性為相關(guān)性度量準則,可以較好地保證特征之間的獨立性,該方法只適用于離散型特征的篩選。文獻[8]證實了基于隨機森林(random forest,RF)特征選擇原理的集成學習方法可以在一定范圍內(nèi)處理不平衡特征選擇問題,但在初始特征集包含的冗余特征過多或者過少的情形下,以初始特征個數(shù)的平方根為有效特征個數(shù)的方式會對模型分類效果造成很大影響。文獻[9]提出了基于封裝式(Wrapper)的RFFS方法,以隨機森林的分類精度為準則函數(shù),采用序列后向搜索策略在小樣本上可以取得較好的分類效果。但是,隨機森林算法本身對于特征之間的多重共線性并不敏感,因而難以單獨實現(xiàn)最大化去除冗余信息。
鑒于現(xiàn)有方法的局限性,本文根據(jù)企業(yè)實際用戶數(shù)據(jù)以及數(shù)據(jù)挖掘相關(guān)技術(shù),提出一種基于混合式Filter-Wrapper特征選擇模式和集成學習思想的不平衡特征選擇方法,并采用性能穩(wěn)定的隨機森林算法建立高價值移動通信用戶預測模型,以期為后續(xù)商業(yè)決策提供有價值的分析支撐。
1.1 高價值移動通信用戶的判定
用戶平均收益(average revenue per user, ARPU)是通信運營商衡量用戶價值的重要指標,結(jié)合ARPU和其他不同指標可以識別出不同業(yè)務(wù)領(lǐng)域的高價值用戶。一般情況下,現(xiàn)有移動通信用戶連續(xù)N月的月均消費水平的維持能力會隨N值的增長而提高。因此,可以根據(jù)連續(xù)一年的月均ARPU值及客戶流失情況來快速定位具有良好穩(wěn)定性的高價值移動通信用戶群體。
某省電信公司在2015年9月至2016年8月期間個人和家庭移動通信用戶的月均ARPU值及對應(yīng)各檔次的客戶年流失率如圖1所示。由圖1可見,在一定的月均ARPU范圍內(nèi),隨著ARPU值的提高,移動通信用戶在未來一年的年流失率會近似按指數(shù)規(guī)律下降至某一平穩(wěn)波動水平,即當用戶消費水平高于某一閾值后,其流失率較低并且相對穩(wěn)定。
圖1 移動通信用戶的月均ARPU及年流失率
Fig.1 Average monthly ARPU and annual loss rate of mobile communication users
據(jù)統(tǒng)計,ARPU高于190元的用戶群體雖然僅占該省移動通信用戶總量的1.3%,但卻貢獻了高達8.6%的移動通信企業(yè)年收入。因此,本文中高價值移動通信用戶的判定準則為:在網(wǎng)時長不低于一年且連續(xù)一年的月均消費金額不低于190元。
1.2 數(shù)據(jù)提取
移動通信用戶消費水平的提升是一個漸變的過程,從低端直接跨到高端層面的情況極少發(fā)生。為了提高模型的預測精度,根據(jù)業(yè)務(wù)經(jīng)驗將研究目標鎖定在連續(xù)一年月均ARPU值在100~190元之間的用戶,將那些在未來一年內(nèi)會成長為高價值用戶的群體標記為正類,其他群體則標記為負類。
基于客戶關(guān)系管理系統(tǒng),可以從消費特征、終端特征、消費行為變化、互聯(lián)網(wǎng)應(yīng)用和終端行為匹配5個方面提取目標用戶的基本特征以及相關(guān)數(shù)據(jù)。本次研究中,隨機抽取包含12萬條記錄、110個用戶特征、正負類樣本不平衡度接近1∶3的原始數(shù)據(jù)集。從原始數(shù)據(jù)集中隨機抽取10萬條記錄作為初始數(shù)據(jù)集,用于特征選擇及模型訓練;剩余2萬條記錄組成驗證集,用于檢驗?zāi)P偷念A測效果。
從數(shù)據(jù)挖掘角度來看,高價值移動通信用戶預測是基于高維不平衡數(shù)據(jù)集的大規(guī)模二分類問題,其數(shù)據(jù)集中包含了大量的連續(xù)型特征和少量離散型特征,且非目標特征之間存在復雜的線性和非線性關(guān)系,難免會出現(xiàn)信息重疊的現(xiàn)象。
為了充分利用Wrapper模式對模型性能的提升作用,可采用隨機森林算法自帶的特征重要性評估機制進行特征選擇。該機制雖然能在一定程度上降低特征集的維度并提高模型的預測精度,但不能有效剔除包含重復信息的特征。對線性關(guān)系敏感的Pearson相關(guān)性分析可以很好地彌補這一不足,其以Filter模式去除高自相關(guān)性特征的優(yōu)勢可以作為特征預選擇工具,從而降低特征選擇方法的時間復雜度。同時,采用基于隨機有放回欠采樣技術(shù)的集成學習模式,可在多份相互獨立的訓練集上進行特征選擇工作,進一步降低過擬合的風險并提高模型的泛化能力。
在文獻[9]中RFFS方法的基礎(chǔ)上,本文設(shè)計了一種結(jié)合Pearson相關(guān)性分析和隨機森林特征重要性評估的集成特征選擇方法(Pearson and random-forest based ensemble feature selection,PREFS)。
2.1 Pearson相關(guān)性分析
Pearson相關(guān)性分析可以衡量特征之間的線性相關(guān)程度。該方法主要用于消除非目標特征之間的多重共線性,可作為Filter特征選擇工具進行特征預篩選。對于兩個服從正態(tài)分布的連續(xù)型隨機變量x、y,其Pearson相關(guān)系數(shù)的計算公式為:
(1)
假設(shè)特征集有n維,相關(guān)系數(shù)閾值為ρ(0<ρ<1),通過式(1)可求得非目標特征兩兩之間的自相關(guān)系數(shù)ρxi,xj以及(n-1)×(n-1)維的自相關(guān)系數(shù)矩陣A、非目標特征與目標特征之間的相關(guān)系數(shù)ρx,y以及n×1維相關(guān)系數(shù)矩陣B。
對于特征xi和xj,若在矩陣A中存在ρxi,xj>ρ,在矩陣B中存在ρxi,y>ρxj,y,則舍棄特征xi,反之亦然。
ρ值直接影響模型的預測性能??赏ㄟ^逐漸降低ρ的取值并進行特征選擇工作以及相應(yīng)建模實驗,從而確定使表征模型性能的評估指標達到最優(yōu)時的ρ值。
2.2 隨機森林特征重要性計算
隨機森林算法是一種基于決策樹的組合學習方法,它采用boot-strap重采樣技術(shù),以CART回歸樹作為元分類器,對于含有噪聲和缺失值的數(shù)據(jù)具有很好的魯棒性。其內(nèi)嵌的特征重要性評估機制[10]可以作為高維數(shù)據(jù)的Wrapper式特征選擇工具,能同時處理連續(xù)型特征和離散型特征。
對于特征x,采用隨機森林算法求解其特征重要度的步驟如下:
(1)基于裝袋思想,利用袋內(nèi)數(shù)據(jù)建立n棵決策樹,分別計算每棵樹的袋外分類誤差exi1,i=1,2,…,n;
(2)隨機修改袋外數(shù)據(jù)的特征x的值,再次計算新的袋外誤差exi2;
(3)x對分類模型的重要度由式(2)得出:
(2)
對于同一特征集X,隨機森林算法在不同數(shù)據(jù)集上獲取的各個特征重要度大小會有所不同。在以加權(quán)和投票方式集成所有訓練集上的特征選擇結(jié)果時,為避免特征重要度大小不同對特征在X中最終排序的干擾,可以對各個特征的重要度進行離差標準化處理,如式(3)所示:
(3)
式中:Impmax和Impmin分別為X中特征的重要度最大值和最小值。經(jīng)過數(shù)據(jù)標準化處理后[11],所有特征的重要度均分布于[0,1]區(qū)間,Ix即為特征x的重要性權(quán)值。
2.3 PREFS方法描述
在PREFS方法中,采用有放回隨機欠采樣方法從初始數(shù)據(jù)集中提取多份正負類數(shù)量均衡的訓練集,綜合Pearson相關(guān)性分析去除多重共線性的原理以及隨機森林算法根據(jù)模型評估的反饋信息判斷特征重要性的原理,以此作為混合式選擇的篩選準則,經(jīng)過層層過濾與結(jié)果集成,最終實現(xiàn)最大化剔除冗余特征和提高模型預測精度的目的。PREFS方法的具體描述如下。
輸入:以有放回隨機欠采樣方式從初始數(shù)據(jù)集中提取的含m個特征的平衡訓練集Si(i=1,2,…,n),閾值ρ。
輸出:最優(yōu)特征子集B,維度K。
處理1:混合式選擇
(1)對于訓練集Si,在Pearson相關(guān)性分析中根據(jù)ρ值去除部分冗余特征,生成特征子集Ai;
(2)根據(jù)隨機森林特征重要性評估,生成降序特征子集Bi(如果特征不在Ai中,其權(quán)值補0);
(3)采用前序搜索策略,逐次使用j(j=1,2, …,m)個特征去建模,將使關(guān)鍵模型評價指標達到最優(yōu)的j作為Si上最優(yōu)特征子集的維度Ki。
處理2:集成選擇
(1)加權(quán):將n個訓練集上所得的各個特征的重要性權(quán)值分別按照特征名稱累加,生成包含m個特征的降序特征子集B0;
(2)投票:統(tǒng)計不同的Ki值及其頻數(shù),取頻數(shù)最多的Ki為最優(yōu)維度K,在B0中取前K個特征作為最優(yōu)特征子集B。
3.1 評估指標
對于不平衡數(shù)據(jù)集問題,常用預測模型評估指標包括精度、召回率、準確率、F-score[12]和ROC曲線等。模型的運行結(jié)果可以用混淆矩陣來表示,如表1所示。
表1 預測結(jié)果的混淆矩陣
根據(jù)表1指標可以得出[13]:
正類預測精度Precision=TP/(TP+FP);
正類召回率Recall=TP/(TP+FN);
整體準確率Accuracy=(TP+TN)/(TP+FP+FN+TN)。
F-score為正類預測率和正類召回率的調(diào)和平均數(shù),可以衡量模型對正類預測的整體性能,其一般形式如下:
F-score=2·Recall·Precision/
(Recall+Precision)
(4)
為了檢驗PREFS方法在高價值移動通信用戶預測研究中對高維不平衡數(shù)據(jù)預測的提升效果及相應(yīng)預測模型的整體性能,本文將選用特征子集的維度、整體準確率Accuracy和F-score這3個指標對模型性能進行綜合評估。
3.2 實驗方案
采用數(shù)據(jù)挖掘工具R3.2.0以及R語言包“stats”和“randomForest”,實驗主要分為兩個階段:特征選擇階段和模型預測階段。
為了驗證所提方法的有效性,引入EFSBS[7]和RFFS[9]這兩種傳統(tǒng)特征選擇方法進行對比,并采用各種方法所對應(yīng)的原始算法建立預測模型。不同特征選擇方法的關(guān)鍵信息如表2所示。
在UCI機器學習數(shù)據(jù)庫中選取3份不同領(lǐng)域的大型不平衡數(shù)據(jù)集進行測試,如表3中D2、D3、D4所示,表中D1為本研究在數(shù)據(jù)收集階段從某省電信公司提取的初始數(shù)據(jù)集。
表2 不同特征選擇方法的關(guān)鍵信息
Table 2 Key information of different feature selection methods
名稱模式算法準則PREFS集成+混合式RFPearson相關(guān)性、RF特征重要性EFSBS集成+過濾式C4.5對稱的不確定性RFFS非集成+封裝式RFRF特征重要性
表3 不同數(shù)據(jù)集的對比
將各數(shù)據(jù)集按照7∶3的比例分為訓練集和測試集,以十折交叉驗證方式,采用由不同特征選擇方法所確定的最優(yōu)特征子集和相應(yīng)算法建立預測模型,再根據(jù)各模型在各測試集上的評價結(jié)果去比較不同特征選擇方法的優(yōu)劣。
然后,在由數(shù)據(jù)收集階段提取的驗證集上,使用在D1訓練集上建立的預測模型去預測高價值移動通信用戶,從而檢驗?zāi)P偷膶嵱眯浴?/p>
3.3 特征選擇結(jié)果分析
在D1數(shù)據(jù)集上逐漸改變自相關(guān)系數(shù)閾值ρ并進行建模實驗,結(jié)果如圖2所示。由圖2可以看出,F(xiàn)-score值的波動范圍很大,表明ρ會對模型的預測結(jié)果產(chǎn)生直接影響。根據(jù)實驗結(jié)果,在PREFS方法中,選取使F-score值達到最大的ρ值,即ρ=0.7。
圖2 F-score隨ρ值的變化情況
采用不同方法針對4個數(shù)據(jù)集的模型評估結(jié)果如表4所示。由表4中的平均值可以看出,PREFS的降維效果最好;相對于EFSBS和RFFS,PREFS在整體準確率這項指標上分別提高了12.9%和1.1%,在F-score指標上分別提高了12.9%和0.8%。這表明隨機森林算法比C4.5決策樹算法[14]更適合于解決此類包含很多冗余特征的不平衡二分類問題。
針對高價值移動用戶數(shù)據(jù)集D1,與RFFS方法相比,在整體準確率指標基本持平的情況下,PREFS方法的F-score值提高了1.3%,表明初始特征集中確實存在一些影響正類預測的特征,而通過特征選擇可以減少這些影響,這在一定程度上凸顯了集成學習模式的優(yōu)點。
表4 基于不同方法和數(shù)據(jù)集的模型評估結(jié)果
注:字體加粗項表示過擬合
在UCI數(shù)據(jù)集D2~D4上,EFSBS和RFFS方法出現(xiàn)了過擬合現(xiàn)象,PREFS方法表現(xiàn)正常。從D4的評估結(jié)果可以看出,對于低維平衡數(shù)據(jù)集,PREFS方法除了能大幅度降低特征集的維度外,在提升模型預測性能方面并無優(yōu)勢。但從D2和D3的評估結(jié)果可以看出,隨著數(shù)據(jù)集規(guī)模變大、維度提高、正負類樣本不平衡度增大以及高自相關(guān)性特征的增多,PREFS的降維效果以及對模型性能的提升作用逐漸得以體現(xiàn)。這在一定程度上說明,在使用隨機森林特征重要性評估機制對不平衡數(shù)據(jù)集進行降維時,先使用Pearson相關(guān)性分析進行預選擇很有必要,同時也驗證了PREFS方法的有效性。
3.4 模型預測結(jié)果分析
經(jīng)過一系列特征選擇和對RF算法關(guān)鍵參數(shù)的逐一調(diào)優(yōu)實驗,得出基于PREFS方法和D1數(shù)據(jù)集所建模型的關(guān)鍵信息如下。
隨機森林參數(shù):決策樹棵數(shù)ntree=200,隨機特征選擇個數(shù)mtry=7。
特征子集:近3月的月均ARPU,近3月的月均語音通話時長,近6月的大額繳費金額,近3月的月均數(shù)據(jù)流量,套餐金額,新增積分,長途通話次數(shù),促銷合約時長,ARPU/終端價格,增值業(yè)務(wù)費用,短信交往圈個數(shù),終端銷售價格,近3月的月均活動基站數(shù),用戶ARPU趨勢,在網(wǎng)月份數(shù),漫游通話次數(shù)。
所建模型分別在由數(shù)據(jù)收集階段提取的驗證集和D1測試集上的預測結(jié)果如圖3所示??梢钥吹剑鄬τ谠贒1測試集上的評價結(jié)果,預測模型在驗證集上的各項評價指標表現(xiàn)穩(wěn)定,雖然在準確率這項指標上略微下降了0.35%,但在本文最重視的F-score指標上卻提升了1.0%,體現(xiàn)了該模型具有較強的泛化能力??紤]到至少有百萬數(shù)量級的實際用戶基數(shù)以及操作的復雜程度,本方法對模型預測性能提升而會帶來相應(yīng)的收益。
圖3 預測模型用于驗證集和測試集上的結(jié)果比較
Fig.3 Result comparison of prediction models applied to validation dataset and test dataset
因此,就預測高價值移動通信用戶而言,基于PREFS特征選擇方法和隨機森林算法的模型具有一定的實用性,能夠處理在大規(guī)模高維不平衡數(shù)據(jù)集上的二分類問題,可以較好地為企業(yè)決策提供服務(wù)。
針對高價值移動通信用戶,本文根據(jù)高消費、低流失的判定準則,基于一種特征選擇方法PREFS和隨機森林算法建立了預測模型。該方法結(jié)合Pearson相關(guān)性分析和隨機森林特征選擇原理,用于降低特征集的維度,避免過擬合現(xiàn)象的發(fā)生并提高模型的泛化能力,可以有效地處理不平衡數(shù)據(jù)集上具有連續(xù)型、離散型和復雜線性關(guān)系的特征選擇問題。通過與傳統(tǒng)特征選擇方法和數(shù)據(jù)挖掘算法的建模結(jié)果對比,驗證了該方法的有效性和實用性。今后將在降低PREFS方法的時間復雜度和提高模型的預測精度這兩方面開展進一步研究。
[1] 吳昊. 基于用戶細分的電信客戶數(shù)據(jù)分析與建模[D]. 廣州:廣東工業(yè)大學, 2015.
[2] Eskafi M, Hosseini S H, Yazd A M. The value of telecom subscribers and customer relationship management[J].Business Process Management Journal,2013,19(4):737-748.
[3] 吳春旭, 鮑滿園, 茍清龍.自組織映射聚類算法在電信客戶細分中的應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2010, 19(8):168-172.
[4] 丁君美,劉貴全,李慧.改進隨機森林算法在電信業(yè)客戶流失預測中的應(yīng)用[J].模式識別與人工智能,2015, 28(11):1041-1049.
[5] 任謙.基于Clementine軟件的電信客戶流失分析及預警[D].北京:北京郵電大學,2012.
[6] 徐峻嶺,周毓明,陳林,等.基于互信息的無監(jiān)督特征選擇[J].計算機研究與發(fā)展,2012,49(2):372-382.
[7] 李霞,王連喜,蔣盛益.面向不平衡問題的集成特征選擇[J].山東大學學報:工學版,2011,41(3):7-11.
[8] 尹華,胡玉平.基于隨機森林的不平衡特征選擇算法[J].中山大學學報:自然科學版,2014,53(5):59-65.
[9] 姚登舉, 楊靜, 詹曉娟. 基于隨機森林的特征選擇算法[J]. 吉林大學學報:工學版, 2014, 44(1):137-141.
[10]Wu Q Y, Ye Y M, Liu Y, et al. SNP selection and classification of genome-wide SNP data using stratified sampling random forests[J].IEEE Transactions on Nanobioscience,2012,11(3):216-227.
[11]王正鵬, 謝志鵬, 邱培超.語義關(guān)系相似度計算中的數(shù)據(jù)標準化方法比較[J].計算機工程,2012, 38(10):38-40.
[12]Zhao M J, Edakunni N, Pocock A, et al. Beyond Fano’s inequality: bounds on the optimal F-score, BER, and cost-sensitive risk and their implications[J]. Journal of Machine Learning Research, 2013, 14:1033-1090.
[13]陶曉玲,韋毅,孔德艷,等.基于本體的網(wǎng)絡(luò)流量分類方法[J].計算機工程與設(shè)計,2016,37(1):31-36.
[14]苗煜飛,張霄宏.決策樹C4.5算法的優(yōu)化與應(yīng)用[J].計算機工程與應(yīng)用, 2015, 51(13):255-258.
[責任編輯 尚 晶]
Prediction for high-value mobile communication users based on efficient feature selection
YuZilin,ZhangXiaolong
(1.College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China; 2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan University of Science and Technology, Wuhan 430065, China)
The prediction of high-value mobile communication user is an important part of telecom customer relationship management. This paper proposed a predicting method based on efficient feature selection to solve such problems as high dimension, large scale and imbalanced classes in data processing. With balanced training sets extracted from an initial imbalanced dataset using under-sampling, a feature selection strategy based on Pearson correlation analysis and random forest method assessing the feature’s importance was applied and the best feature subset was selected by embedding weighted and voting mechanism in the ensemble learning method. The final prediction model was built by random forest algorithm. Experimental results show that the proposed model not only reduces the dimension of feature set efficiently, but also improves its prediction performance for high-value mobile communication users.
mobile communication user; imbalanced dataset; feature selection; Pearson correlation analysis; random forest; prediction model
10.3969/j.issn.1674-3644.2017.02.013
2017-01-06
國家自然科學基金資助項目(60975031).
余自林(1989-),男,武漢科技大學碩士生.E-mail:1194561632@qq.com
張曉龍(1963-),男,武漢科技大學教授,博士生導師.E-mail:xiaolong.zhang@wust.edu.cn
TP181;TP391
A
1674-3644(2017)02-0149-06