鄧森文, 馬溪駿
(合肥工業(yè)大學(xué)管理學(xué)院,安徽合肥 230009)
近年來,客戶流失已成為全球電信企業(yè)面臨的一個(gè)普遍性問題。目前對電信業(yè)客戶流失預(yù)測問題的研究十分廣泛,運(yùn)用最廣泛的是決策樹算法[1]。決策樹算法建模簡單、分類準(zhǔn)確率高,而且能導(dǎo)出簡明易懂的諸如 If-Then形式的分類規(guī)則,但也有一定的缺點(diǎn),此外,很多專家對Logistic回歸、人工神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)等方法[2-5]也進(jìn)行了研究,但是整個(gè)神經(jīng)網(wǎng)絡(luò)的分析過程是一個(gè)不透明的“黑盒子”,無法展現(xiàn)可讀的模型,每階段的加權(quán)與轉(zhuǎn)換亦不明確顯示,所以神經(jīng)網(wǎng)絡(luò)大多數(shù)都用于處理高度非線性且變量有相當(dāng)程度交互效應(yīng)的數(shù)據(jù)。
利用Cox生存分析建模算法預(yù)測客戶流失問題有以下優(yōu)點(diǎn):①既考慮危險(xiǎn)(流失)事件“發(fā)生”或“不發(fā)生”的結(jié)局,也充分利用生存時(shí)間的信息;②能夠處理刪失數(shù)據(jù)。在生存分析中,觀測期截止時(shí)尚未流失的客戶可以作為刪失樣本進(jìn)入模型,從而提高了模型的實(shí)效性,且有利于模型的實(shí)時(shí)更新。鑒于此,本文利用Cox生存分析建模算法,把已有數(shù)據(jù)分為訓(xùn)練樣本和測試樣本。通過訓(xùn)練樣本,利用偏最大似然參數(shù)估計(jì)方法計(jì)算出模型中每個(gè)屬性的系數(shù)的估計(jì)值,建立模型,然后計(jì)算測試樣本中每個(gè)客戶的生存概率,按生存概率從小到大進(jìn)行排序,等分為10組,計(jì)算第1組包含流失的客戶百分比,這個(gè)比值越高,模型的效果就越好。這樣建立的基于電信行業(yè)客戶流失的預(yù)測模型,可以大大提高預(yù)測準(zhǔn)確率,為電信企業(yè)的客戶保持和客戶挽留提供有力的決策支持。
生存時(shí)間測量某事件出現(xiàn)的時(shí)間,通常用生存函數(shù)、概率密度函數(shù)和危險(xiǎn)率函數(shù)來描述。三者在數(shù)學(xué)上是等價(jià)的,得出其中1個(gè),就可以推導(dǎo)出另2個(gè)。
生存函數(shù)(survival function),又稱累計(jì)生存率,是指個(gè)體生存時(shí)間大于t的概率,即
其中,F(t)指個(gè)體的生存時(shí)間T的分布函數(shù)。
概率密度函數(shù)(probability density function),又稱作密度函數(shù),該函數(shù)的圖形為密度曲線,在任何時(shí)間區(qū)間內(nèi)死亡的比例和死亡出現(xiàn)的機(jī)會峰值均可從密度曲線找出,函數(shù)表達(dá)式為:
危險(xiǎn)率函數(shù)(hazard function),又稱為風(fēng)險(xiǎn)函數(shù)、瞬間死亡率、死亡強(qiáng)度、條件死亡率、危險(xiǎn)率等,危險(xiǎn)率函數(shù)是生存分析最基本的函數(shù),即
對于危險(xiǎn)率函數(shù),有:
Cox模型[6-8]在表達(dá)形式上與參數(shù)模型相似,但對各參數(shù)進(jìn)行估計(jì)時(shí)又不依賴特定分布的假設(shè),所以又稱為半?yún)?shù)回歸模型。當(dāng)生存時(shí)間是連續(xù)分布且預(yù)后變量間相互作用可被忽視時(shí),危險(xiǎn)率函數(shù)h(t)為:
其中,h0為基準(zhǔn)的生存分布的危險(xiǎn)率函數(shù);β為回歸系數(shù);x為預(yù)后變量,即為協(xié)變量。由于Cox模型的假設(shè),每個(gè)預(yù)后變量的危險(xiǎn)率在時(shí)間上正比于基準(zhǔn)危險(xiǎn)率h0,從而無需計(jì)算h0,使用起來非常方便。這時(shí),相應(yīng)的生存函數(shù)為:
其中,S0(t)為t時(shí)刻的基準(zhǔn)生存函數(shù)。
在時(shí)間t和協(xié)變量X的作用下,個(gè)體風(fēng)險(xiǎn)函數(shù)相對于基準(zhǔn)風(fēng)險(xiǎn)函數(shù)之比與時(shí)間無關(guān),不隨時(shí)間t的變化而變化;而基準(zhǔn)風(fēng)險(xiǎn)函數(shù)h0(t)只與時(shí)間t有關(guān),不受X的影響。Cox模型不僅可以分析各協(xié)變量對生存時(shí)間的影響,而且對基準(zhǔn)風(fēng)險(xiǎn)分布不作任何要求,就可以處理時(shí)變協(xié)變量。
本文利用中國移動(dòng)通信行業(yè)某分公司的客戶進(jìn)行實(shí)證研究。為了避免學(xué)生畢業(yè)和民工返鄉(xiāng)造成的無法挽留的客戶流失,本文采集了2007年1月到2007年6月的數(shù)據(jù),其中1~4月為數(shù)據(jù)觀測期,該期間的客戶基本資料、通話記錄、賬單等轉(zhuǎn)化為屬性后作為模型的輸入變量,6月份的流失數(shù)據(jù)作為模型的輸出。為了更好地刻畫客戶的消費(fèi)行為,本文引入月均話費(fèi)、月均短信費(fèi)用等[9]一些衍生的屬性。
根據(jù)本文算法,生存分析中變量主要分為3類:生存時(shí)間 T、刪失變量C及表示相關(guān)因素的協(xié)變量X。其中生存時(shí)間 T定義為客戶從開戶到流失或者刪失的時(shí)間,以月為單位。由于電信行業(yè)客戶不像其它行業(yè)的產(chǎn)品有固定的截止日期,只要到觀測期結(jié)束還沒有流失的樣本都是刪失樣本。因此,如果客戶到2007年6月份還沒有流失,則定義為刪失樣本,C=0,否則,對于已經(jīng)觀測到流失的客戶,C=1;影響流失行為的協(xié)變量總共為12個(gè),定義為 x1~x12。
經(jīng)過數(shù)據(jù)清洗與處理,從數(shù)據(jù)庫中得到159177個(gè)資料完整的客戶樣本,其中流失客戶數(shù)為14776個(gè),流失客戶占比為9.28%。然后按照1∶1左右的比例劃分訓(xùn)練樣本集和驗(yàn)證樣本集,其中,訓(xùn)練樣本集包含72843個(gè)客戶樣本,流失客戶數(shù)為7482個(gè);驗(yàn)證樣本集包含86334個(gè)客戶樣本,流失客戶數(shù)為7294個(gè)。
數(shù)據(jù)集中的屬性較多,其中有些屬性可能與客戶流失的相關(guān)性較大,而有些可能與客戶流失無關(guān),而且有些屬性之間存在強(qiáng)相關(guān)關(guān)系,即冗余屬性,因此要對屬性進(jìn)行約簡。本文使用Pearson相關(guān)系數(shù)檢驗(yàn)、Kendall′s tau-b及 Spearman秩次相關(guān)系數(shù)[3]來檢驗(yàn)2個(gè)變量之間的相關(guān)性,以此來消除冗余。
Pearson檢驗(yàn)2個(gè)變量之間是否存在線性相關(guān)關(guān)系,如果變量 X與變量Y呈完全正線性相關(guān)關(guān)系,則該系數(shù)等于1;如果變量X與變量Y呈完全負(fù)線性相關(guān)關(guān)系,則該系數(shù)等于-1;如果變量X與變量Y沒有任何線性相關(guān)關(guān)系,則該系數(shù)等于0,用公式表示為:
與Pearson不同,Spearman只檢驗(yàn)變量間的單調(diào)關(guān)系,而不強(qiáng)調(diào)線性相關(guān),如果該系數(shù)等于1,說明變量Y是變量X的完全增函數(shù),但并不表示變量X和變量Y之間有任何線性相關(guān)關(guān)系,用公式表示為:
其中,對于(x1,y1)和(x2,y2),定義
則
Kendall′s tau-b是一種對2個(gè)有序變量或2個(gè)秩變量間的關(guān)系程度的測度,因此也屬于一種非參測度,其表達(dá)式為:
根據(jù)以上3種檢驗(yàn)方法,計(jì)算各協(xié)變量與客戶流失相關(guān)性的檢驗(yàn)結(jié)果見表1所列。表1中 x1~x12對應(yīng)的屬性分別為:x1,年齡;x2,性別;x3,區(qū)域;x4是否有聯(lián)系方式;x5,是否本地身份證;x6,總欠費(fèi)次數(shù);x7,呼叫次數(shù);x8,月均短信費(fèi)用;x9,月均總費(fèi)用;x10,平均開通業(yè)務(wù)數(shù);x11,是否漫游;x12,信用度。
從表1可知,3種檢驗(yàn)方法的結(jié)果基本一致。在0.05的顯著性水平下,年齡、是否有聯(lián)系方式、是否本地身份證、呼叫次數(shù)、月均短信費(fèi)用、月均總費(fèi)用、平均開通業(yè)務(wù)數(shù)等7個(gè)屬性與客戶流失有顯著的負(fù)相關(guān)關(guān)系;總欠費(fèi)次數(shù)與客戶流失有顯著的正相關(guān)關(guān)系;性格、是否漫游、信用度和區(qū)域等4個(gè)屬性與客戶流失的關(guān)系不顯著。取線性關(guān)系最強(qiáng)的8個(gè)變量作為模型的最終協(xié)變量。通過基于累計(jì)風(fēng)險(xiǎn)函數(shù)圖示法來檢驗(yàn)[10],以上篩選出來的8個(gè)協(xié)變量都滿足PH假定。
表1 各協(xié)變量與客戶流失相關(guān)性檢驗(yàn)結(jié)果
根據(jù)(7)式,利用偏最大似然參數(shù)估計(jì)方法(Partial Maximum Likelihood)估計(jì)系數(shù)β。本文使用SPSS[6]統(tǒng)計(jì)軟件,利用上述篩選出來的8個(gè)變量對訓(xùn)練樣本進(jìn)行擬合。參數(shù)估計(jì)結(jié)果見表2所列。
表2 模型中8個(gè)協(xié)變量的估計(jì)結(jié)果
從表2可以看出,8個(gè)預(yù)測協(xié)變量都在0.01置信水平上顯著;自由度為1;回歸系數(shù)標(biāo)準(zhǔn)誤差都很小,說明用這些屬性來預(yù)測客戶流失的可靠性是比較大的。
年齡、是否有聯(lián)系方式、是否本地身份證、月均短信費(fèi)用、月均開通業(yè)務(wù)數(shù)的系數(shù)均為負(fù)值,表明與客戶流失負(fù)相關(guān);欠費(fèi)次數(shù)、月均呼叫次數(shù)、月均總費(fèi)用的系數(shù)均為正值,表明與客戶流失正相關(guān)。
在建立模型后,將測試樣本的預(yù)測變量值帶入模型,根據(jù)生存概率公式計(jì)算可以得到每個(gè)客戶在2007年6月份的生存概率,然后按客戶生存函數(shù)排序,將樣本客戶按照其在特定時(shí)點(diǎn)的預(yù)測生存概率從小到大排序,等分為若干組,比較各組中在預(yù)測的時(shí)間點(diǎn)之前流失的客戶數(shù)量,如果模型預(yù)測能力足夠強(qiáng),該時(shí)間點(diǎn)越靠前,即預(yù)測生存概率值越小的組中實(shí)際流失客戶數(shù)應(yīng)該越多。
本文按預(yù)測的客戶流失率大小等分為10組,然后計(jì)算每組中客戶流失數(shù),如果模型的預(yù)測效果很好,則每組的客戶流失數(shù)應(yīng)該遞減,且區(qū)別較大。而前面幾組中包含的實(shí)際流失的客戶占流失客戶總數(shù)的百分比越高,說明模型預(yù)測能力越好,也越實(shí)用。按照上述方法進(jìn)行分類,結(jié)果見表3所列。
表3 按概率排序分類結(jié)果
從表3可以看出,改變預(yù)測模型確實(shí)能夠?qū)⒖蛻袅魇拾创笮∮行У貐^(qū)別開,在選取的2007年6月份這個(gè)時(shí)間點(diǎn)上,生存函數(shù)預(yù)測值最小的一組包含89.35%的流失客戶,前2組基本上能涵蓋94.61%以上的流失客戶,并且第1組總共有8633個(gè)客戶,流失客戶數(shù)占75.49%。因此,利用 Cox模型,用預(yù)測生存概率最小的前10%的客戶就能包含89%以上的實(shí)際流失客戶,這樣,只要集中資源對這10%的客戶采取有效的針對性維護(hù)措施,就有可能挽留住絕大部分可能流失的客戶,從而提高資源利用率,最大程度降低客戶流失率。
實(shí)證結(jié)果表明,本文所使用的客戶流失預(yù)測模型的預(yù)測效果是令人滿意的。
本文基于Cox生存分析方法的客戶流失預(yù)測模型在實(shí)際應(yīng)用中還需要及時(shí)更新,因?yàn)槟P偷挠?xùn)練是基于一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)進(jìn)行的。該模型往往只代表了一段時(shí)間內(nèi)用戶的消費(fèi)習(xí)慣和消費(fèi)結(jié)構(gòu),因此用模型預(yù)測時(shí),其時(shí)效性是明顯的。當(dāng)市場環(huán)境、用戶的行為發(fā)生改變時(shí),模型也需要及時(shí)更新,使用新的數(shù)據(jù)進(jìn)行訓(xùn)練,不斷進(jìn)行修正和完善以保證其有效性,隨著訓(xùn)練樣本的增大,本模型在預(yù)測命中率和預(yù)測覆蓋率方面還有待于進(jìn)一步提高。
[1]盛昭瀚,柳炳祥.客戶流失危機(jī)分析的決策樹方法[J].管理科學(xué)學(xué)報(bào),2005,8(2):20-25.
[2]王 雷,陳松林,顧學(xué)道.客戶流失預(yù)警模型及其在電信企業(yè)的應(yīng)用[J].電信科學(xué),2006,22(9):47-51.
[3]夏國恩,陳 云,金煒東.電信企業(yè)客戶流失預(yù)測模型[J].統(tǒng)計(jì)與決策,2006,(20):163-164.
[4]賈 琳,李 明.基于數(shù)據(jù)挖掘的電信客戶流失模型的建立與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(4):185-187.
[5]Mozer M C.Predicting subscriber dissatisfaction and improving retention in the wierless telecommunications industry[C]//IEEE Trans on Neural Networks,2000,11(3):690-699.
[6]盧紋岱.SPSS for Windows統(tǒng)計(jì)分析[M].第 3版.北京:電子工業(yè)出版社,2006:571-578.
[7]余紅梅.Cox比例危險(xiǎn)回歸模型診斷及預(yù)測有關(guān)問題的研究[D].西安:第四軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)研究室,1998.
[8]Cox D R.Regression models and life-tables(with discussion)[J].Journal of the Royal Statistical Society:Series B,1972,74:187-220.
[9]劉紹清,黃章樹.生存分析在電信增值服務(wù)行業(yè)客戶流失分析中的應(yīng)用[J].廣州大學(xué)學(xué)報(bào):自然科學(xué)版,2006,5(6):33-36.
[10]余紅梅,何大為.檢查Cox模型比例風(fēng)險(xiǎn)假定的幾種圖示法[J].中國衛(wèi)生統(tǒng)計(jì),2000,17(4):215-218.