喬陽 吳平
【摘要】寬帶客戶流失是我國電信企業(yè)發(fā)展中所面臨的一個(gè)嚴(yán)重的問題,為此需要在客戶流失之前作出預(yù)測,并通過相應(yīng)營銷手段挽留客戶,文章通過數(shù)據(jù)挖掘技術(shù)建立客戶流失預(yù)測模型,以此獲取即將離網(wǎng)的用戶。
【關(guān)鍵詞】數(shù)據(jù)挖掘;客戶流失;預(yù)測模型
前言
客戶流失是指客戶停止使用原有的產(chǎn)品或服務(wù),或轉(zhuǎn)而使用競爭對(duì)手的產(chǎn)品或服務(wù)。近年來,伴隨著我國經(jīng)濟(jì)的發(fā)展以及科技的不斷進(jìn)步,使得公司之間的競爭日趨激烈,客戶選擇產(chǎn)品及產(chǎn)家的余地越來越大,同時(shí)越來越注重服務(wù)等附加值,客戶流失正日益成為全球企業(yè)面臨的一個(gè)普遍性問題?;诖?,下文就這一客戶流失問題進(jìn)行分析。
一、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining 簡稱DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它可應(yīng)用于企業(yè)經(jīng)營中,按照企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助企業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性的先進(jìn)有效的方法。在客戶關(guān)系管理中應(yīng)用數(shù)據(jù)挖掘的目的是為了提高市場決策能力和檢測異常模式及在過去的經(jīng)驗(yàn)基礎(chǔ)上預(yù)言未來趨勢(shì)等。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個(gè)不同領(lǐng)域和階段。在CPM系統(tǒng)中企業(yè)得擁有一個(gè)保存著所有客戶的合同信息,并且還應(yīng)有相應(yīng)的市場競爭對(duì)手的相關(guān)數(shù)據(jù)的大型數(shù)據(jù)庫,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速作出商業(yè)決策,并在更新數(shù)據(jù)的同時(shí)發(fā)掘更好的行為模式,從而運(yùn)用于未來的決策當(dāng)中。
二、相關(guān)定義
1.客戶流失的定義與原因分類??蛻袅魇е恢缚蛻粢?yàn)槟承┰蚺c電信運(yùn)營商解除服務(wù)合同的行為。客戶解除服務(wù)合同的原因有多種多樣,但歸納起來主要有如下幾類:(1)自然流失:是指客戶因?yàn)槠髽I(yè)不能給提供所期望的產(chǎn)品和服務(wù)(如不能提供寬帶上網(wǎng)功能等)或者某些客觀因素 (如到異地工作或下崗等)而選擇離網(wǎng)所導(dǎo)致的客戶流失。(2)惡意流失:是指客戶因?yàn)閭€(gè)人私欲因素(如惡意欠費(fèi)后為了逃避繳費(fèi)等)而選擇離網(wǎng)所導(dǎo)致的客戶流失。(3)競爭流失:是指客戶因?yàn)槠髽I(yè)競爭對(duì)手因素 (如競爭對(duì)手提供了更優(yōu)惠的資費(fèi)政策)而選擇離網(wǎng)所導(dǎo)致的客戶流失。(4)失望流失:是指客戶因?yàn)槠髽I(yè)服務(wù)質(zhì)量因素(如網(wǎng)絡(luò)覆蓋或服務(wù)態(tài)度等)而選擇離網(wǎng)所導(dǎo)致的客戶流失。
2.流失客戶的定義。流失客戶一般定義為具有離網(wǎng)傾向,且在未來很短的一段時(shí)間(如一周或一個(gè)月)內(nèi)極可能真正離網(wǎng)的在網(wǎng)客戶。依據(jù)上述流失客戶的一般定義,結(jié)合對(duì)已有離網(wǎng)客戶的特征分析發(fā)現(xiàn),如果一個(gè)客戶連續(xù)三個(gè)月沒有通話記錄和出帳記錄,則其離網(wǎng)的概率將非常大。因此,在2009年11月進(jìn)行的客戶維系與挽留二期工程的實(shí)施試點(diǎn)中,我們將流失客戶的具體定義為:上月有通話和出帳記錄,但經(jīng)過預(yù)測,下個(gè)月將不會(huì)產(chǎn)生通話或出帳記錄的客戶。
三、基于數(shù)據(jù)挖掘技術(shù)的客戶流失預(yù)測系統(tǒng)實(shí)現(xiàn)
1.客戶流失類型??蛻袅魇闆r分為主動(dòng)離網(wǎng)流失、被動(dòng)離網(wǎng)流失和潛在話務(wù)流失三類,其中主動(dòng)離網(wǎng)流失是客戶主動(dòng)辦理拆機(jī)銷戶手續(xù)轉(zhuǎn)入他網(wǎng)的流失。被動(dòng)離網(wǎng)流失是客戶由于已經(jīng)轉(zhuǎn)入他網(wǎng)但并未辦理相關(guān)手續(xù),造成客戶欠費(fèi)停機(jī)、或成為零次戶(即通話次數(shù)為零的客戶)。潛在話務(wù)流失是由于客戶使用意愿的轉(zhuǎn)移而明顯減少使用業(yè)務(wù)導(dǎo)致該客戶雖然保持在網(wǎng)但話務(wù)量(通話使用量)出現(xiàn)大幅度下降。主動(dòng)離網(wǎng)流失和被動(dòng)離網(wǎng)流失是一種可測量的流失現(xiàn)象,而潛在話務(wù)流失由于很難度量客戶使用量是否由于使用意愿的轉(zhuǎn)換導(dǎo)致,而相對(duì)比較難測量。
2.預(yù)測分析的流程
1)數(shù)據(jù)采集。數(shù)據(jù)采集對(duì)象主要包括用戶數(shù)據(jù)和話單數(shù)據(jù),計(jì)費(fèi)側(cè)數(shù)據(jù)庫在一定周期內(nèi)產(chǎn)生用戶數(shù)據(jù)和話單數(shù)據(jù)(含通話、短信、數(shù)據(jù)增值業(yè)務(wù)及用戶狀態(tài)變更Log),采集目的是將上述數(shù)據(jù)分類導(dǎo)入數(shù)據(jù)倉庫的用戶原始數(shù)據(jù)庫。
2)數(shù)據(jù)清洗。數(shù)據(jù)清洗主要在用戶原始數(shù)據(jù)庫中根據(jù)各類算法的需要挑選合適的數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為算法所需的格式并建立數(shù)據(jù)集市。
3)模型訓(xùn)練。模型訓(xùn)練是發(fā)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的過程,它主要通過挑選已知結(jié)果的數(shù)據(jù),即已發(fā)生流失用戶的相關(guān)數(shù)據(jù),輸入算法模型進(jìn)行計(jì)算分析(此過程稱為訓(xùn)練,所挑選的數(shù)據(jù)稱為訓(xùn)練集),通過挑選合適數(shù)量進(jìn)行訓(xùn)練后即可獲取一個(gè)符合當(dāng)前數(shù)據(jù)集合的算法參數(shù)模型。
4)模型測試。模型測試是通過選取一定數(shù)量的已知結(jié)果的數(shù)據(jù)作為測試集,并對(duì)訓(xùn)練過程中或已訓(xùn)練完成的算法模型進(jìn)行測試,通常做法為邊訓(xùn)練邊測試。
5)數(shù)據(jù)分析。數(shù)據(jù)分析是在模型訓(xùn)練并測試完成后,輸入未知結(jié)果的數(shù)據(jù),即需要預(yù)測離網(wǎng)可能性的客戶數(shù)據(jù),并最終得出用戶是否會(huì)離網(wǎng)或離網(wǎng)概率。
6)結(jié)果處理。根據(jù)預(yù)測結(jié)果確定針對(duì)客戶群的政策導(dǎo)向,如采用多種算法進(jìn)行預(yù)測,則需要制定規(guī)則確定對(duì)不同算法得出的預(yù)測離網(wǎng)用戶集合的處理方式,同時(shí)針對(duì)每個(gè)預(yù)測離網(wǎng)用戶的不同情況給出相應(yīng)的處理建議并最終建立專門的數(shù)據(jù)庫記錄每次預(yù)測分析的情況。
3.算法選擇。選擇合適的算法是數(shù)據(jù)挖掘系統(tǒng)的關(guān)鍵,國內(nèi)外學(xué)者針對(duì)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行電信客戶流失分析已有相當(dāng)程度研究,使用相對(duì)較多的算法有人工神經(jīng)網(wǎng)絡(luò)、決策樹及貝葉斯定理等,其中普遍結(jié)論以決策樹及人工神經(jīng)網(wǎng)絡(luò)算法相對(duì)準(zhǔn)確率較高。由于預(yù)測無法做到絕對(duì)的準(zhǔn)確,所以通過各類適用算法得出的客戶流失預(yù)測結(jié)果必然不盡相同,使用單一算法命中率并不高,一對(duì)一營銷的指導(dǎo)意義也相對(duì)較弱。因此,在硬件資源相對(duì)富裕的情況下,建議通過多種算法分別分析再將結(jié)果按照一定的規(guī)律進(jìn)行組合來提高預(yù)測的準(zhǔn)確率,如采用人工神經(jīng)網(wǎng)絡(luò)、決策樹及貝葉斯分類器分別得出預(yù)測結(jié)論,在不考慮客戶保留成本的情況下,可以通過并集的方式得出最終需要進(jìn)行政策維系的客戶群,反之可通過交集的方式得出。當(dāng)然也可通過各類算法所需求的輸入數(shù)據(jù)不一致的情況,通過不同算法進(jìn)行互補(bǔ),如決策樹模型對(duì)于數(shù)值類參數(shù)(如網(wǎng)間通話數(shù)、每月充值費(fèi)用等)分析不盡完全,人工神經(jīng)網(wǎng)絡(luò)算法則可進(jìn)行彌補(bǔ)。
4.關(guān)鍵問題及解決辦法。1)在客戶分群的研究中,客戶隨著時(shí)間的變化分群業(yè)產(chǎn)生變化,從靜態(tài)的角度進(jìn)行客戶的分群容易導(dǎo)致分群不適應(yīng)實(shí)際結(jié)果,而且客戶在不同群之間的漂移過程研究對(duì)深入了解客戶的行為也具有重要作用,同一樣本客戶在不同月份消費(fèi)行為也存在一定的差異。解決辦法:針對(duì)不同用戶群的典型時(shí)間周期確定不同的訓(xùn)練集,并每隔一個(gè)時(shí)間周期就對(duì)客戶進(jìn)行重新建模分群,以更新客戶分群以符合實(shí)際情況。另外針對(duì)合理周期內(nèi)可能發(fā)生了特殊事件,進(jìn)行單獨(dú)建模以防止其對(duì)正確模型的歪曲。2)預(yù)測結(jié)果僅僅得出流失客戶的名單,客戶離網(wǎng)的原因缺乏系統(tǒng)性的分析和市場調(diào)查,導(dǎo)致很多流失預(yù)測不能對(duì)電信企業(yè)的經(jīng)營活動(dòng)帶來實(shí)實(shí)在在的效果。解決辦法:通過決策樹這種白盒模型,記錄每個(gè)預(yù)測離網(wǎng)用戶完成預(yù)測的路徑,對(duì)其離網(wǎng)原因作出相應(yīng)解釋并給出有針對(duì)性的維系手段。
結(jié)語
綜上所述,數(shù)據(jù)挖掘技術(shù)在電信寬帶客戶流失預(yù)測中的應(yīng)用是數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)統(tǒng)計(jì)預(yù)測分析方面的典型應(yīng)用,也是目前市場的熱點(diǎn),在商業(yè)環(huán)境日益復(fù)雜,競爭日益激烈,增量用戶越來越少的情況下,該技術(shù)的優(yōu)勢(shì)會(huì)得到進(jìn)一步的發(fā)揮。
參考文獻(xiàn)
[1]王燕莉,安世全.數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信中的應(yīng)用[J].中國數(shù)據(jù)通信,2004.
[2]郭明.鄭惠莉.基于數(shù)據(jù)挖掘的電信客戶流失分析[D].南京:南京郵電大學(xué),2005.