師江波
(昆明理工大學信息與自動化學院,云南昆明650051)
隨著4G時代的來臨,通信行業(yè)即將獲得更廣闊的發(fā)展空間和潛力,在實際的生產運營過程中,數(shù)據(jù)業(yè)務收入已經逐漸躍居收入第二,僅次于語音收入,因此數(shù)據(jù)業(yè)務得到了運營商越來越多的關注,而數(shù)據(jù)業(yè)務的營銷依然停留在傳統(tǒng)的營銷方式,如通過調查資料、客服外呼營銷等方式,屬于一種普遍撒網(wǎng)式的營銷,這種營銷方式成本高,周期長,客戶真正的響應率低。
用戶對數(shù)據(jù)業(yè)務的使用都或多或少的與用戶消費行為以及用戶背景信息有關聯(lián),而數(shù)據(jù)挖掘技術就可以找到這種聯(lián)系,發(fā)現(xiàn)其中的規(guī)律。由此本文以彩鈴為例,利用決策樹算法對該數(shù)據(jù)業(yè)務的精確營銷進行指導,通過挖掘當前彩鈴用戶特征,即具有什么行為特點的人可能會開通彩鈴,進而鎖定彩鈴營銷的潛在客戶群,再對預測名單內的用戶進行主動營銷,降低了營銷成本,提高了營銷的響應率。
決策樹很擅長處理非數(shù)值型數(shù)據(jù),免去了很多數(shù)據(jù)預處理工作。常用的算法有CHAID、CART、Quest和C5.0,本文采用目前較成熟的C5.0算法。C5.0是經典的決策樹算法,相比CART樹只能生成二叉樹來說,C5.0算法可生成多分支的決策樹,目標變量即為分類變量,最后可以生成樹狀圖或者規(guī)則集。C5.0根據(jù)能夠帶來最大信息增益的字段拆分樣本,第一次拆分確定的樣本子集隨后再次拆分,通常是根據(jù)另一個字段進行拆分,其中數(shù)值型字段被劃分成區(qū)間,字符型字段被組織成集合,這一過程重復進行直到樣本子集不能再被拆分為止。最后,重新檢驗最低層次的拆分,支持的事例數(shù)過少或者支持的概率較低的樣本子集(即決策樹葉子)將被剔除或者修剪。
決策樹用樣本的屬性作為節(jié)點,用屬性的取值作為分支的樹結構,是利用信息論原理對大量樣本的屬性進行分析和歸納而產生的。
信息論中的信息熵H(U):信息量的數(shù)學期望,是信源發(fā)出信息前的平均不確定性,也稱先驗熵;
設S是一個樣本集合,目標變量C有k個分類,freq(Ci,S)表示S中屬于Ci類的樣本數(shù),|S|表示樣本集合S的樣本數(shù)。則集合S的信息熵定義為:
利用決策樹算法,將彩鈴客戶消費屬性和客戶背景屬性一起作為決策樹的輸入屬性,將彩鈴用戶和非彩鈴用戶按照某種比例組合作為預測的訓練數(shù)據(jù)。決策樹算法是一種“有指導”的歸納學習,通過大量數(shù)據(jù)的學習歸納出預測規(guī)則集,即我們要研究的問題是:什么樣的人可能是潛在的彩鈴客戶,而什么樣的人可能不是潛在的彩鈴客戶。
決策樹的輸入屬性由兩部分組成,一部分是對彩鈴消費產生較大影響的客戶消費行為屬性,如:區(qū)內時長、區(qū)間時長、國內普通長途時長、國內IP長途時長等;另一部分是客戶基本信息,包括年齡、性別、套餐、是否市區(qū)等。將兩部分信息整合在一起作為彩鈴預測的輸入屬性,屬性列表如表1(表中簡列出部分屬性)所示,其中“是否彩鈴用戶”,是輸出屬性,即預測的目標屬性值。
表1 部分屬性值
從彩鈴目標客戶中隨機抽取其中3 545名客戶進行分析,再在非彩鈴用戶中隨機抽取9倍的數(shù)據(jù)共同組成數(shù)據(jù)訓練集,總共有35 450個用戶。數(shù)據(jù)處理流程如圖1。
圖1 數(shù)據(jù)處理流程
圖中,數(shù)據(jù)預處理是指數(shù)據(jù)訓練集通過匯總變換等方法處理成滿足屬性列表的所需信息;預處理后,計算所有屬性的條件熵、信息熵、信息增益,根據(jù)這些數(shù)值進一步計算出屬性的信息增益率以便完成決策樹的構造。決策樹的各部分是:
根:數(shù)據(jù)訓練集;
枝:分類的判定條件;
葉:分好的各個類;
最后使用IF-THEN語句表達規(guī)則集。
A={B}
A:B的集合,為根;
B:包括所有的訓練數(shù)據(jù)。
從根到葉子節(jié)點都有一條路徑,這條路徑就是一條“規(guī)則”:
IF A中的任一元素b同屬于同一個決策類則創(chuàng)建一個葉子 ;終止
ELSE 選擇特征C={C1,C2,C3,……Cn};判定節(jié)點
由此產生預測彩鈴開通的17條規(guī)則,(括號內數(shù)字代表支持該規(guī)則的實例數(shù))。這里列舉前幾個,其它類似。規(guī)則1開通彩鈴(329)if 區(qū)內時長 <=12
and區(qū)間時長 <=57
and增值收入 >3.440
and增值收入 <=8.960
and客戶品牌in["個人客戶""家庭客戶"]
and客戶消費額 >18.490 and客戶消費額 <=26.290
and工作日時長 >4.600 and市區(qū)郊縣 =郊縣
and年齡 >22 and年齡 <=49
and開通短信 =是and聯(lián)系人數(shù) <=25
then開通彩鈴
規(guī)則2開通彩鈴(63)
if國內IP長途時長 >1 and市區(qū)郊縣 =郊縣
and年齡 <=37 and開通短信 =是and性別 =女and漫游次數(shù) <=1 and聯(lián)系人數(shù) <=10
then開通彩鈴
我們可以從各規(guī)則中出現(xiàn)的屬性來判斷哪些屬性對彩鈴的開通有顯著的影響。分析這17個規(guī)則發(fā)現(xiàn),頻繁出現(xiàn)的屬性有:年齡、性別、聯(lián)系人數(shù)、短信是否開通、點對點次數(shù)、漫游次數(shù)、區(qū)內時長、忙時時長、增值收入、客戶消費額等。
例如規(guī)則3,彩鈴開通的客戶包括這樣一類人:IP長途時長大于1,37歲以下,開通短信,性別是男性,聯(lián)系人數(shù)24個的郊縣人群,支持這條規(guī)則的客戶有316個。
從規(guī)則看,客戶的年齡、性別、聯(lián)系人數(shù)、短信功能在預測彩鈴規(guī)則中起著重要的作用;進而可以分類出什么類型的人可能開通彩鈴,什么類型的人不可能開通。
評估環(huán)境:在Windows server 2003操作系統(tǒng)下,使用Microsoft SQL Server 2005作為數(shù)據(jù)庫平臺;SPSS Clementine數(shù)據(jù)挖掘軟件作為分析工具。
我們從兩方面的指標來評價,一是預測覆蓋率,二是預測命中率,如表2所示。其中A代表實際不開通,預測也不開通的用戶,B代表實際不開通而預測開通的用戶,C代表實際開通而預測不開通的用戶,D代表實際開通預測也開通的用戶。
表2 預測數(shù)據(jù)的覆蓋率和命中率
覆蓋率F:實際開通預測也開通的用戶在所有實際開通用戶中的占比。
命中率M:實際開通、預測也開通的用戶在所有預測為開通的用戶中的占比。
利用SPSS Clementine的分析節(jié)點對預測效果進行評估,輸入數(shù)據(jù)為未參與預測的70%樣本數(shù)據(jù)。跟蹤觀察結果如表3。
表3 預測結果跟蹤檢驗
經過規(guī)則集的判別后得到圖2的結果,總體正確率為89.57%,符合矩陣中行表示實際值,列表示預測值,0表示未開通彩鈴,1表示開通彩鈴,我們從符合矩陣中看到,預測開通彩鈴實際開通的用戶為606個,實際開通但預測不開通的用戶有1885個,實際不開通但預測開通彩鈴的用戶為699個,實際不開通預測也不開通彩鈴的有21 585個。根據(jù)上文對預測命中率和預測覆蓋率的定義,計算出覆蓋率為24.3%,命中率為46.4%,通俗的理解這個結果就是,用一半的準確率預測出四分之一的彩鈴用戶。預測效果基本滿意。
圖2 節(jié)點分析
我們跟蹤觀察預測名單內的客戶在今后幾個月時間內的彩鈴“自然開通率”(即非主動營銷開通率),通過判斷“自然開通率”來評價在實際環(huán)境中的應用價值。
幾個月后累計開通數(shù)為5 366,達到全部開通數(shù)的50%,但預測名單數(shù)卻只有37 059,只占全部總數(shù)的25%,如果這個結果是主動營銷的結果,那么預測分類讓營銷人員用25%的時間做了50%的工作。這就是精確營銷的意義和實際價值所在。
通過對真實數(shù)據(jù)的追蹤觀察結果表明,在真實的預測環(huán)境中能將預測準確率保持在較高的自然準確率。今后的工作包括:引進交叉銷售的理論,利用關聯(lián)規(guī)則等技術對彩鈴用戶進行分析,在不同的產品間以及不同的業(yè)務間進行交叉銷售模式的營銷;使其能更有效地運用于電信的其它業(yè)務領域,真正用于主動營銷指導中。
[1]Abdi Kerim,Chi ZX,Zhang CT.Data Warehouse Optimization Based on Multi-agents Jisuanji Jicheng Zhizao Xitong/Computer Integrated Manufacturing Systems[J].CIMS,2006,9(8):671 -673+697.
[2]曹忠升,薛梅艷.基于決策樹的軟件分類方法[J].計算機工程.2008(1):56-58.
[3]師江波,胡建華.基于數(shù)據(jù)挖掘的電信客戶流失預測分析[J].山西電子技術,2009(1):50-52.
[4]師江波.客戶細分在電信彩鈴營銷中的應用[D].昆明:昆明理工大學,2009.