李權(quán)
引言:本文對3G時(shí)代用戶的細(xì)分方法和3G目標(biāo)市場的定位作了初步的研究,提出了3G時(shí)代客戶識別數(shù)據(jù)挖掘模型,并采用BP神經(jīng)網(wǎng)絡(luò)和決策樹對該模型進(jìn)行驗(yàn)證,最后研究了3G目標(biāo)市場定位考慮的要素和初步的建議。
一、3G用戶細(xì)分體系架構(gòu)
用戶細(xì)分是3G業(yè)務(wù)開發(fā)及市場營銷的基礎(chǔ),用戶細(xì)分能夠使差異化成為可能,使運(yùn)營商提供的3G產(chǎn)品和服務(wù)能夠更有針對性。3G用戶細(xì)分方法的選擇直接決定了相關(guān)用戶細(xì)分結(jié)果的準(zhǔn)確性及實(shí)用性。對于3G用戶細(xì)分的體系搭建的思路是: 采用3 個(gè)緯度進(jìn)行用戶的細(xì)分,首先按照用戶價(jià)值緯度進(jìn)行用戶細(xì)分,然后再結(jié)合消費(fèi)行為緯度和消費(fèi)心理緯度細(xì)分用戶群。在3G用戶細(xì)分的體系架構(gòu)中,3個(gè)緯度的用戶細(xì)分依據(jù)、方法及應(yīng)用價(jià)值如表1 所示。
二、客戶識別分類模型
(一)數(shù)據(jù)抽取
本案例數(shù)據(jù)來源于某電信運(yùn)營公司,該數(shù)據(jù)總量為26000條。每一條對應(yīng)一個(gè)客戶近六個(gè)月的統(tǒng)計(jì)信息。其中已知分類(2G、3G)的為18000條,未知分類8000 條。其中包括客戶年齡,月平均消費(fèi)額,月平均通話時(shí)長等屬性250 個(gè)(包括客戶類型)。本例利用26000條已知分類的數(shù)據(jù)進(jìn)行分類模型的建立,隨機(jī)抽取訓(xùn)練數(shù)據(jù)10000條,測試數(shù)據(jù)8000條。
(二)數(shù)據(jù)預(yù)處理
上述采集的數(shù)據(jù)有數(shù)據(jù)多、數(shù)據(jù)取值范圍廣和數(shù)據(jù)取值類型多樣的特點(diǎn),因此必須在建模前對數(shù)據(jù)進(jìn)行預(yù)處理,如采集的樣本數(shù)據(jù)存在一些屬性值缺省或空值,如果不做處理,將直接影響后續(xù)算法的挖掘效果,嚴(yán)重時(shí)甚至得到錯(cuò)誤的結(jié)果。數(shù)據(jù)預(yù)處理包含數(shù)據(jù)清洗、屬性篩選、數(shù)據(jù)平衡、數(shù)據(jù)歸一化和離散化五個(gè)步驟。數(shù)據(jù)清洗分為類型轉(zhuǎn)換和缺失數(shù)據(jù)填補(bǔ)兩部分;屬性篩選分為人工篩選和通過相關(guān)系數(shù)分析實(shí)現(xiàn)屬性選擇兩部分;由于作為訓(xùn)練的18000條數(shù)據(jù)只有少數(shù)是3G用戶,這樣會導(dǎo)致模型輸出結(jié)果偏向判別為2G 客戶,因此必須通過數(shù)據(jù)平衡實(shí)現(xiàn)2、3G用戶數(shù)量達(dá)到1:1;為了提高BP 神經(jīng)網(wǎng)絡(luò)的性能,需要對數(shù)據(jù)進(jìn)行歸一化;對于決策樹算法,需要對數(shù)據(jù)進(jìn)行離散化,否則生產(chǎn)的決策樹將會過于茂盛,以至于無法分析。
三、客戶數(shù)據(jù)分類識別過程
本文分別采用BP 神經(jīng)網(wǎng)絡(luò)和決策樹進(jìn)行建模,實(shí)現(xiàn)對3G 客戶的分類識別。本案例運(yùn)用TipDM 數(shù)據(jù)挖掘在線建模平臺中的性分析進(jìn)行數(shù)據(jù)探索,再運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)和C4.5 決策樹進(jìn)行客戶識別。(一)模型輸入。本案例中,模型數(shù)據(jù)涉及客戶年齡、月平均通話時(shí)長和月平均消費(fèi)額等240多個(gè)屬性(包含客戶類型),模型輸入需將客戶識別樣本屬性表導(dǎo)入建模平臺中即可。(二)仿真識別過程。建模仿真過程說明如下:1.登錄TipDM 平臺,在方案管理頁面中,新建方案或者打開一個(gè)已建方案;2.切換到數(shù)據(jù)管理頁面,上傳經(jīng)預(yù)處理后的專家樣本數(shù)據(jù)文件;3.選擇相關(guān)性分析功能,導(dǎo)入樣本數(shù)據(jù)進(jìn)行相關(guān)性分析;4.分別選擇BP 神經(jīng)網(wǎng)絡(luò)算法和C4.5 決策樹算法,進(jìn)行模型構(gòu)建;5.對比BP 神經(jīng)網(wǎng)絡(luò)和C4.5 決策樹的建模結(jié)果,并選擇最優(yōu)算法;6.用最優(yōu)法對測試樣本進(jìn)行3G 客戶識別。(三)仿真結(jié)果分析。1.基于BP 神經(jīng)網(wǎng)絡(luò)的模型構(gòu)建。由于神經(jīng)網(wǎng)絡(luò)算法輸出結(jié)果受到訓(xùn)練次數(shù)影響,并伴隨一定的隨機(jī)性,多次實(shí)驗(yàn)得到的分類正確率如下表所示。
四、總結(jié)與建議
決策樹與BP神經(jīng)網(wǎng)絡(luò)對于3G客戶的識別正確率都接近80%,說明本用例建立的分類模型對3G客戶的敏感度比較高,基本能識別出3G用戶,能達(dá)到預(yù)期目標(biāo)。但是只看3G客戶的識別正確率是不科學(xué)的,還要看2G 客戶的識別正確率和總體識別正確率。從總體正確率看,BP 神經(jīng)網(wǎng)絡(luò)的正確率仍然比決策樹高近10%,BP神經(jīng)網(wǎng)絡(luò)無論是總體性能還是對局部分類的敏感度都表現(xiàn)不錯(cuò),而決策樹分類模型性能還有待提高。
雖然本例的客戶識別未能達(dá)到百分百地準(zhǔn)確,但從另外一個(gè)角度看,一味追求正確率并沒有太多意義。因?yàn)楸緛磉\(yùn)營商對各個(gè)用戶的類別就已經(jīng)作了登記,反而,我們或許能從客戶的誤識別中獲得更多信息。
本來是2G客戶,但被識別為3G客戶的用戶很有可能就是因?yàn)樗母黜?xiàng)屬性與3G客戶的相似,如月均網(wǎng)絡(luò)游戲游流量比較大,月均消費(fèi)額較高,說明這部分人客戶是有機(jī)會被發(fā)展成3G客戶,電信運(yùn)營商應(yīng)對這批客戶大力推銷3G應(yīng)用;而部分3G客戶被識別為2G客戶,很有可能是因?yàn)閷δ壳暗?G資費(fèi)或3G服務(wù)不滿意的客戶,他們對3G應(yīng)用并不感興趣,因此和3G用戶的特征不相符,這部分客戶很有可能在未來幾個(gè)月內(nèi)會流失,所以,電信運(yùn)營商應(yīng)更加關(guān)注這批客戶的情況,爭取減少客戶的離網(wǎng)率。
(作者單位:山西移動(dòng)通信有限公司朔州分公司)