李京文, 畢佳佳
(安徽職業(yè)技術(shù)學(xué)院,安徽 合肥 230011)
近年來,隨著生活水平的提升、手機(jī)品牌的不斷更新,用戶更換手機(jī)的頻率日益頻繁。移動用戶更換手機(jī)終端的原因通常有被動換機(jī)、常規(guī)換機(jī)以及潛在換機(jī)等。商家要及時(shí)抓住潛在換機(jī)的用戶,對這部分用戶進(jìn)行精準(zhǔn)營銷,推薦潛在換機(jī)用戶喜歡的終端類型,提升用戶的價(jià)值,提高營業(yè)收入[1]。因此,對潛在換機(jī)的用戶進(jìn)行準(zhǔn)確地識別是非常有必要的。
隨著用戶量的增加,傳統(tǒng)的統(tǒng)計(jì)分析方法已不足以分析出換機(jī)用戶的規(guī)律,越來越多的人員開始將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到終端換機(jī)上來,不僅能提高挖掘的效率,還能提高識別的準(zhǔn)確率。
本文從用戶基本信息、消費(fèi)信息、交友圈信息、上網(wǎng)信息等數(shù)據(jù)中進(jìn)行挖掘分析,采用決策樹算法C5.0[2],建立了終端換機(jī)預(yù)測模型,為手機(jī)精準(zhǔn)營銷提供有效的數(shù)據(jù)支撐。
終端換機(jī)預(yù)測主要是根據(jù)移動用戶的消費(fèi)行為,準(zhǔn)確預(yù)測出有潛在換機(jī)傾向的用戶,將該種用戶清單進(jìn)行輸出,并進(jìn)行手機(jī)終端的精準(zhǔn)營銷。因此,預(yù)測模型首先要根據(jù)用戶的歷史數(shù)據(jù)確定目標(biāo)用戶的類別,即換機(jī)用戶和非換機(jī)用戶,分別用1和0進(jìn)行表示。本文將終端換機(jī)預(yù)測問題轉(zhuǎn)化成一個(gè)二分類模型,通過歷史數(shù)據(jù)建立終端換機(jī)預(yù)測模型,將即將要換機(jī)的用戶預(yù)測出來。
本文的總體思路是先對原始數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)變換、特征選擇等處理,之后將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集采用決策樹算法C5.0建立模型,并通過測試集評估結(jié)果對不同的抽樣方法進(jìn)行了對比,通過不斷迭代優(yōu)化,輸出最優(yōu)模型。終端換機(jī)預(yù)測模型流程圖請見圖1。
圖1 終端換機(jī)預(yù)測模型的流程圖
本文中所使用的數(shù)據(jù)主要提取于某運(yùn)營商的真實(shí)的業(yè)務(wù)數(shù)據(jù)。主要抽取用戶的基本信息、基本消費(fèi)信息、上網(wǎng)信息、手機(jī)終端信息等,并進(jìn)行初步的探索。
用戶的基本信息數(shù)據(jù)中主要包含了用戶入網(wǎng)時(shí)的基本資料,如手機(jī)號碼、性別、年齡、網(wǎng)齡等。終端信息主要是指用戶當(dāng)前所用手機(jī)終端的基本信息,如手機(jī)像素、內(nèi)存、歷史終端使用及變更情況、平均終端更換時(shí)長等。上網(wǎng)信息主要包含了用戶使用流量、通話次數(shù)、出賬話費(fèi)等信息。數(shù)據(jù)結(jié)構(gòu)如表1所列,其中最后一個(gè)字段“if_hj”是用戶是否換機(jī)的標(biāo)志,也是本文建立終端換機(jī)模型的目標(biāo)列。
表1 終端換機(jī)數(shù)據(jù)信息表
續(xù)表1 終端換機(jī)數(shù)據(jù)信息表
(1)缺失值處理。缺失數(shù)據(jù)會影響模型的效果,因此在建模之前需要對數(shù)據(jù)進(jìn)行探索,查詢出缺失值并進(jìn)行處理。經(jīng)探索發(fā)現(xiàn),本文中的數(shù)據(jù)中只有一個(gè)字段net_age(網(wǎng)齡)具有極少量缺失值,由于缺失值比例很小,本文采取了直接刪除法,將net_age字段缺失的記錄進(jìn)行刪除。
(2) 異常值處理。異常值可能由于人為在輸入系統(tǒng)的時(shí)候出現(xiàn)的錯(cuò)誤,使得數(shù)據(jù)值不在正常范圍內(nèi)。在對異常值處理前,先對數(shù)據(jù)進(jìn)行異常值檢測,通常使用單變量散點(diǎn)圖或者箱圖實(shí)現(xiàn),把遠(yuǎn)離正常范圍的點(diǎn)確定為異常值。
經(jīng)過分析后,原字段中只有“age”字段具有極少量異常值,范圍為小于10歲和大于120歲的人群。由于有異常值的數(shù)據(jù)記錄條數(shù)極少,因此本文直接刪除這些異常記錄。
(1)特征構(gòu)造。在數(shù)據(jù)挖掘的過程中,為了便于提取更有用的信息,挖掘更深層次的模式,提高挖掘結(jié)果的精度,需要根據(jù)數(shù)據(jù)中已有的基礎(chǔ)特征構(gòu)造出延伸特征,加入到現(xiàn)有的特征集合中,組成新的特征集合。
本文根據(jù)基礎(chǔ)特征構(gòu)造了3個(gè)新特征,分別是“3個(gè)月使用流量均值”“3個(gè)月出賬費(fèi)均值”“3個(gè)月通話次數(shù)均值”,通過平均值特征更能體現(xiàn)出用戶的行為特點(diǎn)。
(2)數(shù)據(jù)離散化。在分類算法中,連續(xù)屬性過多,或者連續(xù)屬性的范圍大、連續(xù)性高,在建模時(shí)容易產(chǎn)生過擬合現(xiàn)象[3]。過擬合現(xiàn)象即建立的算法模型過于擬合于訓(xùn)練數(shù)據(jù)集,在訓(xùn)練數(shù)據(jù)集上的準(zhǔn)確率極高,而在測試集上的準(zhǔn)確率卻很低,無法對未來數(shù)據(jù)進(jìn)行正確預(yù)測。
本文在探索數(shù)據(jù)分布后,將所有數(shù)據(jù)進(jìn)行離散化處理。離散化規(guī)則是查看每個(gè)特征字段不同范圍內(nèi)的換機(jī)比例,將換機(jī)比例相近的范圍歸為一類,類別統(tǒng)一用數(shù)字表示。以“年齡”特征離散化為例,離散化過程為:
步驟1:計(jì)算不同年齡范圍的換機(jī)占比分布。
其中,hj_percentage為在此年齡范圍內(nèi)的換機(jī)占比;hj_count為在此年齡范圍中的換機(jī)人數(shù);total_count為在此年齡范圍內(nèi)的所有人群。
步驟2:根據(jù)換機(jī)占比分類并歸類。
根據(jù)不同年齡范圍的換機(jī)占比,本文將年齡分為6類:16~20歲為第1類,20~35歲為第2類,35~45歲為第3類,45~50歲為第4類,50~60歲為第5類,60歲以上為第6類。
其他特征字段處理方式和年齡字段相同。在離散化過程中,要靈活并多次調(diào)整每次查看換機(jī)占比的當(dāng)前字段的范圍,最終讓不同類別下的換機(jī)占比差別最大,這樣會大大提高模型的準(zhǔn)確性。
在數(shù)據(jù)挖掘建模時(shí),一般盡可能選擇完整的數(shù)據(jù)建立模型,包括特征種類和數(shù)值完整度。然而,并不是特征越多建模效果越好。特征的好壞取決于它與目標(biāo)變量的相關(guān)性和與其他變量的冗余度。因此在特征選擇的時(shí)候可以“最大相關(guān)性最小冗余度”[4]為目標(biāo)來進(jìn)行降維。即選取的建模特征,與目標(biāo)變量相關(guān)性大,特征之間相關(guān)性小、相互獨(dú)立。
本文計(jì)算了各個(gè)特征與目標(biāo)變量的相關(guān)性及特征之間的冗余度,將相關(guān)性較小的一些特征字段刪除。對于冗余性較高的特征之間,保留其中一個(gè)特征。經(jīng)過計(jì)算處理之后,對于表1中的原始特征,刪除了“flow_used1”、“flow_used2”、“flow_used3”、“arpu_1”、“arpu_2”、“arpu_3”、“call_times1”、“call_times2”、“call_times3”、“MainCameraPixel”10個(gè)特征。最終利用余下的15個(gè)特征字段和1個(gè)目標(biāo)變量(if_hj)建立終端換機(jī)預(yù)測模型。
在模型算法選擇上,本文選取了一種改進(jìn)的決策樹算法C5.0進(jìn)行模型訓(xùn)練。C5.0是一種高度自動化學(xué)習(xí)過程的算法,可以實(shí)現(xiàn)對決策樹自動剪枝,可應(yīng)用于大數(shù)據(jù)集中,是一種效果較好的決策樹算法。
本文提取的某月數(shù)據(jù)作為訓(xùn)練集,約300萬條,用下一個(gè)月數(shù)據(jù)作為測試集,約700萬條。選擇C5.0分類算法在訓(xùn)練集上建立分類模型,然后在測試集上進(jìn)行預(yù)測并計(jì)算模型性能。評估參數(shù)為查準(zhǔn)率和查全率[5]。定義如下:
在數(shù)據(jù)挖掘中,查準(zhǔn)率和查準(zhǔn)率的關(guān)系是此消彼長的,但是要盡量提升兩者,在其中找到一個(gè)平衡。通常采用兩者的調(diào)和平均值作為評估整個(gè)模型性能的標(biāo)準(zhǔn)。
C5.0決策樹模型性能結(jié)果如表2所列,其中正樣本代表換機(jī)標(biāo)簽為1。
表2 C5.0模型驗(yàn)證結(jié)果
從表2中可以看出,C5.0決策樹模型4在潛在換機(jī)用戶的查準(zhǔn)率和査全率上整體效果比其他模型更好。因此,本文最終采用C5.0決策樹算法,訓(xùn)練樣本取100萬,正樣本比例取45%建立決策樹分類模型??紤]到換機(jī)營銷推薦的廣度,傾向保障查全率高的方式分析,同時(shí)盡可能提高查準(zhǔn)率,據(jù)此生成本次的預(yù)測結(jié)果集。
針對終端換機(jī)的精準(zhǔn)營銷場景,將大數(shù)據(jù)算法應(yīng)用在移動通信數(shù)據(jù)中,建立終端換機(jī)預(yù)測模型。本文結(jié)合數(shù)據(jù)特點(diǎn)對數(shù)據(jù)進(jìn)行清洗、特征工程、特征選擇,采用C5.0機(jī)器學(xué)習(xí)算法建立預(yù)測模型,輸出有潛在換機(jī)傾向的用戶清單,為商家對手機(jī)終端的精準(zhǔn)營銷提供了輔助決策。在以后的優(yōu)化中,可以添加更全的變量并通過合適的特征選擇后建模,能使模型的查準(zhǔn)率和查全率得到很大的提高。
安徽水利水電職業(yè)技術(shù)學(xué)院學(xué)報(bào)2022年1期