歐陽秀平,萬源沅,鄒俊德(中國聯(lián)通廣東分公司,廣東廣州 510627)
對于運(yùn)營商,終端營銷既可以為公司帶來終端收入,提升用戶價值[1],又可以通過終端合約等維系用戶在網(wǎng),減少用戶流失。預(yù)測用戶換機(jī)行為可以幫助運(yùn)營商向用戶精準(zhǔn)推薦相關(guān)終端活動,實(shí)現(xiàn)終端成本資源精準(zhǔn)投放,完善全省自有終端運(yùn)營體系,為5G 到來儲備終端運(yùn)營能力。當(dāng)前終端營銷主要通過業(yè)務(wù)規(guī)則等方法篩選目標(biāo)用戶,存在營銷成本高、成功率低、無法針對終端市場變化做出快速反應(yīng)等問題。因此,如何精準(zhǔn)預(yù)測用戶換機(jī)行為成為一個亟待解決的問題。
根據(jù)用戶換機(jī)動機(jī)可以將用戶的換機(jī)行為劃分為品牌粉絲換機(jī)、常規(guī)性換機(jī)和偶發(fā)性換機(jī)3種,如圖1所示。
圖1 終端換機(jī)用戶劃分
a)品牌粉絲換機(jī)是指在品牌新機(jī)發(fā)布時購買新機(jī),或者因?yàn)楫?dāng)前同系列舊款機(jī)型降價促銷等原因,購買該品牌舊款機(jī)型。通過分析用戶歷史終端購買行為,可識別品牌粉絲用戶。針對此部分用戶,在該品牌終端新品發(fā)布時向其推薦相應(yīng)的機(jī)型,將會有較高的營銷轉(zhuǎn)化率。
b)常規(guī)性換機(jī)是指用戶周期性的換機(jī)行為,而不是由于新機(jī)發(fā)布、終端活動或者終端損壞等突發(fā)性原因產(chǎn)生的換機(jī)行為。通過數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法甄別潛在換機(jī)用戶和用戶偏好的終端。本文主要研究分析這部分用戶。
c)偶發(fā)性換機(jī)是指因?yàn)槭謾C(jī)丟失、損壞,或者因?yàn)榻K端促銷活動等外界突發(fā)因素影響而產(chǎn)生的換機(jī)行為。針對此部分換機(jī)用戶,目前尚無成熟的邏輯進(jìn)行預(yù)判,此部分用戶暫不納入終端預(yù)測模型當(dāng)中。
為了對常規(guī)性換機(jī)用戶進(jìn)行精準(zhǔn)預(yù)測,必須解決以下2個問題。
a)哪些用戶需要換機(jī)。針對此問題,基于機(jī)器學(xué)習(xí)算法建立模型,預(yù)測即將有換機(jī)行為的用戶,輸出用戶的換機(jī)概率,供業(yè)務(wù)部門綜合考慮觸點(diǎn)投放,根據(jù)用戶換機(jī)概率進(jìn)行營銷策略匹配。
b)用戶需要換什么機(jī)型。決定用戶終端選擇的最重要的因素是終端品牌和價格,在篩選出潛在換機(jī)用戶的基礎(chǔ)上,進(jìn)一步預(yù)測用戶的終端品牌和價格傾向,可以給用戶推薦其偏好的終端,提高換機(jī)營銷轉(zhuǎn)化率,增加公司收入。
本文主要貢獻(xiàn)如下:通過對用戶終端持有情況和終端換機(jī)情況進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)用戶終端選擇及換機(jī)規(guī)律等;建立算法模型,預(yù)測潛在換機(jī)用戶和用戶傾向的終端,為終端精準(zhǔn)營銷提供數(shù)據(jù)基礎(chǔ)。
對用戶終端持有概況和終端換機(jī)概況2個方面的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)用戶換機(jī)和終端選擇的規(guī)律,為后文的模型建設(shè)提供數(shù)據(jù)分析基礎(chǔ)。
根據(jù)用戶數(shù)占比,市場份額排名前3 的終端品牌分別為:蘋果(24.90%),華為(16.84%)和OPPO(16.82%)。其中,男性更偏好華為手機(jī),女性在OPPO和VIVO 手機(jī)中占比相對較高(見圖2)。用戶終端價格主要集中在1 000~2 000 和2 000~3 000 價格檔位(見圖3)。蘋果手機(jī)受到各個年齡段的喜愛,其中18~35 歲成年人是蘋果手機(jī)的主力消費(fèi)人群,未成年人更傾向于選擇VIVO 和OPPO 手機(jī),中老年人更偏愛華為手機(jī)(見圖4)。據(jù)此,可在終端營銷中向年輕女性推薦OPPO和VIVO手機(jī),向中年男性推薦華為手機(jī)。
圖2 用戶終端品牌分布占比圖
圖3 用戶終端價格分布占比圖
圖4 分年齡段TOP3品牌
用戶平均換機(jī)時間基本上穩(wěn)定在21.5 個月左右,22 歲以下的學(xué)生用戶平均終端換機(jī)周期相對較長(見圖5)。終端品牌選擇方面,采用保有率、換出率和換入率3 個指標(biāo)刻畫用戶換機(jī)時的品牌選擇,用戶換機(jī)時傾向于選擇原先使用的手機(jī)品牌,其中,蘋果手機(jī)保有率最好,50%以上的蘋果用戶在換機(jī)后仍會選擇蘋果終端。所以對于蘋果老用戶,可在營銷中直接向其推薦蘋果手機(jī)。蘋果、華為這2 個品牌的用戶存在10%~15%的流動性。OPPO、VIVO 和華為的用戶存在15%~20%的流動性(見圖6)。終端價格方面,用戶傾向于選擇與原手機(jī)同價格檔位的手機(jī)或者向更高價格檔位遷移,很少有用戶會選擇超低檔位的手機(jī)(見圖7)。
圖5 不同年齡平均換機(jī)周期圖
圖6 品牌保有、換入、換出率
圖7 換機(jī)前后終端價格變化
終端換機(jī)預(yù)測模型主要由數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練與驗(yàn)證、模型應(yīng)用4 部分組成(見圖8)。
圖8 終端預(yù)測模型框架圖
篩選出與用戶終端選擇相關(guān)的因子,并且參考前文中終端數(shù)據(jù)分析結(jié)論和相關(guān)終端換機(jī)論文[2],選取用戶基礎(chǔ)信息(例如年齡、性別、入網(wǎng)渠道)、終端信息(例如用戶上一次換機(jī)時間、當(dāng)前終端廠商、價格、型號、屏幕尺寸等)、使用量數(shù)據(jù)(例如通話時長、使用流量等)、賬務(wù)數(shù)據(jù)(例如用戶出賬收入等)、上網(wǎng)行為數(shù)據(jù)(例如購物類APP 使用次數(shù)、游戲類APP 使用次數(shù)等),加工成建模寬表。對數(shù)據(jù)進(jìn)行以下預(yù)處理。
a)空值處理:對于空值達(dá)到50%以上的因子,認(rèn)為該因子數(shù)據(jù)質(zhì)量較差,放入模型中會影響模型的判斷,進(jìn)行剔除處理。對于通話次數(shù)、使用流量等數(shù)值為空的數(shù)據(jù),經(jīng)核查確認(rèn)該用戶沒有話單或者流量詳單,則將空值改為0。對于年齡等基礎(chǔ)信息類因子為空的值,用中位數(shù)填充。對于終端型號無法解析或者部分終端參數(shù)缺失的信息用“其他”代替[3]。
b)異常值處理:對于不符合業(yè)務(wù)常識的數(shù)據(jù),例如性別中除了男、女之外的其他記錄,用“未知”進(jìn)行填充,例如年齡大于100 歲的用戶,用“未知”進(jìn)行填充;對于通話、流量等數(shù)值過大的數(shù)據(jù),用均值+標(biāo)準(zhǔn)差替代[4]。
c)字符串處理:對字符型變量進(jìn)行one-hot-encoding編碼轉(zhuǎn)化。
文獻(xiàn)[5]采用信息增益率挑選因子,信息增益率越大說明包含的可供分類決策的信息越多,信息增益率的計(jì)算過程如下。
步驟1:計(jì)算信息增益。
信息增益表示由于已知特征X的信息而致使Y的信息不確定性減少的程度。假定特征A對訓(xùn)練數(shù)據(jù)集D的信息增益為g(D,A),根據(jù)定義其值為集合D的熵H(D)與特征A給定條件D下的條件熵H(D|A)之差。
數(shù)據(jù)集D的熵H(D)的定義如下:
計(jì)算特征A對于訓(xùn)練集D的條件熵H(D|A),如式(3)所示。
其中,|D|為樣本大小,假設(shè)有M個類Cm,m=1,2,…,M。|Cm|為屬于類Cm的樣本個數(shù)。設(shè)變量A的取值有n個,根據(jù)變量A的取值把集合D劃分為n個子集D1,D2,…,Dn。Dim為子集Di中屬于類Cm的集合。
步驟2:計(jì)算信息增益率。
信息增益率為特征A對訓(xùn)練數(shù)據(jù)集D的信息增益,如式(4)所示。
其中,HA(D)=,n是特征A的數(shù)量。
根據(jù)信息增益率篩選出平均換機(jī)時長、上一次換機(jī)時間、終端品牌、終端價格、電池容量、屏幕尺寸、出賬收入等20個因子放入模型。
通過機(jī)器學(xué)習(xí)算法建立終端換機(jī)和終端偏好模型。終端換機(jī)模型用于預(yù)測用戶在未來3個月的換機(jī)概率,終端偏好模型用于預(yù)測用戶換機(jī)時品牌和價格檔位的選擇傾向。通過使用決策樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等單模型算法和隨機(jī)森林、lightGBM、Xgboost 等集成學(xué)習(xí)算法進(jìn)行訓(xùn)練,綜合考慮模型的查全率和查準(zhǔn)率,選取效果最優(yōu)的算法。終端換機(jī)模型最終選擇Xgboost 算法進(jìn)行訓(xùn)練,終端偏好模型最終選擇lightGBM 算法。為了保證訓(xùn)練的準(zhǔn)確性和穩(wěn)定性,防止過度擬合,對模型進(jìn)行如下處理。
a)樣本平衡:因?yàn)閾Q機(jī)用戶僅占訓(xùn)練樣本的一小部分(約6%),如果不進(jìn)行樣本平衡處理,模型預(yù)測將傾向于在訓(xùn)練樣本中占比較大的一類。針對此問題,對于負(fù)樣本(非換機(jī)用戶)進(jìn)行欠采樣處理[6-10],并且調(diào)整正負(fù)樣本比例(在1∶1~1∶4),根據(jù)模型結(jié)果選擇最優(yōu)的正負(fù)樣本比例,本文最終采用正負(fù)樣本比例為1∶2。
b)交叉驗(yàn)證:這里用10 折交叉驗(yàn)證[11],即將數(shù)據(jù)集分為10 份,輪流將其中9 份作為訓(xùn)練數(shù)據(jù),1 份作為測試數(shù)據(jù),進(jìn)行訓(xùn)練,綜合之后,使模型具有較高的準(zhǔn)確性和穩(wěn)定性[12]。
c)列采樣:對模型進(jìn)行列采樣,從M個因子中隨機(jī)選取m個(m<M),避免模型在個別因子上產(chǎn)生過度擬合[13]。
d)剪枝:根據(jù)樣本數(shù)和因子數(shù)設(shè)置剪枝規(guī)則,設(shè)置通過最末端葉子節(jié)點(diǎn)的最小樣本數(shù)為20,這樣既保證了模型的準(zhǔn)確性,又避免出現(xiàn)過度擬合。
這里引入查準(zhǔn)率和查全率來評估模型[14],查準(zhǔn)率用于衡量模型的準(zhǔn)確性,查全率用于衡量模型的覆蓋率。以換機(jī)模型為例,查準(zhǔn)率和查全率的定義如下,終端偏好模型的查全率和查準(zhǔn)率計(jì)算公式以此類推。
查準(zhǔn)率=預(yù)測換機(jī)且實(shí)際換機(jī)的用戶數(shù)/預(yù)測換機(jī)的用戶數(shù)
查全率=預(yù)測換機(jī)且實(shí)際換機(jī)的用戶數(shù)/實(shí)際換機(jī)的用戶數(shù)
通過平移時間窗口的方法,計(jì)算測試時間內(nèi)模型的查準(zhǔn)率和查全率,據(jù)此評估模型的穩(wěn)定性。最終統(tǒng)計(jì)出來終端換機(jī)模型查準(zhǔn)率為50%左右,查全率為40%左右,每月預(yù)計(jì)輸出數(shù)據(jù)量為80 萬左右;在換機(jī)模型的基礎(chǔ)上,終端偏好模型的查全率查準(zhǔn)率均為40%,模型的準(zhǔn)確率和覆蓋率均較好。
針對模型輸出的潛在換機(jī)用戶,根據(jù)用戶換機(jī)后品牌和價位選擇傾向,匹配相應(yīng)的終端政策(見表1),將結(jié)果反饋給精準(zhǔn)營銷平臺,對用戶進(jìn)行精準(zhǔn)營銷。模型應(yīng)用之后,終端營銷轉(zhuǎn)化率由原先的3%提升至4.5%,模型應(yīng)用效果顯著。
表1 終端預(yù)測模型輸出及營銷策略匹配示例表
技術(shù)方面,隨著用戶終端類數(shù)據(jù)的積累,可以使用協(xié)同過濾等推薦系統(tǒng)算法對用戶偏好的終端型號和終端活動進(jìn)行預(yù)測和精準(zhǔn)推薦。此外,用戶的換機(jī)行為會隨著當(dāng)前終端市場不斷變化,因此模型需具備自迭代框架,對數(shù)據(jù)預(yù)處理、特征選擇、算法選擇、模型訓(xùn)練等流程進(jìn)行自動化能力封裝,這樣才可以適應(yīng)不斷變化的市場,自動調(diào)優(yōu)。
業(yè)務(wù)方面,5G 即將來臨,移動終端的形態(tài)正在經(jīng)歷變革,智能手環(huán)、手表等可穿戴設(shè)備正不斷涌現(xiàn)[15]。泛終端的發(fā)展將是未來運(yùn)營商終端營銷的重要著力點(diǎn),未來可深入挖掘泛終端用戶特征,對泛終端潛在用戶進(jìn)行精準(zhǔn)預(yù)測,搶占5G終端市場。
終端業(yè)務(wù)既可以為公司帶來終端收入,還會對用戶維系產(chǎn)生影響,對運(yùn)營商具有重要意義。本文通過數(shù)據(jù)分析尋找用戶終端選擇和換機(jī)規(guī)律,基于機(jī)器學(xué)習(xí)等大數(shù)據(jù)預(yù)測技術(shù)精準(zhǔn)預(yù)測用戶在未來3個月?lián)Q機(jī)概率和終端選擇傾向。模型投產(chǎn)后終端營銷轉(zhuǎn)化率由原先的3%提升至4.5%,應(yīng)用效果顯著。后續(xù)將進(jìn)一步優(yōu)化模型預(yù)測技術(shù),開發(fā)模型自迭代框架,實(shí)現(xiàn)模型自動調(diào)優(yōu),以適應(yīng)不斷變化的終端市場,并且將終端分析及預(yù)測技術(shù)投入泛終端領(lǐng)域中,在5G 時代,為泛終端營銷提供決策依據(jù)。