• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的終端換機(jī)預(yù)測模型

      2020-05-14 00:44:28歐陽秀平萬源沅鄒俊德中國聯(lián)通廣東分公司廣東廣州510627
      郵電設(shè)計(jì)技術(shù) 2020年4期
      關(guān)鍵詞:換機(jī)查全率查準(zhǔn)率

      歐陽秀平,萬源沅,鄒俊德(中國聯(lián)通廣東分公司,廣東廣州 510627)

      1 概述

      對于運(yùn)營商,終端營銷既可以為公司帶來終端收入,提升用戶價值[1],又可以通過終端合約等維系用戶在網(wǎng),減少用戶流失。預(yù)測用戶換機(jī)行為可以幫助運(yùn)營商向用戶精準(zhǔn)推薦相關(guān)終端活動,實(shí)現(xiàn)終端成本資源精準(zhǔn)投放,完善全省自有終端運(yùn)營體系,為5G 到來儲備終端運(yùn)營能力。當(dāng)前終端營銷主要通過業(yè)務(wù)規(guī)則等方法篩選目標(biāo)用戶,存在營銷成本高、成功率低、無法針對終端市場變化做出快速反應(yīng)等問題。因此,如何精準(zhǔn)預(yù)測用戶換機(jī)行為成為一個亟待解決的問題。

      根據(jù)用戶換機(jī)動機(jī)可以將用戶的換機(jī)行為劃分為品牌粉絲換機(jī)、常規(guī)性換機(jī)和偶發(fā)性換機(jī)3種,如圖1所示。

      圖1 終端換機(jī)用戶劃分

      a)品牌粉絲換機(jī)是指在品牌新機(jī)發(fā)布時購買新機(jī),或者因?yàn)楫?dāng)前同系列舊款機(jī)型降價促銷等原因,購買該品牌舊款機(jī)型。通過分析用戶歷史終端購買行為,可識別品牌粉絲用戶。針對此部分用戶,在該品牌終端新品發(fā)布時向其推薦相應(yīng)的機(jī)型,將會有較高的營銷轉(zhuǎn)化率。

      b)常規(guī)性換機(jī)是指用戶周期性的換機(jī)行為,而不是由于新機(jī)發(fā)布、終端活動或者終端損壞等突發(fā)性原因產(chǎn)生的換機(jī)行為。通過數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法甄別潛在換機(jī)用戶和用戶偏好的終端。本文主要研究分析這部分用戶。

      c)偶發(fā)性換機(jī)是指因?yàn)槭謾C(jī)丟失、損壞,或者因?yàn)榻K端促銷活動等外界突發(fā)因素影響而產(chǎn)生的換機(jī)行為。針對此部分換機(jī)用戶,目前尚無成熟的邏輯進(jìn)行預(yù)判,此部分用戶暫不納入終端預(yù)測模型當(dāng)中。

      為了對常規(guī)性換機(jī)用戶進(jìn)行精準(zhǔn)預(yù)測,必須解決以下2個問題。

      a)哪些用戶需要換機(jī)。針對此問題,基于機(jī)器學(xué)習(xí)算法建立模型,預(yù)測即將有換機(jī)行為的用戶,輸出用戶的換機(jī)概率,供業(yè)務(wù)部門綜合考慮觸點(diǎn)投放,根據(jù)用戶換機(jī)概率進(jìn)行營銷策略匹配。

      b)用戶需要換什么機(jī)型。決定用戶終端選擇的最重要的因素是終端品牌和價格,在篩選出潛在換機(jī)用戶的基礎(chǔ)上,進(jìn)一步預(yù)測用戶的終端品牌和價格傾向,可以給用戶推薦其偏好的終端,提高換機(jī)營銷轉(zhuǎn)化率,增加公司收入。

      本文主要貢獻(xiàn)如下:通過對用戶終端持有情況和終端換機(jī)情況進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)用戶終端選擇及換機(jī)規(guī)律等;建立算法模型,預(yù)測潛在換機(jī)用戶和用戶傾向的終端,為終端精準(zhǔn)營銷提供數(shù)據(jù)基礎(chǔ)。

      2 終端數(shù)據(jù)分析

      對用戶終端持有概況和終端換機(jī)概況2個方面的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)用戶換機(jī)和終端選擇的規(guī)律,為后文的模型建設(shè)提供數(shù)據(jù)分析基礎(chǔ)。

      2.1 終端持有概況分析

      根據(jù)用戶數(shù)占比,市場份額排名前3 的終端品牌分別為:蘋果(24.90%),華為(16.84%)和OPPO(16.82%)。其中,男性更偏好華為手機(jī),女性在OPPO和VIVO 手機(jī)中占比相對較高(見圖2)。用戶終端價格主要集中在1 000~2 000 和2 000~3 000 價格檔位(見圖3)。蘋果手機(jī)受到各個年齡段的喜愛,其中18~35 歲成年人是蘋果手機(jī)的主力消費(fèi)人群,未成年人更傾向于選擇VIVO 和OPPO 手機(jī),中老年人更偏愛華為手機(jī)(見圖4)。據(jù)此,可在終端營銷中向年輕女性推薦OPPO和VIVO手機(jī),向中年男性推薦華為手機(jī)。

      圖2 用戶終端品牌分布占比圖

      圖3 用戶終端價格分布占比圖

      圖4 分年齡段TOP3品牌

      2.2 終端換機(jī)概況分析

      用戶平均換機(jī)時間基本上穩(wěn)定在21.5 個月左右,22 歲以下的學(xué)生用戶平均終端換機(jī)周期相對較長(見圖5)。終端品牌選擇方面,采用保有率、換出率和換入率3 個指標(biāo)刻畫用戶換機(jī)時的品牌選擇,用戶換機(jī)時傾向于選擇原先使用的手機(jī)品牌,其中,蘋果手機(jī)保有率最好,50%以上的蘋果用戶在換機(jī)后仍會選擇蘋果終端。所以對于蘋果老用戶,可在營銷中直接向其推薦蘋果手機(jī)。蘋果、華為這2 個品牌的用戶存在10%~15%的流動性。OPPO、VIVO 和華為的用戶存在15%~20%的流動性(見圖6)。終端價格方面,用戶傾向于選擇與原手機(jī)同價格檔位的手機(jī)或者向更高價格檔位遷移,很少有用戶會選擇超低檔位的手機(jī)(見圖7)。

      圖5 不同年齡平均換機(jī)周期圖

      圖6 品牌保有、換入、換出率

      圖7 換機(jī)前后終端價格變化

      3 模型建立與應(yīng)用

      終端換機(jī)預(yù)測模型主要由數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練與驗(yàn)證、模型應(yīng)用4 部分組成(見圖8)。

      圖8 終端預(yù)測模型框架圖

      3.1 數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)預(yù)處理

      篩選出與用戶終端選擇相關(guān)的因子,并且參考前文中終端數(shù)據(jù)分析結(jié)論和相關(guān)終端換機(jī)論文[2],選取用戶基礎(chǔ)信息(例如年齡、性別、入網(wǎng)渠道)、終端信息(例如用戶上一次換機(jī)時間、當(dāng)前終端廠商、價格、型號、屏幕尺寸等)、使用量數(shù)據(jù)(例如通話時長、使用流量等)、賬務(wù)數(shù)據(jù)(例如用戶出賬收入等)、上網(wǎng)行為數(shù)據(jù)(例如購物類APP 使用次數(shù)、游戲類APP 使用次數(shù)等),加工成建模寬表。對數(shù)據(jù)進(jìn)行以下預(yù)處理。

      a)空值處理:對于空值達(dá)到50%以上的因子,認(rèn)為該因子數(shù)據(jù)質(zhì)量較差,放入模型中會影響模型的判斷,進(jìn)行剔除處理。對于通話次數(shù)、使用流量等數(shù)值為空的數(shù)據(jù),經(jīng)核查確認(rèn)該用戶沒有話單或者流量詳單,則將空值改為0。對于年齡等基礎(chǔ)信息類因子為空的值,用中位數(shù)填充。對于終端型號無法解析或者部分終端參數(shù)缺失的信息用“其他”代替[3]。

      b)異常值處理:對于不符合業(yè)務(wù)常識的數(shù)據(jù),例如性別中除了男、女之外的其他記錄,用“未知”進(jìn)行填充,例如年齡大于100 歲的用戶,用“未知”進(jìn)行填充;對于通話、流量等數(shù)值過大的數(shù)據(jù),用均值+標(biāo)準(zhǔn)差替代[4]。

      c)字符串處理:對字符型變量進(jìn)行one-hot-encoding編碼轉(zhuǎn)化。

      3.2 特征工程

      文獻(xiàn)[5]采用信息增益率挑選因子,信息增益率越大說明包含的可供分類決策的信息越多,信息增益率的計(jì)算過程如下。

      步驟1:計(jì)算信息增益。

      信息增益表示由于已知特征X的信息而致使Y的信息不確定性減少的程度。假定特征A對訓(xùn)練數(shù)據(jù)集D的信息增益為g(D,A),根據(jù)定義其值為集合D的熵H(D)與特征A給定條件D下的條件熵H(D|A)之差。

      數(shù)據(jù)集D的熵H(D)的定義如下:

      計(jì)算特征A對于訓(xùn)練集D的條件熵H(D|A),如式(3)所示。

      其中,|D|為樣本大小,假設(shè)有M個類Cm,m=1,2,…,M。|Cm|為屬于類Cm的樣本個數(shù)。設(shè)變量A的取值有n個,根據(jù)變量A的取值把集合D劃分為n個子集D1,D2,…,Dn。Dim為子集Di中屬于類Cm的集合。

      步驟2:計(jì)算信息增益率。

      信息增益率為特征A對訓(xùn)練數(shù)據(jù)集D的信息增益,如式(4)所示。

      其中,HA(D)=,n是特征A的數(shù)量。

      根據(jù)信息增益率篩選出平均換機(jī)時長、上一次換機(jī)時間、終端品牌、終端價格、電池容量、屏幕尺寸、出賬收入等20個因子放入模型。

      3.3 模型訓(xùn)練與驗(yàn)證

      通過機(jī)器學(xué)習(xí)算法建立終端換機(jī)和終端偏好模型。終端換機(jī)模型用于預(yù)測用戶在未來3個月的換機(jī)概率,終端偏好模型用于預(yù)測用戶換機(jī)時品牌和價格檔位的選擇傾向。通過使用決策樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等單模型算法和隨機(jī)森林、lightGBM、Xgboost 等集成學(xué)習(xí)算法進(jìn)行訓(xùn)練,綜合考慮模型的查全率和查準(zhǔn)率,選取效果最優(yōu)的算法。終端換機(jī)模型最終選擇Xgboost 算法進(jìn)行訓(xùn)練,終端偏好模型最終選擇lightGBM 算法。為了保證訓(xùn)練的準(zhǔn)確性和穩(wěn)定性,防止過度擬合,對模型進(jìn)行如下處理。

      a)樣本平衡:因?yàn)閾Q機(jī)用戶僅占訓(xùn)練樣本的一小部分(約6%),如果不進(jìn)行樣本平衡處理,模型預(yù)測將傾向于在訓(xùn)練樣本中占比較大的一類。針對此問題,對于負(fù)樣本(非換機(jī)用戶)進(jìn)行欠采樣處理[6-10],并且調(diào)整正負(fù)樣本比例(在1∶1~1∶4),根據(jù)模型結(jié)果選擇最優(yōu)的正負(fù)樣本比例,本文最終采用正負(fù)樣本比例為1∶2。

      b)交叉驗(yàn)證:這里用10 折交叉驗(yàn)證[11],即將數(shù)據(jù)集分為10 份,輪流將其中9 份作為訓(xùn)練數(shù)據(jù),1 份作為測試數(shù)據(jù),進(jìn)行訓(xùn)練,綜合之后,使模型具有較高的準(zhǔn)確性和穩(wěn)定性[12]。

      c)列采樣:對模型進(jìn)行列采樣,從M個因子中隨機(jī)選取m個(m<M),避免模型在個別因子上產(chǎn)生過度擬合[13]。

      d)剪枝:根據(jù)樣本數(shù)和因子數(shù)設(shè)置剪枝規(guī)則,設(shè)置通過最末端葉子節(jié)點(diǎn)的最小樣本數(shù)為20,這樣既保證了模型的準(zhǔn)確性,又避免出現(xiàn)過度擬合。

      這里引入查準(zhǔn)率和查全率來評估模型[14],查準(zhǔn)率用于衡量模型的準(zhǔn)確性,查全率用于衡量模型的覆蓋率。以換機(jī)模型為例,查準(zhǔn)率和查全率的定義如下,終端偏好模型的查全率和查準(zhǔn)率計(jì)算公式以此類推。

      查準(zhǔn)率=預(yù)測換機(jī)且實(shí)際換機(jī)的用戶數(shù)/預(yù)測換機(jī)的用戶數(shù)

      查全率=預(yù)測換機(jī)且實(shí)際換機(jī)的用戶數(shù)/實(shí)際換機(jī)的用戶數(shù)

      通過平移時間窗口的方法,計(jì)算測試時間內(nèi)模型的查準(zhǔn)率和查全率,據(jù)此評估模型的穩(wěn)定性。最終統(tǒng)計(jì)出來終端換機(jī)模型查準(zhǔn)率為50%左右,查全率為40%左右,每月預(yù)計(jì)輸出數(shù)據(jù)量為80 萬左右;在換機(jī)模型的基礎(chǔ)上,終端偏好模型的查全率查準(zhǔn)率均為40%,模型的準(zhǔn)確率和覆蓋率均較好。

      3.4 模型應(yīng)用

      針對模型輸出的潛在換機(jī)用戶,根據(jù)用戶換機(jī)后品牌和價位選擇傾向,匹配相應(yīng)的終端政策(見表1),將結(jié)果反饋給精準(zhǔn)營銷平臺,對用戶進(jìn)行精準(zhǔn)營銷。模型應(yīng)用之后,終端營銷轉(zhuǎn)化率由原先的3%提升至4.5%,模型應(yīng)用效果顯著。

      表1 終端預(yù)測模型輸出及營銷策略匹配示例表

      4 運(yùn)營商終端大數(shù)據(jù)預(yù)測展望

      技術(shù)方面,隨著用戶終端類數(shù)據(jù)的積累,可以使用協(xié)同過濾等推薦系統(tǒng)算法對用戶偏好的終端型號和終端活動進(jìn)行預(yù)測和精準(zhǔn)推薦。此外,用戶的換機(jī)行為會隨著當(dāng)前終端市場不斷變化,因此模型需具備自迭代框架,對數(shù)據(jù)預(yù)處理、特征選擇、算法選擇、模型訓(xùn)練等流程進(jìn)行自動化能力封裝,這樣才可以適應(yīng)不斷變化的市場,自動調(diào)優(yōu)。

      業(yè)務(wù)方面,5G 即將來臨,移動終端的形態(tài)正在經(jīng)歷變革,智能手環(huán)、手表等可穿戴設(shè)備正不斷涌現(xiàn)[15]。泛終端的發(fā)展將是未來運(yùn)營商終端營銷的重要著力點(diǎn),未來可深入挖掘泛終端用戶特征,對泛終端潛在用戶進(jìn)行精準(zhǔn)預(yù)測,搶占5G終端市場。

      5 總結(jié)

      終端業(yè)務(wù)既可以為公司帶來終端收入,還會對用戶維系產(chǎn)生影響,對運(yùn)營商具有重要意義。本文通過數(shù)據(jù)分析尋找用戶終端選擇和換機(jī)規(guī)律,基于機(jī)器學(xué)習(xí)等大數(shù)據(jù)預(yù)測技術(shù)精準(zhǔn)預(yù)測用戶在未來3個月?lián)Q機(jī)概率和終端選擇傾向。模型投產(chǎn)后終端營銷轉(zhuǎn)化率由原先的3%提升至4.5%,應(yīng)用效果顯著。后續(xù)將進(jìn)一步優(yōu)化模型預(yù)測技術(shù),開發(fā)模型自迭代框架,實(shí)現(xiàn)模型自動調(diào)優(yōu),以適應(yīng)不斷變化的終端市場,并且將終端分析及預(yù)測技術(shù)投入泛終端領(lǐng)域中,在5G 時代,為泛終端營銷提供決策依據(jù)。

      猜你喜歡
      換機(jī)查全率查準(zhǔn)率
      海量圖書館檔案信息的快速檢索方法
      基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
      基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
      基于Web的概念屬性抽取的研究
      锡林郭勒盟| 横峰县| 东丽区| 三穗县| 宕昌县| 湟源县| 全椒县| 西和县| 昌都县| 江源县| 石棉县| 正定县| 东平县| 北流市| 九龙城区| 通州市| 辰溪县| 武功县| 南涧| 交口县| 得荣县| 梁河县| 桃园县| 临漳县| 襄垣县| 高安市| 永顺县| 色达县| 贺州市| 社旗县| 南昌市| 平阳县| 鲁山县| 莱西市| 武义县| 中阳县| 衢州市| 宜城市| 建湖县| 台中市| 岫岩|