張力元,王純(1 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點實驗室,北京 100876; 2 東信北郵信息技術(shù)有限公司,北京 100191)
運營商異網(wǎng)寬帶用戶識別模型設(shè)計與構(gòu)建*
張力元1,2,王純1,2
(1 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點實驗室,北京 100876; 2 東信北郵信息技術(shù)有限公司,北京 100191)
運營商光寬帶業(yè)務(wù)目前處于發(fā)展初期,在電信寬帶、聯(lián)通寬帶以及其他第三方寬帶運營商已經(jīng)有固定用戶群規(guī)模時,運營商光寬帶發(fā)展的首要目標(biāo)應(yīng)集中在正在使用的客戶中,精準(zhǔn)識別出運營商客戶中的疑似異網(wǎng)使用用戶。目前異網(wǎng)寬帶識別采用人工判斷的方式,這種方式識別準(zhǔn)確率較低且覆蓋用戶數(shù)過少。本文通過分析挖掘辦法分析不同類型寬帶用戶的使用特征,對異網(wǎng)寬帶用戶進(jìn)行精準(zhǔn)識別,實現(xiàn)疑似異網(wǎng)寬帶用戶清單輸出,為運營人員開展異網(wǎng)寬帶用戶轉(zhuǎn)網(wǎng)活動營銷以及擴(kuò)大運營商寬帶市場占有率提供客戶數(shù)據(jù)信息支持。
異網(wǎng)用戶;運營商;分析建模
運營商光寬帶業(yè)務(wù)目前處于發(fā)展初期,在電信寬帶、聯(lián)通寬帶以及其他第三方寬帶運營商已經(jīng)有固定用戶群規(guī)模時,運營商光寬帶發(fā)展的首要目標(biāo)應(yīng)集中在運營商使用客戶中,精準(zhǔn)識別出運營商客戶中的疑似異網(wǎng)使用用戶。
通過與運營商寬帶運營業(yè)務(wù)人員調(diào)研,目前異網(wǎng)寬帶識別采用人工判斷的方式,這種方式識別準(zhǔn)確率較低且覆蓋用戶數(shù)過少。因此本次模型通過分析挖掘辦法分析不同類型寬帶用戶的使用特征,對異網(wǎng)寬帶用戶進(jìn)行精準(zhǔn)識別,實現(xiàn):
(1)疑似異網(wǎng)寬帶用戶清單輸出,為運營人員開展異網(wǎng)寬帶用戶轉(zhuǎn)網(wǎng)活動營銷以及擴(kuò)大運營商寬帶市場占有率提供客戶數(shù)據(jù)信息支持。
(2)及時監(jiān)控運營商客戶中異網(wǎng)寬帶用戶的數(shù)量變化趨勢,為寬帶運營人員調(diào)整運營方式提供數(shù)據(jù)支持。
2.1業(yè)務(wù)模型設(shè)計
如圖1所示,異網(wǎng)寬帶用戶識別模型流程由3部分構(gòu)成:A部分為異網(wǎng)寬帶用戶識別模型數(shù)據(jù)的獲??;B部分為形成初步疑似異網(wǎng)寬帶用戶清單;C部分為形成最終異網(wǎng)寬帶用戶輸出結(jié)果及前臺展示。
不同的用戶類型采用不同的識別算法得到輸出列表,單一的識別算法可能會過濾掉部分異網(wǎng)寬帶潛在用戶。
圖1 業(yè)務(wù)模型設(shè)計圖
2.2數(shù)據(jù)流設(shè)計
根據(jù)業(yè)務(wù)模型設(shè)計得到模型各階段所需數(shù)據(jù)與所需數(shù)據(jù)流向,數(shù)據(jù)流設(shè)計如圖2所示。
圖2 數(shù)據(jù)流設(shè)計圖
2.3模型數(shù)據(jù)字段設(shè)計
基于數(shù)據(jù)模型時間窗口設(shè)計原則,完整的模型訓(xùn)練數(shù)據(jù)大概需要60天的數(shù)據(jù)支撐,加上模型驗證和模型評估,至少需要90天數(shù)據(jù)。
通常模型構(gòu)建數(shù)據(jù)來源優(yōu)先選擇近期數(shù)據(jù),對于比較老的數(shù)據(jù),模型輸出規(guī)則作用于現(xiàn)網(wǎng)數(shù)據(jù)可能已處于模型生命周期結(jié)尾,因此不適合用來進(jìn)行模型的訓(xùn)練、驗證、測試和評估。因此,選擇數(shù)據(jù)時選擇最近60天的數(shù)據(jù);由于本模型要求數(shù)據(jù)來源較廣且量大,涉及某全省用戶數(shù)據(jù)及全省運營商寬帶IP數(shù)據(jù)等信息,所以需從多個表中進(jìn)行提取,初步梳理的模型重要字段如表1所示。
運營商IP信息庫、異網(wǎng)寬帶相關(guān)URL庫、異網(wǎng)相關(guān)APP庫,需數(shù)據(jù)維護(hù)人員根據(jù)運營商網(wǎng)關(guān)數(shù)據(jù)累計完成并錄入相關(guān)信息表。
2.4模型詳細(xì)設(shè)計
2.4.1模型設(shè)計詳細(xì)思路
異網(wǎng)寬帶用戶識別模型(簡稱模型)主要從網(wǎng)關(guān)接觸、流量使用特征這兩個維度分析識別某省全網(wǎng)用戶中異網(wǎng)寬帶用戶。模型整體設(shè)計思路圖如圖3所示。
(1)數(shù)據(jù)準(zhǔn)備:梳理模型所需基本指標(biāo),并探索數(shù)據(jù)來源,同時通過對基本指標(biāo)的計算,輸出以用戶號碼為唯一標(biāo)識的模型所需寬表。
(2)指標(biāo)篩選:表1中各指標(biāo)間存在不同的相關(guān)關(guān)系,且對分析結(jié)果影響程度也不盡相同,存在一些噪聲指標(biāo)可能對模型有效性產(chǎn)生負(fù)面影響,所以,在模型構(gòu)建前,通過指標(biāo)間的相關(guān)性分析、指標(biāo)與目標(biāo)變量的相關(guān)性分析、主成分分析篩選出對模型影響較大的指標(biāo)作為輸入。
(3)模型構(gòu)建:
第1步,用戶流量特征分析:通過對比分析已辦理某運營商寬帶用戶和未知用戶的流量使用特征,構(gòu)建決策樹、回歸等算法的數(shù)據(jù)挖掘模型來識別異網(wǎng)寬帶用戶,同時輸出識別規(guī)則或概率。
第2步,融合用戶網(wǎng)關(guān)接觸維度分析:通過對比分析已確認(rèn)的異網(wǎng)寬帶用戶采用異網(wǎng)寬帶接觸某運營商自有網(wǎng)頁、客戶端與使用該運營商流量接觸異網(wǎng)寬帶辦理頁面或者該運營商用戶安裝了其他寬帶運營商的APP以及手機(jī)流量使用特征的相關(guān)信息數(shù)據(jù),進(jìn)行構(gòu)建決策樹、回歸等算法的數(shù)據(jù)挖掘模型來識別異網(wǎng)寬帶用戶,同時輸出識別規(guī)則或概率。
表1 模型原始數(shù)據(jù)字段表
圖3 模型詳細(xì)設(shè)計圖
(4)模型驗證:將模型輸出規(guī)則在全量用戶中運行,輸出異網(wǎng)寬帶疑似用戶數(shù)據(jù),該數(shù)據(jù)需剔除已辦理了某運營商寬帶用戶及其家庭網(wǎng)成員的相關(guān)用戶,對剔除后的用戶進(jìn)行驗證,查看命中率、覆蓋率能否達(dá)到預(yù)期標(biāo)準(zhǔn)。如未達(dá)到預(yù)期,需進(jìn)行模型優(yōu)化。
2.4.2數(shù)據(jù)統(tǒng)計衍生
原始數(shù)據(jù)提取后,接著需要構(gòu)建模型所需統(tǒng)計及衍生信息表(簡稱寬表)。寬表的建立是模型構(gòu)建最重要的階段之一,通常需要花費大量的時間與精力。一般情況下,實際的數(shù)據(jù)寬表構(gòu)建工作通常占據(jù)整個模型建設(shè)大量的工程時間和工作量。
本次模型寬表構(gòu)建包含以下任務(wù)。
(1)將某運營商全網(wǎng)用戶劃分為已辦理寬帶用戶、未辦理該運營商寬帶用戶。
(2)通過該運營商IP庫信息與異網(wǎng)網(wǎng)絡(luò)訪問該運營商自有網(wǎng)站信息數(shù)據(jù)匹配,剔除數(shù)據(jù)中的IP為該運營商IP的數(shù)據(jù)。
(3)通過異網(wǎng)寬帶相關(guān)URL庫信息與某運營商流量訪問異網(wǎng)寬帶網(wǎng)站信息數(shù)據(jù)匹配,篩選數(shù)據(jù)中的URL為異網(wǎng)寬帶相關(guān)URL的數(shù)據(jù)。
(4)通過異網(wǎng)寬帶相關(guān)APP庫信息與某運營商流量訪問異網(wǎng)寬帶網(wǎng)站信息數(shù)據(jù)匹配,篩選數(shù)據(jù)中的APP為異網(wǎng)寬帶相關(guān)APP的數(shù)據(jù)。
(5)合并數(shù)據(jù)集合或記錄。
(6)選擇數(shù)據(jù)子集樣本。
(7)匯總記錄。
(8)排序數(shù)據(jù)以便建模。
(9)刪除或替換空值或缺失值、數(shù)據(jù)的錯誤檢測。
(10)生成統(tǒng)計指標(biāo)及衍生指標(biāo)。
(11)分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。
通過以上步驟對原始數(shù)據(jù)的處理匯總來構(gòu)建寬表。根據(jù)訓(xùn)練模型需要,以用戶自然屬性為基礎(chǔ),根據(jù)用戶使用非運營商IP訪問運營商網(wǎng)站信息、安裝APP、使用流量特征等信息提取并生成衍生指標(biāo)。
2.4.3指標(biāo)選取
在模型的指標(biāo)選取過程中主要采用指標(biāo)相關(guān)性分析、主成分分析,選擇影響較大的指標(biāo),模型構(gòu)建時需輸入如表2所示指標(biāo)。
表2 模型衍生指標(biāo)表
3.1流量使用特征對比分析
流量特征分析維度主要過程如圖4所示。
圖4 流量特征分析圖
3.2網(wǎng)關(guān)接觸維度分析
首先,根據(jù)用戶網(wǎng)關(guān)接觸類型的差異,將用戶分為3類:使用異網(wǎng)寬帶接觸某運營商網(wǎng)絡(luò)用戶信息、使用該運營商網(wǎng)絡(luò)接觸異網(wǎng)網(wǎng)絡(luò)用戶信息、手機(jī)安裝異網(wǎng)寬帶相關(guān)APP用戶信息。其次,分別對上述3類用戶數(shù)據(jù)進(jìn)行分析判斷并輸出規(guī)則。
(1)使用異網(wǎng)寬帶接觸該運營商網(wǎng)絡(luò)用戶:根據(jù)該類用戶接觸運營商網(wǎng)站類型的不同再次劃分為PC端和移動端兩類;通過分析樣本數(shù)據(jù)周期內(nèi)這兩類用戶的訪問次數(shù)、訪問時長、使用IP數(shù)量等指標(biāo)來判斷閾值,分析用戶是否為疑似異網(wǎng)寬帶用戶。
(2)使用該運營商網(wǎng)絡(luò)接觸異網(wǎng)網(wǎng)絡(luò)用戶:分析樣本數(shù)據(jù)周期內(nèi)使用運營商流量訪問其他寬帶運營商的寬帶相關(guān)頁面的用戶,分析用戶的訪問頻次、訪問時長、訪問URL數(shù)量等指標(biāo)來判斷閾值,分析用戶是否為疑似異網(wǎng)寬帶用戶。
(3)手機(jī)安裝異網(wǎng)寬帶相關(guān)APP用戶:分析樣本數(shù)據(jù)周期內(nèi)用戶手機(jī)安裝異網(wǎng)寬帶相關(guān)APP信息,分析這類用戶使用這些APP的次數(shù)、時長等指標(biāo)來判斷閾值,分析用戶是否為疑似異網(wǎng)寬帶用戶。
3.3模型評估方案設(shè)計
模型評估是異網(wǎng)寬帶用戶識別模型的關(guān)鍵部分,一方面通過模型評估可以對模型進(jìn)行進(jìn)一步的優(yōu)化,提高模型的識別準(zhǔn)確率;另一方面,通過模型評估可以檢驗?zāi)P蛯嶋H效果,對維系策略的有效性進(jìn)行評價。本模型通過兩個重要指標(biāo)進(jìn)行評估。
查準(zhǔn)率:描述模型預(yù)測準(zhǔn)確性指標(biāo)。
查準(zhǔn)率=預(yù)測實際異網(wǎng)寬帶用戶數(shù)/預(yù)測異網(wǎng)寬帶的總用戶數(shù)×100%。
查全率:描述模型預(yù)測結(jié)果與實際結(jié)果對比情況指標(biāo)。
查全率=預(yù)測異網(wǎng)寬帶的用戶數(shù)/總異網(wǎng)寬帶用戶數(shù)×100%。
3.4模型輸出
根據(jù)需求要求模型輸出指標(biāo)如表3所示。
表3 模型輸出指標(biāo)表
本文提出了一個基于運營商寬帶的異網(wǎng)寬帶用戶識別的設(shè)計與構(gòu)建方案,生成了一套模型設(shè)計、模型構(gòu)建、模型評估方案。為了提高分析結(jié)果的準(zhǔn)確性,本系統(tǒng)充分利用用戶的流量特征、網(wǎng)關(guān)特征,選取全量話單的數(shù)據(jù)字段作為模型的輸入數(shù)據(jù)字段,并以最能體現(xiàn)用戶異網(wǎng)行為的字段作為指標(biāo)統(tǒng)計字段?;谠摲桨?,運營商操作人員能夠從該分析系統(tǒng)獲取異網(wǎng)用戶詳單信息,包括用戶姓名、號碼、地市等,同時可以導(dǎo)出進(jìn)行統(tǒng)計查看。
[1] 任磊.大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報,2014(9).
[2] 張良,王純,李煒. 基于內(nèi)存數(shù)據(jù)庫的存儲集群的關(guān)鍵技術(shù)研究[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2012(10).
Design and construction of broadband user identification model based on operator broadband system
ZHANG Li-yuan1,2, WANG Chun1,2
(1 State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications,Beijing 100876, China; 2 EBUPT Information Technology Co., Ltd., Beijing 100191, China)
The mobile broadband business currently is in early development. In broadband telecommunications,Unicom broadband and other third-party broadband operators have fi xed the size of the user base. The goal of the development of mobile broadband optical should be focused in the use of mobile customers,accurately identify mobile customers suspected of different network users. Currently, different broadband network recognition using artificial judgment, the recognition accurate rate is low and the number of users covered is too little. This paper through the analysis of mining method analysis of the features of the use of different types of broadband users, with the accurate identification of different network broadband users, achieve suspected different network broadband users list output, for the operations staff to carry out different network broadband users turn network marketing activities and expand operator broadband market share to provide customer information support.
different network users; operator; modeling analysis
TN929.5
A
1008-5599(2016)08-0052-05
2016-05-17
國家973計劃項目(編號:2013CB329102);國家自然科學(xué)基金資助項目(No. 61471063, 61372120, 61271019, 61101119,61121001);長江學(xué)者和創(chuàng)新團(tuán)隊發(fā)展計劃資助(編號:IRT1049);教育部科學(xué)技術(shù)研究重點(重大)項目資助(編號:MCM20130310);北京高等學(xué)校青年英才計劃項目(編號:YETP0473)。