• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)的移動用戶行為分析系統(tǒng)與應(yīng)用案例

      2016-11-08 06:45:58谷紅勛楊珂
      電信科學(xué) 2016年3期
      關(guān)鍵詞:通話間隔短信

      谷紅勛,楊珂

      (中國電信股份有限公司河南分公司,河南 鄭州 450016)

      基于大數(shù)據(jù)的移動用戶行為分析系統(tǒng)與應(yīng)用案例

      谷紅勛,楊珂

      (中國電信股份有限公司河南分公司,河南 鄭州 450016)

      本系統(tǒng)基于Hadoop架構(gòu)采集運營商網(wǎng)絡(luò)側(cè)產(chǎn)生的大數(shù)據(jù),并對數(shù)據(jù)進行深度加工,挖掘其中相關(guān)的用戶行為屬性,構(gòu)建用戶行為分析模型,并對具體用戶行為應(yīng)用進行有效探索。針對技術(shù)選型、系統(tǒng)實現(xiàn)、數(shù)據(jù)采集、模型設(shè)計與應(yīng)用案例,完整展示了移動用戶行為分析系統(tǒng)的設(shè)計思路與實現(xiàn)。

      Hadoop;ETL;數(shù)據(jù)模型;用戶行為分析

      1 引言

      隨著智能終端、云計算、物聯(lián)網(wǎng)與4G網(wǎng)絡(luò)的普及,電信網(wǎng)絡(luò)系統(tǒng)產(chǎn)生了海量數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)相比,電信運營商的數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)多樣性、增長快速、價值密度低等特點。傳統(tǒng)數(shù)據(jù)挖掘工具(如Oracle、SPSS、SAS等)并不具備大數(shù)據(jù)挖掘能力,所有的數(shù)據(jù)必須在單一的服務(wù)器上處理,硬件能力成為大數(shù)據(jù)應(yīng)用的瓶頸。對電信運營商而言,必須尋找新一代的數(shù)據(jù)處理技術(shù),以實現(xiàn)大數(shù)據(jù)的分析與挖掘。

      同時,以往對大數(shù)據(jù)的探索主要集中在技術(shù)層面,實際應(yīng)用案例較少,本文針對運營商網(wǎng)絡(luò)數(shù)據(jù)進行深度加工,對原本只用于計費的通話詳單進行深度加工,挖掘其中的用戶行為屬性,構(gòu)建用戶行為分析模型,并成功應(yīng)用于養(yǎng)卡用戶監(jiān)控等具體業(yè)務(wù)。

      目前在大數(shù)據(jù)應(yīng)用方面的研究具體介紹如下。

      [1]提出從數(shù)據(jù)挖掘的角度,分析大數(shù)據(jù)的數(shù)據(jù)建模與傳統(tǒng)的數(shù)據(jù)建模之間的差異,并提出基于大數(shù)據(jù)設(shè)計數(shù)據(jù)模型的具體思路,包含數(shù)據(jù)來源、數(shù)據(jù)挖掘和分析、用戶興趣建模與安全隱私等。

      · 參考文獻[2]提出電信運營商如何采集、利用移動數(shù)據(jù)的相關(guān)議題。移動數(shù)據(jù)不只是用來理解用戶的過去和現(xiàn)在,也可以預(yù)測用戶未來的行為、活動和狀態(tài)。

      · 參考文獻[3]針對標(biāo)準的移動電話記錄,建立一套全新的用戶行為分析指標(biāo),能夠精確預(yù)測用戶的個性與行為,為移動用戶行為分析模型提供參考依據(jù)。

      2 主流建設(shè)方案

      傳統(tǒng)數(shù)據(jù)挖掘工具(如 Oracle、SPSS、SAS等)并不具備大數(shù)據(jù)挖掘能力,同時要求所有的數(shù)據(jù)必須在單一的服務(wù)器上處理,硬件能力成為大數(shù)據(jù)應(yīng)用的瓶頸。隨著數(shù)據(jù)量的大量增加,產(chǎn)生了新的數(shù)據(jù)存儲和處理能力問題,傳統(tǒng)數(shù)據(jù)倉庫無法支撐線性擴容,造成管理難度加大、成本高、擴容壓力大、效率下降等問題。電信運營商需要探索大數(shù)據(jù)系統(tǒng)的建設(shè)方案,解決上述問題。目前主流的大數(shù)據(jù)系統(tǒng)建設(shè)方案如下。

      ·傳統(tǒng)數(shù)據(jù)庫升級解決方案:由高性能的主機與大容量存儲組成,通常為“UNIX服務(wù)器+存儲磁盤陣列+數(shù)據(jù)倉庫軟件”的開放式解決方案。

      ·一體機解決方案:基于一體機的BI集成化解決方案,一體機包含數(shù)據(jù)倉庫服務(wù)器、數(shù)據(jù)倉庫存儲、數(shù)據(jù)倉庫軟件等。

      ·基于x86開放平臺的海量數(shù)據(jù)解決方案:在開源Hadoop技術(shù)的基礎(chǔ)上開發(fā)的海量數(shù)據(jù)處理軟件,基于x86服務(wù)器的大規(guī)模并行處理解決方案。

      隨著集約化運營管理思路的提出,系統(tǒng)處理的數(shù)據(jù)量會越來越大,傳統(tǒng)的小機數(shù)據(jù)庫模式難以支撐海量數(shù)據(jù)處理的要求,而一體化產(chǎn)品(硬件+數(shù)據(jù)庫軟件捆綁銷售)投資高、性價比低??偨Y(jié)主要廠商解決方案,幾種技術(shù)方案特點比較見表1。

      除了成本因素外,本系統(tǒng)需要處理結(jié)構(gòu)化、文件型和非結(jié)構(gòu)化數(shù)據(jù),還需要考慮數(shù)據(jù)結(jié)構(gòu)問題,具體因素如下:

      ·對于海量的結(jié)構(gòu)化數(shù)據(jù)處理,如何保障系統(tǒng)的穩(wěn)定性和高性能;

      ·對于文件型和非結(jié)構(gòu)化數(shù)據(jù)處理,先以分布式集群系統(tǒng)平臺進行預(yù)處理,形成結(jié)構(gòu)化數(shù)據(jù)后交由MPP或關(guān)系型數(shù)據(jù)庫進行處理。

      綜合考慮技術(shù)成熟度、性價比和數(shù)據(jù)處理需求,采用基于Hadoop的分布式集群系統(tǒng)的平臺架構(gòu)。該技術(shù)架構(gòu)具備下列優(yōu)點。

      · 高性能:采用分布式存儲、并行計算技術(shù),充分利用設(shè)備性能,提升數(shù)據(jù)處理速度。

      · 高可靠性:多任務(wù)并行計算、數(shù)據(jù)冗余存儲,有效避免設(shè)備單點故障,提供高可靠服務(wù)。

      · 高擴展性:x86架構(gòu)可以通過增加節(jié)點,完美支持計算和存儲能力的線性擴容。

      · 高性價比:利用低成本的基于x86的主機設(shè)備,有效降低一次性投入成本,更能支持小成本的平滑升級與擴容。

      3 關(guān)鍵技術(shù)

      3.1 Hadoop開源軟件

      Hadoop是對大量數(shù)據(jù)進行分布式處理的軟件框架。Hadoop系統(tǒng)以可靠、高效、可伸縮的方式進行大數(shù)據(jù)處理,以并行的方式工作,通過并行處理加快處理速度,具有以下幾個優(yōu)點。

      ·高可靠性:假設(shè)計算元素和存儲可以出錯,可維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新進行分布處理。

      ·高擴展性:能夠在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù),這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。

      ·高效性:能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡。

      ·高容錯性:能夠自動保存數(shù)據(jù)的多個副本,并能夠自動重新分配失敗的任務(wù)。

      表1 技術(shù)方案特點比較

      3.2 多租戶管理技術(shù)

      由于本系統(tǒng)面向多個用戶提供多種服務(wù),各類型用戶通過訪問本系統(tǒng)獲取自己的數(shù)據(jù),必須保障這些數(shù)據(jù)不被其他用戶隨意訪問或篡改。因此如何實現(xiàn)多租戶安全,保證多用戶間隔離、數(shù)據(jù)安全和防止有害代碼的威脅,是本系統(tǒng)必須解決的問題。

      本系統(tǒng)采用多租戶管理技術(shù),對數(shù)據(jù)庫結(jié)構(gòu)進行特殊的設(shè)計,在安全和隔離性方面也要有所保障,實現(xiàn)如下功能。

      · 資源隔離:控制高資源消耗任務(wù),通過容量/公平調(diào)度器,控制資源分配以保證重要工作的資源。

      · 數(shù)據(jù)隔離:用戶數(shù)據(jù)保存在用戶專有的目錄中,其他未被授權(quán)的用戶不能訪問。

      · 安全隔離:保證不同用戶和組的安全,保證對集群的所有操作都是經(jīng)過授權(quán)認證的。

      3.3 基于shared hardware的架構(gòu)設(shè)計

      為了實現(xiàn)對“多租戶”的支持,需要配套相應(yīng)的多租戶架構(gòu)(multi-tenancy architecture),本系統(tǒng)基于硬件共享(shared hardware)架構(gòu),為多租戶提供一個應(yīng)用容器集群環(huán)境,應(yīng)用運行在應(yīng)用容器中,實現(xiàn)資源與數(shù)據(jù)的安全隔離。

      4 大數(shù)據(jù)用戶行為分析系統(tǒng)設(shè)計

      4.1 需采集處理的數(shù)據(jù)類型

      依據(jù)業(yè)務(wù)需求,必須支持TB級數(shù)據(jù)采集,主要采集的數(shù)據(jù)類型如下。

      ·企業(yè)經(jīng)營數(shù)據(jù):BSS中的計費詳單、用戶、客戶、套餐、服務(wù)、渠道等數(shù)據(jù)。

      ·企業(yè)運營數(shù)據(jù):OSS中的資源、服務(wù)開通等數(shù)據(jù)。

      ·企業(yè)管理數(shù)據(jù):MSS中的人力、財務(wù)等數(shù)據(jù)。

      ·移動DPI數(shù)據(jù):訪問移動互聯(lián)網(wǎng)的行為數(shù)據(jù),包括用戶手機號、訪問URL、應(yīng)用、訪問時間等信息。

      ·移動AAA系統(tǒng)數(shù)據(jù):用戶信息及行為信息,包括用戶手機號、IP地址、認證時間、基站位置等信息。

      · 固網(wǎng)DPI數(shù)據(jù):訪問互聯(lián)網(wǎng)的行為數(shù)據(jù),包括用戶IP地址、訪問URL、訪問時間、用戶UA、cookie等信息。

      ·固網(wǎng)AAA系統(tǒng)數(shù)據(jù):用戶互聯(lián)網(wǎng)訪問的IP地址和AD賬號的對應(yīng)關(guān)系。

      ·位置信令數(shù)據(jù):用戶的地理位置信息。

      ·業(yè)務(wù)平臺數(shù)據(jù):能力類、產(chǎn)品類、支撐類平臺的用戶增值業(yè)務(wù)、基地業(yè)務(wù)、行業(yè)應(yīng)用等數(shù)據(jù)。

      具體數(shù)據(jù)采集類型與數(shù)量見表2。

      表2 具體數(shù)據(jù)采集類型與數(shù)量

      4.2 系統(tǒng)架構(gòu)設(shè)計

      系統(tǒng)架構(gòu)分為存儲層、服務(wù)層、處理層和管理層,主要功能如圖1所示。

      (1)存儲層

      支持異構(gòu)的存儲設(shè)備,通過存儲虛擬化技術(shù),將存儲設(shè)備統(tǒng)一到資源池中,通過部署分布式文件系統(tǒng),對上層提供統(tǒng)一的存儲服務(wù)。系統(tǒng)同時支持低成本的本地磁盤方案。

      (2)服務(wù)層

      服務(wù)層為ETL平臺提供必需的底層服務(wù)。其中流程引擎與任務(wù)調(diào)度服務(wù),以定時或者觸發(fā)方式執(zhí)行預(yù)先配置的ETL任務(wù),支持復(fù)雜流程的串并聯(lián);元數(shù)據(jù)與接入平臺服務(wù),提供不同種類、異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取能力;map/reduce與類SQL查詢提供并行計算與簡便的分析功能。

      (3)處理層

      處理層是數(shù)據(jù)分析平臺的核心功能,分為數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)裝載3個過程,常見的ETL動作包括數(shù)據(jù)清洗、數(shù)據(jù)校驗、聚合、關(guān)聯(lián)等,支持自定義的數(shù)據(jù)處理動作。

      (4)管理層

      平臺提供可視化、流程化的管理操作界面,便于業(yè)務(wù)人員使用。管理功能包括元數(shù)據(jù)管理、營銷活動管理、目標(biāo)客戶管理管理與系統(tǒng)監(jiān)控管理等。

      圖1 功能架構(gòu)

      4.3 ETL功能設(shè)計

      由于數(shù)據(jù)大,本系統(tǒng)對ETL處理能力提出了更高的要求:需要集中支撐大量的數(shù)據(jù)采集任務(wù)調(diào)度;需要集中支撐大量的數(shù)據(jù)處理任務(wù)調(diào)度。本系統(tǒng)采用分布式ETL調(diào)度框架進行任務(wù)調(diào)度,可以解決如下問題:

      · 支持部署多個調(diào)度節(jié)點,解決調(diào)度節(jié)點單點故障問題,在任意一個調(diào)度節(jié)點掛死后都不會影響調(diào)度任務(wù)的調(diào)度與執(zhí)行;

      · 調(diào)度節(jié)點可擴展,可以根據(jù)具體需求動態(tài)擴展調(diào)度節(jié)點數(shù),提高處理性能;

      · 調(diào)度節(jié)點均衡負載,可以在多個調(diào)度節(jié)點中實現(xiàn)均衡負載,避免資源壓力集中在某個節(jié)點上;

      · 調(diào)度先進先出原則,需要保證工單執(zhí)行的時序性。

      4.4 系統(tǒng)服務(wù)器需求評估

      本系統(tǒng)每月采集數(shù)據(jù)大約為59 TB。系統(tǒng)需要的服務(wù)器計算過程見表3,計算結(jié)果共需要18臺服務(wù)器。

      4.5 系統(tǒng)拓撲結(jié)構(gòu)

      本系統(tǒng)采用吉比特網(wǎng)絡(luò)接入Hadoop平臺,各個節(jié)點均配置4端口吉比特,分別接入兩臺相互冗余的接入交換機,并采用網(wǎng)卡聚合方式接入,以保障網(wǎng)絡(luò)接入的安全穩(wěn)定性。對于多臺應(yīng)用服務(wù)器的負載均衡訪問,均由DCN接入層部署的負載均衡器提供。系統(tǒng)拓撲結(jié)構(gòu)如圖2所示。

      5 用戶行為分析模型設(shè)計與應(yīng)用

      5.1 用戶行為分析模型設(shè)計思路

      本系統(tǒng)對原本只用于計費使用的通信、上網(wǎng)數(shù)據(jù)進行深度加工,挖掘其中的用戶行為屬性,如規(guī)律性(regularity)、 多 元 性 (diversity)、 空 間 行 為 (spatial behavior)、活動 行為 (active behavior)、使 用 行為 (basic phone use)、關(guān)聯(lián)性(correlation)6 類,并與這些關(guān)鍵指標(biāo)構(gòu)建用戶行為模式。

      (1)規(guī)律性

      · 平均通話間隔(average inter-call time):計算用戶通話(包括主被叫)間隔的平均值,單位為s。從上一通電話開始,到下一通電話開始記為一次間隔。

      · 平均短信間隔(average inter-text time):計算用戶收發(fā)短信間隔的平均值,單位為s,取樣為每兩條短信之間的時間間隔。

      · 平均上網(wǎng)間隔(average inter-internet time):計算用戶上網(wǎng)間隔的平均值,單位為s,取樣為每兩次上網(wǎng)之間的時間間隔,上網(wǎng)行為包括通過2G、3G、Wi-Fi上網(wǎng)。

      表3 系統(tǒng)需要的服務(wù)器計算過程

      圖2 系統(tǒng)拓撲結(jié)構(gòu)

      · 通話間隔方差(variance of inter-call time):用戶兩次通話之間間隔時間的方差,單位為s2,表示用戶每通電話間隔同平均通話間隔的偏離程度。

      · 短信間隔方差(variance of inter-text time):用戶兩次短信之間間隔時間的方差,單位為s2,表示用戶每個短信間隔同平均短信間隔的偏離程度。

      · 上網(wǎng)間隔方差(variance of inter-internet time):用戶兩次上網(wǎng)之間間隔時間的方差,單位為s2,表示用戶每個上網(wǎng)間隔同平均上網(wǎng)間隔的偏離程度。

      AR系數(shù)(AR coefficient)為每個用戶建立AR模型,如時間序列Xt包括用戶周一早上6點到晚上12點,周二早上6點到晚上12點,…的通話數(shù),模型如下:

      AR系數(shù)φ表示知道前6 h打了多少電話,預(yù)測未來6 h的通話次數(shù)。

      (2)多元性

      通話熵(entropy of call):表示用戶同其他用戶通話的信息量,用戶通話聯(lián)系人越多,通話熵越大。用戶A同用戶B間通話熵的計算式為:

      其中,f1,B為A同B通話的頻率。

      短信熵(entropy of text):表示用戶同其他用戶發(fā)短信的信息量,用戶短信聯(lián)系人越多,通話熵越大。用戶A同B間短信熵的計算式為:

      其中,f2,B為A同B發(fā)短信的頻率。

      上網(wǎng)熵 (entropy of internet):表示用戶上網(wǎng)的信息量,用戶上網(wǎng)次數(shù)越多,上網(wǎng)熵越大。用戶A上網(wǎng)熵的計算式為:

      其中,f3為A上網(wǎng)的頻率。

      聯(lián)系人通話比(contact to call ratio):表示用戶聯(lián)系人中有多少通過通話聯(lián)系。聯(lián)系人通話比為聯(lián)系人數(shù)同通話聯(lián)系人之比。

      聯(lián)系人短信比(contact to text ratio):表示用戶聯(lián)系人中有多少通過短信聯(lián)系。聯(lián)系人短信比為聯(lián)系人數(shù)同短信聯(lián)系人之比。

      通話聯(lián)系人數(shù)(number of call contact):通過通話的聯(lián)系人數(shù)。

      短信聯(lián)系人數(shù)(number of text contact):通過短信的聯(lián)系人數(shù)。

      (3)空間行為

      · 旋回半徑(radius of gyration):包括用戶所有位置的圓的最小半徑,位置為用戶停留大于15 min的基站。

      · 旅行距離(distance traveled):為用戶在一段時間內(nèi)到訪位置的連續(xù)距離。

      · 地點數(shù)(number of place):用戶停留地點總數(shù)。

      · 地點熵(entropy of place):表示用戶在某地點通話、發(fā)短信、上網(wǎng)的信息量,用戶停留的地點越多,地點熵越大。用戶A的地點熵計算式為:

      其中,f4,Z為A在Z地使用手機的頻率。

      (4)活動行為

      · 通話回復(fù)率(call response rate):表示用戶回復(fù)通話的比率,回復(fù)通話為用戶甲同用戶乙通話后1 h內(nèi)用戶乙回復(fù)用戶甲的通話。通話回復(fù)率為回復(fù)通話次數(shù)占通話總次數(shù)的百分數(shù)。

      · 短信回復(fù)率(text response rate):表示用戶回復(fù)短信的比率,回復(fù)短信為用戶甲發(fā)給用戶乙短信后1 h內(nèi)用戶乙回復(fù)用戶甲的短信。短信回復(fù)率為回復(fù)短信次數(shù)占總短信的百分數(shù)。

      · 發(fā)起通話率(percent of call initiated):表示某用戶同其他用戶通話時有多少次為該用戶主叫。發(fā)起通話率等于用戶主叫通話的次數(shù)與通話總次數(shù)的比率。

      (5)使用行為

      · 通話次數(shù)(number of call):用戶通話的次數(shù)。

      · 短信數(shù)(number of text):用戶發(fā)短信的次數(shù)。

      · 上網(wǎng)次數(shù)(number of internet):用戶上網(wǎng)的次數(shù)。

      · 上網(wǎng)流量(flow of internet):用戶上網(wǎng)的總流量,包括 Wi-Fi、2G、3G 上網(wǎng)。

      · 互動次數(shù)(number of interaction):用戶間互動行為的次數(shù)?;有袨榘ㄍㄔ捄投绦?,1 h內(nèi)互動行為的往復(fù)記為互動。

      (6)關(guān)聯(lián)性

      · 機卡比值(cellphone-card ratio):表示同一手機號對應(yīng)終端數(shù)量的比值,比值越大,說明該號碼曾被多個手機終端使用。計算時使用終端串碼(IMEI)關(guān)聯(lián)手機號。

      · 卡機比值(card-cellphone ratio):表示某一終端使用過手機號的數(shù)量,比值越大,說明該終端使用過的手機卡越多。

      · 銷售員貝葉斯因子(retailer Bayesian factor):表示銷售員擁有養(yǎng)卡前科的先驗概率。貝葉斯推斷中,在事件1發(fā)生的條件下事件2發(fā)生的概率,即后驗概率,可由先驗概率與調(diào)整因子得到。如銷售員擁有養(yǎng)卡前科,則再產(chǎn)生養(yǎng)卡行為的概率會大。

      5.2 用戶行為模型應(yīng)用案例

      移動用戶行為分析系統(tǒng)2014年12月開發(fā)完成,2015年開始測試使用,已針對養(yǎng)卡用戶監(jiān)控等開展具體應(yīng)用。養(yǎng)卡用戶是指渠道商為了獲取號碼卡銷售后得到的酬金,私自激活并偽裝號碼正在使用的狀態(tài),以期獲取運營商酬金。養(yǎng)卡用戶屬于無效用戶,造成電信運營商大量營銷資源與傭金的浪費。

      基于用戶行為分析系統(tǒng)針對養(yǎng)卡用戶的行為進行深度挖掘,養(yǎng)卡用戶行為與正常用戶行為比對特征見表4。

      (1)模型分析期

      指用戶入網(wǎng)行為、通信行為產(chǎn)生時間段,即模型輸入變量的時間窗口(分析期為2014年 11月、2014年12月)。

      (2)模型應(yīng)用期

      指異常用戶名單輸出時間,即應(yīng)用模型異常名單,開展管控工作的時間窗口(管控期為2015年 1-8月)。

      (3)用戶行為特征

      用戶滿足低活躍度,則認為用戶滿足必備條件。

      ·低活躍度:月主叫時長小于或等于3 min、月被叫次數(shù)小于或等于3次、月短信小于或等于3條、月流量小于或等于3 MB,滿足其中任意3項則認為其低活躍度。

      ·串碼集中:5個以上號碼使用同一終端注冊 (取最后一次使用終端)。

      ·用戶信息:10個以上用戶使用相同身份證開戶。

      ·聯(lián)系號碼集中:月(主動+被動)聯(lián)系號碼數(shù)小于或等于3個,某網(wǎng)點當(dāng)月發(fā)展用戶中10個及以上用戶撥打同一個號碼 (不含10000、11888等客服號碼)超過3次,上述兩項中滿足任意一項即判定符合此條件。

      該系統(tǒng)上線后,實現(xiàn)對養(yǎng)卡網(wǎng)用戶的精確判別,同時在市場部門的配合下,開展“養(yǎng)卡專項清理”活動,實時監(jiān)控入網(wǎng)渠道,建立追溯機制,對發(fā)展渠道進行追責(zé)。模型應(yīng)用后,養(yǎng)卡用戶數(shù)量得到有效控制,由2015年1月的259 312人,下降到 8月的145 219人,模型效果顯著,如圖3所示。

      圖3 模型效果

      表4 養(yǎng)卡用戶行為與正常用戶行為比對特征

      6 結(jié)束語

      本系統(tǒng)采用Hadoop架構(gòu)采集運營商網(wǎng)絡(luò)側(cè)數(shù)據(jù),對大數(shù)據(jù)技術(shù)選型、ETL過程、數(shù)據(jù)吞吐量、平臺實現(xiàn)方案等進行探索。對原先只用于計費的詳單數(shù)據(jù),進行深度加工,分析其中的戶行為屬性,并對養(yǎng)卡用戶監(jiān)控場景進行有效的實踐。

      對于運營商而言,大數(shù)據(jù)包括3個層面的含義:第一個層面是“大數(shù)據(jù)”資產(chǎn),囊括高形態(tài)復(fù)雜度的超大規(guī)模數(shù)據(jù);第二個層面是“大數(shù)據(jù)”平臺,實現(xiàn)全新的、強大的數(shù)據(jù)處理機制;第三個層面是“大數(shù)據(jù)”運營,帶來創(chuàng)新的業(yè)務(wù)機會與商業(yè)模式。在成功實現(xiàn)第一、二層面的業(yè)務(wù)探索與系統(tǒng)建設(shè)后,本系統(tǒng)已初步具備第三層面的大數(shù)據(jù)運營能力,并已成功應(yīng)用在養(yǎng)卡用戶識別等營銷活動中。未來將結(jié)合用戶上網(wǎng)數(shù)據(jù)、用戶位置數(shù)據(jù)等,進一步擴大指標(biāo)體系的范圍與有效性,爭取在4G發(fā)展、終端升級、流量經(jīng)營、存量經(jīng)營、流失預(yù)警等方面,建立大數(shù)據(jù)驅(qū)動的經(jīng)營新模式,將數(shù)據(jù)變?yōu)樯a(chǎn)力。

      參考文獻:

      [1]WU X D,ZHU X Q,WU G Q,et al.Data mining with big data[J].IEEE Transactions on Knowledge&Data Engineering,2014,26(1):97-102.

      [2]MUSOLESI M.Big mobile data mining:good or evil[J].IEEE Internet Computing,2014,18(1):7-10.

      [3]MONTJOYE Y A D,QUOIDBACH J,ROBIC F,et al.Social computing,behavioral-culturalmodeling and prediction [M].Berlin:Springer Heidelberg,2013.

      [4]MONTJOYE Y A D,HIDALGO C A,VERLEYSEN M,et al.Unique in the crowd:the privacy bounds of human mobility[J].Open Access Publications from UniversitéCatholique De Louvain,2013,3(6):776.

      [5]OLIVEIRA R D,KARATZOGLOU A,CONCEJERO C P,et al.Towards a psychographic user model from mobile phone usage[C]//CHI’11 Extended Abstracts on Human Factors in Computing Systems,May 7-12,2011,Vancouver,BC.[S.l.:s.n.],c2011.

      [6]李文蓮,夏健明.基于“大數(shù)據(jù)”的商業(yè)模式創(chuàng)新[J].中國工業(yè)經(jīng)濟,2013(5):83-95.LI W L,XIA J M.Business model innovation based on “big data”[J].China Industrial Economy,2013(5):83-95.

      [7]趙春雷.“大數(shù)據(jù)”時代的計算機信息處理技術(shù)[J].世界科學(xué),2012(2):30-31.ZHAO C L.Computer information processing technology in the era of big data[J].World Science,2012(2):30-31.

      [8]AGRAWAL D,BERNSTEIN P,BERTINO E,et al.Challenges and opportunities with big data[EB/OL].(2011-10-29)[2015-07-28].http://www.docin.com/p-633891531.html.

      [9]王秀麗.數(shù)據(jù)挖掘功能特性及其應(yīng)用流程分析[J].科技資訊,2005(5):151-152.WANG X L.Functional characteristics and application of data mining [J].Pioneering Withence&Technology Monthly,2005(5):151-152.

      [10]王永生.大數(shù)據(jù)時代的商業(yè)模式創(chuàng)新研究[J].南京財經(jīng)大學(xué)學(xué)報,2013(6):47-51.WANG Y S.Research on business model innovation in the era of big data [J].Journal of Nanjing University of Finance and Economics,2013(6):47-51.

      [11]李璐.實時分析迎戰(zhàn)大數(shù)據(jù)[J].通信世界,2012(29).LI L.The challenge of the real-time analysis for large data[J].Communications World,2012(29).

      [12]陳曉霞,徐國虎.大數(shù)據(jù)業(yè)務(wù)的商業(yè)模式探討 [J].電子商務(wù),2013(6):16-17.CHEN X X,XU G H.The study of the big dataˊs business model[J].E-commerce,2013(6):16-17.

      [13]汪維佳.數(shù)量型數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘及其在通信行業(yè)用戶分析中的應(yīng)用[J].統(tǒng)計科學(xué)與實踐,2005(3):28-30.WANG W J.Association rule of quantitative data and its application for communication industry[J].Statistical Theory and Practice,2005(3):28-30.

      [14]徐光憲,劉建輝,黃素芬.電信行業(yè)中數(shù)據(jù)挖掘的應(yīng)用研究[J]. 現(xiàn)代管理科學(xué),2004(12):8-9.XU G X,LIU J H,HUANG S F.The application of data mining in telecom industry[J].Modern Management Science,2004 (12):8-9.

      [15]郭明,鄭惠莉.用數(shù)據(jù)挖掘法分析電信客戶流失 [J].現(xiàn)代通信,2005(3):7-9.ZHENG H L,GUO M.Analysis of telecom customer churn by data mining[J].Communication Today,2005(3):7-9

      Mobile user behavior analysis system and applications based on big data

      GU Hongxun,YANG Ke
      Henan Branch of China Telecom Co.,Ltd.,Zhengzhou 450016,China

      Based on Hadoop’s architecture,this system collects and analyzes the telecom operator network’s data to build up user behavior model for effective exploration of big data applications.The whole process was discussed,including data collection,system design,implementation and application cases.

      Hadoop,ETL,data model,user behavior analysis

      TN91

      A

      10.11959/j.issn.1000-0801.2016039

      2015-07-28;

      2015-12-15

      谷紅勛(1972-),男,中國電信股份有限公司河南分公司副總經(jīng)理、高級工程師,主要從事市場營銷、企業(yè)信息化、互聯(lián)網(wǎng)增值等工作。

      楊珂(1972-),女,中國電信股份有限公司河南分公司移動互聯(lián)網(wǎng)業(yè)務(wù)部主任、高級工程師,主要從事互聯(lián)網(wǎng)增值業(yè)務(wù)工作。

      猜你喜歡
      通話間隔短信
      間隔問題
      道歉短信
      間隔之謎
      《戊戌元日與友人通話》
      中華詩詞(2018年5期)2018-11-22 06:46:08
      代發(fā)短信
      低成本視頻通話APP
      2013年11月通信業(yè)主要指標(biāo)完成情況(一)
      上樓梯的學(xué)問
      2013年3月通信業(yè)主要指標(biāo)完成情況(一)
      頭夾球接力
      沾化县| 甘谷县| 诸暨市| 东平县| 中阳县| 京山县| 大厂| 克山县| 泸定县| 汕尾市| 昌吉市| 灌云县| 崇州市| 桃园县| 阜宁县| 茌平县| 东兴市| 香格里拉县| 磐石市| 五华县| 晋城| 满洲里市| 鹤岗市| 丹棱县| 揭东县| 建水县| 来宾市| 庆城县| 安顺市| 商城县| 九江县| 化德县| 观塘区| 富平县| 贺州市| 夹江县| 阳新县| 左权县| 景宁| 内江市| 泸溪县|