吳濤,劉韜,王斌
?
安徽聯(lián)通企業(yè)級(jí)大數(shù)據(jù)平臺(tái)構(gòu)建及應(yīng)用實(shí)踐
吳濤,劉韜,王斌
(中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司,安徽 合肥 230069)
完整地總結(jié)了中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司建設(shè)大數(shù)據(jù)面對(duì)的挑戰(zhàn)和機(jī)遇以及通過(guò)快速構(gòu)建B/O域融合的智慧運(yùn)營(yíng)平臺(tái)累積的跨域數(shù)據(jù)多維度、多層次融合治理經(jīng)驗(yàn)。此外,安徽聯(lián)通還對(duì)用戶離網(wǎng)預(yù)測(cè)進(jìn)行了深入研究,通過(guò)大數(shù)據(jù)平臺(tái)構(gòu)建離網(wǎng)預(yù)測(cè)模型,實(shí)現(xiàn)離網(wǎng)預(yù)測(cè)模型查準(zhǔn)率90%、查全率9%的突破,并通過(guò)提升用戶感知等應(yīng)用深入推廣大數(shù)據(jù)在各領(lǐng)域的融合應(yīng)用,對(duì)內(nèi)提升了運(yùn)營(yíng)效率,實(shí)現(xiàn)了NOC(network operations center,網(wǎng)絡(luò)運(yùn)維中心)向SOC(service operations center,業(yè)務(wù)運(yùn)營(yíng)中心)的轉(zhuǎn)型。
運(yùn)營(yíng)商大數(shù)據(jù);B/O域數(shù)據(jù)融合;離網(wǎng)預(yù)測(cè)大數(shù)據(jù)應(yīng)用;NOC向SOC的轉(zhuǎn)型
2015年中國(guó)政府提出“互聯(lián)網(wǎng)+行動(dòng)計(jì)劃”,互聯(lián)網(wǎng)化已經(jīng)成為各個(gè)傳統(tǒng)行業(yè)升級(jí)和創(chuàng)新商業(yè)模式最重要的議題?!盎ヂ?lián)網(wǎng)+”時(shí)代的到來(lái),不僅在改善和提升用戶體驗(yàn)上發(fā)揮作用,也將誕生海量的數(shù)據(jù)資產(chǎn)。根據(jù)愛(ài)立信的報(bào)告,2020年大數(shù)據(jù)的產(chǎn)生量將接近目前的10倍,大數(shù)據(jù)的激增以及各類(lèi)大數(shù)據(jù)的融合使得大數(shù)據(jù)的大規(guī)模商業(yè)化和落地成為可能[1]。
電信運(yùn)營(yíng)商發(fā)展大數(shù)據(jù)具有天然的優(yōu)勢(shì),主要體現(xiàn)為數(shù)據(jù)資源的豐富性、完整性和連續(xù)性。
? ? 豐富性:主要指運(yùn)營(yíng)商擁有的數(shù)據(jù)涉及范圍廣,不但涉及財(cái)務(wù)收入、業(yè)務(wù)發(fā)展量等結(jié)構(gòu)化數(shù)據(jù),也會(huì)涉及圖片、文本、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量級(jí)已從TB(1 012 GB)發(fā)展至PB乃至ZB。
? ? 完整性:主要指運(yùn)營(yíng)商擁有的數(shù)據(jù)涵蓋全業(yè)務(wù)、全用戶和全渠道,數(shù)據(jù)信息完整。
? ? 連續(xù)性:主要指運(yùn)營(yíng)商擁有的數(shù)據(jù)記錄周期長(zhǎng),數(shù)據(jù)延續(xù)性好,覆蓋用戶從入網(wǎng)到離網(wǎng)前的全生命周期[2]。
大數(shù)據(jù)給電信運(yùn)營(yíng)商帶來(lái)機(jī)遇的同時(shí),也給運(yùn)營(yíng)商相關(guān)技術(shù)帶來(lái)極大挑戰(zhàn)[3]。
中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司(以下簡(jiǎn)稱安徽聯(lián)通)擁有龐大的用戶資源,隨著實(shí)名制的開(kāi)展,數(shù)據(jù)會(huì)更加翔實(shí),并通過(guò)分析移動(dòng)互聯(lián)網(wǎng)生成的多樣化數(shù)據(jù),了解人們生活的方方面面,具備非常高的價(jià)值純度。安徽聯(lián)通還具備豐富的IDC(integrated data center,集成數(shù)據(jù)中心)資源,能夠保證海量數(shù)據(jù)擁有足夠的存儲(chǔ)空間,從而保證數(shù)據(jù)分析的時(shí)間連續(xù)性,以把握數(shù)據(jù)趨勢(shì)。但是,安徽聯(lián)通傳統(tǒng)的建設(shè)模式基本采用封閉、獨(dú)立、各系統(tǒng)自成一體的建設(shè)方式,導(dǎo)致大量的數(shù)據(jù)分布在各個(gè)底層應(yīng)用系統(tǒng)中,沒(méi)有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),各自私有的數(shù)據(jù)結(jié)構(gòu),且存在大量的冗余建設(shè),如何有效地實(shí)現(xiàn)數(shù)據(jù)的各域、各系統(tǒng)的數(shù)據(jù)統(tǒng)一采集、治理、共享,將是安徽聯(lián)通面臨的巨大挑戰(zhàn),歸納起來(lái),有以下5點(diǎn)。
(1)接口復(fù)雜覆蓋面廣
智慧運(yùn)營(yíng)平臺(tái)的數(shù)據(jù)來(lái)源于安徽聯(lián)通各業(yè)務(wù)系統(tǒng),涉及計(jì)費(fèi)、網(wǎng)管、核心網(wǎng)、無(wú)線等跨領(lǐng)域業(yè)務(wù)。不同系統(tǒng)間數(shù)據(jù)結(jié)構(gòu)、接口千差萬(wàn)別,這就對(duì)大數(shù)據(jù)平臺(tái)的采集能力提出了很高的要求。如何保質(zhì)保量地將不同系統(tǒng)的數(shù)據(jù)準(zhǔn)確采集過(guò)來(lái),是智慧運(yùn)營(yíng)平臺(tái)數(shù)據(jù)整合首先要解決的問(wèn)題。例如,實(shí)時(shí)數(shù)據(jù)通過(guò)SDTP(serial data transport protocol,串行數(shù)據(jù)傳輸協(xié)議)進(jìn)行采集,B域的數(shù)據(jù)通過(guò)SFTP(secure file transfer protocol,安全文件傳輸協(xié)議)進(jìn)行采集,流日志數(shù)據(jù)通過(guò)syslog方式進(jìn)行采集;各系統(tǒng)的數(shù)據(jù)接口格式也存在千差萬(wàn)別,例如4G MR(mobile router,移動(dòng)路由器)數(shù)據(jù)是XML(extensible markup language,可擴(kuò)展標(biāo)記語(yǔ)言)報(bào)文格式,CBSS數(shù)據(jù)文件格式是固定長(zhǎng)度記錄格式,ECS是特殊字符串分割方式,大數(shù)據(jù)平臺(tái)需要支持各種差異化接口、格式,實(shí)現(xiàn)數(shù)據(jù)的異構(gòu)。
(2)數(shù)據(jù)標(biāo)準(zhǔn)不一致
不同業(yè)務(wù)系統(tǒng)對(duì)同一個(gè)事物的理解存在差異,同樣的事物可能具有不同的命名規(guī)則、不同的度量單位。如果不進(jìn)行有效的數(shù)據(jù)治理,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),大數(shù)據(jù)只能是一堆雜亂數(shù)據(jù)的集合,實(shí)現(xiàn)統(tǒng)一建模、統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),是智慧運(yùn)營(yíng)平臺(tái)面臨的最大挑戰(zhàn)。例如,在CBSS系統(tǒng)中流量單位是比特,但是,在BSS系統(tǒng)中流量單位為KB,兩者相差一個(gè)數(shù)量級(jí)。如果不進(jìn)行標(biāo)準(zhǔn)統(tǒng)一,就會(huì)導(dǎo)致數(shù)據(jù)失真,在大數(shù)據(jù)挖掘的過(guò)程中錯(cuò)誤會(huì)指數(shù)級(jí)別放大。
(3)異廠商技術(shù)壁壘
大數(shù)據(jù)平臺(tái)數(shù)據(jù)來(lái)源于各應(yīng)用廠商,各應(yīng)用廠商系統(tǒng)接口通常采用私有協(xié)議,具有特殊的數(shù)據(jù)結(jié)構(gòu),且不對(duì)外提供數(shù)據(jù)解析能力,導(dǎo)致大數(shù)據(jù)平臺(tái)采集數(shù)據(jù)后,需要協(xié)調(diào)各廠商提供數(shù)據(jù)解析支撐,并做好各廠商數(shù)據(jù)的異構(gòu)適配。因此,大幅度地提升了大數(shù)據(jù)平臺(tái)的數(shù)據(jù)采集難度,降低數(shù)據(jù)采集效率。例如,2G/3G 用戶MR數(shù)據(jù),中興通訊、華為、諾基亞西門(mén)子3個(gè)廠商數(shù)據(jù)格式各不一樣,任何兩個(gè)廠商之間數(shù)據(jù)都無(wú)法相互解析,大數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)采集后,需要根據(jù)業(yè)務(wù)理解對(duì)各廠商數(shù)據(jù)進(jìn)行定制化的轉(zhuǎn)化,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一建模,對(duì)外提供統(tǒng)一的數(shù)據(jù)格式。
(4)煙囪發(fā)展各自為政
由于歷史發(fā)展,各業(yè)務(wù)系統(tǒng)各自為政,形成一個(gè)個(gè)數(shù)據(jù)煙囪,煙囪長(zhǎng)短不一、數(shù)據(jù)質(zhì)量參差不齊,各業(yè)務(wù)分析支撐只能基于單系統(tǒng)數(shù)據(jù)展開(kāi),缺少一個(gè)全量數(shù)據(jù)的整合平臺(tái),影響數(shù)據(jù)價(jià)值的深度挖掘,智慧運(yùn)營(yíng)平臺(tái)將致力于抹平煙囪,實(shí)現(xiàn)全量數(shù)據(jù)的統(tǒng)一共享。
(5)開(kāi)放及安全防護(hù)
大數(shù)據(jù)的重要特點(diǎn)就是數(shù)據(jù)的開(kāi)放和互通,隨著大數(shù)據(jù)的廣泛應(yīng)用,數(shù)據(jù)共享和開(kāi)放勢(shì)在必行,但大數(shù)據(jù)平臺(tái)數(shù)據(jù)包含了大量的用戶隱私數(shù)據(jù),如用戶行為偏好、位置軌跡、消費(fèi)數(shù)據(jù)等隱私數(shù)據(jù),如何在不侵犯?jìng)€(gè)人隱私、保障數(shù)據(jù)安全的情況下,做好數(shù)據(jù)開(kāi)放實(shí)現(xiàn)互利共贏,是智慧運(yùn)營(yíng)平臺(tái)需要面對(duì)的一大挑戰(zhàn)。智慧運(yùn)營(yíng)平臺(tái)通過(guò)網(wǎng)絡(luò)隔離、數(shù)據(jù)加密、去隱私化等方式保障數(shù)據(jù)的安全[4]。
面對(duì)建設(shè)大數(shù)據(jù)遇到的挑戰(zhàn),安徽聯(lián)通迎難而上,自上而下明確了整體的工作思路:在組織機(jī)制保障下,借助智慧運(yùn)營(yíng)平臺(tái)相關(guān)建設(shè),實(shí)現(xiàn)大數(shù)據(jù)采集、建模、開(kāi)放及安全管理。
(1)組織保障
安徽聯(lián)通調(diào)整組織架構(gòu),成立了智慧運(yùn)營(yíng)專(兼)職運(yùn)營(yíng)團(tuán)隊(duì),負(fù)責(zé)智慧運(yùn)營(yíng)平臺(tái)建設(shè)及日常運(yùn)營(yíng)、需求受理等,并基于大數(shù)據(jù)挖掘的應(yīng)用場(chǎng)景使用。
(2)系統(tǒng)建設(shè)
安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)是業(yè)內(nèi)領(lǐng)先的企業(yè)級(jí)大數(shù)據(jù)平臺(tái),包括分布式存儲(chǔ)計(jì)算平臺(tái)、大數(shù)據(jù)應(yīng)該管理平臺(tái)、流處理平臺(tái)三大資源池,為大數(shù)據(jù)采集和整合奠定了堅(jiān)實(shí)基礎(chǔ)。
(3)數(shù)據(jù)整合
建立全新的四層融合數(shù)據(jù)模型,通過(guò)數(shù)據(jù)采集、數(shù)據(jù)建模、數(shù)據(jù)挖掘、數(shù)據(jù)服務(wù)和數(shù)據(jù)開(kāi)放等過(guò)程,實(shí)現(xiàn)了大數(shù)據(jù)的處理、加工、應(yīng)用和價(jià)值變現(xiàn)。
(4)數(shù)據(jù)安全
在流程方面建立嚴(yán)格的數(shù)據(jù)管理流程,數(shù)據(jù)的接入和獲取需要逐層審批,并實(shí)現(xiàn)不同賬號(hào)的分權(quán)分域;在平臺(tái)方面實(shí)現(xiàn)數(shù)據(jù)隔離,做到“進(jìn)不來(lái)、看不見(jiàn)、拿不走”的三“不”要求;在對(duì)外合作方面做到數(shù)據(jù)脫敏,保障用戶信息的安全。
(5)數(shù)據(jù)管理
依托智慧運(yùn)營(yíng)平臺(tái)的資產(chǎn)管理平臺(tái),建立一系列領(lǐng)先的大數(shù)據(jù)管理能力,實(shí)現(xiàn)對(duì)智慧運(yùn)營(yíng)平臺(tái)的數(shù)據(jù)以及數(shù)據(jù)生產(chǎn)的全生命周期進(jìn)行的全面管控。
安徽聯(lián)通于2016年底成功構(gòu)建基于華為FusionInsight解決方案的B域、O域數(shù)據(jù)融合的企業(yè)級(jí)大數(shù)據(jù)平臺(tái)——智慧運(yùn)營(yíng)平臺(tái),目的是對(duì)內(nèi)實(shí)現(xiàn)智慧運(yùn)營(yíng)、精準(zhǔn)營(yíng)銷(xiāo),對(duì)外實(shí)現(xiàn)價(jià)值變現(xiàn)。
智慧運(yùn)營(yíng)平臺(tái)基于“+1+”的理念構(gòu)建,即個(gè)可擴(kuò)展的數(shù)據(jù)源、1個(gè)企業(yè)級(jí)大數(shù)據(jù)融合平臺(tái)、基于平臺(tái)實(shí)現(xiàn)的多()個(gè)對(duì)內(nèi)、對(duì)外應(yīng)用,如圖1所示。遵循“+1+”的建設(shè)理念,安徽聯(lián)通在搭建智慧運(yùn)營(yíng)平臺(tái)架構(gòu)時(shí)首要考慮的是對(duì)融合數(shù)據(jù)的統(tǒng)一采集、統(tǒng)一存儲(chǔ)、跨域數(shù)據(jù)的共享以及跨域數(shù)據(jù)的精品應(yīng)用[5]。
安徽聯(lián)通現(xiàn)網(wǎng)有多個(gè)煙囪狀系統(tǒng),這些系統(tǒng)的數(shù)據(jù)相互獨(dú)立、類(lèi)型互不相同,如BSS、ECS、Gn上網(wǎng)日志、CS信令、基站小區(qū)基本信息、網(wǎng)絡(luò)感知系統(tǒng)、客服系統(tǒng)、號(hào)線資源系統(tǒng)等,通過(guò)梳理涉及的接口共197個(gè)。為了實(shí)現(xiàn)對(duì)任何系統(tǒng)各類(lèi)數(shù)據(jù)的統(tǒng)一采集,安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)摒棄傳統(tǒng)ETL(無(wú)法支持非結(jié)構(gòu)化文本,不支持流式數(shù)據(jù)處理),而采用云化ETL(BDI)技術(shù)。 BDI實(shí)現(xiàn)融合數(shù)據(jù)統(tǒng)一采集 & BDI功能視圖如圖2所示。
圖1 安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)“M+1+N”架構(gòu)
云化ETL(BDI)技術(shù)的數(shù)據(jù)采集功能支持采集多種類(lèi)型數(shù)據(jù),并將數(shù)據(jù)源不同的字段類(lèi)型進(jìn)行統(tǒng)一。如,OGG采集B域增量數(shù)據(jù)、FTP/SFTP對(duì)文本文件進(jìn)行抽取、Flume/Kafka對(duì)O域數(shù)據(jù)實(shí)時(shí)采集、RDB和MPPDB對(duì)數(shù)據(jù)庫(kù)直接采集等。數(shù)據(jù)轉(zhuǎn)換功能對(duì)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、統(tǒng)一標(biāo)準(zhǔn),包括過(guò)濾、分組、查找、去重、路由、合并、拆分、排序、轉(zhuǎn)換、聯(lián)合、統(tǒng)計(jì)、加密等,最終實(shí)現(xiàn)維度命名統(tǒng)一、數(shù)據(jù)數(shù)值統(tǒng)一等。數(shù)據(jù)加載/分發(fā)功能將融合數(shù)據(jù)加載分發(fā)到不同的數(shù)據(jù)源,支持異構(gòu)數(shù)據(jù)源并行加載、加載前過(guò)濾、加載前路由以及不落地加載等。
安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)采用FusionInsight Hadoop平臺(tái)作為融合數(shù)據(jù)統(tǒng)一存儲(chǔ)和處理中心,如圖3所示,采用分布式共享存儲(chǔ),不需要額外的磁陣和雙機(jī)軟件,實(shí)現(xiàn)現(xiàn)網(wǎng)B/O/M三域一份數(shù)據(jù)的統(tǒng)一集中化存儲(chǔ),確保B域全部、O域全部和M域核心價(jià)值數(shù)據(jù)的統(tǒng)一與一致性存儲(chǔ),并通過(guò)云化ETL平臺(tái)向數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)查詢庫(kù)和流處理平臺(tái)進(jìn)行統(tǒng)一分發(fā)[6]。
圖2 BDI實(shí)現(xiàn)融合數(shù)據(jù)統(tǒng)一采集 & BDI功能視圖
圖3 FusionInsight Hadoop邏輯架構(gòu)
安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)通過(guò)強(qiáng)大的多租戶能力(在一套服務(wù)器上運(yùn)行某個(gè)應(yīng)用實(shí)例,它為多個(gè)租戶提供服務(wù),租戶之間不感知)進(jìn)行權(quán)限控制和資源隔離,解決部門(mén)間大數(shù)據(jù)平臺(tái)資源共享與數(shù)據(jù)共享困難,實(shí)現(xiàn)跨域數(shù)據(jù)的共享。多租戶邏輯架構(gòu)如圖4所示。
安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)整合B/O域多種數(shù)據(jù)源,在如圖5所示的六大實(shí)體數(shù)據(jù)(參與人、服務(wù)、資源、賬務(wù)、營(yíng)銷(xiāo)、企業(yè)管理)和事件數(shù)據(jù)基礎(chǔ)上,通過(guò)表1的九大主題域統(tǒng)一建模,以“數(shù)據(jù)→信息→知識(shí)→智慧”為核心將跨域數(shù)據(jù)關(guān)聯(lián)的價(jià)值提煉。目前,采用的融合建模方法主要有維度建模(基于靜態(tài)信息,一般是“人”和“物”)和事件+規(guī)則建模(基于動(dòng)態(tài)信息,即時(shí)間軸模型,如離散模型、步進(jìn)模型、連續(xù)模型和恒定模型等),已經(jīng)在現(xiàn)網(wǎng)實(shí)現(xiàn)的跨域數(shù)據(jù)應(yīng)用主要有離網(wǎng)預(yù)測(cè)、云砥交通監(jiān)控、2G退網(wǎng)、用戶感知等精品應(yīng)用開(kāi)發(fā)等。
圖4 多租戶邏輯架構(gòu)
圖5 六大實(shí)體數(shù)據(jù)和事件數(shù)據(jù)
表1 九大主題域
大數(shù)據(jù)具備4 V特點(diǎn):volume(大量)、variety(多樣)、veleocity(高速)、value(價(jià)值),第一,數(shù)據(jù)體量巨大,從TB級(jí)別躍升為PB級(jí)別;第二,數(shù)據(jù)結(jié)果類(lèi)型繁多;第三,數(shù)據(jù)處理速度快,可以從各種類(lèi)型數(shù)據(jù)中快速獲得高價(jià)信息;第四,合理利用數(shù)據(jù)并進(jìn)行正確的分析,將會(huì)獲取高價(jià)值回報(bào)。
傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)在PB級(jí)數(shù)據(jù)處理上已經(jīng)力不從心,在大數(shù)據(jù)領(lǐng)域中,Hadoop目前已經(jīng)是大數(shù)據(jù)平臺(tái)中應(yīng)用效率最高的技術(shù),特別是針對(duì)文本、社交媒體訂閱及視頻等非結(jié)構(gòu)化數(shù)據(jù),支撐多種并行處理架構(gòu),如MapReduce、Spark、Storm;關(guān)注NoSQL數(shù)據(jù)庫(kù),解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)引擎瓶頸;基于內(nèi)存的并行實(shí)時(shí)分析,使實(shí)時(shí)流式數(shù)據(jù)分析成為可能。
安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)采用華為公司FusionInside-Hadoop + Universe 解決方案實(shí)現(xiàn),該技術(shù)架構(gòu)具備Hadoop所有的特性功能,并在Hadoop的基礎(chǔ)制定專業(yè)的應(yīng)用解決方案,使智慧運(yùn)營(yíng)平臺(tái)成為一個(gè)安全、開(kāi)放、便捷的大數(shù)據(jù)平臺(tái),主要具備以下功能特點(diǎn)。
智慧運(yùn)營(yíng)平臺(tái)支持對(duì)表、文件、消息等多種數(shù)據(jù)的實(shí)時(shí)增量數(shù)據(jù)采集(使用Flume、消息隊(duì)列、Ogg等技術(shù))和批量數(shù)據(jù)分布式采集等能力(Sqoop、FTP VOER HDFS),比基于傳統(tǒng)ETL的采集性能有數(shù)量級(jí)的提升,采集能力在業(yè)界處于領(lǐng)先地位。另外,還支持與DB2、Oracle、Hadoop(Hive)、Hadoop(Impala)、Hadoop(HBase)、Hadoop(Spark)、MPP(Aster)、MPP(GBase)、Sqlfire、GemfireXD以及IBM Streams共11類(lèi)數(shù)據(jù)庫(kù)技術(shù)平臺(tái)的對(duì)接,真正地實(shí)現(xiàn)了跨平臺(tái)開(kāi)發(fā)和數(shù)據(jù)管理。
表2 數(shù)據(jù)模型框架
智慧運(yùn)營(yíng)平臺(tái)將數(shù)據(jù)模型框架分為原始數(shù)據(jù)層(original data store,ODS)、基礎(chǔ)數(shù)據(jù)層(basic data store,BDS)、融合數(shù)據(jù)層(convergence information store,CIS)和應(yīng)用數(shù)據(jù)層(application data store,ADS)4個(gè)層次。原始數(shù)據(jù)層數(shù)據(jù)結(jié)構(gòu)與源系統(tǒng)完全一致,基礎(chǔ)數(shù)據(jù)模型、融合數(shù)據(jù)模型和應(yīng)用層是平臺(tái)重點(diǎn)建設(shè)的數(shù)據(jù)模型。數(shù)據(jù)模型架構(gòu)如圖6所示。
在智慧運(yùn)營(yíng)平臺(tái)總體設(shè)計(jì)中,遵循高層級(jí)可以從低層級(jí)獲取數(shù)據(jù)、低層級(jí)不允許從高層級(jí)獲取數(shù)據(jù)的整體原則,見(jiàn)表2。
圖6 數(shù)據(jù)模型框架
智慧運(yùn)營(yíng)平臺(tái)在數(shù)據(jù)融合方面,目前實(shí)現(xiàn)B域、O域數(shù)據(jù)融合,共采集八大系統(tǒng)300多個(gè)接口數(shù)據(jù),日存儲(chǔ)處理B域數(shù)據(jù)500 GB,O域數(shù)據(jù)10 TB,數(shù)據(jù)源見(jiàn)表3。
表3 數(shù)據(jù)源范圍
在數(shù)據(jù)準(zhǔn)確性方面,智慧運(yùn)營(yíng)平臺(tái)在建模階段開(kāi)始介入,制定嚴(yán)格數(shù)據(jù)校驗(yàn)規(guī)則及數(shù)據(jù)異常處理規(guī)則,確保模型加載數(shù)據(jù)的準(zhǔn)確性。針對(duì)跨域同類(lèi)數(shù)據(jù),安徽聯(lián)通獨(dú)創(chuàng)單用戶流程數(shù)據(jù)準(zhǔn)確性比較方案,取得平臺(tái)與網(wǎng)元及KPI對(duì)比差異小于1%,單天流量差異小于0.2%,當(dāng)天存在流量差異用戶比例小于30%的成果。
智慧運(yùn)營(yíng)平臺(tái)內(nèi)置多種計(jì)算框架(MapReduce、Spark、Storm),能夠高效地處理海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)。同時(shí),滿足批處理、實(shí)時(shí)處理等多種計(jì)算場(chǎng)景需求;可支持個(gè)性化、靈活多樣的調(diào)度策略編排,實(shí)現(xiàn)多種并行處理框架任務(wù)(如 MapReduce、Spark)的調(diào)度、關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)過(guò)程、shell腳本等調(diào)度。
智慧運(yùn)營(yíng)平臺(tái)基于分布式計(jì)算架構(gòu),整合業(yè)界先進(jìn)的挖掘算法,實(shí)現(xiàn)基于Hadoop的并行計(jì)算改造,充分利用大數(shù)據(jù)平臺(tái)強(qiáng)大的計(jì)算能力及豐富的數(shù)據(jù)資源,快速實(shí)現(xiàn)原始數(shù)據(jù)的二次挖掘,提升數(shù)據(jù)價(jià)值。目前,已經(jīng)集成的建模算法包含樸素貝葉斯、稀疏線性矩陣、決策樹(shù)、隨機(jī)森林、邏輯回歸、-means、社交網(wǎng)絡(luò)推薦、影響力傳播、協(xié)調(diào)過(guò)濾、線性回歸等一系列的挖掘算法。整個(gè)建模過(guò)程采用圖形化操作界面,大大降低了數(shù)學(xué)建模門(mén)檻,并支持系統(tǒng)自動(dòng)建模能力。
智慧運(yùn)營(yíng)平臺(tái)通過(guò)一整套的圖形化的開(kāi)發(fā)和維護(hù)工具,支持圖形化拖拽式開(kāi)發(fā),免代碼編寫(xiě),降低大數(shù)據(jù)應(yīng)用的開(kāi)發(fā)難度,業(yè)務(wù)需求響應(yīng)周期由周級(jí)別降低到小時(shí)級(jí)別,效率成倍提升。
6.6.1 重點(diǎn)區(qū)域KQI/KPI實(shí)時(shí)監(jiān)控能力
根據(jù)業(yè)務(wù)需求,快速制定對(duì)指定區(qū)域的KQI/KPI監(jiān)控任務(wù),對(duì)指定區(qū)域進(jìn)行實(shí)時(shí)KQI/KPI監(jiān)控,實(shí)現(xiàn)5 min粒度監(jiān)控自定義區(qū)域KQI/KPI狀態(tài)并上報(bào)告警,并可以通過(guò)地圖直觀呈現(xiàn)自定義區(qū)域中的異常區(qū)域,對(duì)網(wǎng)絡(luò)中關(guān)鍵指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控,制定保障方案。
6.6.2 移動(dòng)寬帶網(wǎng)絡(luò)可視化能力
基于MBB流量分析,實(shí)現(xiàn)現(xiàn)網(wǎng)流量的多維分析統(tǒng)計(jì)(網(wǎng)元、協(xié)議、APN、用戶、接入網(wǎng)、網(wǎng)站、位置、終端等),并提供多維實(shí)時(shí)的詳細(xì)報(bào)表,實(shí)現(xiàn)移動(dòng)寬帶網(wǎng)絡(luò)可視化。
6.6.3 端到端故障分析能力
打通UE(user equipment,用戶設(shè)備)到SP(signaling point,信令點(diǎn))鏈路所有網(wǎng)元,實(shí)現(xiàn)全網(wǎng)元特定業(yè)務(wù)的質(zhì)量分析,發(fā)現(xiàn)業(yè)務(wù)質(zhì)量問(wèn)題及根因,實(shí)現(xiàn)端到端故障定界,并可通過(guò)歷史數(shù)據(jù)的分析,發(fā)現(xiàn)潛在問(wèn)題和未來(lái)趨勢(shì)。
6.6.4 開(kāi)放的定制化能力
智慧運(yùn)營(yíng)平臺(tái)采用開(kāi)放式架構(gòu),基于智慧運(yùn)營(yíng)平臺(tái)可以實(shí)現(xiàn)應(yīng)用的百花齊放,目前已經(jīng)實(shí)現(xiàn)CSFB(circuit switched fallback,電路域交換回落)專題、Web質(zhì)差小區(qū)專題、高鐵專題、2G/3G/4G專題、OTT用戶行分析、校園用戶分析六大專題應(yīng)用。
? ? CSFB專題:分析對(duì)指定時(shí)間段內(nèi)、指定區(qū)域的CSFB業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,快速發(fā)現(xiàn)并上報(bào)問(wèn)題,對(duì)呼損類(lèi)問(wèn)題,使用呼損分析方式形象展示出問(wèn)題發(fā)生次數(shù)和所在位置,幫助運(yùn)營(yíng)商問(wèn)題定界。
? ? Web質(zhì)差小區(qū)專題:結(jié)合TCP管道指標(biāo),識(shí)別影響用戶感知的無(wú)線質(zhì)差小區(qū)。
? ? 高鐵專題:對(duì)高鐵用戶進(jìn)行精準(zhǔn)識(shí)別,針對(duì)性地進(jìn)行問(wèn)題處理。
?? 2G/3G/4G專題:分析2G/3G/4G用戶分布情況,高流量2G小區(qū)下用戶終端類(lèi)型、用戶業(yè)務(wù)量情況,為2G退網(wǎng)提供數(shù)據(jù)支撐。
?? OTT用戶分析專題:挖掘高價(jià)值用戶行為,為市場(chǎng)營(yíng)銷(xiāo)提供數(shù)據(jù)支撐。
? ? 校園分析專題:分析校園用戶感知情況、結(jié)合終端分布及用戶行為分析為市場(chǎng)進(jìn)行校園營(yíng)銷(xiāo)提供數(shù)據(jù)支撐。
用戶離網(wǎng)是指用戶因?yàn)槟撤N原因與運(yùn)營(yíng)商解除服務(wù)合同行為,即用戶停止消費(fèi)目前正在使用的電信產(chǎn)品或服務(wù),選擇其他運(yùn)營(yíng)商的產(chǎn)品或服務(wù),或者選擇該運(yùn)營(yíng)商的其他替代性電信產(chǎn)品或服務(wù)。
用戶的離網(wǎng)表現(xiàn)主要分為兩大類(lèi):競(jìng)爭(zhēng)性用戶離網(wǎng)和非競(jìng)爭(zhēng)性用戶離網(wǎng)。競(jìng)爭(zhēng)性用戶離網(wǎng)主要是由于其他運(yùn)營(yíng)商通過(guò)主動(dòng)方式向用戶提供更優(yōu)惠的資費(fèi)、服務(wù)導(dǎo)致用戶的離網(wǎng);非競(jìng)爭(zhēng)性離網(wǎng)是由于運(yùn)營(yíng)商自身的產(chǎn)品替代、電信政策調(diào)測(cè)或用戶自身行為對(duì)通信產(chǎn)品使用的調(diào)整造成的離網(wǎng)。
根據(jù)用戶的離網(wǎng)意愿可分為主動(dòng)離網(wǎng)和被動(dòng)離網(wǎng),被動(dòng)離網(wǎng)又分為無(wú)意離網(wǎng)和蓄意離網(wǎng),從現(xiàn)網(wǎng)實(shí)際數(shù)據(jù)分析,蓄意離網(wǎng)占整個(gè)離網(wǎng)用戶的80%以上,這部分用戶主要受到企業(yè)產(chǎn)品或服務(wù)的技術(shù)原因、經(jīng)濟(jì)原因等影響離網(wǎng),是本次大數(shù)據(jù)應(yīng)用研究預(yù)測(cè)的對(duì)象。
7.3.1 離網(wǎng)預(yù)測(cè)算法
安徽聯(lián)通離網(wǎng)模型采用隨機(jī)森林算法,該算法是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器。每個(gè)決策樹(shù)的形成采用了隨機(jī)方法,各決策樹(shù)之間無(wú)關(guān)聯(lián)、彼此獨(dú)立,所有決策樹(shù)訓(xùn)練都是采用同樣的參數(shù),但是每棵樹(shù)的訓(xùn)練集不同。隨機(jī)森林對(duì)輸入的數(shù)據(jù)要進(jìn)行和列的隨機(jī)采樣,并保證采樣過(guò)程的隨機(jī)性,所以不容易出現(xiàn)over-fitting,且該算法實(shí)現(xiàn)相對(duì)簡(jiǎn)單、運(yùn)行速度快,容易基于Hadoop實(shí)現(xiàn)并行計(jì)算等特點(diǎn),所以本次離網(wǎng)預(yù)測(cè)課題,采用隨機(jī)森林算法進(jìn)行建模[9-16]。
7.3.2 離網(wǎng)預(yù)測(cè)模型
本離網(wǎng)預(yù)測(cè)模型采用隔月預(yù)測(cè)未來(lái)3月離網(wǎng)方式進(jìn)行建模打標(biāo),目的在于提前發(fā)現(xiàn)準(zhǔn)離網(wǎng)用戶,并拉大維系挽留動(dòng)作實(shí)施窗口,該預(yù)測(cè)方式建模更具備實(shí)際使用價(jià)值,建模打標(biāo)方式如圖7所示。
圖7 離網(wǎng)打標(biāo)簽原理
表4 離網(wǎng)用戶關(guān)鍵數(shù)據(jù)屬性字段
本離網(wǎng)課題與其他課題項(xiàng)目在數(shù)據(jù)選擇上有明顯區(qū)別,其他課題數(shù)據(jù)均來(lái)自BSS系統(tǒng)數(shù)據(jù),本課題數(shù)據(jù)結(jié)合CBSS、ECS、客服、O域用戶網(wǎng)絡(luò)感知數(shù)據(jù)。在數(shù)據(jù)周期上,本課題采用數(shù)據(jù)周期較長(zhǎng),數(shù)據(jù)周期大于6個(gè)月,通過(guò)用戶消費(fèi)趨勢(shì)變化數(shù)據(jù),更直觀反映用戶的離網(wǎng)情況,具體指標(biāo)參數(shù)見(jiàn)表4。
7.3.3 模型構(gòu)建
本預(yù)測(cè)應(yīng)用構(gòu)建工具采用華為公司大數(shù)據(jù)Universe平臺(tái)的SmartMiner工具進(jìn)行建模。SmartMiner是華為大數(shù)據(jù)平臺(tái)中的一個(gè)支持圖形化開(kāi)發(fā)的專業(yè)的數(shù)據(jù)挖掘工具,基于Spark的分布式內(nèi)存處理框架,集成了大量的數(shù)據(jù)挖掘算法,借助大數(shù)據(jù)平臺(tái)強(qiáng)大數(shù)據(jù)并行處理能力,批量、快速、便捷地實(shí)現(xiàn)數(shù)據(jù)建模挖掘工作。
本次應(yīng)用建模使用SmartMiner中的隨機(jī)森林算法實(shí)現(xiàn),共建200棵隨機(jī)樹(shù),使用SQR采樣方法,樹(shù)的最大深度15層,葉子最小樣本數(shù)100個(gè),最大分箱數(shù)32。
本次建模采用兩種方式:方式一采用使用4個(gè)月歷史數(shù)據(jù),次月給前一個(gè)月打標(biāo)標(biāo)簽,采用當(dāng)前月數(shù)據(jù)預(yù)測(cè)次月離網(wǎng)情況;方式二采用7個(gè)月歷史數(shù)據(jù),使用隔月后未來(lái)3個(gè)月數(shù)據(jù)該月打標(biāo)簽,使用當(dāng)前月數(shù)據(jù)隔月后預(yù)測(cè)未來(lái)3個(gè)月用戶離網(wǎng)情況。
7.3.4 模型評(píng)估
本次課題采用查準(zhǔn)率和查全率2個(gè)指標(biāo)來(lái)評(píng)估模型的預(yù)測(cè)結(jié)果,其計(jì)算式如下。
查準(zhǔn)率 = 預(yù)測(cè)為離網(wǎng)且最終離網(wǎng)的用戶/預(yù)測(cè)離網(wǎng)用戶數(shù)據(jù) (1)
查全率 = 預(yù)測(cè)為離網(wǎng)且最終離網(wǎng)的用戶/實(shí)際離網(wǎng)用戶數(shù) (2)
采用近期歷史數(shù)據(jù)進(jìn)行建模和評(píng)估,得到表5、表6、表7所示的評(píng)估數(shù)據(jù)。
表5 預(yù)付費(fèi)用戶預(yù)測(cè)次月離網(wǎng)結(jié)果(2016年12月)
表6 預(yù)付費(fèi)用戶隔月預(yù)測(cè)次3月離網(wǎng)結(jié)果(2017年2月)
表7 后付費(fèi)用戶隔月預(yù)測(cè)次3月離網(wǎng)結(jié)果(2017年2月)
根據(jù)業(yè)內(nèi)的統(tǒng)計(jì)數(shù)據(jù),國(guó)內(nèi)運(yùn)營(yíng)商的離網(wǎng)預(yù)測(cè)模型查準(zhǔn)率達(dá)到40%,查全率達(dá)到60%,就即可算作優(yōu)秀的離網(wǎng)預(yù)測(cè)模型,根據(jù)表5、表6、表7的結(jié)果可以得出,采用隨機(jī)森林算法的預(yù)測(cè)模型在查準(zhǔn)率方面有非常大的優(yōu)勢(shì)。
分析歷史離網(wǎng)用戶與非離網(wǎng)用戶屬性分布,從而確定對(duì)應(yīng)屬性特征閾值,然后,分析預(yù)測(cè)用戶的對(duì)應(yīng)屬性的均值和標(biāo)準(zhǔn)差,計(jì)算對(duì)應(yīng)屬性偏好值=(屬性?屬性平均值)/方差,從而確定屬性特征閾值(0.5或?0.5),確定該用戶的離網(wǎng)根因,共分析總結(jié)11類(lèi)離網(wǎng)根因,見(jiàn)表8。
經(jīng)實(shí)踐數(shù)據(jù)驗(yàn)證,符合離網(wǎng)根因用戶離網(wǎng)率的實(shí)際離網(wǎng)率,相對(duì)于全網(wǎng)用戶的離網(wǎng)率有明顯提升,離網(wǎng)根因應(yīng)用效果見(jiàn)表9、表10。
表8 離網(wǎng)根因
表9 2017年1月非三無(wú)用戶未來(lái)3個(gè)月離網(wǎng)率10.4%
表10 2017年1月預(yù)測(cè)Top40萬(wàn)用戶在后3個(gè)月實(shí)際離網(wǎng)21.6萬(wàn),查準(zhǔn)率54.18%
安徽聯(lián)通緊抓大數(shù)據(jù)發(fā)展的時(shí)代脈搏,敢于創(chuàng)新、敢于挑戰(zhàn),在全國(guó)運(yùn)營(yíng)商中率先實(shí)現(xiàn)技術(shù)、架構(gòu)先進(jìn)的企業(yè)級(jí)融合大數(shù)據(jù)平臺(tái),完成安徽聯(lián)通B/O/M域數(shù)據(jù)的接入及治理,實(shí)現(xiàn)安徽聯(lián)通的數(shù)字化轉(zhuǎn)型及全業(yè)務(wù)流程的智慧運(yùn)營(yíng),并基于平臺(tái)的開(kāi)放架構(gòu),與融合大數(shù)據(jù)領(lǐng)域合作伙伴合作實(shí)現(xiàn)大數(shù)據(jù)對(duì)外應(yīng)用的百花齊放。
企業(yè)級(jí)融合大數(shù)據(jù)平臺(tái)是個(gè)不斷迭代的過(guò)程,未來(lái),安徽聯(lián)通智慧運(yùn)營(yíng)平臺(tái)還將朝著“更大、更全、更準(zhǔn)”的方向不斷邁進(jìn),并探索專業(yè)化的團(tuán)隊(duì)建設(shè),通過(guò)PaaS化功能完善,實(shí)現(xiàn)對(duì)內(nèi)、對(duì)外應(yīng)用的百花齊放。
[1] 童曉渝, 張?jiān)朴? 房秉毅, 等. 大數(shù)據(jù)時(shí)代電信運(yùn)營(yíng)商的機(jī)遇[J]. 信息通信技術(shù), 2013(1): 5-9.
TONG X Y, ZHANG Y Y, FANG B Y, et al. Opportunities and strategies to adopt big data for telecom operators [J]. Information and Communications Technolog, 2013(1): 5-9.
[2] 左超, 耿慶鵬, 劉旭峰. 基于大數(shù)據(jù)的電信業(yè)務(wù)發(fā)展策略研究[J]. 郵電設(shè)計(jì)技術(shù), 2013(10): 1-4.
ZUO C, GENG Q P, LIU X F. Study on operator’s development st rategy for big data business [J]. Designing Techniques of Posts and Telecommunications, 2013(10): 1-4.
[3] 丁俊發(fā).大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J]. 硅谷, 2013(1): 9-10.
DING J F. Opportunities and strategies in big data era [J]. Silicon Valley, 2013(1): 9-10.
[4] 馮登國(guó), 張敏, 李昊. 大數(shù)據(jù)安全與隱私保護(hù)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(1): 246-258.
FENG D G, ZHANG M, LI H. Big data security and privacy protection [J]. Chinese Journal of Computers, 2014, 37(1): 246-258.
[5] 韓晶, 張智江, 王健全, 等. 面向統(tǒng)一運(yùn)營(yíng)的電信運(yùn)營(yíng)商大數(shù)據(jù)戰(zhàn)略[J]. 電信科學(xué), 2014, 30(11): 154-158.
HAN J, ZHANG Z J, WANG J Q, et al. The unified-operation- oriented big data strategy for telecom operators [J]. Telecommunications Science, 2014, 30(11): 154-158.
[6] 于鵑. 數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)融合的探討[J]. 電信科學(xué), 2015, 31(3): 166-170.
YU J. Discussion on integration of data warehouse and big data [J]. Telecommunications Science, 2015, 31(3): 166-170.
[7] 廖建新. 大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望[J]. 電信科學(xué), 2015, 31(7): 7-18.
LIAO J X. Big data technology: current applications and prospects [J]. Telecommunications Science, 2015, 31(7): 7-18.
[8] 王帥, 汪來(lái)富, 金華敏, 等. 網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J]. 電信科學(xué), 2015, 31(7): 145-150.
WANG S, WANG L F, JIN H M, et al. Big data application in network security analysis [J]. Telecommunications Science, 2015, 31(7): 145-150.
[9] ALMANA A M, AKSOY M S, ALZAHRANI R. A survey on data mining techniques in customer churn analysis for telecom industry[J]. Journal of Engineering Research and Applications, 2014, 4(5): 165-171.
[10] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[11] AU W, CHAN K, YAO X. A novel evolutionary data mining algorithm with applications to churn prediction[J]. IEEE Transactions on Evolutionary Computation, 2003, 7(6): 532-545.
[12] OSEMAN K B,BINTI S, SHUKOR M, et al. Data mining in churn analysis model for telecommunication industry[J]. Journal of Statistical Modeling and Analytics, 2010 (1): 19-27.
[13] JUNQUE D, MARTENS D, PROVOST F. Predictive modeling with big data: is bigger really better? [J]. Big Data, 2013, 1(4): 215-226.
[14] KIM N, JUNG K H, YONG S K, et al. Uniformly subsampled ensemble (use) for churn management: theory and implementation [J]. Expert Systems with Applications, 2012, 39(15): 11839-11845.
[15] COUSSEMENT K, POEL D. Churn prediction in subscription services: an application of support vector machines while comparing two parameter-selection techniques[J]. Expert Systems with Applications, 2008, 34(1): 313-327.
[16] GUYON I, LEMAIRE V, VOGEL D, et al. Analysis of the KDD cup 2009: fast scoring on a large orange customer database[J]. ACM SIGKDD Explorations Newsletter, 2009, 11(2): 1-22.
Construction and application of Anhui Unicom enterprise big data platform
WU Tao, LIU Tao, WANG Bin
Anhui Branch of China United Network Communications Co., Ltd., Hefei 230069, China
The challenges and opportunities faced by Anhui Unicom of big data construction, and the experience of Anhui Unicom rapidly constructing B+O convergent smart operation platform which realized multi-dimensional and multi-level fusion management of cross-domain platform were summarized. In addition, the customer off-grid prediction was also deeply studied by Anhui Unicom. Achieving the off-grid prediction model through the big data platform which made the precision ratio get 90% and the recall ration get 9%. On the other hand, the big data platform has been popularized to other departments by integrated applications, such as, user awareness enhancement etc. Internal operation efficiency was improved and NOC (network operations center) was transformed to SOC (service operations center).
carrier big data, B+O convergent scenario, big data applications of off-grid prediction, transform from NOC to SOC
TP319
A
10.11959/j.issn.1000?0801.2018036
2017?12?10;
2018?01?10
吳濤(1973?),男,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司副總經(jīng)理、大數(shù)據(jù)項(xiàng)目總負(fù)責(zé)人、數(shù)據(jù)分析顧問(wèn),主要研究方向?yàn)閿?shù)據(jù)分析與用戶感知提升、精準(zhǔn)化營(yíng)銷(xiāo)分析與數(shù)據(jù)挖掘、用戶消費(fèi)行為。
劉韜(1976?),男,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司計(jì)劃建設(shè)與資產(chǎn)運(yùn)營(yíng)部數(shù)據(jù)分析師,主要研究方向?yàn)榇髷?shù)據(jù)平臺(tái)架構(gòu)及搭建、B/O域基礎(chǔ)數(shù)據(jù)融合、數(shù)據(jù)分析、行業(yè)大數(shù)據(jù)應(yīng)用。
王斌(1975?),男,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司計(jì)劃建設(shè)與資產(chǎn)運(yùn)營(yíng)部副總經(jīng)理,主要負(fù)責(zé)大數(shù)據(jù)平臺(tái)架構(gòu)、數(shù)據(jù)分析顧問(wèn)、用戶消費(fèi)行為數(shù)據(jù)分析、行業(yè)大數(shù)據(jù)應(yīng)用研究等工作。