[李清亮]
隨著移動(dòng)通信網(wǎng)絡(luò)制式從2G、3G 到4G,再到現(xiàn)在的5G,移動(dòng)通信技術(shù)的更新?lián)Q代與移動(dòng)互聯(lián)網(wǎng)用戶及終端多樣化需求的劇增相互影響,網(wǎng)絡(luò)的業(yè)務(wù)承載能力以及網(wǎng)絡(luò)平臺(tái)服務(wù)能力的要求更是逐步攀升。因此,網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)的維度、體量以及實(shí)時(shí)性要求也隨之迫切,而來自網(wǎng)絡(luò)運(yùn)行健康狀態(tài)、用戶測量反饋、系統(tǒng)參數(shù)配置優(yōu)化等方面的監(jiān)測、透視能力也亟需解決。在過去網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)體量還比較小的2G、3G 時(shí)代,數(shù)據(jù)處理思路經(jīng)歷下載、入庫、解壓、運(yùn)算、輸出等單步驟進(jìn)行;但到了4G 網(wǎng)絡(luò)時(shí),運(yùn)行數(shù)據(jù)量則每小時(shí)以T 級(jí)產(chǎn)生,已經(jīng)開始存在數(shù)據(jù)下載速度慢、處理效率低容易造成數(shù)據(jù)丟失、時(shí)效性差等問題;到5G 時(shí)代數(shù)據(jù)量更是以P 級(jí)的體量產(chǎn)生,且5G 系統(tǒng)部署將控制面與業(yè)務(wù)面分離、空口技術(shù)更新升級(jí),現(xiàn)有技術(shù)手段已經(jīng)不能完全滿足信息的提取分析及運(yùn)維優(yōu)化需求,由于系統(tǒng)運(yùn)行數(shù)據(jù)要求更加完整、準(zhǔn)確和及時(shí),那么必須打破傳統(tǒng)技術(shù)手段,從數(shù)據(jù)采集源頭到問題預(yù)警找到新的解決辦法。
為制定基于多維數(shù)據(jù)的移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視方案,本項(xiàng)目總體研究路線必須包括數(shù)據(jù)實(shí)時(shí)采集解析技術(shù)、網(wǎng)絡(luò)運(yùn)行信息深度檢測技術(shù)、智能監(jiān)控模型算法三個(gè)方面。
詳細(xì)研究路線圖如圖1 所示。
圖1 基于多維大數(shù)據(jù)的移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視技術(shù)研究路線
其中數(shù)據(jù)實(shí)時(shí)采集解析技術(shù)的主要內(nèi)容是基于文件索引數(shù)據(jù)庫技術(shù)、持續(xù)輪詢技術(shù)、智能最優(yōu)調(diào)度算法、健康度檢測算法、時(shí)間多維匯聚梯度算法;網(wǎng)絡(luò)運(yùn)行信息深度檢測技術(shù)的主要內(nèi)容是對(duì)海量信息進(jìn)行升維和降維的技術(shù);智能監(jiān)控模型算法的主要內(nèi)容是梯度擴(kuò)散的KNN 監(jiān)控算法模型的設(shè)計(jì)。
(1)解決海量數(shù)據(jù)下載時(shí)延過長的技術(shù)瓶頸
5G 網(wǎng)絡(luò)用戶測量數(shù)據(jù)、運(yùn)維數(shù)據(jù)、配置數(shù)據(jù)以及設(shè)備種類多等,后臺(tái)生成海量的大數(shù)據(jù)需要采集下載,數(shù)據(jù)處理量比以往2G、3G、4G 網(wǎng)絡(luò)增加成千上萬倍,導(dǎo)致數(shù)據(jù)下載時(shí)延過長,起碼多1~2 天,因此必須引入新的技術(shù)和方法才能有效解決。
(2)提高海量數(shù)據(jù)解析結(jié)果的完整性和準(zhǔn)確性
5G 網(wǎng)絡(luò)業(yè)務(wù)特性、場景化應(yīng)用等產(chǎn)生的海量信息對(duì)大數(shù)據(jù)采集和解析的完整性、準(zhǔn)確性和一致性的要求極高,數(shù)據(jù)分析才能可靠和滿足需求。
(3)解決海量數(shù)據(jù)無法實(shí)時(shí)匯聚和無法高效運(yùn)行的技術(shù)難題
網(wǎng)絡(luò)服務(wù)存儲(chǔ)的數(shù)據(jù)信息量龐大,按日常統(tǒng)計(jì)分析需求,要進(jìn)行分鐘、小時(shí)、天、周、月粒度等多維度的準(zhǔn)實(shí)時(shí)匯總,數(shù)據(jù)庫存在信息量巨大導(dǎo)致無法高效運(yùn)行的技術(shù)瓶頸。
(4)深度檢測與智能呈現(xiàn)網(wǎng)絡(luò)運(yùn)行現(xiàn)狀和網(wǎng)絡(luò)服務(wù)質(zhì)量
優(yōu)化現(xiàn)有數(shù)據(jù)檢測能力,深度檢測與智能呈現(xiàn)網(wǎng)絡(luò)運(yùn)行現(xiàn)狀和網(wǎng)絡(luò)服務(wù)質(zhì)量。
(5)建立監(jiān)控對(duì)象業(yè)務(wù)算法模型,智能動(dòng)態(tài)預(yù)警網(wǎng)絡(luò)問題
建立監(jiān)控對(duì)象業(yè)務(wù)模型,以用戶數(shù)據(jù)、測量數(shù)據(jù)、網(wǎng)絡(luò)指標(biāo)、網(wǎng)絡(luò)配置等數(shù)據(jù)為基礎(chǔ)實(shí)現(xiàn)智能動(dòng)態(tài)預(yù)警網(wǎng)絡(luò)問題。
(1)基于文件索引數(shù)據(jù)庫技術(shù)和持續(xù)輪詢技術(shù)
基于文件索引數(shù)據(jù)庫技術(shù)和持續(xù)輪詢技術(shù)實(shí)現(xiàn)文件準(zhǔn)實(shí)時(shí)同步,解決海量數(shù)據(jù)下載時(shí)延過長的技術(shù)瓶頸。
傳統(tǒng)數(shù)據(jù)的下載方式是等待數(shù)據(jù)完全生成完畢,然后批量下載文件到本地,造成下載延遲嚴(yán)重,且下載過程長時(shí)間占用服務(wù)器帶寬。針對(duì)時(shí)延和帶寬問題,加入本地文件索引數(shù)據(jù)庫、持續(xù)輪詢方式對(duì)生成的文件進(jìn)行循環(huán)的不重復(fù)下載,實(shí)現(xiàn)了準(zhǔn)實(shí)時(shí)同步,可以解決海量數(shù)據(jù)下載時(shí)間延時(shí)過長的技術(shù)難題。
(2)智能最優(yōu)調(diào)度算法和健康度檢測算法
應(yīng)用智能最優(yōu)調(diào)度算法和健康度檢測算法,提高海量數(shù)據(jù)解析結(jié)果的完整性和準(zhǔn)確性。
5G 網(wǎng)絡(luò)業(yè)務(wù)特性、場景化應(yīng)用等產(chǎn)生的海量信息對(duì)大數(shù)據(jù)采集和解析的完整性、準(zhǔn)確性和一致性的要求極高,數(shù)據(jù)分析才能可靠和滿足需求。利用分布式的master-slaver模型結(jié)合FTP 的長時(shí)間執(zhí)行的特點(diǎn),設(shè)計(jì)任務(wù)生成器和任務(wù)執(zhí)行器,并通過被動(dòng)的輪詢方式實(shí)現(xiàn)生成器和執(zhí)行器中的任務(wù)信息同步,在任務(wù)的調(diào)度中加入基于下載器的任務(wù)數(shù)量的均衡算法,實(shí)現(xiàn)任務(wù)生成器與任務(wù)執(zhí)行器最優(yōu)調(diào)度,并能穩(wěn)定執(zhí)行計(jì)算。
在master-slaver 模型的文件下載任務(wù)系統(tǒng)中,由于是分布式的多機(jī)器執(zhí)行,且執(zhí)行的任務(wù)是長時(shí)的,故容易因?yàn)榫W(wǎng)絡(luò)的不穩(wěn)定性而造成任務(wù)生成器與任務(wù)執(zhí)行器之間的任務(wù)信息不同步。針對(duì)長時(shí)任務(wù)同步問題,設(shè)計(jì)了服務(wù)器的健康度統(tǒng)計(jì)算法,通過對(duì)服務(wù)器的健康度統(tǒng)計(jì),任務(wù)生成器智能的判斷任務(wù)執(zhí)行器是否具備任務(wù)執(zhí)行能力而優(yōu)化任務(wù)的發(fā)布,有效的實(shí)現(xiàn)網(wǎng)絡(luò)容錯(cuò),提高數(shù)據(jù)準(zhǔn)確性。
(3)時(shí)間多維匯聚梯度算法
基于時(shí)間多維匯聚梯度算法,解決海量數(shù)據(jù)無法實(shí)時(shí)匯聚和無法高效運(yùn)行的技術(shù)難題。
網(wǎng)絡(luò)服務(wù)存儲(chǔ)的數(shù)據(jù)信息量龐大,按日常統(tǒng)計(jì)分析需求,要進(jìn)行分鐘、小時(shí)、天、周、月粒度等多維度的準(zhǔn)實(shí)時(shí)匯總,數(shù)據(jù)庫存在信息量巨大導(dǎo)致無法高效運(yùn)行的技術(shù)瓶頸。
為了減少數(shù)據(jù)庫運(yùn)行壓力并且滿足多種時(shí)間粒度的準(zhǔn)實(shí)時(shí)匯總,設(shè)計(jì)基于時(shí)間多維匯聚梯隊(duì)算法,對(duì)目標(biāo)指標(biāo)進(jìn)行分解得到多個(gè)中間過程,使大時(shí)間粒度的指標(biāo)計(jì)算從大量基礎(chǔ)數(shù)據(jù)匯總成可通過小數(shù)據(jù)量的多個(gè)小時(shí)間粒度的中間過程數(shù)據(jù)匯聚,解決數(shù)據(jù)庫的運(yùn)算壓力。
(4)對(duì)海量信息進(jìn)行升維和降維
結(jié)合SVD降維、高維映射、隨機(jī)森林等各種算法精髓,對(duì)海量信息利用升維和降維的技術(shù)手段,實(shí)現(xiàn)同一數(shù)據(jù)多維度分析智能展示和過濾數(shù)據(jù)傾斜的檢測能力,深度檢測與智能呈現(xiàn)網(wǎng)絡(luò)運(yùn)行現(xiàn)狀和網(wǎng)絡(luò)服務(wù)質(zhì)量。
例如:我們很難將隨機(jī)分布在桌面的紅色和藍(lán)色的點(diǎn)按區(qū)域區(qū)分出來,但是通過高維映射的手段,我們設(shè)法將所有的點(diǎn)映射到三維空間,這樣我們可以設(shè)法找到一個(gè)超平面將紅色和藍(lán)色的點(diǎn)按區(qū)域完美區(qū)分出來,如圖2 所示。我們將這種思路應(yīng)用到海量的網(wǎng)絡(luò)運(yùn)行產(chǎn)生的數(shù)據(jù)分析中,就能夠突破以往數(shù)據(jù)分析的極限,實(shí)現(xiàn)同一數(shù)據(jù)多維度分析智能展示和過濾數(shù)據(jù)傾斜的檢測能力,深度檢測與智能呈現(xiàn)網(wǎng)絡(luò)運(yùn)行現(xiàn)狀和網(wǎng)絡(luò)服務(wù)質(zhì)量。
圖2 基于高維映射將紅點(diǎn)和藍(lán)點(diǎn)按區(qū)域完美區(qū)分示意圖
(5)梯度擴(kuò)散的KNN 監(jiān)控算法模型
建立監(jiān)控對(duì)象業(yè)務(wù)模型,以用戶數(shù)據(jù)、測量數(shù)據(jù)、網(wǎng)絡(luò)指標(biāo)、網(wǎng)絡(luò)配置等數(shù)據(jù)的眾數(shù)為中心生成梯度擴(kuò)散的KNN 監(jiān)控算法模型,實(shí)現(xiàn)智能動(dòng)態(tài)預(yù)警網(wǎng)絡(luò)問題。
例如:如圖3 所示,通過長期歷史數(shù)據(jù)的挖掘,我們可以按15 分鐘粒度建立監(jiān)控對(duì)象的業(yè)務(wù)模型。
圖3 基于15 分鐘粒度建立監(jiān)控對(duì)象的業(yè)務(wù)模型
然后通過實(shí)時(shí)采集解析該對(duì)象15 分鐘粒度的指標(biāo),與該對(duì)象的業(yè)務(wù)模型進(jìn)行對(duì)比,如圖4 所示,基于時(shí)間梯度擴(kuò)散的某對(duì)象業(yè)務(wù)實(shí)時(shí)監(jiān)控對(duì)比圖所示,可以發(fā)現(xiàn)從3:30:00 開始,該網(wǎng)元指標(biāo)呈現(xiàn)明顯波動(dòng),系統(tǒng)可以實(shí)時(shí)做出預(yù)警。
圖4 基于時(shí)間梯度擴(kuò)散的某對(duì)象業(yè)務(wù)實(shí)時(shí)監(jiān)控對(duì)比圖
(6)系統(tǒng)平臺(tái)研制
在對(duì)多維數(shù)據(jù)準(zhǔn)確、完整、實(shí)時(shí)的采集、解析、入庫方案研究的基礎(chǔ)上,再通過深度學(xué)習(xí)的方法建立網(wǎng)絡(luò)話務(wù)模型。在此基礎(chǔ)上,通過系統(tǒng)開發(fā)可以實(shí)現(xiàn)基于多維大數(shù)據(jù)的移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視系統(tǒng),移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視系統(tǒng)邏輯架構(gòu)圖如圖5 所示。
圖5 移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視系統(tǒng)邏輯架構(gòu)圖
移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視系統(tǒng)物理架構(gòu)圖如圖6所示。
圖6 移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視系統(tǒng)物理架構(gòu)圖
移動(dòng)通信網(wǎng)絡(luò)運(yùn)行信息透視系統(tǒng)選擇成熟的開源軟件作為基礎(chǔ),文件系統(tǒng)、數(shù)據(jù)庫均為分布式架構(gòu);
CephFS分布式文件系統(tǒng)提供多機(jī)器的數(shù)據(jù)共享能力,更方便的實(shí)現(xiàn)數(shù)據(jù)采集器、數(shù)據(jù)解析器、數(shù)據(jù)入庫程序的數(shù)據(jù)共享。
采集器采用微服務(wù)技術(shù)實(shí)現(xiàn)對(duì)采集器、數(shù)據(jù)解析器、數(shù)據(jù)入庫程序的分布式部署,具備消息隊(duì)列、注冊中心、feign 等輔助功能。
zabbix 實(shí)現(xiàn)對(duì)集群的可視化監(jiān)控、數(shù)據(jù)采集器、數(shù)據(jù)解析器采用python 語言自主研發(fā),支持分布式、多線程,能穩(wěn)定并發(fā)執(zhí)行計(jì)算。
本文研究采用大數(shù)據(jù)、智能算法等新一代信息技術(shù),對(duì)網(wǎng)絡(luò)運(yùn)行信息透視技術(shù)進(jìn)行新的研究與應(yīng)用。研究成果可以突破現(xiàn)有系統(tǒng)平臺(tái)發(fā)展瓶頸,以低成本,快速、直觀地發(fā)現(xiàn)網(wǎng)絡(luò)的問題,把網(wǎng)絡(luò)優(yōu)化水平提升到更高的層次,打造服務(wù)新業(yè)態(tài),促進(jìn)產(chǎn)業(yè)升級(jí)轉(zhuǎn)型。