許保德+巫江濤
隨著移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)業(yè)務(wù)的快速發(fā)展,以及電信網(wǎng)絡(luò)結(jié)構(gòu)的演變,傳統(tǒng)的網(wǎng)絡(luò)問題分析方法已經(jīng)不能適應(yīng)當(dāng)前服務(wù)環(huán)境和網(wǎng)絡(luò)環(huán)境,需要轉(zhuǎn)變思路。大數(shù)據(jù)技術(shù)提供了分布式并行處理大數(shù)據(jù)量的機(jī)制,能夠快速處理海量的數(shù)據(jù),為運(yùn)營(yíng)商以用戶感知為中心分析和定界定位問題提供了技術(shù)基礎(chǔ)。
定界定位的基本思路
每個(gè)運(yùn)營(yíng)商都在不定時(shí)產(chǎn)生著不同的業(yè)務(wù)數(shù)據(jù),當(dāng)業(yè)務(wù)出現(xiàn)問題,就需要排查原因。傳統(tǒng)的問題定界定位方法一般是按照網(wǎng)絡(luò)設(shè)備的上下級(jí)關(guān)系逐級(jí)查找指標(biāo)差的占比,例如從全網(wǎng)到核心網(wǎng)網(wǎng)元,然后分析與核心網(wǎng)網(wǎng)元交互的無(wú)線側(cè)小區(qū)的指標(biāo),希望能夠找出明顯劣化的點(diǎn),找到劣化點(diǎn)后,再鉆取出異常的原始話單和原始信令,分析出原因。
這種金字塔式的分析方法存在以下弊端:
分析問題的入口是頂層的指標(biāo),而該指標(biāo)是大量樣本綜合計(jì)算的結(jié)果,對(duì)少量的異常問題不夠敏感;
自頂向下的分析方法很大程度上依賴于孤立點(diǎn)的存在,當(dāng)指標(biāo)之間差距不明顯時(shí),該方法往往失靈;
4G網(wǎng)絡(luò)具有扁平化、資源池化等特點(diǎn),網(wǎng)絡(luò)設(shè)備的上下級(jí)關(guān)系不再明顯,也更加復(fù)雜,分析時(shí)很難再逐級(jí)查找問題;
只呈現(xiàn)指標(biāo)的異常,還需要消耗較大的人力進(jìn)行定界定位分析,才能找到問題。
而基于大數(shù)據(jù)分析,以用戶感知為中心的定界定位方法采取了一種新的定界定位技術(shù),和傳統(tǒng)的方法相對(duì)應(yīng),稱之為倒立金字塔分析法。該方法直接將用戶話單的異常情況定界定位到劣質(zhì)點(diǎn),并給出根本原因,由根因推導(dǎo)出需要優(yōu)化的網(wǎng)元。
該方法從最底層的原始話單入手,對(duì)于系統(tǒng)采集到的每一條原始的話單,判斷該話單是否有異常。如果有異常,存在什么樣的異常?會(huì)對(duì)哪些關(guān)鍵指標(biāo)、哪些業(yè)務(wù)產(chǎn)生影響?產(chǎn)生該異常的原因是什么?經(jīng)過(guò)這樣的分析,我們就可以找到所有的異常話單,以及問題的原因。
數(shù)據(jù)的采集和處理過(guò)程
無(wú)線側(cè)的數(shù)據(jù)是與基站對(duì)接數(shù)據(jù),不需要探針,異廠家基站可以采用相關(guān)公有或私有的接口協(xié)商對(duì)接。核心網(wǎng)的控制面、用戶面數(shù)據(jù)通過(guò)探針采集,不受廠家設(shè)備不同的限制。將采集后的數(shù)據(jù)都輸出給大數(shù)據(jù)平臺(tái),進(jìn)行數(shù)據(jù)關(guān)聯(lián)、清洗、統(tǒng)計(jì)處理。圖1是數(shù)據(jù)采集示意圖。
大數(shù)據(jù)平臺(tái)采集到數(shù)據(jù)后首先將核心網(wǎng)的話單與無(wú)線關(guān)聯(lián),關(guān)聯(lián)后生成端到端的話單進(jìn)行保存。然后按照上面的分析思路進(jìn)行分析。
鑒于一次業(yè)務(wù)的異常同時(shí)在不同環(huán)節(jié)都會(huì)存在問題,因此需要在每個(gè)環(huán)節(jié)逐一判斷。
首先判斷無(wú)線指標(biāo)情況,如果存在異常,無(wú)線側(cè)計(jì)數(shù)加一。
然后在核心網(wǎng)或互聯(lián)網(wǎng)側(cè)定界,首先判斷互聯(lián)網(wǎng)DNS/SP節(jié)點(diǎn)的問題,主要分析DNS、TCP、GET的交互過(guò)程情況,以及忙閑時(shí)的變化情況,如果存在異常計(jì)數(shù)加一。
再判斷核心網(wǎng)側(cè)SGW、MME等網(wǎng)元的全天指標(biāo)情況,以及忙閑時(shí)的變化情況,如果存在異常計(jì)數(shù)加一。
最后再往終端定界,首先定時(shí)維護(hù)更新一個(gè)異常終端信息,異常終端是由一定周期內(nèi)連續(xù)性指標(biāo)差等特征判斷出來(lái),如果能夠與異常終端信息表匹配上,終端側(cè)定界計(jì)數(shù)加一。
如果以上過(guò)程都找不到問題的節(jié)點(diǎn),就定界到其他問題。
我們?cè)诖嘶A(chǔ)上再對(duì)異常話單做統(tǒng)計(jì)計(jì)算,就能得到多維度的統(tǒng)計(jì)結(jié)果。例如統(tǒng)計(jì)出不同環(huán)節(jié)的問題占比,每個(gè)環(huán)節(jié)的原因占比,統(tǒng)計(jì)出每個(gè)網(wǎng)元或區(qū)域問題波及的用戶數(shù)、波及的問題話單數(shù)量,將問題的嚴(yán)重程度進(jìn)行量化,并為判斷是否是有價(jià)值的問題區(qū)域提供參照。
應(yīng)用效果舉例
從某省份大數(shù)據(jù)平臺(tái)提取的影響用戶感知的異常話單原因分布占比如圖2所示??梢钥闯?,無(wú)線側(cè)和互聯(lián)網(wǎng)側(cè)原因占比較大。
無(wú)線側(cè)占比較高,查看定位的結(jié)果主要是弱覆蓋區(qū)域?qū)е?。互?lián)網(wǎng)占比較高的原因,定位到的結(jié)果主要是一些國(guó)外SP距離較遠(yuǎn),以及國(guó)內(nèi)部分其他運(yùn)營(yíng)商的SP網(wǎng)絡(luò)傳輸存在丟包、負(fù)荷高。終端的情況主要是小米等。
手機(jī)的問題占比較高。從用戶的消費(fèi)群體來(lái)看,小米手機(jī)使用者數(shù)量較多,其中大部分消費(fèi)人群是青年人,根據(jù)對(duì)小米手機(jī)的使用流量業(yè)務(wù)統(tǒng)計(jì)發(fā)現(xiàn),即時(shí)通信、網(wǎng)頁(yè)類業(yè)務(wù)占比55%左右,而視頻、下載等消耗流量較大的業(yè)務(wù)相對(duì)較少,占比10%左右,其他類別占比35%。
由于即時(shí)通信、網(wǎng)頁(yè)類單次業(yè)務(wù)一般流量和時(shí)間都較小,測(cè)量到的速率類指標(biāo)一般不高。核心網(wǎng)側(cè)問題較少,相對(duì)比較穩(wěn)定,在忙時(shí)有時(shí)會(huì)有負(fù)荷問題。該定界定位結(jié)果為該省運(yùn)營(yíng)商各個(gè)部門進(jìn)行派單、問題處理提供了數(shù)據(jù)依據(jù)。
端到端自動(dòng)定界定位技術(shù)是網(wǎng)絡(luò)問題分析自動(dòng)化、網(wǎng)優(yōu)自動(dòng)化、網(wǎng)優(yōu)無(wú)人化大趨勢(shì)中的基礎(chǔ)核心技術(shù)之一。中興通訊憑借30多年的網(wǎng)絡(luò)優(yōu)化技術(shù)積累及精品網(wǎng)交付經(jīng)驗(yàn),擁有絕對(duì)領(lǐng)先的網(wǎng)絡(luò)問題分析算法和數(shù)量龐大的問題經(jīng)驗(yàn)庫(kù)。
隨著大數(shù)據(jù)技術(shù)及人工智能技術(shù)的迅速發(fā)展,中興通訊將在未來(lái)更高效地協(xié)助運(yùn)營(yíng)商保障和提升用戶的業(yè)務(wù)體驗(yàn)。