楊慰民
中國移動通信集團(tuán)福建有限公司,福建 福州 350003
基于大數(shù)據(jù)的移動互聯(lián)網(wǎng)主動運(yùn)維理論和實(shí)踐進(jìn)展
楊慰民
中國移動通信集團(tuán)福建有限公司,福建 福州 350003
對于非話音的移動互聯(lián)網(wǎng)業(yè)務(wù),即使網(wǎng)絡(luò)指標(biāo)是完好的,仍然存在用戶感知不佳的現(xiàn)象?;诖髷?shù)據(jù)技術(shù)研究用戶感知和網(wǎng)絡(luò)性能指標(biāo)的關(guān)系,提出基于樣本空間置換的五元五階模型實(shí)施主動運(yùn)維,先于用戶投訴發(fā)現(xiàn)并解決感知不佳問題。相比傳統(tǒng)的運(yùn)維模式,主動運(yùn)維模式以網(wǎng)絡(luò)性能管理為基礎(chǔ),能快速發(fā)現(xiàn)網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的性能失衡、趨勢異常等隱性問題。運(yùn)維人員根據(jù)分析結(jié)果主動出擊,在故障發(fā)生前精確優(yōu)化,降低成本,提升網(wǎng)絡(luò)質(zhì)量及客戶滿意度。
移動互聯(lián)網(wǎng);大數(shù)據(jù);用戶感知;性能分析;主動運(yùn)維;五元五階;樣本空間置換
大數(shù)據(jù)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、云計算、物聯(lián)網(wǎng)等新一代信息技術(shù)構(gòu)成的IT架構(gòu)“第三平臺”是信息社會進(jìn)入新階段的標(biāo)志,對整個經(jīng)濟(jì)的轉(zhuǎn)型有引領(lǐng)和帶動作用。電信運(yùn)營商尤其是具有濃厚國資背景的中國電信運(yùn)營商是承載“第三平臺”的主體。
運(yùn)營商天然擁有大數(shù)據(jù),如大量用戶的相關(guān)數(shù)據(jù),相對互聯(lián)網(wǎng)企業(yè)而言準(zhǔn)確度更高,也更加完整。除此之外,運(yùn)營商的基礎(chǔ)設(shè)施(如交換機(jī)、基站、數(shù)據(jù)通信設(shè)備、傳輸設(shè)備等)的運(yùn)行維護(hù)數(shù)據(jù)、告警信息、配置信息、性能信息是比傳統(tǒng)大數(shù)據(jù)范圍更廣、涉及領(lǐng)域更多、運(yùn)營商獨(dú)有的、比大數(shù)據(jù)更大量的數(shù)據(jù)。然而傳統(tǒng)運(yùn)營商對大數(shù)據(jù)的運(yùn)行主要表現(xiàn)在:對內(nèi),利用大數(shù)據(jù)進(jìn)行自我改造,應(yīng)用領(lǐng)域集中在內(nèi)部決策、精確營銷和客戶服務(wù)領(lǐng)域;對外,形成對外開放、可商業(yè)化的核心能力,將其封裝為服務(wù)和產(chǎn)品,實(shí)現(xiàn)商業(yè)模式的創(chuàng)新,助力“互聯(lián)網(wǎng)+”新經(jīng)濟(jì)、新常態(tài)的發(fā)展,如協(xié)助政府社會管理,根據(jù)場景、區(qū)域等維度,把相關(guān)數(shù)據(jù)做出畫像,協(xié)助做好政府社會管理。
對于某個可能引起用戶感知不佳甚至引發(fā)投訴的事件,電信運(yùn)營商客戶服務(wù)領(lǐng)域有一組有趣的統(tǒng)計數(shù)據(jù):26個用戶因為服務(wù)質(zhì)量不佳有可能投訴但選擇保持沉默,其中只有1個用戶因服務(wù)不好選擇投訴。該事件同時會被傳播,其中,該事件被告知其他528人,最終有1 341人傳播了該事件。因此,解決客戶感知不佳的問題迫在眉睫,無論用戶是否投訴,先于客戶發(fā)現(xiàn)問題、解決問題,是電信運(yùn)營商亟待解決的難題。
中國移動通信集團(tuán)公司(以下簡稱中國移動)是全球最大的電信運(yùn)營商,始終秉承“網(wǎng)絡(luò)質(zhì)量是企業(yè)的生命線”的理念。用戶感知與網(wǎng)絡(luò)性能指標(biāo)在傳統(tǒng)的電信運(yùn)營商電路交換業(yè)務(wù)網(wǎng)絡(luò)中呈正相關(guān)特性。然而,對于非話音的移動互聯(lián)網(wǎng)業(yè)務(wù),即使網(wǎng)絡(luò)指標(biāo)是完好的,仍然存在用戶感知不佳的現(xiàn)象。運(yùn)營商被動通過投訴渠道獲取用戶的感知信息。本文研究用戶感知和網(wǎng)絡(luò)性能指標(biāo)的關(guān)系,基于大數(shù)據(jù)技術(shù),提出基于樣本空間置換的五元五階(five element five phase,F(xiàn)EFP)方法,實(shí)施主動運(yùn)維,先于用戶投訴發(fā)現(xiàn)并解決感知不佳問題。相比傳統(tǒng)的運(yùn)維模式,主動運(yùn)維模式以網(wǎng)絡(luò)性能管理為基礎(chǔ),主動進(jìn)行網(wǎng)絡(luò)分析,快速發(fā)現(xiàn)網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的性能失衡、趨勢異常等隱性問題,運(yùn)維人員根據(jù)分析結(jié)果主動出擊,在故障發(fā)生前,有的放矢地進(jìn)行精確優(yōu)化,降低成本,提升網(wǎng)絡(luò)質(zhì)量及客戶滿意度。
2.1 電信業(yè)大數(shù)據(jù)的特點(diǎn)與構(gòu)成
中國電信運(yùn)營商已經(jīng)將數(shù)據(jù)資源上升到數(shù)據(jù)資產(chǎn)。傳統(tǒng)電信業(yè)的大數(shù)據(jù)大約97%來自于運(yùn)維支撐系統(tǒng)(operation support system,OSS)域(以下簡稱O域),3%來自于業(yè)務(wù)支撐系統(tǒng)(business support system,BSS)域(以下簡稱B域)。其中,O域數(shù)據(jù)具有量大、精細(xì)、實(shí)時和貼近網(wǎng)絡(luò)行為等特點(diǎn),B域數(shù)據(jù)具有量小、匯總、離線、貼近用戶行為等特點(diǎn)。
傳統(tǒng)O域數(shù)據(jù)主要來自于網(wǎng)管系統(tǒng)數(shù)據(jù),特點(diǎn)是基于網(wǎng)絡(luò)設(shè)備的網(wǎng)元級(設(shè)備級)的操作、管理、測量報告、運(yùn)行狀態(tài)結(jié)果等數(shù)據(jù)。通常采樣周期為15 min以上,時延0.5 h以上。然而,不同于傳統(tǒng)的“話音業(yè)務(wù)網(wǎng)絡(luò)好,客戶感知就好”,移動互聯(lián)網(wǎng)網(wǎng)絡(luò)運(yùn)行實(shí)踐表明,即使O域呈現(xiàn)出的各種數(shù)據(jù)是正常的,仍然存在大量用戶感知不佳的現(xiàn)象,即用戶感知的精確刻畫和描述無法通過傳統(tǒng)的O域數(shù)據(jù)進(jìn)行表征。用戶的感知只能以用戶遇到問題后的投訴間接反映,這就是運(yùn)營商的傳統(tǒng)運(yùn)維方式。因此傳統(tǒng)以網(wǎng)元為中心的被動式的網(wǎng)絡(luò)運(yùn)維體系已經(jīng)不適應(yīng)“體驗為王”的移動互聯(lián)網(wǎng)時代的特征要求。當(dāng)前客戶感知不僅僅取決于網(wǎng)絡(luò),更涉及終端、業(yè)務(wù)使用全流程的各個環(huán)節(jié)。以某省公司調(diào)查為例,影響客戶感知的各種因素中,網(wǎng)絡(luò)質(zhì)量問題只占19%,剩下的81%的問題分布在終端、業(yè)務(wù)和用戶側(cè)。而傳統(tǒng)以故障告警為重點(diǎn)的網(wǎng)絡(luò)運(yùn)維體系,已無法做到端到端全覆蓋、全過程、實(shí)時的質(zhì)量監(jiān)控分析。網(wǎng)絡(luò)主動運(yùn)維“難”。傳統(tǒng)運(yùn)維模式是根據(jù)客戶投訴或網(wǎng)絡(luò)顯性故障,被動地解決問題,無法做到對客戶感知的主動預(yù)判,所以永遠(yuǎn)都是慢客戶“一拍”,難以從根本上保障和提升客戶感知。因此,網(wǎng)絡(luò)必須加快向“客戶體驗+主動運(yùn)維”的模式轉(zhuǎn)型。主動運(yùn)維必須通過大數(shù)據(jù)實(shí)現(xiàn),大數(shù)據(jù)分析中盡量匯集多種來源的數(shù)據(jù)是關(guān)鍵,大數(shù)據(jù)的數(shù)據(jù)源如果僅停留在傳統(tǒng)的運(yùn)維數(shù)據(jù)層面,數(shù)據(jù)會有一定的局限性和片面性,只有集成多個方面的原始數(shù)據(jù),才能反映事物的全貌。為了實(shí)現(xiàn)用戶感知的主動保障,電信運(yùn)營商已經(jīng)開始如圖1右側(cè)所示的移動通信網(wǎng)絡(luò)信令數(shù)據(jù)采集和互聯(lián)網(wǎng)業(yè)務(wù)的深度分組解析(deep packet inspection,DPI)項目建設(shè)。但是,如圖1所示,新的信令采集和DPI數(shù)據(jù)的體量遠(yuǎn)大于傳統(tǒng)數(shù)據(jù),非格式化的數(shù)據(jù)特點(diǎn)也更加顯現(xiàn)。這些特點(diǎn)又推動數(shù)據(jù)分析向大數(shù)據(jù)思維和技術(shù)變革。
2.2 基于五元五階模型實(shí)現(xiàn)端到端客戶感知到移動互聯(lián)網(wǎng)接續(xù)過程的映射
據(jù)某知名咨詢機(jī)構(gòu)對中國移動用戶4G手機(jī)上網(wǎng)的調(diào)查報告顯示,數(shù)據(jù)業(yè)務(wù)的用戶感知是中國移動當(dāng)前的薄弱環(huán)節(jié)。感知不佳主要體現(xiàn)在:沒信號、有信號但上不了網(wǎng)、網(wǎng)速慢以及掉線頻繁,如圖2所示。
LTE網(wǎng)絡(luò)質(zhì)量問題定位需要以用戶業(yè)務(wù)感知為原則,即必須通過技術(shù)手段將用戶感知技術(shù)的指標(biāo)進(jìn)行表征,這樣就可以透過網(wǎng)絡(luò)視角匯聚用戶視角。圖3為在4G的LTE網(wǎng)絡(luò)中用戶感知與網(wǎng)絡(luò)對應(yīng)的技術(shù)過程的關(guān)系。
在圖3感知和技術(shù)流程對應(yīng)的基礎(chǔ)上,圖4則給出了基于客戶感知的端到端質(zhì)量保障分析流程。LTE數(shù)據(jù)業(yè)務(wù)的用戶感知需要建立一套規(guī)范的評估提升方法,實(shí)現(xiàn)端到端的性能分析,通過端到端質(zhì)量保障提升客戶感知。
因此,如圖3所示的網(wǎng)絡(luò)視角,與LTE網(wǎng)絡(luò)客戶感知直接相關(guān)的順序的時間流程包括5個步驟(階段),即附著(attach)、管道建立(EPS)、域名系統(tǒng)(DNS查詢)、傳輸控制協(xié)議(transmission control protool, TCP)鏈接建立以及業(yè)務(wù)使用。用戶使用業(yè)務(wù)涉及的從用戶側(cè)到網(wǎng)絡(luò)側(cè)端到端的所有網(wǎng)元和環(huán)節(jié)都影響用戶感知,將這些環(huán)節(jié)在空間上劃分為5個層面的元素(element),即用戶、終端、小區(qū)、網(wǎng)絡(luò)和業(yè)務(wù)。通過空間的5個維度(元素)和時間上的5個步驟可以在空間和時間維度上定位出用戶某次上網(wǎng)感知不佳的問題所在,即用戶某次上網(wǎng)感知不佳,在空間上是哪個具體“元”(網(wǎng)元)導(dǎo)致,在時間上是發(fā)生在五階的具體哪個“階”。這就是五元五階模型。
圖1 電信業(yè)大數(shù)據(jù)的構(gòu)成示意
圖2 用戶感知調(diào)查報告
圖3 用戶感知與網(wǎng)絡(luò)接續(xù)過程的對應(yīng)關(guān)系
五元是相互匹配的元素,環(huán)節(jié)失配將導(dǎo)致業(yè)務(wù)不流暢或業(yè)務(wù)能力未充分挖掘。五階是順序的流水過程,任一階段出現(xiàn)問題將導(dǎo)致斷流(業(yè)務(wù)中斷),KQI(key quality index,關(guān)鍵質(zhì)量指標(biāo))產(chǎn)生自每個環(huán)節(jié)。五元五階模型并非5×5 的簡單疊加,而是基于大數(shù)據(jù)的多維度數(shù)據(jù)的上卷與下鉆,實(shí)現(xiàn)面向用戶感知的全方位的知識挖掘。五元五階模型一方面體現(xiàn)端到端能力保障和能力運(yùn)營的最小變量級,另一方面足夠完備地保證各項輸出。
基于FEFP模型的大數(shù)據(jù)技術(shù)使得從海量信息中快速提取有價值信息成為可能,獲取“5A”,即任何小區(qū)(any cell)、任何用戶(any user)、持任何終端(any terminal)、使用任何應(yīng)用(any service)獲得的量化的任何效果和品質(zhì)(any quantized quality)(如時延、速率)是獲取客戶感知的關(guān)鍵。要實(shí)現(xiàn)基于五元五階模型的“5A”目標(biāo),必須要有相應(yīng)的LTE信令采集數(shù)據(jù)支撐。
圖4 基于客戶感知的端到端保障體系流程
2.3 LTE信令采集DPI
傳統(tǒng)的網(wǎng)管數(shù)據(jù)更多記錄的是網(wǎng)元設(shè)備運(yùn)行的結(jié)果和狀態(tài)測量數(shù)據(jù),它側(cè)重于設(shè)備的運(yùn)行結(jié)果。但是大量事實(shí)表明,當(dāng)用戶出現(xiàn)明顯的感知異常時,網(wǎng)元設(shè)備運(yùn)行結(jié)果表現(xiàn)為正常。為了實(shí)施保障用戶感知的主動運(yùn)維,需要建設(shè)信令采集系統(tǒng),圖5是LTE網(wǎng)絡(luò)信令采集系統(tǒng)的結(jié)構(gòu)示意,覆蓋用戶面與控制面。表1給出了每個采集接口對應(yīng)可獲取的數(shù)據(jù)。
通過信令數(shù)據(jù)的采集和大數(shù)據(jù)分析,有可能實(shí)現(xiàn)用戶“5A”信息的獲取,繼而做到用戶感知的端到端體驗保障,實(shí)現(xiàn)先于用戶投訴就主動發(fā)現(xiàn)問題、解決問題的目標(biāo)。這就是主動運(yùn)維及主動運(yùn)維的意義和價值。
圖5 LTE信令采集結(jié)構(gòu)示意
表1 LTE信令采集接口及對應(yīng)的信息描述
基于LTE信令數(shù)據(jù)的采集和五元五階模型,利用大數(shù)據(jù)技術(shù)可實(shí)現(xiàn)以下目標(biāo):
· 對采集的數(shù)據(jù)進(jìn)行整理,對海量信息進(jìn)行過濾,多維度提取用戶行為信息;
· 通過網(wǎng)絡(luò)行為(便于理解的信令)啟發(fā)式呈現(xiàn)用戶行為;
· 通過關(guān)鍵績效指標(biāo)(key performance indicator,KPI)、KQI、體驗質(zhì)量(quality of experience,QoE)多個維度網(wǎng)絡(luò)指標(biāo)量化映射網(wǎng)絡(luò)行為;
· 多個場景聯(lián)合分析,挖掘用戶感知;
· 建立特征,關(guān)聯(lián)端到端性能與模型,實(shí)現(xiàn)知識固化,通過固化的特征,指導(dǎo)用戶行為挖掘,實(shí)現(xiàn)閉環(huán)。
圖6為五元五階模型示意。其中,橫、縱坐標(biāo)分別是五元五階的五元和五階變量,通過五元五階共10個維度(在實(shí)際應(yīng)用中維度通常會超過10個,新增的維度(如傳輸設(shè)備、數(shù)據(jù)通信設(shè)備)是指通過“五元”關(guān)聯(lián)而新增的變量)的變量構(gòu)建出用于主動運(yùn)維的網(wǎng)絡(luò)行為分析、用戶行為分析、端到端性能分析、用戶感知分析以及網(wǎng)絡(luò)指標(biāo)分析等。基于這些應(yīng)用體系或應(yīng)用系統(tǒng)的分析結(jié)果,實(shí)現(xiàn)先于用戶投訴就主動發(fā)現(xiàn)小至用戶級、大到全網(wǎng)的感知問題,感知到問題對應(yīng)五元五階中“元”或者“階”的具體位置,繼而針對性地解決問題。這就是主動運(yùn)維的過程。
圖6 五元五階模型
3.1 樣本空間置換算法
通過五元五階模型,利用大數(shù)據(jù)可以構(gòu)建出如圖7所示的多維數(shù)據(jù)倉庫(cube)。這樣可生成一維和多維的“5A”用戶感知信息數(shù)據(jù)庫,其中,用戶感知多維數(shù)據(jù)倉庫是在一維基礎(chǔ)上的不同樣本數(shù)或所在不同空間維度的多元統(tǒng)計分析值。在該多維數(shù)據(jù)倉庫的基礎(chǔ)上,利用樣本空間置換算法進(jìn)行用戶感知問題自動定界以及主動運(yùn)維工作。樣本存在于空間中,是一定空間中的樣本。一定樣本組成的小空間構(gòu)成了一個樣本,這個小空間形成的樣本又是更大空間的一個樣本。通過樣本和空間的不斷置換迭代進(jìn)行相應(yīng)感知指標(biāo)的對比,可以快速發(fā)現(xiàn)整個LTE網(wǎng)絡(luò)用戶、手機(jī)、小區(qū)、網(wǎng)絡(luò)以及業(yè)務(wù)平臺可能潛在的故障或相應(yīng)網(wǎng)元的性能劣化。
樣本空間置換算法實(shí)例如下。
案例:用戶感知多維數(shù)據(jù)倉庫“發(fā)現(xiàn)”A用戶使用的某瀏覽業(yè)務(wù)網(wǎng)頁S無法呈現(xiàn),而全網(wǎng)的其他業(yè)務(wù)基本正常。其中,A用戶使用B終端,事件發(fā)生時段為T(一般采用小時粒度)。
使用樣本空間置換算法可以快速地進(jìn)行潛在“故障/隱患”判斷。判斷規(guī)則如下。
· 該時間段T內(nèi),全網(wǎng)除A之外的所有用戶使用瀏覽業(yè)務(wù)網(wǎng)頁S是否正常?如果全網(wǎng)所有用戶使用該業(yè)務(wù)均異常,那么業(yè)務(wù)網(wǎng)頁S發(fā)生故障。整個過程結(jié)束。否則,進(jìn)行以下判斷。
· 全網(wǎng)使用終端B的用戶在該時段內(nèi)瀏覽業(yè)務(wù)網(wǎng)頁S是否正常?如果正常,轉(zhuǎn)下一步。如果異常,全網(wǎng)使用終端B的用戶使用除業(yè)務(wù)網(wǎng)頁S外的業(yè)務(wù)是否正常?如果正常,結(jié)論是該款終端與該業(yè)務(wù)的匹配有問題。整個過程結(jié)束。
· A用戶所在地點(diǎn)的小區(qū)其他用戶瀏覽業(yè)務(wù)網(wǎng)頁S是否正常?A用戶在T時段內(nèi)在該小區(qū)瀏覽業(yè)務(wù)網(wǎng)頁S外的其他業(yè)務(wù)是否正常?A用戶在其他小區(qū)內(nèi)使用其他業(yè)務(wù)是否正常?
通過上述簡單的比較過程,可以快速定界出此次異常事件的主因:業(yè)務(wù)S有問題,或者用戶A的個性問題,或者用戶使用的終端B有問題,或者用戶使用終端B的個性問題,或者用戶所在小區(qū)有問題,或者用戶所在小區(qū)與業(yè)務(wù)S的匹配問題,或者用戶所在小區(qū)對應(yīng)的小區(qū)設(shè)備廠商的所有該版本設(shè)備有問題,或者用戶所在小區(qū)對應(yīng)的核心網(wǎng)元的某個模塊甚至是核心網(wǎng)元有問題。
這就是基于樣本空間置換算法的五元五階模型。在時間維度上將用戶的體驗分解成不同的階段,通過空間上的5個維度的不斷相互置換,先于用戶投訴快速發(fā)現(xiàn)用戶感知不佳的原因,繼而解決故障隱患。
圖7 基于五元五階模型的多維數(shù)據(jù)倉庫
3.2 樣本維度分類
假設(shè)用戶樣本的評估為y=f({a, b, c, d, e}),其中,a為用戶維度,b為終端維度,c為小區(qū)維度,d為網(wǎng)絡(luò)維度,e為業(yè)務(wù)維度,f函數(shù)為基于上述五元維度的評估。
對于用戶維度,可以有以下幾類空間:單用戶A0,按運(yùn)行速度分類用戶A1,…,全量用戶An。
終端維度:該終端B0,同款終端B1,同廠商終端B2,…,全量終端Bm。
小區(qū)維度:該小區(qū)C0,同暫時接入控制(temporal access control, TAC)C1,同區(qū)域C2,同特征區(qū)域群C3,同地市C4,…,全省Cp。
網(wǎng)絡(luò)維度:所在核心網(wǎng)D0,同移動管理實(shí)體(mobile management entity, MME) pool D1,…,全量Dq。
業(yè)務(wù)維度:該樣本當(dāng)前業(yè)務(wù)E0,同內(nèi)容提供商(service provider, SP)E1,按數(shù)據(jù)分組大小分業(yè)務(wù)E2,同協(xié)議E3,…,全業(yè)務(wù)Er。
上述的五元組成的樣本集合形成了相應(yīng)的空間集合,如下:
3.3 樣本空間置換定界規(guī)則
(1)定義一套規(guī)則
單用戶A0從屬于按運(yùn)行速率分類的某一類用戶A1,而A1又從屬于全量用戶An,那么如果存在Ai從屬于Aj,且不存在Ak使得Ai從屬于Ak,且Ak從屬于Aj,則認(rèn)為
(2)定界的實(shí)現(xiàn)原理
目標(biāo)是找到一個組合(Aw,Bv,Cx,Dy,Ez),其中,Aw是(A0,A1,A2,…,An)的元素,且a從屬于Aw,其他維度相同,使得f({Aw,Bv,Cx,Dy,Ez})達(dá)到異常閾值,而以下5個結(jié)果正?;蚱蛘#?/p>
舉例說明,假設(shè)確認(rèn)所有在TAC005下通過核心網(wǎng)絡(luò)SAEGW01的用戶業(yè)務(wù)指標(biāo)異常(Cx為TAC005,Dy為SAEGW01),但是所有在TAC005從屬的大區(qū)域下通過核心網(wǎng)絡(luò)SAEGW01的用戶指標(biāo)基本正常(Cx為father(TAC005)),且所有在TAC005通過其他所有核心網(wǎng)絡(luò)的用戶業(yè)務(wù)(Dy為father(SAEGW01)也正常,那問題就明確定界了,問題出現(xiàn)在該TAC005與SAEGW01之間。
(3)定界實(shí)現(xiàn)過程
對于異常樣本(a,b,c,d,e):確定空間集合各個點(diǎn)的值,如A0為用戶王某某,A1為高速用戶,An為全量用戶。
明確5個維度內(nèi)各個子空間的從屬關(guān)系:father(A0)=A1,…。分5個維度,從最高空間An,Bm,Cp,Dq,Er向下遍歷(可以是廣度遍歷,也可以是深度遍歷),直到找到目標(biāo)Aw,Bv,Cx,Dy,Ez符合前面所述定界規(guī)則。
(4)定界過程的優(yōu)化
由于維度與空間太多,必然出現(xiàn)維度過多的“維災(zāi)難”。這種災(zāi)難在數(shù)據(jù)量極大的大數(shù)據(jù)中必須有效降低。解決“維災(zāi)難”的有效措施是無需遍歷所有可能的維度??紤]到五元(用戶/終端/小區(qū)/網(wǎng)絡(luò)/業(yè)務(wù))中5個維度并非完全無關(guān)(非正交),有些組合可以排除,或者將可能性較低的5個維度的組合的遍歷順序放在后面,通過這種方式提高分析效率。當(dāng)然,在實(shí)際工作中,通常通過經(jīng)驗豐富的一線運(yùn)維人員進(jìn)行相關(guān)的規(guī)則優(yōu)化整理,目的是實(shí)現(xiàn)精簡流程,快速實(shí)施定界。
一般而言,業(yè)務(wù)異常(業(yè)務(wù)維度)不會出現(xiàn)在小區(qū)級別(也就是該小區(qū)的同業(yè)務(wù)異常,其他小區(qū)的業(yè)務(wù)都正常),這種組合就可以排除或者放在最后。
4.1 通過主動運(yùn)維提升面向網(wǎng)絡(luò)的主動管理能力案例
在傳統(tǒng)網(wǎng)元監(jiān)控基礎(chǔ)上,通過集中性能管理平臺實(shí)現(xiàn)了網(wǎng)絡(luò)問題的自動預(yù)警,在網(wǎng)絡(luò)結(jié)構(gòu)組合變化中,主動發(fā)現(xiàn)網(wǎng)元間的協(xié)調(diào)匹配問題以及網(wǎng)元潛在的惡化傾向,并自動觸發(fā)告警,問題定位定界準(zhǔn)確率超過90%,目前主動運(yùn)維成為網(wǎng)絡(luò)管理新常態(tài)。
如圖8所示,2015年7月,集中性能管理平臺預(yù)警廈門局點(diǎn)出現(xiàn)下載速率低于全省均值20%的情況,傳統(tǒng)網(wǎng)管系統(tǒng)無法發(fā)現(xiàn),客戶初期也沒有感知,但通過主動運(yùn)維很快就發(fā)現(xiàn)并解決了問題。先利用五元五階模型定界出該問題屬于網(wǎng)絡(luò)側(cè)問題,并排除核心網(wǎng)問題,進(jìn)一步排查確定不是廈門局點(diǎn)互聯(lián)網(wǎng)路由的問題,最終定位出是廈門局點(diǎn)與福州局點(diǎn)路由器參數(shù)配合問題,并將參數(shù)由“數(shù)據(jù)分組轉(zhuǎn)發(fā)”改為“數(shù)據(jù)流轉(zhuǎn)發(fā)”,優(yōu)化后全省LTE下載速率提升25%左右,部分?jǐn)?shù)據(jù)分組轉(zhuǎn)發(fā)速率提升40%。
圖8 主動運(yùn)維提升全網(wǎng)下載速率實(shí)例
4.2 通過主動運(yùn)維提升面向客戶的實(shí)時保障能力案例
傳統(tǒng)運(yùn)維模式只能統(tǒng)計15 min顆粒度的網(wǎng)元級指標(biāo),且時延30 min以上,主動運(yùn)維實(shí)踐的系統(tǒng)不但可以統(tǒng)計1 min顆粒度的客戶級感知指標(biāo),還能全量記錄所有感知不佳的用戶清單及對應(yīng)問題,且時延不超過3 min,真正具備了實(shí)時保障客戶感知的能力。如圖9所示,該系統(tǒng)有效保障了2016年“雙十一”電商購物客戶感知。
4.3 通過主動運(yùn)維發(fā)現(xiàn)業(yè)務(wù)平臺問題案例
福州某小區(qū)的“歐朋瀏覽器”網(wǎng)站的HTTP業(yè)務(wù)成功率超過閾值觸發(fā)告警。進(jìn)入自動定界流程,通過比較發(fā)現(xiàn)該SP全網(wǎng)的指標(biāo)與同類業(yè)務(wù)其他SP全網(wǎng)的指標(biāo)存在明顯劣化現(xiàn)象,定位為SP問題。采用基于樣本空間置換算法分析方法,對應(yīng)的流程如圖10所示?;谶@類流程的主動運(yùn)維模式發(fā)現(xiàn)并解決了大量端到端感知隱患,包括多個無線廠商設(shè)備缺陷、傳輸分組傳送網(wǎng)(packet transport network,PTN)接入網(wǎng)問題、省干傳輸問題、無線參數(shù)配置問題、基站參數(shù)設(shè)置問題、終端適配問題、內(nèi)容源問題等。
圖9 主動運(yùn)維提升面向客戶的實(shí)時保障能力實(shí)例
4.4 通過主動運(yùn)維發(fā)現(xiàn)蘋果終端TCP成功率偏低問題案例
2015年8月14日,主動運(yùn)維平臺五階指標(biāo)—— TCP核心網(wǎng)成功率突然出現(xiàn)劣化,由平時的98%下降到87%,網(wǎng)管系統(tǒng)未有任何告警信息。
問題排查:通過對五元維度的TCP核心網(wǎng)成功率進(jìn)行對比分析,排除用戶、終端、小區(qū)、網(wǎng)絡(luò)故障,精準(zhǔn)定位是由于部分業(yè)務(wù)側(cè)問題導(dǎo)致。專業(yè)室進(jìn)一步排查,發(fā)現(xiàn)蘋果公司推送通知服務(wù)(apple push notification service,APNS)時延較長,該服務(wù)用于為有消息提醒服務(wù)的應(yīng)用提供推送接口,可能蘋果公司在服務(wù)器側(cè)有進(jìn)行相關(guān)業(yè)務(wù)性能的限制,對于超出能力的請求直接不響應(yīng),導(dǎo)致握手失敗。
依托大數(shù)據(jù)技術(shù),基于樣本空間置換算法的五元五階模型,創(chuàng)新提出并實(shí)踐了主動運(yùn)維的新運(yùn)維模式,以用戶使用業(yè)務(wù)的端到端全流程體驗視角,快速發(fā)現(xiàn)網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的性能失衡、趨勢異常等隱性問題,運(yùn)維人員根據(jù)分析結(jié)果主動出擊,在故障發(fā)生前,有的放矢地進(jìn)行精確優(yōu)化,降低成本,提升移動互聯(lián)網(wǎng)的網(wǎng)絡(luò)質(zhì)量及客戶滿意度。這種基于大數(shù)據(jù)的模式徹底改變了運(yùn)營商的思維方式和生產(chǎn)方式,這些實(shí)踐傳統(tǒng)的非大數(shù)據(jù)做法是無法實(shí)現(xiàn)的,印證了大數(shù)據(jù)能產(chǎn)生大價值的思想。
大數(shù)據(jù)要產(chǎn)生價值,就要追求大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建。數(shù)據(jù)取之于生產(chǎn),源于生產(chǎn)過程的各個環(huán)節(jié)。大數(shù)據(jù)要服務(wù)于生產(chǎn),大數(shù)據(jù)的結(jié)果要融入生產(chǎn)的流程,才能產(chǎn)生大作用。大數(shù)據(jù)的應(yīng)用使得使用主體真正擁有數(shù)據(jù)資產(chǎn)能力。大數(shù)據(jù)理論體系注定是非實(shí)時的,然而實(shí)時的大數(shù)據(jù)應(yīng)用是特殊行業(yè)的剛性需求,必須采取創(chuàng)新的思維和技術(shù)。運(yùn)營商的網(wǎng)絡(luò)運(yùn)維工作始終追求高效率和低成本。眾所周知,基于大數(shù)據(jù)相關(guān)技術(shù),傳統(tǒng)的許多無法實(shí)現(xiàn)的“愿望”在大數(shù)據(jù)的支撐下可以很容易實(shí)現(xiàn)。然而,由于大數(shù)據(jù)是海量的,原先認(rèn)為可以做到的事情可能因為大數(shù)據(jù)的大量數(shù)據(jù)變得很難實(shí)現(xiàn)。大數(shù)據(jù)技術(shù)在實(shí)踐過程中,需要辯證地在存儲、計算、效率、效果等多種維度中折中地進(jìn)行取舍,如“全量的用戶、抽樣的信息;抽樣的用戶、全量的信息”“特定事件、抽樣的時段信息”“非實(shí)時的匯聚的信息,實(shí)時的原始(未匯聚)的記錄”“精確地計算,大膽地近似”。
最后說明一點(diǎn),本文涉及的利用大數(shù)據(jù)實(shí)施運(yùn)營商主動運(yùn)維技術(shù)由于涉及具有運(yùn)營商特點(diǎn)的技術(shù)、流程和專業(yè)術(shù)語,限于篇幅無法解釋說明清楚。詳細(xì)可以查閱參考文獻(xiàn)[5]。
圖10 主動運(yùn)維發(fā)現(xiàn)業(yè)務(wù)平臺問題樣本空間置換過程實(shí)例
參考文獻(xiàn):
[1] 李國杰. 對大數(shù)據(jù)的再認(rèn)識[J]. 大數(shù)據(jù), 2015001. LI G J. Further understanding of big data[J]. Big Data Research, 2015001
[2] 周傲英, 錢衛(wèi)寧, 王長波. 數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時代的新興交叉學(xué)科[J]. 大數(shù)據(jù), 2015022. ZHOU A Y, QIAN W N, WANG C B. Data sciences and engineering an emerging interdisciplinary in the big data era[J]. Big Data Research, 2015022.
[3] 鄭緯民. 從系統(tǒng)角度審視大數(shù)據(jù)計算[J]. 大數(shù)據(jù), 2015002. ZHENG W M. Reviewing big data computation from a system perspective[J]. Big Data Research, 2015002.
[4] HAN J W, KAMBER M, PEI J. Data mining: concepts and techniques(3rd edition)[M]. Burlington: Morgan Kaufmann, 2011.
[5] 李正茂. 通信4.0:重新發(fā)明通信網(wǎng)[M]. 北京:中信出版集團(tuán), 2016. LI Z M. Communications V4.0: reinvention communication networks [M]. Beijing: Citic Press Group, 2016.
[6] 中國移動通信集團(tuán)公司. 中國移動上網(wǎng)日志留存系統(tǒng)三期規(guī)范—LTE采集解析設(shè)備XDR接口規(guī)范[R]. 北京: 中國移動通信集團(tuán)公司,2015. China Mobile. The specification of internet log retention system (Phase III) of China Mobile—the interface of XDR specification of LTE DPI[R]. [S.l.:s.n.], 2015.
Theory and progress of active operation and maintenance of mobile internet based on big data
YANG Weimin
China Mobile Group Fujian Co., Ltd., Fuzhou 350108, China
The relationship between user's perception and network performance index was studied. A five-element-five-phase (FEFP) method based on substitution between sample and space was proposed. Active operation and maintenance mode based on network performance management, can quickly find out the performance of the network in the imbalance between the nodes, abnormal trend of hidden problems etc with active network analysis. According to the analysis of the initiative, the engineers can target for exact optimization, reduce the costs, improve the quality of the network and customer satisfaction before the failure occurred.
mobile internet, big data, user perception, performance analysis, active maintenance, five element five phase, sample and space substitution
TP3-0
A
10.11959/j.issn.2096-0271.2016070
2016-04-11
楊慰民(1970-),男,博士,中國移動通信集團(tuán)福建有限公司網(wǎng)管中心副總經(jīng)理,通信專業(yè)教授級高級工程師,享受國務(wù)院特殊津貼。長期致力于數(shù)字通信、移動通信、通信中的信號處理和智能信息處理、大數(shù)據(jù)應(yīng)用等領(lǐng)域的科學(xué)研究工作。基于大數(shù)據(jù)的LTE網(wǎng)絡(luò)主動運(yùn)維成果獲2015年度中國移動科技進(jìn)步獎一等獎。