[呂永慶]
隨著智能通信網(wǎng)絡(luò)規(guī)模不斷發(fā)展,企業(yè)通信網(wǎng)不斷擴(kuò)大,網(wǎng)絡(luò)異構(gòu)性和復(fù)雜性不斷增加,網(wǎng)絡(luò)中所承載的業(yè)務(wù)越來越多。故障管理是網(wǎng)絡(luò)管理的重要工作,主要用于告警分析和故障診斷。當(dāng)通信網(wǎng)絡(luò)中的設(shè)備或線路出現(xiàn)故障的時候,快速定位故障和進(jìn)行故障修復(fù)是保證網(wǎng)絡(luò)安全、可靠運行的關(guān)鍵。面對如此繁復(fù)的網(wǎng)絡(luò)運行環(huán)境,當(dāng)告警故障發(fā)生后很難快速確定通信網(wǎng)絡(luò)中故障發(fā)生的準(zhǔn)確位置。因為在一個復(fù)雜、多層異構(gòu)的通信網(wǎng)絡(luò)中,各個網(wǎng)元設(shè)備之間相互連接相互影響,如某個通信光纜發(fā)生故障,與之相關(guān)的網(wǎng)絡(luò)設(shè)備也會產(chǎn)生告警。由于網(wǎng)絡(luò)本身的復(fù)雜以及在邏輯和物理上的關(guān)聯(lián)性,可能會由單一的故障引起大量的告警信息,從而形成“告警風(fēng)暴”。在排除故障的過程中,網(wǎng)絡(luò)運維人員在接收到這些告警信息的時候,很難從眾多專業(yè)、眾多設(shè)備的告警信息中找到故障的根源,這些大量的重復(fù)告警信息既增加了網(wǎng)絡(luò)的流量開銷,也掩蓋了真實故障點,盡管各個廠家的網(wǎng)絡(luò)管理系統(tǒng)可以實現(xiàn)對該品牌子網(wǎng)的告警管理,但是由于組網(wǎng)成分差異以及網(wǎng)絡(luò)規(guī)模擴(kuò)大,難以依靠單一品牌網(wǎng)管系統(tǒng)實現(xiàn)告警事件的綜合管理。同時在排除故障的過程中,通信運維人員在接收到這些告警信息的時候,難從分辨其系由網(wǎng)絡(luò)計劃檢修還是由真實故障產(chǎn)生。這就給網(wǎng)絡(luò)管理人員排查故障帶來巨大困難,這使得通信網(wǎng)絡(luò)管理變成一項非常困難和復(fù)雜的工作。
為網(wǎng)絡(luò)維護(hù)管理部門設(shè)計建立一套基于事件關(guān)聯(lián)和數(shù)據(jù)挖掘的網(wǎng)絡(luò)故障分析系統(tǒng),系統(tǒng)的應(yīng)用能安全、可靠的充分通過事件關(guān)聯(lián)和故障歷史數(shù)據(jù)的深度挖掘,對通信網(wǎng)絡(luò)進(jìn)行詳盡的故障分析和預(yù)警分析,達(dá)到網(wǎng)絡(luò)告警管理精確化,提高通信運維效率,降低人員工作復(fù)雜度的目的。
(1)實現(xiàn)通信網(wǎng)絡(luò)故障引發(fā)告警事件的快速關(guān)聯(lián)分析。完成對通信網(wǎng)網(wǎng)絡(luò)告警關(guān)聯(lián)分析模型構(gòu)建,將多個告警事件歸結(jié)成較少的告警事件,過濾無用、無意義、不相關(guān)的告警,豐富告警包含信息,加快故障原因推理速度,快速求解產(chǎn)生告警的根源或者可能根源的集合,提高故障定位和故障判別、預(yù)測的準(zhǔn)確性,縮短故障存在時間、提高網(wǎng)絡(luò)服務(wù)質(zhì)量、增強(qiáng)用戶滿意度。
(2)實現(xiàn)歷史告警事件信息背后潛在規(guī)律的獲取。通過采用數(shù)據(jù)挖掘技術(shù)對歷史告警事件進(jìn)行挖掘,發(fā)現(xiàn)隱含在大量的告警事件背后潛在的規(guī)則,并把挖掘出來的關(guān)聯(lián)規(guī)則和序列規(guī)則添加到基于規(guī)則推理的網(wǎng)絡(luò)故障管理系統(tǒng)的規(guī)則庫中,增加系統(tǒng)性故障、告警處理規(guī)則獲取的途徑,增強(qiáng)系統(tǒng)故障處理的能力,提高系統(tǒng)的智能性,提高通信運行人員駕馭的能力,提升通信專業(yè)面向通信網(wǎng)絡(luò)的服務(wù)保障能力。
(3)實現(xiàn)通信設(shè)備故障預(yù)測與健康預(yù)報管理的智能化。通過分析設(shè)備本身的當(dāng)前健康狀態(tài)、歷史狀態(tài)等信息,建立告警預(yù)報模型。進(jìn)一步地,根據(jù)診斷規(guī)則以及預(yù)測結(jié)果等狀態(tài)信息,提供檢修資源調(diào)度建議,為下一步的維護(hù)檢修活動提供輔助決策。
通信告警管理過程中,針對事件關(guān)聯(lián)和數(shù)據(jù)挖掘存在可以進(jìn)一步分析深入的地方。
(1)網(wǎng)絡(luò)故障發(fā)生時,大量的報警信息在短時間內(nèi)涌入,運行人員難以從大量未過濾、未歸并的信息獲得有用的故障信息,易使通信運行人員誤判、漏判,為了適應(yīng)各種簡單和復(fù)雜事故情況下故障的快速、準(zhǔn)確識別,需要基于事件關(guān)聯(lián)和數(shù)據(jù)挖掘的網(wǎng)絡(luò)故障分析及預(yù)警系統(tǒng)進(jìn)行決策參考。另外,由于告警信息未處理、無差別發(fā)送,造成短信資費的浪費。
(2)當(dāng)前的告警采集技術(shù),無法分辨告警的真實來源,例如告警是由計劃檢修產(chǎn)生還是由真實故障產(chǎn)生。真實的故障極有可能淹沒在無用的信息之中,容易造成遺漏的情況。
(3)各個通信系統(tǒng)中存在龐大的存量告警事件信息,這些信息被孤立地存放或簡單記錄在綜合監(jiān)視系統(tǒng)之中,缺少有效手段對其進(jìn)行分析,難以從存量信息中挖掘出易調(diào)用、可運用、能夠支持運行決策的價值信息。
(4)單一網(wǎng)絡(luò)系統(tǒng)的監(jiān)控比較完備,而在整個網(wǎng)絡(luò)層面缺少統(tǒng)一整體的關(guān)聯(lián)性的監(jiān)控手段。尤其在跨越不同的網(wǎng)管系統(tǒng)平臺查看告警、事件時,可視性差,難以一覽告警事件發(fā)生后的各個通信子網(wǎng)告警時序和關(guān)聯(lián)情況。另外,在網(wǎng)絡(luò)分析中,仍然依靠人工的方式進(jìn)行傳統(tǒng)的告警相關(guān)性分析,進(jìn)而判斷故障源。故障推論效率較低,且質(zhì)量過于依靠員工技術(shù)水平與經(jīng)驗。
綜上分析,本項目研究內(nèi)容主要包括。
(1)告警管理精確化,提高運維效率
基于告警關(guān)聯(lián)規(guī)則的分析評判,使得故障點定位更加精確和故障分析結(jié)果準(zhǔn)確,減少故障根源分析中的人工介入,降低通信運行工作人員工作量,提升通信網(wǎng)運維管理工作效率。全程物理光纜網(wǎng)的建設(shè),在“抗風(fēng)救災(zāi)”應(yīng)用中,更加真實、準(zhǔn)確、完整展示“抗風(fēng)”應(yīng)用。分析對象定位更準(zhǔn)確,分析結(jié)果更精準(zhǔn)。分析過程直觀可視、便捷高效;解決圖實不相符的現(xiàn)場產(chǎn)生問題,從而進(jìn)一步提升通信運行與管理人員的效率與工作質(zhì)量。
(2)強(qiáng)化通信告警協(xié)同處置能力與效率
增強(qiáng)通信與單位其他專業(yè)在告警管理上協(xié)同聯(lián)動與數(shù)據(jù)共享,提升通信風(fēng)險數(shù)據(jù)影響力。建立電網(wǎng)基準(zhǔn)風(fēng)險/關(guān)鍵設(shè)備對相關(guān)通信關(guān)鍵設(shè)備的影響、研判知識庫,提取和分析已有歷史數(shù)據(jù),總結(jié)經(jīng)驗教訓(xùn),有利于有效地提升電網(wǎng)基準(zhǔn)風(fēng)險/關(guān)鍵設(shè)備對相關(guān)通信關(guān)鍵設(shè)備影響的研判與風(fēng)險分析能力,增強(qiáng)通信與電網(wǎng)其他專業(yè)數(shù)據(jù)互通共享,提升通信風(fēng)險數(shù)據(jù)的影響力。
基于日常的運行管控流程系統(tǒng)獲取日常通信檢修、通信故障的當(dāng)前/歷史告警工單,通過與綜合監(jiān)視模塊的告警進(jìn)行過濾、規(guī)范化后,同步到故障分析模塊中的告警數(shù)據(jù)庫,為用戶提供基于工單數(shù)據(jù)和告警數(shù)據(jù)的關(guān)聯(lián)告警呈現(xiàn)功能。
用戶可通過WEB 頁面展示和查看當(dāng)前所有告警信息的統(tǒng)計數(shù)據(jù),支持按各通信專業(yè)子網(wǎng)(例如傳輸網(wǎng)、光纜網(wǎng)、數(shù)據(jù)網(wǎng)等)、地市局、站點、機(jī)房、時間段等維度進(jìn)行查看;同時可以按各類資源類型(例如光纜段、網(wǎng)元、業(yè)務(wù)名稱)查找已歸類的歷史告警信息,展示相關(guān)的通信網(wǎng)絡(luò)物理資源或虛擬資源在其生命周期內(nèi)所產(chǎn)生的告警、告警過程過程、告警關(guān)聯(lián)的處理措施、外力活動等全過程的告警信息管理和呈現(xiàn)。
根據(jù)網(wǎng)管側(cè)綜合資源管理模塊已建立的資源和資源拓?fù)浣Y(jié)構(gòu)數(shù)據(jù),在故障分析模塊中分析各專業(yè)子網(wǎng)的業(yè)務(wù)層次結(jié)構(gòu)與關(guān)聯(lián)關(guān)系,實現(xiàn)與故障分析平臺中實時更新的告警數(shù)據(jù)庫的關(guān)聯(lián)分析,為用戶提供告警關(guān)聯(lián)性分析、告警故障源、根告警溯源、追蹤等功能。
可通過對接電網(wǎng)公司已建設(shè)的運行管控流程系統(tǒng)獲取當(dāng)前維護(hù)檢修工單數(shù)據(jù),本平臺通過定期或?qū)崟r獲取的方式,同步已有的維護(hù)檢修數(shù)據(jù)并入庫;根據(jù)檢修場景的不同進(jìn)行差異化分析,平臺通過對告警對象名稱、類別、速率等進(jìn)行歸類,獲取運行管控流程系統(tǒng)的歷史維護(hù)檢修數(shù)據(jù)。
根據(jù)光纜網(wǎng)、傳輸網(wǎng)、數(shù)據(jù)網(wǎng)、接入網(wǎng)等“故障-告警”產(chǎn)生原理,建立靜態(tài)規(guī)則庫,可自動識別告警與告警、告警與運行數(shù)據(jù)、告警與資源業(yè)務(wù)關(guān)系、告警與邏輯拓?fù)?、告警與物理拓?fù)?、告警與邏輯路由等之間的關(guān)聯(lián)關(guān)系,形成量化的指標(biāo)值分析和呈現(xiàn)。
結(jié)合設(shè)備告警生成原理、專家經(jīng)驗、告警歸類原理、告警與資源關(guān)聯(lián)關(guān)系等建立本地告警規(guī)則分析庫,通過規(guī)則引擎與推理機(jī)制形成告警預(yù)測分析結(jié)果向用戶推送。
告警規(guī)則庫中可用于保存經(jīng)過預(yù)處理的規(guī)范化告警信息,事件預(yù)處理模塊負(fù)責(zé)對收集到的告警事件進(jìn)行事件信息格式化和事件過濾。其中,事件規(guī)格化是指對收集的告警事件使用統(tǒng)一的格式,方便事件關(guān)聯(lián)過程而進(jìn)行的統(tǒng)一處理;事件過濾是合理、高效的事件過濾機(jī)制,實現(xiàn)快速、準(zhǔn)確的過濾無效告警、次要告警和濾瞬時告警,通過對告警的等級歸類處理和海量壓縮處理,防止“告警風(fēng)暴”。
平臺通過結(jié)合設(shè)備告警的相關(guān)屬性,建立各專業(yè)子網(wǎng)中的光纜、通信設(shè)備、電源的健康模型,建立通信設(shè)備、鏈路的健康預(yù)測模型,分析設(shè)備當(dāng)前狀態(tài)與模型之間的差異;根據(jù)差異結(jié)果對設(shè)備當(dāng)前狀態(tài)進(jìn)行診斷與預(yù)測,并根據(jù)設(shè)定的推送規(guī)則主動向相關(guān)用戶推送,輔助決策設(shè)備運維策略。根據(jù)各途徑同步搜集到的網(wǎng)絡(luò)告警信息和規(guī)則庫中保存的規(guī)則進(jìn)行推理和演算,進(jìn)行故障定位以及故障預(yù)測,實現(xiàn)告警事件推理的智能化,提高推理效率。
(1)基于微服務(wù)架構(gòu)的統(tǒng)一告警采集平臺,以及各專業(yè)網(wǎng)管的告警采集、告警壓縮、資源管理、資源和告警拓?fù)潢P(guān)聯(lián)、光路關(guān)聯(lián)、業(yè)務(wù)管理等告警和資源數(shù)據(jù)的綜合管理,可以作為本系統(tǒng)框架和功能的基礎(chǔ)平臺使用;
(2)基于B/S 架構(gòu)的數(shù)據(jù)匯聚系統(tǒng),作為本系統(tǒng)基礎(chǔ)數(shù)據(jù)源使用;
(3)網(wǎng)管系統(tǒng)已經(jīng)采集各專業(yè)網(wǎng)管告警數(shù)據(jù)、資源數(shù)據(jù)等作為數(shù)據(jù)分析的基礎(chǔ)。
本項目通過管理思路和技術(shù)手段的相結(jié)合的方式解決了這個難題,并在企業(yè)通信內(nèi)網(wǎng)用戶的實際工作中取得了一些成績。項目作為通信行業(yè)企業(yè)中基于事件關(guān)聯(lián)和數(shù)據(jù)挖掘的網(wǎng)絡(luò)故障分析平臺,可以大力提高企業(yè)通信網(wǎng)的安全穩(wěn)定水平和調(diào)度運行控制能力,為企業(yè)各生產(chǎn)系統(tǒng)提供可靠通信的保障,為今后企業(yè)各通信網(wǎng)的穩(wěn)定良好的發(fā)展奠定基礎(chǔ),滿足相關(guān)部門各種業(yè)務(wù)對基礎(chǔ)通信通道安全性、可靠性需求,提高企業(yè)通信應(yīng)對重大人為事件、通信事件、自然災(zāi)害事件的處理能力。同時也希望本平臺相關(guān)技術(shù)應(yīng)用實踐案例會為其他企業(yè)通信部門做通信網(wǎng)管相關(guān)管理的優(yōu)化工作思路帶來參考。