甘 雯 ,文 鋒 ,宮大鵬 ,徐 鉭 ,黃甫光 ,張 健 ,蘇 雷
(1.中國(guó)移動(dòng)通信集團(tuán)廣西有限公司 南寧 530022;2.億陽(yáng)信通股份有限公司 南寧 530022)
綜合告警系統(tǒng)是CMOSS2.0規(guī)劃的綜合網(wǎng)管系統(tǒng),系統(tǒng)主要從OMC(operation and maintenance center,操作維護(hù)中心)等廠商網(wǎng)管系統(tǒng)獲取資源、告警、性能數(shù)據(jù),包括從資源管理系統(tǒng)獲取資源數(shù)據(jù)、從各專業(yè)網(wǎng)管獲取告警和性能數(shù)據(jù)、從電子運(yùn)維系統(tǒng)獲取工單數(shù)據(jù)等,然后通過(guò)列表、圖表、拓?fù)?、GIS(geographic information system)等方式進(jìn)行數(shù)據(jù)的匯總呈現(xiàn),幫助監(jiān)控人員了解全網(wǎng)的運(yùn)行狀態(tài)。
在通信網(wǎng)絡(luò)運(yùn)行過(guò)程中,告警是網(wǎng)絡(luò)管理員最為關(guān)注的。當(dāng)系統(tǒng)出現(xiàn)影響正常業(yè)務(wù)的故障時(shí),這些重要的故障信息會(huì)以告警的方式在第一時(shí)間通知管理人員并應(yīng)該立即得到解決,否則,可能會(huì)導(dǎo)致提供服務(wù)失敗。為了方便運(yùn)維人員處理告警和迅速定位告警源,綜合告警系統(tǒng)采取了各種方式處理這些告警信息,比如告警展現(xiàn)、長(zhǎng)時(shí)間未處理的告警提示、告警轉(zhuǎn)發(fā)、告警過(guò)濾、告警相關(guān)性分析等。
在一種極端的情況下,眾多網(wǎng)元(BTS(base transceiver station,基站收發(fā)信臺(tái))、RNC(radio network controller,無(wú)線網(wǎng)絡(luò)控制器)、Node B等)由于不特定原因,同時(shí)并且長(zhǎng)時(shí)間地向網(wǎng)管系統(tǒng)上報(bào)大量的告警,導(dǎo)致告警風(fēng)暴的發(fā)生。如果告警系統(tǒng)沒有及時(shí)處理,容易造成海量告警的堆積,導(dǎo)致網(wǎng)管系統(tǒng)癱瘓,失去管理和監(jiān)控網(wǎng)絡(luò)的能力,更不能有效遏制網(wǎng)絡(luò)故障的進(jìn)一步擴(kuò)大。所以告警風(fēng)暴的危害是巨大的,一方面應(yīng)該盡量避免告警風(fēng)暴的產(chǎn)生;另一方面,當(dāng)告警風(fēng)暴到來(lái)時(shí),系統(tǒng)應(yīng)有能力及時(shí)應(yīng)對(duì),將告警風(fēng)暴的危害降到最低。
國(guó)外的研發(fā)機(jī)構(gòu)一般通過(guò)研究告警關(guān)聯(lián)性和告警挖掘技術(shù)解決此項(xiàng)難題,例如,惠普公司的Event Correlation Services,是基于規(guī)則的方法研究出的告警相關(guān)性分析系統(tǒng);IBM采用基于事例的告警相關(guān)性分析方法,研制了NetFACT系統(tǒng),利用告警相關(guān)性的研究對(duì)告警發(fā)生進(jìn)行業(yè)務(wù)關(guān)聯(lián),達(dá)到突出主用告警、抑制無(wú)用告警的目的,從而大大減少告警量。
近年來(lái),國(guó)內(nèi)進(jìn)行應(yīng)對(duì)告警風(fēng)暴研究的主要以設(shè)備廠商為主,例如中興通訊、華為技術(shù)、大唐電信等,都開始著力研制開發(fā)智能高效的移動(dòng)通信網(wǎng)絡(luò)管理系統(tǒng),包括告警相關(guān)性分析系統(tǒng)等。通過(guò)將一些研究成果融合到OMC、傳輸EMS(element management system,網(wǎng)元管理系統(tǒng))等網(wǎng)管系統(tǒng)中,實(shí)現(xiàn)部分告警風(fēng)暴抑制。
本文旨在探討對(duì)于架構(gòu)在設(shè)備廠商網(wǎng)管之上的綜合網(wǎng)管系統(tǒng),如何通過(guò)升級(jí)現(xiàn)有架構(gòu)來(lái)應(yīng)對(duì)告警風(fēng)暴的發(fā)生,尋找合理的抑制告警風(fēng)暴手段。
所謂告警風(fēng)暴往往被定義為在短時(shí)間內(nèi),產(chǎn)生了大量的告警事件,在這些事件中,有的互相存在一定關(guān)聯(lián),是由于某種共用因素導(dǎo)致的。這樣大量的告警在短時(shí)間內(nèi)擠壓告警上報(bào)通道,導(dǎo)致通道的堵塞甚至上層監(jiān)控業(yè)務(wù)的崩潰。近年來(lái)由于告警風(fēng)暴導(dǎo)致的數(shù)據(jù)庫(kù)鎖死、隊(duì)列溢出、告警監(jiān)控服務(wù)掛死等現(xiàn)象時(shí)有發(fā)生,嚴(yán)重影響了運(yùn)營(yíng)商運(yùn)維管理人員的日常監(jiān)控作業(yè)。
隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大、新類型網(wǎng)元接入以及跨專業(yè)監(jiān)控管理的現(xiàn)實(shí)需求,網(wǎng)管系統(tǒng)的數(shù)據(jù)接入量在不斷增加,但任何一個(gè)系統(tǒng)的運(yùn)行均有其極限值,當(dāng)數(shù)據(jù)處理效率不能滿足系統(tǒng)正常運(yùn)行要求時(shí),系統(tǒng)的可用性就會(huì)隨之下降,對(duì)于告警監(jiān)控這類實(shí)時(shí)消息系統(tǒng)表現(xiàn)得就更為明顯。當(dāng)在一段時(shí)間內(nèi)的數(shù)據(jù)突增,超出系統(tǒng)處理能力時(shí),會(huì)導(dǎo)致數(shù)據(jù)處理延時(shí)或者數(shù)據(jù)丟失,從而引發(fā)監(jiān)控系統(tǒng)的不可用。
如圖1所示,在具體的生產(chǎn)實(shí)踐中,工程割接、自然災(zāi)害、OMC重啟、傳輸鏈路異常中斷等引起的告警風(fēng)暴是數(shù)據(jù)風(fēng)暴的典型場(chǎng)景。通常反應(yīng)為:在超出現(xiàn)有告警監(jiān)控系統(tǒng)數(shù)據(jù)處理能力的情況下,監(jiān)控系統(tǒng)無(wú)法及時(shí)準(zhǔn)確地將某個(gè)網(wǎng)元或者相關(guān)網(wǎng)元的告警解析呈現(xiàn),從而無(wú)法起到監(jiān)控作用。
為了適應(yīng)網(wǎng)絡(luò)規(guī)模和業(yè)務(wù)持續(xù)高速增長(zhǎng)給網(wǎng)絡(luò)運(yùn)維工作帶來(lái)的巨大壓力和挑戰(zhàn),有力支撐公司未來(lái)發(fā)展,中國(guó)移動(dòng)通信集團(tuán)公司于2013年率先提出了“集中化”的網(wǎng)絡(luò)運(yùn)維體制改革思路,經(jīng)過(guò)不斷建設(shè)和深化,已經(jīng)形成了全網(wǎng)跨專業(yè)的“集中監(jiān)控、集中維護(hù)、集中管理”格局。集中監(jiān)控的工作內(nèi)容之一是告警的集中監(jiān)控。隨著集中監(jiān)控規(guī)模的不斷發(fā)展,告警監(jiān)控工作面臨著前所未有的挑戰(zhàn):由于集中化監(jiān)控的設(shè)備數(shù)量逐年快速增長(zhǎng),集中監(jiān)控對(duì)故障的處理質(zhì)量提出了更高的要求,特別是當(dāng)告警風(fēng)暴發(fā)生時(shí),系統(tǒng)崩潰導(dǎo)致值班人員無(wú)法正常開展監(jiān)控工作,進(jìn)而影響通信保障搶修。為此,迫切需要提高告警的準(zhǔn)確性、有效性,并通過(guò)升級(jí)基礎(chǔ)架構(gòu)提高告警處理的效率,應(yīng)對(duì)極端情況下的告警風(fēng)暴發(fā)生。
圖1 告警數(shù)據(jù)風(fēng)暴出現(xiàn)的主要場(chǎng)景分析
在實(shí)際優(yōu)化過(guò)程中,影響系統(tǒng)運(yùn)行效率的原因是多方面的。網(wǎng)絡(luò)傳輸效率、硬件性能、MQ配置、應(yīng)用軟件部署方式、采集軟件配置、數(shù)據(jù)庫(kù)效率、產(chǎn)品設(shè)計(jì)都會(huì)對(duì)系統(tǒng)性能造成影響。
河南省戰(zhàn)略性新興產(chǎn)業(yè)專利特別是發(fā)明專利的數(shù)量與質(zhì)量,體現(xiàn)了河南省自主科技創(chuàng)新實(shí)力的強(qiáng)弱。通過(guò)對(duì)河南省戰(zhàn)略性新興產(chǎn)業(yè)專利競(jìng)爭(zhēng)情報(bào)、專利數(shù)量、專利被引次數(shù)、專利成長(zhǎng)率、專利實(shí)施率、產(chǎn)業(yè)標(biāo)準(zhǔn)化等指標(biāo)經(jīng)濟(jì)與技術(shù)方面的統(tǒng)計(jì)與分析,可以為河南省戰(zhàn)略性新興產(chǎn)業(yè)自主創(chuàng)新能力的提升提供決策參考。河南省戰(zhàn)略性新興產(chǎn)業(yè)專利能力的提升與競(jìng)爭(zhēng)優(yōu)勢(shì)的培育,需要政府與相關(guān)企業(yè)正確制定專利戰(zhàn)略,對(duì)專利進(jìn)行前瞻性布局,提升核心專利技術(shù)的自主化水平,實(shí)施專利運(yùn)營(yíng)能力提升工程,以及構(gòu)建知識(shí)產(chǎn)權(quán)驅(qū)動(dòng)型的創(chuàng)新發(fā)展人才體系等,以推動(dòng)河南省戰(zhàn)略性新興產(chǎn)業(yè)的高質(zhì)量發(fā)展。
如圖2所示,告警風(fēng)暴主要通過(guò)OMC產(chǎn)生,一旦產(chǎn)生,需要監(jiān)控人員引起重視。告警風(fēng)暴處理包含風(fēng)暴抑制和風(fēng)暴后處理兩部分內(nèi)容:風(fēng)暴抑制是系統(tǒng)判斷告警風(fēng)暴產(chǎn)生后,將告警經(jīng)過(guò)特殊通道直接傳遞到消息平臺(tái),并將風(fēng)暴告警保存到文件中,或者停止對(duì)某個(gè)網(wǎng)元某個(gè)告警標(biāo)題的采集;風(fēng)暴后處理是將風(fēng)暴期間的告警入庫(kù),以便于統(tǒng)計(jì)分析,并且將風(fēng)暴期間漏掉的告警通過(guò)正常流程發(fā)送上去。告警風(fēng)暴產(chǎn)生或已經(jīng)停止時(shí),系統(tǒng)產(chǎn)生預(yù)警消息,包括活動(dòng)告警、清除告警。
從告警來(lái)源和架構(gòu)上分析,為有效應(yīng)對(duì)告警風(fēng)暴,考慮從硬件、軟件、中間件等方面入手進(jìn)行針對(duì)性的調(diào)整。同時(shí)通過(guò)配置合理的日常維護(hù)管理制度,可大大減少告警風(fēng)暴導(dǎo)致的業(yè)務(wù)中斷情況發(fā)生的幾率。
2014年以前,中國(guó)移動(dòng)綜合告警系統(tǒng)主要實(shí)現(xiàn)了全專業(yè)告警接入、告警標(biāo)準(zhǔn)化、告警關(guān)聯(lián)、集客業(yè)務(wù)監(jiān)控、性能場(chǎng)景監(jiān)控等功能模塊。以廣西移動(dòng)綜合告警項(xiàng)目為例,在優(yōu)化前,網(wǎng)管硬件平臺(tái)的網(wǎng)絡(luò)拓?fù)淙鐖D3所示,系統(tǒng)部署在網(wǎng)管硬件平臺(tái)的2臺(tái)M9000服務(wù)器上,存儲(chǔ)使用網(wǎng)管硬件平臺(tái)的DX8700磁盤陣列。
隨著集中故障管理業(yè)務(wù)上線,經(jīng)過(guò)對(duì)告警業(yè)務(wù)的處理量、并發(fā)事務(wù)數(shù)、峰值進(jìn)行測(cè)算,得到硬件TPC-C吞吐率(TPC-C使用3種性能和價(jià)格度量,其中性能由TPC-C吞吐率衡量,單位是tpmC,其含義為每分鐘內(nèi)系統(tǒng)處理的新訂單個(gè)數(shù))的需求,進(jìn)而推算出擴(kuò)容方案,具體如下。
·系統(tǒng)數(shù)據(jù)庫(kù)服務(wù)器需要約149萬(wàn)tpmC處理能力,當(dāng)數(shù)據(jù)庫(kù)與MQ服務(wù)器同時(shí)部署在一臺(tái)服務(wù)器的時(shí)候,建議把綜合告警數(shù)據(jù)庫(kù)單獨(dú)拆分出來(lái),利用已有M9000-2分區(qū)的計(jì)算能力,擴(kuò)容4顆4核CPU,以滿足需求。
·采集服務(wù)器需要約127萬(wàn)tpmC處理能力,將應(yīng)用服務(wù)器的M9000分區(qū)的計(jì)算能力由6顆4核CPU內(nèi)存擴(kuò)容至8顆4核CPU,擴(kuò)容后可滿足需求。
·消息服務(wù)器需要約128萬(wàn)tpmC處理能力。將目前應(yīng)用服務(wù)器的M9000分區(qū)由6顆4核CPU擴(kuò)容至8顆4核CPU,擴(kuò)容后分區(qū)能滿足需求。
·拓?fù)浞?wù)器的能力需求為34.86萬(wàn)tpmC,從其他機(jī)房的x86資源池劃分1臺(tái)總能力大于35萬(wàn)tpmC的虛擬機(jī)以滿足需求。另外,為了保證必要的數(shù)據(jù)緩存機(jī)制,還增加了2 TB的存儲(chǔ)空間。
最終調(diào)整結(jié)束后,硬件網(wǎng)絡(luò)拓?fù)淙鐖D4所示。
此外,對(duì)于上層應(yīng)用服務(wù)器也需要做負(fù)載均衡。根據(jù)廣西14個(gè)地市的網(wǎng)絡(luò)及業(yè)務(wù)規(guī)模,將其分成大、中、小3類地市,制定了動(dòng)態(tài)分配應(yīng)用服務(wù)器的負(fù)載均衡策略。例如,當(dāng)沿海城市發(fā)生臺(tái)風(fēng)等自然災(zāi)害,告警突增時(shí),策略器就會(huì)自動(dòng)分配登錄服務(wù)在當(dāng)前空閑的機(jī)器上,保證性能使用的最大化。
通過(guò)硬件調(diào)整,可處理200萬(wàn)條/天的告警并發(fā)負(fù)載量,參照歷史最嚴(yán)重的告警風(fēng)暴發(fā)生,評(píng)估得出該硬件架構(gòu)能力可并發(fā)處理90%的告警。
圖2 告警風(fēng)暴實(shí)例
圖3 綜合告警系統(tǒng)部署調(diào)整前拓?fù)?/p>
圖4 綜合告警系統(tǒng)部署調(diào)整后拓?fù)?/p>
除了對(duì)硬件進(jìn)行改造外,還通過(guò)對(duì)現(xiàn)有告警消息處理機(jī)制進(jìn)行優(yōu)化來(lái)應(yīng)對(duì)告警風(fēng)暴。如圖5所示,告警在設(shè)備北向采集后會(huì)經(jīng)過(guò)清洗階段、標(biāo)準(zhǔn)化階段、分發(fā)入庫(kù)階段和上層展現(xiàn)階段,每個(gè)階段都可能會(huì)成為告警上報(bào)的性能瓶頸。特別是在大量告警隊(duì)列堆積時(shí),有針對(duì)性地調(diào)整腳本的處理效率,可大大提升告警處理效率。
優(yōu)化手段可以從以下幾個(gè)方面考慮。
(1)智能并發(fā)告警采集
針對(duì)采集通道進(jìn)行并行處理,設(shè)計(jì)軟負(fù)載均衡隊(duì)列管理語(yǔ)法,根據(jù)告警流量智能控制并行處理單元數(shù),假設(shè)當(dāng)A通道告警是B通道的兩倍時(shí),會(huì)在給A通道多分配50%的處理進(jìn)程,按照該算法,通過(guò)調(diào)整可提升單通道采集能力達(dá)到60條/s。
圖5 采集解析模塊優(yōu)化架構(gòu)
(2)基于高速緩存的告警處理系統(tǒng)
由于一般在告警標(biāo)準(zhǔn)化過(guò)程中,需要反復(fù)讀取告警進(jìn)行標(biāo)準(zhǔn)化字段的翻譯。針對(duì)這種特點(diǎn),可以利用高速緩存技術(shù),如圖6所示,將待處理告警所需要的信息存儲(chǔ)在內(nèi)存中,加快了CPU的處理效率,迅速提升告警標(biāo)準(zhǔn)化、工程預(yù)約等標(biāo)準(zhǔn)化處理能力,提升整體處理能力達(dá)到 400條/s。
圖6 告警緩存建立示意
(3)基于高效規(guī)則處理和并發(fā)的告警訂閱分發(fā)系統(tǒng)
通過(guò)建立高效規(guī)則處理實(shí)現(xiàn)告警過(guò)濾器能力,識(shí)別多種閃現(xiàn)告警和關(guān)聯(lián)告警并予以合并或拋棄,并結(jié)合多并發(fā)分發(fā)處理,在并發(fā)多個(gè)過(guò)濾器(50個(gè))情況下,提升分發(fā)效率,可以實(shí)現(xiàn)400條/s的處理速度。
基于流計(jì)算的告警關(guān)聯(lián)系統(tǒng)摒棄使用數(shù)據(jù)庫(kù)計(jì)算的方式,改為在接收告警流數(shù)據(jù)時(shí)就開始對(duì)其進(jìn)行分析,通過(guò)實(shí)時(shí)的對(duì)象流計(jì)算,可快速處理告警之間的關(guān)聯(lián)關(guān)系,提升單規(guī)則處理能力,實(shí)驗(yàn)表明可提升到200條/s。
(4)基于智能調(diào)度的告警派單處理能力提升
針對(duì)上層應(yīng)用,告警的落地除了展現(xiàn),更重要的是派單,提升EOMS派單系統(tǒng)自身處理效率可在業(yè)務(wù)上解決告警風(fēng)暴的問題。針對(duì)EOMS單通道處理能力不夠的情況,通過(guò)建立智能的調(diào)度機(jī)制,動(dòng)態(tài)并發(fā)調(diào)用,大幅提升派單能力,派單系統(tǒng)自身處理能力達(dá)到150條/s。
(5)數(shù)據(jù)庫(kù)調(diào)優(yōu)
通過(guò)對(duì)數(shù)據(jù)庫(kù)Oracle/Informix進(jìn)行分片機(jī)制、增加索引,并對(duì)大量歷史數(shù)據(jù)進(jìn)行拆分,也可以使得告警實(shí)時(shí)查詢速率提升。廣西移動(dòng)采集模塊優(yōu)化測(cè)試結(jié)果見表1,以廣西移動(dòng)實(shí)際項(xiàng)目測(cè)試結(jié)果為例,經(jīng)過(guò)優(yōu)化,可獲得顯著的提升效果。
表1 廣西移動(dòng)采集模塊優(yōu)化測(cè)試結(jié)果
如圖7所示,消息隊(duì)列(MQ)是一種應(yīng)用程序?qū)?yīng)用程序的通信方法。應(yīng)用程序通過(guò)“寫”和“檢索”出入列隊(duì)的針對(duì)應(yīng)用程序的數(shù)據(jù)(消息)來(lái)通信,而無(wú)需專用連接器來(lái)鏈接它們。消息傳遞指的是程序之間通過(guò)在消息中發(fā)送數(shù)據(jù)進(jìn)行通信,而不是通過(guò)直接調(diào)用彼此來(lái)通信,直接調(diào)用通常是用于諸如遠(yuǎn)程過(guò)程調(diào)用的技術(shù)。排隊(duì)指的是應(yīng)用程序通過(guò)隊(duì)列來(lái)通信。隊(duì)列的使用除去了接收和發(fā)送應(yīng)用程序同時(shí)執(zhí)行的要求。
圖7 告警中間件MQ流程
IBM WebSphere MQ是綜合告警平臺(tái)使用的隊(duì)列中間件,對(duì)該中間件的參數(shù)配置進(jìn)行優(yōu)化,可以起到優(yōu)化隊(duì)列長(zhǎng)度,提高告警處理效率的效果。
對(duì)MQ進(jìn)行了優(yōu)化調(diào)校,主要從服務(wù)器參數(shù)、MQ參數(shù)、MQ日志配置、隊(duì)列參數(shù)、緩沖區(qū)參數(shù)、程序API調(diào)用等多個(gè)方面,增強(qiáng)了服務(wù)器處理性能,提高了MQ服務(wù)的處理速度,減少了核心程序?qū)Q的壓力。具體為以下幾個(gè)方面的調(diào)優(yōu)。
·調(diào)整/etc/system系統(tǒng)參數(shù),優(yōu)化MQ服務(wù)的數(shù)據(jù)處理性能。
·優(yōu)化MQ的斷網(wǎng)續(xù)傳參數(shù),在Sun平臺(tái)下調(diào)整為:/usr/sbin/ndd-set/dev/tcptcp_keepalive_interval 15000。
· 優(yōu)化MQ的日志配置,修改/var/mqm/qmgrs/隊(duì)列管理器名稱為/qm.ini,調(diào)整日志文件的個(gè)數(shù)、每個(gè)日志文件的大小、日志緩沖區(qū)大小。
· 修改偵聽的啟動(dòng)方式,采用runmqlsr方式提高通道相關(guān)的性能。
·設(shè)置偵聽程序采用trusted方式運(yùn)行,降低CPU和內(nèi)存消耗。
· 增加通道的PipeLineLength屬性,設(shè)置MCA參數(shù)采用多個(gè)線程的方式傳輸消息,從而提高通道性能。
· 修改/var/mqm/qmgrs/隊(duì)列管理器名稱/qm.ini的TCP選項(xiàng)KeepAlive=Yes,使操作系統(tǒng)的TCP/IP參數(shù)設(shè)置對(duì)WebSphere MQ生效。
·修改核心程序?qū)Q的操作方式:MQCONN和MQDISC是最耗CPU的兩個(gè)函數(shù),減少M(fèi)QOPEN和MQCLOSE函數(shù)的調(diào)用,使用MQCONNX函數(shù)建立與隊(duì)列管理器的連接,使應(yīng)用程序和本地隊(duì)列管理器代理組成同一個(gè)進(jìn)程,從而提高性能。
以JFMHandler處理能力為例,經(jīng)過(guò)測(cè)試,效果如圖8所示。
優(yōu)化后,JFM處理消息的性能大約是544條/s,相比優(yōu)化前的400條/s處理能力提升了36%。
圖8 測(cè)試效果
為保證在告警風(fēng)暴出現(xiàn)時(shí),系統(tǒng)有能力對(duì)告警管理人員進(jìn)行支撐,需要對(duì)告警系統(tǒng)新增服務(wù)負(fù)荷監(jiān)控模塊,對(duì)綜合告警客戶端發(fā)起連接到服務(wù)端請(qǐng)求的過(guò)濾器服務(wù)進(jìn)行監(jiān)控,包括連接狀態(tài)、連接所占資源信息,方便監(jiān)控人員及時(shí)定位服務(wù)異常情況。一旦發(fā)現(xiàn)服務(wù)內(nèi)存溢出系統(tǒng)無(wú)法自行恢復(fù)時(shí),可在最短時(shí)間內(nèi)通過(guò)手工進(jìn)行恢復(fù),保證業(yè)務(wù)連續(xù)性。
在2013年,廣西移動(dòng)發(fā)生過(guò)類似臺(tái)風(fēng)災(zāi)害場(chǎng)景產(chǎn)生180萬(wàn)條/天的告警量,平均處理能力只有12.66條/s。在經(jīng)過(guò)了硬件擴(kuò)容、軟件結(jié)構(gòu)優(yōu)化等調(diào)優(yōu)工作,并進(jìn)行測(cè)試和部署調(diào)整后,經(jīng)過(guò)6個(gè)月的現(xiàn)網(wǎng)環(huán)境觀察,告警風(fēng)暴處理能力有明顯提升。2014年7月,臺(tái)風(fēng)威馬遜襲擊中國(guó)東南沿海,廣西受災(zāi)。每天全網(wǎng)產(chǎn)生280萬(wàn)條告警,形成特大告警風(fēng)暴。平均每小時(shí)產(chǎn)生12萬(wàn)條告警,峰值告警為15萬(wàn)條,遠(yuǎn)遠(yuǎn)超過(guò)了系統(tǒng)的負(fù)載能力。經(jīng)過(guò)事后日志分析,告警風(fēng)暴最嚴(yán)重的7月19日,平均處理能力可達(dá)到120.4條/s,入庫(kù)60.3條/s。峰值擠壓時(shí)可在1 h內(nèi)處理完畢。處理效率提高將近10倍,大大緩解了告警數(shù)據(jù)量的壓力。告警處理提升速度對(duì)照如圖9所示。
圖9 告警處理提升速度對(duì)照
告警風(fēng)暴優(yōu)化后,處理速度比優(yōu)化前翻一番,細(xì)化了綜合監(jiān)控的支撐粒度,解決了遇到重大故障不可用的問題,實(shí)現(xiàn)了由面向網(wǎng)絡(luò)到面向客戶、由被動(dòng)運(yùn)維向主動(dòng)運(yùn)維的轉(zhuǎn)變。以業(yè)務(wù)主體為核心,實(shí)現(xiàn)故障的集中監(jiān)控、集中管理、工單直派一線,提高故障定位速度、分析和處理的效率,最終達(dá)到提升網(wǎng)絡(luò)運(yùn)維質(zhì)量的目的。
隨著移動(dòng)通信4G網(wǎng)絡(luò)的建設(shè)以及集中化運(yùn)維體制改革的深入推進(jìn),一個(gè)能有效管理網(wǎng)絡(luò)的運(yùn)行支撐系統(tǒng)就成為必不可少的工具,成為影響運(yùn)營(yíng)質(zhì)量的重要因素之一。通過(guò)升級(jí)綜合告警系統(tǒng)的軟硬件架構(gòu),使之具備應(yīng)對(duì)告警風(fēng)暴的能力,能夠使得綜合告警平臺(tái)為網(wǎng)絡(luò)運(yùn)維創(chuàng)造更多價(jià)值。
在研究過(guò)程中,參考了部分省級(jí)運(yùn)營(yíng)商的先進(jìn)經(jīng)驗(yàn),結(jié)合自身“4+1”網(wǎng)管建設(shè)推進(jìn)部署,每年都對(duì)系統(tǒng)進(jìn)行深入研究,從業(yè)務(wù)(告警關(guān)聯(lián))到技術(shù)(技術(shù)架構(gòu))進(jìn)行深度優(yōu)化,持續(xù)改進(jìn)提升,以應(yīng)對(duì)不斷變換的網(wǎng)絡(luò)環(huán)境,發(fā)揮網(wǎng)管系統(tǒng)的最大價(jià)值。
1 ITU-TRecM3200.TMNManagementServicesand Communications Managed Areas:Overview,2001
2 鄭慶國(guó),呂衛(wèi)峰.通信網(wǎng)絡(luò)中的告警相關(guān)性研究.計(jì)算機(jī)工程與應(yīng)用,2002(2):11~15
Zeng Q G,Lv W F.Study on alarm correlation in communication network.Computer Engineering and Applications,2002(2):11~15
3 石永革,梅玉潔,石峰.通信網(wǎng)網(wǎng)管告警過(guò)濾機(jī)制的研究與應(yīng)用.計(jì)算機(jī)工程與設(shè)計(jì),2008,29(9):2169~2171
Shi Y G,Mei Y J,Shi F.Research and application of communication network management alarm filtering mechanism.Computer Engineering and Design,2008,29(9):2169~2171
4 klemettinen M,Mannila H,Toivonen H.Rule discovery in telecommunication alarm data.Journal of Network and Systems Management,1999(4):395~423
5 潘沛.電信網(wǎng)絡(luò)綜合告警系統(tǒng)需求分析與設(shè)計(jì).大眾科技,2009(5)
Pan P.Analysis and design of telecom network integrated alarm system requirements.Public Science and Technology,2009(5)
6 聞海舟.淺談電信網(wǎng)絡(luò)綜合告警系統(tǒng)建設(shè)方案.廣西通信技術(shù),2011(2)
Wen H Z.The construction scheme of telecom network integrated alarm system.Guangxi Communication Technology,2011(2)
7 馮婧篧,李興明.基于加權(quán)關(guān)聯(lián)模式的通信網(wǎng)告警相關(guān)性分析.電信科學(xué),2007,23(11)
Feng J Y,Li X M.Telecommunication alarm correlation analysis model based on weighted association.Telecommunications Science,2007,23(11)
8 李寶山,王蘇東.告警管理系統(tǒng)中的告警同步模塊的設(shè)計(jì).通信技術(shù),2013(4)
Li B S,Wang S D.Design of alarm synchronization module in the alarm management system.Communications Technology,2013(4)
9 Kettschau H J,Bruck S,Schefezik P L.An expert system for intelligent fault management and alarm correlation.Proceedings of Network Operation and Management Symposium (NOMS),Florence,Italy,April 2002