蘇醒,張璐
(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司東莞分公司,廣東 東莞 523129)
基于控制圖法的網(wǎng)絡(luò)告警突變預(yù)警機(jī)制
蘇醒,張璐
(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司東莞分公司,廣東 東莞 523129)
各種網(wǎng)元及其觸發(fā)的告警量隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大而大量涌現(xiàn)。傳統(tǒng)的網(wǎng)絡(luò)運(yùn)行維護(hù),即被動(dòng)地對(duì)發(fā)生后的網(wǎng)絡(luò)故障逐一進(jìn)行派單處理,已經(jīng)不能適應(yīng)現(xiàn)如今復(fù)雜的網(wǎng)絡(luò)管理。從影響客戶感知、客戶投訴、網(wǎng)絡(luò)運(yùn)行安全等維度,梳理出影響業(yè)務(wù)的各類(lèi)網(wǎng)絡(luò)重要告警標(biāo)題,運(yùn)用控制圖方法,統(tǒng)計(jì)分析各類(lèi)重要告警異常突變量的上下波動(dòng)受控情況,結(jié)合業(yè)務(wù)影響關(guān)聯(lián)分析,建立重要告警異常突變預(yù)警的預(yù)警模型和算法,提出了一種先于故障處理、主動(dòng)挖掘隱患的網(wǎng)絡(luò)告警預(yù)警動(dòng)態(tài)閉環(huán)管控機(jī)制。
預(yù)警;告警突變;控制圖
網(wǎng)絡(luò)告警預(yù)警是先于網(wǎng)絡(luò)故障處理、主動(dòng)挖掘網(wǎng)絡(luò)隱患的有效管控機(jī)制,有利于網(wǎng)絡(luò)管理員對(duì)網(wǎng)絡(luò)故障和告警進(jìn)行預(yù)防性維護(hù)。隨著網(wǎng)絡(luò)規(guī)模的日益擴(kuò)大,網(wǎng)絡(luò)上各種網(wǎng)元及其觸發(fā)的告警大量涌現(xiàn)。如何對(duì)這些海量告警進(jìn)行有效分析預(yù)判,成為網(wǎng)絡(luò)運(yùn)行管理急需解決的問(wèn)題。綜觀現(xiàn)有網(wǎng)絡(luò)告警分析和操作,有如下不足之處。
·僅在各網(wǎng)元出現(xiàn)告警和故障后對(duì)其被動(dòng)地進(jìn)行響應(yīng)處理,缺少對(duì)告警量突變和趨勢(shì)的科學(xué)分析,建立合理的分級(jí)別告警門(mén)限和觸發(fā)機(jī)制。
·各網(wǎng)元出現(xiàn)的告警僅與網(wǎng)元自身有關(guān),缺少告警與前端業(yè)務(wù)感知和后端網(wǎng)絡(luò)隱患的關(guān)聯(lián)。
·缺少網(wǎng)絡(luò)告警分級(jí)別的閉環(huán)管控機(jī)制,即沒(méi)有建立可行的后評(píng)估機(jī)制,推動(dòng)網(wǎng)絡(luò)告警管控機(jī)制的更新優(yōu)化。
針對(duì)以上不足,從影響客戶感知、客戶投訴、網(wǎng)絡(luò)運(yùn)行安全等維度梳理出影響業(yè)務(wù)的各類(lèi)網(wǎng)絡(luò)重要告警標(biāo)題。運(yùn)用控制圖方法,統(tǒng)計(jì)分析各類(lèi)重要告警異常突變量的上下波動(dòng)受控情況,結(jié)合業(yè)務(wù)影響關(guān)聯(lián)分析,建立重要告警異常突變預(yù)警的分級(jí)預(yù)警模型和算法,提出了一種先于故障處理、主動(dòng)挖掘隱患的網(wǎng)絡(luò)告警預(yù)警動(dòng)態(tài)閉環(huán)管控機(jī)制。
網(wǎng)絡(luò)告警突變預(yù)警分析中的各類(lèi)全量告警是在一天內(nèi)統(tǒng)計(jì)告警量,即某類(lèi)全量告警每天只得到一個(gè)累計(jì)數(shù)據(jù),樣本數(shù)據(jù)無(wú)需分組,并希望盡快發(fā)現(xiàn)異常且消除異常因素。對(duì)各種控制圖工具的適用場(chǎng)景進(jìn)行分析,如圖1所示,選取“X-Rm單值—移動(dòng)極差控制圖”作為網(wǎng)絡(luò)告警突變預(yù)警分析工具最為合適。
在“X-Rm單值—移動(dòng)極差控制圖”中,結(jié)合各告警標(biāo)題告警量的疏密程度,選取一年中具有代表性的月份的每日全量告警,作為基礎(chǔ)分析數(shù)據(jù)樣本。取樣本空間[X1,X2,…,Xk],k∈[1,n],n≥25。各項(xiàng)主要參數(shù)介紹如下。
·各告警標(biāo)題每日全量告警的單值X的平均值X=
·相鄰每日全量告警量的極差Rsi=|Xi-Xi-1|。
·各極差值Rsi的平均值
·各告警標(biāo)題每日全量告警樣本X的控制圖中,控制
中心線CL、控制上界限UCL、控制下界限LCL分別
·相鄰每日全量告警量極差Rsi的控制圖中,控制中
心線CL、控制上界限UCL、控制下界限LCL分別
網(wǎng)絡(luò)告警突變預(yù)警分析中應(yīng)用控制圖的目的是要及時(shí)發(fā)現(xiàn)告警突變過(guò)程中出現(xiàn)的異常,判斷異常的原則就是出現(xiàn)小概率事件。判斷準(zhǔn)則有如下兩類(lèi)。
·第一類(lèi)異常:網(wǎng)絡(luò)突變告警越出控制界限。
·第二類(lèi)異常:網(wǎng)絡(luò)突變告警在控制界限內(nèi),但排列的形狀有缺陷。
圖1 常用控制圖工具的選擇方案
一般認(rèn)為,超出控制界限是由偶然事件引起的,而出現(xiàn)異常的可能性α非常小,故3σ為控制限,4σ為行動(dòng)限。2σ為警戒限,作為失控狀態(tài)即將來(lái)臨的一個(gè)警示信號(hào)。
在網(wǎng)絡(luò)告警突變預(yù)警分析中,根據(jù)不同類(lèi)型的告警標(biāo)題建立如下分級(jí)預(yù)警模型:
· 為避免出現(xiàn)第一類(lèi)異常,采用2σ、3σ、4σ作為三級(jí)預(yù)警模型閾值;
·為避免出現(xiàn)第二類(lèi)異常,用于判斷趨勢(shì)是否異常,作為趨勢(shì)預(yù)警評(píng)判規(guī)則。
以控制圖作為建模工具,以與業(yè)務(wù)影響相關(guān)的各類(lèi)告警量變化情況作為分析對(duì)象,通過(guò)各類(lèi)告警量歷史收集數(shù)據(jù)搭建分級(jí)預(yù)警模型。主要分為以下3個(gè)關(guān)鍵步驟。
根據(jù)第2.2節(jié)析出的各重要參數(shù),關(guān)聯(lián)已知故障現(xiàn)狀,剔除已知故障的告警異常突變點(diǎn)。同時(shí)采用Dixon檢驗(yàn)法剔除離群異常數(shù)據(jù),即剔除樣本中離其他觀測(cè)值較遠(yuǎn)的樣本值。
以無(wú)線專(zhuān)業(yè)的載波配置異常告警為例,極差Rsi控制圖有異樣點(diǎn)落在控制限之外,判斷極差Rsi控制圖處于不穩(wěn)定未受控狀態(tài),如圖2所示。
通過(guò)Dixon檢驗(yàn)法判斷和關(guān)聯(lián)已知故障現(xiàn)狀剔除異常點(diǎn),使得極差Rsi控制圖和單值X控制圖均處于穩(wěn)定受控狀態(tài),即Rsi和X的樣本值均在上下控制線內(nèi),如圖3、圖4所示。
極差Rsi控制圖和單值X控制圖均處于受控狀態(tài)后,將單值X作為全量告警的預(yù)警模型,即根據(jù)控制圖第一類(lèi)異常判斷和預(yù)防措施原則,采用2σ警戒限、3σ控制限、4σ行動(dòng)限分別作為三級(jí)、二級(jí)、一級(jí)預(yù)警模型閾值。以外部環(huán)境重要告警標(biāo)題為例,列舉其與業(yè)務(wù)影響相關(guān)的重要告警標(biāo)題及其分級(jí)閾值,見(jiàn)表1。
同時(shí)根據(jù)控制圖第二類(lèi)異常判斷原則,以外部環(huán)境類(lèi)的整流器告警為例,制定該告警標(biāo)題趨勢(shì)異常預(yù)警規(guī)則如下:
·連續(xù)7天落在中心線上方,判為三級(jí)趨勢(shì)異常預(yù)警;連續(xù)9天落在中心線上方,判為二級(jí)趨勢(shì)異常預(yù)警;連續(xù)11天落在中心線上方,判為一級(jí)趨勢(shì)異常預(yù)警。
圖2 未受控的極差Rsi控制圖
圖3 受控的極差Rsi控制圖
·連續(xù)4天遞增,判為三級(jí)趨勢(shì)異常預(yù)警;連續(xù)6天遞增,判為二級(jí)趨勢(shì)異常預(yù)警;連續(xù)8天遞增,判為一級(jí)趨勢(shì)異常預(yù)警。
·連續(xù)3天中有2天落在中心線上方2σ區(qū)域外,判為二級(jí)趨勢(shì)異常預(yù)警;連續(xù)5天中有4天落在中心線上方2σ區(qū)域外,判為一級(jí)趨勢(shì)異常預(yù)警;連續(xù)5天中有4天落在中心線上方1σ區(qū)域以外,判為三級(jí)趨勢(shì)異常預(yù)警。
圖4 受控的單值X控制圖
表1 外部環(huán)境類(lèi)重要告警標(biāo)題及其分級(jí)閾值
網(wǎng)絡(luò)告警突變分級(jí)預(yù)警模型是建立在極差Rsi控制圖和單值X控制圖均已受控的前提下。由于選取的樣本空間僅反映一定時(shí)間段內(nèi)各全量告警的變動(dòng)范圍,根據(jù)趨勢(shì)異常預(yù)警的規(guī)則,當(dāng)網(wǎng)絡(luò)全量告警趨勢(shì)變好后,可優(yōu)化趨勢(shì)變好的告警預(yù)警閾值,從而建立網(wǎng)絡(luò)告警突變的滾動(dòng)優(yōu)化調(diào)整觸發(fā)機(jī)制。滾動(dòng)優(yōu)化機(jī)制觸發(fā)條件建議如下:
·網(wǎng)絡(luò)告警標(biāo)題全量告警連續(xù)6天遞減;
·網(wǎng)絡(luò)告警標(biāo)題全量告警連續(xù)9天在中心線以下;
·網(wǎng)絡(luò)告警標(biāo)題全量告警連續(xù)5天中有4天超過(guò) 2σ警戒限。
網(wǎng)絡(luò)告警突變分級(jí)預(yù)警閾值可在滾動(dòng)優(yōu)化機(jī)制下做周期性修正。滾動(dòng)優(yōu)化機(jī)制觸發(fā)條件可結(jié)合網(wǎng)絡(luò)告警的實(shí)際情況設(shè)定。
根據(jù)分級(jí)預(yù)警閾值,可進(jìn)一步建立網(wǎng)絡(luò)告警突變的分級(jí)別管控機(jī)制,包括啟動(dòng)條件、響應(yīng)人員配備、調(diào)度響應(yīng)機(jī)制、處理和閉環(huán)管控等。同時(shí)通過(guò)預(yù)警模型的后評(píng)估環(huán)節(jié),結(jié)合關(guān)聯(lián)告警各類(lèi)失敗場(chǎng)景、用戶感知(故障、業(yè)務(wù)),優(yōu)化預(yù)警判斷的模型,從而形成網(wǎng)絡(luò)告警預(yù)警閉環(huán)管控體系,如圖5所示。
圖5 網(wǎng)絡(luò)告警突變預(yù)警機(jī)制的閉環(huán)管控流程
本文在梳理出影響業(yè)務(wù)的各類(lèi)網(wǎng)絡(luò)重要告警標(biāo)題的基礎(chǔ)上,選用“X-Rm單值—移動(dòng)極差控制圖”工具,關(guān)聯(lián)業(yè)務(wù)影響分析,建立重要告警異常突變預(yù)警的分級(jí)預(yù)警模型和算法。最后根據(jù)預(yù)警閾值建立網(wǎng)絡(luò)告警突變的分級(jí)別管控機(jī)制,通過(guò)增加后評(píng)估環(huán)節(jié),結(jié)合告警各類(lèi)失敗場(chǎng)景,優(yōu)化預(yù)警判斷模型,形成告警預(yù)警閉環(huán)管控體系。為告警預(yù)警和快速響應(yīng)調(diào)度提供了有效可行的數(shù)理統(tǒng)計(jì)模型和依據(jù),適用于網(wǎng)管系統(tǒng)中傳輸專(zhuān)業(yè)、無(wú)線專(zhuān)業(yè)、核心設(shè)備、外部環(huán)境等異常告警突變的分級(jí)預(yù)警、調(diào)度、處理和閉環(huán)管控工作。
[1]DE VRIES A,RENEAU J K.Application of statistical process control charts to monitor changes in animal production systems[J].Journal of Animal Science,2010,88(13):11-24.
[2]EBRAHIMZADEH A,RANAEE V.Controlchartpattern recognition using an optimized neural network and efficient features[J].ISA Transactions,2010,9(3):387-393.
[3]PSARAKIS S.The use of neural networks in statistical process control charts [J]. Quality and Reliability Engineering International Journal,2011,27(5):641-650.
[4]GHIASABADI A,NOOROSSANA R,SAGHAEI A.Identifying change point of a non-random pattern on control chart using artificial neural networks [J].The International Journal of Advanced Manufacturing Technology,2013,67(5-8):1623.
[5]WAI C Y,KHOO M B C,WU Z,et al.Economically optimum design ofa synthetic chart [J].Quality and Reliability Engineering International Journal,2012,28(7):523-525.
Early-warning schemes for alarm mutation in networks based on control chart
SU Xing,ZHANG Lu
Dongguan Branch of China Mobile Group Guangdong Co.,Ltd.,Dongguan 523129,China
The amount of various network elements and alarms trigged is pretty startling with the expansion of the network.The traditional network operation and maintenance,that is,passively processed worksheet after the occurrence of network failure one by one,has been unable to adapt to the complex network management today.The various types of important service-related network alarm titles were sorted out,and the fluctuation under control for kinds of important alarms by control chart,establishes the graded early-warning model and algorithm for alarm mutation in networks combining with the service-related analysis,were analyzed.At last,a dynamic closed-loop control mechanism,which was preceded by fault occurred and actively digs into hidden troubles,was proposed.
early warning,alarm mutation,control chart
TP393
A
10.11959/j.issn.1000-0801.2016102
2016-01-22;
2016-03-10
蘇醒,suxing_lulu@163.com
蘇醒(1982-),男,中國(guó)移動(dòng)通信集團(tuán)廣東有限公司東莞分公司高級(jí)工程師,主要從事網(wǎng)絡(luò)運(yùn)行支撐管理工作。
張璐(1982-),女,中國(guó)移動(dòng)通信集團(tuán)廣東有限公司東莞分公司工程師,主要從事無(wú)線網(wǎng)絡(luò)優(yōu)化工作。
電力信息化專(zhuān)欄