包 勵(lì)
(華東空管局,上海 200000)
上海浦東華為SDH光環(huán)網(wǎng)(簡(jiǎn)稱“本場(chǎng)光環(huán)網(wǎng)”)是由華東空管局獨(dú)立投資建設(shè)的本場(chǎng)通信骨干基礎(chǔ)網(wǎng)絡(luò),投產(chǎn)于2015年,是空管行業(yè)華東地區(qū)首套光傳輸網(wǎng)絡(luò),在2018年之后進(jìn)行了升級(jí)擴(kuò)容,目前的網(wǎng)絡(luò)主體采用了四環(huán)相交結(jié)構(gòu),主要承載雷達(dá)、甚高頻、導(dǎo)航、氣象、航行情報(bào)、語音等信號(hào)傳輸。本場(chǎng)光環(huán)網(wǎng)采用具有智能特性的NG-SDH設(shè)備OptiX OSN系列,共配置44個(gè)節(jié)點(diǎn)。
2021年至今,本場(chǎng)光環(huán)網(wǎng)網(wǎng)管共上報(bào)2 245個(gè)告警,其中緊急告警973個(gè)、重要告警1 157個(gè)、次要告警115個(gè),告警日志統(tǒng)計(jì)分析如下:在緊急告警中,告警數(shù)量排名前四的節(jié)點(diǎn)依次為航管樓、HGL-500M、HGL-500S、點(diǎn)對(duì)點(diǎn)-航管樓;在重要告警中,告警數(shù)量排名前四的節(jié)點(diǎn)依次為航管樓、大終端、浦東三甲港雷達(dá)、大終端輔助環(huán);在次要告警中,告警數(shù)量排名前四的節(jié)點(diǎn)依次為大終端、東場(chǎng)監(jiān)、航管樓、R5南航向。可以看出告警主要集中在大終端、航管樓的節(jié)點(diǎn)設(shè)備,這與這些地點(diǎn)需要大量業(yè)務(wù)開通操作、業(yè)務(wù)引接有關(guān),從側(cè)面反映出這些節(jié)點(diǎn)設(shè)備的活躍程度,應(yīng)在今后運(yùn)維中著重關(guān)注。
本場(chǎng)光環(huán)網(wǎng)系統(tǒng)在建成投入之初由于配置不完整導(dǎo)致產(chǎn)生大量告警,我們進(jìn)行了存量告警專項(xiàng)清理工作,在對(duì)網(wǎng)管告警詳細(xì)信息進(jìn)行梳理歸類之后,可得出。
(1)緊急告警全部為ETH_LOS,網(wǎng)口連接丟失。
(2)重要告警主要為I N_PW R_A BN,輸入功率異常;APS_INDI,復(fù)用段保護(hù)協(xié)議狀態(tài)指示告警;MS_A PS_I N DI_EX,復(fù)用段倒換指示擴(kuò)展;T_ALOS,E1/T1接口模擬信號(hào)丟失;POWER_ABNORNAL,電源丟失和LCAS_FOPR、LCAS接收方向協(xié)議失效。
(3)次要告警主要為PORTMODE_MISMATCH,遠(yuǎn)端FE端口工作模式不匹配告警;UP_E1_AIS,上行方向2M信號(hào)告警指示;DOWN_E1_AIS,下行方向2M信號(hào)告警指示,CLK_NO_TRACE_MODE,時(shí)鐘進(jìn)入非跟蹤工作模式。
告警總量共計(jì)122條,其中緊急告警4條、重要告警51條、次要告警67條。告警涉及本場(chǎng)光環(huán)網(wǎng)核心環(huán)、主環(huán)、環(huán)帶鏈以及點(diǎn)對(duì)點(diǎn)傳輸形式,涵蓋網(wǎng)元節(jié)點(diǎn)多,其中包括場(chǎng)外12個(gè)網(wǎng)元節(jié)點(diǎn),場(chǎng)內(nèi)4個(gè)網(wǎng)元節(jié)點(diǎn)。部分告警級(jí)別設(shè)置不突出、層次不分明。綜上所述,網(wǎng)管告警呈現(xiàn)數(shù)量多、類型雜、涉及廣、告警信息級(jí)別設(shè)置不恰當(dāng)?shù)忍攸c(diǎn)。
通過對(duì)告警情況的梳理,制定了告警處理四原則:先主環(huán)后核心環(huán)、先外場(chǎng)后內(nèi)場(chǎng)、先無業(yè)務(wù)后有業(yè)務(wù)、先非停機(jī)后停機(jī)。以安全運(yùn)行保障為前提,先易后難、先小后大、先外后內(nèi),進(jìn)行專項(xiàng)告警清理工作。以下為展開主要告警類型的排查過程。
(1)IN_PWR_ABN,輸入功率異常告警,此類告警共計(jì)6條,涉及5個(gè)節(jié)點(diǎn),包括大終端、航管樓、西場(chǎng)監(jiān)、R3北下滑及核心輔助環(huán)的二塔臺(tái)節(jié)點(diǎn)。我們秉持四原則,分批進(jìn)行光纖中繼鏈路優(yōu)化。
①二塔臺(tái)輔助環(huán)節(jié)點(diǎn)為本場(chǎng)光環(huán)網(wǎng)核心輔助環(huán)網(wǎng)節(jié)點(diǎn),該環(huán)網(wǎng)無在用重要業(yè)務(wù),前往二塔臺(tái)進(jìn)行光纖中繼鏈路優(yōu)化調(diào)整,更換光纖鏈路(二塔臺(tái)—二次雷達(dá)遷—終端進(jìn)線間—大終端);②西場(chǎng)監(jiān)節(jié)點(diǎn)停機(jī)維護(hù),進(jìn)行核心環(huán)航管樓節(jié)點(diǎn)OSN 3500至西場(chǎng)監(jiān)雷達(dá)節(jié)點(diǎn)OSN 500其中一條光纖中繼鏈路優(yōu)化調(diào)整,更換光纖鏈路(航管樓—R1南下滑—西場(chǎng)監(jiān)雷達(dá));③大終端節(jié)點(diǎn)停機(jī)維護(hù),進(jìn)行主環(huán)A上大終端節(jié)點(diǎn)OSN 3500至浦東培訓(xùn)樓節(jié)點(diǎn)OSN 1500光纖中繼優(yōu)化調(diào)整,更換光纖鏈路(大終端—終端進(jìn)線間—浦東培訓(xùn)樓1樓—浦東培訓(xùn)樓6樓);④大終端節(jié)點(diǎn)停機(jī)維護(hù),進(jìn)行核心環(huán)大終端節(jié)點(diǎn)OSN 3500至航管樓節(jié)點(diǎn)OSN 3500光纖中繼鏈路優(yōu)化調(diào)整,在大終端節(jié)點(diǎn)光接收口添加光衰減器;⑤R3北下滑節(jié)點(diǎn)停機(jī)維護(hù),進(jìn)行主環(huán)A上R3北下滑節(jié)點(diǎn)OSN 1500至R1北近臺(tái)節(jié)點(diǎn)OSN 500其中一條光纖中繼鏈路優(yōu)化調(diào)整,更換光纖鏈路(R3北下滑—R1北下滑—R1北航向—R1北近臺(tái))。
歷經(jīng)4次停機(jī)維護(hù),通過光纖中繼鏈路優(yōu)化調(diào)整,鏈路輸入光功率正常,共計(jì)消除異常告警6條,分別為輸入光功率過低5條,涉及大終端節(jié)點(diǎn)、西場(chǎng)監(jiān)節(jié)點(diǎn)、R3北下滑節(jié)點(diǎn)、大終端輔助環(huán)節(jié)點(diǎn)、二塔臺(tái)輔助環(huán)節(jié)點(diǎn);輸入光功率過高1條,涉及大終端節(jié)點(diǎn)。
(2)POWER_ABNORNAL,電源丟失告警,此類告警共計(jì)1條。告警發(fā)生點(diǎn)為核心輔助環(huán)的二塔臺(tái)節(jié)點(diǎn),前往二塔臺(tái),發(fā)現(xiàn)整流模塊其中一路空開未啟用,在打開空開后電源接入正常,告警消除1條。
(3)APS_INDI,復(fù)用段保護(hù)協(xié)議狀態(tài)指示告警、MS_APS_INDI_EX,復(fù)用段倒換指示擴(kuò)展[1],此兩類告警共計(jì)4條。該告警提示核心環(huán)航管樓節(jié)點(diǎn)曾經(jīng)發(fā)生過交叉板主備倒換。查看網(wǎng)管配置,航管樓節(jié)點(diǎn)至西場(chǎng)監(jiān)雷達(dá)節(jié)點(diǎn)采用線性復(fù)用段1+1保護(hù),且倒換方式為單端非恢復(fù)式。在進(jìn)行核心環(huán)航管樓節(jié)點(diǎn)至西場(chǎng)監(jiān)雷達(dá)節(jié)點(diǎn)其中一條光纖中繼鏈路的優(yōu)化調(diào)整后,更改配置為雙端恢復(fù)式,與環(huán)網(wǎng)其他采用線性復(fù)用段1+1保護(hù)的節(jié)點(diǎn)保持配置一致,主備倒換狀態(tài)顯示正常,清除告警4條。
(4)ETH_LOS,網(wǎng)口連接丟失告警,此類告警共計(jì)4條,查看業(yè)務(wù)配置資料表及網(wǎng)管配置后可將其分為以下兩種情況。
一是以太網(wǎng)單板端口業(yè)務(wù)已配置,端口開啟。查看現(xiàn)場(chǎng)發(fā)現(xiàn)未接入用戶側(cè)信號(hào),根據(jù)業(yè)務(wù)配置資料表與用戶溝通,確認(rèn)業(yè)務(wù)是否接入使用。若沒有接入需求,立即刪除端口業(yè)務(wù)配置,釋放端口資源;若后期有接入需求,則進(jìn)行告警反轉(zhuǎn)操作,并在業(yè)務(wù)配置資料表中記錄標(biāo)注。二是以太網(wǎng)單板端口業(yè)務(wù)已刪除,端口開啟。根據(jù)業(yè)務(wù)配置資料表進(jìn)行設(shè)備現(xiàn)場(chǎng)核對(duì),關(guān)閉未在用端口。我們將ETH_LOS的告警級(jí)別由緊急告警調(diào)整為重要告警。這樣能夠區(qū)別過去的緊急告警,有助于告警級(jí)別的及時(shí)分辨,提升全員對(duì)其他類型緊急告警的敏感度。
(5)T_ALOS,E1/T1接口模擬信號(hào)丟失,此類告警共計(jì)39條。查看網(wǎng)管E1單板端口業(yè)務(wù)配置及資料,結(jié)合現(xiàn)場(chǎng)排查和用戶溝通,明確告警涉及的業(yè)務(wù)主要分為兩類:一是用戶已不再使用;二是預(yù)留配置,用戶暫時(shí)未接入使用,之后會(huì)接入使用。對(duì)于第一類告警,進(jìn)行刪除配置、釋放端口資源操作。對(duì)于第二類告警,進(jìn)行網(wǎng)管SDH路徑去激活(僅網(wǎng)管側(cè)刪除業(yè)務(wù))操作,在業(yè)務(wù)配置資料表中記錄標(biāo)注,待用戶確認(rèn)使用后,重新激活。
(6)PORTMODE_MISMATCH,遠(yuǎn)端FE端口工作模式不匹配告警[2],此類告警共計(jì)3條。查看網(wǎng)管以太網(wǎng)單板端口業(yè)務(wù)配置及資料,與用戶溝通明確該業(yè)務(wù)端口工作模式的訴求,將兩端配置匹配起來,告警清除。
(7)LCAS_FOPR,LCAS接收方向協(xié)議失效告警,此類告警共計(jì)1條。在網(wǎng)管上通過告警定位,確定兩端節(jié)點(diǎn)LCAS協(xié)議功能開啟或關(guān)閉是否一致,根據(jù)需求修改為一致,告警清除。
(8)UP_E1_AIS,上行方向2M信號(hào)告警指示,此類告警共計(jì)24條。在網(wǎng)管上查看該告警,確定產(chǎn)生告警的單板,經(jīng)排查分析,產(chǎn)生原因分為四類:一是與本端支路單板對(duì)接的支路單板存在TU_LOP、TU_AIS、DOWN_E1_AIS等告警;二是對(duì)接端接入2 Mbps信號(hào)的支路單板存在T_ALOS告警;三是與本端支路單板對(duì)接的支路單板存在PLL_FAIL、CHIP_FAIL等硬件故障告警;四是對(duì)端E1端口設(shè)置了內(nèi)環(huán)回。通過網(wǎng)管告警信息分析得出24條UP_E1_AIS告警分別屬于一類和二類,皆可采取T_ALOS告警處置方式,告警清除。
(9)DOWN_E1_AIS,下行方向2M信號(hào)告警指示,此類告警共計(jì)25條。在網(wǎng)管上查看該告警,確定產(chǎn)生告警的單板,經(jīng)排查分析,產(chǎn)生原因分為兩類:一是本端有高級(jí)別告警R_LOS、R_LOF、MS_AIS等存在;二是對(duì)端支路單板存在UP_E1_AIS、T_ALOS等告警。同樣皆可采取T_ALOS告警處置方式。
(10)CLK_NO_TRACE_NODE,時(shí)鐘進(jìn)入非跟蹤工作模式,此類告警共計(jì)5條。該告警為網(wǎng)元節(jié)點(diǎn)未配置時(shí)鐘優(yōu)先級(jí)別,其中涉及點(diǎn)對(duì)點(diǎn)大終端節(jié)點(diǎn)至航管樓節(jié)點(diǎn)、點(diǎn)對(duì)點(diǎn)航管樓節(jié)點(diǎn)至Thales雷達(dá)節(jié)點(diǎn)、核心輔助環(huán)三個(gè)節(jié)點(diǎn)。在配置各節(jié)點(diǎn)時(shí)鐘優(yōu)先級(jí)后,告警消除。由于點(diǎn)對(duì)點(diǎn)和核心輔助環(huán)網(wǎng)SDH設(shè)備暫未接入外部時(shí)鐘信號(hào),后期還需進(jìn)一步優(yōu)化。
經(jīng)過4次停機(jī),10人次前往機(jī)場(chǎng)飛行區(qū),清除共計(jì)122條網(wǎng)管側(cè)存量告警,包括緊急告警4條、重要告警51條、次要告警67條;涉及核心環(huán)、主環(huán)、環(huán)帶鏈以及點(diǎn)對(duì)點(diǎn)拓?fù)?;包括?chǎng)外12個(gè)網(wǎng)元節(jié)點(diǎn)、場(chǎng)內(nèi)4個(gè)網(wǎng)元節(jié)點(diǎn)。
網(wǎng)管告警遵循“收端檢測(cè)、收端上報(bào)”“高級(jí)別告警會(huì)引起低級(jí)別告警、高級(jí)別告警會(huì)抑制低級(jí)別告警上報(bào)”。通過多次的告警清理實(shí)踐,我們對(duì)于特定告警類型結(jié)合實(shí)踐形成了以下比較標(biāo)準(zhǔn)化的處置步驟。
(1)對(duì)于出現(xiàn)IN_PWR_ABN,輸入功率異常告警的處置步驟:①告警定位,確認(rèn)告警源,查詢本節(jié)點(diǎn)光功率;②停機(jī)維護(hù)中,對(duì)于輸入光功率過低,首先清潔本節(jié)點(diǎn)尾纖和線路板接收光口,確認(rèn)光纖連接正常;③檢查尾纖彎曲半徑,重新布放尾纖;④使用OTDR儀器進(jìn)行逐段光路測(cè)試,對(duì)于異常進(jìn)行調(diào)整;⑤對(duì)于輸入光功率過高,在接收光口添加合適光衰減器。需要格外注意的是,斷開兩節(jié)點(diǎn)設(shè)備光纖中繼鏈路時(shí)一端先斷開,避免出現(xiàn)由于資料錯(cuò)誤導(dǎo)致的鴛鴦線,使得兩節(jié)點(diǎn)中繼全部中斷,尤其對(duì)于點(diǎn)對(duì)點(diǎn)節(jié)點(diǎn)更為關(guān)鍵。同時(shí)需要注意調(diào)整過程中雙芯光纖AB線,進(jìn)行標(biāo)識(shí)及記錄。光功率異常需要引起相關(guān)人員重視,因?yàn)檫@會(huì)影響業(yè)務(wù)傳輸性能,嚴(yán)重會(huì)導(dǎo)致業(yè)務(wù)中斷[3]。
(2)對(duì)于出現(xiàn)T_ALOS,E1/T1接口模擬信號(hào)丟失告警的處置步驟:①查看該通道是否設(shè)置告警反轉(zhuǎn);②用戶業(yè)務(wù)是否接入;③電纜是否脫落或松動(dòng);④電纜是否故障;⑤E1/T1單板是否故障。
(3)對(duì)于出現(xiàn)R_LOS,接收線路側(cè)信號(hào)丟失告警的處置步驟:①檢查本節(jié)點(diǎn)單板光接口尾纖連接情況;②檢查對(duì)端節(jié)點(diǎn)單板激光器開關(guān)情況;③檢查傳輸線路光纖情況;④檢查傳輸線路衰減情況;⑤檢查對(duì)端節(jié)點(diǎn)單板發(fā)送部分情況;⑥檢查本節(jié)點(diǎn)接收部分情況。
R_LOS屬于最高級(jí)別告警,在告警發(fā)生時(shí)必須要高度重視,根據(jù)網(wǎng)管告警功能準(zhǔn)確定位、詳細(xì)分析、快速處理。
光傳輸在空管通信中占有重要地位,日常的運(yùn)行維護(hù)更為重中之重,從業(yè)務(wù)開通,到與用戶持續(xù)跟進(jìn)、優(yōu)化業(yè)務(wù)配置,網(wǎng)管的深化工作等任重而道遠(yuǎn),我們將持續(xù)加強(qiáng)與用戶溝通、排查梳理、進(jìn)行針對(duì)性配置,靈活運(yùn)用故障告警分析方法,實(shí)施有效的運(yùn)行維護(hù)管理,深入挖掘發(fā)揮好網(wǎng)管等各種工具,向數(shù)字化運(yùn)維轉(zhuǎn)型?!?/p>