潘 皓 薛金明 胥 鋒
中國聯(lián)合網(wǎng)絡(luò)通信有限公司江蘇省分公司
近年來,江蘇聯(lián)通積極把握數(shù)字化、網(wǎng)絡(luò)化、智能化的時代潮流,響應(yīng)“網(wǎng)絡(luò)強(qiáng)國”“互聯(lián)網(wǎng)+”“國家大數(shù)據(jù)”等戰(zhàn)略部署,積極推進(jìn)傳統(tǒng)領(lǐng)域的戰(zhàn)略轉(zhuǎn)型和創(chuàng)新領(lǐng)域的戰(zhàn)略布局。為支撐公司戰(zhàn)略部署及業(yè)務(wù)發(fā)展,網(wǎng)絡(luò)基礎(chǔ)維護(hù)需引入創(chuàng)新的智能化手段,江蘇聯(lián)通創(chuàng)新利用智能光纖探測技術(shù)、維護(hù)支撐系統(tǒng)、自動化調(diào)度系統(tǒng),對基礎(chǔ)維護(hù)轉(zhuǎn)型探索出了可行的發(fā)展方向。
目前我國通信行業(yè)呈跨越式發(fā)展,伴隨著網(wǎng)絡(luò)和用戶規(guī)模的不斷擴(kuò)大,運營商的網(wǎng)絡(luò)技術(shù)和服務(wù)質(zhì)量均有很大提升。進(jìn)一步來說,如何實現(xiàn)更有效的資源利用和業(yè)務(wù)流程整合,提高網(wǎng)絡(luò)運維的效率,提升公司整體能力和服務(wù)水平,是當(dāng)前各運營商均需重視和解決的問題。
長期以來,網(wǎng)絡(luò)運維主要集中在專業(yè)網(wǎng)管系統(tǒng)的建設(shè),缺乏智能化手段,一定程度上阻礙了效率的提升,無法快速有效支撐維護(hù)一線人員,不能適應(yīng)網(wǎng)絡(luò)運營的技術(shù)發(fā)展速度,出現(xiàn)了網(wǎng)絡(luò)運維服務(wù)體系和技術(shù)層次的斷層。
智能化運維的需求,要求網(wǎng)絡(luò)故障的診斷自動化、快速化、精準(zhǔn)化,能夠在發(fā)生故障時,通過系統(tǒng)的能力,在人為介入前提供具有明確性指向的故障判斷信息,同時第一時間流轉(zhuǎn)到維護(hù)一線人員。
從大量的網(wǎng)絡(luò)告警轉(zhuǎn)化為故障情況的根源性且含有定位信息的描述說明,通知到對應(yīng)的處理人員,從而實現(xiàn)智能化手段支撐網(wǎng)絡(luò)維護(hù),提高運維效率的目的。
運營商通信網(wǎng)絡(luò)依附于基礎(chǔ)的光纜網(wǎng)絡(luò),光纜網(wǎng)絡(luò)的故障處理復(fù)雜,故障處理往往都是投訴驅(qū)動,屬于被動運維。缺乏故障分責(zé)手段,主要依賴技術(shù)人員的個人經(jīng)驗判斷,無效外派工單多。再有,故障定位時需要維護(hù)人員趕到機(jī)房依靠OTDR儀表進(jìn)行手工測試,增加了故障定位處理時長,且因技能因素,往往造成測距長度與實際故障點距離偏差大,造成定位困難。對維護(hù)人員技能要求、對儀器儀表的要求,也使得維護(hù)成本居高不下。
智能光纖管理系統(tǒng)(Fiber Doctor System),簡稱FD 系統(tǒng),實現(xiàn)對網(wǎng)絡(luò)中線路光纖的監(jiān)控管理,通過對光纖連接狀態(tài)的精準(zhǔn)檢測,協(xié)助維護(hù)人員分析光纖接口、熔纖點質(zhì)量,快速定位光纖質(zhì)量問題。
3.1.1 智能光纖系統(tǒng)與傳統(tǒng)光纖質(zhì)量維護(hù)方式對比
在波分系統(tǒng)中,光纖的老化、外破損傷、光纖卷曲、大角度彎折以及承擔(dān)較大拉力等問題可能造成光纖衰減大、誤碼率高,進(jìn)而影響網(wǎng)絡(luò)的正常運行。
傳統(tǒng)的光時域反射儀(OTDR)可進(jìn)行光纖長度、光纖傳輸衰減度、接頭衰減度和故障定位等的測量,被廣泛應(yīng)用于光纜線路的施工與網(wǎng)絡(luò)的開局階段。但傳統(tǒng)的OTDR 儀表,需要進(jìn)站并中斷業(yè)務(wù)進(jìn)行測試,無法做到不影響業(yè)務(wù)前提下的在線檢測。因此,遠(yuǎn)程、在線、精確、快速的光纖狀態(tài)檢測手段,將大大提高維護(hù)效率,降低維護(hù)成本。
3.1.2 智能光纖系統(tǒng)原理和主要功能
智能光纖系統(tǒng)對OTN 設(shè)備原有的OSC 板卡進(jìn)行了升級,新增了內(nèi)置的探測光發(fā)送單元,發(fā)送探測光,利用光纖瑞利散射及菲涅爾反射原理探測光纖損耗變化的大小和位置,并將檢測數(shù)據(jù)上報網(wǎng)管,可以實現(xiàn)以下功能。
在網(wǎng)管上提供直觀的圖形化的儀表界面。遠(yuǎn)程進(jìn)行單向或雙向光纖質(zhì)量的檢測。靈活設(shè)置不同的工作模式與檢測參數(shù),用于不同范圍的光纖質(zhì)量檢測。
對檢測結(jié)果進(jìn)行保存,實現(xiàn)檢測結(jié)果歷史數(shù)據(jù)對比。獲取全網(wǎng)指定光纖段的長度和衰耗信息。主動向網(wǎng)管上報告警,提示光纖中斷位置。
3.1.3 智能光纖系統(tǒng)組成
完整的FD系統(tǒng)需要硬件和軟件兩部分相互配合協(xié)同完成。硬件部分發(fā)送探測光進(jìn)行檢測,得到光纖的性能數(shù)據(jù),接受軟件的統(tǒng)一調(diào)度;軟件部分集成在專業(yè)網(wǎng)管上提供圖形化交互界面,支持不同場景下檢測模式的設(shè)置。通過特定告警,觸發(fā)探測啟動,接收設(shè)備上報的探測結(jié)果,并將數(shù)據(jù)圖形化呈現(xiàn)。各部分相互配合運作的過程如圖1 所示。
圖1 智能光纖系統(tǒng)組成
網(wǎng)絡(luò)故障發(fā)生時會產(chǎn)生大量告警,大部分告警均為伴隨性指示告警或業(yè)務(wù)層面告警,對網(wǎng)絡(luò)故障定位和處理沒有指導(dǎo)性作用。通過支撐系統(tǒng)進(jìn)行告警的深層次解析,對關(guān)鍵字段和信息進(jìn)行規(guī)整,結(jié)合資源,輸出故障的根源性定位信息,用于指導(dǎo)故障處理。
綜合網(wǎng)管通過成熟的Corba 接口協(xié)議,對各個廠家網(wǎng)管的告警進(jìn)行適配,解析轉(zhuǎn)換為統(tǒng)一的13001 告警格式,轉(zhuǎn)發(fā)給對應(yīng)的告警接收模塊處理。告警接收模塊對這些13001 告警進(jìn)行二次解析,轉(zhuǎn)換為13002 格式的告警并寫入數(shù)據(jù)庫,同時將13002 告警推送到前端實時監(jiān)控或集團(tuán)OSS2.0 告警上報接口。
圖2 傳輸網(wǎng)絡(luò)告警北向處理架構(gòu)
綜合網(wǎng)管各模塊之間的通信采用了專門研發(fā)的DPP 消息服務(wù)中間件,該組件底層基于Socket 通信技術(shù)。各模塊需要先在DPP 消息中間件上進(jìn)行注冊操作,注冊時需定義“實體名稱”,每個“實體”對應(yīng)一個模塊,當(dāng)一個模塊需要向另一個模塊發(fā)送消息時,帶有目標(biāo)“實體名稱”的消息實際上是先發(fā)送到DPP 消息中間件,由中間件根據(jù)目標(biāo)“實體名稱”進(jìn)行轉(zhuǎn)發(fā)。因此各個模塊之間不需要知曉對方的IP,只需要保證自身和DPP 消息服務(wù)中間件打通網(wǎng)絡(luò),極大地簡化了通信成本。
由于采用了DPP 消息服務(wù)中間件,告警傳遞有了高并發(fā)場景支持,保證了告警的實時性,同時DPP 消息服務(wù)中間件的存在也讓綜合網(wǎng)管的業(yè)務(wù)得到了很好的解耦,這樣的好處是既分擔(dān)了服務(wù)器壓力,又充分利用了服務(wù)器資源。
傳輸綜合網(wǎng)管前臺可查看同步新增告警,構(gòu)造清除告警數(shù)量,核查新增活動告警詳細(xì)信息等,流程圖如圖3 所示。
智能光纖測試結(jié)果告警是新的告警類型,告警接口適配器對各廠家網(wǎng)管上報的告警報文做了重新適配,并增加了額外的字段解析,將斷點測試距離從原始廠家告警報文的文本信息中提取出來轉(zhuǎn)換成公里數(shù),關(guān)聯(lián)至傳輸系統(tǒng)復(fù)用段進(jìn)行入庫,合并生成含中斷距離的復(fù)用段故障信息。
具體實現(xiàn)流程為:廠家網(wǎng)管通過北向接口上報光纖中斷FIBER_BREAK_POS 告警,此告警通過傳輸網(wǎng)管告警適配器采集后,進(jìn)行告警接收、分析,將此類FIBER_BREAK_POS告警入庫并與相關(guān)基礎(chǔ)資源(機(jī)房、局站、傳輸系統(tǒng)復(fù)用段)數(shù)據(jù)匹配,進(jìn)行報文字段提取,再將告警信息推送給綜合監(jiān)控人員,最后短信通知相關(guān)聯(lián)系人緊急處理。
圖3 傳輸綜合網(wǎng)管告警處理流程
有效的故障流轉(zhuǎn)流程可大幅度縮短故障處理時長,提高處理效率。通過梳理故障調(diào)度處理過程,在傳統(tǒng)的“告警-故障-工單”的處理流中,利用互聯(lián)網(wǎng)化手段,豐富告警信息,壓降流程時間,提高處理效率。將采集到的故障定位信息通過智能監(jiān)控系統(tǒng)整合在智能告警中,并通過自動派單生成工單通知到相應(yīng)處理人員,利用智能調(diào)度機(jī)器人自動進(jìn)行故障通報、故障跟蹤、故障升級,實現(xiàn)專業(yè)網(wǎng)管到支撐系統(tǒng)再到一線人員的一觸式故障垂直調(diào)度流轉(zhuǎn)。這樣,中間過程不需要人為介入,減少因人為原因?qū)е碌臅r間浪費。
智能光纖系統(tǒng)和綜合網(wǎng)管支撐系統(tǒng)實現(xiàn)了故障信息的采集和標(biāo)準(zhǔn)化生成,最終故障的分發(fā)和調(diào)度通過統(tǒng)一生產(chǎn)流實現(xiàn)。江蘇聯(lián)通目前故障的調(diào)度和生產(chǎn)手段主要應(yīng)用在集團(tuán)OSS2.0智能監(jiān)控系統(tǒng)、電子運維系統(tǒng)以及智能故障調(diào)度系統(tǒng)。
圖4 自動化調(diào)度系統(tǒng)
3.3.1 智能告警生成
智能告警是指系統(tǒng)通過自定義規(guī)則,自動關(guān)聯(lián)生成的告警信息,它涵蓋關(guān)鍵信息、能被方便閱讀且能被用于工單生成。
關(guān)鍵信息:通過集團(tuán)OSS2.0 智能監(jiān)控系統(tǒng)與綜合網(wǎng)管接口字段完成收集。
可閱讀性:在智能監(jiān)控系統(tǒng)內(nèi)部署獨立的智能關(guān)聯(lián)規(guī)則,將收集到的關(guān)鍵信息進(jìn)行文本整合,生成日常能理解的關(guān)聯(lián)告警。
可派單:一條可派單的告警需具備EMS 信息、區(qū)縣信息、機(jī)房信息等資源信息,利用告警中的有效數(shù)據(jù)完成資源系統(tǒng)中的資源提取。
3.3.2 匹配維護(hù)值班表
維護(hù)值班表在整個生產(chǎn)流中起著至關(guān)重要的作用,完成了告警和故障與處理人員的自動對應(yīng)。為了實現(xiàn)智能光纖告警準(zhǔn)確派發(fā)至相應(yīng)的線路處理人員、線路主管、主管領(lǐng)導(dǎo)、分管領(lǐng)導(dǎo)處,聯(lián)通在集團(tuán)OSS2.0 智能監(jiān)控系統(tǒng)中新建了相應(yīng)的智能光纖維護(hù)班組,當(dāng)智能光纖告警產(chǎn)生時,維護(hù)值班表模塊能將所需人員提取出來并置入生產(chǎn)流中。
3.3.3 生成工單
智能監(jiān)控系統(tǒng)完成智能告警生成,提取維護(hù)值班表人員信息后,通過故障派單模塊自動生成工單信息,并輸出至集團(tuán)OSS2.0 ESB 平臺,由ESB 平臺最終完成工單信息在電子運維平臺的落地。
3.3.4 預(yù)警短信/IVR
故障工單派發(fā)完成后,智能監(jiān)控系統(tǒng)和電子運維的短信派發(fā)模塊均會向目標(biāo)人員發(fā)送相應(yīng)的維護(hù)短信,并在工單超時前10 分鐘進(jìn)行語音IVR 呼叫,確保故障能得到有效響應(yīng)。
3.3.5 智能故障調(diào)度
智能故障調(diào)度機(jī)器人是江蘇聯(lián)通自助研發(fā)的,可以實現(xiàn)故障信息按系統(tǒng)規(guī)則自動識別、分揀、發(fā)送至釘釘機(jī)器人。釘釘機(jī)器人是釘釘群的子功能,管理員能在群內(nèi)添加一定數(shù)量的機(jī)器人實現(xiàn)信息的自動發(fā)布。
為了更直觀、更高效地完成故障調(diào)度,聯(lián)通在全省共計14 個故障群(13 個地市群、全省傳輸故障群)中部署了智能光纖故障預(yù)警機(jī)器人,由集團(tuán)OSS2.0 智能監(jiān)控系統(tǒng)將產(chǎn)生的智能光纖告警實時推送至相應(yīng)的故障預(yù)警機(jī)器人接口處,最終實現(xiàn)在故障產(chǎn)生的同時也通過釘釘機(jī)器人在釘釘故障群里發(fā)布信息,并點對點提醒相應(yīng)人員。
2019 年1 月25 日14:48,蘇州國信機(jī)房-蘇州常熟虞山工業(yè)園發(fā)生線路故障,影響干線100GOTN 系統(tǒng)。
圖5 為當(dāng)時的專業(yè)網(wǎng)管告警截圖,可見在14:48,蘇州國信機(jī)房-蘇州常熟虞山工業(yè)園發(fā)生干線線路故障,網(wǎng)管同時上報大量告警,且伴隨相關(guān)下游泰州、廣陵等站設(shè)備發(fā)生告警。
圖5 專業(yè)網(wǎng)管故障告警
如無智能化維護(hù)手段,此時就需要專業(yè)人員結(jié)合資料,查看告警及性能,結(jié)合經(jīng)驗判斷故障發(fā)生的段落,再通知對應(yīng)分公司維護(hù)人員趕到兩端機(jī)房進(jìn)行儀表測試,定位故障具體距離。
具備智能光纖系統(tǒng)后,專業(yè)網(wǎng)管在故障發(fā)生時觸發(fā)自動測試,根據(jù)測試結(jié)果,在14:54 上報光纖中斷告警,指示測試起點為蘇州國信一樓光子架設(shè)備,測試距離為30377M。
圖6 專業(yè)網(wǎng)管智能光纖探測信息
測試告警上報后,通過綜合網(wǎng)管接口進(jìn)行告警解析,并傳遞至智能監(jiān)控系統(tǒng)處理后,發(fā)送到網(wǎng)絡(luò)機(jī)器人,由機(jī)器人進(jìn)行分揀,自動形成故障預(yù)警,傳遞至釘釘群,最后自動提醒相關(guān)地市維護(hù)人員,如圖7 所示。預(yù)警關(guān)鍵字包括:告警時間、故障地市及區(qū)縣、故障斷點測試起始局站、故障斷點測試距離。
圖7 網(wǎng)絡(luò)機(jī)器人發(fā)送故障調(diào)度信息
地市維護(hù)人員接到通知后立刻響應(yīng),直接指揮現(xiàn)場搶修人員趕至故障點,于15:55 找到故障點,并快速確認(rèn)了故障原因,開始組織搶修。17:28,所有中斷業(yè)務(wù)完成搶修,總故障歷時160 分鐘,其中通過智能化手段,故障測試定位及通知到一線人員僅耗時8 分鐘,大幅減少了故障歷時,提高了搶修效率。
圖8、9 現(xiàn)場故障處理閉環(huán)
通過一系列智能化手段,江蘇聯(lián)通在基礎(chǔ)維護(hù)質(zhì)量、服務(wù)支撐和投資成本控制等方面取得了良好的成效,對提升用戶滿意度起到積極的效果。
智能化手段部署后的5 個月內(nèi),對發(fā)生的線路故障平均歷時進(jìn)行分析,數(shù)據(jù)顯示在此期間發(fā)生的線路故障,平均時長為166.17 分鐘,同期發(fā)生的其他線路故障,故障平均時長為196.76 分鐘,而前一年同時期所有故障的平均時長為195.56 分鐘。
圖10 線路故障歷時分析
從故障平均歷時數(shù)據(jù)可以看出,智能化手段確實起到了節(jié)省故障定位時間,提高維護(hù)效率的目的,與同期智能化手段未介入的故障相比平均節(jié)省30.59 分鐘,與前一年同時期所有故障相比平均節(jié)省29.39 分鐘。
按照具體故障案例分析,如故障段落兩端機(jī)房均為無人值守機(jī)房時,故障處理效率提升尤為明顯,故障處理時長縮短最多可達(dá)到近60 分鐘。