萬(wàn)宏謀 蔡林峰 王榮 中國(guó)電信股份有限公司江西分公司 南昌市 330029
關(guān)鍵字:智能化 網(wǎng)絡(luò)故障 維護(hù)
云網(wǎng)故障處理的第一個(gè)階段主要以人工處理為主,工程師依靠經(jīng)驗(yàn)進(jìn)行逐段的網(wǎng)絡(luò)分析、故障定位及處理。第二個(gè)階段是人們依托綜合網(wǎng)管系統(tǒng),結(jié)合運(yùn)維工程師經(jīng)驗(yàn)和關(guān)聯(lián)規(guī)則進(jìn)行故障處理。近年來(lái),人工智能(AI)技術(shù)迅速發(fā)展,Gartner 在2016 年提出AIOps的概念,基于AI的云網(wǎng)故障分析和處理,將成為網(wǎng)絡(luò)故障運(yùn)維的第三階段。
網(wǎng)絡(luò)故障的維護(hù)存在以下短板問(wèn)題:①網(wǎng)絡(luò)告警故障工單的發(fā)起是自動(dòng)的,而工單流轉(zhuǎn)環(huán)節(jié)中的轉(zhuǎn)派交互是人工的,需大量的人工閱讀、判斷、操作。②大量網(wǎng)絡(luò)告警故障,集中在幾類(lèi)主要場(chǎng)景,其判斷、處理簡(jiǎn)單重復(fù),占用了大量人力操作時(shí)間。③告警故障恢復(fù)后,業(yè)務(wù)的恢復(fù)驗(yàn)證及回單需人工操作,工作量大,效率低。④用戶(hù)申告內(nèi)容的分析處理,由人工閱讀判斷,缺乏自動(dòng)化處理能力。
①應(yīng)用AI技術(shù),進(jìn)行工單內(nèi)容的NLP分析,實(shí)現(xiàn)自動(dòng)化的故障工單識(shí)別轉(zhuǎn)派,避免人工閱讀、分析、轉(zhuǎn)派的操作。②應(yīng)用AI實(shí)現(xiàn)典型網(wǎng)絡(luò)故障場(chǎng)景的自動(dòng)處理,減輕人工處理量;同時(shí),減少故障工單的總體處理時(shí)限。③故障恢復(fù)的驗(yàn)證,由AI執(zhí)行,并自動(dòng)推送處理人員,自動(dòng)關(guān)閉工單;④針對(duì)申告故障內(nèi)容,進(jìn)行NLP自動(dòng)分類(lèi)、自動(dòng)處理。
梳理并實(shí)現(xiàn)動(dòng)環(huán)停電、基站斷站、小區(qū)退服、IP端口DOWN、IPRAN開(kāi)環(huán)、智能片障等主要場(chǎng)景的告警自動(dòng)處理流程,以下是動(dòng)環(huán)停電、基站斷站處理流程示例:
圖1 動(dòng)環(huán)停電工單自動(dòng)處理流程
圖2 基站斷站故障工單自動(dòng)處理流程
(1)自動(dòng)處理的目的
① 告警派單后二次關(guān)聯(lián)處理,自動(dòng)合并有關(guān)聯(lián)關(guān)系的多張工單。
② 主動(dòng)調(diào)用網(wǎng)管能力幫助現(xiàn)場(chǎng)確認(rèn)設(shè)備狀態(tài),輔助校驗(yàn)。
③ 規(guī)范現(xiàn)場(chǎng)工單回單。
④ 自動(dòng)結(jié)單,減少人工質(zhì)檢歸檔工作。
(2)實(shí)現(xiàn)情況
工單自動(dòng)處理,目前已完全實(shí)現(xiàn)6類(lèi)工單自動(dòng)處理目標(biāo),覆蓋工單2.3萬(wàn)余張/月(占比75%),單張工單預(yù)處理時(shí)間1-2分鐘。
基于開(kāi)源深度學(xué)習(xí)框架BERT模型對(duì)現(xiàn)場(chǎng)的故障處理回單內(nèi)容進(jìn)行NLP分類(lèi)學(xué)習(xí)建模,識(shí)別回單是否符合規(guī)范。圖3是Transformer模型結(jié)構(gòu)。
圖3 BERT TRANSFORMER模型結(jié)構(gòu)
如圖4所示,在工單處理建模的準(zhǔn)確率達(dá)到了98%,實(shí)際生產(chǎn)環(huán)境中的線(xiàn)上準(zhǔn)確率為93%,完全能夠滿(mǎn)足生產(chǎn)需求。
圖4 回單質(zhì)檢模型準(zhǔn)確率
◎應(yīng)用場(chǎng)景:在故障工單現(xiàn)場(chǎng)回單后,根據(jù)回單內(nèi)容智能分類(lèi),決策進(jìn)行下一步工單處理的動(dòng)作,自動(dòng)進(jìn)行工單調(diào)度(銷(xiāo)障、轉(zhuǎn)派或退單)。
◎完成情況:通過(guò)爬蟲(chóng)獲取工單回單反饋數(shù)據(jù)70多萬(wàn)條,由于轉(zhuǎn)派、退單等數(shù)據(jù)量和銷(xiāo)障的數(shù)據(jù)量嚴(yán)重不均衡,銷(xiāo)障的量占比99%以上,不能用來(lái)全部進(jìn)行學(xué)習(xí)訓(xùn)練,最終選取了5515張銷(xiāo)障數(shù)據(jù)、全部轉(zhuǎn)派數(shù)據(jù)5249張、全部退單數(shù)據(jù)268張,進(jìn)行訓(xùn)練,細(xì)分場(chǎng)景還是存在不均衡,通過(guò)上采樣擴(kuò)充較少的數(shù)據(jù)樣本。
◎應(yīng)用效果:月度覆蓋工單3萬(wàn)余張,判斷耗時(shí)十幾秒左右。對(duì)于識(shí)別出的處理場(chǎng)景,結(jié)合后續(xù)的自動(dòng)處理動(dòng)作,實(shí)現(xiàn)工單的自動(dòng)結(jié)單、 智能轉(zhuǎn)派或自動(dòng)退單等自動(dòng)流轉(zhuǎn)調(diào)度。
圖5 結(jié)單、轉(zhuǎn)派、退單場(chǎng)景的運(yùn)行時(shí)長(zhǎng)
圖6 智能轉(zhuǎn)派示例
針對(duì)告警恢復(fù),故障是否真正恢復(fù)的問(wèn)題,開(kāi)發(fā)自動(dòng)化驗(yàn)證程序,解決告警恢復(fù)需人工回單確認(rèn)的問(wèn)題,實(shí)現(xiàn)主動(dòng)驗(yàn)證恢復(fù)工單120余張/天,主動(dòng)關(guān)閉告警150余條/天,驗(yàn)證的工單覆蓋100%在途的告警工單。
圖7 全部在途告警工單驗(yàn)證一輪耗時(shí)5分鐘以?xún)?nèi)
每月有大約5000多寬帶用戶(hù)申告,由監(jiān)控值班人員人工進(jìn)行預(yù)處理后,再轉(zhuǎn)派到地市維護(hù)崗位進(jìn)行處理,耗費(fèi)大量的預(yù)處理及轉(zhuǎn)派時(shí)間。梳理自動(dòng)預(yù)處理流程,通過(guò)整合 PON網(wǎng)管、3A能力及工單處理調(diào)度能力,自動(dòng)進(jìn)行預(yù)處理及轉(zhuǎn)派,節(jié)省大量的重復(fù)工作,加快工單的流轉(zhuǎn)效率,工單流轉(zhuǎn)歷時(shí)1分鐘內(nèi),同時(shí)在處理過(guò)程中定期進(jìn)行業(yè)務(wù)恢復(fù)自動(dòng)測(cè)試,輔助現(xiàn)場(chǎng)處理。
圖8 用戶(hù)申告工單自動(dòng)化處理流程
圖9 用戶(hù)申告工單的自動(dòng)流轉(zhuǎn)處理界面
(1)時(shí)間節(jié)省
①網(wǎng)絡(luò)故障工單自動(dòng)預(yù)處理月均處理工單23000余張,單張2分鐘預(yù)處理時(shí)間,合計(jì)768小時(shí)。相比人工平均40分鐘/每張,需15360小時(shí),節(jié)約大量時(shí)長(zhǎng)。
②工單自動(dòng)轉(zhuǎn)派月均成功轉(zhuǎn)派工單300余張,單張節(jié)約時(shí)間1分鐘,合計(jì)5小時(shí)。
寬帶客戶(hù)申告單月均處理工單5000余張,單張節(jié)約處理時(shí)間2分鐘,合計(jì)167小時(shí)。
合計(jì)節(jié)約時(shí)間489小時(shí)/月,按工作人員月均186小時(shí)折合計(jì)算,相當(dāng)于2.6人/月的人工量。
(2)效率提升
自動(dòng)轉(zhuǎn)派流轉(zhuǎn)耗時(shí)1分鐘內(nèi),對(duì)比原先人工處置平均耗時(shí)38分鐘,效率提升97%。
寬帶用戶(hù)申告工單自動(dòng)預(yù)處理流轉(zhuǎn)耗時(shí)1分鐘內(nèi),對(duì)比原先人工處置平均耗時(shí)9分鐘,效率提升89%。
寬帶用戶(hù)申告工單處理時(shí)長(zhǎng)較年中下降11%,維護(hù)作業(yè)單處理時(shí)長(zhǎng)較年中壓降71%。
綜上所述,本文中將AI和大數(shù)據(jù)技術(shù)應(yīng)用于通信網(wǎng)絡(luò)故障的自動(dòng)化處理,提升了網(wǎng)絡(luò)故障的自動(dòng)化處理效率,縮短處理時(shí)長(zhǎng),提升了云網(wǎng)運(yùn)營(yíng)的效率、服務(wù)水平。當(dāng)前,基于AI的網(wǎng)絡(luò)智能運(yùn)維方興未艾,成為通信行業(yè)研究的技術(shù)熱點(diǎn),在應(yīng)用AI技術(shù)進(jìn)行網(wǎng)絡(luò)故障的綜合定位、故障隱患的智能預(yù)測(cè)、主動(dòng)發(fā)現(xiàn)等方面,應(yīng)用前景非常廣闊,AI技術(shù)與云網(wǎng)運(yùn)維的深入結(jié)合,將進(jìn)一步提升云網(wǎng)智能化運(yùn)營(yíng)水平。