趙恒 陳瑋 陳禹
(中國移動通信集團江蘇有限公司,南京 210023)
隨著5G、家寬與集客業(yè)務的大力發(fā)展,光交箱作為光纜接入網(wǎng)中主干光纜與接入光纜交接處的接口設備,其規(guī)??焖僭鲩L。但是光交箱資源信息維護主要以手工臺賬為主,數(shù)據(jù)準確率不高,變更不及時,對業(yè)務快速開通、網(wǎng)絡精準投資、故障快速處理、風險有效防控等均有較大影響。
針對以上問題,本文對現(xiàn)有的圖像分類算法和目標檢測算法進行改進,實現(xiàn)對光交箱工藝的分類檢測和端子占用情況的智能識別,打破長期以來識別精準度不高的困局,滿足實際生產(chǎn)需求。在江蘇移動管線系統(tǒng)APP端開發(fā)現(xiàn)場核查功能,將AI能力嵌入到資源入網(wǎng)、資源調(diào)度、資源核查和資源釋放4個實際生產(chǎn)流程,構建光交箱資源全生命周期的自動化、智能化的運營能力。
光交箱工藝圖像的檢測算法需要兼顧準確率和速度,針對現(xiàn)有多目標跟蹤算法參數(shù)量和計算量大,難以滿足移動端實時檢測要求的問題,而Transformer網(wǎng)絡模型采用自注意力機制提取圖形的特征信息,且可以并行化利用資源加快模型的訓練速度[1],因此適用于光交箱工藝圖像檢測的場景。為提高模型的識別速度和準確率,考慮使用改進的EfficientNetv2作為特征提取層,重新構建YoloV5的特征提取網(wǎng)絡,增強網(wǎng)絡模型的提取能力,達到提高實時檢測速度的目標。改進后的Transformer模型結構圖如圖1所示。
圖1 改進后的Transformer模型結構圖
圖1中的編碼器包含N個相同的編碼塊,每個編碼塊包含多頭注意力層和前饋全連接層,每個編碼塊中的前饋全連接層都是一樣的,包含兩個線性轉換和一個ReLU激活函數(shù)。多頭注意力是把多個自注意力塊連接,計算后進行拼接操作形成同緯度的輸出。每個自注意力塊包含查詢Q、鍵K和值V,其中Q∈Rdk、K∈Rdk、V∈Rdv。注意力Attention(Q,K,V)的計算如公式(1)所示:
(1)
給定所有查詢Q,鍵K和值V后,先通過公式(2)計算得到每個注意力頭的輸出值headi,即:
headi=Attention(Q,K,V)
(2)
然后將不同注意力頭的輸出進行拼接,得到多頭注意力MultiHead(Q,K,V),如公式(3)所示:
MultiHead(Q,K,V)=Contact(head1,head2,…h(huán)eadh)WO
(3)
公式(3)中,h為注意力頭的數(shù)量,WO∈Rhdv*dmodel,dmodel表示模型的緯度。
圖1中的解碼器同樣包含N個相同的解碼塊,解碼塊的結構與編碼塊類似,區(qū)別在于其多頭注意力層的K和V輸入來自編碼器的輸出,而查詢Q來自解碼塊的輸出。
考慮到光交箱工藝識別的圖片具有類似的背景,具有判別性的信息大多在局部區(qū)域??梢圆捎萌醣O(jiān)督注意力數(shù)據(jù)增強網(wǎng)絡(Weakly Supervised Data Augmentation Network, WS-DAN),通過弱監(jiān)督注意力機制的數(shù)據(jù)增強解決背景過擬合的同時[2],增強網(wǎng)絡對圖片局部特征的學習,即使用WS-DAN算法進行工藝識別的測試。該算法先使用卷積操作獲取注意力特征圖,然后將注意力特征圖和特征圖進行雙線性池化得到特征矩陣[3],算法流程如圖2所示。
圖2中,輸入圖片經(jīng)過預處理后,通過卷積神經(jīng)網(wǎng)絡對圖像進行特征提取得到特征圖F∈RH×W×C,其中H、W、C分別表示特征圖的長、寬和通道數(shù),然后通過M個1×1的卷積核得到注意力圖A∈RH×W×M,計算使用的公式如下:
(4)
公式(4)中,f(·)表示卷積操作,M為超參數(shù),代表特征圖的數(shù)量,Ak∈RH×W,表示目標的部分特征。
圖2 WS-DAN算法流程圖
然后利用雙線性注意力池化操作將注意力圖和特征圖進行融合,逐元素將特征圖F與每個注意力圖Ak相乘,生成M個部分特征圖Fk,接著使用全局平均池化或全局最大池化操作進一步對Fk進行特征提取,得到局部特征向量fk,通過將局部特征向量拼接得到特征矩陣,計算公式如下:
(5)
公式(5)中,P表示拼接得到的矩陣,Γ(A,F(xiàn))表示對注意力圖和特征圖的雙線性池化操作,g(·)表示全局池化操作,最后再通過全連接層計算損失函數(shù)。
為了比較EfficientNetv2改進后的Transformer模型和WS-DAN模型兩個算法圖像檢測的性能,分別選擇WS-DAN細粒度分類算法和Efficientnetv2算法,搭建2個平臺進行測試。從2022年4月1—30日,每天隨機抽樣選擇100 個光交進行測試,50 個用WS-DAN細粒度分類算法平臺進行識別,50 個用于Efficientnetv2平臺進行識別,分析其總識別時長和光交工藝識別率,結果如圖3所示。WS-DAN細粒度分類算法平臺平均每天識別時長優(yōu)于Efficientnetv2算法平臺,且光交工藝識別率高于Efficientnetv2算法平臺,綜上所述,選擇WS-DAN細粒度分類算法。
圖3 WS-DAN細粒度分類算法和Efficientnetv2算法識別結果對比
利用WS-DAN深度神經(jīng)網(wǎng)絡構建細粒度分類模型,通過采用類Center Loss的注意力監(jiān)督機制,在訓練中快速實現(xiàn)模型“注意力”機制的構建,提升訓練效率。引入多種基于注意力的數(shù)據(jù)增強策略,提升模型的識別準確率,彌補初始樣本不足的問題。通過在模型中引入雙線性注意力池化機制,有效地消減了光交箱在拍攝過程中受背景因素影響的特點,將模型“注意力”聚焦在光交箱本身。光交箱工藝檢測算法優(yōu)化過程如圖4所示。
圖4 光交箱工藝檢測算法優(yōu)化過程
光交箱端子圖像分辨率高,包含的像素點較多,圖像信息量較大,而Transformer網(wǎng)絡處理信息量大的圖像容易產(chǎn)生計算量大的問題。因此考慮采用包含滑窗操作和層級設計的Swin Transformer網(wǎng)絡模型,該網(wǎng)絡模型的主要結構如圖5所示。
圖5 Swin Transformer主要結構
由圖5可知,網(wǎng)絡中主要包括多層感知機(Multi layer Perceptron,MLP)、窗口多頭自注意力層(Window Multi-head Self Attention,W-MSA)、滑動窗口多頭自注意力層(Shifted Window Based Multi-head Self attention,SW-MSA)和標準化層(Layer Normalization,LN)等。網(wǎng)絡的輸入首先通過LN層進行歸一化,然后經(jīng)過W-SMA層進行圖像特征的學習,計算殘差后再通過LN層和MLP層,再次計算殘差后得到這一層的輸出Xi。然后通過網(wǎng)絡的下一層,每部分的輸出計算公式如公式(6)~(9)所示:
(6)
(7)
(8)
(9)
通過這種層次結構,Swin Transformer網(wǎng)絡在各類視覺任務中取得良好的效果。而YoloV5網(wǎng)絡作為一種目標檢測算法,將目標檢測問題中的目標分類和目標位置回歸兩個問題統(tǒng)一為回歸問題,有效減少了圖像處理的計算量[4]。YoloV5網(wǎng)絡結構包括輸入(Input)、骨干網(wǎng)絡(Backbone)、頸部(Neck)和預測層(Prediction)4個部分[5],如圖6所示。
圖6 YoloV5網(wǎng)絡結構框圖
輸入端部分用于圖片的預處理,包括圖片的縮放、自適應錨框的計算等,并使用Mosaic進行數(shù)據(jù)集擴充。Backbone部分包含F(xiàn)ocus結構、跨階段局部網(wǎng)絡 (Cross Stagepartial Connections,CSP)結構和空間金字塔池化模塊 (Spatial Pyramid Pooling,SPP)結構等,用于輸入圖形的特征提取,Neck的作用是融合從Backbone部分提取的特征信息,并發(fā)送到Prediction部分,Neck包含F(xiàn)PN和PAN結構,特征金字塔網(wǎng)絡 (Feature Pyramid Networks,F(xiàn)PN)通過將高層特征上采樣和底層特征融合得到新的特征圖來進行預測[6]。最后是Prediction用于目標的檢測,包含預測框、損失函數(shù)等部分。YoloV5中GIoU損失函數(shù)計算如:
(10)
式(10)中,Ac是預測框與真實框的最小外接矩形,U表示Ac中不屬于預測框與真實框的部分。真實框與預測框越接近,U越小,則損失函數(shù)GIoU越小。當網(wǎng)絡處于預測階段時,對同一個目標會產(chǎn)生多個預測框,使用非極大值抑制使預測框合并。
為比較兩種目標檢測算法的性能,分別搭建基于YoloV5目標檢測算法和Swin Transformer算法的軟件識別系統(tǒng),分別對100個光交進行端子識別,分別對每個光交的光交信息識別精度進行統(tǒng)計,通過圖7可以看出兩種系統(tǒng)的光交信息識別精度集中于92%~100%,且均值都為96%,無法判斷優(yōu)劣。
圖7 YoloV5目標檢測算法和Swin Transforme算法識別精度對比
進一步對兩種系統(tǒng)對每個光交圖像每秒的讀寫幀數(shù)進行分析,如圖8所示,YoloV5目標檢測算法的每秒讀寫幀數(shù)優(yōu)于Swin Transforme算法,因此選擇YoloV5目標檢測算法。
圖8 YoloV5目標檢測算法和Swin Transforme算法每秒讀寫幀數(shù)對比
YoloV5目標檢測算法只支持水平矩形框的目標檢測,對于傾斜的圖片檢測效果較差,但實際場景中由于設備安裝位置空間有限,拍攝圖片傾斜不可避免。本方案通過在神經(jīng)網(wǎng)絡訓練過程中對每個標注目標計算角度信息,從而使得改進模型支持帶有傾斜角度的矩形框檢測,無需更改原有標注,即使在推理階段輸入傾斜圖片,仍然能夠計算出需檢測目標的坐標及角度。同時,采用自適應錨框設計,針對性地解決了光交接箱中法蘭盤、行標簽以及空閑端子大小尺寸不一致的問題。
為了彌補初始樣本不足的問題,同時為了提升實際應用場景中多種混合目標的識別準確率,在數(shù)據(jù)增強方面使用了Mosaic、Mixup、Random_Perspective等多種數(shù)據(jù)增強的級聯(lián)策略;在后處理階段,本方案設計并應用了支持旋轉框的非極大值抑制算法,從而極大地提升了空閑端子的檢測準確性,同時通過端子和法蘭盤的位置關系準確定位空閑端子所在的行和列?,F(xiàn)場檢測場景要求實時返回結果,因此為了使得復雜模型能夠滿足實時推理,通過使用自適應圖片縮放技術,在大幅提升模型推理速度的同時,也大大節(jié)省了計算資源。光交箱端子識別算法優(yōu)化過程如圖9所示。
圖9 光交箱端子識別算法優(yōu)化過程
基于光交箱工藝檢測和端子識別的人工智能算法,在江蘇移動管線系統(tǒng)APP端開發(fā)現(xiàn)場核查功能,現(xiàn)場核查流程如圖10所示。
(1)面板拍照
支持全景拍照和普通拍照兩種模式。
普通拍照:在拍照界面中,能標示區(qū)域邊框,以輔助用戶在拍照時將光交箱面板拍入照片中。
全景拍照:支持用戶在狹小空間中拍出完整的設備面板照片。
圖10 光交箱現(xiàn)場資源核查流程
(2)照片上傳與合格判別
傳入?yún)?shù):省份、地市、資源id、圖片文件。
返回參數(shù):{“id”:202001002,”validate”:0,”msg”:“合格”},其中Id:上傳文件的id;Validate:判斷文件是否合格,1:合格 0:不合格 -1:不合規(guī);Msg:返回圖紙檢查信息,合格或不合格原因。
(3)光交箱面板圖識別與提取
傳入?yún)?shù):Id:上傳文件返回的id。
返回參數(shù):{“id”:“202001001”,“count”:20, “free_ports”:[{1,2},{3,4}],“free_count”:10,“tags”:10, “rows”:20},其中Id:上傳文件的id;Count:返回識別的面板端口容量數(shù);free_ports:返回識別的空閑端口位置,通過行列號標識來標識位置,[{1,2},{3,4}];free_count:空閑數(shù);tags:標識的標簽數(shù)量(白色標簽);rows:盤數(shù)。
(4)數(shù)據(jù)對比
將提取的空閑端子信息與資源系統(tǒng)的數(shù)據(jù)進行比對,對存在差異的數(shù)據(jù)進行標識,為一線人員快速發(fā)現(xiàn)錯誤提供輔助,提升勘誤效率。
將訓練完成的光交箱工藝檢測和端子識別的算法模型部署到中國移動九天人工智能平臺,通過江蘇移動管線系統(tǒng)APP端的3000 個現(xiàn)場核查任務工單對算法效果進行驗證,工藝檢測算法模型的查準率為96.45%,端子識別算法模型的查準率為97.11%,光交箱工藝檢測和端子識別效果如圖11所示。
圖11 光交箱工藝檢測(a)和光交箱端子識別試驗效果(b)
本文利用WS-DAN深度神經(jīng)網(wǎng)絡構建細粒度分類模型,增加注意力機制,模擬人眼觀察圖片時關注重點區(qū)域忽略無關信息,側重提取光交箱施工違規(guī)特征,提升分類識別準確率達97.75%?;谏窠?jīng)網(wǎng)絡原理構建光交箱端子、標簽、法蘭盤識別模型,創(chuàng)新性提出支持旋轉角度的目標檢測算法,解決現(xiàn)有算法只能識別水平視角目標的弊端,光交箱端子信息識別平均精度MAP提高到97%。
通過江蘇移動管線系統(tǒng)APP端開發(fā)現(xiàn)場核查功能完成全省現(xiàn)網(wǎng)22.8 萬存量光交箱施工工藝、端子數(shù)量和占用情況的智能核查,并將識別提取的信息與系統(tǒng)中數(shù)據(jù)比對,觸發(fā)勘誤單5 萬+條。單光交箱巡檢時長由原來的0.5 天縮短到0.1 天,存量端子資源準確性從70%提升到95%,全年節(jié)約一線人員現(xiàn)場維護工作量5.2 萬人/天,累計盤活光纜19.8 萬芯公里,可節(jié)省4 950萬元新建光纜投資。