趙偉達(dá), 陳海文,郭陸陽(yáng), 王守相, 潘曉明, 汪新浩
(1.省部共建電工裝備可靠性與智能化國(guó)家重點(diǎn)實(shí)驗(yàn)室(河北工業(yè)大學(xué)), 天津市 300401;2.智能電網(wǎng)教育部重點(diǎn)實(shí)驗(yàn)室(天津大學(xué)),天津市 300072;3.國(guó)網(wǎng)蘇州供電公司,江蘇省蘇州市 215000)
由于變電站內(nèi)電磁環(huán)境復(fù)雜,對(duì)傳感裝置的可靠性要求較高,目前變電站中仍以傳統(tǒng)機(jī)械儀表作為電力設(shè)備狀態(tài)檢測(cè)的主要手段,指針式儀表應(yīng)用尤為廣泛[1-2],例如SF6壓力表、避雷器泄露電流表、油溫表等。對(duì)于機(jī)械儀表,傳統(tǒng)變電運(yùn)維工作多采用人工讀數(shù)記錄的方式了解設(shè)備狀態(tài),既浪費(fèi)了人力資源,同時(shí)也限制了設(shè)備狀態(tài)感知的實(shí)時(shí)性,制約了運(yùn)檢專業(yè)的數(shù)字化轉(zhuǎn)型。近年來(lái),邊緣計(jì)算與物聯(lián)網(wǎng)技術(shù)的發(fā)展[3-4],提高了智能變電站處理運(yùn)維數(shù)據(jù)的能力,為實(shí)現(xiàn)變電站的數(shù)據(jù)采集和就地分析提供了基礎(chǔ)。同時(shí),計(jì)算機(jī)視覺(jué)技術(shù)在電力領(lǐng)域的應(yīng)用逐漸深化[5-6],隨著電力視覺(jué)影像技術(shù)的發(fā)展,變電站內(nèi)部署了包括巡檢機(jī)器人、高清攝像頭在內(nèi)的大量影像裝置[7]。利用計(jì)算機(jī)視覺(jué)技術(shù)讀取運(yùn)維信息[8],實(shí)現(xiàn)電力儀表數(shù)據(jù)的精準(zhǔn)識(shí)別,提升了變電運(yùn)維的自動(dòng)化、智能化水平,對(duì)優(yōu)化提升運(yùn)營(yíng)效率和效益[9],保障變電設(shè)備的安全穩(wěn)定運(yùn)行意義重大[10]。
針對(duì)變電站儀表讀數(shù)識(shí)別問(wèn)題,學(xué)界進(jìn)行了大量研究工作,整體上可以分為基于圖像分析的方案與基于深度學(xué)習(xí)的方案?;趫D像分析的方案往往依賴經(jīng)典的圖像特征提取算法,通過(guò)圖像增強(qiáng)算法提高檢測(cè)的魯棒性[11-14]。例如文獻(xiàn)[11-12]中提出了基于Hough變換的指針角度識(shí)別算法,實(shí)現(xiàn)了儀表的準(zhǔn)確讀數(shù)。文獻(xiàn)[15]中使用多尺度視網(wǎng)膜增強(qiáng)算法提升圖像質(zhì)量,然后通過(guò)Hough變換檢測(cè)圖像中的圓形輪廓,從而實(shí)現(xiàn)表盤(pán)檢測(cè)。文獻(xiàn)[16]使用單參數(shù)指數(shù)型同態(tài)濾波器增強(qiáng)儀表圖像對(duì)光照變換的適應(yīng)性,然后使用累計(jì)概率霍夫變換實(shí)現(xiàn)讀數(shù)識(shí)別。文獻(xiàn)[17]通過(guò)BRISK算法與FREAK特征檢測(cè)技術(shù)提升了儀表在強(qiáng)光、大傾斜角度下的檢測(cè)準(zhǔn)確性。然而,基于圖像分析的方法依據(jù)人工設(shè)計(jì)的規(guī)則來(lái)檢測(cè)指針,在圖像干擾多的復(fù)雜環(huán)境下魯棒性較差[18]。
近年來(lái),隨著深度學(xué)習(xí)算法的迅速發(fā)展,以目標(biāo)檢測(cè)、語(yǔ)義分割為代表的計(jì)算機(jī)視覺(jué)技術(shù)[19-20],在智慧交通[19]、遙感[21]等領(lǐng)域取得了廣泛應(yīng)用。在儀表識(shí)別問(wèn)題上,基于深度學(xué)習(xí)的方案在特征提取方面優(yōu)勢(shì)顯著,提高了復(fù)雜場(chǎng)景下的檢測(cè)準(zhǔn)確率。例如,文獻(xiàn)[1]中構(gòu)建了異構(gòu)卷積神經(jīng)網(wǎng)絡(luò),強(qiáng)化了對(duì)儀表圖像特征的提取,提升了儀表識(shí)別的準(zhǔn)確性。文獻(xiàn)[2]中提出了基于Faster-RCNN目標(biāo)檢測(cè)和U-Net圖像分割的指針式儀表讀數(shù)自動(dòng)識(shí)別方法,提升了復(fù)雜圖像中小目標(biāo)檢測(cè)的準(zhǔn)確性。文獻(xiàn)[22]中提出了對(duì)采集的電表圖像進(jìn)行去噪、增強(qiáng)等預(yù)處理方法提升模型訓(xùn)練的精準(zhǔn)度。但上述方案中儀表的量程依賴人工確定,無(wú)法實(shí)現(xiàn)自適應(yīng)檢測(cè)。文獻(xiàn)[23]中進(jìn)一步將主干網(wǎng)絡(luò)替換為CenterNet,加強(qiáng)了不同通道之間的特征聯(lián)系,提升了檢測(cè)精度。文獻(xiàn)[24]通過(guò)YOLOv5s目標(biāo)檢測(cè)算法和 DeeplabV3+語(yǔ)義分割算法實(shí)現(xiàn)了變電站無(wú)人機(jī)巡檢的自動(dòng)抄表。文獻(xiàn)[25]提出了一種基于Mask-RCNN的指針式儀表識(shí)別方法,通過(guò)目標(biāo)檢測(cè)信息進(jìn)行透視變換來(lái)校準(zhǔn)圖像以獲得更加準(zhǔn)確的抄表讀數(shù)。然而上述研究中語(yǔ)義分割的精度有待提高,并且未能考慮儀表色帶中反映的設(shè)備狀態(tài)信息??傊?已有表盤(pán)識(shí)別算法往往僅針對(duì)儀表讀數(shù)進(jìn)行檢測(cè),仍然局限于固定量程類型的表計(jì)讀數(shù),無(wú)法自適應(yīng)表盤(pán)量程,對(duì)于色帶標(biāo)識(shí)與量程標(biāo)注考慮不足,未能結(jié)合表盤(pán)色帶判別設(shè)備狀態(tài)。
因此,為準(zhǔn)確判斷設(shè)備狀態(tài)、自適應(yīng)表盤(pán)量程,本文提出了一種變電站儀表讀數(shù)自適應(yīng)識(shí)別方法,通過(guò)改進(jìn)的語(yǔ)義分割算法準(zhǔn)確區(qū)分儀表中的刻度、指針、色帶等元素,基于光學(xué)字符識(shí)別(optical character recognition,OCR)算法自適應(yīng)識(shí)別儀表量程,通過(guò)指針與刻度、色帶的相對(duì)位置實(shí)現(xiàn)儀表讀數(shù)識(shí)別與設(shè)備狀態(tài)判別。首先提出了基于YOLO-E的表盤(pán)位置檢測(cè)算法,并通過(guò)透視變換實(shí)現(xiàn)圖像校準(zhǔn);其次,使用極化注意力模塊分支改進(jìn)OCRNet網(wǎng)絡(luò)結(jié)構(gòu),提出基于改進(jìn)OCRNet網(wǎng)絡(luò)的表盤(pán)分割算法,實(shí)現(xiàn)表盤(pán)刻度、指針及色帶的準(zhǔn)確分割提取;最后,基于PGNet字符識(shí)別算法自適應(yīng)提取表盤(pán)文本中的量程信息,結(jié)合指針與刻度的分割結(jié)果實(shí)現(xiàn)讀數(shù)識(shí)別,同時(shí)依據(jù)指針?biāo)幧珟恢门袆e設(shè)備運(yùn)行狀態(tài)。
本節(jié)將從江蘇某220 kV變電站儀表實(shí)拍圖片著手,分析變電站儀表圖像特點(diǎn)及運(yùn)維工作識(shí)別需求。儀表包括氣體絕緣GIS 220 kV斷路器罐體SF6氣體密度表(WIKA威卡GDM-100),如圖1所示,GIS 110 kV壓變罐體SF6氣體密度表(WIKA威卡GDM-100),如圖2所示,避雷器泄露電流表(凱特電氣JCQ100),如圖3所示。
圖1 220 kV 斷路器氣室WIKA SF6氣體密度表
圖2 110 kV母線分段氣室、壓變氣室SF6氣體密度表
如圖1—3所示,變電站儀表具有如下特點(diǎn):首先,變電站儀表表盤(pán)信息極為豐富,通過(guò)人工讀數(shù)可直觀判斷設(shè)備工作狀態(tài)是否正常。其中,警示色帶是指示設(shè)備狀態(tài)的重要標(biāo)志,以SF6氣體密度表為例,由于其與滅弧、絕緣性能密切相關(guān),不同電壓等級(jí)、不同氣室類型,甚至是不同廠家設(shè)定的額定、告警、閉鎖壓力值均不同。因此讀數(shù)與設(shè)備運(yùn)行狀態(tài)而言,必須結(jié)合色帶覆蓋區(qū)間等信息綜合判別。其次,對(duì)于GIS而言,如圖1、2所示,為避免震動(dòng)導(dǎo)致表內(nèi)二次回路意外導(dǎo)通,表內(nèi)往往填充阻尼油,油位面及折射問(wèn)題將影響傳統(tǒng)儀表讀數(shù)算法的準(zhǔn)確性。最后,不同儀表的量程差異顯著,儀表讀數(shù)的識(shí)別需要自適應(yīng)提取表盤(pán)文本中的量程信息。
綜上所述,變電站儀表識(shí)別需求包括如下三點(diǎn):1)識(shí)別指針?biāo)幍募t色、黃色、綠色等常見(jiàn)色帶判別當(dāng)前設(shè)備運(yùn)行狀態(tài)。2)采用改進(jìn)的圖像分割算法,降低圖像畸變及減震阻尼油折射對(duì)讀數(shù)的干擾。3)識(shí)別表盤(pán)中量程,提升模型在面對(duì)不同儀表讀數(shù)的適應(yīng)性。
針對(duì)第1節(jié)中所述變電站儀表圖像特點(diǎn)以及智能運(yùn)檢工作中的識(shí)別需求,本文引入了計(jì)算機(jī)視覺(jué)領(lǐng)域的目標(biāo)檢測(cè)、圖像分割和OCR字符識(shí)別三項(xiàng)技術(shù)。其中,目標(biāo)檢測(cè)技術(shù)是指在所給圖像中檢測(cè)并標(biāo)注存在指定目標(biāo)的區(qū)域,圖像分割則是指從圖像中分割出僅屬于給定目標(biāo)的圖片像素,OCR技術(shù)是一種將圖像或印刷體字符轉(zhuǎn)換為可編輯文本的技術(shù)。
本文所提變電站儀表識(shí)別算法檢測(cè)流程如下:首先通過(guò)目標(biāo)檢測(cè)算法YOLO-E框選變電站內(nèi)儀表所在區(qū)域,從而排除畫(huà)面中其他物體干擾,提升后續(xù)圖像分割效果,并通過(guò)透視變換對(duì)圖像進(jìn)行矯正。其次,使用改進(jìn)的OCRNet圖像分割算法分割出表盤(pán)區(qū)域的刻度線、三色色帶、指針像素,并識(shí)別指針讀數(shù)及設(shè)備對(duì)應(yīng)狀態(tài)區(qū)間。最后,通過(guò)端對(duì)端的OCR算法PGNet自適應(yīng)識(shí)別表計(jì)量程信息。儀表讀數(shù)與表盤(pán)信息檢測(cè)流程如圖4所示。
準(zhǔn)確識(shí)別表盤(pán)位置是后續(xù)儀表讀數(shù)檢測(cè)的基礎(chǔ)步驟,考慮到變電站中包含儀表的圖像一般由巡檢機(jī)器人或固定式高清監(jiān)控拍攝得到,圖像質(zhì)量可能受到光照、天氣、鏡頭抖動(dòng)等因素的影響,且表盤(pán)面積較小。為提升小目標(biāo)下的檢測(cè)能力,提高算法應(yīng)對(duì)實(shí)際環(huán)境的魯棒性,本節(jié)提出一種基于YOLO-E模型的表盤(pán)檢測(cè)算法。
YOLO-E算法基于工業(yè)圖像識(shí)別的實(shí)際需求,在YOLO v5模型的基礎(chǔ)上進(jìn)行了多項(xiàng)重要改進(jìn),算法性能全面優(yōu)于YOLO v5和YOLO X[26]。YOLO-E具有更強(qiáng)大的骨干網(wǎng)絡(luò)和Neck特征層。在骨干網(wǎng)絡(luò)方面,模型同時(shí)結(jié)合了殘差連接易于訓(xùn)練與密集連接提取特征能力強(qiáng)的結(jié)構(gòu)優(yōu)勢(shì),設(shè)計(jì)了名為RepResBlock的單元,在此基礎(chǔ)上進(jìn)一步引入YOLO v5中Cross Stage Partial Network(CSP)結(jié)構(gòu)與Effective Squeeze and Extraction(ESE)塊,提出了CSPRepResStage結(jié)構(gòu),如圖5所示。
圖5 YOLO-E模型中的CSPRepResStage結(jié)構(gòu)
(1)
(2)
ET-Head同樣用于解決任務(wù)對(duì)齊問(wèn)題,在YOLO-E模型中,通過(guò)參考一階段目標(biāo)檢測(cè)(task-aligned one-stage object detection, TOOD)算法的結(jié)構(gòu)特點(diǎn)[27],針對(duì)儀表定位與分類兩個(gè)問(wèn)題分別采用了改進(jìn)的解耦二級(jí)檢測(cè)頭,如圖6所示。并進(jìn)一步采用上文所述的對(duì)齊損失進(jìn)行訓(xùn)練。YOLO-E網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖7所示,包括由三層堆疊的CSPRepResStage結(jié)構(gòu)組成的CSPRepResNet、特征層及ET-Head。
圖6 ET-Head結(jié)構(gòu)
圖7 YOLO-E網(wǎng)絡(luò)結(jié)構(gòu)
在YOLO-E模型識(shí)別出表盤(pán)位置后,裁剪出標(biāo)注框內(nèi)的表盤(pán)圖像用于后續(xù)讀數(shù)識(shí)別。由于照片拍攝角度問(wèn)題可能導(dǎo)致表盤(pán)畫(huà)面出現(xiàn)畸變,為保證后續(xù)識(shí)別的準(zhǔn)確性,在裁剪表盤(pán)區(qū)域后對(duì)圖像進(jìn)行透視校正。透視校正是一種將圖片投影到一個(gè)新的視平面的變換,透視校正的基本思想是通過(guò)四個(gè)對(duì)應(yīng)點(diǎn)(原圖像和目標(biāo)圖像各兩個(gè))來(lái)求解一個(gè)3×3的變換矩陣,透視校正的變換矩陣如式(3)所示。
(3)
式中:(x,y)是原圖像坐標(biāo);(X′,Y′,Z′)是目標(biāo)圖像坐標(biāo);aij(i,j=1,2,3)是變換矩陣的元素。
對(duì)于表盤(pán)透視校正問(wèn)題而言,由于表盤(pán)本體為標(biāo)準(zhǔn)的正圓形,受拍攝角度影響的表盤(pán)圖像為橢圓形,因而可通過(guò)確定橢圓的頂點(diǎn)與圓形表盤(pán)的對(duì)應(yīng)點(diǎn)求解變換矩陣[2]。由于本文所提算法依賴于對(duì)刻度及指針的分割,而非傳統(tǒng)方法中的計(jì)算指針旋轉(zhuǎn)角度,因此無(wú)需對(duì)變換前后的旋轉(zhuǎn)角度差進(jìn)行進(jìn)一步處理。
已有讀數(shù)識(shí)別算法多基于指針偏轉(zhuǎn)角度進(jìn)行判別,這種方案易受透視角度影響,且無(wú)法識(shí)別表盤(pán)色帶信息。對(duì)此,本文采用了刻度分割的方案提升算法識(shí)別的準(zhǔn)確性。
由于表盤(pán)刻度數(shù)量多、像素少,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),如Faster-RCNN、U-Net通過(guò)堆疊卷積層、池化層進(jìn)行層次化特征提取,僅能夠考慮像素自身局部范圍的上下文信息,忽略了全局同類目標(biāo)像素之間的關(guān)系,影響了表盤(pán)圖像分割的準(zhǔn)確性。對(duì)此,本文顯式地對(duì)全局圖像目標(biāo)上下文關(guān)系建模,采用目標(biāo)上下文卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(object-contextual representations Net, OCRNet)實(shí)現(xiàn)變電站儀表的圖像分割。OCRNet是基于上下文聚合策略的圖像分割算法,顯式地把像素分類問(wèn)題轉(zhuǎn)化成物體區(qū)域分類問(wèn)題,使用像素所屬目標(biāo)的特征來(lái)增強(qiáng)像素特征,進(jìn)而得到較高的分割效果[28]。
為提高進(jìn)一步處理儀表圖像的能力,本文在OCRNet現(xiàn)有模型結(jié)構(gòu)基礎(chǔ)上進(jìn)行模型改進(jìn)。經(jīng)典的OCRNet通過(guò)像素對(duì)應(yīng)的類別標(biāo)簽來(lái)決定像素的分類,網(wǎng)絡(luò)結(jié)構(gòu)中引入了多頭注意力機(jī)制來(lái)增強(qiáng)特征表達(dá)。但這種結(jié)構(gòu)僅能考慮空間維度的上下文信息,無(wú)法考慮通道維度的上下文信息。為此,本文引入了包含通道注意力的極化注意力模塊改進(jìn)模型,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
圖8 基于極化注意力機(jī)制改進(jìn)的OCRNet表盤(pán)分割算法
OCRNet包括粗分割分支與精分割分支兩部分[29],首先根據(jù)網(wǎng)絡(luò)中間層的特征表示估測(cè)一個(gè)粗分割結(jié)果作為軟目標(biāo)區(qū)域;根據(jù)粗語(yǔ)義分割結(jié)果和網(wǎng)絡(luò)深層特征表示得到目標(biāo)區(qū)域表示;把目標(biāo)區(qū)域特征加權(quán)求和,得到最后的目標(biāo)上下文特征表示。
設(shè)輸入的表盤(pán)圖像為X∈RH×W×C,標(biāo)注信息為Y∈RH×W,本文選擇HRNet作為特征提取的骨干網(wǎng)絡(luò),提取后的高級(jí)特征fb如式(4)所示。
fb=backbone(X)
(4)
式中:backbone(·)表示骨干網(wǎng)絡(luò)。
對(duì)于提取后的高級(jí)特征,通過(guò)上采樣及卷積操作縮放特征維度,得到像素特征fp∈RH×W×S,其中S為像素特征向量維度。
在粗分割階段,將高級(jí)特征fb作為粗分割網(wǎng)絡(luò)分支的輸入,得到粗分割特征fcorse∈RH×W×CL(CL表示分割問(wèn)題中的分類數(shù)),如式(5)所示。
fcorse=BranchCorse(fb)
(5)
式中:BranchCorse為粗分割分支模塊,在網(wǎng)絡(luò)訓(xùn)練時(shí),粗分割分支的損失函數(shù)如式(6)所示。
Lcorse=CrossEntropy(fcorse,Y)
(6)
式中:CrossEnropy表示互熵?fù)p失。粗分割模塊的輸出fcorse有CL個(gè)通道,各像素對(duì)應(yīng)類別通道的特征值大,因此在全局類別中心計(jì)算中,據(jù)此獲得每一類像素在特征空間的類別中心,并將歸一化后的類別中心作為像素權(quán)重,如式(7)所示。
式中:mk∈RH×W為歸一化后的通道值;k為對(duì)應(yīng)的通道數(shù),進(jìn)一步計(jì)算第k類對(duì)應(yīng)的特征中心,如式(8)所示。
(8)
式中:fClassCenter,k表示第k類對(duì)應(yīng)的特征中心;fp,i∈RS為圖像特征圖fp的第i個(gè)特征向量;mk,i表示權(quán)重圖mk的第i個(gè)元素。
在精分割分支,利用類別特征中心對(duì)像素特征fp進(jìn)行加權(quán),得到新的編碼特征fc,如式(9)-(11)所示。
κ(a,b)=φ(a)Tψ(b)
(9)
(10)
(11)
式中:κ(·)表示非歸一化關(guān)系函數(shù);a為像素;b為對(duì)象區(qū)域;φ(·)、ψ(·)、ρ(·)和σ(·)為轉(zhuǎn)換網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)為1×1卷積層-BN歸一化層-ReLU激活層;wi,k為像素中心關(guān)系矩陣W中的元素,表示第i個(gè)像素與第k個(gè)類別中心的編碼權(quán)重。fc中包括了整個(gè)圖片的空間上下文信息,進(jìn)一步將編碼特征與像素特征進(jìn)行融合,得到融合特征ffusion,如式(12)所示。
ffusion=g[cat(fp,fc)]
(12)
式中:cat(·)表示將兩組特征首尾相連;g(·)表示轉(zhuǎn)換網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)為1×1卷積層-BN歸一化層-ReLU激活層。最后基于融合特征ffusion得到最終圖像分割結(jié)果。
本文在像素中心關(guān)系矩陣W后添加了極化注意力模塊(polarized self-attention,PSA)[30]來(lái)改進(jìn)OCRNet,如圖8中紅框所示。極化注意力模塊包含通道注意力和空間注意力兩個(gè)分支。通道注意力模塊計(jì)算每個(gè)通道特征的權(quán)重,然后將權(quán)重應(yīng)用到相應(yīng)的通道上。PSA模塊通過(guò)構(gòu)建像素間的遠(yuǎn)程依賴關(guān)系,可顯著增強(qiáng)OCRNet目標(biāo)區(qū)域表達(dá)的判別力。
具體而言,設(shè)輸入到極化注意力模塊的像素特征張量為X∈RC×H×W,增強(qiáng)后的特征張量為Y∈RC×H×W,本文選擇串聯(lián)結(jié)構(gòu)的極化注意力模塊,如式(13)所示。
Z=Asp[Ach(X)⊙chX]⊙spAch(X)⊙chX
(13)
式中:Ach表示通道注意力;⊙ch表示通道維度上的逐元素乘法;Asp表示空間注意力;⊙sp表示空間維度上的逐元素乘法。
通道注意力分支的運(yùn)算過(guò)程如式(14)所示。
Ach(X)=σ(Wz{Softmax[Wq(X)]?σ[Wv(X)]})
(14)
式中:Wq、Wv、Wz表示1×1卷積;σ表示張量重塑操作;?表示矩陣點(diǎn)乘。
空間注意力分支的運(yùn)算過(guò)程如式(15)所示。
Asp(X)=σ(Softmax{σ[AvgPool(Wq(X)]}?σ[Wv(X)])
(15)
式中:AvgPool表示全局平均池化。
表盤(pán)圖像分割后,通過(guò)圖像腐蝕算法提升刻度之間的分離度,然后將環(huán)形的表盤(pán)展開(kāi)為矩形圖像,具體而言,通過(guò)Hough特征檢測(cè)環(huán)形表盤(pán)的圓心,然后通過(guò)極坐標(biāo)轉(zhuǎn)換將表盤(pán)展開(kāi)。通過(guò)定位指針相對(duì)刻度的位置及表盤(pán)的量程得到讀數(shù)結(jié)果。對(duì)于色帶而言,先將圖像轉(zhuǎn)換為灰度圖像,然后使用Canny算子進(jìn)行邊緣檢測(cè),使用Hough直線變換來(lái)檢測(cè)出邊界直線。最后,根據(jù)指針與色帶邊界的相對(duì)位置計(jì)算二者讀數(shù)。
從表盤(pán)字符形態(tài)來(lái)看,視覺(jué)表計(jì)信息讀取受表盤(pán)形狀、類型與拍攝角度影響,同時(shí)不同表盤(pán)的字符位置差異很大,字體字號(hào)多樣,且形態(tài)上存在彎曲等特點(diǎn),給字符識(shí)別算法的魯棒性帶來(lái)很大挑戰(zhàn)??紤]到上述特點(diǎn),本文提出了基于PGNet算法的表盤(pán)字符信息識(shí)別方法,與傳統(tǒng)文本檢測(cè)+文本識(shí)別的兩階段OCR算法相比,PGNet僅需一步即可直接識(shí)別任意形狀文本,速度上大幅超越了傳統(tǒng)算法[31],其特有的文本解讀方向重建機(jī)制非常適用于表盤(pán)字符識(shí)別之類的特殊情景。
PGNet針對(duì)文本檢測(cè)與識(shí)別問(wèn)題建立了一個(gè)多任務(wù)學(xué)習(xí)模型,采用全卷積神經(jīng)網(wǎng)絡(luò)模型作為主干網(wǎng)絡(luò)提取特征[32],下游包括四個(gè)子任務(wù):文本邊界偏移(text border offset, TCL)檢測(cè),文本中心線(text center line, TCL)識(shí)別,文本方向偏移(text direction offset, TDO)識(shí)別,文本字符分類特征(text character classification, TCC)提取。在實(shí)現(xiàn)文本檢測(cè)與識(shí)別時(shí),從TCL中提取每個(gè)文本實(shí)例的中心點(diǎn)序列,并根據(jù)TDO信息進(jìn)行排序,以恢復(fù)正確的閱讀順序,使算法可以正確識(shí)別非傳統(tǒng)閱讀方向的文本。借助來(lái)自TBO的邊界偏移信息,通過(guò)多邊形還原檢測(cè)每個(gè)文本實(shí)例。同時(shí),PG-CTC解碼器可將TCC映射序列化為字符分類概率序列,并將其解碼為最終的文本識(shí)別結(jié)果。PGNet識(shí)別表盤(pán)信息的步驟如圖9所示。
圖9 基于PGNet算法的表盤(pán)信息識(shí)別
在訓(xùn)練損失函數(shù)方面,PGNet算法的本質(zhì)是對(duì)TCL、TBO、TDO、TCC四類特征圖學(xué)習(xí)的過(guò)程,依據(jù)多任務(wù)學(xué)習(xí)損失函數(shù)的設(shè)計(jì)原則,損失函數(shù)如式(16)所示。
L=λ1LTCL+λ2LTBL+λ3LTDO+λ4LTCC
(16)
式中:λ表示各子任務(wù)的損失權(quán)重,按照經(jīng)驗(yàn)設(shè)置為λ1=1.0,λ2=1.0,λ3=1.0,λ4=5.0;LTCL、LTBL、LTDO、LTCC分別為T(mén)CL、TBO、TDO、TCC四類對(duì)應(yīng)的損失函數(shù)。
本文所用數(shù)據(jù)集來(lái)源于江蘇某220 kV變電站實(shí)拍圖片以及開(kāi)源表計(jì)檢測(cè)數(shù)據(jù)集,包括訓(xùn)練集1 119張,測(cè)試集118張,表計(jì)類型以SF6氣體密度表為主。目標(biāo)檢測(cè)任務(wù)與報(bào)盤(pán)信息識(shí)別實(shí)驗(yàn)硬件環(huán)境為Intel(R) Xeon(R) Gold 6330 CPU,NVIDIA RTX 3090 24 GB;語(yǔ)義分割實(shí)驗(yàn)硬件環(huán)境為AMD EPYC 7453 CPU,NVIDIA A800 80 G。算法基于Python 3.8,PaddlePaddle 2.4,PaddleDetection 2.6,PaddleSeg 2.8實(shí)現(xiàn)。
在儀表檢測(cè)實(shí)驗(yàn)中,除所提基于YOLO-E的表盤(pán)檢測(cè)算法外,本文選擇了五種先進(jìn)的深度學(xué)習(xí)目標(biāo)檢測(cè)算法作為對(duì)比,分別是SSD、YOLO v3、CenterNet、PP-YOLO以及Faster-RCNN,上述方法在文獻(xiàn)[2,33-34]的電力視覺(jué)情境中均取得了較好的檢測(cè)效果。
為提升模型的魯棒性,訓(xùn)練圖像采用隨機(jī)縮放、隨機(jī)填充、標(biāo)準(zhǔn)化等圖像預(yù)處理步驟。在參數(shù)設(shè)置方面,為保證訓(xùn)練效果,提升訓(xùn)練穩(wěn)定性,六種模型均采用遷移學(xué)習(xí)策略,使用COCO數(shù)據(jù)集上訓(xùn)練過(guò)的模型作為預(yù)訓(xùn)練模型。由于使用單卡訓(xùn)練,使用較低的batchsize來(lái)保證模型訓(xùn)練的穩(wěn)定性,batchsize設(shè)置為2。為了保證訓(xùn)練模型對(duì)比具有公平性,學(xué)習(xí)率統(tǒng)一設(shè)置為0.005,訓(xùn)練輪數(shù)為30。YOLOE模型使用CSPEepResNet作為骨干網(wǎng)絡(luò),CustomCSPPAN neck、PPYOLOEHead作為頭部和后處理。其中CSPEepResNet的模型階段層數(shù)為[3, 6, 6, 3],對(duì)應(yīng)的各階段的通道數(shù)為[64, 128, 256, 512, 1 024]。Fast-SCNN采用階段數(shù)為3的ResNet101骨干網(wǎng)絡(luò)。YOLO v3骨干網(wǎng)絡(luò)為MobileNetV1。SSD、PP-YOLO與 CenterNet的骨干網(wǎng)絡(luò)均為MobileNetV3。模型評(píng)價(jià)指標(biāo)包括邊界框平均精確度(bounding box average precision, BBox AP),模型大小以及最大檢測(cè)框(maxDets)分別為1和10下的召回率(recall)。測(cè)試結(jié)果如表1所示。
表1 儀表盤(pán)區(qū)域目標(biāo)檢測(cè)算法性能比較
由表1可見(jiàn),本文采用的YOLO-E模型在邊界框平均精確度指標(biāo)上顯著優(yōu)于其他四種常用深度學(xué)習(xí)算法,同時(shí)模型占用空間最小,這證明了YOLO-E模型中的機(jī)制改進(jìn)對(duì)表盤(pán)識(shí)別問(wèn)題的適用性。電力視覺(jué)領(lǐng)域常用的Faster-RCNN模型精度僅次于YOLO-E模型,同時(shí)在召回率指標(biāo)上略優(yōu),但模型占用空間較大。YOLO v3與SSD模型在檢測(cè)精度與模型大小上表現(xiàn)不佳,PP-YOLO與CenterNet模型表現(xiàn)稍差。YOLO-E模型占用空間較小,為后續(xù)運(yùn)行在嵌入式設(shè)備上提供了有利條件。
在表盤(pán)分割實(shí)驗(yàn)中,除所提基于改進(jìn)OCRNet模型的表盤(pán)分割算法外,本文還選擇了Fast-SCNN、U-Net、DeepLab v3、DeepLab v3 plus(v3p)、HRNet、KNet六種電力視覺(jué)領(lǐng)域的先進(jìn)圖像分割算法作為對(duì)比。同樣采用遷移學(xué)習(xí)策略,所用模型均在COCO數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)率統(tǒng)一設(shè)置為0.000 2,分割類別包括色帶、刻度、指針三類,batchsize設(shè)置為2,由于分割模型任務(wù)較為復(fù)雜,模型精度提升依賴較多的訓(xùn)練輪數(shù),因此統(tǒng)一設(shè)置訓(xùn)練120輪。OCRNet模型使用HRNet-W48作為骨干網(wǎng)絡(luò),使用CrossEntropyLoss作為損失函數(shù)。其他參數(shù)使用模型默認(rèn)提出的參數(shù)進(jìn)行訓(xùn)練,使用默認(rèn)值(512)作為OCR模塊中間通道數(shù),注意力中的關(guān)鍵通道數(shù)取默認(rèn)值256。DeepLab v3、DeepLab v3 plus(v3p)采用輸出步長(zhǎng)為8的ResNet101骨干網(wǎng)絡(luò)。HRNet模型的骨干網(wǎng)絡(luò)為HRNet_W48。KNet模型的骨干網(wǎng)絡(luò)為ResNet50。
在評(píng)價(jià)指標(biāo)上,采用平均交并比(mean intersection over union, mIoU)作為分割任務(wù)的評(píng)價(jià)指標(biāo),采用準(zhǔn)確率作為分類任務(wù)的評(píng)價(jià)指標(biāo)。訓(xùn)練過(guò)程中模型在測(cè)試集上的mIoU指標(biāo)隨訓(xùn)練輪數(shù)變化如圖10所示。訓(xùn)練完成后各模型取得的儀表圖像分割評(píng)估指標(biāo)如表2所示。
表2 儀表圖像分割算法性能比較
圖10 訓(xùn)練過(guò)程中各算法mIoU指標(biāo)
經(jīng)實(shí)驗(yàn),改進(jìn)后的OCRNet的mIoU值為0.857,而未改進(jìn)的OCRNet模型僅為0.843,說(shuō)明改進(jìn)能夠提高模型的效果。由圖10、表2可見(jiàn),改進(jìn)OCRNet算法性能好于傳統(tǒng)OCRNet算法和DeepLab v3算法,Fast-SCNN與U-Net mIoU指標(biāo)性能相當(dāng)。從測(cè)試集上的指標(biāo)來(lái)看,7種算法在分類上均取得了較高的準(zhǔn)確率,這表明指針、刻度與色帶三類圖像差異較為顯著,模型區(qū)分效果不大。而在mIoU指標(biāo)上,本文所提基于OCRNet的改進(jìn)方案與DeepLab v3p表現(xiàn)相當(dāng),顯著優(yōu)于其他6種算法,其中HRNet與KNet性能較好,而電力視覺(jué)中常用的U-Net與Fast-SCNN模型在表盤(pán)圖像分割問(wèn)題中表現(xiàn)不佳。
進(jìn)一步,在測(cè)試集上將所提算法識(shí)別出的儀表讀數(shù)與人工讀數(shù)作對(duì)比,計(jì)算誤差百分比,并作出箱線圖及誤差分布,如圖11所示。
由圖11可見(jiàn),測(cè)試集上識(shí)別誤差的中位數(shù)僅為0.93%,上四分位數(shù)僅為3.63%,證明了所提算法能夠準(zhǔn)確穩(wěn)定地識(shí)別儀表讀數(shù)。
表盤(pán)信息中包括刻度區(qū)與信息區(qū),此處采用上文所述預(yù)訓(xùn)練PGNet模型對(duì)表盤(pán)信息進(jìn)行識(shí)別,該模型僅能檢測(cè)識(shí)別英文字符,故此處僅以不含中文的表盤(pán)為例,識(shí)別效果如圖12所示,文本區(qū)域以紅色框標(biāo)注,檢出的字符位于圖片右側(cè)。
圖12 表盤(pán)信息OCR結(jié)果
由圖12可見(jiàn),從信息內(nèi)容來(lái)看,表盤(pán)文本可分為刻度區(qū)和信息區(qū)兩部分,可通過(guò)關(guān)鍵詞匹配、正則表達(dá)式等方法提取所需信息,刻度區(qū)文本用于表盤(pán)量程的自適應(yīng)識(shí)別,得到的量程信息配合分割結(jié)果可實(shí)現(xiàn)自適應(yīng)儀表讀數(shù)。例如以正則表達(dá)式{^[0-9]+(.[0-9])?$} 可篩選出表盤(pán)信息中的刻度值,比較最大值即為儀表量程值,例如圖中表盤(pán)的刻度信息為-0.1, 0.1, 0.2, 0.4, 0.6, 0.8, 0.9。信息區(qū)則包括了儀表類型、二次回路信息、觸發(fā)壓力數(shù)據(jù)等內(nèi)容,例如正則表達(dá)式{^P.*MPa$}可篩選出以P開(kāi)頭,以MPa結(jié)尾的觸發(fā)壓力值,圖12中閉鎖壓力P1=0.35 MPa,額定壓力P=0.40 MPa等。以圖12中表盤(pán)圖片為例,自適應(yīng)讀數(shù)識(shí)別結(jié)果如圖13所示。
圖13 SF6儀表圖片讀數(shù)識(shí)別結(jié)果
本文提出了一種基于YOLO-E與改進(jìn)OCRNet的變電站儀表量程信息自適應(yīng)讀數(shù)方法,通過(guò)表盤(pán)目標(biāo)檢測(cè)、指針及刻度分割實(shí)現(xiàn)儀表讀數(shù)識(shí)別,克服了傳統(tǒng)基于指針偏轉(zhuǎn)角度的方法易受拍攝角度影響,識(shí)別精度差等問(wèn)題。此外,所提方法能夠通過(guò)色環(huán)分割自動(dòng)讀取設(shè)備對(duì)應(yīng)的狀態(tài)區(qū)間,基于PGNet算法識(shí)別表盤(pán)量程、告警值信息,實(shí)現(xiàn)表計(jì)設(shè)備運(yùn)維狀態(tài)的讀取。算例對(duì)比了所提方法與電力視覺(jué)領(lǐng)域先進(jìn)深度學(xué)習(xí)算法的性能,證明了所提方法在變電站儀表識(shí)別問(wèn)題上的適用性。然而,目前模型精簡(jiǎn)化方面仍有很大的優(yōu)化空間。特別是考慮到在嵌入式設(shè)備中的部署,模型的大小和計(jì)算效率成為關(guān)鍵因素。因此,未來(lái)可圍繞模型壓縮技術(shù)開(kāi)展研究,以滿足計(jì)算資源有限條件下的算法部署需求。