李 特, 裴澤霖, 劉行健, 劉海波
(大連理工大學 高性能精密制造全國重點實驗室, 遼寧 大連 116000)
在航空、航天等高端裝備的制造及服役過程中,安全檢測、故障檢修是十分重要的工序,關系到服役可靠性。例如:長期服役裝備油箱中進入的多余物,松動掉落的螺栓等,早期發(fā)現(xiàn)這些故障是保障裝備可靠服役的安全屏障。然而,隨著高端裝備性能要求越來越高,高度集成化的裝備結構不斷趨于整體化、復雜化,檢測維護作業(yè)往往在光線十分昏暗、狹小的空間內(nèi)進行,檢測人員操作難度大、勞動負荷大。為此,研究低照度復雜空間目標物智能識別技術十分必要。
近年來,低照度圖像增強和目標檢測等計算機視覺問題成為了研究熱點。在低照度圖像增強方法方面,分為監(jiān)督學習、無監(jiān)督學習和零次學習等方式,主要有基于Retinex理論和無參考損失理論兩類方法。在目標檢測模型方面,主要分為兩類:第一類是兩階段的目標檢測方法,如Faster-RCNN[1],第一步先從圖像中生成候選區(qū)域框,再從候選區(qū)域框中生成最終的物體邊框。雖然準確率高,但是其冗余計算量很大,因此網(wǎng)絡的檢測速度很慢;第二類是單階段目標檢測方法,如SSD[2]和YOLO[3],一般速度較快、具有實時檢測能力。王超等[4]通過Retinex方法對井下黑暗圖像進行增強,基于RetinaNet改進基礎網(wǎng)絡,提高細節(jié)特征提取效果,對煤礦輸送帶的異物進行檢測。王秋茹[5]提出了基于YOLOv4改進的機場小目標異物檢測方法。史凌凱等[6]基于Laplace算子對井下低照度、高粉塵環(huán)境下采集的圖像進行預處理,然后改進Mask R-CNN對刮板輸送機鐵質(zhì)異物進行檢測。俞軍燕等[7]提出了一種基于MobileNet CNN改進的單幀圖像軌道異物檢測方法。何自芬等[8]針對飛機在夜間起降時機場跑道上侵入的異物嚴重威脅航空運輸安全的問題,提出了一種融合自注意力的CSPTNet夜間機場跑道異物檢測方法。郝帥等[9]通過分析輸送帶中異物目標圖像受煤塵干擾、輸送帶高速運動以及光照不均的影響,其造成傳統(tǒng)圖像檢測算法難以準確檢測,提出了一種融合卷積塊注意力模型的YOLOv5目標檢測算法。
筆者針對高端裝備制造過程中,在管道、箱體等低照度復雜空間中發(fā)現(xiàn)的斷屑、螺母、墊片等目標物智能識別方法開展研究,考慮到復雜空間的極端環(huán)境導致圖像信息的提取和感知十分困難,采用基于VGG自然特征保持損失進行不同尺度大小特征的保留,解決圖像語義信息少的問題;一般方法增強極端黑暗圖像由于缺少通道維度的限制,色偏和噪聲問題嚴重,采用通道平滑損失分別在RGB三通道限制極端像素值的出現(xiàn),從而平滑整張圖像的顏色,消除噪聲;由于大量獲取高質(zhì)量增強圖像進行目標物檢測數(shù)據(jù)集的訓練和標注費時費力,采用基于小樣本遷移學習的方法快速進行目標物檢測模型的開發(fā)。
為解決箱體、管道空間中的目標物識別問題,文中結合改進的低照度圖像增強算法和基于小樣本遷移學習理論訓練自定義目標物檢測數(shù)據(jù)集,提出了一種面向復雜黑暗空間的自動化目標物檢測方法,算法的流程如圖1所示。
圖1 自動化目標物檢測算法總體框架Fig. 1 Overall framework of automatic target detection algorithm
由圖1可見,檢測算法包括低照度圖像增強和目標物檢測兩個部分:一是視覺傳感器采集的輸入圖像通過改進的低照度圖像增強網(wǎng)絡獲得增強圖像;二是改進的目標檢測網(wǎng)絡推理計算增強圖像的目標物類別和目標框位置,實現(xiàn)目標物的自動化檢測。
基于監(jiān)督學習的低照度圖像增強方法往往需要獲取成對的圖像進行訓練,有時由于空間環(huán)境特征限制,成對數(shù)據(jù)集獲取較為困難。ZeroDCE[10]基于深度曲線估計的零次學習低照度圖像增強方法,不需要費力地獲取成對圖像,僅僅需要一個大動態(tài)范圍的數(shù)據(jù)集,通過全卷積神經(jīng)網(wǎng)絡估計每個像素點的亮度增強S曲線來恢復一張低照度圖像。由于不存在配對的圖像進行監(jiān)督學習,因此需要通過無參考損失函數(shù)(空間一致性損失、曝光控制損失、顏色一致性損失和照度平滑損失)進行圖像噪聲、色偏和高低層級語義特征的約束。但是這些無參考損失函數(shù),在增強復雜空間低照度圖像時,無法完全恢復圖像的細節(jié)和照度,會出現(xiàn)人工偽影與色偏,這是由復雜空間環(huán)境的特征較少,噪聲較大和光照不均所致。
改進的低照度圖像增強網(wǎng)絡結構,如圖2所示。網(wǎng)絡主干采用6個連續(xù)的3×3×32的卷積核提取特征,網(wǎng)絡的非線性能力通過ReLU和Tanh激活函數(shù)得到增強,拼接操作融合通道維度特征,防止特征退化。
圖2 改進的低照度圖像增強網(wǎng)絡Fig. 2 Improved low-light image enhancement network
文中對ZeroDCE[10]進行改進,將基于VGG的特征保持損失函數(shù)和顏色通道平滑噪聲損失函數(shù)添加到低照度圖像增強網(wǎng)絡中,恢復圖像的照度和細節(jié)特征,對色偏、噪聲和光照不均進行控制,防止出現(xiàn)人工偽影。計算公式分別為
(1)
式中:Lfea——自然特征保持損失函數(shù);
αi——VGG16特征提取網(wǎng)絡;
y——ImageNet數(shù)據(jù)集的圖像;
Ci——第i個像素的通道維度;
Hi——第i個像素的高維度;
Wi——第i個像素的寬維度。
(2)
式中:Lcha——顏色通道平滑損失函數(shù);
R——紅色顏色通道;
G——綠色顏色通道;
B——藍色顏色通道;
Om——增強圖像在m通道的像素特征圖;
In——Om的像素均值。
通過(Om-In)2約束輸出特征圖與每個特征圖像素均值的距離,在通道維度控制色偏和噪聲。
使用檢測算法進行目標物檢測模型的開發(fā),若從頭開始訓練,需要收集大量的圖像,對其標注工作耗費時間較大,有時由于光照原因,收集大量令人滿意的增強圖像甚至是不現(xiàn)實的,因此,文中基于小樣本遷移學習理論快速地訓練自定義YOLOv5目標物檢測數(shù)據(jù)集。
YOLOv5是在前幾代YOLO版本基礎上迭代的實時性非常好的目標檢測算法,其結構可以分為三個部分,分別是主干特征提取網(wǎng)絡CSPDdarknet,進行加強特征提取的拼接操作和CSPLayer,以及YOLOHead用來推理分類預測結果和回歸預測結果。
遷移學習是一種節(jié)省時間資源和計算資源的訓練方法,可以廣泛用于工業(yè)缺陷檢測和零件識別的訓練中。數(shù)學定義如下所示:源域為DS={XS,fS(X)},學習任務為TS。目標域為DT={XT,fT(X)},學習任務為TT。遷移學習的目標是,通過使用DS和TS中的知識,來提升DT中目標預測函數(shù)fT(X)的學習能力,其中,DS≠DT或者TS≠TT。由于目標物的邊緣、輪廓等這些泛化特征在ImageNet數(shù)據(jù)集中也存在,因此,文中改進的目標物檢測方法將在ImageNet數(shù)據(jù)集中訓練的YOLOv5x模型作為目標物檢測模型開發(fā)的初始點,如圖 3所示。
在圖3中,源域的ImageNet數(shù)據(jù)量非常大,目標域的目標物數(shù)據(jù)量比較小,通過遷移學習,可以保證源域的大部分自然泛化特征已經(jīng)被融合到訓練的模型中。具體步驟為,先凍結backbone全部的十層特征層,然后在目標物數(shù)據(jù)集的輸入-輸出對上微調(diào)YOLOv5 head的14層權重,以適應目標物檢測任務。基于小樣本遷移學習理論的YOLOv5網(wǎng)絡結構,如圖4所示。
圖3 遷移學習訓練目標物檢測數(shù)據(jù)集Fig. 3 Transfer learning training object detection datasets
圖4 改進的目標檢測網(wǎng)絡Fig. 4 Improved object detection network
文中采用蛇形臂機器人視覺檢測平臺,如圖 5所示。
由圖5可見,其主要包括5個部分:驅動模塊、移動滑臺、蛇形臂本體、視覺傳感器和模擬的管道黑暗空間。驅動模塊通過電機驅動蛇形臂本體產(chǎn)生俯仰、偏航動作,移動滑臺提供橫向進給運動的自由度,使蛇形臂末端能夠探入管道空間,視覺傳感器部分通過調(diào)整環(huán)形光源的亮度使其捕捉圖像不含有過曝部分,然后通過調(diào)整相機的工作距離來拍攝對焦良好的低照度圖像。
圖5 蛇形臂機器人視覺檢測平臺Fig. 5 Vision detection platform of a snake-arm robot
訓練低照度圖像增強網(wǎng)絡時采用的是PyTorch框架,工作站配置的CPU型號是Xeon(R),GPU是4塊12G的TITAN Xp。訓練目標物檢測數(shù)據(jù)集時采用的也是PyTorch框架,工作站配置是Xeon(R)Gold 6226R型號的CPU和4塊24G的3090GPU。視覺模塊采用的設備為 GEV廠商的MV-CA013-20GC型號的視覺傳感器,型號是JS-24V50W-1T的單通道光源控制器。
目標物圖像增強數(shù)據(jù)集4 590張劃分為訓練集4 055張和測試集535張,來源為ZeroDCE[10]高動態(tài)范圍數(shù)據(jù)集、EnlightenGAN[11]明暗配對數(shù)據(jù)集以及用來擴充上述數(shù)據(jù)集動態(tài)范圍在模擬管道黑暗空間場景拍攝的低照度圖像。
對目標物圖像增強數(shù)據(jù)集中測試集的535張圖像進行增強測試,將其作為目標物檢測的數(shù)據(jù)集,其中,344張為訓練集,86張為驗證集,105張為測試集。使用roboflow標注軟件對430張含有螺栓(bolt)、斷屑(chip_breaking)、鉆頭(drill)、墊片(gasket)、釘子(nail)、螺母(nut)、螺釘(screw)的圖像進行標注,生成訓練集和驗證集所對應的圖像和標簽文件。
盲/無參考圖像空間質(zhì)量評估器(BRISQUE)、自然圖像質(zhì)量評估器(NIQE)和基于感知的圖像質(zhì)量評估器(PIQE)通常被用于評估基于零次學習增強圖像的質(zhì)量,低分數(shù)表示感知質(zhì)量高,高分數(shù)表示感知質(zhì)量低。
目標檢測實驗中運用mAP 0.5作為評價指標,0.5為預測框與真實框交并比αmAP的閾值,mAP為多類檢測模型中所有類別平均準確率的平均值,αmAP的值越大、越接近1,表示模型識別定位的準確率越高,其計算公式為
(3)
式中:αmAP——目標檢測任務中所有類別平均準確率的平均值;
C——目標檢測中目標類別的數(shù)量;
Pek——各類檢測目標的平均準確率。
Pek的值由P-R曲線圍成的面積計算而得,P-R曲線是指精確率P和召回率R的代數(shù)關系曲線。精確率P為檢測模型預測正確的部分占所有預測結果為正樣本的比例。召回率R是檢測模型預測正確的部分占所有正樣本中的比例。精確率和召回率的計算公式為
(4)
(5)
式中:TP——網(wǎng)絡模型正確檢測的樣本數(shù)量;
FP——網(wǎng)絡模型誤檢的樣本數(shù)量;
FN——網(wǎng)絡模型漏檢的樣本數(shù)量。
2.4.1 圖像視覺質(zhì)量比較
為驗證改進的低照度增強模型性能,將其與輸入、LightenNet[12]方法、RetinexNet方法、ZeroDCE[10]方法、無特征保持損失、無通道平滑損失和無兩種損失進行對比,圖像的視覺質(zhì)量如圖6所示。
低照度公開數(shù)據(jù)集DICM數(shù)據(jù)集的圖像質(zhì)量對比,如圖7所示。
圖7 DICM數(shù)據(jù)集圖像視覺質(zhì)量對比Fig. 7 Comparison of visual quality of images in DICM Dataset
由圖6可見,管道黑暗空間中經(jīng)過略微補光后的輸入圖像是極其黑暗的,僅能看到圖像中有目標物,但不能看清細節(jié)。LightenNet[12]無法有效地增強圖像,RetinexNet產(chǎn)生了嚴重的綠色色偏、ZeroDCE[10]增強的圖像存在人工偽影,且照度不足。無特征保持損失的增強圖像存在輕微的噪聲及人工偽影,無通道平滑損失的增強圖像存在嚴重的噪聲及紫色色偏,無兩種損失的圖像同樣存在噪聲、色偏和人工偽影,不能恢復圖像的細節(jié)特征,改進的方法取得了最好的圖像視覺質(zhì)量。由圖7可見,將上述增強方法應用于低照度公開圖像數(shù)據(jù)集,產(chǎn)生的增強結果與圖6相似,同樣是改進的方法,提升了圖像的整體質(zhì)量。
2.4.2 無參考質(zhì)量分數(shù)
各增強方法無參考圖像質(zhì)量分數(shù)和各損失函數(shù)無參考圖像質(zhì)量分數(shù)對比,如表1和2所示。
表1 各增強方法無參考圖像質(zhì)量分數(shù)對比Table 1 Comparison of non-reference image quality scores for each enhancement method
由表1可見,改進的方法取得了最好的分數(shù)6.606,且遠遠超過其他分數(shù),但是在BRISQUE和NIQE中,RetinexNet和ZeroDCE[10]分別取得了最好的分數(shù),略微超過改進的方法。
由表2可見,雖然改進的方法沒有取得最好的分數(shù),但是與其他的分數(shù)很接近。原因是目前的無參考評價質(zhì)量分數(shù)并不能在每個領域的圖像中廣泛適用,這些評價指標是基于一個公開的圖像數(shù)據(jù)集質(zhì)量的好壞來作為判斷標準的。在RetinexNet和無通道平滑損失增強的圖像中,很明顯存在嚴重的噪聲和色偏,卻在NIQE和BRISQUE中取得了較好的分數(shù),因此需要尋找更好的圖像質(zhì)量評價標準,如綜合評價噪聲和色偏的指標。
表2 各損失函數(shù)無參考圖像質(zhì)量分數(shù)對比Table 2 Comparison of non-reference image quality scores for each loss function
2.4.3 目標物檢測
在圖像預處理階段,先將圖像調(diào)整到640×640的尺寸,然后設置訓練參數(shù),學習率設置為cos曲線形式,共迭代300個epoch。訓練過程如圖8所示。用時0.423 h,訓練模型總共86 258 188個參數(shù),86 258 188個梯度,204.8 GFLOPs。
圖8 目標物檢測網(wǎng)絡訓練過程中損失函數(shù)的迭代曲線Fig. 8 Iteration curve of loss function during object detection network training
在圖8中,改進的基于小樣本遷移學習理論的目標物檢測算法在訓練接近50次迭代時基本收斂。表明改進的方法在較少的迭代次數(shù)和較短的時間內(nèi)就能快速收斂,得到令人滿意的結果。在驗證集上進行的指標測試結果,如表3所示。
表3 驗證集指標Table 3 Indicators of validation datasets
由表3可知,改進的方法全部圖像和每類目標物圖像的 0.5均接近于1,表明模型的識別準確率很高。在進行測試集檢測時,預處理時間0.3 ms,推理時間8.5 ms,非極大值抑制1.6 ms,滿足實時性檢測的需求,可以用于高端裝備復雜空間低照度場景的部署。管道中目標物的實際檢測結果,如圖9所示。
圖9 異物檢測結果Fig. 9 Results of foreign object detection
(1)針對高端裝備的箱體、管道等低照度復雜空間中存在的目標物,提出了一種先增強后識別的自動化檢測方法,為安全檢測、故障檢修提供了有效手段。
(2)文中使用了基于VGG特征保持損失函數(shù)和顏色通道平滑噪聲損失函數(shù),解決了低照度復雜空間因光照不均而導致的圖像在增強過程中產(chǎn)生的高低層級語義信息退化、色偏和噪聲問題。
(3)由于低照度復雜空間個性化較強,樣本獲取困難,提出了基于小樣本理論的遷移學習方法。采用344張圖像作為目標物檢測訓練數(shù)據(jù)集,在驗證集上達到了97.4%,節(jié)省了大量收集和標注圖像的時間,提高了效率。