何自芬,陳光晨,王 森,張印輝,郭琳偉
(昆明理工大學(xué) 機(jī)電工程學(xué)院,云南 昆明 650000)
近年來,航空運(yùn)輸安全越來越受到業(yè)內(nèi)人士關(guān)注,機(jī)場跑道異物(Foreign Object Debris,F(xiàn)OD)檢測成為研究的重點(diǎn)方向。FOD 主要指在機(jī)場跑道面上的金屬器件、碎石塊、紙制品、動植物等[1]外來物質(zhì)。它們?nèi)菀讚p壞飛機(jī)輪胎或被發(fā)動機(jī)吸入的異物有極大可能引發(fā)飛機(jī)滑偏或發(fā)動機(jī)停火,因此對航空運(yùn)輸安全方面產(chǎn)生較大隱患。受制于雷達(dá)探測技術(shù)、光電技術(shù)、圖像技術(shù)的發(fā)展,我國許多機(jī)場仍然采用人工排查方法消除FOD 隱患,效率低、成本高且可靠性較差,難以滿足日益頻繁的起降需求。因此,研究一種基于圖像智能識別FOD 的算法,可以降低人工巡檢成本,對于航空安全維護(hù)具有重要意義。
FOD 探測技術(shù)包括雷達(dá)探測技術(shù)和光學(xué)成像探測技術(shù)。雷達(dá)探測技術(shù)利用毫米波雷達(dá)[2-6]和激光雷達(dá)[7]實(shí)現(xiàn)目標(biāo)的高精度探測和定位,但雷達(dá)探測存在制造和維護(hù)成本高昂、異物特征信息較少以及信號處理過程復(fù)雜等問題。光學(xué)成像探測技術(shù)分為基于傳統(tǒng)圖像處理的探測技術(shù)和基于深度學(xué)習(xí)的探測技術(shù)?;趥鹘y(tǒng)圖像處理技術(shù)的目標(biāo)檢測擅長從目標(biāo)的顏色特征、幾何特征出發(fā),通過圖像差分[8-9]、小波變換與形態(tài)學(xué)[10]、改進(jìn)區(qū)域生長算法[11]和邊緣特征提?。?2-13]等方法對含有異物的圖像進(jìn)行處理,提取圖像中的異物特征信息再加以識別和分類。傳統(tǒng)圖像處理技術(shù)的實(shí)時性較好,但易受到光照、遮擋、缺陷等環(huán)境因素的影響,成像結(jié)果差異較大,影響目標(biāo)異物的高精度識別與分類?;诰矸e神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)方法在提取復(fù)雜特征時比傳統(tǒng)方法具有更高的魯棒性。目前,深度學(xué)習(xí)目標(biāo)檢測算法分為兩類:區(qū) 域 卷 積 神 經(jīng) 網(wǎng) 絡(luò)[14](Region Convolutional Neural Network,R-CNN)、關(guān)鍵點(diǎn)區(qū)域卷積神經(jīng)網(wǎng) 絡(luò)[15](Keypoint Region Convolutional Neural Network,Keypoint R-CNN)、快速區(qū)域卷積神經(jīng)網(wǎng) 絡(luò)[16](Fast Region Convolutional Neural Network,F(xiàn)ast R-CNN)、Faster R-CNN[17]等基于特征區(qū)域提取和分類器的雙階段算法,以及SSD(Single Shot Multibox Detector)[18]、YOLO(You only Look Once)系列[19-26]等基于回歸的單階段算法。
基于CNN 的異物檢測算法[27]由改進(jìn)區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)和基于空間變換網(wǎng)絡(luò)(Spatial Transformer Networks,STN)的CNN 分類器兩部分構(gòu)成。改進(jìn)RPN 設(shè)計了額外選擇方式,以生成數(shù)量較少的高質(zhì)量候選框,引入STN 層大幅提高螺釘和石頭的識別率。CNN 這種側(cè)重于局部特征信息而忽視全局特征信息的檢測方法會影響異物的定位精度。雙 階 段Faster R-CNN 異 物 檢 測 器[28]在 裂 縫、石塊、金屬和塑料4 個類別識別率達(dá)到71.6%,但RPN 需預(yù)先獲取大量目標(biāo)感興趣區(qū)域,因此長時間網(wǎng)絡(luò)推理導(dǎo)致實(shí)時性較差。改進(jìn)YOLOv3 的FOD 檢測算法[29]采用計算量較低的Darknet-49作為特征提取網(wǎng)絡(luò),將檢測頭數(shù)量增加至4 個,以實(shí)現(xiàn)多尺度特征融合?;隈R爾科夫鏈蒙特卡羅采樣的K-means++算法對邊界框尺寸進(jìn)行聚類后將平均精度提高到86.5%。單階段算法通過網(wǎng)絡(luò)主干直接對目標(biāo)特征進(jìn)行擬合和表征,送入相應(yīng)分支對目標(biāo)位置及類別信息進(jìn)行預(yù)測。實(shí)時性較強(qiáng)的網(wǎng)絡(luò)對目標(biāo)類別及預(yù)測框修正次數(shù)更少,在小目標(biāo)檢測任務(wù)中易因定位不準(zhǔn)確等因素而影響檢測精度。
目前,F(xiàn)OD 檢測研究聚焦于白天自然光環(huán)境下,缺少針對夜間機(jī)場跑道FOD 檢測相關(guān)研究,夜間機(jī)場飛機(jī)起降頻次較低有利于FOD 的檢測和排除。本文提出一種融合自注意力特征嵌入的高精度夜間機(jī)場跑道異物檢測算法(Cross Stage Partial Transformer Network,CSPTNet),該算法采用跨階段局部主干網(wǎng)絡(luò)(Cross Stage Partial Network,CSPNet)提 取 目 標(biāo) 特 征,在CSPNet 末端添加Transformer 模塊,通過特征嵌入和自注意力機(jī)制為特征之間增加關(guān)聯(lián)性并提高全局特征信息獲取能力;在后處理階段引入CIoU 修正定位損失,提高精度并降低計算量,在自建夜間機(jī)場跑道異物檢測數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證算法有效性。針對數(shù)據(jù)集樣本異物尺度較小,特征信息缺乏等問題,引入融合自注意力特征嵌入的Transformer 瓶頸模塊并替換原有瓶頸模塊,提高全局特征和局部特征相關(guān)性,把主干網(wǎng)絡(luò)輸出的特征圖分割成子塊扁平化后與位置編碼進(jìn)行特征嵌入,并將圖像中像素表示轉(zhuǎn)化成向量表示,最后在高維向量空間中捕捉像素間關(guān)系,使得小尺度異物目標(biāo)上下文信息獲得關(guān)聯(lián),增強(qiáng)了模型的表征能力。采用多頭自注意力機(jī)制(Multi-Head Self Attention,MHSA),從4 層并行縮放點(diǎn)積注意力(Scaled Dot-Product Attention,SA)分支子空間中提取不同分支聚合的特征信息,在逐通道拼接特征信息過程中融合全局特征與局部特征信息,豐富了小尺度異物目標(biāo)的特征信息,增強(qiáng)模型針對異物目標(biāo)的擬合能力以提高模型精度。針對夜間環(huán)境照度低且目標(biāo)尺度較小導(dǎo)致輪廓邊緣模糊定位困難等問題,在模型后處理階段引入CIoU 損失函數(shù)計算目標(biāo)間相似度,對預(yù)測框尺寸和中心位置進(jìn)行修正優(yōu)化,以提高模型對異物目標(biāo)輪廓的定位準(zhǔn)確度。
由于夜間機(jī)場跑道場景下具有環(huán)境照度低、異物目標(biāo)尺度小等場景特點(diǎn),且小目標(biāo)異物存在難檢、錯檢以及定位困難等問題。為在小樣本數(shù)據(jù)集上完成夜間機(jī)場跑道異物入侵的實(shí)時準(zhǔn)確檢測,本文基于YOLOv5 檢測網(wǎng)絡(luò)提出一種精度高、泛化能力強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)CSPTNet,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
2.2.1 特征嵌入模塊
原始YOLOv5 模型在瓶頸層處應(yīng)用標(biāo)準(zhǔn)瓶頸模塊[30]由一個1×1 卷積、一個3×3 卷積以及跳躍連接構(gòu)成,其結(jié)構(gòu)如圖2 所示。具有較強(qiáng)靈活性的1×1 卷積層主要用于降低通道數(shù)。當(dāng)膨脹率設(shè)置為0.5 且輸入通道為640 時,經(jīng)過1×1 卷積層之后通道數(shù)變?yōu)?20,3×3 卷積層可用于特定通道數(shù)輸出,操作后參數(shù)量會大幅減少。
由于夜間機(jī)場跑道場景下的異物實(shí)例具有數(shù)量多和目標(biāo)尺度偏小的特點(diǎn),在網(wǎng)絡(luò)結(jié)構(gòu)中使用較多卷積操作會導(dǎo)致目標(biāo)特征信息大量丟失,不利于中小尺度目標(biāo)的精確識別。因此,在使用標(biāo)準(zhǔn)瓶頸模塊效果較差的情況下,本文應(yīng)用具備線性映射的Transformer 代替標(biāo)準(zhǔn)卷積進(jìn)行特征篩選。除此之外,Transformer 模塊對特征圖進(jìn)行位置信息嵌入,保證特征間有效關(guān)聯(lián),采用Transformer 瓶頸模塊能夠?qū)崿F(xiàn)位置信息的有效嵌入和全局特征提取[31]。
特征嵌入模塊將主干網(wǎng)絡(luò)輸出的特征圖劃分成N個P×P×C像素的子塊,通過扁平化操作可以將其轉(zhuǎn)換為N個P2C維向量。為了避免模型結(jié)構(gòu)受到子塊尺寸的影響,采用線性投影將扁平化子塊轉(zhuǎn)換成D維向量,因此輸入特征可變換為N×D的D維嵌入特征,然后與位置嵌入求和并輸入編碼器中。特征嵌入過程如圖2所示。
圖2 瓶頸結(jié)構(gòu)對比Fig.2 Comparison of bottleneck structures
2.2.2 多頭自注意力結(jié)構(gòu)
夜間機(jī)場跑道異物數(shù)據(jù)集圖像目標(biāo)體積小、分布散亂,并且易受環(huán)境變換(如成像角度、光照陰影等)的影響,導(dǎo)致成像結(jié)果較差。因此,在模型骨干網(wǎng)絡(luò)中引入MHSA[32],優(yōu)化模型的特征提取能力,使卷積神經(jīng)網(wǎng)絡(luò)在保持較少時空復(fù)雜度的同時,一方面可以增大網(wǎng)絡(luò)模型對輸入圖像重要區(qū)域的關(guān)注度,另一方面能夠豐富模型對目標(biāo)輪廓細(xì)節(jié)信息的擬合度,從而提高模型在復(fù)雜場景下對密集散亂目標(biāo)的檢測精度。
MHSA 根據(jù)主干網(wǎng)絡(luò)輸出的多尺度特征圖通過線性映射計算Q,K和V,對其應(yīng)用softmax 激活函數(shù)歸一化之后,乘上將輸出結(jié)果輸入多層參數(shù)獨(dú)立的并行SA 分支子空間,最后逐通道拼接各分支輸出的特征圖,通過聚合不同分支特征信息豐富主干網(wǎng)絡(luò)提取的特征空間。
MHSA 允許模型從不同自注意力分支子空間中抽取更加豐富的特征信息,并有效預(yù)防過擬合。SA 和多頭自注意力計算公式如下:
其中:Q表示查詢向量,K表示鍵向量,V表示值向量,ω(·)表示激活函數(shù)softmax(·/dk),Concat表示Pytorch 框架中的拼接操作。
在編碼過程中,層歸一化(Layer Normalization,LN)[33]針對不同樣本計算當(dāng)前所有神經(jīng)元的均值和方差。雖然歸一化操作過程不受樣本批次大小的影響,但是增加了Transformer 模塊的計算復(fù)雜度,使得檢測網(wǎng)絡(luò)訓(xùn)練過程耗時更長。因此,這里應(yīng)用兩個全連接層代替原來的層歸一化,由于全連接Linear 輸入和輸出都是形狀保持不變的二維張量,因此這種替換方法可以在降低計算復(fù)雜度的同時有效地減少樣本批次大小的影響。Transformer 編碼器及MHSA 結(jié)構(gòu)如圖3 所示。
圖3 多頭自注意力結(jié)構(gòu)Fig.3 Multi-head self attention structure
本文數(shù)據(jù)集異物圖像多為中小尺度,其像素面積占比量相較整幅圖像較小,且多數(shù)小目標(biāo)存在邊緣特征模糊、輪廓定位不清晰等問題。圖4(a)和圖4(b)分別表示為像素尺寸為105×110的中等目標(biāo)和15×26 的小目標(biāo)預(yù)測框(紅色)及真實(shí)框(藍(lán)色)擬合示意圖(彩圖見期刊電子版)。假設(shè)預(yù)測框?qū)捀呔c真實(shí)框一致,當(dāng)紅框較藍(lán)框沿X軸和Y軸發(fā)生10 像素偏移,可以計算出中等尺度目標(biāo)平均交并比[34](Intersection over Union,IoU)為0.887,而小尺度目標(biāo)僅為0.531,可知小目標(biāo)預(yù)測框精確性受定位中心擬合準(zhǔn)確性的影響較大。針對上述問題,將YOLOv5 網(wǎng)絡(luò)默認(rèn)的GIoU[35]定 位 損 失 函 數(shù) 替 換 為CIoU[36]定 位 損 失函數(shù),以提高模型對夜間機(jī)場跑道異物的定位精確性。
圖4 真實(shí)框與預(yù)測框的擬合結(jié)果Fig.4 Fitting result of real box and prediction box
為改善定位中心對小目標(biāo)預(yù)測框準(zhǔn)確性影響較大的情況,CIoU 損失通過回歸預(yù)測框和真實(shí)框中心點(diǎn)距離以實(shí)現(xiàn)加速收斂,增加了檢測框尺度以及寬高比損失,實(shí)現(xiàn)了預(yù)測框與真實(shí)框的有效擬合。CIoU 損失的計算公式如下:
應(yīng)用CIoU 損失可以減小夜間機(jī)場跑道異物入侵檢測任務(wù)中出現(xiàn)的目標(biāo)定位誤差,增強(qiáng)預(yù)測框?qū)φ鎸?shí)目標(biāo)框的擬合能力。CIoU 損失示意圖如圖5 所示。
圖5 CIoU 損失示意Fig.5 CIoU loss of signal
根據(jù)芝加哥奧黑爾機(jī)場跑道實(shí)際場景的異物分布情況和深度學(xué)習(xí)對樣本需求的技術(shù)特點(diǎn),設(shè)計并構(gòu)建了夜間機(jī)場跑道異物數(shù)據(jù)集(Night Foreign Object Debris,NFOD)。NFOD 以混凝土和瀝青路面模擬機(jī)場跑道路面,該數(shù)據(jù)集共包含9 種異物:(1)螺母;(2)橡膠塊;(3)機(jī)械扳手;(4)釘子;(5)捆扎材料;(6)螺絲刀;(7)鉗子;(8)樹枝和樹葉;(9)金屬片。
3.1.1 數(shù)據(jù)集建立
本文采用AGV 無人車對模擬夜間真實(shí)環(huán)境下機(jī)場跑道路面進(jìn)行相關(guān)類別異物的圖像采集。圖像采集設(shè)備的工作環(huán)境額定最低照度為0.051 lux,其他參數(shù)如表1 所示。為了保證AGV小車在低照度環(huán)境中正常移動,圖像傳感器正常采集異物圖像,為AGV 無人車上加裝1.2 W LED 光源,其作用面積約為2 m2,普通LED 燈光通量約為75 lm,利用系數(shù)約為0.3,維護(hù)系數(shù)為0.65。平均光照強(qiáng)度為:
表1 LRCP20680_1080P 攝像頭參數(shù)Tab.1 Parameters of LRCP20680_1080P camera
其中:Φ表示光源總光通量,CU表示利用系數(shù),F(xiàn)M表示維護(hù)系數(shù),S表示區(qū)域面積。計算可得:Eav=75 lm×1.2 W×0.3×0.65/2 m2=8.775 lx。由此可知,本文的模擬環(huán)境光照強(qiáng)度與夜間機(jī)場跑道道面環(huán)境相似。
對AGV 小車拍攝的異物圖像進(jìn)行數(shù)據(jù)篩選后最終確定數(shù)據(jù)集的圖像數(shù)量為588 幅。使用Labelme 對包含9 個類的3 230 個實(shí)例目標(biāo)進(jìn)行標(biāo)注,并轉(zhuǎn)化為PASCAL VOC2017 格式標(biāo)注文件。采用Random 庫按照9∶1 的比例將數(shù)據(jù)集隨機(jī)劃分訓(xùn)練集和測試集,分別用于訓(xùn)練模型和驗(yàn)證最終模型的泛化能力。機(jī)場跑道異物圖像示例及標(biāo)注情況如圖6 所示。
圖6 NFOD 數(shù)據(jù)集圖像及標(biāo)注Fig.6 NFOD dataset images and annotations
3.1.2 數(shù)據(jù)集建立
從各類別目標(biāo)的尺度角度分析NFOD 夜間機(jī)場跑道異物入侵?jǐn)?shù)據(jù)集,數(shù)據(jù)集中目標(biāo)寬高尺度分布如圖7 所示。
圖7 目標(biāo)實(shí)例尺度分布Fig.7 Target instance scale distribution
將目標(biāo)尺寸大于96×96 像素的目標(biāo)劃分為大尺度目標(biāo),將32×32~96×96 像素之間的目標(biāo)劃分為中等尺度目標(biāo),將小于32×32 像素的目標(biāo)劃分為小尺度目標(biāo)。從圖8 可以看到,目標(biāo)尺寸主要分布在5×5~80×80 之間,因此,NFOD 夜間機(jī)場跑道異物入侵?jǐn)?shù)據(jù)集主要由中小尺度目標(biāo)構(gòu)成。
本文使用的操作系統(tǒng)為Ubuntu18.04,CPU為 Intel(R) Core(TM) i5-10400F,GPU 為NVIDIA RTX 3060(12G)的計算機(jī)。深度學(xué)習(xí)框架為Pytorch1.8.0、Python 版本為3.7、采用CUDA11.2、cuDNN8.0.5 加速模型訓(xùn)練。
實(shí)驗(yàn)過程中,將輸入圖像尺寸統(tǒng)一為640×640 并將批處理尺寸(Batch_Size)設(shè)置為8。在訓(xùn)練階段設(shè)置迭代次數(shù)為400Epoch、初始學(xué)習(xí)率設(shè)置為0.001,在前5 個Epoch 使用Warmup 學(xué)習(xí)率預(yù)熱的方式從0 逐步增加到預(yù)先設(shè)定的學(xué)習(xí)率,以提高模型損失的收斂速度,5 個Epoch 以后使用余弦退火法對學(xué)習(xí)率進(jìn)行衰減,以保證模型損失收斂的穩(wěn)定性,權(quán)重衰減率設(shè)置為0.000 5。對最后的訓(xùn)練模型精度和推理速度綜合比較后選出最優(yōu)模型。
為驗(yàn)證算法的優(yōu)越性及有效性,本文選取均值平均精度、模型參數(shù)量和每秒檢測幀數(shù)(幀率)3 種評價指標(biāo)來綜合評價算法模型。均值平均準(zhǔn)確率[37](mean Average Precision,mAP)是指在測試集中對各類目標(biāo)檢測精度的平均值,即有:
其中:PAd表示每類的精確率,D表示數(shù)據(jù)集中類別數(shù)目。
每秒檢測幀數(shù)是指模型對測試集中對異物圖像檢測速度的平均值,計算公式如下:
其中:FT表示總幀數(shù),TC表示模型檢測總時間。
航空安全對機(jī)場跑道異物檢測有誤報和漏報的要求。若使用高閾值A(chǔ)P@0.95 可能會導(dǎo)致異物漏檢,而使用低閾值A(chǔ)P@0.5 也可能導(dǎo)致異物誤報,綜合上述情況,使用閾值A(chǔ)P@0.75 來衡量模型性能,即IoU 閾值大于0.75 時的測試AP。
3.4.1 CSPTNet 消融實(shí)驗(yàn)
應(yīng)用K-means 聚類算法對數(shù)據(jù)集標(biāo)注的邊界框(Bounding Box,BBox)尺寸進(jìn)行聚類分析,得到具有固定寬高的初始候選框。預(yù)置候選框先驗(yàn)參數(shù)有助于模型加速收斂并且使模型獲得目標(biāo)尺寸的先驗(yàn)經(jīng)驗(yàn),避免模型在訓(xùn)練時盲目尋找目標(biāo)。初始候選框的框選質(zhì)量也會影響到模型的檢測精度和參數(shù)量。由于YOLOv5 包含3個檢測層,分別對3 個檢測層的不同類別先驗(yàn)框進(jìn)行聚類分析。每個錨點(diǎn)框所對應(yīng)數(shù)值為錨點(diǎn)框的尺寸,從尺寸分布來看,重新聚類后的錨點(diǎn)框參數(shù)集中在5~90 之間,更適合小尺度異物目標(biāo)。聚類前后3 個檢測層的初始候選框尺寸情況如表2 所示。
表2 檢測層的初始候選框尺寸Tab.2 Initial candidate box size of detect layers
采用K-means 聚類算法進(jìn)行實(shí)驗(yàn),如表3 所示,計算最佳候選框尺寸后模型精度達(dá)到83.6%,能有效提高模型的檢測精度,相較于非最優(yōu)候選框平均精度mAP 提高了0.7%,且圖像處理速度也提升了1.4 frame/s,因此驗(yàn)證了初始候選框尺寸先驗(yàn)性對實(shí)驗(yàn)結(jié)果的積極影響。應(yīng)用CIoU 定位損失函數(shù)進(jìn)行實(shí)驗(yàn)分析,由表3 和圖8(a)的實(shí)驗(yàn)結(jié)果可知,YOLOv5 模型采用CIoU 目標(biāo)定位損失函數(shù)后,模型的訓(xùn)練精度相較于GIoU 損失函數(shù)收斂速度更快,收斂曲線的振蕩幅度較小。在測試精度上,CIoU 損失對中小目標(biāo)檢測的優(yōu)化效果較好,在多個小目標(biāo)類別上精度有較大提升,平均測試精度達(dá)到了84.3%,提高了0.7%,驗(yàn)證了應(yīng)用目標(biāo)框?qū)捀弑茸鳛槎ㄎ粨p失懲罰因子的CIoU 損失可以提高模型針對低照度場景下小尺度異物目標(biāo)的定位能力。在添加了融合多頭自注意力與特征嵌入的Transformer 瓶頸模塊進(jìn)行實(shí)驗(yàn)分析,由表3 可知,模型精度提升至88.1%,平均精度提高了3.8%,但是由于增加了多個分支子空間提取特征信息,模型的圖像處理速度下降了4.5 frame/s。
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Result of ablation experiments
3.4.2 自注意力分支子空間數(shù)量參數(shù)優(yōu)化實(shí)驗(yàn)
在YOLOv5-CIoU 模型框架基礎(chǔ)上,對融合自注意力與特征嵌入的Transformer 瓶頸模塊參數(shù)進(jìn)行實(shí)驗(yàn),以獲得最好的模型效果。對比嵌入位置特征信息后,將特征圖輸入不同數(shù)量的分支子空間對Transformer 瓶頸模塊抽取長距離特征信息的影響。在MHSA 模塊中設(shè)置1,2,4,8 和16 個自注意力分支子空間進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示。
由表4 可知,MHSA 中分支子空間的數(shù)量對網(wǎng)絡(luò)表征能力有較大影響。從單個分支增加到4個分支,注意力分支子空間的增加使得網(wǎng)絡(luò)模型能夠從更多獨(dú)立注意力分支子空間中抽取特征信息進(jìn)行長距離建模,以增強(qiáng)對中小目標(biāo)的擬合能力,減少了中小尺度目標(biāo)的特征信息損失,因此異物檢測識別率逐漸上升。而由4 個分支增加到16 個分支的精度變化過程可知,簡單增加分支子空間數(shù)量會使計算復(fù)雜度大幅上升,導(dǎo)致網(wǎng)絡(luò)性能下降,圖像處理速度由41.5 frame/s 降低到20.6 frame/s。由于采用了預(yù)訓(xùn)練模型的訓(xùn)練模式,模型的權(quán)重都為14.4 MB。綜合對比實(shí)驗(yàn)結(jié)果,4 個分支的MHSA 表現(xiàn)最好,檢測精度最高,模型的圖像處理速度也較快,因此將CSPTNet-4Head 作為本文算法的最終模型。
表4 自注意力分支子空間數(shù)量效果對比Tab.4 Comparison of effect of subspace number of self-attentional branches
3.4.3 注意力機(jī)制對比實(shí)驗(yàn)
本文對比Yolov5 框架下不同注意力機(jī)制在圖像處理速度、權(quán)重大小、平均精度以及各類別精度結(jié)果,以驗(yàn)證MHSA 在特征提取能力上的優(yōu)勢,實(shí)驗(yàn)結(jié)果如表5 所示。其中,壓縮激勵注意力(Squeeze and Excitation,SE)、協(xié)調(diào)注意力(Coordinate Attention,CoordAtt)、卷積注意力(Convolutional Block Attention Module,CBAM)、通道注意力(Channel Attention,ChannelAtt)以及有效通道注意力(Effective Channel Attention,ECA)在精度上均有不同程度的下降,SE 精度最低,下降了7.8%,ECA 精度降低最少,下降了0.6%。以上注意力均基于通道信息建模各通道(特征圖)之間的相關(guān)性,通過模型訓(xùn)練獲取各通道的重要程度,以強(qiáng)化重要特征和抑制非重要特征。但由于異物目標(biāo)尺度較小,在獲取特征信息時高權(quán)重通道也包含大量非異物目標(biāo)的冗余信息,影響模型的檢測精度。
表5 注意力機(jī)制對比實(shí)驗(yàn)結(jié)果Tab.5 Comparative experiment results of attention mechanism
空 間 注 意 力(Spatial Attention Module,SAM)在原有精度基礎(chǔ)上提高了1.2%,為每個位置生成權(quán)重掩膜并加權(quán)輸出,從而增強(qiáng)感興趣的特定目標(biāo)區(qū)域并弱化不相關(guān)的背景區(qū)域。在異物目標(biāo)尺度較小而背景區(qū)域較大的情況下,SAM 重點(diǎn)關(guān)注存在異物目標(biāo)的局部區(qū)域,因此能夠提高異物目標(biāo)的檢測精度。
MHSA 的精度最高,達(dá)到88.1%,模型文件最小,僅為14.4 MB,雖然圖像處理速度最慢,為38 frame/s,但也達(dá)到了實(shí)時性標(biāo)準(zhǔn)。MHSA 通過將原始特征圖映射為4 個向量分支,減少外部信息依賴,利用特征內(nèi)部的固有信息進(jìn)行注意力交互。首先,計算Q和K的相關(guān)性權(quán)重矩陣系數(shù);其次,通過軟操作對權(quán)重矩陣進(jìn)行歸一化;最后,再將權(quán)重系數(shù)疊加到Value 上,以實(shí)現(xiàn)上下文信息的建模,有效地捕獲長距離的特征依賴。在多個獨(dú)立特征空間獲取特征信息之后進(jìn)行拼接,豐富異物目標(biāo)的特征信息,保證模型的檢測效果。
3.4.4 自注意力特征嵌入瓶頸模塊實(shí)驗(yàn)
在CSPTNet 最終模型基礎(chǔ)上對比其他普通瓶頸模塊,以驗(yàn)證Transformer 特征嵌入和MHSA 融合的有效性。本組實(shí)驗(yàn)在上述網(wǎng)絡(luò)模型框架的基礎(chǔ)上,添加不同瓶頸模塊的模型進(jìn)行性能對比。對比實(shí)驗(yàn)中,應(yīng)用的瓶頸模塊除自注意力特征嵌入瓶頸模塊外,還有標(biāo)準(zhǔn)BottleNeck,CSPBottleNeck,GhostBottleNeck,精度對比結(jié)果如表6 所示。
表6 瓶頸模塊效果對比Tab.6 Effect comparison of bottleneck modules
由表6 可知,融合自注意力特征嵌入的Transformer 瓶頸模塊相比于標(biāo)準(zhǔn)BottleNeck、CSPBottleNeck 和GhostBottleNeck 具 備 更 好 的小尺度目標(biāo)檢測性能,權(quán)重大小相似,但是檢測速度稍差一些。Transformer 瓶頸模塊通過位置信息嵌入和MHSA 提高上下文信息的相關(guān)性,獲取更加豐富的目標(biāo)特征信息,提高了模型的定位和檢測識別能力。CSPTNet 最終的測試精度可達(dá)88.1%,與標(biāo)準(zhǔn)瓶頸模塊相比,提升了5.7%。不同BottleNeck 模塊訓(xùn)練精度過程的可視化如圖8(c)所示。
3.4.5 不同網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對比
選擇基于單階段目標(biāo)檢測的YOLOv5,YOLOx,YOLOv3,YOLOv3-tiny,TOOD[38]和VarifocalNet[39]算法以及雙階段目標(biāo)檢測的Sparse RCNN[40]和Faster R-CNN 算法與本文模型進(jìn)行對比,以客觀評價CSPTNet 模型對夜間機(jī)場跑道異物檢測任務(wù)的優(yōu)越性。為保證實(shí)驗(yàn)結(jié)果的有效性,在同一配置設(shè)備上開展實(shí)驗(yàn)并使用同一數(shù)據(jù)集,算法性能對比如表7 所示,可視化過程如圖8(d)所示。
圖8 mAP 可視化結(jié)果Fig.8 Visualization results of mean average precision
由表7 可知,CSPTNet 在9 個異物類別上的平均精度達(dá)到88.1%,超過經(jīng)典檢測算法YOLOv3 和Faster R-CNN 以及最新提出的YOLOx,TOOD 和VarifocalNet、Sparse R-CNN 算法。本文算法在保持38 frame/s 的實(shí)時性基礎(chǔ)上,相比其他網(wǎng)絡(luò)大幅降低了模型參數(shù)量,并且在多個異物類別上的檢測識別準(zhǔn)確率達(dá)到90%以上。綜上所述,夜間機(jī)場跑道異物檢測任務(wù)需要同時權(quán)衡模型平均檢測精度、檢測速度和模型權(quán)重,因此CSPTNet 模型的魯棒性更好,更適用于夜間機(jī)場跑道異物入侵檢測任務(wù)。
表7 模型效果對比Tab.7 Comparison of model effects
由上述對比實(shí)驗(yàn)可知,在NFOD 夜間機(jī)場跑道異物入侵?jǐn)?shù)據(jù)集上,本文提出的算法能夠有效提高模型對中小目標(biāo)的識別精度。與原始YOLOv5 模型相比,精度和泛化能力上均有一定程度的提升,并且未增加額外參數(shù)量,在引入CIoU損失函數(shù)后網(wǎng)絡(luò)的訓(xùn)練收斂速度和精度也有一定提升。因此,本文提出的改進(jìn)算法符合預(yù)期結(jié)果,測試圖像如圖9 所示。
由圖9 可以看出,像素面積占比較小的目標(biāo)邊緣特征較為模糊,導(dǎo)致網(wǎng)絡(luò)對目標(biāo)的定位誤差增大,分類置信度降低。本文針對小目標(biāo)的改進(jìn)算法能有效降低模型的漏檢率,在定位精確性和分類置信度上均有較大提升。
圖9 檢測結(jié)果可視化Fig.9 Test result visualization
圖10(b)是本文算法輸出特征圖的可視化結(jié)果,相比圖10(a)的YOLOv5 輸出特征圖,添加了特征嵌入和MHSA 的網(wǎng)絡(luò)模型在中小尺度目標(biāo)周圍形成更多關(guān)注區(qū)域,異物目標(biāo)的空間位置特征和其他特征關(guān)聯(lián)性增強(qiáng),有利于小尺度目標(biāo)的檢測。
圖10 特征圖可視化結(jié)果Fig.10 Visualization of characteristic image
本文針對夜間機(jī)場跑道異物入侵小尺度目標(biāo)檢測需求,提出一種融合自注意力特征嵌入的異物檢測模型CSPTNet。通過引入融合自注意力特征嵌入的Transformer 瓶頸模塊,經(jīng)過位置信息特征嵌入和MHSA 融合不同分支子空間的長距離特征信息建模,強(qiáng)化了模型對中小尺度目標(biāo)上下文信息獲取能力,改善了中小尺度目標(biāo)的特征信息缺乏的問題。針對小目標(biāo)像素占比低和邊緣特征模糊等問題,引入CIOU 損失函數(shù)對定位損失進(jìn)行修正,以提高模型對目標(biāo)中心定位準(zhǔn)確性。經(jīng)過實(shí)驗(yàn)驗(yàn)證,本文算法能有效提高螺釘?shù)? 類中小尺度目標(biāo)的檢測精度,mAP 平均精度達(dá)到88.1%,較原始網(wǎng)絡(luò)模型提高5.2%,并且CSPTNet 的最高檢測速度可達(dá)38 frame/s,能夠滿足實(shí)時檢測要求。實(shí)驗(yàn)結(jié)果表明,CSPTNet針對夜間場景具有更好的檢測效果。
夜間場景下非規(guī)則形狀小尺度異物的檢測難度更高,非規(guī)則異物相較規(guī)則異物形狀特征更豐富,但在低照度環(huán)境下邊緣形狀輪廓信息會受到更多干擾,并且檢測過程容易受到CNN 幾何建模能力限制,影響網(wǎng)絡(luò)模型的定位準(zhǔn)確性。非規(guī)則小尺度異物的檢測可以從可變形卷積方向考慮,標(biāo)準(zhǔn)卷積中規(guī)則格點(diǎn)采樣會導(dǎo)致模型難以適應(yīng)幾何形變,而可變形卷積為卷積核中每個采樣點(diǎn)位置增加偏移變量,動態(tài)調(diào)整大小和位置適應(yīng)不同尺寸和形狀的幾何形變,實(shí)現(xiàn)格點(diǎn)周圍的自適應(yīng)采樣。后續(xù)研究工作將繼續(xù)關(guān)注機(jī)場跑道小尺度異物類別精度的提高,為機(jī)場跑道異物智能檢測提供更準(zhǔn)確的識別和定位信息并減少誤報和漏報。