基于YOLOv4 的紅外多波段圖像目標(biāo)檢測算法*

2023-12-09 08:50:40陳韋學(xué)劉志成趙朝陽王金橋

計算機與數(shù)字工程 2023年9期

關(guān)鍵詞：波段紅外模態(tài)

陳韋學(xué) 朱猛劉志成趙旭趙朝陽尹彤王金橋

（1.天津津航技術(shù)物理研究所天津 300308）

（2.中國科學(xué)院自動化研究所北京 100190）

（3.空軍裝備部駐北京地區(qū)軍事代表局天津 300074）

1 引言

目標(biāo)檢測是計算機視覺和遙感圖像分析的一項基本任務(wù)，被大量應(yīng)用于民用和軍事領(lǐng)域，包括醫(yī)療診斷、自動車輛導(dǎo)航、搜索和救援行動等。傳統(tǒng)的目標(biāo)檢測算法依賴于從圖像中提取手工設(shè)計的特征作為算法的輸入，之后該算法執(zhí)行目標(biāo)的分類與精細(xì)定位。該類方法采用的手工特征對圖像的表達能力不足，泛化能力較弱。近年來，基于深度學(xué)習(xí)的方法以大量的訓(xùn)練數(shù)據(jù)為基礎(chǔ)，端對端提取高階語義特征，從而充分表達目標(biāo)，極大地提升了目標(biāo)檢測的精度。

在遙感領(lǐng)域，不同類型的傳感器（視覺、近紅外、短波、中波和長波紅外、紫外線等）技術(shù)在計算機視覺領(lǐng)域取得了重大進展，為解決遙感目標(biāo)檢測任務(wù)創(chuàng)造了新的可能性。同時，在某些場景下，環(huán)境信息的復(fù)雜性與語義信息的豐富性，使得很少有單一模態(tài)的數(shù)據(jù)能夠提供對檢測目標(biāo)的完整理解。若能夠建立不同模式數(shù)據(jù)之間的關(guān)系，在對象識別過程中涉及新模式的信息可以提高識別質(zhì)量［1］。

在遙感圖像的目標(biāo)檢測領(lǐng)域，目前以可見光與單波段紅外圖像的多模態(tài)融合為主，但可見光圖像在煙霧、黑暗條件下的成像效果差［2］，具體表現(xiàn)為物體輪廓不清晰，特征信息丟失，使得檢測任務(wù)無法適應(yīng)不同的光照條件［3］。因此，為了充分研究其他波段信息的實用價值，本文摒棄了可見光波段的成像特性，并使用不同波段的紅外圖像，且提出了相對應(yīng)的圖像融合算法，本文的主要貢獻如下：

1）依托本實驗室采集的豐富場景下的紅外多波段圖像數(shù)據(jù)，本文將同一場景下的短、中、長波段的圖像數(shù)據(jù)進行整合、標(biāo)注，構(gòu)建多波段目標(biāo)檢測數(shù)據(jù)集。

2）提出了基于YOLOv4 的網(wǎng)絡(luò)模型的像素級紅外圖像融合方法，來充分發(fā)揮神經(jīng)網(wǎng)絡(luò)共享計算的特性，從而實現(xiàn)目標(biāo)識別過程中對多源信息的利用，又保證較高的計算效率。

2 相關(guān)工作

2.1 目標(biāo)檢測算法發(fā)展現(xiàn)狀

傳統(tǒng)模式的目標(biāo)檢測算法基本上是在特定的候選區(qū)域，使用特征提取方法進行目標(biāo)的識別。常用的傳統(tǒng)特征提取方法有SIFT［4］、HOG［5］、Haar［6］等。在某些特定的任務(wù)中，這些方法能夠有效地表征圖像信息，但其在某些復(fù)雜場景難以做到精確描述，具有一定的局限性。

由于深度學(xué)習(xí)理論的快速發(fā)展，目標(biāo)檢測與識別技術(shù)在此基礎(chǔ)上也取得了很大進步。目前基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩類。一類是通過生成候選區(qū)域進行檢測的雙階段算法，主要包括R-CNN［7］，F(xiàn)ast R-CNN［8］，F(xiàn)aster R-CNN［9］系列。其中，F(xiàn)aster R-CNN 屬于R-CNN 和Fast R-CNN 的迭代版本，在網(wǎng)絡(luò)結(jié)構(gòu)上將特征抽取、候選區(qū)域提取、bounding box 的回歸以及類別預(yù)測匯總到了一個網(wǎng)絡(luò)中，使得其性能得到了較大提升。另一類目標(biāo)檢測方法是基于直接回歸進行目標(biāo)檢測的單階段算法，以YOLO［10］、YOLOv2［11］、YOLOv3［12］、YOLOv4［13］和SSD［14］算法為代表，具有實時的圖像處理能力。

2.2 多模態(tài)目標(biāo)檢測算法

在遙感圖像領(lǐng)域，用于目標(biāo)檢測任務(wù)的高光譜圖像、合成孔徑雷達（SAR）圖像和紅外圖像等模態(tài)信息得到了廣泛應(yīng)用，每種模態(tài)都有其信息獨特性。若有效利用不同模態(tài)之間的信息互補性，則能夠給整體帶來某種類型的附加價值，使多種形態(tài)的數(shù)據(jù)融合成為了可能［15］。在文獻［16］中，作者使用RGB+T（熱通道）的方式進行多模態(tài)數(shù)據(jù)融合，使用T 通道替換RGB 中的某一通道，生成TGB、RTB 和RGT三種模式的圖像，并對其進行篩選以得到最優(yōu)解；在文獻［17～18］中，作者利用可見光與單波紅外遙感圖像，在YOLOv3 的架構(gòu)上，提出了針對這兩種模態(tài)的特征級融合與像素級融合兩種方式，并通過實驗驗證，其準(zhǔn)確率有了一定程度的提升；在文獻［19］中，作者利用YOLOv2 網(wǎng)絡(luò)，研究了RGB 和深度模態(tài)數(shù)據(jù)的最優(yōu)融合點，并成功應(yīng)用于行人檢測。

2.3 多波段目標(biāo)檢測算法

目前最先進的多模態(tài)目標(biāo)檢測算法，大多選擇可見光（RGB）模態(tài)與其他模態(tài)的數(shù)據(jù)融合方式，從而拓展RGB 圖像的能力，并取得了不錯的效果，但其在大霧、夜間等場景有很大的局限性。因此，本文拋棄了可見光波段的圖像數(shù)據(jù)，只使用紅外模態(tài)的數(shù)據(jù)，并利用不同紅外波段數(shù)據(jù)攜帶的差異性信息，結(jié)合YOLOv4 網(wǎng)絡(luò)，引入一個卷積神經(jīng)網(wǎng)絡(luò)框架，實現(xiàn)了多波段紅外信息的像素級融合。為了驗證算法的有效性，本文選擇了短、中、長波不同波長信息的組合方式，進行大量對比實驗，本文的實驗結(jié)果驗證了與單波段相比，多波段數(shù)據(jù)融合算法能夠有效利用各個波段的差異性信息，具有較大的優(yōu)勢。

3 多波段數(shù)據(jù)集介紹

本次實驗所構(gòu)建的數(shù)據(jù)集，為紅外遙感數(shù)據(jù)集，包括短、中、長三個波段不同波長紅外相機采集的數(shù)據(jù)。不同波段相機采集的原始圖像存在目標(biāo)位置信息不匹配的問題，本文使用基于慣導(dǎo)信息的矯正方法，對同一場景的數(shù)據(jù)進行對齊操作，使目標(biāo)的位置精度得到了保證；同時采集圖像的空間分辨率非常大，不滿足常見硬件設(shè)備對網(wǎng)絡(luò)輸入大小的要求，本文對其進行裁剪，最終構(gòu)建了多波段目標(biāo)檢測數(shù)據(jù)集。

數(shù)據(jù)集標(biāo)注目標(biāo)為車輛，其背景包括城區(qū)、道路、樹林和村莊等，背景信息較為復(fù)雜?，F(xiàn)有數(shù)據(jù)集包括2203 張具備完整7 個譜段的分辨率為640×512的圖像。圖像采集的波段信息如表1所示。

表1 紅外圖像的波段信息

表1 對不同紅外波段的波長進行了說明，從中能夠看出，數(shù)據(jù)集的數(shù)據(jù)包括短波波段、中波和長波波段數(shù)據(jù)。本文在中波的波長范圍內(nèi)挑選兩個子波段，長波的波長范圍內(nèi)挑選四個子波段，來構(gòu)建數(shù)據(jù)集。短波中的近紅外波段具有可視性，只用來進行目標(biāo)的輔助標(biāo)注工作，模型的訓(xùn)練由短、中、長波數(shù)據(jù)完成。

4 融合算法闡述

4.1 多波段融合

多波段目標(biāo)檢測算法以YOLOv4 框架為基礎(chǔ)，由于傳感器的輸出圖像為同一場景的不同波段的遙感數(shù)據(jù)，本文首先根據(jù)先驗知識來保證這幾個通道相互對齊，之后，根據(jù)實驗所需要的波段需求進行篩選，得到理想的譜段組合方式。由于需要實現(xiàn)多維度數(shù)據(jù)的輸入，本文將算法的第一個卷積層進行了修改，使其能夠自適應(yīng)地滿足多個維度的圖像數(shù)據(jù)的輸入，并兼容任意譜段數(shù)據(jù)通道的數(shù)量，實現(xiàn)不同數(shù)量的譜段組合的實驗方式。

對植物體的標(biāo)記方法有： ①“植物營養(yǎng)室”培養(yǎng)法。在密閉的植物營養(yǎng)室中，通入放射性氣體供植物進行光合作用。②植物地上部引入法。將示蹤劑配制成濃度合適的溶液，通過涂抹、噴霧、注射等方法將示蹤劑從植物的地上部引入植物體內(nèi)。③植物根部引入法。即將示蹤劑加入栽培介質(zhì)如水、沙、土等，供給植物生長。

圖1 為多波段目標(biāo)檢測算法的方法框架圖。從圖中可以看出，該模型的輸入為多個波段的圖像組合，本文將其組合為多維度的數(shù)據(jù)模型，之后將其送入目標(biāo)檢測網(wǎng)絡(luò)，得到最終的檢測結(jié)果。在圖像的預(yù)處理階段，本文需要將多個組合的圖像信息進行融合，如式（1）、（2）所示：

圖1 多波段目標(biāo)檢測融合算法框架

其中，F(xiàn)為目標(biāo)檢測神經(jīng)網(wǎng)絡(luò)，I…IN為不同波段的圖像數(shù)據(jù)，concatinate 為拼合操作，此方法能夠使圖像保持原有的通道數(shù)，并實現(xiàn)不同波段圖像的橫向拼接，以滿足圖像的輸入需求。在訓(xùn)練時，訓(xùn)練數(shù)據(jù)為上述拼合操作產(chǎn)生的多波段圖像，圖像的標(biāo)注工作則在近紅外圖像上完成，并映射到短、中、長三個波段。

為了保證各個波段數(shù)據(jù)在數(shù)據(jù)擴增后的空間一致性，本文設(shè)計了并聯(lián)分治的擴增方式。本文沿用了YOLOv4 的Mixup［20］、Mosaic［21］等數(shù)據(jù)增強方式，并增加了隨機角度旋轉(zhuǎn)的數(shù)據(jù)擴增方式。之后采用并聯(lián)分治的方法，使每個波段的信息使用一致的參數(shù)進行數(shù)據(jù)增強，從而確保不同紅外波段圖像的信息一致性。

在式（3）中，split 為組合圖像的拆分操作，在式（4）中，DAt代表第t個數(shù)據(jù)增強策略，本文對同一場景的不同波段數(shù)據(jù)使用相同參數(shù)進行數(shù)據(jù)增強，在式（5）中，concatinate 將多波段數(shù)據(jù)在深度方向上進行疊加，為最終生成多維度的譜段圖像數(shù)據(jù)，本文將此多維度圖像送入檢測模型。在多譜段目標(biāo)識別模型的訓(xùn)練階段，數(shù)據(jù)擴增的每步都進行上述公式中表示的并聯(lián)分治增強方式，以保持譜段數(shù)據(jù)對齊。

4.2 網(wǎng)絡(luò)輸出

本文將圖像的三個輸出特征層分割為若干個搜索單元，并在其中單獨地進行目標(biāo)搜索。對于每一個搜索單元，多波段目標(biāo)融合算法能夠預(yù)測出3個目標(biāo)框，每一個目標(biāo)框返回一個輸出的特征向量：

在式（6）中，與為預(yù)測目標(biāo)框相對于當(dāng)前搜索單元的中心坐標(biāo)系數(shù)，tw與t?表示預(yù)測目標(biāo)框的高度與寬度系數(shù)。o來表達預(yù)測框的置信度得分，p1表示為此目標(biāo)為車輛目標(biāo)的概率。

接下來，本文要根據(jù)上述預(yù)測參數(shù)回歸計算預(yù)測邊界框的中心坐標(biāo)、寬度和高度。這時本文引入已經(jīng)設(shè)計好的anchor box 的信息，用ax和ay表示此搜索單元的寬度和高度（從圖像的左上角開始計算），用aw和a?表示此anthor box 的寬度和高度，最終，預(yù)測框的中心坐標(biāo)表示為x=σ(tx)+ax，y=σ(ty)+ay。其寬度為w=awexp(tw) ，高度為?=a?exp(t?)。

5 實驗與分析

本文的實驗是基于YOLOv4 目標(biāo)檢測框架進行的，使用了本位構(gòu)建的多波段目標(biāo)檢測數(shù)據(jù)集。具體來說，本文按照5∶1 的比例將數(shù)據(jù)集進行分割，1835組圖像用于訓(xùn)練，368組圖像用于測試。

5.1 單波段目標(biāo)檢測結(jié)果

在模型的訓(xùn)練階段，本文訓(xùn)練了300 個epochs，通過這一過程，本文對一系列的超參數(shù)進行評估，以測試模型的性能。

為了測試單波段數(shù)據(jù)的表現(xiàn)，本文首先使用紅外單波段圖像進行訓(xùn)練，從表2 中可以看出，中波波段的性能最好，其中，中波1 波段的mAP 達到了0.6995，為表現(xiàn)最好的波段。對于長波的四個波段而言，長波4波段的表現(xiàn)最差，其他波段與中波1相比性能會降低4%～9%左右。短波紅外波段的準(zhǔn)確率、召回率和平均精度則低于其他波段，表現(xiàn)不佳。為了有效提高目標(biāo)檢測模型性能，本文使用多波段融合算法進行訓(xùn)練，得到多波段模型。

表2 單紅外波段模型評測結(jié)果

5.2 多波段目標(biāo)檢測結(jié)果

本文使用多波段數(shù)據(jù)融合算法，構(gòu)建了相對應(yīng)波段的融合模型，本節(jié)將其與單波段數(shù)據(jù)的訓(xùn)練結(jié)果進行對比，并將不同波段組合得到的mAP 繪制在了表3中，由于7個波段的波段組合很多，結(jié)果無法一一列舉，本文挑選了幾個波段并展示其實驗結(jié)果。

表3 中波1、長波1、長波1波段交叉實驗評測結(jié)果

表3 對波段融合數(shù)據(jù)的結(jié)果進行定量分析。從表中可以看出，雙波段的準(zhǔn)確率、召回率和mAP都有5%～10%左右的提升，而三個波段數(shù)據(jù)的融合結(jié)果相較于雙波段其mAP 增長了4%，達到0.7858。另外，上表中也列出了全部七個波段的數(shù)據(jù)融合訓(xùn)練結(jié)果，其mAP 為0.7902，而三波段數(shù)據(jù)融合mAP分別為0.7858，性能提升為0.0044?？梢钥闯?，隨著加入波段的增加，其檢測性能在逐步提升，但是此實驗結(jié)果表明，波段數(shù)量由三個增加到了七個，其mAP 的提升幅度卻非常小，說明圖像包含的冗余信息也隨著數(shù)據(jù)量的增加而增加，正向信息的利用率有所降低，導(dǎo)致多波段數(shù)融合的性能提升緩慢。

5.3 不同波段目標(biāo)檢測結(jié)果可視化分析

本文使用不同波段組合的訓(xùn)練模型進行目標(biāo)檢測，并將兩張圖片的檢測結(jié)果繪制在圖2 和圖3中。為了準(zhǔn)確觀察目標(biāo)車輛的位置信息，圖（a）中的輸入圖像表示兩張待檢測圖像所對應(yīng)的近紅外波段示意圖（實際送入網(wǎng)絡(luò)的圖像為相應(yīng)短、中、長波的紅外圖像），可以觀察到，第一張圖片在右半部分存在四個車輛目標(biāo)，第二張圖片在下半部分存在三個車輛目標(biāo)。

圖2 單波段模型目標(biāo)檢測結(jié)果

圖3 多波段模型目標(biāo)檢測結(jié)果

圖2 為單波段紅外圖像可視化檢測結(jié)果，中波1 波段的模型在第一張圖片存在一個車輛目標(biāo)的誤檢，在第二張圖片中表現(xiàn)良好。而長波1 波段在這兩張圖片的檢測結(jié)果不佳，檢測結(jié)果大部分為漏檢和誤檢信息；圖3 為上述兩張圖像的多波段模型檢測結(jié)果，從圖中可以看出，雙波段融合與三波段融合都能夠正確檢測出目標(biāo)的位置信息，不存在中波1 和長波1 波段的錯誤檢測。檢測結(jié)果說明，相較于單波段模型，紅外多波段融合算法能夠提高目標(biāo)檢測的準(zhǔn)確率，并且算法有能力在保證一定準(zhǔn)確率的前提下處理人眼無法辨認(rèn)的各波段數(shù)據(jù)。

6 結(jié)語

我們結(jié)合現(xiàn)有的多波段紅外數(shù)據(jù)集，提出了一種基于YOLOv4 框架的圖像數(shù)據(jù)融合的目標(biāo)檢測算法，此方法使用多波段圖像并聯(lián)輸入、單波段圖像統(tǒng)一增強的思想保證了紅外多波段數(shù)據(jù)增強的一致性。實驗結(jié)果表明，其克服了光照條件的影響，mAP 提升了10%以上，有效提高了模型的檢測性能。若在此基礎(chǔ)上能夠定量地對每個波段的貢獻程度進行分析，則能夠有效提高多源信息的利用率，使模型更加精煉。