陳韋學(xué) 朱 猛 劉志成 趙 旭 趙朝陽 尹 彤 王金橋
(1.天津津航技術(shù)物理研究所 天津 300308)
(2.中國科學(xué)院自動化研究所 北京 100190)
(3.空軍裝備部駐北京地區(qū)軍事代表局 天津 300074)
目標(biāo)檢測是計算機視覺和遙感圖像分析的一項基本任務(wù),被大量應(yīng)用于民用和軍事領(lǐng)域,包括醫(yī)療診斷、自動車輛導(dǎo)航、搜索和救援行動等。傳統(tǒng)的目標(biāo)檢測算法依賴于從圖像中提取手工設(shè)計的特征作為算法的輸入,之后該算法執(zhí)行目標(biāo)的分類與精細(xì)定位。該類方法采用的手工特征對圖像的表達能力不足,泛化能力較弱。近年來,基于深度學(xué)習(xí)的方法以大量的訓(xùn)練數(shù)據(jù)為基礎(chǔ),端對端提取高階語義特征,從而充分表達目標(biāo),極大地提升了目標(biāo)檢測的精度。
在遙感領(lǐng)域,不同類型的傳感器(視覺、近紅外、短波、中波和長波紅外、紫外線等)技術(shù)在計算機視覺領(lǐng)域取得了重大進展,為解決遙感目標(biāo)檢測任務(wù)創(chuàng)造了新的可能性。同時,在某些場景下,環(huán)境信息的復(fù)雜性與語義信息的豐富性,使得很少有單一模態(tài)的數(shù)據(jù)能夠提供對檢測目標(biāo)的完整理解。若能夠建立不同模式數(shù)據(jù)之間的關(guān)系,在對象識別過程中涉及新模式的信息可以提高識別質(zhì)量[1]。
在遙感圖像的目標(biāo)檢測領(lǐng)域,目前以可見光與單波段紅外圖像的多模態(tài)融合為主,但可見光圖像在煙霧、黑暗條件下的成像效果差[2],具體表現(xiàn)為物體輪廓不清晰,特征信息丟失,使得檢測任務(wù)無法適應(yīng)不同的光照條件[3]。因此,為了充分研究其他波段信息的實用價值,本文摒棄了可見光波段的成像特性,并使用不同波段的紅外圖像,且提出了相對應(yīng)的圖像融合算法,本文的主要貢獻如下:
1)依托本實驗室采集的豐富場景下的紅外多波段圖像數(shù)據(jù),本文將同一場景下的短、中、長波段的圖像數(shù)據(jù)進行整合、標(biāo)注,構(gòu)建多波段目標(biāo)檢測數(shù)據(jù)集。
2)提出了基于YOLOv4 的網(wǎng)絡(luò)模型的像素級紅外圖像融合方法,來充分發(fā)揮神經(jīng)網(wǎng)絡(luò)共享計算的特性,從而實現(xiàn)目標(biāo)識別過程中對多源信息的利用,又保證較高的計算效率。
傳統(tǒng)模式的目標(biāo)檢測算法基本上是在特定的候選區(qū)域,使用特征提取方法進行目標(biāo)的識別。常用的傳統(tǒng)特征提取方法有SIFT[4]、HOG[5]、Haar[6]等。在某些特定的任務(wù)中,這些方法能夠有效地表征圖像信息,但其在某些復(fù)雜場景難以做到精確描述,具有一定的局限性。
由于深度學(xué)習(xí)理論的快速發(fā)展,目標(biāo)檢測與識別技術(shù)在此基礎(chǔ)上也取得了很大進步。目前基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩類。一類是通過生成候選區(qū)域進行檢測的雙階段算法,主要包括R-CNN[7],F(xiàn)ast R-CNN[8],F(xiàn)aster R-CNN[9]系列。其中,F(xiàn)aster R-CNN 屬于R-CNN 和Fast R-CNN 的迭代版本,在網(wǎng)絡(luò)結(jié)構(gòu)上將特征抽取、候選區(qū)域提取、bounding box 的回歸以及類別預(yù)測匯總到了一個網(wǎng)絡(luò)中,使得其性能得到了較大提升。另一類目標(biāo)檢測方法是基于直接回歸進行目標(biāo)檢測的單階段算法,以YOLO[10]、YOLOv2[11]、YOLOv3[12]、YOLOv4[13]和SSD[14]算法為代表,具有實時的圖像處理能力。
在遙感圖像領(lǐng)域,用于目標(biāo)檢測任務(wù)的高光譜圖像、合成孔徑雷達(SAR)圖像和紅外圖像等模態(tài)信息得到了廣泛應(yīng)用,每種模態(tài)都有其信息獨特性。若有效利用不同模態(tài)之間的信息互補性,則能夠給整體帶來某種類型的附加價值,使多種形態(tài)的數(shù)據(jù)融合成為了可能[15]。在文獻[16]中,作者使用RGB+T(熱通道)的方式進行多模態(tài)數(shù)據(jù)融合,使用T 通道替換RGB 中的某一通道,生成TGB、RTB 和RGT三種模式的圖像,并對其進行篩選以得到最優(yōu)解;在文獻[17~18]中,作者利用可見光與單波紅外遙感圖像,在YOLOv3 的架構(gòu)上,提出了針對這兩種模態(tài)的特征級融合與像素級融合兩種方式,并通過實驗驗證,其準(zhǔn)確率有了一定程度的提升;在文獻[19]中,作者利用YOLOv2 網(wǎng)絡(luò),研究了RGB 和深度模態(tài)數(shù)據(jù)的最優(yōu)融合點,并成功應(yīng)用于行人檢測。
目前最先進的多模態(tài)目標(biāo)檢測算法,大多選擇可見光(RGB)模態(tài)與其他模態(tài)的數(shù)據(jù)融合方式,從而拓展RGB 圖像的能力,并取得了不錯的效果,但其在大霧、夜間等場景有很大的局限性。因此,本文拋棄了可見光波段的圖像數(shù)據(jù),只使用紅外模態(tài)的數(shù)據(jù),并利用不同紅外波段數(shù)據(jù)攜帶的差異性信息,結(jié)合YOLOv4 網(wǎng)絡(luò),引入一個卷積神經(jīng)網(wǎng)絡(luò)框架,實現(xiàn)了多波段紅外信息的像素級融合。為了驗證算法的有效性,本文選擇了短、中、長波不同波長信息的組合方式,進行大量對比實驗,本文的實驗結(jié)果驗證了與單波段相比,多波段數(shù)據(jù)融合算法能夠有效利用各個波段的差異性信息,具有較大的優(yōu)勢。
本次實驗所構(gòu)建的數(shù)據(jù)集,為紅外遙感數(shù)據(jù)集,包括短、中、長三個波段不同波長紅外相機采集的數(shù)據(jù)。不同波段相機采集的原始圖像存在目標(biāo)位置信息不匹配的問題,本文使用基于慣導(dǎo)信息的矯正方法,對同一場景的數(shù)據(jù)進行對齊操作,使目標(biāo)的位置精度得到了保證;同時采集圖像的空間分辨率非常大,不滿足常見硬件設(shè)備對網(wǎng)絡(luò)輸入大小的要求,本文對其進行裁剪,最終構(gòu)建了多波段目標(biāo)檢測數(shù)據(jù)集。
數(shù)據(jù)集標(biāo)注目標(biāo)為車輛,其背景包括城區(qū)、道路、樹林和村莊等,背景信息較為復(fù)雜?,F(xiàn)有數(shù)據(jù)集包括2203 張具備完整7 個譜段的分辨率為640×512的圖像。圖像采集的波段信息如表1所示。
表1 紅外圖像的波段信息
表1 對不同紅外波段的波長進行了說明,從中能夠看出,數(shù)據(jù)集的數(shù)據(jù)包括短波波段、中波和長波波段數(shù)據(jù)。本文在中波的波長范圍內(nèi)挑選兩個子波段,長波的波長范圍內(nèi)挑選四個子波段,來構(gòu)建數(shù)據(jù)集。短波中的近紅外波段具有可視性,只用來進行目標(biāo)的輔助標(biāo)注工作,模型的訓(xùn)練由短、中、長波數(shù)據(jù)完成。
多波段目標(biāo)檢測算法以YOLOv4 框架為基礎(chǔ),由于傳感器的輸出圖像為同一場景的不同波段的遙感數(shù)據(jù),本文首先根據(jù)先驗知識來保證這幾個通道相互對齊,之后,根據(jù)實驗所需要的波段需求進行篩選,得到理想的譜段組合方式。由于需要實現(xiàn)多維度數(shù)據(jù)的輸入,本文將算法的第一個卷積層進行了修改,使其能夠自適應(yīng)地滿足多個維度的圖像數(shù)據(jù)的輸入,并兼容任意譜段數(shù)據(jù)通道的數(shù)量,實現(xiàn)不同數(shù)量的譜段組合的實驗方式。
對植物體的標(biāo)記方法有: ①“植物營養(yǎng)室”培養(yǎng)法。在密閉的植物營養(yǎng)室中,通入放射性氣體供植物進行光合作用。②植物地上部引入法。將示蹤劑配制成濃度合適的溶液,通過涂抹、噴霧、注射等方法將示蹤劑從植物的地上部引入植物體內(nèi)。③植物根部引入法。即將示蹤劑加入栽培介質(zhì)如水、沙、土等,供給植物生長。
圖1 為多波段目標(biāo)檢測算法的方法框架圖。從圖中可以看出,該模型的輸入為多個波段的圖像組合,本文將其組合為多維度的數(shù)據(jù)模型,之后將其送入目標(biāo)檢測網(wǎng)絡(luò),得到最終的檢測結(jié)果。在圖像的預(yù)處理階段,本文需要將多個組合的圖像信息進行融合,如式(1)、(2)所示:
圖1 多波段目標(biāo)檢測融合算法框架
其中,F(xiàn)為目標(biāo)檢測神經(jīng)網(wǎng)絡(luò),I…IN為不同波段的圖像數(shù)據(jù),concatinate 為拼合操作,此方法能夠使圖像保持原有的通道數(shù),并實現(xiàn)不同波段圖像的橫向拼接,以滿足圖像的輸入需求。在訓(xùn)練時,訓(xùn)練數(shù)據(jù)為上述拼合操作產(chǎn)生的多波段圖像,圖像的標(biāo)注工作則在近紅外圖像上完成,并映射到短、中、長三個波段。
為了保證各個波段數(shù)據(jù)在數(shù)據(jù)擴增后的空間一致性,本文設(shè)計了并聯(lián)分治的擴增方式。本文沿用了YOLOv4 的Mixup[20]、Mosaic[21]等數(shù)據(jù)增強方式,并增加了隨機角度旋轉(zhuǎn)的數(shù)據(jù)擴增方式。之后采用并聯(lián)分治的方法,使每個波段的信息使用一致的參數(shù)進行數(shù)據(jù)增強,從而確保不同紅外波段圖像的信息一致性。
在式(3)中,split 為組合圖像的拆分操作,在式(4)中,DAt代表第t個數(shù)據(jù)增強策略,本文對同一場景的不同波段數(shù)據(jù)使用相同參數(shù)進行數(shù)據(jù)增強,在式(5)中,concatinate 將多波段數(shù)據(jù)在深度方向上進行疊加,為最終生成多維度的譜段圖像數(shù)據(jù),本文將此多維度圖像送入檢測模型。在多譜段目標(biāo)識別模型的訓(xùn)練階段,數(shù)據(jù)擴增的每步都進行上述公式中表示的并聯(lián)分治增強方式,以保持譜段數(shù)據(jù)對齊。
本文將圖像的三個輸出特征層分割為若干個搜索單元,并在其中單獨地進行目標(biāo)搜索。對于每一個搜索單元,多波段目標(biāo)融合算法能夠預(yù)測出3個目標(biāo)框,每一個目標(biāo)框返回一個輸出的特征向量:
在式(6)中,與為預(yù)測目標(biāo)框相對于當(dāng)前搜索單元的中心坐標(biāo)系數(shù),tw與t?表示預(yù)測目標(biāo)框的高度與寬度系數(shù)。o來表達預(yù)測框的置信度得分,p1表示為此目標(biāo)為車輛目標(biāo)的概率。
接下來,本文要根據(jù)上述預(yù)測參數(shù)回歸計算預(yù)測邊界框的中心坐標(biāo)、寬度和高度。這時本文引入已經(jīng)設(shè)計好的anchor box 的信息,用ax和ay表示此搜索單元的寬度和高度(從圖像的左上角開始計算),用aw和a?表示此anthor box 的寬度和高度,最終,預(yù)測框的中心坐標(biāo)表示為x=σ(tx)+ax,y=σ(ty)+ay。其寬度為w=awexp(tw) ,高度為?=a?exp(t?)。
本文的實驗是基于YOLOv4 目標(biāo)檢測框架進行的,使用了本位構(gòu)建的多波段目標(biāo)檢測數(shù)據(jù)集。具體來說,本文按照5∶1 的比例將數(shù)據(jù)集進行分割,1835組圖像用于訓(xùn)練,368組圖像用于測試。
在模型的訓(xùn)練階段,本文訓(xùn)練了300 個epochs,通過這一過程,本文對一系列的超參數(shù)進行評估,以測試模型的性能。
為了測試單波段數(shù)據(jù)的表現(xiàn),本文首先使用紅外單波段圖像進行訓(xùn)練,從表2 中可以看出,中波波段的性能最好,其中,中波1 波段的mAP 達到了0.6995,為表現(xiàn)最好的波段。對于長波的四個波段而言,長波4波段的表現(xiàn)最差,其他波段與中波1相比性能會降低4%~9%左右。短波紅外波段的準(zhǔn)確率、召回率和平均精度則低于其他波段,表現(xiàn)不佳。為了有效提高目標(biāo)檢測模型性能,本文使用多波段融合算法進行訓(xùn)練,得到多波段模型。
表2 單紅外波段模型評測結(jié)果
本文使用多波段數(shù)據(jù)融合算法,構(gòu)建了相對應(yīng)波段的融合模型,本節(jié)將其與單波段數(shù)據(jù)的訓(xùn)練結(jié)果進行對比,并將不同波段組合得到的mAP 繪制在了表3中,由于7個波段的波段組合很多,結(jié)果無法一一列舉,本文挑選了幾個波段并展示其實驗結(jié)果。
表3 中波1、長波1、長波1波段交叉實驗評測結(jié)果
表3 對波段融合數(shù)據(jù)的結(jié)果進行定量分析。從表中可以看出,雙波段的準(zhǔn)確率、召回率和mAP都有5%~10%左右的提升,而三個波段數(shù)據(jù)的融合結(jié)果相較于雙波段其mAP 增長了4%,達到0.7858。另外,上表中也列出了全部七個波段的數(shù)據(jù)融合訓(xùn)練結(jié)果,其mAP 為0.7902,而三波段數(shù)據(jù)融合mAP分別為0.7858,性能提升為0.0044??梢钥闯?,隨著加入波段的增加,其檢測性能在逐步提升,但是此實驗結(jié)果表明,波段數(shù)量由三個增加到了七個,其mAP 的提升幅度卻非常小,說明圖像包含的冗余信息也隨著數(shù)據(jù)量的增加而增加,正向信息的利用率有所降低,導(dǎo)致多波段數(shù)融合的性能提升緩慢。
本文使用不同波段組合的訓(xùn)練模型進行目標(biāo)檢測,并將兩張圖片的檢測結(jié)果繪制在圖2 和圖3中。為了準(zhǔn)確觀察目標(biāo)車輛的位置信息,圖(a)中的輸入圖像表示兩張待檢測圖像所對應(yīng)的近紅外波段示意圖(實際送入網(wǎng)絡(luò)的圖像為相應(yīng)短、中、長波的紅外圖像),可以觀察到,第一張圖片在右半部分存在四個車輛目標(biāo),第二張圖片在下半部分存在三個車輛目標(biāo)。
圖2 單波段模型目標(biāo)檢測結(jié)果
圖3 多波段模型目標(biāo)檢測結(jié)果
圖2 為單波段紅外圖像可視化檢測結(jié)果,中波1 波段的模型在第一張圖片存在一個車輛目標(biāo)的誤檢,在第二張圖片中表現(xiàn)良好。而長波1 波段在這兩張圖片的檢測結(jié)果不佳,檢測結(jié)果大部分為漏檢和誤檢信息;圖3 為上述兩張圖像的多波段模型檢測結(jié)果,從圖中可以看出,雙波段融合與三波段融合都能夠正確檢測出目標(biāo)的位置信息,不存在中波1 和長波1 波段的錯誤檢測。檢測結(jié)果說明,相較于單波段模型,紅外多波段融合算法能夠提高目標(biāo)檢測的準(zhǔn)確率,并且算法有能力在保證一定準(zhǔn)確率的前提下處理人眼無法辨認(rèn)的各波段數(shù)據(jù)。
我們結(jié)合現(xiàn)有的多波段紅外數(shù)據(jù)集,提出了一種基于YOLOv4 框架的圖像數(shù)據(jù)融合的目標(biāo)檢測算法,此方法使用多波段圖像并聯(lián)輸入、單波段圖像統(tǒng)一增強的思想保證了紅外多波段數(shù)據(jù)增強的一致性。實驗結(jié)果表明,其克服了光照條件的影響,mAP 提升了10%以上,有效提高了模型的檢測性能。若在此基礎(chǔ)上能夠定量地對每個波段的貢獻程度進行分析,則能夠有效提高多源信息的利用率,使模型更加精煉。