陳 旭,吳 蔚,彭冬亮,谷 雨
〈圖像處理與仿真〉
Infrared-PV:面向監(jiān)控應用的紅外目標檢測數(shù)據(jù)集
陳 旭1,吳 蔚2,彭冬亮1,谷 雨1
(1. 杭州電子科技大學 自動化學院,浙江 杭州 310018;2. 中國電子科技集團第28研究所,江蘇 南京 210007)
紅外攝像機雖然能夠全天候24h工作,但是相比于可見光攝像機,其獲得的紅外圖像分辨率和信雜比低,目標紋理信息缺乏,因此足夠的標記圖像和進行模型優(yōu)化設(shè)計對于提高基于深度學習的紅外目標檢測性能具有重要意義。為解決面向監(jiān)控應用場景的紅外目標檢測數(shù)據(jù)集缺乏的問題,首先采用紅外攝像機采集了不同極性的紅外圖像,基于自研圖像標注軟件實現(xiàn)了VOC格式的圖像標注任務(wù),構(gòu)建了一個包含行人和車輛兩類目標的紅外圖像數(shù)據(jù)集(Infrared-PV),并對數(shù)據(jù)集中的目標特性進行了統(tǒng)計分析。然后采用主流的基于深度學習的目標檢測模型進行了模型訓練與測試,定性和定量分析了YOLO系列和Faster R-CNN系列等模型對于該數(shù)據(jù)集的目標檢測性能。構(gòu)建的紅外目標數(shù)據(jù)集共包含圖像2138張,場景中目標包含白熱、黑熱和熱力圖3種模式。當采用各模型進行目標檢測性能測試時,Cascade R-CNN模型性能最優(yōu),mAP0.5值達到了82.3%,YOLO v5系列模型能夠兼顧實時性和檢測精度的平衡,推理速度達到175.4幀/s的同時mAP0.5值僅降低2.7%。構(gòu)建的紅外目標檢測數(shù)據(jù)集能夠為基于深度學習的紅外圖像目標檢測模型優(yōu)化研究提供一定的數(shù)據(jù)支撐,同時也可以用于目標的紅外特性分析。
紅外圖像;數(shù)據(jù)集;監(jiān)控應用;深度學習;基準測試
相比于可見光攝像機,紅外攝像機能夠全天時全天候工作,因此在城市交通、軍事偵查、視頻監(jiān)控等領(lǐng)域有著廣泛的應用[1-2]。
雖然紅外圖像的目標指示性較強,但受傳感器探測性能、目標成像距離、目標幾何形狀等因素影響,紅外圖像通常分辨率低,缺乏豐富的邊緣和紋理信息,在復雜背景下目標信雜比低[3],故早期的紅外圖像目標檢測算法研究主要集中在弱小目標檢測方面[4-5]。主要方法包括基于單幀圖像的跟蹤前檢測方法(detecting before tracking, DBT)和基于序列圖像的檢測前跟蹤方法(tracking before detecting, TBD)。DBT方法[6]主要利用單幀圖像中目標-背景的差異信息進行去噪、增強等,通過分割得到目標位置,但是在低信雜比和復雜背景下虛警率較高。TBD方法利用運動目標連續(xù)性和相似性進行跟蹤檢測,可通過目標信息的長時間積累實現(xiàn)目標檢測,但是在幀間差異較大時目標檢測精度會下降,同時該類算法實時性較差[2]。
隨著大數(shù)據(jù)和深度學習理論和技術(shù)的快速發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)的目標檢測模型在可見光圖像目標檢測與識別方面取得了遠超傳統(tǒng)方法的性能。典型的目標檢測模型可分為兩階段模型和單階段模型[7]。以Faster R-CNN[8]為代表的兩階段模型,首先通過區(qū)域建議網(wǎng)絡(luò)篩選候選目標區(qū)域,然后在候選目標區(qū)域進行目標分類和位置精調(diào)。以SSD(single shot multibox detector)[9]和YOLO(You Only Look Once)系列[10]為代表的單階段模型,根據(jù)輸出的特征圖進行回歸,輸出目標位置、置信度和類別等信息。雖然單階段算法具有實時性好的優(yōu)勢,但檢測精度比雙階段算法略低。
將深度學習算法和模型應用于紅外圖像目標檢測時,王文秀等人[11]針對傳統(tǒng)紅外檢測算法檢測率低、實時性差等問題,采用改進的AlexNet[12]深度網(wǎng)絡(luò)進行紅外船只目標識別,可快速準確地識別出紅外船只目標,但該方法并不是一種端到端的方法,需通過分水嶺方法提取感興趣船只區(qū)域。針對該問題,蔣志新[13]提出了一種基于改進損失函數(shù)的Faster R-CNN海上紅外小目標檢測方法,其是一種端到端的方法,通過樣本分類的難易程度來調(diào)節(jié)權(quán)重,在加快模型訓練收斂速度的同時提高了檢測精度,但該方法實時性較差,不利于工程實際應用。針對紅外目標檢測準確率和實時性不足的問題,陳鐵明等人[14]提出了一種基于改進YOLO v3的紅外末制導目標檢測方法。通過半實物仿真的方式獲得特種車輛、艦船和飛行器3類目標的紅外圖像,在自適應學習率與動量法聯(lián)合優(yōu)化下,對設(shè)計的紅外目標數(shù)據(jù)集進行驗證,平均準確率達到了77.89%,檢測速度達到25幀/s。針對紅外弱小目標檢測難題,趙琰等人[15]在對紅外目標特性進行分析基礎(chǔ)上,通過簡化YOLO v3網(wǎng)絡(luò)的處理流程,提升了對紅外弱小目標檢測精度,實驗使用的數(shù)據(jù)為包含無人機的紅外視頻序列。吳雙忱等人[16]將對小目標的檢測問題轉(zhuǎn)化為對小目標位置分布的分類問題,檢測網(wǎng)絡(luò)由全卷積網(wǎng)絡(luò)和分類網(wǎng)絡(luò)組成,其中分類網(wǎng)絡(luò)通過引入注意力模塊(squeeze-and-excitation networks, SENet)[17],致力于解決復雜背景下低信噪比和存在運動模糊的小目標檢測難題,取得了較好的檢測效果。李慕鍇等人[18]將SENet模塊引入到Y(jié)OLOv3骨干網(wǎng)絡(luò)中的殘差模塊,提高了骨干網(wǎng)絡(luò)特征提取能力,實現(xiàn)了復雜場景下紅外行人小目標的有效檢測,相比原算法實時性不變,誤檢率顯著減低。
基于數(shù)據(jù)驅(qū)動的深度學習方法很大程度上依賴于均衡完備的樣本數(shù)據(jù),目前公開的數(shù)據(jù)集以可見光圖像為主,主要包括VOC(PASCAL visual object classes)數(shù)據(jù)集[19]、COCO(microsoft common objects in context)數(shù)據(jù)集[20]、DOTA(dataset for object detection in aerial images)數(shù)據(jù)集[21]、DIOR(object detection in optical remote sensing images)[22]、UCAS-AOD[23]等,針對不同數(shù)據(jù)集的特點均提出了很多有效的改進模型[24]??紤]到紅外圖像的特點,將應用于可見光圖像領(lǐng)域的深度目標檢測模型應用于紅外圖像時,需要做出合理的改進,但首先要解決的就是面向具體應用場景的紅外數(shù)據(jù)集構(gòu)建問題。
韓國科學技術(shù)研究院構(gòu)建的多光譜行人數(shù)據(jù)集(KAIST)[25]每張圖像包含可見光圖像和紅外圖像兩個版本,圖像分辨率為640×480,分為person、people和cyclist三個類別,該數(shù)據(jù)集的主要問題是標簽質(zhì)量較低,需對數(shù)據(jù)進行重新標注。菲力爾(FLIR)紅外數(shù)據(jù)集[26]圖片分辨率為640×512,只包含水平視角下的街道和高速路場景,主要面向自動駕駛汽車應用。OTCBVS(object tracking and classification in and beyond the visible spectrum)紅外數(shù)據(jù)集[27]用于測試和評估先進的計算機視覺算法,包含人臉、車輛、行人和艦船等14種不同場景的圖像數(shù)據(jù),該數(shù)據(jù)集中目標相對比較少,且場景較理想化。上述3個數(shù)據(jù)集的示例圖像如圖1所示。
圖1 紅外公開數(shù)據(jù)集樣本示例
針對監(jiān)控領(lǐng)域的實際應用需求,本文構(gòu)建了一個包含行人和車輛的紅外目標檢測數(shù)據(jù)集,將其命名為Infrared-PV。該數(shù)據(jù)集包含十字路口、橫向馬路兩大主場景,包含地鐵口、廣場、公交站臺等不同背景區(qū)域。采集的紅外圖像類型包含白熱目標、黑熱目標和熱力圖3種模式,總計包含2138張圖像,采用自研圖像標注軟件實現(xiàn)了VOC格式的標注任務(wù)。同時結(jié)合主流的深度目標檢測模型給出了在該數(shù)據(jù)集上的檢測性能測試基準。該數(shù)據(jù)集能夠為面向監(jiān)控應用的紅外圖像目標檢測模型優(yōu)化研究提供一定的數(shù)據(jù)支撐。
使用FLIR公司的Tau2 336長波非制冷紅外機芯配備25mm鏡頭采集視頻數(shù)據(jù),對該機芯極性進行控制,包括黑熱和白熱兩種模式,此外還提供熱力圖模式。采集高度30m左右,聚焦距離大于250m,拍攝掃描視角范圍為0°~120°,分別在雨天、晴天、白天、夜晚等環(huán)境下采集多個場景的視頻圖像,然后通過3幀/s的下采樣率得到分辨率為720×576或640×480的圖像,構(gòu)建的數(shù)據(jù)集總計包含圖片2138張,主要考慮場景中的行人和車輛2類目標,故將該數(shù)據(jù)集命名為Infrared-PV。不同極性下的樣本數(shù)量分布如表1所示,目標示例圖像如圖2所示。從圖2可以看出,在不同極性下目標的顯著性不同,在黑熱極性下,行人和車輛的輪廓信息更加明顯。從熱力圖模式看,行人、車輛目標的底部和發(fā)動機部分紅外熱輻射更高。
表1 Infrared-PV數(shù)據(jù)集不同極性圖像統(tǒng)計
圖2 不同極性目標圖像
使用自研的圖像標注軟件對構(gòu)建的Infrared-PV數(shù)據(jù)集進行人工標注,標注格式為擴展PASCAL VOC格式,保存本地文件為XML格式。設(shè)計的軟件與Labelme軟件類似,支持圖片、視頻和VOC格式數(shù)據(jù)集的標注,同時實現(xiàn)了對數(shù)據(jù)集的統(tǒng)計和數(shù)據(jù)增強功能,支持目標類別統(tǒng)計、長寬分布統(tǒng)計等,并可檢測標注過程中可能存在的漏標、錯標等情況。圖3為設(shè)計的標注軟件界面圖,界面上側(cè)為菜單欄,左側(cè)為待標記圖像列表,右側(cè)為目標信息顯示區(qū)域。與Labelme軟件不同,研制的標注軟件支持以下兩方面功能:①通過修改配置文件支持額外語義信息的添加與保存。其中圖3右下角區(qū)域為語義信息修改和顯示區(qū)。某一幅圖像對應的目標標注內(nèi)容如表2所示,包括文件名、圖像分辨率、目標位置和類別信息,以及拍攝日期(date)、拍攝時間(time)、相機極性(polarity)、天氣信息(weather)等語義信息。②增量標注功能。在已獲得少量標注樣本的情況下,通過訓練一個基于深度模型的目標檢測器,輔助人工標注,降低標注工作量。為測試各檢測模型的檢測性能,本數(shù)據(jù)集對部分遮擋度小于50%的目標進行了標注。
圖3 標注軟件界面
表2 標注信息
圖4為數(shù)據(jù)集典型場景的示例圖像。從圖2和圖4可以看出,黑熱極性下行人目標的輪廓更加明顯,此時目標對比度高于白熱極性情況。熱力圖圖像是場景中目標熱輻射的偽彩色顯示,在該模式下很難得到目標的輪廓信息。車輛目標包括小轎車、公交車、貨車等幾種車型,目標尺寸大于行人目標,雖然車輛目標的尺度變化較大,但由于與背景差異顯著,故比較容易區(qū)分,部分遮擋和目標重疊問題是影響車輛目標檢測精度的主要問題。由于是室外場景,數(shù)據(jù)集中的圖像背景比較復雜,包括地鐵出入口、交通指示桿和建筑物等其他目標,這會給目標檢測算法和模型帶來一定挑戰(zhàn),主要體現(xiàn)在虛警方面。
數(shù)據(jù)集中行人和車輛對應的類別分別為person和vehicle,在整個目標中的占比分別為60.3%和39.7%,如表3所示。平均單張圖片包含20個左右目標,最多單張圖片目標數(shù)超過100個,說明本紅外數(shù)據(jù)集目標相對比較密集。從圖5(a)和圖5(b)目標尺寸和占比分布可以看出,目標主要分布在150×200大小范圍內(nèi),其中person類別目標長寬分布在10×20像素~20×50像素不等,車輛分布在40×23像素~200×150像素不等,集中在整幅圖像尺寸的10%以下,說明本紅外數(shù)據(jù)集多以中小目標為主。從圖4可以看出,目標相對比較密集,目標間、背景與目標間存在遮擋情況,因此可以用于評估各檢測算法或模型的檢測性能和適用性,為紅外弱小目標檢測、紅外行人檢測、車輛檢測與跟蹤等研究方向提供一定的數(shù)據(jù)支撐。Infrared-PV紅外目標檢測數(shù)據(jù)集的獲取地址為https://pan.baidu.com/ s/1j0gqBrtTjI89s2Mdp6xpEA(提取碼:4ftz)。
表3 Infrared-PV數(shù)據(jù)集類別統(tǒng)計
圖4 Infrared-PV數(shù)據(jù)集圖像
圖5 目標統(tǒng)計分析
以Faster R-CNN為代表的兩階段模型主要由3部分組成,即特征提取網(wǎng)絡(luò)、候選區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)網(wǎng)絡(luò)和分類回歸網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)避免了傳統(tǒng)手工設(shè)計特征的局限性,能夠?qū)W習到更有利于目標檢測與分類的特征表示。候選區(qū)域建議網(wǎng)絡(luò)用于判別目標和背景區(qū)域,這種端到端模型極大提高了目標檢測的速度。分類回歸網(wǎng)絡(luò)對候選目標區(qū)域進行類別細分類和位置預測的精調(diào)。在Faster R-CNN基礎(chǔ)上,研究學者提出了很多改進模型,包括Cascade R-CNN[28]、Libra R-CNN[29]、DoubleHead R-CNN[30]等,這些模型顯著地提高了通用目標檢測精度。
舍棄RPN模塊,直接對目標類型和位置進行回歸的單階段模型,能夠?qū)崿F(xiàn)檢測精度和推理速度的平衡,逐漸成為研究的熱點,其中最具代表性的模型為SSD、YOLO系列。其中YOLOv3[31]已被成功應用于紅外目標檢測,并取得不錯的效果。YOLO v3是單階段端到端全卷積網(wǎng)絡(luò),模型組成如下:以基于ResNet殘差網(wǎng)絡(luò)[32]的darknet53架構(gòu)作為特征提取網(wǎng)絡(luò),拓展了網(wǎng)絡(luò)的深度,降低了訓練難度;采用類似特征金字塔網(wǎng)絡(luò)(feature pyramid networks, FPN)[33]的思想,加強了高層語義信息對淺層細節(jié)特征的指導;多尺度輸出層根據(jù)預設(shè)先驗框?qū)ο袼攸c進行回歸、分類、后處理,提高了中小目標檢測率。
基于注意力機制以及優(yōu)化的特征融合策略,文獻[34]提出了YOLO v4模型。v4版本相比于v3版本改進如下:
①特征提取網(wǎng)絡(luò)設(shè)計方面,使用了加權(quán)殘差連接、跨階段局部網(wǎng)絡(luò)(cross stages partial network, CSPNet),通過加強網(wǎng)絡(luò)特征融合能力,設(shè)計了更優(yōu)的特征提取網(wǎng)絡(luò)CSPDarknet53;
②檢測分支設(shè)計方面,使用了SPP[35]、FPN、PANet[36]等特征融合策略,通過融合不同尺度的語義信息,提高了中小目標的檢測和分類性能;
③數(shù)據(jù)增強方面,綜合使用了Cutmix & Mosaic數(shù)據(jù)增強、DropBlock正則化、類標簽平滑、Ciou損失[37]、對抗訓練等BoF & BoS(Bags of Freebies & Specials)手段,進一步提高了檢測精度。
最新的YOLO v5網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)深度和寬度不同,共包含s、m、l和x四種模型,其中s網(wǎng)絡(luò)模型結(jié)構(gòu)如圖6所示。YOLO v5模型改進了特征提取網(wǎng)絡(luò)和特征融合模塊,用CSPNet模塊代替多層混合卷積,顯著降低模型復雜度,聯(lián)合Mosaic數(shù)據(jù)增強、自適應圖片縮放等手段,不僅保證了檢測精度,還消除了模型冗余,大大提高了推理的實時性。其中使用GTX 1080Ti顯卡的s模型推理時間低至2.5ms,在邊緣設(shè)備上也有很好的檢測效果。
為評估基于深度學習的紅外目標檢測性能,本文在Infrared-PV數(shù)據(jù)集上進行了對比實驗,構(gòu)建了用于深度目標檢測模型評估的指標,定性和定量分析了各模型在Infrared-PV紅外數(shù)據(jù)集上的性能。
采用的服務(wù)器配置如下:CPU為Intel(R) i7-6850K,64G內(nèi)存,兩塊NVIDIA GeForce GTX 1080Ti圖形處理器,操作系統(tǒng)為Ubuntu 18.04。所有模型使用雙卡分布式訓練。
Infrared-PV紅外數(shù)據(jù)集以7:3比例隨機劃分,其中訓練集共1496張圖像,測試驗證集642張圖像。
本文使用的基準算法為Faster R-CNN,YOLO v3,YOLO v4,YOLO v5目標檢測算法,此外還和Cascade R-CNN、FCOS[38]模型的檢測性能進行了對比分析。訓練采用的目標檢測框架和配置文件如表4所示。當輸入網(wǎng)絡(luò)的圖像分辨率為608×608時,YOLO系列各模型的錨框大小設(shè)置如表5所示。
YOLO v3和YOLO v4系列基于darknet的C語言官方實現(xiàn),其中YOLO v3模型初始學習率為0.01,批大小為64,子批大?。╯ubdivisions)由顯存大小調(diào)整,訓練總步長為12500,在步長為5000和10000時退火為前一步長的10%;YOLO v4模型初始學習率為0.00001,批大小為8,退火步長為18000和26000;其他為默認設(shè)置。
表4 模型配置
表5 608×608分辨率下Infrared-PV目標錨框
YOLO v5系列基于ultralytics的YOLO v5實現(xiàn),訓練輪次(epoch)為200,批大小為64;采用SGD梯度下降優(yōu)化器,動量為0.9;初始學習率0.01,預熱為3 epoch,采用余弦退火;其他為默認設(shè)置。
Faster R-CNN、FCOS、Cascade R-CNN算法基于mmdetection[39]實現(xiàn)。其中超參數(shù)設(shè)置如下:epoch為50,批大小為8;SGD優(yōu)化器,動量為0.9;初始學習率為0.02,在epoch為25和38時退火為前一步長的33%;其他為默認設(shè)置。
對檢測結(jié)果進行分析,當目標檢測結(jié)果與真值的交并比(intersection over union, IOU)大于0.5認為該目標被檢測到,以單位時間推理圖片張數(shù)(frame per second, FPS)評估模型實時性,以各類別的平均精度(average precision, AP)、召回率(recall)以及平均精度均值(mean average precision, mAP)來評估模型的檢測性能。
在基準實驗中,各模型的檢測性能如表6所示,檢測結(jié)果如圖7所示。由于沒有對Anchor進行優(yōu)化,對行人等小目標檢測效果不佳,故Faster R-CNN模型的mAP0.5只達到了65.6%,推理速度僅為16.08FPS;當模型輸入尺寸為608×608時,YOLO v3模型的檢測精度較416×416時提升5.8%。由圖7(c)和(d)可見,網(wǎng)絡(luò)輸入尺寸的增加有利于小目標檢測和位置框的精準回歸,同時降低了虛警率,但實時性有所降低。YOLO v4模型的mAP0.5為78.97%,YOLO v5模型的mAP0.5最高,達到了80.7%。從圖7對比看出,YOLO v4模型的召回率高于YOLO v5模型,但是虛警率略高??傮w而言,一階段算法對于遮擋和弱小目標情況檢測率相對較高,雖然存在少量虛警,但能夠滿足檢測算法的實時性需求。
圖7 各基準模型檢測效果對比(置信度:0.25)
表6 Infrared-PV數(shù)據(jù)集各檢測模型性能基準(置信度:0.05)
注:加粗字體為該列最優(yōu)值 Note: Bold font is the optimal value
除基準實驗外,本文進行了擴充實驗以驗證其他模型在Infrared-PV數(shù)據(jù)集上的性能。本文使用先進的骨干網(wǎng)絡(luò)ResNest[40]替換Faster R-CNN和Cascade R-CNN模型的主干網(wǎng)絡(luò),進行了對比實驗。
各模型的檢測指標結(jié)果具體如表7所示。由表7可以看出,采用ResNest的兩階段檢測模型相比傳統(tǒng)ResNet特征提取網(wǎng)絡(luò)性能上有顯著提升,Cascade R-CNN模型mAP0.5提升了15.3%,達到了最高的檢測精度82.3%。由圖7(b)可見,對于遮擋、小目標上的實際效果最佳,優(yōu)于所有單階段算法,但是該模型實時性較差;在YOLOv4的基礎(chǔ)上裁剪模型為原大小的1/16,精度提高的同時實時性提高了一倍,說明針對特定數(shù)據(jù)集,尤其是目標類別較少的情況下,通過裁剪卷積通道數(shù)能夠在不降低目標檢測率的情況下,提高模型推理速度;FCOS模型對于紅外目標檢測結(jié)果差強人意,主要是因為紅外圖像紋理信息缺失,邊緣信息不明顯,像素框定位目標困難,故mAP0.5較低。
表7 其他模型在紅外數(shù)據(jù)集的測試結(jié)果(置信度:0.05)
注:加粗字體為該列最優(yōu)值 Note: Bold font is the optimal value
本文構(gòu)建了一個包含行人和車輛2類目標的紅外圖像檢測數(shù)據(jù)集,對于采用的紅外視頻圖像采用自研的標注軟件進行了目標標注,然后對數(shù)據(jù)集的各項統(tǒng)計信息進行了總結(jié)分析。結(jié)合目前主流基于深度學習的目標檢測模型,給出了各模型在該數(shù)據(jù)集的檢測性能。該數(shù)據(jù)集的構(gòu)建能夠為視頻監(jiān)控場景下的紅外目標檢測,以及紅外圖像目標特性分析提供一定的數(shù)據(jù)支撐。
[1] 陳錢,隋修寶.紅外圖像處理理論與技術(shù)[M].北京:電子工業(yè)出版社, 2018.
CHEN Qian, SUI Xiubao.[M]. Beijing: Electronic Industry Press, 2018.
[2] 劉讓, 王德江, 賈平, 等. 紅外圖像弱小目標探測技術(shù)綜述[J]. 激光與光電子學進展, 2016,53(5): 050004.
LIU Rang, WANG Dejiang, JIA Ping, et al. Overview of detection technology for small and dim targets in infrared images[J]., 2016, 53(5): 050004.
[3] 武斌. 紅外弱小目標檢測技術(shù)研究[D]. 西安: 西安電子科技大學. 2009.
WU Bing. Research on Infrared Dim Target Detection Technology[D]. Xi'an: Xidian University, 2009.
[4] Rawat S S, Verma S K, Kumar Y. Review on recent development in infrared small target detection algorithms[J]., 2020, 167: 2496-2505.
[5] 李俊宏, 張萍, 王曉瑋, 等. 紅外弱小目標檢測算法綜述[J]. 中國圖象圖形學報, 2020, 25(9): 1739-1753.
LI Junhong, ZHANG Ping, WANG Xiaowei, et al. Infrared small-target detection algorithms: a survey[J]., 2020, 25(9): 1739-1753.
[6] 谷雨,劉俊,沈宏海, 等.基于改進多尺度分形特征的紅外圖像弱小目標檢測[J]. 光學精密工程,2020,28(6):1375-1386.
GU Yu, LIU Jun, SHEN Honghai, et al. Infrared image dim target detection based on improved multi-scale fractal features[J].,2020,28(6): 1375-1386.
[7] LIU L, OUYANG W, WANG X G, et al. Deep learning for generic object detection: a survey[J]., 2020, 128(2): 261-318.
[8] REN S Q, HE K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2017, 39(6): 1137-1149.
[9] LIU W, Anguelov D, Erhan D, et al. Ssd: single shot multibox detector[C]//, 2016: 21-37.
[10] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//, 2016: 779-788.
[11] 王文秀, 傅雨田, 董峰, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外船只目標檢測方法[J]. 光學學報, 2018, 38(7): 0712006.
WANG W X, FU Y T, DONG F, et al. Infrared ship target detection method based on deep convolutional neural network[J]., 2018, 38(7): 0712006.
[12] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]., 2017, 60(6): 84-90.
[13] 蔣志新. 基于深度學習的海上紅外小目標檢測方法研究[D]. 大連: 大連海事大學, 2019.
JIANG Z X. Research on the Detection Method of Marine Infrared Small Target Based on Deep Learning[D]. Dalian: Dalian Maritime University, 2019.
[14] 陳鐵明, 付光遠, 李詩怡, 等. 基于YOLO v3的紅外末制導典型目標檢測[J]. 激光與光電子學進展, 2019, 56(16): 155-162.
CHEN T M, FU G Y, LI S Y, et al. Infrared terminal guidance typical target detection based on YOLOv3[J]., 2019, 56(16): 155-162.
[15] 趙琰, 劉荻, 趙凌君. 基于Yolo v3的復雜環(huán)境紅外弱小目標檢測[J]. 航空兵器, 2020, 26(6): 29-34.
ZHAO Y, LIU D, ZHAO L J. Infrared small target detection in complex environment based on Yolo v3[J]., 2020, 26(6): 29-34.
[16] 吳雙忱, 左崢嶸. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外小目標檢測[J]. 紅外與毫米波學報, 2019, 38(3): 371-380.
WU S C, ZUO Z G. Infrared small target detection based on deep convolutional neural network[J]., 2019, 38(3): 371-380.
[17] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//, 2018: 7132-7141.
[18] 李慕鍇, 張濤, 崔文楠. 基于Yolo v3的紅外行人小目標檢測技術(shù)研究[J]. 紅外技術(shù), 2020, 42(2): 176-181.
LI M K, ZHANG T, CUI W N. Research on infrared pedestrian small target detection technology based on Yolo v3[J]., 2020, 42(2): 176-181.
[19] Everingham M, Eslami S A, Van Gool L, et al. The pascal visual object classes challenge: a retrospective[J]., 2015, 111(1): 98-136.
[20] LIN T Y, Maire M, Belongie S, et al. Microsoft coco: common objects in context[C]//, 2014: 740-755.
[21] XIA G S, BAI X, DING J, et al. DOTA: a large-scale dataset for object detection in aerial images[C]//, 2018: 3974-3983.
[22] LI K, WAN G, CHENG G, et al. Object detection in optical remote sensing images: a survey and a new benchmark[J]., 2020, 159: 296-307.
[23] ZHU H, CHEN X, DAI W, et al. Orientation robust object detection in aerial images using deep convolutional neural network[C]//2015(ICIP), 2015: 3735-3739.
[24] TAN M, PANG R, LE Q V. Efficientdet: scalable and efficient object detection[C]//, 2020: 10781-10790.
[25] Hwang S, Park J, Kim N, et al. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//, 2015: 1037-1045.
[26] Teledyne FLIR Systems. FLIR ADAS Dataset[DB/OL] [2023-11-27]. https://www.flir.com/oem/adas/adas-dataset-form/.
[27] Davis J W, Keck M A. A two-stage template approach to person detection in thermal imagery[C]//2005, 2005, 1: 364-369.
[28] CAI Z, Vasconcelos N. Cascade r-cnn: delving into high quality object detection[C]//, 2018: 6154-6162.
[29] PANG J, CHEN K, SHI J, et al. Libra r-cnn: Towards balanced learning for object detection[C]//, 2019: 821-830.
[30] WU Y, CHEN Y, YUAN L, et al. Rethinking classification and localization for object detection[C]//, 2020: 10186-10195.
[31] Redmon J, Farhadi A. Yolov3: an incremental improvement [EB/OL] [2018-04-08]. https://arxiv.org/pdf/1804.02767.pdf.
[32] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.
[33] LINT Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//, 2017: 2117-2125.
[34] Bochkovskiy A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL] [2020-04-22]. https://arxiv.org/ pdf/2004.10934.pdf.
[35] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]., 2015, 37(9): 1904-1916.
[36] WANG K, LIEW J H, ZOU Y, et al. PaNet: Few-shot image semantic segmentation with prototype alignment[C]//, 2019: 9197-9206.
[37] ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//2020, 2020: 12993-13000.
[38] TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully convolutional one-stage object detection[C]//2019, 2019: 9627-9636.
[39] CHEN K, WANG J Q, PANG J M, et al. Mmdetection: open mmlab detection toolbox and benchmark[EB/OL][2019-06-17]. https:// arxiv.org /pdf/ 1906. 07155. pdf.
[40] ZHANG H, WU C R, ZHANG Z Y, et al. Resnest: Split-attention networks[EB/OL] [2020-04-19]. https://arxiv.org/pdf/2004.08955.pdf.
Infrared-PV: an Infrared Target Detection Dataset for Surveillance Application
CHEN Xu1,WU Wei2,PENG Dongliang1,GU Yu1
(1.,,310018,;2.28,210007,)
Although infrared cameras can operate day and night under all-weather conditions compared with visible cameras, the infrared images obtained by them have low resolution and signal-to-clutter ratio, lack of texture information,so enough labeled images and optimization model design have great influence on improving infrared target detection performance based on deep learning. First, to solve the lack of an infrared target detection dataset used for surveillance applications, an infrared camera was used to capture images with multiple polarities, and an image annotation task that outputted the VOC format was performed using our developed annotation software. An infrared image dataset containing two types of targets, person and vehicle, was constructed and named infrared-PV. The characteristics of the targets in this dataset were statistically analyzed. Second, state-of-the-art target detection models based on deep learning were adopted to perform model training and testing. Target detection performances for this dataset were qualitatively and quantitatively analyzed for the YOLO and Faster R-CNN series detection models. The constructed infrared dataset contained 2138 images, and the targets in this dataset included three types of modes: white hot, black hot, and heat map. In the benchmark test using several models, Cascade R-CNN achieves the best performance, where mean average precision when intersection over union exceeding 0.5 (mAP0.5) reaches 82.3%, and YOLOv5 model can achieve the tradeoff between real-time performance and detection performance, where inference time achieves 175.4 frames per second and mAP0.5drops only 2.7%. The constructed infrared target detection dataset can provide data support for research on infrared image target detection model optimization and can also be used to analyze infrared target characteristics.
infrared image, dataset, surveillance application, deep learning, benchmark test
TP391.9
A
1001-8891(2023)12-1304-10
2021-01-15;
2021-02-24.
陳旭(1997-),男,碩士研究生,主要從事圖像目標識別、檢測與模型優(yōu)化研究。
谷雨(1982-),男,博士,副教授,主要從事多源信息融合、遙感圖像目標檢測與識別方面的研究。E-mail:guyu@edu.hdu.cn。
浙江省自然科學基金資助項目(LY21F030010)。