樓哲航,羅素云
基于YOLOX和Swin Transformer的車載紅外目標檢測
樓哲航,羅素云
(上海工程技術(shù)大學(xué) 機械與汽車工程學(xué)院,上海 201620)
紅外圖像因為存在噪聲大、對比度不佳等問題,容易導(dǎo)致目標檢測時的精度降低,本文結(jié)合YOLOX和Swin Transformer,提出了一種改進的YOLOX的模型。改進的模型采用Swin Transformer替換YOLOX中的CSPDarknet主干提取網(wǎng)絡(luò),減少YOLOX中Neck和Head部分的激活函數(shù)以及標準化層,以提高特征的提取能力,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。對改進的模型在艾瑞光電數(shù)據(jù)集和FILR數(shù)據(jù)集上均進行了測試,實驗結(jié)果顯示,改進后的YOLOX網(wǎng)絡(luò),在兩個數(shù)據(jù)集上的平均檢測精度都有明顯提升,更加適合紅外圖像的目標檢測。
目標檢測;紅外圖像;YOLOX;Swin Transformer
伴隨紅外技術(shù)的不斷發(fā)展以及其“軍轉(zhuǎn)民”技術(shù)的不斷成熟,紅外技術(shù)在各個領(lǐng)域都有越來越多的應(yīng)用。在無人駕駛領(lǐng)域,紅外技術(shù)主要用于生命體的檢測以及對車輛的可駕駛區(qū)域的檢測。物體間無時無刻不在交換紅外輻射,加之紅外成像設(shè)備的性能限制,導(dǎo)致了紅外圖像具有分辨率低、噪聲大、邊緣模糊、對比度不佳等特點,上述物理特性也給基于紅外圖像的目標檢測算法的設(shè)計與實現(xiàn)帶來了更多的挑戰(zhàn)[1]。
紅外目標檢測的方法主要分為傳統(tǒng)方法和基于機器學(xué)習(xí)的方法。傳統(tǒng)方法主要有基于形狀的目標檢測和基于運動的目標檢測。
基于形狀的紅外目標檢測方法通過預(yù)先建立目標模板,依據(jù)特定的搜索策略采用模板匹配的思想來實現(xiàn)目標檢測。任章[2]等人依據(jù)行人目標的特點,重新構(gòu)建模板特征,并融入Kalman預(yù)測器來預(yù)測目標的運動軌跡,使得虛警率降低。吳燕茹[3]等人基于核主成分分析(Kernel based Principal Component Analysis,KPCA)思想提出了一種AdaBoost紅外目標檢測算法,能夠解決傳統(tǒng)目標檢測的繁瑣參數(shù)設(shè)置問題?;谛螤畹哪繕藱z測方法主要依靠對象的先驗知識對目標建模以形成目標模板,對模板的要求較高,只適合于特定的場所。
基于運動的目標檢測為依據(jù)視頻幀的差異性或目標對象的運動特性定位目標,再依據(jù)目標空間特征及先驗知識檢測目標[4]。Davis[5]提出一種基于背景建模差分模型的行人目標檢測算法,采用高斯模型描述背景定位目標,結(jié)合梯度信息依據(jù)目標輪廓顯著圖檢測目標提取輪廊。Fida[6]采用強度相似度和局部二值模式紋理雙特征模型來表示背景信息,融入了目標的空間相關(guān)性,能有效地降低噪聲干擾?;谶\動的目標檢測能得到較好的目標輪廓,但只適用于運動目標的檢測,具有局限性。
基于機器學(xué)習(xí)的方法,主要包括支持向量機、RCNN系列、YOLO系列、SSD等。于杰[7]利用Part-based方法結(jié)合支持向量機實現(xiàn)了車輛的目標檢測。易詩[8]等人基于YOLOv3和紅外技術(shù)進行了夜間的目標識別。聶霆[9]利用道路、車輛等環(huán)境輔助信息的紅外特性,采用提取感興趣區(qū)域ROI(Region of Interest)和ISODATA(Iterative Self Organizing Data Analysis Techniques Algorithm)聚類算法進行車輛識別。陳謐[10]改進YOLOv4網(wǎng)絡(luò)提出了一種改進的紅外目標檢測算法,并設(shè)計了一個嵌入式紅外目標檢測系統(tǒng)。舒朗[11]等人基于YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu),提出了一種密集連接的網(wǎng)絡(luò)Dense-YOLOv5解決紅外目標不明顯的問題,對于特征不明顯的小目標的檢測效果較好。
本文基于YOLOX架構(gòu),結(jié)合Swin Transformer[12],結(jié)合圖像處理技術(shù)和紅外圖像特點,對原始YOLOX中的CSP模塊進行了改進,將其應(yīng)用于車輛和行人的目標檢測,增強了對于車輛的特征提取,達到了較好的目標檢測效果。
YOLO系列作為單階段目標檢測的算法,因其靈活性、高效性和泛化能力在目標檢測領(lǐng)域被廣泛使用。YOLOX[13]是YOLO系列的最新架構(gòu),是在YOLOv3的基礎(chǔ)上,引入anchor-free、Decoupled head、Mosaic數(shù)據(jù)增強和SimOTA樣本匹配的方法,擺脫了以往YOLO系列對于anchor的依賴,構(gòu)建了新的端到端的目標檢測框架,并在coco數(shù)據(jù)集上達到了較好的檢測水平,性能上超過了YOLOv3[14]/v4[15]/v5。
YOLOX的結(jié)構(gòu)主要分成3部分:Backbone、Neck和Head。Backbone部分,YOLOX沿用YOLO系列中的CSPDarknet主干提取網(wǎng)絡(luò),整體結(jié)構(gòu)如圖1所示,主要有4個模塊構(gòu)成,分別是Focus模塊、CBS模塊、CSP1模塊和SPP模塊。
Neck部分,YOLOX采用了FPN+PAN(Feature Pyramid Networks+Pyramid Attention Network)的結(jié)構(gòu)。其中,F(xiàn)PN自頂而下,將高層的信息,通過上采樣的方式與底層信息融合,主要傳遞語義特征;PAN結(jié)構(gòu)自底而上,將底部的信息,傳遞至高層實現(xiàn)融合,主要傳遞定位信息。
Head部分,YOLOX采用解耦頭,其結(jié)構(gòu)如圖2所示,分別進行分類、回歸和IoU計算。采用解耦頭時有如下特點[13]:①用解耦的Head替換YOLO的Head大大提高了收斂速度。②解耦的Head利于YOLOX實現(xiàn)端到端化,便于下游任務(wù)一體化。
圖1 YOLOX的Backbone
圖2 YOLOX的Head部分
Swin Transformer作為Transformer在CV領(lǐng)域的一大成果,在目標分類、目標檢測、目標分割等下游任務(wù)中均取得了較好的SOTA(State of The Art)效果。Transformer從自然語言處理應(yīng)用到視覺領(lǐng)域的挑戰(zhàn)來自兩個領(lǐng)域之間的以下差異:視覺實體的規(guī)模變化很大;與文本中的單詞相比,圖像中像素的高分辨率[10]。Swin Transformer基于這兩方面的問題提出了滑動窗口的形式,并采用一種分層的Transformer。采用滑動窗口的形式計算像素之間的注意力,能夠降低了原有注意力計算的復(fù)雜度,同時,因為采用了不同的采樣倍數(shù),對小物體的識別有較好效果。
Swin Transformer[12]的基本結(jié)構(gòu)以模塊化的形式呈現(xiàn)。主要有分割編碼模塊(Patch Embedding模塊)、滑動Transformer模塊(Swin Transformer Block)、移動拼接模塊(Patch Merging模塊)3大模塊疊加構(gòu)成。
式中:Q,K,V為注意力機制中所需的3個向量,分別為Query向量、Key向量和Value向量;B為采取的偏置;d為縮放系數(shù)。
Swin Transformer所提出的滑動窗口注意力(Shifted Windows Multi-head Self-attention),如圖4所示,在前一個Block中采用窗口注意力(W-MSA),而在后一個Block中采用滑動窗口注意力(Swin Multi-head Self-attention,SW-MSA),兩種注意力機制交替使用,在Swin Transformer Blocks中Transformer Block成對出現(xiàn)。
針對紅外圖像分辨率低、噪聲大、對比度不佳等缺點,本文以YOLOX為基礎(chǔ)進行改進,對其Backbone進行了替換,采用Swin Transformer作為新的Backbone,以增強特征提取能力。同時對YOLOX模型中Neck部分的FPN+PAN結(jié)構(gòu)進行了改進,減少其中的標準化層和激活函數(shù),可以在降低計算復(fù)雜度的同時提升精度。具體結(jié)構(gòu)見圖5所示。
圖4 窗口滑動機制(左:滑動前,右:滑動后)
在原YOLOX架構(gòu)中,Backbone沿用YOLO系列中的CSPDarknet主干提取網(wǎng)絡(luò),并通過Focus結(jié)構(gòu)和SPP結(jié)構(gòu)優(yōu)化了提取網(wǎng)絡(luò)的結(jié)構(gòu),使精度和速度都有較大的提升。CSPDarknet采用卷積結(jié)構(gòu)來提取特征,在卷積結(jié)構(gòu)提取特征的過程中,感受野取決于卷積核的大小,卷積核越大,所感受的區(qū)域越大,而卷積核增大同時會極大地增加運算的復(fù)雜度;當感受野的區(qū)域不夠大時,所提取的特征就會損失全局的特征信息。卷積結(jié)構(gòu)具有平移不變性,對特征的全局位置不敏感,只會提取原始數(shù)據(jù)中的一小部分的局部信息。Swin Transformer采用注意力機制,在計算注意力的過程中會考慮全局的信息,在每個patch中加入位置信息,使得在保留對特征的全局位置敏感的同時擴大感受野。
在結(jié)構(gòu)上,Swin Transformer與CSPDarknet相似。CSPDarknet通過堆疊卷積層以及殘差結(jié)構(gòu)來實現(xiàn),而Swin Transformer通過堆疊Swin Transformer Block和Patch Merging模塊來實現(xiàn)。同時,Patch Merging模塊中會將每個小窗口中相同位置的值取出來,拼成新的patch,最后將所有patch都疊加起來,與CSPDarknet中的Focus效果相同。從結(jié)構(gòu)而言,Swin Transformer可以替換CSPDarknet,并提高對全局特征的提取效果。
Swin Transformer依據(jù)第一個輸入層的通道數(shù)、不同的層數(shù)可劃分為Swin-T、Swin-S、Swin-B和Swin-L,參數(shù)如表1所示,本文選用Swin-T。
在原有的卷積網(wǎng)絡(luò)中,傾向于對每個卷積操作都添加激活函數(shù)以及歸一化層,而Transformer中使用了更少的激活函數(shù)以及歸一化操作。ConvNeXt[16]對比分析了ResNet和Transformer的模塊的區(qū)別,對此進行了驗證,適當減少激活函數(shù)和歸一化操作能有效地提高精度。
本文對Neck結(jié)構(gòu)中CSP層和Head結(jié)構(gòu)進行了優(yōu)化,減少其中的激活函數(shù)以及歸一化層。減少過多激活函數(shù)層,容易導(dǎo)致卷積層退化,故對于CSP層,保留CSP層中第二條通道中的激活函數(shù)以及歸一化層,并添加殘差結(jié)構(gòu),對于Head,僅去除Head中第一個卷積層的激活函數(shù)。
圖5 改進YOLOX模型結(jié)構(gòu)
表1 不同的Swin Transformer參數(shù)
RELU激活函數(shù)在輸入的函數(shù)梯度過大時,容易導(dǎo)致參數(shù)更新后,神經(jīng)元不再具有激活功能[17],本文替換Neck和Head中的激活函數(shù)為GELU函數(shù):
優(yōu)化后的CSP層和Head結(jié)構(gòu)如圖6所示。
本文采用Pytorch作為深度學(xué)習(xí)框架,訓(xùn)練以及測試均基于Linux系統(tǒng),ubuntu16.04,CUDA11.1,python3.10,pytorch1.10。硬件條件為Intel(R) XEON(R) W-2150B CPU @3.00GHz,GPU為GeForce RTX 3070×2,16GB顯存。
訓(xùn)練參數(shù)為訓(xùn)練周期300次迭代,最大學(xué)習(xí)率為0.01,最小學(xué)習(xí)率為0.001,優(yōu)化器為“SGD”隨機梯度下降,權(quán)重衰減為0.0005,學(xué)習(xí)率下降采用“COS”余弦下降,采用凍結(jié)前100個周期訓(xùn)練批次為8,后200個周期訓(xùn)練批次為4。測試時的置信度為0.001,NMS閾值為0.65。
本文基于艾睿光電(Inf iRay)所制作的雙光車載場景數(shù)據(jù)庫[18]和FLIR公司發(fā)布的自動駕駛開源紅外熱成像數(shù)據(jù)集[19]對改進的模型的效果進行了實驗驗證。
艾睿光電所制作的雙光車載場景數(shù)據(jù)庫為采用艾睿光電自研的紅外傳感器在道路上所采集的視頻而制作形成的數(shù)據(jù)集。艾睿光電數(shù)據(jù)集分辨率高,全天候場景內(nèi)容豐富,為國內(nèi)道路拍攝。數(shù)據(jù)集中紅外圖片共計2342張,分辨率為1440×1080,目標種類共5種:人、自行車、汽車、卡車、公交車。
由于數(shù)據(jù)集照片較少,不利于訓(xùn)練,本文進行了數(shù)據(jù)增強,將數(shù)據(jù)集擴充至12340張。訓(xùn)練集與測試集的比例為8:2,在訓(xùn)練集中選取20%作為驗證集。同時保留YOLOX原有的數(shù)據(jù)增強方式,包括Mosaic數(shù)據(jù)增強。
數(shù)據(jù)增強方式為:鏡像圖像、隨機添加方形噪聲、調(diào)整對比度、隨機裁剪。每張原始圖片選擇其中兩項組合,每張原始圖像增強5次。擴充后的數(shù)據(jù)集中的部分圖片如圖7所示。
圖7 擴充后的數(shù)據(jù)集
FILR數(shù)據(jù)集由車載熱成像相機FLIR Tau2獲取,駕駛環(huán)境為11月至5月期間日間(60%)和夜間(40%),在加利福尼亞州圣巴巴拉市街道和公路上。數(shù)據(jù)集總共包含14452張紅外圖像,其中訓(xùn)練集8862張,驗證集1366張。目標種類共3種:Person、Bicycles、Car,其中Bicycles包括自行車和摩托車,汽車包括個人車輛和一些小型商用車。
本文首先在原始的未擴充的數(shù)據(jù)集上進行訓(xùn)練、驗證和測試,不載入任何預(yù)訓(xùn)練權(quán)重,由于數(shù)據(jù)集較小,收斂較快,本文在進行50次迭代,凍結(jié)參數(shù)后,最大訓(xùn)練迭代次數(shù)為100次。本文選用YOLOX-l版本作實驗結(jié)果的對比。
YOLOX和本文所改進的YOLOX在訓(xùn)練過程中所得的損失函數(shù)如圖8(a)、(b)所示。從圖8(a)、(b)的損失函數(shù)中可以看出,YOLOX和本文所改進的YOLOX均收斂較快,在前50次迭代中,下降平穩(wěn),在100次迭代后就收斂了,最終YOLOX的訓(xùn)練損失為5.0212,驗證損失為4.788,本文所改進后的YOLOX的訓(xùn)練損失為5.0193,驗證損失為4.7625。
測試得YOLOX的MAP(Mean Average Precision)為29.51%,本文所改進的模型的MAP為33.74%,效果均不佳。
分析在原始艾睿光電數(shù)據(jù)集上測試結(jié)果不理想的原因,可能是數(shù)據(jù)集過小,網(wǎng)絡(luò)未得到較好的訓(xùn)練,因此再在擴充后的數(shù)據(jù)集的訓(xùn)練集和驗證集上進行訓(xùn)練和驗證,訓(xùn)練時先訓(xùn)練100次迭代,凍結(jié)參數(shù)后,最大訓(xùn)練迭代次數(shù)為200次,保存訓(xùn)練所得的權(quán)重以及訓(xùn)練過程中的損失曲線如圖9(a)、(b)所示,再使用該權(quán)重對數(shù)據(jù)集中的測試集進行測試,測試效果如圖10所示,得到相應(yīng)的AP(Average Precision)以及MAP值,如圖11所示。
圖9 擴充后艾睿光電數(shù)據(jù)集上損失函數(shù)對比
圖10 測試效果(上:原圖,中:YOLOX,下:本文所改進的模型)
圖11 MAP及AP值
從圖9的損失函數(shù)中可以看出,在原YOLOX的模型下,訓(xùn)練集的損失函數(shù)下降比較平穩(wěn),但驗證集的損失函數(shù)在前100次迭代中出現(xiàn)了突然上升的情況,如圖9(a)所示,本文考慮是由于在擴充數(shù)據(jù)集中加入了噪聲,YOLOX提取錯誤的信息,從而導(dǎo)致后續(xù)驗證時出現(xiàn)損失突然增大,YOLOX在210次迭代后基本收斂。在采用本文改進的YOLOX時,在前100次迭代中損失曲線有小幅度波動,在240次迭代左右收斂,后120次損失函數(shù)下降平穩(wěn),如圖9(b)所示。從圖9(a)、(b)的對比可知,改進后的網(wǎng)絡(luò)的損失函數(shù)下降過程更平穩(wěn),最終YOLOX的訓(xùn)練損失為3.2256,驗證損失為3.0115,本文改進后的YOLOX的訓(xùn)練損失為3.1686,驗證損失為2.9504。YOLOX和本文改進的YOLOX在擴充后的數(shù)據(jù)集中訓(xùn)練所得到的損失均小于在原始數(shù)據(jù)集中所得的損失。
從圖10的測試效果可以看出,YOLOX在測試中易發(fā)生漏檢和誤檢。在場景一中,YOLOX錯誤將房屋與樹木之間的空間誤檢成小車,而本文改進的YOLOX則不存在這種情況。在場景二、三中,YOLOX均出現(xiàn)了漏檢的情況,場景二中漏檢了卡車旁的行人,場景三中漏檢了??吭诼窡暨叺钠嚕疚母倪MYOLOX沒有出現(xiàn)漏檢。同時,本文改進的YOLOX對于小目標也具有更好的檢測,提升了遠處目標的置信度。
由圖11的AP和MAP可知,經(jīng)本文改進后的YOLOX在MAP上提升較大,從57.34%提高到79.55%,增加了22.21%,效果明顯。具體到每個類的AP時,對truck和cyclist進行檢測的AP的提升不是很明顯,而對于car,bus,person檢測的AP的增加很顯著,其中car提升了約38%,bus提升了約38%,person提升了約33%。由實驗結(jié)果可知,本文所改進的YOLOX網(wǎng)絡(luò)在各類上均有不錯的提升,驗證了本模型的改進的有效性。
本文在艾睿光電擴充數(shù)據(jù)集上訓(xùn)練、驗證、測試后,檢驗?zāi)P偷姆夯芰Γ僭贔ILR數(shù)據(jù)集上進行了訓(xùn)練、驗證、測試。參數(shù)設(shè)定與在艾瑞光電擴充數(shù)據(jù)集上所采用的參數(shù)相同。
同時,為分析本文改進的部分對模型性能的影響,本文進行了消融實驗,每次實驗均采用相同的訓(xùn)練參數(shù),在不同的模型上進行測試。
結(jié)合相關(guān)實驗數(shù)據(jù),本文改進的網(wǎng)絡(luò)與目前主流的網(wǎng)絡(luò)Faster R-CNN、YOLOV3、YOLOV4-Tiny、YOLOV5-s進行比較,所有實驗的AP與MAP在表2中列出。
從表2中的結(jié)果可以看出,隨著YOLO版本的更替,YOLOX相較于YOLOV3、YOLOV4-Tiny、YOLOV5s的AP和MAP均有較大的提升。本文對Backbone、Neck和Head的優(yōu)化對于YOLOX有所提升,可以發(fā)現(xiàn)將YOLOX的Backbone替換為Swin Transformer,對于Person的精度提升了9.78%,提升了對于行人特征的提取能力,整體檢測精度提升了5.74%。Neck和Head的優(yōu)化,對Person和Bicycle也有所提升,整體精度提高1.55%。
表2 主流目標檢測對比及消融實驗
Note: The categories corresponding to the FILR dataset are Car, Person and Bicycle; The corresponding categories of Inf iRay dataset (including before and after expansion) are Car, Person and bus. See Figure 11 for the results of trunk and cyclist categories in the Inf iRay dataset .
與主流算法Faster R-CNN、YOLOv3、YOLOv4-Tiny、YOLOv5-s及改進版的對比,本文所改進的模型,相較于YOLOv3的改進版的精度提升了9.23%,相較于YOLOv4-Tiny的改進版的精度提升了11.53%,相較于YOLOv5s的改進版的精度提升了14.33%。
由此表明,本文所提出的基于YOLOX和Swin Transformer的模型對于各類目標的檢測精度都有所提升。在兩個數(shù)據(jù)集上精度的提升,也說明了本文所提出的模型的目標檢測效果。
針對紅外圖像噪聲大、對比度不佳等問題,本文結(jié)合YOLOX和Swin Transformer,對YOLOX網(wǎng)絡(luò)進行了優(yōu)化,根據(jù)實驗結(jié)果可得出以下結(jié)論:
1)采用Swin Transformer替換YOLOX中的backbone能有效地提高網(wǎng)絡(luò)特征提取的能力,并具有一定的抗噪聲能力。通過滑動窗口的方式,也能有效地降低計算量,提高性能,同時利于信息的交互,利于下游檢測任務(wù);
2)通過減少Neck和Head中的激活函數(shù)和標準化層,能夠有效地提高精度;
3)本文提出的基于YOLOX和Swin Transformer改進的網(wǎng)絡(luò),能有效地提高車載紅外目標檢測精度,在擴增后的艾睿光電紅外數(shù)據(jù)集上,總體精度提升22.21%,在FILR紅外數(shù)據(jù)集上,總體精度提升10.2%。
4)對比兩個數(shù)據(jù)集中各個類別提升的效果,Swin Transformer對于加強行人的特征的提取效果最為優(yōu)異。
[1] Caniou J.[M]., 2013.
[2] 任章, 李露, 蔣宏. 基于紅外圖像序列的運動目標檢測算法研究[J]. 紅外與激光工程, 2007, 36(9): 136-140.
REN Zhang, LI Lu, JIANG Hong Research on moving target detection algorithm based on infrared image sequence[J]., 2007, 36(9): 136-140.
[3] 吳燕茹, 程詠梅, 趙永強. 利用KPCA特征提取的Adaboost紅外標檢測[J]. 紅外與激光工程, 2011, 40(2): 338-343.
WU Yanru, CHENG Yongmei, ZHAO Yongqiang. Adaboost infrared target detection using KPCA feature extraction[J]., 2011, 40(2): 338-343.
[4] 陳炳文. 特定視場中紅外成像目標檢測關(guān)鍵技術(shù)研究[D]. 武漢: 武漢大學(xué), 2013.
CHEN Bingwen. Research on Key Technologies of Infrared Imaging Target Detection in Specific Field of View[D] Wuhan: Wuhan University, 2013.
[5] James W Davis, Vinay Sharma. Robust background-subtraction for person detection in thermal imagery[C]//, 2004: 1-8.
[6] Ei Baf Fida, Bouwmans Thierry, Vachon Bertrand. Fuzzy foreground detection for infrared video[C]//, 2008: 1-6.
[7] 于杰. 基于紅外攝像機的夜間場景監(jiān)控方法研究與實現(xiàn)[D]. 北京: 北京郵電大學(xué), 2013.
YU Jie. Research and Implementation of Night Scene Monitoring Method Based on Infrared Camera[D]. Beijing: Beijing University of Posts and Telecommunications, 2013.
[8] 易詩, 聶焱, 張洋溢, 等. 基于紅外熱成像與YOLOv3的夜間目標識別方法[J]. 紅外技術(shù), 2019, 41(10): 970-975.
YI Shi, NIE Yan, ZHANG Yangyi, et al. Night target recognition method based on infrared thermal imaging and YOLOv3[J]., 2019, 41(10): 970-975.
[9] 聶霆. 基于紅外圖像的前方車輛識別與車距檢測[D]. 西安: 西安電子科技大學(xué), 2015.
NIE Ting. Forward Vehicle Recognition and Distance Detection Based on Infrared Image[D]. Xi'an: Xi'an University of Electronic Science and Technology, 2015.
[10] 陳謐. 基于深度學(xué)習(xí)的紅外目標檢測方法研究與實現(xiàn)[D]. 成都: 電子科技大學(xué), 2021.
CHEN Mi. Research and Implementation of Infrared Target Detection Method Based on Depth Learning[D]. Chengdu: University of Electronic Science and Technology, 2021.
[11] 舒朗, 張智杰, 雷波. 一種針對紅外目標檢測的Dense-Yolov5算法研究[J]. 光學(xué)與光電技術(shù), 2021, 19(1): 69-75.
SHU Lang, ZHANG Zhijie, LEI Bo. Research on Dense-Yolov5 algorithm for infrared target detection[J]., 2021, 19(1): 69-75.
[12] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[J/OL]., 2103.14030.
[13] GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo seriesin[J/OL]. arXiv Preprint arXiv, 2107.08430.
[14] Redmon J, Farhadi A. YOLO V3: an incremental improvement[J/OL]., 1804.02767.
[15] Bochkovskiy A, WANG C Y, LIAO H M. YOLOv4: optimal speed and accuracy of object detection[J/OL]. arXiv Preprint arXiv, 2004.10934.
[16] ZHUANG L, Hanzi M, CHAO Yuan W, et al. A ConvNet for the 2020s[J/OL]., 2201.03545.
[17] 王周春, 崔文楠, 張濤. 基于支持向量機的長波紅外目標分類識別算法[J]. 紅外技術(shù), 2021, 43(2): 153-161.
WANG Zhouchun, CUI Wennan, ZHANG Tao. Long wave infrared target classification and recognition algorithm based on support vector machine [J]., 2021, 43(2): 153-161.
[18] Inf iray. Double light vehicle scene database[EB/OL]. [2022-04-02]. http://iray.iraytek.com:7813/apply/Double_light_vehicle.html/.
[19] Flir. FLIR Thermal Data Set[EB/OL]. [2022-04-02]. https://www.flir. com/oem/adas/adas-dataset-form/.
[20] 張汝榛, 張建林, 祁小平, 等. 復(fù)雜場景下的紅外目標檢測[J]. 光電工程, 2020, 47(10): 128-137.
ZHANG Ruzhen, ZHANG Jianlin, QI Xiaoping, et al. Infrared target detection in complex scenes[J]., 2020, 47(10): 128-137.
[21] 張鵬輝, 劉志, 鄭建勇, 等. 面向嵌入式系統(tǒng)的復(fù)雜場景紅外目標實時檢測算法[J]. 光子學(xué)報, 2022, 51(2): 203-212.
ZHANG Penghui, LIU Zhi, ZHENG Jianyong, et al. Real time infrared target detection algorithm for embedded systems in complex scenes[J]., 2022, 51(2): 203-212.
[22] 宋甜, 李穎, 王靜. 改進YOLOv5s的車載紅外圖像目標檢測[J]. 現(xiàn)代計算機, 2022, 28(2): 21-28.
SONG Tian, LI Ying, WANG Jing. Improved vehicle infrared image target detection of YOLOv5s[J]., 2022, 28(2): 21-28.
Vehicle Infrared Target Detection Based on YOLOX and Swin Transformer
LOU Zhehang,LUO Suyun
(School of Mechanical and Automotive Engineering, Shanghai University of Engineering Science, Shanghai 201620, China)
Owing to the problems of high noise and poor contrast in infrared images, the accuracy of target detection is easily reduced. Here, an improved YOLOX model combined with YOLOX and a Swin Transformer is proposed. To improve the feature extraction ability, reduce the activation functions and standardization layers of the neck and head parts in YOLOX, and optimize the network structure, the Swin Transformer is used to replace the CSPDarknet backbone extraction network in YOLOX. This study tests the improved model on both the InfiRay and FILR datasets. The obtained experimental results indicate that the improved YOLOX network has significantly improved the average detection accuracy on both datasets and is more suitable for infrared image target detection.
object detection, infrared image, YOLOX, Swin Transformer
TP391.4
A
1001-8891(2022)11-1167-09
2022-06-10;
2022-08-10.
樓哲航(1999-),男,碩士研究生,主要從事無人駕駛車輛環(huán)境感知方向的研究。E-mail:15968194691@163.com。
羅素云(1975-),女,副教授,主要從事無人駕駛汽車環(huán)境感知及控制的研究。E-mail:lsyluo@163.com。