郝 帥,何 田,馬 旭,楊 磊,孫思雅
(西安科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710054)
行人檢測旨在利用計(jì)算機(jī)視覺方法判斷圖像或者視頻序列中是否存在行人目標(biāo)并給予精確定位[1]。目前,該技術(shù)已廣泛應(yīng)用于目標(biāo)跟蹤[2]、車輛輔助駕駛[3]、人體行為分析[4]等領(lǐng)域。由于熱紅外傳感器受光照變化及天氣條件的影響小,具有較強(qiáng)的抗干擾能力,能夠滿足全天候檢測任務(wù)需求[5]。因此,基于熱紅外圖像的行人檢測(簡稱紅外行人檢測)具有重要的研究意義,也成為行人檢測領(lǐng)域的研究熱點(diǎn)。
傳統(tǒng)紅外行人檢測算法[6]主要是利用滑窗技術(shù)實(shí)現(xiàn)人工特征提取并結(jié)合分類判別器完成行人檢測任務(wù)。該算法雖然在某些特定場景下能夠?qū)崿F(xiàn)目標(biāo)的準(zhǔn)確檢測,但難以捕捉紅外行人目標(biāo)的高級語義信息,在復(fù)雜環(huán)境下泛化能力欠佳。相較于傳統(tǒng)的目標(biāo)檢測算法,基于深度學(xué)習(xí)的紅外行人檢測算法利用卷積神經(jīng)網(wǎng)絡(luò)出色的特征提取和非線性擬合能力自動學(xué)習(xí)目標(biāo)特征,在檢測精度、速度以及泛化能力上都表現(xiàn)更好。該類算法通??煞譃閮深悾簝呻A段(two-stage)檢測和一階段(one-stage)檢測??焖賲^(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Neural Network,F(xiàn)aster R-CNN)[7]作 為two-stage 的代表算法之一,首先尋找候選區(qū)域,然后在候選區(qū)域上對檢測結(jié)果進(jìn)行分類回歸,能夠達(dá)到較高的檢測精度,但因主干特征提取網(wǎng)絡(luò)僅提取單層特征圖,對紅外行人目標(biāo)的特征表達(dá)能力不足,導(dǎo)致密集多目標(biāo)的檢測性能受限。為此,在Faster R-CNN 檢測網(wǎng)絡(luò)基礎(chǔ)上,劉瓊[8]等考慮到紅外圖像低清晰度對檢測精度的不利影響,設(shè)計(jì)了膨脹最大值濾波器以增強(qiáng)紅外行人目標(biāo)顯著性,進(jìn)而提高檢測精度。Chen[9]等針對紅外行人目標(biāo)多尺度特性,構(gòu)建區(qū)域分解分支,結(jié)合多區(qū)域特征實(shí)現(xiàn)了跨尺度紅外行人檢測任務(wù)。Xu[10]等為降低檢測網(wǎng)絡(luò)誤檢率,基于視點(diǎn)幾何約束原理,提出地面上下文聚合網(wǎng)絡(luò),從而剔除遠(yuǎn)離地面區(qū)域的紅外行人誤檢目標(biāo)。然而,two-stage 紅外行人檢測算法易丟失部分遮擋目標(biāo)空間信息,且候選框之間存在大量冗余,算法計(jì)算成本較高,往往難以完成復(fù)雜環(huán)境下的實(shí)時(shí)檢測任務(wù)。
One-stage 算法基于回歸思想,直接利用檢測網(wǎng)絡(luò)預(yù)測行人目標(biāo)類別概率并定位坐標(biāo),大大提高了檢測速率。Pei[11]等設(shè)計(jì)了一種基于Retinanet 的目標(biāo)檢測器以融合多層語義信息,從而提高紅外圖像中小尺度行人目標(biāo)的檢測能力。Wang[12]等結(jié)合短路連接和多重空洞卷積,使檢測算法在抑制網(wǎng)絡(luò)退化現(xiàn)象的同時(shí)擴(kuò)大檢測感受野,進(jìn)而增強(qiáng)檢測算法對紅外行人檢測目標(biāo)的特征表達(dá)能力。李經(jīng)宇等[13]針對復(fù)雜環(huán)境下多尺度目標(biāo)顯著度低的問題,引入注意力模型使檢測網(wǎng)絡(luò)在多層特征融合分支上執(zhí)行權(quán)重分配,從而提高了行人目標(biāo)顯著度。劉怡帆等[14]結(jié)合CLAHE(Contrast Limited Adaptive Histogram Equalization)算 法 及YOLO(You Only Look Once)檢測網(wǎng)絡(luò),通過提高紅外圖像中待檢測目標(biāo)的對比度,提升檢測精度。Liu 等[15]在YOLO檢測網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建anchor-based 和anchor-free協(xié)同預(yù)測檢測頭,通過設(shè)置權(quán)重參數(shù)在線選擇損失函數(shù)來提高檢測網(wǎng)絡(luò)對密集小尺度紅外行人目標(biāo)的檢測能力。然而,上述算法并未測試多目標(biāo)相互遮擋或重疊區(qū)域時(shí)的檢測性能。
綜上所述,one-stage 算法相比于two-stage 算法能夠更好地兼顧檢測精度和速度。然而,受紅外傳感器固有特性限制及復(fù)雜環(huán)境干擾,onestage 算法檢測行人目標(biāo)時(shí)依然存在以下問題:紅外傳感器受熱靈敏性限制,行人目標(biāo)紋理特征較弱且存在邊緣模糊現(xiàn)象,易淹沒于冗余背景中,從而導(dǎo)致紅外待檢測目標(biāo)特征難以有效表達(dá),影響檢測網(wǎng)絡(luò)性能;在密集多目標(biāo)場景下,紅外行人目標(biāo)存在多尺度及部分遮擋,進(jìn)而導(dǎo)致紅外行人特征形變甚至丟失。
針對上述問題,本文提出一種動態(tài)特征優(yōu)化機(jī)制下的紅外行人檢測算法(Cross-scale Detection Network based on Dynamic Feature Optimization Mechanism,DFOM-CSNet)。首先,設(shè)計(jì)了亮度感知模塊(Luminance Perception Module,LPM)對輸入圖像進(jìn)行亮度特征提取;接著設(shè)計(jì)了EG-Chimp(Chimp optimization with Energy loss and Gradient variation)優(yōu)化模型對構(gòu)建的目標(biāo)函數(shù)進(jìn)行迭代尋優(yōu),從而在增強(qiáng)輸入圖像局部對比度和細(xì)節(jié)表達(dá)能力的同時(shí)抑制背景信息干擾。為增強(qiáng)檢測網(wǎng)絡(luò)對多尺度及部分遮擋行人目標(biāo)的檢測性能,提出了一種CSFF-BiFPN(Bi-Directional Feature Pyramid Network Based on Cross Scale Feature Fusion)結(jié)構(gòu)。該結(jié)構(gòu)采用尺度跳躍連接的方式,增強(qiáng)頸部網(wǎng)絡(luò)特征聚合能力。同時(shí),構(gòu)建跨尺度特征融合模塊(Crossscale Feature Fusion,CSFF)來學(xué)習(xí)不同尺度特征之間的權(quán)重參數(shù),從而改善多尺度以及部分遮擋情況下的行人檢測效果。為精確定位檢測目標(biāo),在原網(wǎng)絡(luò)中引入完全交并比(Complete Intersection Over Union,CIOU)[16]回歸損失函數(shù),通過計(jì)算真實(shí)框與預(yù)測框的重疊面積、中心點(diǎn)距離及長寬比,加速算法收斂,進(jìn)而提高檢測精度。
針對復(fù)雜環(huán)境下行人尺度多樣性以及圖像對比度低等特性造成紅外行人目標(biāo)難以準(zhǔn)確定位的問題,本文在YOLOv5 特征提取網(wǎng)絡(luò)CSPDark-Net[17]的基礎(chǔ)上,提出DFOM-CSNet 算法,其框架如圖1 所示,由DFOM、主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)及預(yù)測層構(gòu)成。其中,DFOM 機(jī)制旨在增強(qiáng)輸入圖像的對比度及細(xì)節(jié)表達(dá)能力,由LPM 模塊和EGChimp 優(yōu)化模型兩部分組成。LPM 模塊對紅外圖像進(jìn)行亮度特征提取,同時(shí)EG-Chimp 優(yōu)化模型對構(gòu)建的目標(biāo)函數(shù)進(jìn)行迭代尋優(yōu),從而增強(qiáng)紅外行人目標(biāo)的對比度和細(xì)節(jié)表達(dá)能力并抑制背景信息干擾。
圖1 DFOM-CSNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure diagram of DFOM-CSNet network
主 干 網(wǎng) 絡(luò) 由Focus 和CSPNet(Cross Stage Partial Network)兩部分構(gòu)成。其中,F(xiàn)ocus 切片模塊不僅擴(kuò)大了網(wǎng)絡(luò)感受野,還能夠有效抑制圖像特征信息損失,從而加快訓(xùn)練速度。CSPNet結(jié)構(gòu)旨在解決網(wǎng)絡(luò)優(yōu)化過程中梯度信息重復(fù)進(jìn)而造成計(jì)算成本過高的問題。
頸部網(wǎng)絡(luò)借鑒CSPNet 構(gòu)造了CSP2_X 結(jié)構(gòu)以加強(qiáng)網(wǎng)絡(luò)特征融合能力,并設(shè)計(jì)CSFF-BiFPN特征金字塔結(jié)構(gòu)通過尺度跳躍連接方式及跨尺度特征融合模塊,改善多尺度以及部分遮擋情況下的行人檢測效果。
預(yù)測層通過引入CIOU 回歸損失函數(shù)提高訓(xùn)練過程中預(yù)測框的回歸速度和精度。
受紅外傳感器熱輻射成像機(jī)理的影響,紅外圖像相較于可見光圖像分辨率往往較低,細(xì)節(jié)分辨能力較弱。針對該問題,本文提出一種DFOM機(jī)制,它利用亮度感知模塊將輸入圖像分解為亮度特征圖像及紅外背景圖像,并設(shè)計(jì)EG-Chimp優(yōu)化模型對構(gòu)建的目標(biāo)函數(shù)進(jìn)行迭代尋優(yōu),從而在增強(qiáng)輸入圖像局部對比度和細(xì)節(jié)表達(dá)能力的同時(shí)抑制背景信息干擾。
為解決紅外行人目標(biāo)特征難以準(zhǔn)確表達(dá)的問題,設(shè)計(jì)LPM 模塊。首先,構(gòu)建四叉樹-貝塞爾插值算子,通過調(diào)節(jié)部分采樣控制點(diǎn)來恢復(fù)大規(guī)模像素矩陣,進(jìn)而得到初始背景圖像。然后,為避免由于邊緣控制點(diǎn)采樣不均而造成圖像塊效應(yīng),利用引導(dǎo)濾波的局部線性擬合特性平滑圖像邊緣信息,最終得到重構(gòu)背景圖像和亮度特征圖像,為后續(xù)動態(tài)特征優(yōu)化奠定基礎(chǔ)。
3.1.1 四叉樹-貝塞爾插值
為準(zhǔn)確重構(gòu)紅外背景圖像,本文引入四叉樹分解方法[18],通過盡可能多地采樣除紅外亮度區(qū)域外的控制點(diǎn)來估計(jì)背景輪廓信息。具體分解步驟如下:
算法1:動態(tài)特征優(yōu)化機(jī)制Input :紅外圖像Iir,最大優(yōu)化迭代次數(shù)Max_iteration,尋優(yōu)參數(shù)α,搜索種群XAttacker,XChaser,XBarrier 和XDriver.1. LPM 模塊構(gòu)造四叉樹-貝塞爾插值算子重構(gòu)初始紅外背景圖像;引入引導(dǎo)濾波平滑噪音并得到紅外亮度特征圖像ILir和紅外背景圖像IBir;2. EG-Chimp 優(yōu)化模型構(gòu)建動態(tài)特征優(yōu)化圖像:IOir=α×ILir+IBir;設(shè)計(jì)目標(biāo)函數(shù)對參數(shù)α 尋優(yōu):F=min { LSF+λLCON};While t <Max_iteration For each chimp計(jì)算各人猿種群的位置向量;更新f,m,c,a,D;End For For each search chimp更新目前搜索種群的位置向量;End For更新XAttacker,XChaser,XBarrier 和XDriver;t=t+1;End While Output :動態(tài)特征優(yōu)化圖像IOir
(1)調(diào)整原始紅外圖像尺寸為512×512,且將其分解為4 個(gè)等尺寸的一級圖像塊;
(2)逐塊比較各圖像塊內(nèi)的最大灰度pmax和最小灰度pmin,若滿足分解條件:
式中:threshold 表示分解閾值,這里取10。
則進(jìn)一步將該圖像塊分解為4 個(gè)二級圖像塊。
(3)重復(fù)步驟(2),直至所有圖像塊均不滿足公式(1),則四叉樹分解結(jié)束。
通過四叉樹分解算法可將輸入圖像分割為多個(gè)圖像塊,從各圖像塊中均勻采樣16 個(gè)控制點(diǎn)后,利用貝塞爾插值運(yùn)算子重建紅外背景圖像,即:
式中:(x,y)表示插值采樣點(diǎn);P表示由16 個(gè)采樣控制點(diǎn)組成的4×4 矩陣;X和Y分別為由4×4均勻采樣控制點(diǎn)的行列坐標(biāo)值構(gòu)成的矢量;M表示常系數(shù)插值矩陣。各參數(shù)的具體取值如下:
3.1.2 引導(dǎo)濾波
為解決采樣過程中各圖像塊邊緣區(qū)域控制點(diǎn)因選取不一導(dǎo)致重構(gòu)背景圖像出現(xiàn)塊效應(yīng)的問題,本文采用引導(dǎo)濾波[19]對初始背景圖像進(jìn)行平滑處理,即:
式中:IBir表示紅外背景圖像;wk表示以像素k為中心的圖像塊;ak和bk為兩線性參數(shù),具體取值如下:
式中:μk和分別表示引導(dǎo)圖像Iir在wk中的像素均值和方差;代表Ibk的像素均 值;|w|為wk圖 像塊內(nèi)包含的像素點(diǎn)個(gè)數(shù);ε表示正則化參數(shù),以避免ak取值過大。
最后,利用線性相減算子可提取紅外亮度特征圖像ILir,如式(8)所示:
LPM 模塊結(jié)構(gòu)如圖2 所示。
圖2 LPM 模塊原理Fig.2 Structure diagram of LPM module
為抑制復(fù)雜背景對行人目標(biāo)準(zhǔn)確檢測的影響,本文提出EG-Chimp 優(yōu)化模型,通過迭代尋優(yōu)生成具有局部高對比度的動態(tài)特征優(yōu)化圖像IOir,如式(9)所示:
式中α為尋優(yōu)參數(shù)。
3.2.1 目標(biāo)函數(shù)構(gòu)建
本文構(gòu)建的目標(biāo)函數(shù)旨在兼顧動態(tài)特征優(yōu)化圖像的梯度變化和能量損失,分別用空間頻率LSF和內(nèi)容損失LCON表示。
空間頻率(Spatial Frequency,SF)反映圖像空間突變?nèi)邕吘壍淖兓闆r,用于度量圖像的梯度分布,圖像SF 值越高,圖像中人物目標(biāo)越清晰[20]。其計(jì)算公式如下:
式中:(i,j)表示圖像的橫縱坐標(biāo)。
為避免在優(yōu)化過程中由于行人目標(biāo)亮度特征過度增強(qiáng)而導(dǎo)致其細(xì)節(jié)信息無法有效保留的問題,利用l2函數(shù)構(gòu)建內(nèi)容損失函數(shù),即:
綜上所述,為了增強(qiáng)原始紅外圖像中行人亮度特征的同時(shí)兼顧細(xì)節(jié)信息,構(gòu)造的目標(biāo)函數(shù)為:
式中:λ為保持兩項(xiàng)平衡的正則化參數(shù),這里λ=1 500。
3.2.2 目標(biāo)函數(shù)自適應(yīng)優(yōu)化
元啟發(fā)式優(yōu)化算法由于其簡單、靈活、高效等特點(diǎn),已成為解決全局優(yōu)化問題的主要方法[21]。然而,隨著問題復(fù)雜性的增加,該算法易出現(xiàn)收斂速度較慢,陷入局部最優(yōu)解等問題[22]。因此,針對目標(biāo)函數(shù)式(12),本文引入人猿優(yōu)化算法[23],通過模擬人猿捕食和混亂搶食2 種狀態(tài),加快算法收斂,進(jìn)而求解得到尋優(yōu)參數(shù)α,在保證動態(tài)特征優(yōu)化圖像空間頻率的同時(shí)抑制其內(nèi)容損失。該算法將人猿劃分為攻擊型XAttacker、驅(qū)趕型XChaser、攔截型XBarrier和追逐型XDriver4 類。狩獵過程中,人猿可根據(jù)獵物的位置相應(yīng)地改變自身位置,如式(13)所示:
式中:t表示當(dāng)前的迭代次數(shù),Xprey為獵物的位置向量,Xchimp為人猿的位置向量,a,c和m為系數(shù)向量,具體取值如下:
式中:f在迭代過程中由2.5 非線性遞減至0,r1和r2是[0,1]內(nèi)的隨機(jī)向量;m為一個(gè)基于高斯混沌映射得到的混沌向量chaos,代表了人猿在狩獵過程中混亂搶食的社會現(xiàn)象,具體取值如下:
式中:mod(·)為求余算子,且Chaos(1)=0.7。獵物被包圍后,由驅(qū)趕者、攔截者、追逐者輔助攻擊者完成最終狩獵任務(wù)。為提高算法收斂速度,模型在迭代后期模擬了人猿混亂搶食過程,如下:
式中χ為[0,1]內(nèi)的隨機(jī)參數(shù)。
狩獵過程中,一方面人猿根據(jù)攻擊者、驅(qū)趕者、攔截者和追逐者位置更新位置,并攻擊獵物;另一方面人猿通過分散活動尋找獵物完成全局搜索任務(wù)。最終,通過多次迭代可得到動態(tài)特征優(yōu)化圖像,如圖3 所示。通過動態(tài)特征優(yōu)化機(jī)制可以有效增強(qiáng)紅外圖像亮度信息,相較于原始圖像,優(yōu)化后的圖像具有更高的清晰度,為行人目標(biāo)的準(zhǔn)確檢測奠定了基礎(chǔ)。
圖3 動態(tài)特征優(yōu)化前后的圖像對比Fig.3 Comparison of images before-and-after infrared feature dynamic optimization
原始Yolov5 網(wǎng)絡(luò)為提高不同尺度間特征聚合能力,利用FPN+PAN 結(jié)構(gòu)在自底向上傳遞強(qiáng)語義信息的同時(shí),自頂向下傳遞強(qiáng)定位信息。然而,該結(jié)構(gòu)將不同尺度特征圖進(jìn)行尺寸調(diào)整后直接相加聚合,無法充分利用輸入端的跨尺度信息,進(jìn)而影響最終的檢測精度。為解決此問題,本文構(gòu)建CSFF-BiFPN 特征金字塔結(jié)構(gòu),通過尺度跳躍連接方式提高網(wǎng)絡(luò)特征聚合的能力,并設(shè)計(jì)跨尺度特征融合模塊,以利用可學(xué)習(xí)權(quán)重參數(shù)對多尺度特征進(jìn)行權(quán)值分配,進(jìn)而增強(qiáng)檢測網(wǎng)絡(luò)對多尺度及部分遮擋行人目標(biāo)的檢測性能,特征金字塔結(jié)構(gòu)對比如圖4 所示。本文所構(gòu)建的CSFF-BiFPN 特征金字塔結(jié)構(gòu),通過刪除僅有一條輸入邊的節(jié)點(diǎn)來減少網(wǎng)絡(luò)參數(shù)量。同時(shí),借鑒FPN-PAN 結(jié)構(gòu),從兩個(gè)方向分別傳遞強(qiáng)語義和強(qiáng)定位信息。為進(jìn)一步利用輸入特征的跨尺度信息,通過尺度跳躍連接的方式提高網(wǎng)絡(luò)特征聚合能力并結(jié)合跨尺度特征融合模塊CSFF_2和CSFF_3對來自不同輸入端的特征信息進(jìn)行權(quán)重分配。
圖4 特征金字塔結(jié)構(gòu)對比Fig.4 Comparison of feature pyramid structures
FPN-PAN 結(jié)構(gòu)對來自不同尺度的輸入特征進(jìn)行尺度調(diào)整后直接進(jìn)行相加運(yùn)算,易導(dǎo)致特征融合不足的問題。因此,本文設(shè)計(jì)了跨尺度特征融合模塊CSFF_2 和CSFF_3,自適應(yīng)學(xué)習(xí)尺度不同的輸入特征權(quán)重參數(shù),模型結(jié)構(gòu)如圖5所示。
圖5 跨尺度特征融合模塊結(jié)構(gòu)Fig.5 Structure of cross-scale feature fusion module
將 leveli的 輸 入 特 征 記 作Ii,其 中i∈[1,2,3]。首先,對不同尺度特征進(jìn)行尺度調(diào)整,在上采樣過程中,利用1×1 的卷積調(diào)整通道數(shù)并引入最近鄰插值提高分辨率,在下采樣過程中,通過步長為2 的3×3 卷積完成1/ 2 比例的下采樣,并通過在2 步卷積之前添加步長為2 的最大池化層完成1/ 4 比例的下采樣;接著,利用1×1 的卷積預(yù)估各輸入特征的權(quán)重參數(shù),并在保持權(quán)重參數(shù)之間相對關(guān)系的同時(shí),加快算法收斂,利用softmax 函數(shù)對各預(yù)估權(quán)重進(jìn)行歸一化處理;最后,對尺度調(diào)整后的輸入特征進(jìn)行權(quán)重分配得到融合后的輸出特征,分別如下:
式中:λφ,λγ,λψ,λδ和λη表示利用1×1 卷積得到的預(yù)估權(quán)重參數(shù)。
實(shí)驗(yàn)中軟硬件平臺配置如表1 所示。
表1 軟硬件平臺配置Tab.1 Software and hardware platform configuration
為驗(yàn)證本文所提出算法的優(yōu)勢,從KAIST數(shù)據(jù)集[24]中隨機(jī)選取1 000 張樣本數(shù)據(jù)進(jìn)行實(shí)驗(yàn),行人目標(biāo)共5 384 個(gè)。其中,訓(xùn)練樣本為700張,剩余300 張圖片作為測試數(shù)據(jù)集。
在網(wǎng)絡(luò)模型訓(xùn)練過程中,將輸入圖像分辨率統(tǒng)一調(diào)整為640×640,并采用動量項(xiàng)為0.937 的異步隨機(jī)梯度下降法進(jìn)行訓(xùn)練,在每一批訓(xùn)練的batch 中包含32 張圖片,分29 次送入訓(xùn)練網(wǎng)絡(luò)。在前200 輪將訓(xùn)練中的學(xué)習(xí)率設(shè)置為0.01,隨著迭代輪數(shù)的增加,在后100 輪迭代中將訓(xùn)練的學(xué)習(xí)率降到0.001。為了防止模型過擬合,將權(quán)重衰減正則項(xiàng)設(shè)置為5×10-3,同時(shí)選用CIOU 損失函數(shù)[16]通過計(jì)算兩框的重疊面積、中心點(diǎn)距離及寬高比提高預(yù)測框的回歸速度,如下:
式中:b和bgt分別表示預(yù)測框和目標(biāo)框的中心點(diǎn),ρ(?)為兩框中心點(diǎn)間的歐式距離,C表示覆蓋預(yù)測框與目標(biāo)框之間的最小矩形的斜距,?為限制預(yù)測框長寬比的權(quán)重參數(shù),v表示衡量預(yù)測框與真實(shí)框?qū)捀弑鹊囊恢滦詤?shù)。?和v分別為:
式中:w,h,wgt,hgt分別表示預(yù)測框和目標(biāo)框的寬和高。
為驗(yàn)證本文所提出動態(tài)特征優(yōu)化機(jī)制的有效性,選取熵(Entropy)[25],Brenner 梯度函數(shù)[26],離散余弦變換函數(shù)(Discrete Cosine Transform,DCT)[27]和方差函數(shù)(Variance)[26]作為客觀評價(jià)指標(biāo)。其中,Entropy 表征了圖像所含信息量的豐富程度,Brenner 通過計(jì)算圖像二階梯度估計(jì)其清晰程度,DCT 突出圖像頻率分布信息,Variance 則從圖像灰度變化的角度評估圖像的聚焦程度。Entropy,Brenner,DCT 和Variance 數(shù)值越大,動態(tài)特征優(yōu)化后圖像對比度越高,特征表達(dá)能力越強(qiáng)。對KAIST數(shù)據(jù)集中隨機(jī)選取1 000張樣本數(shù)據(jù)進(jìn)行測試驗(yàn)證,其定量分析結(jié)果如表2所示。
由表2 可知,本文提出的動態(tài)特征優(yōu)化算法的4 種評價(jià)指標(biāo)均為最優(yōu),從而證明原始圖像經(jīng)過動態(tài)特征優(yōu)化后不僅包含更豐富的信息量,而且具有最強(qiáng)的對比度和最好的特征表達(dá)能力。
表2 1 000 張圖片的評價(jià)指標(biāo)平均值Tab.2 Average values of evaluation indexes for 1 000 images
為客觀評估本文算法的檢測性能,將DFOM-CSNet 檢測網(wǎng)絡(luò)與原始YOLOv5 檢測框架進(jìn)行對比,結(jié)果如圖6 所示。
圖6 消融實(shí)驗(yàn)結(jié)果Fig.6 Results of ablation experiment
從圖6(a)可以看出,YOLOv5 檢測網(wǎng)絡(luò)約在75 輪后達(dá)到平衡且最終穩(wěn)定于0.018;而本文提出的DFOM-CSNet 檢測算法僅訓(xùn)練20 輪損失值即下降至0.02,并最終穩(wěn)定于0.009 左右,取得了較好的訓(xùn)練效果。從圖6(b)可以看出,YOLOv5 檢測網(wǎng)絡(luò)最終的平均準(zhǔn)確率大致為0.895,而本文算法的檢測精度可達(dá)0.913。
為了進(jìn)一步驗(yàn)證各改進(jìn)模塊的作用,本文在原始YOLOv5 算法框架基礎(chǔ)上通過加入不同改進(jìn)策略對測試集進(jìn)行消融實(shí)驗(yàn),所有實(shí)驗(yàn)均使用相同的數(shù)據(jù)樣本和參數(shù)設(shè)置,對比結(jié)果如表3所示。
表3 改進(jìn)模塊驗(yàn)證Tab.3 Improved module validation
從表3 可知,相比于原始YOLOv5 檢測網(wǎng)絡(luò)(損失函數(shù)為GIOU),引入CIOU 損失函數(shù)后精度提升了0.5%,加入DFOM 動態(tài)特征優(yōu)化機(jī)制后精度提升了1.1%,構(gòu)建CSFF-BiFPN 跨尺度特征融合模塊后精度提升了0.8%。為驗(yàn)證不同模塊協(xié)同訓(xùn)練的優(yōu)勢,對CSFF-BiFPN 網(wǎng)絡(luò)下結(jié)合GIOU 和DFOM 的 檢 測 算 法,YOLOv5 網(wǎng) 絡(luò)下結(jié)合CIOU 和DFOM 的檢測網(wǎng)絡(luò),及CSFFBiFPN 網(wǎng)絡(luò)下基于CIOU 的檢測算法進(jìn)行消融實(shí)驗(yàn),結(jié)果表明,檢測精度相較于原始網(wǎng)絡(luò)分別提升了1.9%,1.5%及0.9%。最后,本文算法通過融合多種改進(jìn)模塊檢測精度可達(dá)90.7%,較原始檢測網(wǎng)絡(luò)提升了2.4%。
為客觀評價(jià)本文算法的檢測性能,選取Faster-RCNN[7]、SSD[28]、RetinaNet[29]、Sparse RCNN[30]、VarifocalNet[31]、TOOD[32]、I-YOLO[33]、YOLOv4-CLAHE[13]和TC-Det[34]9 種 檢 測 算 法,在部分行人遮擋場景、多尺度密集多目標(biāo)場景、亮度過曝場景下與本文CSNet 及DFOM-CSNet檢測網(wǎng)絡(luò)進(jìn)行對比測試,結(jié)果如圖7 所示(彩圖見期刊電子版)。其中,真實(shí)紅外行人目標(biāo)如原始紅外圖像中黃色實(shí)線框所示,為了便于觀察和后續(xù)分析,各算法的漏檢和誤檢區(qū)域已用紅色虛線框進(jìn)行標(biāo)注。
圖7 檢測結(jié)果對比Fig.7 Comparison of detection results
從第1 組實(shí)驗(yàn)可以看出,除DFOM-CSNet 檢測算法外,其余幾種對比算法在處理部分行人遮擋場景時(shí)均存在不同程度的漏檢。從第2 組實(shí)驗(yàn)可以看出,在復(fù)雜環(huán)境下Faster-RCNN、SSD、RetinaNet,及Sparse R-CNN 算法存在較為嚴(yán)重的漏檢問題,而其余5 種檢測框架對不同尺度間特征信息的聚合能力不足,難以實(shí)現(xiàn)多尺度行人目標(biāo)的準(zhǔn)確檢測。本文提出的DFOM-CSNet 檢測算法通過設(shè)計(jì)CSFF-BiFPN 特征金字塔結(jié)構(gòu),以增強(qiáng)網(wǎng)絡(luò)特征聚合能力并構(gòu)建跨尺度融合模塊對不同尺度特征進(jìn)行權(quán)重分配,有效提高了多尺度密集多目標(biāo)場景下行人目標(biāo)的檢測性能。從第3 組實(shí)驗(yàn)可以看出,在亮度過曝場景下,受日間過度光照影響,紅外圖像無法準(zhǔn)確表達(dá)行人目標(biāo)的細(xì)節(jié)信息,導(dǎo)致各種算法在檢測過程中均出現(xiàn)較多漏檢。本文提出的DFOM-CSNet 檢測算法通過設(shè)計(jì)動態(tài)特征優(yōu)化機(jī)制可以有效增強(qiáng)紅外圖像局部對比度,相較于CSNet 算法具有更好的檢測性能。
為定量評估本文檢測網(wǎng)絡(luò)的優(yōu)勢,對KAIST 數(shù)據(jù)測試集進(jìn)行對比實(shí)驗(yàn),所有目標(biāo)檢測算法均使用相同的數(shù)據(jù)樣本和參數(shù)設(shè)置,檢測結(jié)果如表4 所示??梢钥闯觯疚乃惴ㄔ跈z測精度上明顯優(yōu)于其他9 種對比算法。雖然引入動態(tài)特征優(yōu)化機(jī)制后網(wǎng)絡(luò)運(yùn)行時(shí)間變長,但相比對比算法仍具有明顯優(yōu)勢。
表4 不同檢測算法的對比結(jié)果Tab.4 Comparison results of different detection algorithms
針對紅外行人圖像分辨率低、待檢測目標(biāo)存在多尺度及部分遮擋特性導(dǎo)致傳統(tǒng)算法難以準(zhǔn)確檢測的問題,本文在CSPDarkNet 特征提取網(wǎng)絡(luò)的基礎(chǔ)上提出了一種動態(tài)特征優(yōu)化機(jī)制下的跨尺度紅外行人檢測算法。在KAIST 數(shù)據(jù)集上進(jìn)行行人目標(biāo)檢測實(shí)驗(yàn),結(jié)果表明,本文設(shè)計(jì)的動態(tài)特征優(yōu)化機(jī)制通過構(gòu)建LPM 模塊和EGChimp 優(yōu)化模型,在抑制紅外背景信息的同時(shí)能夠增強(qiáng)行人目標(biāo)的對比度和細(xì)節(jié)表達(dá)能力。然后,提出了CSFF-BiFPN 特征金字塔結(jié)構(gòu),采用尺度跳躍連接方式有效增強(qiáng)了頸部網(wǎng)絡(luò)對部分遮擋及多尺度行人目標(biāo)的檢測能力;并通過構(gòu)建跨尺度特征融合模塊,利用可學(xué)習(xí)權(quán)重參數(shù)對多尺度特征進(jìn)行權(quán)值分配,有效解決了行人目標(biāo)在多尺度密集多目標(biāo)場景下由于特征表達(dá)能力不足而造成的漏檢和誤檢問題。
與9 種經(jīng)典檢測算法相比,本文提出的DFOM-CSNet 網(wǎng)絡(luò)檢測精度可達(dá)90.7%,在各類復(fù)雜場景下具有更好的檢測效果,且能夠滿足實(shí)時(shí)性需求。但該算法對小尺度目標(biāo)仍然存在漏檢,下一階段將針對這一問題展開研究。