• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測算法

      2021-02-28 00:46:40茍于濤宋怡萱
      光電工程 2021年12期
      關(guān)鍵詞:分支行人紅外

      茍于濤,馬 梁,宋怡萱,靳 雷,雷 濤*

      基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測算法

      茍于濤1,2,3,馬 梁1,2,3,宋怡萱1,2,3,靳 雷1,2,雷 濤1,2*

      1中國科學(xué)院光電探測技術(shù)研究室,四川 成都 610209;2中國科學(xué)院光電技術(shù)研究所,四川 成都 610209;3中國科學(xué)院大學(xué),北京 100049

      與高質(zhì)量可見光圖像相比,紅外圖像在行人檢測任務(wù)中往往存在較高的虛警率。其主要原因在于紅外圖像受成像分辨率及光譜特性限制,缺乏清晰的紋理特征,同時部分樣本的特征質(zhì)量較差,干擾網(wǎng)絡(luò)的正常學(xué)習(xí)。本文提出基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測算法,其在多尺度檢測框架的基礎(chǔ)上,做出以下改進(jìn):1) 引入顯著性檢測任務(wù)作為協(xié)同分支與目標(biāo)檢測網(wǎng)絡(luò)構(gòu)成多任務(wù)學(xué)習(xí)框架,以共同學(xué)習(xí)的方式側(cè)面強化檢測器對強顯著區(qū)域及其邊緣信息的關(guān)注。2) 通過將樣本顯著性強度引入分類損失函數(shù),抑制噪聲樣本的學(xué)習(xí)權(quán)重。在公開KAIST數(shù)據(jù)集上的檢測結(jié)果證實,本文的算法相較于基準(zhǔn)算法RetinaNet能夠降低對數(shù)平均丟失率(MR-2)4.43%。

      紅外行人檢測;多任務(wù)學(xué)習(xí);顯著性檢測

      1 引 言

      目前,基于可見光圖像的行人檢測技術(shù)得到了飛速發(fā)展[1-2],通過與行人重識別[3-4]等技術(shù)相結(jié)合,在安防監(jiān)控、自動駕駛等領(lǐng)域中具有較大的應(yīng)用價值。然而,受光照、煙霧、遮擋等干擾,僅依賴這類圖像作為檢測任務(wù)的解決方案難以在全天候復(fù)雜環(huán)境下實現(xiàn)較為魯棒的檢測。為此,文獻(xiàn)[5-7]等提出基于多傳感器信息融合的算法。但其數(shù)據(jù)獲取難度較大,硬件成本較高。由于紅外圖像能夠感知目標(biāo)所發(fā)射的指定波段的熱輻射信息,抗干擾能力強,不受環(huán)境光照的影響[8]。因此,本文基于紅外圖像,通過利用空間顯著性信息,提升網(wǎng)絡(luò)對紅外行人的檢測能力。

      傳統(tǒng)的行人檢測算法主要通過滑動窗口產(chǎn)生大量候選區(qū)域,提取區(qū)域內(nèi)手工特征,例如:HOG,SIFT等,再通過SVM等分類算法完成對候選區(qū)域內(nèi)容的判別。但這類方法人工干擾較強,檢測精度較差。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,R-CNN系列[9],Yolo系列[10]等以不同的檢測思路實現(xiàn)了較高精度的目標(biāo)檢測。面向基于可見光圖像的行人檢測算法,Zhang等人[1]首先將Faster R-CNN在行人檢測中的應(yīng)用進(jìn)行了相關(guān)研究。為了有效地感知不同尺度大小的行人樣本,Li等人[2]引入尺度感知模塊。與上述方法相比,基于紅外圖像的檢測算法性能距離實際應(yīng)用存在較大的差距,主要存在以下幾個原因:

      1) 圖像質(zhì)量較差。由于紅外物理特性以及硬件設(shè)備的限制,紅外圖像往往成像模糊,分辨率較低。目前大多數(shù)紅外目標(biāo)檢測算法主要通過基于可見光圖像的檢測模型遷移而來,未能有效結(jié)合紅外圖像本身性質(zhì)對檢測算法進(jìn)行優(yōu)化。

      2) 噪聲樣本。由于溫度分布及拍攝環(huán)境的復(fù)雜性,紅外圖像中的部分樣本并不具備良好的特征信息,如圖1(a)紅框內(nèi)所示。這些噪聲樣本因遮擋、成像距離、環(huán)境等因素產(chǎn)生,與背景特征較為接近,加大了網(wǎng)絡(luò)學(xué)習(xí)的難度,容易使網(wǎng)絡(luò)陷入較強的數(shù)據(jù)擬合而難以學(xué)習(xí)到具有普適性的紅外行人特征。

      針對問題1),John等人[11]提出了一種自適應(yīng)模糊C-means與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的檢測模型,利用C-means分割算法對紅外行人目標(biāo)進(jìn)行分割并篩選候選框。Devaguptapu等人[12]通過Cycle-GAN將紅外圖像轉(zhuǎn)化為偽彩色圖像,并通過雙目標(biāo)檢測器進(jìn)行檢測。同年,Ghose等人[13]在保持原有紋理特征不變的情況下引入紅外圖像的顯著信息,使其在不同時段的丟失率均有所下降,但推理時大量的計算消耗導(dǎo)致其難以應(yīng)用于實際場景。針對問題2),最新的TC-Det[14]通過引入分類網(wǎng)絡(luò)分支,利用場景光照信息有效弱化噪聲標(biāo)簽的干擾。

      圖1 KAIST行人樣本可視化。(a) 不同尺度的部分行人樣本;(b) 尺度分布情況

      在深度學(xué)習(xí)技術(shù)中,多任務(wù)學(xué)習(xí)方式主要是通過共享相似任務(wù)間的有效信息,提升原有任務(wù)的表現(xiàn)。本文從多任務(wù)學(xué)習(xí)的角度出發(fā),對比分析獨立學(xué)習(xí)式及引導(dǎo)注意力式兩類分支結(jié)構(gòu)的設(shè)計,使其具有對紅外圖像顯著區(qū)域的判別能力,最終以共享特征提取層的方式為檢測分支提供場景顯著信息,提升行人檢測性能。此外,根據(jù)樣本顯著性分析可知,這些紅外圖像中所存在的噪聲樣本和背景的差異較小,具有較弱的顯著性表達(dá)。因此,將協(xié)同分支所推理出目標(biāo)的顯著性信息引入至分類損失函數(shù)中,能夠有效弱化網(wǎng)絡(luò)對這些樣本的關(guān)注,提升網(wǎng)絡(luò)整體的泛化性能。

      本文的主要貢獻(xiàn)包括:

      1) 在目標(biāo)檢測網(wǎng)絡(luò)的基礎(chǔ)上添加顯著性檢測分支,使網(wǎng)絡(luò)具備紅外圖像顯著性檢測能力的同時,能以共同學(xué)習(xí)的方式,強化檢測器對顯著區(qū)域的關(guān)注。

      2) 將顯著性檢測結(jié)果轉(zhuǎn)換為每個樣本的顯著性得分,并結(jié)合手工設(shè)計的Smooth Focal-Loss函數(shù)計算網(wǎng)絡(luò)分類損失,弱化噪聲樣本對網(wǎng)絡(luò)學(xué)習(xí)的干擾。

      3) 本文對整個網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行消融測試,并通過橫向?qū)Ρ戎髁鞯募t外檢測算法,證實了本文訓(xùn)練方式的有效性。最終,本文實現(xiàn)KAIST數(shù)據(jù)集上的MR-2相較于基準(zhǔn)算法RetinaNet[15]顯著降低4.43%,且僅作為訓(xùn)練方式不增加計算消耗。

      2 方法原理

      圖2 網(wǎng)絡(luò)整體框架示意圖

      2.1 引入顯著性檢測的多任務(wù)學(xué)習(xí)框架設(shè)計

      Ulman等人[17]將某一位置的顯著性定義為該位置在顏色、方向、深度等方面與周圍環(huán)境的差異程度,而圖像所對應(yīng)的顯著圖能夠有效顯示出該場景內(nèi)的突出區(qū)域。Ghose等人[13]首先提出將顯著圖通過通道替換的方式對紅外圖像進(jìn)行加強,整體實驗流程如圖3(a)所示?;谄鋵嶒灲Y(jié)果分析可知,顯著圖作為一種顯式的空間注意力,能夠引導(dǎo)檢測器學(xué)習(xí)顯著區(qū)域。同時,相比于傳統(tǒng)基于手工特征的顯著性檢測方法(如文獻(xiàn)[18-19]),深度學(xué)習(xí)方法加強了對語義特征的關(guān)注,有效降低了大量背景噪聲的干擾。該實驗對訓(xùn)練集中的1702張圖像以及測試集中的362張圖像進(jìn)行了像素級的顯著區(qū)域標(biāo)注,并通過PICA-Net[20]和R3Net[16]兩種深度顯著性網(wǎng)絡(luò)預(yù)測出數(shù)據(jù)集中所有的顯著圖并進(jìn)行實驗。雖然實驗結(jié)果證實了利用顯著圖增強紅外行人檢測的有效性,但該方法作為一種數(shù)據(jù)增強手段,在實際應(yīng)用時,需要通過額外的網(wǎng)絡(luò)對測試圖像進(jìn)行顯著性檢測,嚴(yán)重影響了單幀行人檢測的推理速度。

      考慮到上述方法的局限性及顯著圖對紅外目標(biāo)檢測的強化作用,本文設(shè)計了一種多任務(wù)學(xué)習(xí)方式,即在訓(xùn)練過程中同時完成目標(biāo)檢測及顯著性檢測兩個任務(wù),具體流程如圖3(b)所示。其中,協(xié)同分支在該框架中主要有兩個作用:1) 學(xué)習(xí)紅外圖像顯著區(qū)域的判別能力,以共同學(xué)習(xí)的方式替代原先的注意力強化手段,引導(dǎo)檢測器關(guān)注顯著區(qū)域;2) 顯著性標(biāo)簽中包含顯著目標(biāo)精細(xì)的輪廓信息,與目標(biāo)框標(biāo)注相比,更有利于檢測器的學(xué)習(xí)。下面本文將從協(xié)同分支結(jié)構(gòu)的設(shè)計和學(xué)習(xí)方式進(jìn)行分析。

      2.1.1 協(xié)同分支結(jié)構(gòu)設(shè)計

      目前顯著性檢測網(wǎng)絡(luò)大多數(shù)基于全卷積框架的設(shè)計,在采用特征提取網(wǎng)絡(luò)進(jìn)行不同層級的語義特征提取后,通過解碼器框架對其進(jìn)行解碼,最后由像素級的標(biāo)注信息進(jìn)行監(jiān)督學(xué)習(xí)。由于數(shù)據(jù)集中行人樣本尺度差異較大,本文采用經(jīng)典的單階段多尺度目標(biāo)檢測算法RetinaNet[15]作為實驗的基準(zhǔn)檢測網(wǎng)絡(luò),特征提取部分采用ResNet50。最終,本文設(shè)計并測試了兩類不同共享層級的多任務(wù)學(xué)習(xí)框架,以判斷最優(yōu)共享方式的結(jié)構(gòu)。

      獨立學(xué)習(xí)式框架。目前大多數(shù)多任務(wù)學(xué)習(xí)模型采用獨立學(xué)習(xí)式的架構(gòu)[21-22],即不同分支共享特征提取模塊,以獨立并行的方式完成各自任務(wù)。這種架構(gòu)要求共享的特征能夠滿足不同任務(wù)的需要,并通過分支任務(wù)信息改善主任務(wù)的訓(xùn)練效果。在此基礎(chǔ)上,本文設(shè)計了以下三種模型架構(gòu),設(shè)計方案如圖4所示。

      (a) 多尺度級聯(lián)

      考慮將FPN輸出的每層特征沿通道方向進(jìn)行級聯(lián),再將級聯(lián)后的特征圖通過1′1′1024的卷積核進(jìn)行通道壓縮,該框架使顯著性分支的loss直接作用于原檢測特征,對檢測分支的歸納偏置較大,但由于特征壓縮卷積核的通道數(shù)過多,網(wǎng)絡(luò)學(xué)習(xí)難度較大。

      圖3 文獻(xiàn)[13]的方法與本文方法的整體框架對比。(a) 文獻(xiàn)[13]方法的整體檢測框架;(b) 本文所提方法

      圖4 三種獨立學(xué)習(xí)式網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計方案。(a) 多尺度級聯(lián)式;(b) 多尺度并行式(PAR);(c) 流注式(CAS)

      (b) 多尺度并行式框架(PAR)

      將不同尺度層級的特征獨自進(jìn)行特征壓縮,卷積層參數(shù)共享,最后通過元素級相加得到最終結(jié)果。與框架(a)相比,框架(b)有效地降低了分支網(wǎng)絡(luò)的卷積層參數(shù),但由于每層特征最后相加時權(quán)重相同,在loss反傳時難以考慮不同尺度目標(biāo)的特征差異,因而造成精度的下降。

      (c) 流注式框架(CAS)

      考慮到Unet框架的設(shè)計,本文將最高層語義特征P6通過雙線性插值不斷上采樣,并將每次上采樣后的結(jié)果D4~D6分別與P3~P5進(jìn)行元素級相加及1*1卷積,最后D3特征通過卷積層降低維度,輸出預(yù)測結(jié)果。相較于前兩個模型,框架(c)充分利用了不同尺度層級的特征。

      獨立學(xué)習(xí)式框架模型在多任務(wù)學(xué)習(xí)中最為普遍,其要求特征提取模塊具有容納兩種不同特征的能力,性能的提升主要通過分支網(wǎng)絡(luò)額外的信息標(biāo)注驅(qū)動主任務(wù)分支的特征提取。同時,由于兩個分支完全獨立,顯著性分支與檢測特征之間并未存在直接作用關(guān)系。

      引導(dǎo)注意力式框架。

      在引導(dǎo)注意力式框架中,協(xié)同分支在完成輔助任務(wù)的同時,會將網(wǎng)絡(luò)中的特征表達(dá)作為空間或通道注意力對主任務(wù)模型中的特征進(jìn)行強化。本文以級聯(lián)模型為基礎(chǔ),將顯著性分支特征或最后預(yù)測結(jié)果以元素級相加的方式作用于原有檢測特征,具體模型結(jié)構(gòu)如圖5所示。

      圖5 兩種引導(dǎo)注意力式網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計方案。(a) 結(jié)果強化式框架(Guided(a));(b) 特征強化式框架(Guided(b))

      (a) 結(jié)果強化式框架(Guided(a))

      直接將協(xié)同分支的預(yù)測結(jié)果通過最大值池化后分別與(P4~P6)進(jìn)行相加,為了使預(yù)測結(jié)果與原有特征的通道數(shù)相匹配,本文將預(yù)測結(jié)果在通道維度上復(fù)制256層。

      (b) 特征強化式框架(Guided(b))

      本文將FPN上每層特征經(jīng)過與高級特征元素級相加即等通道卷積后再作用回原特征,該方法將顯著性分支中的特征整體作為注意力對(P4~P6)進(jìn)行強化,其相加時兩邊通道數(shù)相對應(yīng)。

      引導(dǎo)注意力式框架擴展了兩個分支所共享的網(wǎng)絡(luò),其將分支中的特征信息直接用于加強主網(wǎng)絡(luò)特征,例如文獻(xiàn)[14]。根據(jù)3.2的實驗結(jié)果可知,流柱式框架(CAS)與引導(dǎo)注意力式框架Guided(b)相較于原始模型均有所提升??紤]到Guided(b)增加了推理階段的計算消耗,最終本文采用流柱式框架作為后續(xù)優(yōu)化的基礎(chǔ)框架。

      2.1.2 顯著性檢測標(biāo)注及損失函數(shù)

      本文基于文獻(xiàn)[13]的標(biāo)注,采用遷移學(xué)習(xí)的訓(xùn)練方法,完成協(xié)同分支的訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練框架如圖3(b)所示,首先將以ResNext101為特征提取結(jié)構(gòu)的R3Net[16]顯著性檢測網(wǎng)絡(luò)作為教師模型,通過已標(biāo)注的部分顯著性標(biāo)簽完成網(wǎng)絡(luò)訓(xùn)練后,再對學(xué)生模型,即協(xié)同分支雙線性插值后的結(jié)果進(jìn)行像素級監(jiān)督指導(dǎo)。本文通過KL-Loss計算兩種網(wǎng)絡(luò)檢測結(jié)果分布的相似性,使協(xié)同分支的顯著性檢測結(jié)果與R3Net接近,其中KL-Loss的計算為

      表1 R3Net顯著性檢測結(jié)果的定量分析

      2.2 基于樣本顯著性的分類損失函數(shù)設(shè)計

      RetinaNet算法針對目標(biāo)的分類損失采用Focal-Loss函數(shù)[15],該函數(shù)將預(yù)測得分與交叉熵?fù)p失相結(jié)合,使網(wǎng)絡(luò)更關(guān)注難分樣本,忽略大量易分樣本,從而緩解網(wǎng)絡(luò)正負(fù)樣本不平衡的問題。但在紅外行人檢測中,紅外圖像分辨率普遍較低,存在大量噪聲樣本。在Focal-Loss的影響下,網(wǎng)絡(luò)過度關(guān)注這些特征空間中的離群點,而忽略了大量具有普適性特征的行人目標(biāo)。這種現(xiàn)象嚴(yán)重影響了網(wǎng)絡(luò)的泛化性能,導(dǎo)致網(wǎng)絡(luò)產(chǎn)生大量誤檢結(jié)果。

      圖6 教師網(wǎng)絡(luò)R3Net的部分顯著性檢測結(jié)果可視化。奇數(shù)列為紅外圖像,偶數(shù)列為顯著性檢測結(jié)果

      本文對不同顯著性強度的樣本進(jìn)行分析,部分樣本如圖7所示。本文發(fā)現(xiàn)這類特征質(zhì)量較差的樣本往往不具備良好的顯著性表達(dá)。因此,得益于多任務(wù)學(xué)習(xí)框架,本文考慮將協(xié)同分支所預(yù)測的顯著性檢測結(jié)果轉(zhuǎn)為顯著性得分,并作為樣本的先驗信息引入目標(biāo)檢測的標(biāo)簽中,以合理方式降低顯著性較差的樣本權(quán)重,從而使網(wǎng)絡(luò)學(xué)習(xí)到更加泛化的行人特征。本文將從樣本顯著性得分因子的計算和分類損失設(shè)計兩個方面進(jìn)行分析。

      2.2.1 樣本顯著性得分因子計算

      2.2.2 Smooth Focal-Loss函數(shù)

      圖7 協(xié)同分支的部分顯著性檢測結(jié)果可視化。(a) 顯著性較強樣本;(b) 顯著性較差樣本

      圖8 (a) 不同參數(shù)下顯著性得分因子的映射函數(shù)曲線;(b) 部分映射結(jié)果可視化。紅框為檢測label,數(shù)字為計算的顯著性得分因子Si

      2.3 算法整體計算步驟

      3 實驗結(jié)果

      3.1 實驗細(xì)節(jié)

      3.1.1 實驗環(huán)境

      本文采用Pytorch框架完成所有算法的訓(xùn)練和測試。網(wǎng)絡(luò)ResNet50部分參數(shù)在ImageNet數(shù)據(jù)集中完成預(yù)訓(xùn)練,其余參數(shù)采用Xavier方法進(jìn)行初始化。本文采用Adam優(yōu)化器以0.0001的學(xué)習(xí)率在單個NVIDIA TITANX GPU上訓(xùn)練40輪。學(xué)習(xí)過程中,本文將單批數(shù)量設(shè)置為8,錨框長寬比為0.42,并在4個不同尺度上分別設(shè)置[1, 1.4, 1.7]三個不同大小的框。在訓(xùn)練過程中,本文采用數(shù)據(jù)增強方法對樣本進(jìn)行隨機增強,包括:隨機裁剪、縮放、翻轉(zhuǎn)、歸一化等方法,并通過隨機通道對比度、亮度等模擬紅外成像所產(chǎn)生的噪聲干擾。在測試過程中,本文采用閾值為0.3的非最大值抑制以去除預(yù)測過程產(chǎn)生的大量重復(fù)框。針對顯著性檢測網(wǎng)絡(luò)R3Net,本文采用0.9動量,學(xué)習(xí)率為0.001的SGD優(yōu)化器,單批數(shù)量為10進(jìn)行9000次迭代訓(xùn)練。

      3.1.2 數(shù)據(jù)集

      本文在KAIST多光譜數(shù)據(jù)集上進(jìn)行實驗測試。其中該數(shù)據(jù)集包含95328張配準(zhǔn)的可見光?遠(yuǎn)紅外圖像對,并包含1182個獨立的行人樣本。本文僅采用紅外部分圖像用于本文的實驗。本文采用與文獻(xiàn)[14]一致的實驗方案,即訓(xùn)練集采用文獻(xiàn)[24]中提供的清洗后的訓(xùn)練標(biāo)注,而測試集采用文獻(xiàn)[6]提供的測試標(biāo)注,測試集按照行人檢測的合理設(shè)置[5]進(jìn)行測試。其中測試圖像有2252張圖像樣本組成,其包含1455張白天圖像與797張夜晚圖像供實驗分析。為了完成顯著性檢測任務(wù)且保證實驗的合理性,本文采用Ghost等人提供的1701張像素級標(biāo)注。這些標(biāo)注均從訓(xùn)練集中采集而不包含任何測試集信息。

      3.1.3 評估指標(biāo)

      針對行人檢測,本文借助于KAIST標(biāo)準(zhǔn)評估工具對行人檢測結(jié)果進(jìn)行評估,其中采用對數(shù)平均丟失率(log-average miss rate,MR-2)對檢測性能進(jìn)行量化。該指標(biāo)計算方式為在[10-2, 100]中的單張圖片誤檢數(shù)(false positive per image,F(xiàn)PPI)按對數(shù)間隔均勻取9個點,并由每個點所對應(yīng)的最小丟失率(miss rate,MR)的對數(shù)平均值計算所得。FPPI和MR的計算式如下:

      Precision為所有預(yù)測為正的樣本中,實際為正的樣本比例。Recall則為所有實際為正的樣本中能夠有效檢出的比例。其中AP指標(biāo)主要用于統(tǒng)一衡量Precision及Recall的整體情況,AP越大表明目標(biāo)檢測的綜合性能越強。由于本文僅針對行人單類目標(biāo)進(jìn)行分析,因此mAP與AP值相同。

      3.2 消融實驗分析

      3.2.1 多任務(wù)學(xué)習(xí)框架性能測試

      本文在數(shù)據(jù)集中完成了2.1中設(shè)計的PAR、CAS、Guided(a)、Guided(b)這4種方案的性能測試,其中測試結(jié)果如表2、表3及圖9。

      通過對表2、表3及圖9的數(shù)據(jù)分析,本文可得到以下結(jié)論:

      1) 采用流注式的多任務(wù)網(wǎng)絡(luò)(CAS)丟失率低于基準(zhǔn)網(wǎng)絡(luò),這說明引入合理的顯著性檢測分支結(jié)構(gòu)能夠從側(cè)面強化行人檢測的性能。

      2) 引導(dǎo)式注意力模型(Guided(a))由于采用單通道復(fù)制的方法直接與原特征通道數(shù)匹配,破壞了原有的特征分布情況,MR-2上升7.86%。而模型(Guided(b))通過將與注意力特征重新結(jié)合,強化了特征提取網(wǎng)絡(luò),對原有檢測分支添加了近似自注意力的結(jié)構(gòu),MR-2下降0.21%。但在推理時仍需要保留分支網(wǎng)絡(luò),加大了計算消耗。

      3) 在獨立學(xué)習(xí)式框架中,多尺度并行框架相較于

      基準(zhǔn)網(wǎng)絡(luò)MR-2反而上升0.48%,其精度的損失主要來源于不同尺度目標(biāo)特征分布的差異性,由于不同層級分支網(wǎng)絡(luò)等權(quán)重的反向傳播分支損失,使其難以適應(yīng)這種差異性而進(jìn)行等效的優(yōu)化,造成了性能的下降??紤]到以上三點,本文將采用CAS模型作為多任務(wù)學(xué)習(xí)的基本方案,并在此基礎(chǔ)上完成對基于顯著性的損失函數(shù)性能研究。

      表2 獨立學(xué)習(xí)式框架性能測試

      表3 引導(dǎo)注意力式框架性能測試

      3.2.2 基于樣本顯著性的分類損失函數(shù)性能研究

      表4 不同參數(shù)下的檢測性能對比實驗

      3.3 與主流紅外行人檢測算法的對比分析

      本文將該算法與目前主流的紅外行人檢測算法Faster RCNN-T[13],F(xiàn)aster RCNN+SM[13],Bottom up[25],TC-thermal[14],TC-Det[14],RetinaNet[15](baseline),RetinaNet+SM進(jìn)行了對比,對比結(jié)果如表5所示。RetinaNet+SM在RetinaNet基礎(chǔ)上采用與文獻(xiàn)[13]相同的方式對原圖進(jìn)行顯著圖的堆疊。

      表中MR-2-all, MR-2-day, MR-2-night分別代表全天、僅白天、僅夜晚情況下的行人檢測丟失率,(CAS+Smooth FL)表示采用本文CAS分支模型且通過設(shè)計的Smooth Focal-Loss損失函數(shù)進(jìn)行優(yōu)化,根據(jù)表中數(shù)據(jù)可得本文的多任務(wù)學(xué)習(xí)相較于baseline能夠有效降低4.43%,其中白天下降4.23%,夜晚下降5.84%。由于本文設(shè)計的網(wǎng)絡(luò)框架強化了檢測器對顯著目標(biāo)的關(guān)注,誤檢現(xiàn)象大幅度減小,最終檢測效果如圖10所示。實驗結(jié)果表明,采用本文多任務(wù)學(xué)習(xí)方式的檢測結(jié)果優(yōu)于直接對原圖進(jìn)行增強的方法(MR-2分別為20.25%與23.47%),且在測試階段無需通過額外的網(wǎng)絡(luò)進(jìn)行顯著性圖的預(yù)測。

      表5 KAIST 紅外行人檢測算法性能測試對比,其中+SM 表示采用文獻(xiàn)[13]的方式引入顯著圖

      圖10 5個場景下真實值及不同模型的檢測結(jié)果。

      (a) 真實值;(b) RetinaNet;(c) 本文模型檢測結(jié)果;(d) 協(xié)同分支顯著性檢測結(jié)果

      Fig. 10 Partial test results.

      (a) Ground-truth; (b) Baseline; (c) Ours detection result; (d) Saliency detection result of the auxiliary network

      4 結(jié) 論

      本文提出了一種用于紅外行人檢測的多任務(wù)學(xué)習(xí)框架。針對紅外圖像質(zhì)量較差,缺乏樣本色彩及細(xì)節(jié)信息的問題,引入顯著性檢測任務(wù),從側(cè)面引導(dǎo)檢測網(wǎng)絡(luò)對強顯著區(qū)域的關(guān)注。同時,針對紅外圖像中存在大量噪聲樣本的問題,將協(xié)同分支顯著性檢測的結(jié)果映射為每個樣本的顯著性得分因子,在分類損失中抑制噪聲樣本對網(wǎng)絡(luò)學(xué)習(xí)的影響。最終,實驗測試結(jié)果證實了方法的有效性,并能夠在不增加推理計算消耗的同時,相較于基準(zhǔn)算法RetinaNet有效降低4.43 MR-2。但是,本文方法仍受限于大量手工設(shè)計的參數(shù)。如何使網(wǎng)絡(luò)以自適應(yīng)的方式適應(yīng)各種復(fù)雜場景將作為下一步研究的重點。

      [1] Zhang L L, Lin L, Liang X D,. Is faster R-CNN doing well for pedestrian detection?[C]//, 2016: 443–457.

      [2] Li J N, Liang X D, Shen S M,Scale-aware fast R-CNN for pedestrian detection[J].2018, 20(4): 985–996.

      [3] Zhang B H, Zhu S Y, Lv X Q,. Soft multilabel learning and deep feature fusion for unsupervised person re-identification[J]., 2020, 47(12): 190636.

      張寶華, 朱思雨, 呂曉琪, 等. 軟多標(biāo)簽和深度特征融合的無監(jiān)督行人重識別[J]. 光電工程, 2020, 47(12): 190636.

      [4] Zhang X Y, Zhang B H, Lv X Q,. The joint discriminative and generative learning for person re-identification of deep dual attention[J]., 2021, 48(5): 200388.

      張曉艷, 張寶華, 呂曉琪, 等. 深度雙重注意力的生成與判別聯(lián)合學(xué)習(xí)的行人重識別[J]. 光電工程, 2021, 48(5): 200388.

      [5] Hwang S, Park J, Kim N,. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//, 2015: 1037–1045.

      [6] Liu J J, Zhang S T, Wang S,. Multispectral deep neural networks for pedestrian detection[Z]. arXiv preprint arXiv:1611.02644, 2016.

      [7] Wang R G, Wang J, Yang J,. Feature pyramid random fusion network for visible-infrared modality person re-identification[J]., 2020, 47(12): 190669.

      汪榮貴, 王靜, 楊娟, 等. 基于紅外和可見光模態(tài)的隨機融合特征金子塔行人重識別[J]. 光電工程, 2020, 47(12): 190669.

      [8] Zhang R Z, Zhang J L, Qi X P,. Infrared target detection and recognition in complex scene[J]., 2020, 47(10): 200314.

      張汝榛, 張建林, 祁小平, 等. 復(fù)雜場景下的紅外目標(biāo)檢測[J]. 光電工程, 2020, 47(10): 200314.

      [9] Ren S, He K, Girshick R,. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2016, 39(6): 1137–1149.

      [10] Redmon J, Divvala S, Girshick R,. You only look once: unified, real-time object detection[C]//, 2016: 779–788.

      [11] John V, Mita S, Liu Z,. Pedestrian detection in thermal images using adaptive fuzzy C-means clustering and convolutional neural networks[C]//, 2015: 246–249.

      [12] Devaguptapu C, Akolekar N, Sharma M M,. Borrow from anywhere: pseudo multi-modal object detection in thermal imagery[C]//, 2019: 1029–1038.

      [13] Ghose D, Desai S M, Bhattacharya S,Pedestrian detection in thermal images using saliency maps[C]//, 2019: 988–997.

      [14] Kieu M, Bagdanov AD, Bertini M,. Task-conditioned domain adaptation for pedestrian detection in thermal imagery[C]//, 2020: 546–562.

      [15] Lin T Y, Goyal P, Girshick R,. Focal loss for dense object detection[C]//, 2017: 2999–3007.

      [16] Deng Z J, Hu X W, Zhu L,R3Net: recurrent residual refinement network for saliency detection[C]//, 2018: 684–690.

      [17] Koch C, Ullman S. Shifts in selective visual attention: towards the underlying neural circuitry[J].1985, 4(4): 219–227.

      [18] Hou X D, Zhang L Q. Saliency detection: a spectral residual approach[C]//, 2007: 1–8.

      [19] Montabone S, Soto A. Human detection using a mobile platform and novel features derived from a visual saliency mechanism[J].2010, 28(3): 391–402.

      [20] Liu N, Han J W, Yang M H. PiCANet: learning pixel-wise contextual attention for saliency detection[C]//, 2018: 3089–3098.

      [21] Li C Y, Song D, Tong R F,. Illumination-aware faster R-CNN for robust multispectral pedestrian detection[J].2019, 85: 161–171.

      [22] Li C Y, Song D, Tong R F,. Multispectral pedestrian detection via simultaneous detection and segmentation[Z]. arXiv preprint arXiv:1808.04818, 2018.

      [23] Guo T T, Huynh C P, Solh M. Domain-adaptive pedestrian detection in thermal images[C]//, 2019: 1660–1664.

      Multi-task learning for thermal pedestrian detection

      Gou Yutao1,2,3, Ma Liang1,2,3, Song Yixuan1,2,3, Jin Lei1,2, Lei Tao1,2*

      1Photoelectric Detection Technology Laboratory, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;2Institute of Optics and Electronics, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;3University of Chinese Academy of Sciences, Beijing 100049, China

      The visualization of pedestrian samples in KAIST

      Overview:In recent years, pedestrian detection techniques based on visible images have been developed rapidly. However, interference from light, smoke, and occlusion makes it difficult to achieve robust detection around the clock by relying on these images alone. Thermal images, on the other hand, can sense the thermal radiation information in the specified wavelength band emitted by the target, which are highly resistant to interference, ambient lighting, etc, and widely used in security and transportation. At present, the detection performance of thermal images still needs to be improved, which suffers from the poor image quality of thermal images and the interference of some noisy samples to network learning.

      In order to improve the performance of the thermal pedestrian detection algorithm, we firstly introduce a saliency detection map as supervised information and adopt a framework of multi-task learning, where the main network completes the pedestrian detection task and the auxiliary network satisfies the saliency detection task. By sharing the feature extraction modules of both tasks, the network has saliency detection capability while guiding the network to focus on salient regions. To search for the most reasonable framework of the auxiliary network, we test four different kinds of design from the independent-learning to the guided-attentive model. Secondly, through the visualization of the pedestrian samples, we induce noisy samples that have lower saliency expressions in the thermal images and introduce the saliency strengths of different samples into the classification loss function by hand-designing the mapping function to relieve the interference of noisy samples on the network learning. To achieve this goal, we adopt a sigmoid function with reasonable transformation as our mapping function, which maps the saliency area percentage to the saliency score. Finally, we introduce the saliency score to the Focal Loss and design the Smooth Focal Loss, which can decrease the loss of low-saliency samples with reasonable settings.

      Extensive experiments on KAIST thermal images have proved the conclusions as follows. First, compared with other auxiliary frameworks, our cascaded model achieves impressive performance with independent design. Besides, compared with the RetinaNet, we decrease the log-average miss rate by 4.43%, which achieves competitive results among popular thermal pedestrian detection methods. Finally, our method has no impact on the computational cost in the inference process as a network training strategy. Although the effectiveness of our method has been proven, one still needs to set the super-parameters manually. In the future, how to enable the network to adapt to various detection conditions will be our next research point.

      Gou Y T, Ma L, Song Y X,Multi-task learning for thermal pedestrian detection[J]., 2021, 48(12): 210358; DOI:10.12086/oee.2021.210358

      Multi-task learning for thermal pedestrian detection

      Gou Yutao1,2,3, Ma Liang1,2,3, Song Yixuan1,2,3, Jin Lei1,2, Lei Tao1,2*

      1Photoelectric Detection Technology Laboratory, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;2Institute of Optics and Electronics, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;3University of Chinese Academy of Sciences, Beijing 100049, China

      Compared with high-quality RGB images, thermal images tend to have a higher false alarm rate in pedestrian detection tasks. The main reason is that thermal images are limited by imaging resolution and spectral characteristics, lacking clear texture features, while some samples have poor feature quality, which interferes with the network training. We propose a thermal pedestrian algorithm based on a multi-task learning framework, which makes the following improvements based on the multiscale detection framework. First, saliency detection tasks are introduced as an auxiliary branch with the target detection network to form a multitask learning framework, which side-step the detector's attention to illuminate salient regions and their edge information in a co-learning manner. Second, the learning weight of noisy samples is suppressed by introducing the saliency strength into the classification loss function. The detection results on the publicly available KAIST dataset confirm that our learning method can effectively reduce the log-average miss rate by 4.43% compared to the baseline, RetinaNet.

      thermal pedestrian detection; multi-task learning; saliency detection

      10.12086/oee.2021.210358

      * E-mail: taoleiyan@ioe.ac.cn

      茍于濤,馬梁,宋怡萱,等. 基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測算法[J]. 光電工程,2021,48(12): 210358

      Gou Y T, Ma L, Song Y X,Multi-task learning for thermal pedestrian detection[J]., 2021, 48(12): 210358

      TP391.41;TN215

      A

      2021-11-12;

      2021-11-30

      茍于濤(1997-),男,碩士,主要從事基于深度學(xué)習(xí)的目標(biāo)檢測和多模圖像融合識別的研究。E-mail:gouyutao19@mails.ucas.ac.cn

      雷濤(1981-),男,博士,研究員,主要從事基于傳統(tǒng)方法及深度學(xué)習(xí)技術(shù)的圖像處理與分析、復(fù)雜場景下目標(biāo)檢測識別與跟蹤等方面的研究。E-mail:taoleiyan@ioe.ac.cn

      猜你喜歡
      分支行人紅外
      網(wǎng)紅外賣
      閃亮的中國紅外『芯』
      金橋(2021年4期)2021-05-21 08:19:20
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      巧分支與枝
      TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
      電子制作(2019年7期)2019-04-25 13:17:14
      路不為尋找者而設(shè)
      揚子江(2019年1期)2019-03-08 02:52:34
      一類擬齊次多項式中心的極限環(huán)分支
      我是行人
      基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
      生成分支q-矩陣的零流出性
      淳化县| 富阳市| 滨海县| 阿图什市| 海林市| 灵宝市| 名山县| 新和县| 西和县| 绥德县| 滦南县| 麻江县| 理塘县| 巧家县| 兴化市| 宜宾市| 西盟| 萨嘎县| 白山市| 阿瓦提县| 峡江县| 马关县| 井陉县| 礼泉县| 富顺县| 清原| 皮山县| 深州市| 抚顺市| 大名县| 江西省| 普兰县| 康平县| 江源县| 彭阳县| 五寨县| 攀枝花市| 呼图壁县| 泌阳县| 阜城县| 故城县|