• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于YOLOv3的紅外行人小目標(biāo)檢測技術(shù)研究

      2020-05-07 09:30:16李慕鍇崔文楠
      紅外技術(shù) 2020年2期
      關(guān)鍵詞:行人紅外準(zhǔn)確率

      李慕鍇,張 濤,崔文楠

      (1.中國科學(xué)院 上海技術(shù)物理研究所 上海 200083;2.中國科學(xué)院大學(xué),北京 100049)

      0 引言

      行人檢測是圖像處理研究中的經(jīng)典課題,其研究成果在視頻監(jiān)控、地區(qū)偵查、人體行為理解、遇難目標(biāo)搜救等領(lǐng)域都有諸多應(yīng)用。隨著近年來計算機視覺、機器學(xué)習(xí)和深度學(xué)習(xí)等新技術(shù)的突破,可見光圖像中的行人檢測技術(shù)已經(jīng)逐漸發(fā)展成熟,出現(xiàn)了許多具有高可用性的方法。然而可見光相機的工作依賴于白天或者其他光照充足的條件,無法滿足很多夜間場景下的監(jiān)控需求,其工作的可持續(xù)性存在問題。紅外相機基于目標(biāo)對紅外光的反射和目標(biāo)自身的熱輻射進行成像,受光照強度條件的影響很小,可以覆蓋大多數(shù)夜間的場景,在白天也有很好的工作能力,因此紅外相機能夠更好滿足持續(xù)工作的需求。并且隨著紅外成像系統(tǒng)價格的逐年降低,紅外相機越來越成為各類監(jiān)控系統(tǒng)中的重要組成部分,而紅外圖像中的行人檢測技術(shù)問題也成為計算機視覺研究中的重點課題。

      與可見光圖像相比,紅外圖像僅有一個顏色通道,提供的信息更少,并且紅外圖像往往有分辨率低、物體邊緣模糊、含有噪聲、對比度較低等問題,使得紅外圖像中能夠提取到的特征信息減少。紅外圖像中目標(biāo)往往具有較高的亮度,特征更加明顯。傳統(tǒng)的行人檢測方法主要是使用人為設(shè)計的特征提取器,如Haar[1]、histogram of oriented gridients(HOG)[2]、aggregate channel features(ACF)[3]等,來提取圖像中行人目標(biāo)的特征,然后再通過滑動窗口的方法對圖像的局部提取特征,最后通過support vector machine(SVM)[4]、adaboost等分類器來判斷區(qū)域是否有目標(biāo)。深度學(xué)習(xí)將圖像領(lǐng)域中各個問題的處理精度都提升到了一個更高的水平,在目標(biāo)檢測領(lǐng)域,主要分為兩類方法,一類通過區(qū)域打分來預(yù)測目標(biāo)區(qū)域,然后通過神經(jīng)網(wǎng)絡(luò)來對區(qū)域進行分類,這類方法以R-CNN[5]系列為代表,包括后續(xù)的fast R-CNN[6]、faster R-CNN[7]以及single shot multibox detector(SSD)[8]等;另一類方法通過回歸得出目標(biāo)區(qū)域再通過神經(jīng)網(wǎng)絡(luò)分類,這類方法以YOLO[9],YOLO9000[10]和YOLOv3[11]為代表,這一系列的算法都在紅外圖像處理中有很多應(yīng)用。

      現(xiàn)有的檢測算法中,以深度學(xué)習(xí)的目標(biāo)檢測算法最為優(yōu)秀,不過SSD、R-CNN系列的網(wǎng)絡(luò)復(fù)雜度過高,即使使用運算速度非常高的GPU也仍然運行緩慢,而YOLO系列的方法解決了網(wǎng)絡(luò)復(fù)雜度過高的問題,在主流的GPU上算法的運行速度達(dá)到60 fps以上,能夠滿足實時性要求。本次研究中就以增強了小目標(biāo)檢測能力的YOLOv3為主要網(wǎng)絡(luò),通過對網(wǎng)絡(luò)進行改進,進一步增強了特征描述能力,使其能夠在實際的紅外小目標(biāo)處理問題中得到應(yīng)用。

      1 原理簡介

      1.1 YOLOv3算法簡介

      YOLO目標(biāo)檢測算法是Redmon等[9]在CVPR2016上提出的一種全新的端到端目標(biāo)檢測算法。與同期的fast R-CNN,faster R-CNN等算法使用區(qū)域建議網(wǎng)絡(luò)預(yù)測目標(biāo)可能的位置不同,YOLO直接一次回歸得出所有目標(biāo)的可能位置,雖然定位精度有所降低,但是大幅度地提升了算法的時間效率,得到了具有高實時性的目標(biāo)檢測方法。經(jīng)過近幾年的改良,Redmon等[10-11]在YOLO的基礎(chǔ)上又提出了YOLO9000、YOLOv3目標(biāo)檢測算法,到Y(jié)OLOv3其檢測精度已經(jīng)超過faster R-CNN,與精度最高的Retina net基本持平,在保持高精度的同時,YOLOv3的速度比其他算法要高3倍以上,是目前目標(biāo)檢測領(lǐng)域的最優(yōu)秀的算法之一。

      YOLOv3在目標(biāo)位置預(yù)測方面引入了faster R-CNN中使用錨點框(anchor box)的思想,在每一個特征圖上預(yù)測3個錨點框。對于一幅輸入圖像,YOLOv3算法將其分成13×13塊,在每一個小塊上預(yù)測3個目標(biāo)的邊界框,并且YOLOv3引入了多尺度融合的方法,對圖像在3個尺度上進行目標(biāo)邊界框的預(yù)測,從而大幅提升了小目標(biāo)檢測的精度。目標(biāo)邊界框參數(shù)的計算如圖1所示[11]。

      圖1 YOLOv3邊界框計算 Fig.1 YOLOv3 bounding box calculation

      YOLOv3在目標(biāo)的分類上使用了比之前深度更大的神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)中大量3×3和1×1的卷積核保證了良好的特征提取,使用多尺度預(yù)測提升了小目標(biāo)的檢測精度。在深度學(xué)習(xí)領(lǐng)域,更深的網(wǎng)絡(luò)意味著可以提取更為復(fù)雜的特征,然而隨著網(wǎng)絡(luò)深度加大會出現(xiàn)訓(xùn)練難度加大,準(zhǔn)確率下降的問題,Resnet很好地解決了這個難題。YOLOv3借鑒Resnet的思想,引入多個Resnet模塊,設(shè)計了一個新的層數(shù)更多并且分類準(zhǔn)確率更高的網(wǎng)絡(luò),由于其包含53個卷積層,作者將其命名為darknet-53,其結(jié)構(gòu)如圖2[11]。

      圖2 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 YOLOv3 network structure

      1.2 SENet簡介

      Squeeze-and-Excitation Networks[12]由Momenta公司的Jie Hu等人提出,是一種能夠顯著提高網(wǎng)絡(luò)性能的新型網(wǎng)絡(luò)模型。目前在提升網(wǎng)絡(luò)性能方面已經(jīng)有大量的前人工作,有從統(tǒng)計角度出發(fā)的方法,例如dropout通過隨機減少網(wǎng)絡(luò)間的連接來減少過擬合;有從空間維度層面尋找提升的方法,例如Inception結(jié)構(gòu)嵌入多尺度信息,聚合多種不同感受野上的特征來獲得性能提升。而SENet從前人很少考慮到的特征通道間的關(guān)系出發(fā),提出了一種特征重標(biāo)定策略,這種策略通過顯示建模特征通道間的相互依賴關(guān)系實現(xiàn),可以通過學(xué)習(xí)來獲取到每個特征通道的重要程度,然后根據(jù)這個主要程度來提升重要特征的權(quán)重并抑制不重要的特征。

      SENet中包含兩個關(guān)鍵操作,壓縮(Squeeze)和激勵(Excitation),其主要流程如圖3[12],其中Ftr和Fsq為壓縮操作,F(xiàn)ex為激活操作,X為輸入,U為中間變換結(jié)果,H、W、C為網(wǎng)絡(luò)的寬高和層數(shù)。壓縮操作順著空間維度來對提取到的特征進行壓縮,將每個二維的特征通道換算為一個實數(shù),這個實數(shù)在某種程度上會具有全局感受野,并且輸出的維度和輸入的特征通道數(shù)相匹配,它表征著在特征通道上響應(yīng)的全局分布,而且使得靠近輸入的層也可以獲得全局的感受野。激勵操作類似于循環(huán)神經(jīng)網(wǎng)絡(luò)中的門的機制,通過學(xué)習(xí)參數(shù)w來為每個特征通道生成權(quán)重,它可以通過兩個全連接層實現(xiàn),學(xué)習(xí)得到的參數(shù)w即表征了每個特征通道的重要性。最后的操作是權(quán)重重標(biāo)定(Reweight),它將之前學(xué)習(xí)到的每個特征通道的權(quán)重歸一化,然后通過乘法加權(quán)到原來的特種通道上,即完成了每個特征通道的重要性的標(biāo)定。SENet可以很方便地插入在Resnet之后,得到一個SE-Resnet模塊,如圖4[12]所示。經(jīng)過作者的多番驗證,在不同規(guī)模的Resnet上引入SENet后,均能夠大幅提升網(wǎng)絡(luò)的準(zhǔn)確率,并且作者依靠SENet贏得了ImageNet 2017圖像分類任務(wù)的冠軍。

      2 改進YOLOv3網(wǎng)絡(luò)

      YOLOv3在當(dāng)前各類目標(biāo)檢測任務(wù)中已經(jīng)取得了非常優(yōu)越的效果,不過算法仍然有很多改進的空間,尤其對于小目標(biāo)方面。在實際的紅外行人小目標(biāo)數(shù)據(jù)中,直接使用YOLOv3對數(shù)據(jù)進行訓(xùn)練,最后得到的模型具有良好的召回率,但是準(zhǔn)確率不夠。為了得到一個具有實時性,同時目標(biāo)檢測的準(zhǔn)確率和虛警率都良好的算法模型,以YOLOv3為基礎(chǔ)網(wǎng)絡(luò),結(jié)合SENet以提升分類網(wǎng)絡(luò)的準(zhǔn)確率是一個可行的思路。

      根據(jù)SENet的思路,對網(wǎng)絡(luò)進行改進一般有幾種方式,一種是直接在卷積層后面直接加SENet模塊,這種方法對所有網(wǎng)絡(luò)都通用,但是由于現(xiàn)在的網(wǎng)絡(luò)中都含有大量卷積層并且參數(shù)量巨大,這樣添加SENet模塊增加的參數(shù)量大,且需要大量實驗來確定在哪些卷積層后面加入新模塊。一種是用加入了SENet的模塊替換原有網(wǎng)絡(luò)中的inception或者residual層,這類方法替換位置較為明確,需要反復(fù)實驗的可能性較小,并且作者也積累了一定經(jīng)驗。在YOLOv3中含有較多的Residual層,于是對網(wǎng)絡(luò)的改進采取引入SE-Resnet模塊的方法。

      SE-Resnet模塊中,用Global average pooling層做壓縮操作,將每個特征通道變換成一個實數(shù)值,使C個特征圖最后變成一個1×1×C的實數(shù)序列。被處理的多個特征圖可以被解釋為從圖像中提取到的局部特征描述子的集合,每個特征圖無法利用到其他特征圖的上下文信息。使用Global average pooling可以使其擁有全局的感受野,從而讓低層網(wǎng)絡(luò)也能利用全局信息。

      圖3 SENet工作流程Fig.3 SENet workflow

      圖4 SE-Resnet模塊Fig.4 SE-Resnet module

      激活操作是SENet中用于捕獲特征通道重要性和依賴性的關(guān)鍵操作,對于它的實現(xiàn)原作者使用了兩個全連接層(full connected layer)結(jié)合ReLU函數(shù)去建模各個通道之間的相關(guān)性,并且其輸出的權(quán)重數(shù)與輸入的特征數(shù)相同。為了減少參數(shù)并且增強泛化能力,第一個全連接層將參數(shù)降維r倍,這里r取值為16,然后經(jīng)過一個ReLU后再經(jīng)過一個全連接層升維到原來的維數(shù)。第二個全連接層后使用sigmoid激活函數(shù)作為閾值門限,得到了一個1×1×C的序列,即每個特征通道的權(quán)重。最后將權(quán)重直接用乘法疊加到開始的特征通道上,即完成了所有特征通道的權(quán)重重標(biāo)定。

      引入SENet的SE-Resnet模塊可以簡化表示為一個Residual模塊下添加了一個SE模塊,如圖5[12]所示。

      圖5 SE-Resnet模塊簡化示意圖 Fig.5 SE-Resnet module simplified diagram

      SENet模塊的激活操作的實現(xiàn)中包含兩個全連接層,全連接層的參數(shù)量相對其他類型的網(wǎng)絡(luò)層是最大的,因此添加過多的SENet模塊將會導(dǎo)致網(wǎng)絡(luò)參數(shù)規(guī)模增大,影響目標(biāo)檢測算法的時間效率。根據(jù)原作者的經(jīng)驗,添加在網(wǎng)絡(luò)末端的SE模塊對準(zhǔn)確率的影響較小,所以末端的幾個Residual塊不做處理。YOLOv3包含23個Residual塊,從減少模型參數(shù)量優(yōu)化避免增加太多算法運行時間的角度考慮,只對每組卷積和殘差層的最后一個殘差層進行替換,于是改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

      圖6 改進后網(wǎng)絡(luò)結(jié)構(gòu) Fig.6 Network structure after improvement

      3 實驗過程與結(jié)果

      3.1 數(shù)據(jù)收集與處理

      實驗使用焦距20 mm,波段8~12 μm的長波紅外熱像儀在50 m的高度拍攝了570張單場景紅外行人圖像。數(shù)據(jù)拍攝地點在城市中,拍攝目標(biāo)主體為從樓頂斜視的城市街道,因此數(shù)據(jù)集中的場景包含城市道路、建筑物、樹木等,背景非常復(fù)雜。數(shù)據(jù)集圖像中行人目標(biāo)很小,在圖像中的矩形框大小約為13×8個像素,形態(tài)特征較少,用傳統(tǒng)特征提取方法將很難提取到有效特征,適合用深度學(xué)習(xí)方法進行目標(biāo)檢測。

      數(shù)據(jù)中只對行人的目標(biāo)進行了標(biāo)注,為了能夠提升目標(biāo)檢測的性能,提高泛化性,對一部分受到遮擋的行人目標(biāo)也進行了標(biāo)注,希望最后得到的模型能夠應(yīng)對一定程度的目標(biāo)遮擋。由于圖像數(shù)量較少,考慮對數(shù)據(jù)集進行數(shù)據(jù)增強,YOLOv3在訓(xùn)練過程中有多尺度訓(xùn)練的部分,因此數(shù)據(jù)增強時不需要做尺度縮放,只使用翻轉(zhuǎn)、加噪、隨機光照改變等方法,數(shù)據(jù)增強后得到2280張圖像,采集的紅外圖示例如圖7。

      圖7 采集的紅外圖像示例Fig.7 Infrared image example collected for experiment

      3.2 模型訓(xùn)練

      實驗平臺使用Linux 16.04 LTS系統(tǒng),CPU i7 8700 k,GPU為NVIDIA GTX1080 8 G,16 G內(nèi)存。模型訓(xùn)練主要思路是使用已經(jīng)在大規(guī)模數(shù)據(jù)集上訓(xùn)練好的模型進行fine-tune,在新數(shù)據(jù)集上繼續(xù)訓(xùn)練模型。以YOLO原作者在COCO和VOC上訓(xùn)練好的darknet53模型為基礎(chǔ)模型,隨機選取自建數(shù)據(jù)集中的1710張圖像作為訓(xùn)練集,其余的570張圖像為測試集,訓(xùn)練時初始學(xué)習(xí)率為0.001,衰減系數(shù)為0.0005,對于YOLOv3原網(wǎng)絡(luò)和改進后的網(wǎng)絡(luò)都進行訓(xùn)練。

      3.3 實驗結(jié)果

      由于本次實驗中的數(shù)據(jù)集只有一類目標(biāo),采用召回率(recall)和準(zhǔn)確率(precision)作為模型的評價標(biāo)準(zhǔn),其中準(zhǔn)確率為網(wǎng)絡(luò)預(yù)測的所有目標(biāo)中真目標(biāo)的比例,表征此網(wǎng)絡(luò)的分類準(zhǔn)確率;召回率為網(wǎng)絡(luò)預(yù)測成功的真目標(biāo)數(shù)與實際存在的真目標(biāo)數(shù)的比值,表征此網(wǎng)絡(luò)的查全率;以目標(biāo)交并比(IOU,intersection over union)大于0.5為真目標(biāo),IOU為預(yù)測目標(biāo)矩形框和目標(biāo)標(biāo)簽矩形重疊區(qū)域面積占二者并集面積的比值。

      式中:tp為網(wǎng)絡(luò)預(yù)測出的真目標(biāo)數(shù);fn為未能成功預(yù)測出的真目標(biāo)數(shù);n為預(yù)測的總數(shù);n′為標(biāo)簽?zāi)繕?biāo)數(shù)。

      在訓(xùn)練好的模型上,用570張圖像的測試集進行驗證。YOLOv3原網(wǎng)絡(luò)和改進后網(wǎng)絡(luò)的準(zhǔn)確率和召回率對比如表1所示。

      表1 主要指標(biāo)對比 Table 1 Comparison of primary specifications

      網(wǎng)絡(luò)在測試圖像中的檢測效果如圖8所示,可以看到紅外圖像中黯淡模糊的行人目標(biāo)能夠被檢測出來,并且部分被遮擋的目標(biāo)也有較好的檢測能力。

      從表1可以看到改進后的網(wǎng)絡(luò)在兩項主要指標(biāo)上都優(yōu)于原網(wǎng)絡(luò),由于SENet的特征權(quán)重重標(biāo)定,增強了重要特征對分類結(jié)果的影響,抑制了非重要特征,使網(wǎng)絡(luò)的特征描述能力進一步增強,最終令網(wǎng)絡(luò)的召回率和準(zhǔn)確率都得到提升。算法運行時間方面,在GTX1080顯卡,CUDA9.0運行環(huán)境下,570張測試圖片YOLOv3計算了10.77 s,SE-YOLOv3計算了11.15 s,都在50 fps以上,網(wǎng)絡(luò)增加的SE block帶來的額外計算時間較少。

      圖8 檢測結(jié)果示例Fig.8 Detect results of samples

      4 結(jié)語

      文章研究了當(dāng)前主流的深度學(xué)習(xí)目標(biāo)檢測方法,以YOLOv3網(wǎng)絡(luò)為基礎(chǔ),學(xué)習(xí)了SENet對特征進行權(quán)重重標(biāo)定的思路,將SE block引入到Y(jié)OLOv3網(wǎng)絡(luò)中,得到了召回率和準(zhǔn)確率都更高的新網(wǎng)絡(luò),并且保持了原有的高實時性。對實際收集的復(fù)雜紅外圖像進行試驗,新網(wǎng)絡(luò)取得了良好的行人小目標(biāo)檢測效果。

      猜你喜歡
      行人紅外準(zhǔn)確率
      網(wǎng)紅外賣
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      閃亮的中國紅外『芯』
      金橋(2021年4期)2021-05-21 08:19:20
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
      電子制作(2019年7期)2019-04-25 13:17:14
      路不為尋找者而設(shè)
      揚子江(2019年1期)2019-03-08 02:52:34
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      我是行人
      汽车| 措美县| 黄平县| 简阳市| 天镇县| 庆阳市| 金门县| 怀仁县| 咸阳市| 海南省| 吉林省| 红桥区| 醴陵市| 遂平县| 积石山| 钟山县| 广宁县| 开江县| 横峰县| 荣昌县| 佛坪县| 平陆县| 龙门县| 尼勒克县| 鹿邑县| 旅游| 澄城县| 德格县| 新郑市| 栖霞市| 富蕴县| 桑日县| 玉田县| 托克逊县| 黔南| 延川县| 犍为县| 合水县| 安仁县| 盱眙县| 库尔勒市|