• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)YOLOv4 的小目標(biāo)行人檢測(cè)算法

      2023-02-20 09:39:34王程劉元盛劉圣杰
      計(jì)算機(jī)工程 2023年2期
      關(guān)鍵詞:骨干行人注意力

      王程,劉元盛,劉圣杰

      (1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101)

      0 概述

      行人檢測(cè)的目的是確定視頻或圖像中行人的位置,其對(duì)無(wú)人駕駛感知具有重要意義[1]。近年來(lái),行人檢測(cè)被廣泛應(yīng)用于無(wú)人車的行人跟蹤、碰撞預(yù)防、行人路徑規(guī)劃等任務(wù)。由于硬件設(shè)備的不斷優(yōu)化以及各種先進(jìn)算法的涌現(xiàn),利用深度學(xué)習(xí)進(jìn)行行人檢測(cè)時(shí)準(zhǔn)確率和速度提升明顯,且具有很強(qiáng)的自適應(yīng)性和魯棒性[2]。當(dāng)前,主要有Two-stage 行人檢測(cè)算法[3]和One-stage 行人檢測(cè)算法[4]這兩種主流的深度學(xué)習(xí)行人檢測(cè)方法,兩種算法各有優(yōu)勢(shì),但是仍然面臨光照干擾、目標(biāo)遮擋、小目標(biāo)行人檢測(cè)精度低等諸多挑戰(zhàn)。

      Two-stage 行人檢測(cè)算法首先生成一系列行人候選框作為樣本,通過(guò)卷積網(wǎng)絡(luò)進(jìn)行樣本分類,其典型代表有Faster-RCNN[5]、Mask-RCNN[6]等算法。2021年,SHAO等[7]在Faster-RCNN 算法的基礎(chǔ)上進(jìn)行改進(jìn),采用基于級(jí)聯(lián)的多層特征融合策略,提升網(wǎng)絡(luò)對(duì)語(yǔ)義信息的特征提取能力,從而提高對(duì)小目標(biāo)行人的檢測(cè)準(zhǔn)確率。2021年,LAI等[8]提出MSRCR-IF 算法,通過(guò)調(diào)整RPN 和刪除實(shí)例掩碼分支提高了弱光下行人的檢測(cè)精度。2021年,音松等[9]在Mask R-CNN 算法中增加CFPN模塊,融合不同特征層的輸入信息生成行人掩膜,其降低了遮擋對(duì)于行人檢測(cè)精度的影響。Two-stage行人檢測(cè)算法在候選區(qū)域的提取過(guò)程中計(jì)算量大、過(guò)程復(fù)雜、檢測(cè)速度慢,雖然擁有較高的準(zhǔn)確度,但是無(wú)法滿足實(shí)時(shí)性需求。

      One-stage 行人檢測(cè)算法主要利用端到端的思想,采用整張圖像來(lái)回歸預(yù)測(cè)出目標(biāo)物體的類別和位置,其典型代表有基于回歸的SSD 系列[10]、YOLO系列[11]等。2021年,DONG等[12]提出SSD 算法,該算法采用跨層特征自適應(yīng)融合的方式,在增加感受野的同時(shí)增強(qiáng)重要特征并削弱次要特征,從而優(yōu)化了小目標(biāo)行人檢測(cè)效果。2021年,BOYUAN等[13]將SPP 網(wǎng)絡(luò)、K-means聚類算法與YOLOv4 模型相結(jié)合,在模型頸部采用Mish 激活函數(shù),有效緩解了遮擋對(duì)于目標(biāo)檢測(cè)的影響。2021年,CAO等[14]為降低光照對(duì)行人檢測(cè)的影響,在YOLOv4 算法的基礎(chǔ)上,設(shè)計(jì)一種新的多光譜通道特征融合(MCFF)模塊,用于集成不同照明條件下的顏色和熱流信息,提高了行人檢測(cè)精度。2021年,黃鳳琪等[15]提出dcn-YOLO 算法,其使用k-means++算法重構(gòu)目標(biāo)錨框,構(gòu)建殘差可變形模塊,提高了小目標(biāo)行人的檢測(cè)精度。One-stage行人檢測(cè)算法對(duì)整張圖像進(jìn)行特征提取,具有較高的準(zhǔn)確率和檢測(cè)速度。但是,該類算法應(yīng)用于無(wú)人車在小目標(biāo)行人檢測(cè)領(lǐng)域仍然面臨挑戰(zhàn)。

      小目標(biāo)行人是指輸入視頻或圖像數(shù)據(jù)中占比相對(duì)較小的行人,COCO 數(shù)據(jù)集將小于32×32 像素的目標(biāo)定義為小目標(biāo)??紤]到行人具有特殊比例,本文將高度小于32 像素的行人目標(biāo)視為小目標(biāo)行人。小目標(biāo)行人具有分辨率低、攜帶信息少等問(wèn)題,導(dǎo)致其特征表達(dá)能力較差,在特征提取過(guò)程中,僅能提取到少量特征,不利于后續(xù)檢測(cè)?;赮OLOv4 的算法特點(diǎn),本文主要從通道和空間信息增強(qiáng)、多尺度學(xué)習(xí)兩方面進(jìn)行改進(jìn),提出一種小目標(biāo)行人檢測(cè)算法,從而提取更多針對(duì)小目標(biāo)行人的特征信息。此外,無(wú)人車普遍采用低計(jì)算力的嵌入式設(shè)備,給實(shí)時(shí)檢測(cè)帶來(lái)了很大挑戰(zhàn),針對(duì)該問(wèn)題,本文采用深度可分離卷積提高算法實(shí)時(shí)性。在行人檢測(cè)過(guò)程中,隨著行人行走距離變遠(yuǎn),行人目標(biāo)尺度逐漸變小,造成小目標(biāo)行人特征過(guò)少,檢測(cè)精度低,本文引入scSE(concurrent spatial and channel Squeeze &Excitation)注意力模塊,以增強(qiáng)對(duì)重要通道和空間特征的學(xué)習(xí),同時(shí)對(duì)特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)進(jìn)行改進(jìn)。最終在VOC07+12+COCO[16-17]數(shù)據(jù)集上測(cè)試算法的有效性,并在北京聯(lián)合大學(xué)北四環(huán)校區(qū)實(shí)際園區(qū)環(huán)境中使用無(wú)人車進(jìn)行實(shí)時(shí)驗(yàn)證。

      1 相關(guān)工作

      1.1 YOLOv4 算法介紹

      YOLOv1 是YOLO 系列的初始版本,由REDMON等[18]于2016 年提出,但是,該網(wǎng)絡(luò)存在以下問(wèn)題:只可輸入與訓(xùn)練圖像相同分辨率的圖像;只檢測(cè)單格中多物體中的一個(gè)物體;檢測(cè)定位準(zhǔn)確性較差。2017年,REDMON等[19]對(duì)YOLOv1 進(jìn)行改進(jìn),設(shè)計(jì)了YOLOv2 網(wǎng)絡(luò),其提高了算法檢測(cè)性能。此后,REDMON等[20]對(duì)YOLO 進(jìn)一步優(yōu)化,于2017年提 出YOLOv3,YOLOv3 在YOLOv2 的基礎(chǔ)上引入FPN,使用Darknet-53 網(wǎng)絡(luò)進(jìn)行特征提取,使其檢測(cè)性能更加完善。2020年,BOCHKOVSKIY 等[11]設(shè)計(jì)了YOLOv4 網(wǎng)絡(luò),其在YOLOv3 的基礎(chǔ)上總結(jié)所有檢測(cè)技巧,排列組合出最優(yōu)算法,在檢測(cè)速度和精度上達(dá)到了更好的平衡。

      YOLOv4 網(wǎng)絡(luò)主要包含輸入(Input)、骨干網(wǎng)絡(luò)(Backbone)、頸部(Neck)、頭部(Head)四部分。骨干網(wǎng)絡(luò)采用CSPDarknet53,CSPNet 結(jié)構(gòu)可以降低網(wǎng)絡(luò)計(jì)算量,消除網(wǎng)絡(luò)反向優(yōu)化時(shí)梯度信息冗余現(xiàn)象,增強(qiáng)卷積網(wǎng)絡(luò)學(xué)習(xí)能力,在實(shí)現(xiàn)網(wǎng)絡(luò)輕量化的同時(shí)能夠保證準(zhǔn)確率,此外,骨干網(wǎng)絡(luò)采用Mish 激活函數(shù),增強(qiáng)深層信息的傳播;頸部網(wǎng)絡(luò)采用空間金字塔池 化(Space Pyramid Pool,SPP)模塊和FPN+PAN(Path Aggregation Network)模式的結(jié)構(gòu),有效提高了網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性;頭部采用與YOLOv3 類似的多尺度預(yù)測(cè)方式,分別檢測(cè)小、中、大3 種目標(biāo)。

      1.2 注意力機(jī)制

      近年來(lái),注意力機(jī)制[21]廣泛應(yīng)用于自然語(yǔ)言處理、統(tǒng)計(jì)學(xué)習(xí)等領(lǐng)域,其形式與人類的視覺(jué)注意力相似。人類視覺(jué)通過(guò)快速瀏覽圖像全局信息,獲得其中的重要目標(biāo)區(qū)域,將注意力集中于目標(biāo)區(qū)域,以獲取更多細(xì)節(jié)信息。2018年,HU等[22]提出SENet通道注意力機(jī)制,通過(guò)學(xué)習(xí)各通道的權(quán)重提高重要通道特征對(duì)網(wǎng)絡(luò)的影響,同時(shí)抑制不重要的特征。ROY等[23]在同年提出基于SE 注意力模塊的3 種變體,分別為cSE 注意力模塊、sSE 注意力模塊和scSE 注意力模塊。cSE 注意力模塊沿空間域擠壓,并沿通道激勵(lì)重新加權(quán),依據(jù)不同的通道關(guān)系來(lái)動(dòng)態(tài)調(diào)整特征圖,從而提高網(wǎng)絡(luò)提取通道特征的能力。sSE 注意力模塊主要壓縮特征圖的通道特征,對(duì)重要的空間特征進(jìn)行激勵(lì),提高網(wǎng)絡(luò)提取空間特征的能力。scSE 注意力模塊由cSE 和sSE 注意力模塊組成而成,兩種模塊采用并行的方式,同時(shí)對(duì)輸入特征圖進(jìn)行通道信息和空間信息的提取,融合所提取的特征并對(duì)融合后的特征進(jìn)行激勵(lì),從而促使網(wǎng)絡(luò)學(xué)習(xí)到更重要的特征信息。

      本文對(duì)YOLOv4 骨干網(wǎng)絡(luò)的特征傳遞過(guò)程進(jìn)行實(shí)驗(yàn)分析,發(fā)現(xiàn)此過(guò)程中仍有許多對(duì)于小目標(biāo)行人檢測(cè)極其重要的中、淺層紋理和輪廓信息沒(méi)有被提取到,對(duì)小目標(biāo)行人的特征學(xué)習(xí)產(chǎn)生重要影響。本文引入scSE 注意力模塊提高網(wǎng)絡(luò)提取中、淺層紋理和輪廓信息的能力,從而提升小目標(biāo)行人檢測(cè)效果。

      2 本文方法

      針對(duì)無(wú)人車對(duì)小目標(biāo)行人檢測(cè)精度低、實(shí)時(shí)性差等問(wèn)題,本文提出一種YOLOv4-DBF 算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。引入深度可分離卷積代替YOLOv4 中的傳統(tǒng)卷積(見(jiàn)圖1 中實(shí)線框①區(qū)域),降低模型的參數(shù)量和計(jì)算量,提升檢測(cè)速度,提高算法實(shí)時(shí)性;為解決小目標(biāo)行人學(xué)習(xí)特征過(guò)少的問(wèn)題,在YOLOv4 骨干網(wǎng)絡(luò)中的特征融合部分(即add 和concat 層后)引入scSE 注意力模塊(見(jiàn)圖1 中實(shí)線框②、③區(qū)域),增強(qiáng)對(duì)輸入行人特征圖中重要通道和空間特征的學(xué)習(xí);對(duì)YOLOv4 頸部中的FPN 進(jìn)行改進(jìn),將網(wǎng)絡(luò)的融合方式add 改進(jìn)為concat,并使用1×1卷積調(diào)節(jié)通道數(shù),在少量增加計(jì)算量的同時(shí)增強(qiáng)對(duì)圖像中目標(biāo)多尺度特征的學(xué)習(xí),從而提高小目標(biāo)行人的檢測(cè)精度。

      圖1 YOLOv4-DBF 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 YOLOv4-DBF network structure

      2.1 深度可分離卷積

      YOLOv4 中使用了大量傳統(tǒng)卷積,將各通道的輸入特征圖與相應(yīng)卷積核進(jìn)行卷積相乘后累加,最后輸出特征。傳統(tǒng)卷積結(jié)構(gòu)如圖2 所示,在圖2中:Ik和Oy分別為輸入和輸出圖像的尺寸,Ik=Oy;Dk為卷積核的尺寸;C和N分別為輸入和輸出的通道數(shù)。傳統(tǒng)卷積的計(jì)算方式如式(1)所示:

      圖2 傳統(tǒng)卷積結(jié)構(gòu)Fig.2 Traditional convolution structure

      深度可分離卷積是2017 年由HOWARD等[24]提出,使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積,可以降低模型的參數(shù)量和計(jì)算量,提高算法實(shí)時(shí)性。深度可分離卷積將傳統(tǒng)卷積中的部分卷積分離成一個(gè)3×3 的深度卷積和一個(gè)1×1 的逐點(diǎn)卷積,結(jié)構(gòu)如圖3所示。

      圖3 深度可分離卷積結(jié)構(gòu)Fig.3 Deeply separable convolution structure

      在圖3 中:Ik和Oy分別是輸入和輸出數(shù)據(jù)的尺寸,Ik=Oy;Dk是卷積核的尺寸;C和N分別為輸入和輸出的通道數(shù)。深度可分離卷積的計(jì)算公式如式(2)所示:

      深度可分離卷積計(jì)算量與傳統(tǒng)卷積計(jì)算量的比值為:

      由式(3)可知,使用深度可分離卷積可將模型參數(shù)量和計(jì)算量降至傳統(tǒng)卷積的1/左右,模型速度將顯著提升,更有利于部署在嵌入式設(shè)備中。

      2.2 scSE 注意力模塊

      scSE 注意力模塊通過(guò)提取輸入特征圖的通道和空間信息,進(jìn)行相加處理以對(duì)其增強(qiáng)激勵(lì),提高網(wǎng)絡(luò)學(xué)習(xí)重要特征的能力,該模塊由cSE 和sSE 注意力模塊并行組合而成。

      cSE 注意力模塊通過(guò)全局平均池化排除空間依賴性,學(xué)習(xí)特定于通道的描述符,用于重新校準(zhǔn)功能圖,具體方式為:通過(guò)全局平均池化壓縮空間,產(chǎn)生一個(gè)i向量(維度是1×1×C,C為通道數(shù),i∈C),通過(guò)一個(gè)權(quán)重為W1(維度是C×C/2)的全連接層和ReLU激活函數(shù)δ(·)以及一個(gè)權(quán)重為W2(維度是C/2×C)的全連接層對(duì)通道依賴項(xiàng)進(jìn)行編碼,計(jì)算方式如式(4)所示:

      為了獲取不同通道的激活值,使其介于[0,1]得到新的特征圖通道,通過(guò)Sigmoid 對(duì)輸入特征圖U1=[u1,u2,…,uc]進(jìn)行歸一化處理σ(·),其中,C為通道數(shù),通道ui(i∈C)的維度為H×W(H和W分別是輸入特征圖的高和寬),計(jì)算方式如式(5)所示:

      通過(guò)計(jì)算各通道信息的重要程度,激勵(lì)并重新校準(zhǔn)通道值,以提高網(wǎng)絡(luò)學(xué)習(xí)重要通道特征的能力。

      sSE 注意力模塊通過(guò)壓縮特征圖的通道特征,激勵(lì)重要空間特征,提高網(wǎng)絡(luò)對(duì)空間特征的學(xué)習(xí)能力。輸入特征圖U2=[u1,1,u1,2,…,ui,j,…,uH,W],其中,每個(gè)ui,j的維度為1×1×C,ui,j表示位置在(i,j)處的通道特征信息。通過(guò)通道數(shù)為C、權(quán)重為Wsq的1×1 卷積對(duì)特征圖的通道進(jìn)行壓縮,得到通道數(shù)為1、尺寸為H×W的特征圖q(q=Wsq*U)。使用Sigmoid 對(duì)輸入特征圖U2進(jìn)行歸一化處理σ(·),得到特征圖中每個(gè)空間位置(i,j)的空間信息重要程度,以提高對(duì)重要空間位置信息的學(xué)習(xí),得到新的特征圖通道sSE,計(jì)算方式如式(6)所示:

      scSE 注意力模塊計(jì)算方式如式(7)所示:

      小目標(biāo)行人在圖像中所占像素很少,因此,骨干網(wǎng)絡(luò)中提取到的有效特征有限。本文將scSE 注意力模塊嵌入骨干網(wǎng)絡(luò)中的特征融合部分(即add 和concat層后),增強(qiáng)小目標(biāo)行人的通道信息和空間信息,促使網(wǎng)絡(luò)學(xué)習(xí)更有意義的小目標(biāo)行人特征信息,降低其特征學(xué)習(xí)過(guò)少所帶來(lái)的影響,從而提高檢測(cè)精度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 中實(shí)線框②、③區(qū)域所示。

      2.3 特征金字塔網(wǎng)絡(luò)FPN

      FPN 由LIN等[25]于2017 年提出,其中設(shè)計(jì)了更有效的高層特征和低層特征融合方式,增強(qiáng)了對(duì)圖像中多尺度特征信息的學(xué)習(xí)。FPN 由bottom-up(自底向上)的線路橫向連接top-down(自頂向下)的線路而構(gòu)成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。bottom-up 的每層特征圖采用Ci標(biāo)記,top-down 的每層特征圖采用Pi標(biāo)記。P2代表對(duì)應(yīng)C2大小的特征圖,P2由C2經(jīng)過(guò)1×1 卷積降采樣和P3經(jīng)過(guò)2 倍上采樣進(jìn)行add 操作而得到,以此類推。FPN 通過(guò)構(gòu)造一種獨(dú)特的金字塔結(jié)構(gòu)來(lái)避免計(jì)算量高的問(wèn)題,同時(shí)能較好地處理尺度變化對(duì)目標(biāo)檢測(cè)所造成的影響。

      圖4 FPN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of FPN

      借鑒YOLOv4 對(duì)PAN 網(wǎng)絡(luò)改進(jìn)的思想,本文對(duì)其頸部網(wǎng)絡(luò)中的FPN 進(jìn)行優(yōu)化,如圖5 所示。

      圖5 改進(jìn)后的FPNFig.5 Improved FPN

      將FPN 融合方式中的add 改進(jìn)為concat,融合經(jīng)多次卷積后提取的特征。考慮到concat 會(huì)增大網(wǎng)絡(luò)的計(jì)算量,本文在此基礎(chǔ)上進(jìn)行1×1 的卷積,調(diào)節(jié)通道數(shù)。對(duì)FPN 進(jìn)行改進(jìn)后,在少量增加計(jì)算量的同時(shí)可以加深網(wǎng)絡(luò)層數(shù),使網(wǎng)絡(luò)學(xué)習(xí)到更多的特征,從而提高對(duì)小目標(biāo)行人的檢測(cè)效果。

      3 實(shí)驗(yàn)結(jié)果與分析

      本文實(shí)驗(yàn)環(huán)境為Ubuntu16.04,ROS 操作系統(tǒng),顯卡Intel?Xeon?Silver 4216 CPU @2.10 GHz,188.6GiB RAM,GPU RTX3090 以及cuda v11.0.207、cudnn v8.2、pytorch v1.8.0 和python v3.6.13 的軟件平臺(tái)。實(shí)驗(yàn)中使用Adam 優(yōu)化器,對(duì)模型設(shè)置的初始學(xué)習(xí)率為0.001,分別在140 個(gè)和170 個(gè)周期時(shí)將其衰減為0.000 1 和0.000 01,動(dòng)量因子為0.9,訓(xùn)練過(guò)程在第180 個(gè)周期時(shí)結(jié)束。

      3.1 數(shù)據(jù)集說(shuō)明

      本文實(shí)驗(yàn)統(tǒng)一在VOC07+12+COCO 數(shù)據(jù)集上進(jìn)行訓(xùn)練并驗(yàn)證。VOC07和VOC12數(shù)據(jù)集共20個(gè)小類,含有超過(guò)3 萬(wàn)張圖片,近8 萬(wàn)個(gè)實(shí)例目標(biāo)。COCO 數(shù)據(jù)集是一個(gè)大型且豐富的目標(biāo)檢測(cè)、分割和字幕數(shù)據(jù)集,其中包含自然圖片以及生活中常見(jiàn)的目標(biāo)圖片,背景比較復(fù)雜,目標(biāo)數(shù)量較多,目標(biāo)尺寸小,共含80 個(gè)類別,有超過(guò)33 萬(wàn)張圖片,其中20 萬(wàn)張圖片有標(biāo)注,平均每張圖片包含3.5 個(gè)類別和7.7 個(gè)實(shí)例目標(biāo),整個(gè)數(shù)據(jù)集中的個(gè)體數(shù)目超過(guò)150 萬(wàn)個(gè)。

      3.2 評(píng)估標(biāo)準(zhǔn)

      實(shí)驗(yàn)采用精確率P(Precision)、召回率R(Recall)、平均精度AP(Average Precision)(IoU 等于0.5)、FPS(畫面每秒傳輸幀數(shù))這4 項(xiàng)性能指標(biāo)評(píng)判網(wǎng)絡(luò)性能,P、R、AP 的計(jì)算方式如下:

      其中:TP為模型正確檢測(cè)到的目標(biāo)數(shù)量;FP為系統(tǒng)錯(cuò)誤檢測(cè)到的目標(biāo)數(shù)量;FN為系統(tǒng)錯(cuò)誤檢測(cè)以及漏檢的數(shù)量;PR曲線下的面積就是對(duì)某一類別計(jì)算的平均精度AP。

      3.3 訓(xùn)練及測(cè)試結(jié)果分析

      在訓(xùn)練過(guò)程中,可以通過(guò)Loss 值的變化判斷網(wǎng)絡(luò)訓(xùn)練效果。圖6 展示了本文算法在180 Epoch 訓(xùn)練過(guò)程中Loss 值的變化,可以看出,本文YOLOv4-DBF 算法在訓(xùn)練過(guò)程中Loss 值隨著訓(xùn)練周期增多而逐漸呈現(xiàn)下降趨勢(shì),最終穩(wěn)定在0.912 左右,說(shuō)明本文算法在訓(xùn)練過(guò)程中已達(dá)到穩(wěn)定和最優(yōu)。

      圖6 本文算法在訓(xùn)練過(guò)程中Loss 值的變化Fig.6 The change of Loss in the training process of the algorithm in this paper

      本文YOLOv4-DBF 算法引用深度可分離卷積提高算法實(shí)時(shí)性,同時(shí)在YOLOv4 的骨干網(wǎng)絡(luò)特征融合部分引入scSE 注意力模塊,增強(qiáng)對(duì)重要通道和空間特征的學(xué)習(xí),并改進(jìn)頸部網(wǎng)絡(luò)中的FPN,增強(qiáng)對(duì)小目標(biāo)行人多尺度特征信息的融合。

      從表1 可以看出,本文算法的AP 相比YOLOv4算法提高4.16 個(gè)百分點(diǎn),速度提升27%,說(shuō)明本文算法在小目標(biāo)檢測(cè)精度和速度方面能取得更好的平衡,檢測(cè)效果更好。相較Two-stage 網(wǎng)絡(luò)Faster-RCNN,本文算法在驗(yàn)證集上的AP 提高了14.63 個(gè)百分點(diǎn),速度提高了33FPS;與One-stage 網(wǎng)絡(luò)的SSD、YOLOv3 相比,本文算法的AP 和FPS 都有較大提升。綜上所述,本文算法能夠大幅提升小目標(biāo)行人的檢測(cè)精度和實(shí)時(shí)性。

      表1 不同算法在測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 Table 1 Experimental results of different algorithms on test dataset

      將本文算法和YOLOv4 算法在VOC07+12+COCO 驗(yàn)證集上的結(jié)果進(jìn)行可視化,如圖7 所示。通過(guò)可視化效果圖可以看出,本文算法適用于不同情境下的小目標(biāo)行人檢測(cè)任務(wù),并能取得顯著效果。

      圖7 YOLOv4 和YOLOv4-DBF 的可視化效果Fig.7 Visualization effect of YOLOv4 and YOLOv4-DBF

      在北京聯(lián)合大學(xué)北四環(huán)校區(qū)使用“小旋風(fēng)”四代無(wú)人車進(jìn)行實(shí)時(shí)驗(yàn)證,如圖8 所示,車載設(shè)備為僅擁有6 核CPU 架構(gòu)、256 核Pascal 架構(gòu)GPU核心、8 GB內(nèi)存的Jetson TX2。

      圖8 “小旋風(fēng)”四代無(wú)人車Fig.8 A fourth-generation whirlwind smart car

      綜合考慮各種因素,在降低一定的圖像輸入分辨率后,YOLOv4 算法在無(wú)人車實(shí)時(shí)檢測(cè)時(shí)速度僅為8FPS,本文算法經(jīng)加速部署后的實(shí)時(shí)速度可達(dá)23FPS,大幅提高了算法在嵌入式設(shè)備上的實(shí)時(shí)運(yùn)行速度。2 種算法的檢測(cè)效果如圖9 所示,通過(guò)圖9 可以看出,相較YOLOv4 算法,本文算法在應(yīng)用于低計(jì)算力的嵌入式設(shè)備時(shí)小目標(biāo)行人檢測(cè)效果更好。

      圖9 YOLOv4-DBF 和YOLOv4 在校園實(shí)時(shí)檢測(cè)的效果對(duì)比Fig.9 Comparison of real-time detection effects between YOLOv4-DBF and YOLOv4 on campus

      3.4 消融實(shí)驗(yàn)結(jié)果分析

      本節(jié)通過(guò)消融實(shí)驗(yàn)驗(yàn)證scSE 注意力模塊嵌入到Y(jié)OLOv4 網(wǎng)絡(luò)結(jié)構(gòu)不同位置中的性能提升效果,以及算法設(shè)計(jì)的合理性。除2.2 節(jié)提到的將scSE 注意力模塊嵌入到骨干網(wǎng)絡(luò)中,還可將其嵌入到網(wǎng)絡(luò)的其他特征融合位置,即頸部SPP 網(wǎng)絡(luò)前、中小目標(biāo)(38×38、76×76)檢測(cè)頭前,從而進(jìn)行多尺度特征融合,具體結(jié)構(gòu)如圖10、圖11 所示。將scSE 注意力模塊嵌入模型不同位置后在驗(yàn)證集上的結(jié)果如表2 所示。其中,D 代表深度可分離卷積;BscSE 代表在骨干網(wǎng)絡(luò)引入scSE 注意力模塊;F 代表改進(jìn)FPN 融合方式;NscSE 代表在頸部網(wǎng)絡(luò)引入scSE 注意力模塊;HscSE 代表在檢測(cè)頭網(wǎng)絡(luò)引入scSE 注意力模塊。

      圖10 頸部網(wǎng)絡(luò)嵌入scSE 注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Structure of neck network embedded with scSE attention module

      圖11 中小目標(biāo)檢測(cè)頭網(wǎng)絡(luò)嵌入scSE 注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Structure of small and medium targets detection head network embedded with scSE attention module

      表2 scSE 注意力模塊嵌入模型不同位置后的實(shí)驗(yàn)結(jié)果 Table 2 Experimental results of scSE attention module embedded in different positions of the model

      從表2 可以看出,使用深度可分離卷積代替YOLOv4 中的傳統(tǒng)卷積后,檢測(cè)速度可達(dá)51FPS,AP僅降低了0.54 個(gè)百分點(diǎn)。在引入深度可分離卷積的基礎(chǔ)上,將scSE 注意力模塊嵌入網(wǎng)絡(luò)模型中的不同位置,所產(chǎn)生的結(jié)果不同,分析可知,骨干網(wǎng)絡(luò)提取的特征圖語(yǔ)義信息并不豐富,會(huì)缺失許多中、淺層紋理和輪廓信息,這些信息對(duì)小目標(biāo)行人檢測(cè)極其重要,因此,將scSE 注意力模塊嵌入骨干網(wǎng)絡(luò)中能更好地增強(qiáng)對(duì)小目標(biāo)行人的空間和通道特征的提取和學(xué)習(xí)能力。將scSE 注意力模塊嵌入骨干網(wǎng)絡(luò)中相比YOLOv4+D 算法,檢測(cè)速度有所下降,但是AP 提升了3.60 個(gè)百分點(diǎn),犧牲的速度不會(huì)影響模型的實(shí)時(shí)效果。在模型頸部SPP 網(wǎng)絡(luò)前嵌入scSE 注意力模塊,網(wǎng)絡(luò)對(duì)多尺度特征進(jìn)行融合,小目標(biāo)行人檢測(cè)精度相比YOLOv4+D 提升1.19 個(gè)百分點(diǎn)。在模型的中小目標(biāo)檢測(cè)頭網(wǎng)絡(luò)前嵌入scSE 注意力模塊,小目標(biāo)行人檢測(cè)精度幾乎沒(méi)有變化,這是由于檢測(cè)頭網(wǎng)絡(luò)已得到豐富的語(yǔ)義信息,即使再嵌入scSE 注意力模塊,也不會(huì)產(chǎn)生明顯的提升效果。綜上,將scSE注意力模塊嵌入骨干網(wǎng)絡(luò)中可以得到最佳性能。

      此外,本文還針對(duì)在引入深度可分離卷積基礎(chǔ)上將sSE、cSE、scSE 三種注意力模塊分別嵌入骨干網(wǎng)絡(luò)中以及是否改進(jìn)FPN 進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3所示。其中,BsSE 代表在骨干網(wǎng)絡(luò)中引入sSE 注意力模塊;BcSE 代表在骨干網(wǎng)絡(luò)中引入cSE 注意力模塊。

      表3 不同注意力模塊嵌入骨干網(wǎng)絡(luò)及是否改進(jìn)FPN 的消融實(shí)驗(yàn)結(jié)果 Table 3 Ablation experiment results of different attention modules embedded in backbone network and whether FPN is improved

      從表3 可以看出:將sSE、cSE、scSE 三種注意力模塊分別嵌入骨干網(wǎng)絡(luò)后,scSE 注意力模塊相比其他兩種模塊在速度近乎相同的情況下得到了最優(yōu)的性能,AP 達(dá)到92.85%;改進(jìn)FPN后,在犧牲少量速度的情況下可將檢測(cè)精度提升至93.95%。

      4 結(jié)束語(yǔ)

      本文針對(duì)YOLOv4 算法應(yīng)用于嵌入式設(shè)備時(shí)實(shí)時(shí)性不高、對(duì)小目標(biāo)行人檢測(cè)效果差的問(wèn)題,提出一種改進(jìn)的小目標(biāo)行人檢測(cè)算法YOLOv4-DBF。采用深度可分離卷積替換原YOLOv4 算法中的傳統(tǒng)卷積,同時(shí)引入scSE 注意力模塊并對(duì)FPN 進(jìn)行改進(jìn),以降低模型參數(shù)量和計(jì)算量,增強(qiáng)對(duì)小目標(biāo)行人重要通道和空間特征以及多尺度特征的學(xué)習(xí)。在VOC07+12+COCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法能有效提高小目標(biāo)行人檢測(cè)精度及實(shí)時(shí)性,將本文算法加速部署在無(wú)人車上進(jìn)行校園場(chǎng)景的實(shí)時(shí)測(cè)試時(shí),其實(shí)時(shí)性較好且性能穩(wěn)定。行人檢測(cè)應(yīng)用于更加復(fù)雜的無(wú)人駕駛場(chǎng)景時(shí),僅依靠視覺(jué)傳感器將難以取得良好效果,如何對(duì)多傳感器進(jìn)行融合以實(shí)現(xiàn)實(shí)時(shí)準(zhǔn)確的小目標(biāo)行人檢測(cè),將是下一步的研究方向。

      猜你喜歡
      骨干行人注意力
      讓注意力“飛”回來(lái)
      毒舌出沒(méi),行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      核心研發(fā)骨干均16年以上!創(chuàng)美克在產(chǎn)品研發(fā)上再發(fā)力
      路不為尋找者而設(shè)
      骨干風(fēng)采展示
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      我是行人
      A Beautiful Way Of Looking At Things
      關(guān)于組建“一線話題”骨干隊(duì)伍的通知
      行人流綜述
      汽车| 卢龙县| 巴楚县| 乌鲁木齐县| 望谟县| 唐海县| 那曲县| 白山市| 荆州市| 桑植县| 大邑县| 庄浪县| 通海县| 北海市| 临潭县| 加查县| 平果县| 奉化市| 隆德县| 彭泽县| 犍为县| 松江区| 廊坊市| 千阳县| 凤城市| 高雄市| 河曲县| 泾阳县| 鄯善县| 涿鹿县| 普陀区| 长宁县| 舒兰市| 新化县| 呼图壁县| 育儿| 大石桥市| 巴东县| 遂溪县| 襄城县| 平果县|