• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進(jìn)多尺度特征融合的行人檢測算法

      2022-08-11 06:10:04馬國軍
      電光與控制 2022年8期
      關(guān)鍵詞:候選框行人尺度

      韓 松, 馬國軍

      (江蘇科技大學(xué)電子信息學(xué)院,江蘇 鎮(zhèn)江 212000)

      0 引言

      隨著視頻監(jiān)控、無人駕駛汽車、智能機(jī)器人等應(yīng)用領(lǐng)域的快速發(fā)展,行人檢測技術(shù)[1]也逐漸成為研究熱點。針對行人檢測問題,國內(nèi)外學(xué)者已經(jīng)開展了相關(guān)的研究,但通用目標(biāo)檢測算法在檢測小目標(biāo)或遮擋行人時,由于分辨率較低、圖像不清晰、背景環(huán)境干擾等因素容易出現(xiàn)行人特征信息提取不全的現(xiàn)象,嚴(yán)重影響行人檢測準(zhǔn)確性和實時性,這是目前行人檢測領(lǐng)域亟需解決的問題。

      傳統(tǒng)的行人檢測方法主要采取大小不同的滑動窗口選取候選區(qū)域并進(jìn)行特征提取,最后使用分類器實現(xiàn)行人檢測。DALAL等[2]提出將提取圖像的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征送入支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行分類;DOLLR等[3]提出聚合通道特征(Aggregate Channel Feature,ACF)方法,通過提取多種通道特征構(gòu)成特征金字塔,并利用AdaBoost分類器檢測行人,該方法在性能和速度上都有很大的提升。由于上述方法依賴人工設(shè)計特征,因此計算復(fù)雜、泛化能力弱且魯棒性差,使得傳統(tǒng)行人檢測方法對中小尺寸行人特征表征能力不足,實時檢測效果不明顯。

      隨著計算機(jī)硬件的快速發(fā)展,深度學(xué)習(xí)方法應(yīng)用于行人檢測的效果也發(fā)生了質(zhì)的飛越,其提取到圖像深度特征信息,相比于人工設(shè)計特征具有更強(qiáng)的表征能力,其方法具體分為基于候選框生成的兩階段(Two Stage)目標(biāo)檢測算法和基于回歸的一階段(One Stage)目標(biāo)檢測算法?;诤蜻x框生成的兩階段算法首先生成包含目標(biāo)的候選框,然后對候選框區(qū)域進(jìn)行分類和邊界回歸,代表算法有R-CNN[4],F(xiàn)ast R-CNN,F(xiàn)aster R-CNN[5](Faster Regions with CNN Features)和Mask R-CNN等。由于基于候選框生成的兩階段算法網(wǎng)絡(luò)較復(fù)雜、速度慢,無法滿足視頻監(jiān)控行人實時性要求,因此基于回歸的一階段目標(biāo)檢測算法逐漸興起,代表算法有SSD[6],YOLO[7],YOLOv2,YOLOv3[8]等。SSD采用特征融合思想將底層結(jié)構(gòu)信息與高層語義信息進(jìn)行融合。YOLO是基于回歸思想的網(wǎng)絡(luò)模型,實現(xiàn)了端到端的訓(xùn)練并且可以達(dá)到實時檢測效果。YOLOv2中增加Batch Normalization層加速收斂,避免了模型過擬合[9]。

      針對YOLOv2對小目標(biāo)檢測效果不明顯的問題,YOLOv3利用殘差結(jié)構(gòu)[10]改進(jìn)了Darknet-53分類網(wǎng)絡(luò),并使用3個尺度特征圖對行人目標(biāo)進(jìn)行檢測與識別。為了進(jìn)一步提高模型檢測準(zhǔn)確率,范麗等[11]提出在YOLOv3模型中融入標(biāo)簽平滑并增加多尺度檢測,解決因行人較遠(yuǎn)或行人被嚴(yán)重遮擋而出現(xiàn)漏檢的問題,實現(xiàn)自動學(xué)習(xí)行人特征;曾成等[12]為了解決小尺寸目標(biāo)識別率低的問題,重構(gòu)金字塔機(jī)制,損失函數(shù)由IoU替換為DIoU,解決邊框回歸梯度下降問題。以上方法雖然檢測速度和精度有了提升,但仍然存在對中小尺寸目標(biāo)識別準(zhǔn)確度不高的問題,容易造成誤檢、漏檢。針對以上問題,本文改進(jìn)主干網(wǎng)絡(luò)Darknet-53網(wǎng)絡(luò)結(jié)構(gòu),輸出層由三尺度檢測變?yōu)樗某叨葯z測,同時,使用線性尺度縮放的K-means聚類算法提升先驗框與真實框的相似度,提高了對中小尺寸行人目標(biāo)檢測的準(zhǔn)確率。

      1 YOLOv3檢測算法

      YOLOv3算法是在YOLOv2基礎(chǔ)上,融合了特征金字塔(Feature Pyramid Network,FPN)[13]、殘差網(wǎng)絡(luò)等方法提出的基于回歸的一階段目標(biāo)檢測算法,該算法網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。它將目標(biāo)檢測問題轉(zhuǎn)換成回歸問題,改進(jìn)YOLOv2網(wǎng)絡(luò)結(jié)構(gòu),使得端到端檢測算法適合小目標(biāo)檢測,在訓(xùn)練模型時,行人圖像輸入神經(jīng)網(wǎng)絡(luò)中可直接得到行人目標(biāo)的位置和類別信息。

      圖1 YOLOv3 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of YOLOv3 network

      YOLOv3算法主要分為特征提取網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)兩個部分,其中,特征提取網(wǎng)絡(luò)為Darknet-53,包括5個殘差模塊,為了避免在訓(xùn)練時網(wǎng)絡(luò)層數(shù)過多導(dǎo)致梯度爆炸,其借鑒了殘差結(jié)構(gòu)思想使用大量的跳躍連接,堆疊更多的層來進(jìn)行特征提取,加強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同,包含更多卷積層,不含全連接層和池化層。在進(jìn)行行人檢測與識別時,由于輸出的特征圖13×13網(wǎng)絡(luò)層比較深,感受野大,容易丟失小目標(biāo)行人特征。

      在預(yù)測網(wǎng)絡(luò)方面,YOLOv3算法利用FPN選取Darknet-53網(wǎng)絡(luò)上13×13,26×26和52×52這3個不同尺度特征圖進(jìn)行預(yù)測,分別預(yù)測大目標(biāo)、中等目標(biāo)和小目標(biāo)。對輸入圖像劃分為S×S的網(wǎng)格,每個網(wǎng)格負(fù)責(zé)檢測中心位置落入其中的目標(biāo),1個網(wǎng)絡(luò)預(yù)測B個邊界框及其置信度,以及C個類別概率,其網(wǎng)絡(luò)輸出大小為S×S×B×(4+1+C)。在預(yù)測過程中,YOLOv3選取了9個初始候選框(Anchor Box),Anchor Box與Bounding Box的關(guān)系如圖2所示。

      圖2 Anchor Box與Bounding Box關(guān)系圖

      Bounding Box的坐標(biāo)算式為

      (1)

      式中:網(wǎng)絡(luò)輸出相對于Anchor Box的偏移量分別記為tx,ty,tw,th;cx,cy分別為當(dāng)前網(wǎng)格坐標(biāo)偏移量;σ為激活函數(shù)Sigmoid,將偏移量tx,ty映射到[0,1]區(qū)間內(nèi);pw,ph分別為對應(yīng)Anchor Box的寬和高。

      2 本文改進(jìn)算法

      2.1 BN層融入卷積層

      在神經(jīng)網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)模型時,BN(Batch Normalization)層[14]能夠加速網(wǎng)絡(luò)收斂,防止過擬合情況發(fā)生,通常在卷積之后,非線性處理之前。在模型訓(xùn)練時,計算每個batch的均值μ和方差σ2來對每個數(shù)據(jù)做歸一化處理,算式為

      (2)

      式中:N為Batch size;xi為Batch中的每一個數(shù)據(jù)。同時,BN計算加上一個縮放因子γ和偏移系數(shù)β,單獨BN層輸出為

      (3)

      在訓(xùn)練行人檢測模型時,雖然BN層能加速模型網(wǎng)絡(luò)收斂,提高模型的泛化能力,但是網(wǎng)絡(luò)層數(shù)的增加會影響模型的性能,且占用內(nèi)存和顯存。為了提升網(wǎng)絡(luò)的前向推理速度,將BN層與卷積層融合,如圖3所示。

      圖3 BN層與卷積層融合前后對比

      BN層與卷積層融合前,卷積層輸出表達(dá)式為

      yConv=w*x+b。

      (4)

      將卷積層輸出結(jié)果送入BN層,BN層輸出表達(dá)式為

      (5)

      BN層與卷積層融合后,根據(jù)Conv層和BN層參數(shù)計算新的Conv層參數(shù)表達(dá)式為

      (6)

      融合后新的卷積層輸出表達(dá)式為

      (7)

      2.2 多尺度融合

      在行人目標(biāo)檢測時,由于不同行人與攝像頭距離不同,行人在拍攝到的圖像上呈現(xiàn)大小不一,YOLOv3最后一層檢測層尺寸只有輸出圖像的1/32,這使得特征層會丟失小尺寸行人信息。為了提取小尺寸行人目標(biāo)更多的特征信息,采用FPN結(jié)構(gòu)[15],增加新的檢測層尺寸104×104,并與原有的3個檢測層進(jìn)行融合,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      YOLOv3網(wǎng)絡(luò)經(jīng)過多次卷積操作,將尺寸為13×13特征圖經(jīng)過上采樣后與尺寸為26×26的特征圖融合,將融合的結(jié)果輸入到下一特征層,直到新增第4個檢測層融合前3個檢測層特征信息。新增檢測層保留了原始圖像更多的細(xì)節(jié)信息,在沒有增加網(wǎng)絡(luò)復(fù)雜度的情況下,增強(qiáng)了網(wǎng)絡(luò)的表征能力,在對小尺寸行人識別中,新的網(wǎng)絡(luò)結(jié)構(gòu)提高了檢測準(zhǔn)確性。

      圖4 改進(jìn)YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)

      2.3 線性尺度縮放

      YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)采取FPN進(jìn)行多尺度特征融合,13×13特征圖檢測大尺寸行人目標(biāo),26×26特征圖檢測中等尺寸行人目標(biāo),52×52和新增104×104特征圖側(cè)重對小尺寸行人目標(biāo)的檢測,通過深層網(wǎng)絡(luò)與淺層網(wǎng)絡(luò)特征信息融合[16],增強(qiáng)了對小目標(biāo)行人檢測的魯棒性??紤]到行人數(shù)據(jù)集中的目標(biāo)尺寸大小比較集中,通過K-means聚類[17]的方法產(chǎn)生候選框[18]自然比較集中,不能有效地發(fā)揮YOLOv3算法多尺度檢測的優(yōu)勢,因此,本文提出一種線性尺度縮放的方式,如圖5所示,將K-means聚類產(chǎn)生的候選框乘以一定比例系數(shù),離散候選框尺寸集合,使候選框尺寸具有多樣性。候選框線性尺度縮放表達(dá)式為

      (8)

      式中,設(shè)定m=0.3,n=1.2。

      候選框線性尺度縮放后12個新的坐標(biāo)點表達(dá)式為

      (9)

      圖5 線性尺度縮放算法Fig.5 Linear scaling algorithm

      本文所提出的對候選框進(jìn)行線性尺度縮放,在改進(jìn)的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,進(jìn)行了多次實驗,設(shè)定線性尺度縮放比例m=0.3,n=1.2,更加符合實驗數(shù)據(jù)集候選框多尺度輸出檢測特點,有利于候選框多樣性。

      3 實驗結(jié)果與分析

      3.1 實驗環(huán)境

      本文所有實驗都在服務(wù)器中進(jìn)行,操作系統(tǒng)為Ubuntu18.04,CPU為i7-8700K處理器,主頻3.7 GHz,內(nèi)存為32 GiB,顯卡型號為GTX1080Ti。

      3.2 實驗數(shù)據(jù)

      本實驗采用INRIA公開數(shù)據(jù)集, INRIA數(shù)據(jù)集行人姿態(tài)多樣化,圖像清晰度高,同時存在遮擋、小尺寸行人目標(biāo)等復(fù)雜環(huán)境下拍攝的圖像。INRIA數(shù)據(jù)集中正樣本614幅(包含2416個行人),測試集有正樣本288幅(包括1126個行人),圖像中人體站立姿勢大于100像素。

      3.3 實驗參數(shù)

      本實驗選取Darknet框架,所用的模型為改進(jìn)的YOLOv3行人目標(biāo)檢測算法。為了讓神經(jīng)網(wǎng)絡(luò)達(dá)到更好的預(yù)測效果,訓(xùn)練時輸入圖像大小為608×608,輸入通道數(shù)為3,Batch為64,subdivisions為16,動量值(momentum)為0.9,權(quán)重衰減為0.000 5,初始學(xué)習(xí)率為0.001,迭代次數(shù)設(shè)為4000,并且每100次迭代保存一次模型,最終選取損失值最低模型用于行人檢測。

      3.4 評價指標(biāo)

      本文使用損失函數(shù)(Loss)、準(zhǔn)確率與召回率(P-R)對行人檢測模型進(jìn)行評價,行人檢測效果通過對比改進(jìn)算法得到的實驗效果圖進(jìn)行評價。

      3.5 實驗結(jié)果

      原始YOLOv3算法模型記為YOLOv3,為了滿足算法運用于行人監(jiān)控場景下的實時性要求,BN層融入卷積層中的模型記為YOLOv3_BN,加快模型前向推理速度,提升模型性能。增加目標(biāo)檢測層,原始9類候選框變成12類候選框,并利用K-means算法對候選框進(jìn)行重新聚類后訓(xùn)練的模型記為YOLOv3_New Layer,在候選框聚類的基礎(chǔ)上,運用線性尺度縮放方法并對候選框重新聚類,聚類后Anchor參數(shù)為(6,23),(15,58),(27,102),(31,152),(46,95),(47,153),(56,228),(78,188),(87,318),(107,236),(150,300),(207,354),訓(xùn)練后的模型記為YOLOv3_Linear Scale。

      為了進(jìn)一步比較YOLOv3改進(jìn)算法模型檢測性能,其模型YOLOv3,YOLOv3_New Layer及YOLOv3_ Linear Scale對比損失值變化情況如圖6(a)~6(c)所示,YOLOv3,YOLOv3_BN,YOLOv3_New Layer及YOLOv3_Linear Scale 的P-R曲線如圖6(d)所示。

      圖6 不同模型性能比較

      由圖6(a)、圖6(b)可知,YOLOv3_New Layer模型和YOLOv3_ Linear Scale模型相比YOLOv3算法訓(xùn)練模型損失值要小,隨著訓(xùn)練迭代次數(shù)增加,其損失值越來越接近于平滑,最終損失值降低到0.1以下,模型收斂效果相對于YOLOv3算法更好。新加的檢測層YOLOv3_New Layer模型是在YOLOv3算法基礎(chǔ)上添加104×104尺度檢測層,其對小目標(biāo)檢測比較敏感,在行人檢測識別中,減少了行人漏檢情況發(fā)生。YOLOv3_ Linear Scale模型為了適應(yīng)行人檢測數(shù)據(jù)集需要,運用尺度縮放方法,提高了小尺寸行人目標(biāo)檢測效果。同時也比較了YOLOv3_New Layer模型和運用尺度縮放方法YOLOv3_ Linear Scale模型損失值,通過圖6(c)可以直觀得出,盡管剛開始YOLOv3_ Linear Scale模型訓(xùn)練損失比較大,但隨著訓(xùn)練次數(shù)的增多,損失值逐漸降低,趨向收斂,最終訓(xùn)練結(jié)束時損失值低于YOLOv3_New Layer,說明在行人目標(biāo)聚類分析中,通過設(shè)置合適的縮放比例,能夠改善模型的性能,提高行人目標(biāo)檢測準(zhǔn)確率。

      圖6(d)給出了YOLOv3,YOLOv3_BN,YOLOv3_New Layer以及YOLOv3_Linear Scale模型的P-R曲線進(jìn)行對比,改進(jìn)算法在準(zhǔn)確率與召回率上均有提升,本文利用平均精度均值(mAP)和檢測速度作為模型準(zhǔn)確率和速度評估指標(biāo),分別對比3種改進(jìn)算法的mAP和檢測速度,如表1所示。從表1中可知,改進(jìn)后的YOLOv3_Linear Scale算法的mAP值達(dá)到91.4%,提高了3.4%,YOLOv3_BN的檢測速度達(dá)到66.7幀/s,提高了15%。

      表1 改進(jìn)YOLOv3算法檢測效果

      由表1可知,本文列舉的3種改進(jìn)算法檢測速度都滿足現(xiàn)實視頻監(jiān)控實時性要求,同時,YOLOv3_BN檢測速度大幅度提高。YOLOv3_New Layer,YOLOv3_Li-near Scale為了提高對小尺寸行人目標(biāo)識別率,增加網(wǎng)絡(luò)檢測層并運用尺度縮放方法,提取更深層特征信息,增加網(wǎng)絡(luò)模型計算量,降低模型速度,但仍然滿足實時性要求。在視頻下進(jìn)行行人檢測,降低行人目標(biāo)漏檢率。

      YOLOv3,YOLOv3_New Layer與YOLOv3_Linear Scale算法在INRIA行人數(shù)據(jù)集檢測結(jié)果如圖7所示。

      圖7 行人檢測效果對比Fig.7 Comparison of pedestrian detection effect

      由圖7可以看出,YOLOv3_New Layer在YOLOv3模型基礎(chǔ)上增加檢測層,提高了對行人目標(biāo)識別率。YOLOv3_Linear Scale在YOLOv3_New Layer模型基礎(chǔ)上運用尺度縮放方法,提高候選框尺寸范圍,在小目標(biāo)和遮擋行人檢測方面具有很好的檢測效果。

      為了測試模型的泛化能力,將YOLOv3_Linear Scale算法運用于實際場景中檢測,使用摩勝Q(mào)15免驅(qū)動攝像頭對周圍環(huán)境行人目標(biāo)進(jìn)行識別,截取實驗室不同場景下識別效果如圖8所示。

      圖8 不同場景中的識別效果

      對摩勝Q(mào)15攝像頭檢測到的人進(jìn)行識別,使用改進(jìn)算法,mAP由88.0%提高到91.4%,對小目標(biāo)和遮擋的目標(biāo)具有很好的檢測效果,也滿足實時性要求。

      4 結(jié)束語

      本文提出一種改進(jìn)多尺度特征融合的行人檢測算法,該算法是以Darknet-53為主干網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)行人檢測任務(wù)要求對YOLOv3算法進(jìn)行優(yōu)化。通過將BN層融入卷積層中,降低模型計算復(fù)雜度。同時,該算法增加新的檢測層,利用FPN思想將圖像中深層特征信息與淺層特征信息相融合,提升網(wǎng)絡(luò)的表征能力。結(jié)合線性尺度縮放的方法,發(fā)揮YOLOv3算法多尺度輸出的優(yōu)勢。在INRIA行人數(shù)據(jù)集上實驗得出該算法的mAP達(dá)到91.4%,滿足行人監(jiān)控需求,相比于原始的YOLOv3算法在行人檢測方面有了明顯的提高。

      猜你喜歡
      候選框行人尺度
      重定位非極大值抑制算法
      面向自然場景文本檢測的改進(jìn)NMS算法
      基于Soft-NMS的候選框去冗余加速器設(shè)計*
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      財產(chǎn)的五大尺度和五重應(yīng)對
      路不為尋找者而設(shè)
      揚子江(2019年1期)2019-03-08 02:52:34
      一種針對特定目標(biāo)的提議算法
      我是行人
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      9
      仙游县| 赤水市| 德保县| 榆中县| 德钦县| 临西县| 台山市| 河北省| 武山县| 光泽县| 柳河县| 漾濞| 宜川县| 泊头市| 蒙山县| 兰坪| 亳州市| 达拉特旗| 玛纳斯县| 临洮县| 上蔡县| 奉节县| 三门峡市| 竹山县| 大埔区| 聊城市| 盐津县| 江达县| 莱州市| 建阳市| 土默特右旗| 兴和县| 伊通| 华容县| 山西省| 渝中区| 湖北省| 蒙自县| 蒙阴县| 庄浪县| 孝义市|