• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進YOLOv5s的復(fù)雜場景車輛檢測方法

      2022-06-16 03:29:34鄺先驗
      現(xiàn)代計算機 2022年7期
      關(guān)鍵詞:卷積車輛特征

      鄺先驗,劉 平

      (江西理工大學(xué)電氣工程與自動化學(xué)院,贛州 341000)

      0 引言

      車輛目標(biāo)檢測在智能交通、智能駕駛、交通安全等方面發(fā)揮著重要作用,其目的是通過圖像處理技術(shù)識別出車輛目標(biāo)并確定其在圖像中的具體坐標(biāo)位置。目前車輛檢測存在難點主要有二,①需要在視頻流中對行進車輛進行快速實時的檢測。②現(xiàn)實場景中圖像容易受到光照、天氣狀況、道路環(huán)境等各種因素的影響,增加了車輛檢測的復(fù)雜度和難度。

      近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的車輛目標(biāo)檢測算法受到學(xué)者極大的關(guān)注并被廣泛使用,尤其針對在復(fù)雜場景下不同尺度和類型的車輛,這類算法相較于傳統(tǒng)圖像處理算法表現(xiàn)出更優(yōu)的檢測效果。當(dāng)前目標(biāo)檢測算法主要可分為以RCNN系列為代表的基于候選區(qū)域的雙階段方法和以Yolo、SSD等為代表的基于邊框回歸的單階段方法,通常情況下雙階段法的目標(biāo)檢測網(wǎng)絡(luò)精度高但檢測速度慢,難以滿足車輛檢測的實時性要求,因此目前大多車輛檢測方法集中在單階段法,如黃躍珍等采用Center-Net實現(xiàn)車輛實時檢測,同時針對網(wǎng)絡(luò)損失函數(shù)和特征融合進行優(yōu)化提升了檢測效果;張富凱等增強了YOLOv3 特征提取網(wǎng)絡(luò)的深度并通過融合網(wǎng)絡(luò)中6種不同尺度的卷積特征圖獲得了較高的車輛檢測效果;胡習(xí)之等提出一種融合Camshift 與YOLOv4 的車輛檢測算法,依據(jù)哈希值來選擇不同的檢測方式從而獲得速度的提升。上述方法雖然實現(xiàn)了車輛的實時檢測,但是大多在復(fù)雜場景下檢測效果不理想,對于光照度低、道路擁堵等道路場景下以及車輛目標(biāo)小,存在遮擋時容易出現(xiàn)誤檢、漏檢等狀況。

      為應(yīng)對上述問題,本文采用YOLOv5s 來實現(xiàn)復(fù)雜場景下的車輛目標(biāo)檢測,保證滿足車輛檢測任務(wù)實時性要求的前提下添加了CBAM(convolutional block attention module)模塊,并通過增加Backbone 中CSP模塊的個數(shù)來加深特征提取網(wǎng)絡(luò)的深度,在公共數(shù)據(jù)集BDD100K中獲取所需的車輛標(biāo)簽數(shù)據(jù)并進行實驗測試及性能比較,同時通過攝像機采集現(xiàn)實道路場景圖像用作模型實際可行性的驗證。

      1 YOLOv5模型概述

      YOLOv5 由Ultralytics LLC 公 司 于2020 年5月提出,其源碼庫中包含有YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 四種不同版本,四種網(wǎng)絡(luò)版本的深度和寬度依次增加,其檢測精度也隨之遞增,但檢測速度逐漸降低。YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)主要分為4 個部分,分別為Input、Backbone、Neck和Prediction。

      在YOLOv5 中,Input 作為圖像的輸入端沿用了YOLOv4所采用的Mosaic 數(shù)據(jù)增強操作,該方法對小目標(biāo)的檢測效果更為理想,同時將自適應(yīng)錨框嵌入到源碼中,網(wǎng)絡(luò)訓(xùn)練前會先計算配置文件中錨框的BPR 值(best possible recall),當(dāng)BPR 低于0.98 時能夠自主學(xué)習(xí)并調(diào)整錨框大小。此外源碼中對自適應(yīng)圖片縮放進行了改進,對不同尺寸的輸入圖片進行縮放填充時盡可能減少兩端的黑邊填充,避免填充過多造成信息冗余影響推理速度。

      Backbone 為網(wǎng)絡(luò)的特征提取部分,YOLOv5中在Backbone首端增加了Focus結(jié)構(gòu),其核心在于切片操作,如圖1所示。以608×608×3圖像輸入為例,圖像接入Focus 結(jié)構(gòu)經(jīng)過切片后變?yōu)?04×304×12 的特征圖,再經(jīng)由卷積操作得到304×304×的特征圖,通道數(shù)N 在四個網(wǎng)絡(luò)版本中各不相同。同時YOLOv5的主干網(wǎng)絡(luò)保持了v4 版本中的CSP 結(jié)構(gòu),并設(shè)計了CSP1_X 和CSP2_X 兩種不同結(jié)構(gòu)分別應(yīng)用在Backbone 主干和Neck 中,兩種結(jié)構(gòu)如圖2 所示,圖中CBL 為Conv+BN+Leakyrelu 串聯(lián)組合成的模塊,ResUnit為殘差結(jié)構(gòu),如圖2(a)下方圖所示。

      圖1 切片操作

      圖2 CSP結(jié)構(gòu)

      Neck 是網(wǎng)絡(luò)的特征融合部分,在此階段中分別將Backbone 中提取到輸入圖片的1/8、1/16和1/32 特征進行融合并傳遞到Prediction 層,YOLOv5 在Neck 層繼續(xù)采用了FPN+PAN 結(jié)構(gòu),其中FPN 為自上而下的將高層特征上采樣后傳遞融合,傳達強語義特征,PAN 為自下而上的特征金字塔傳遞強定位特征。較v4 版本,YOLOv5 在Neck 層用CSP2_X 結(jié)構(gòu)替代原有標(biāo)準(zhǔn)卷積,加強網(wǎng)絡(luò)的特征融合能力。

      YOLOv5 的Prediction 層 采 用GIOU_Loss 作為Bounding box的損失,以此應(yīng)對邊界框不重合情況下的損失計算,同時采用非極大值抑制(NMS)來獲取最優(yōu)目標(biāo)框。

      2 模型改進方案

      網(wǎng)絡(luò)能夠?qū)崿F(xiàn)實時檢測的最低幀率為30FPS,即處理每張圖片的用時不能高于33 ms,本文以此為基準(zhǔn)對YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)進行改進優(yōu)化,在網(wǎng)絡(luò)Neck 和Prediction 之間額外添加了注意力模塊CBAM,同時對Backbone 的主干網(wǎng)絡(luò)深度進行了加深,保證最低幀率的前提下盡可能地提升網(wǎng)絡(luò)檢測精度,最終模型結(jié)構(gòu)如圖3所示。

      圖3 改進YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)

      首先,注意力機制添加到網(wǎng)絡(luò)模型后能夠在增加少量參數(shù)的情況下顯著提升網(wǎng)絡(luò)精度,當(dāng)前已有面向卷積神經(jīng)網(wǎng)絡(luò)的注意力模塊包括Enc模塊、ECA模塊和CBAM 模塊等,其中Enc 模塊和ECA 模塊是為特征通道加權(quán)的通道注意力模塊,而本文采用的CBAM 模塊則是同時為特征圖層和通道加權(quán)的空間和通道注意力模塊,模塊結(jié)構(gòu)如圖4所示。

      圖4 CBAM模塊結(jié)構(gòu)

      圖5為通道注意力模塊結(jié)構(gòu)圖,在通道注意力模塊中,輸入特征F 分別經(jīng)過空間維度上的全局最大池化和全局平均池化之后進入多層感知器MLP,然后將MLP 輸出的兩個特征相加再經(jīng)過sigmoid 激活操作,生成最終的通道注意力權(quán)重矩陣M

      圖5 Channel Attention結(jié)構(gòu)

      整個運算過程公式表示為:

      其中:為sigmoid函數(shù)。

      空間注意力模塊結(jié)構(gòu)圖如圖6所示,其輸入為權(quán)重矩陣M與輸入特征進行點乘后所得到的通道加權(quán)特征,首先基于通道進行了全局最大池化和全局平均池化操作,將所得結(jié)果進行通道上的疊加,再經(jīng)過一個卷積操作后降維到單通道特征,最后經(jīng)過sigmoid 函數(shù)激活生成空間注意力權(quán)重M。求取過程如公式(2)所示。

      圖6 Spatial Attention結(jié)構(gòu)

      其中:是卷積核為3的卷積層,[ ; ]表示在通道疊加后的特征。

      其次, 注意到Y(jié)OLOv5 的四個不同版本通過修改配置文件加深和拓寬網(wǎng)絡(luò)深度和寬度獲得精度的逐次提升,它們的檢測效果如3.2 節(jié)表3所示,為了保證網(wǎng)絡(luò)模型在保持較快的檢測速度情況下提升精度,本文僅對Backbone 主干網(wǎng)絡(luò)的深度進行了加深,具體配置參數(shù)如表1所示。

      表1 模型部分配置參數(shù)

      表 中1~4 分 別對 應(yīng) 圖3 中Backbone 的4 個CSP 模塊的配置參數(shù),為相應(yīng)參數(shù)乘以depth的值。

      3 實驗及結(jié)果

      本節(jié)首先介紹實驗環(huán)境配置及實驗數(shù)據(jù)集的獲取步驟,然后展示YOLOv5s、YOLOv5m 和YOLOv5l 三個網(wǎng)絡(luò)版本的檢測性能,并與本文優(yōu)化后的YOLOv5s 的性能進行對比,最后展示網(wǎng)絡(luò)的可視化效果和在實際場景下的檢測效果。

      3.1 實驗環(huán)境及實驗數(shù)據(jù)

      本文實驗均在同一環(huán)境下進行,具體軟、硬件配置如表2所示。

      表2 實驗軟、硬件配置

      實驗數(shù)據(jù)來源于公共數(shù)據(jù)集BDD100K,該數(shù)據(jù)集是伯克利大學(xué)AI 實驗室(BAIR)于2018年發(fā)布的大型駕駛數(shù)據(jù)集,包含有10 萬張帶有道路目標(biāo)邊界框標(biāo)注的1280×720 分辨率圖片及json標(biāo)簽,其中訓(xùn)練集、驗證集和測試集分別為70000 張、20000 張和10000 張。數(shù)據(jù)集中圖片場景豐富多樣,不僅包含黎明/黃昏、白天、夜晚三個階段下的住宅區(qū)、公路、街道、停車場、加油站、隧道6 種不同場景,還包括晴天、多云、陰天、下雨、下雪和霧天6種天氣狀況,符合本文研究復(fù)雜場景下車輛檢測的需求。然而由于BDD100K 數(shù)據(jù)集中標(biāo)注框共有Bus、Light、Person 等共10 個類別,本文只針對車輛(Car)這一類別進行研究,因此首先通過Python 腳本對數(shù)據(jù)集進行了處理得到僅含有車輛標(biāo)注的圖片和標(biāo)簽,處理后的訓(xùn)練集和驗證集分別為68943張和9882 張,由于測試集標(biāo)簽官方并未公布,為方便實驗及驗證,最終本文采用的數(shù)據(jù)集測試集和驗證集分別以0.1 的抽取率隨機在上述處理后的訓(xùn)練和驗證集進行抽取,并在驗證集中額外選取了887張圖像作為測試集。

      3.2 實驗結(jié)果

      為驗證本文提出優(yōu)化算法的可行性和優(yōu)勢,在相同實驗環(huán)境下對YOLOv5s、YOLOv5m、YOLOv5l、 YOLOv5s_cbam 和YOLOv5s_cbam_deep 進行了網(wǎng)絡(luò)訓(xùn)練和驗證, 其中YOLOv5s_cbam 和YOLOv5s_cbam_deep 分 別 指 在YOLOv5s 添加CBAM 模塊后的網(wǎng)絡(luò)模型和添加CBAM 模塊并加深后的網(wǎng)絡(luò)模型。每次網(wǎng)絡(luò)訓(xùn)練300Epoch,訓(xùn)練過程采用SGD 優(yōu)化器,初始學(xué)習(xí)率10,動量和權(quán)重衰減系數(shù)設(shè)置為0.937和10。最終訓(xùn)練完成模型在測試集中的性能如表3所示。

      表3 模型性能比較

      從表中數(shù)據(jù)可以看出,在測試集當(dāng)中以YOLOv5l 模型的精度最高,推理速度也是最慢,添加CBAM 模塊后的模型較YOLOv5s 在精度上有0.7%的提升,而最終加深主干后的模型則有4.6%的精度提升,與YOLOv5l 的精度相接近,但是其檢測速度遠(yuǎn)優(yōu)于YOLOv5l,同時該模型大小僅為YOLOv5l模型的1/4 左右,更加適合在移動端部署。

      3.3 可視化效果和實際檢測

      為了更好地比較模型的檢測效果,將標(biāo)簽真實框(綠色)、YOLOv5s 檢測框(藍(lán)色)和YOLOv5s_cbam_deep 檢測框(紅色)同時可視化在同一圖片上,可視化效果如圖7 所示。圖7(a)中可以看出,道路擁堵、夜晚光線不足以及車輛存在重疊、遮擋等復(fù)雜場景下YOLOv5s 和YOLOv5s_cbam_deep 模型依然能夠?qū)崿F(xiàn)較理想的檢測效果,圖7(b)和圖7(c)分別顯示出YOLOv5s 在檢測時出現(xiàn)將卡車、行人誤檢為車輛和對遠(yuǎn)處小目標(biāo)車輛漏檢等的情況,而YOLOv5s_cbam_deep 模型在這些方面表現(xiàn)更佳,證明本文所提出優(yōu)化方案的優(yōu)勢和有效性。

      圖7 測試集檢測效果可視化

      此外,為了檢驗本文提出模型在實際場景中的檢測性能,通過錄制贛州地區(qū)車輛行駛視頻并以1 秒/幀的頻率捕獲了部分道路場景圖像,然后分別使用YOLOv5s 和YOLOv5s_cbam_deep模型進行了車輛檢測,模型以1280×736 分辨率圖像為輸入時平均每張圖片檢測用時分別為19 ms 和23 ms,符合實時檢測的要求。檢測效果對比如圖8所示。在第一行圖像場景中,光照較好的道路場景下兩個模型的檢測性能相當(dāng),但是YOLOv5s_cbam_deep 模型的置信度更高,而當(dāng)?shù)缆分谐霈F(xiàn)較多其他交通參與項(行人、二輪車等)的復(fù)雜場景以及光線不佳的黃昏或夜晚時段,YOLOv5s 出現(xiàn)了誤檢、漏檢等情況,如第二、三行中將電動車、路燈誤檢為車輛和第四、五行中未能檢測出被遮擋車輛,對比結(jié)果表明,在保證實時檢測的前提下本文模型具有更優(yōu)的實際可行性。

      圖8 現(xiàn)實場景下檢測效果

      4 結(jié)語

      本文針對現(xiàn)有車輛檢測算法在復(fù)雜場景下性能表現(xiàn)不佳的情況,提出基于YOLOv5s的改進網(wǎng)絡(luò)YOLOv5s_cbam_deep,該網(wǎng)絡(luò)在YOLOv5s 網(wǎng)絡(luò)中添加CBAM 模塊提升網(wǎng)絡(luò)的場景理解能力,并加深了特征提取網(wǎng)絡(luò)獲得更優(yōu)的特征提取能力,在BDD100K 數(shù)據(jù)集中獲取所需數(shù)據(jù)集后,對YOLOv5 模型及本文提出的優(yōu)化模型進行了性能驗證,實驗表明本文提出的優(yōu)化模型較YOLOv5s 有4.6%的精度提升,在光線不佳和車輛存在遮擋等復(fù)雜場景下?lián)碛懈鼉?yōu)的檢測性能,同時在現(xiàn)實場景中處理每張圖片僅需23 ms,滿足實際應(yīng)用的需求。

      猜你喜歡
      卷積車輛特征
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      如何表達“特征”
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      不忠誠的四個特征
      車輛
      小太陽畫報(2018年3期)2018-05-14 17:19:26
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      抓住特征巧觀察
      冬天路滑 遠(yuǎn)離車輛
      車輛出沒,請注意
      提高車輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
      汽車文摘(2015年11期)2015-12-02 03:02:53
      建昌县| 天长市| 通辽市| 阿巴嘎旗| 威宁| 安图县| 广南县| 通州区| 隆昌县| 高唐县| 司法| 普安县| 镇坪县| 金坛市| 濮阳县| 常山县| 广汉市| 三门峡市| 夹江县| 康保县| 桐梓县| 永川市| 榕江县| 游戏| 龙泉市| 罗田县| 体育| 扶绥县| 镇江市| 唐河县| 普兰店市| 洪洞县| 平舆县| 上杭县| 睢宁县| 巴彦淖尔市| 万山特区| 铜鼓县| 东辽县| 赫章县| 繁峙县|