• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)YOLOv4 的航拍圖像目標(biāo)檢測方法研究

      2023-05-10 06:09:04蒲家鵬王雪梅高宏偉
      沈陽理工大學(xué)學(xué)報 2023年3期
      關(guān)鍵詞:池化張量骨干

      蒲家鵬,王雪梅,高宏偉

      (沈陽理工大學(xué)自動化與電氣工程學(xué)院,沈陽 110159)

      基于深度學(xué)習(xí)的圖像目標(biāo)檢測技術(shù)應(yīng)用范圍廣泛,無論在民用領(lǐng)域還是在軍事領(lǐng)域都發(fā)揮著重要作用[1]。 無人機的大力發(fā)展,使得航拍圖像技術(shù)達(dá)到了新的高度,為目標(biāo)檢測提供了豐富的圖像數(shù)據(jù)支撐。

      YOLO[2]系列目標(biāo)檢測網(wǎng)絡(luò)憑借出色的檢測速度與精準(zhǔn)度獲得了學(xué)者的一致好評。YOLOv3[3]采用了改進(jìn)殘差網(wǎng)絡(luò)DarkNet53 和特征金字塔結(jié)構(gòu)( Feature Pyramid Networks,F(xiàn)PN)[4]實現(xiàn)了多尺度檢測,奠定了后續(xù)YOLO 系列的發(fā)展。 第四代和第五代均在該結(jié)構(gòu)基礎(chǔ)上加以改進(jìn),在數(shù)據(jù)預(yù)處理、骨干網(wǎng)絡(luò)、激活函數(shù)、損失函數(shù)以及網(wǎng)絡(luò)訓(xùn)練等方面進(jìn)行了優(yōu)化。

      YOLO 系列雖然在檢測速度上有一定優(yōu)勢,但對于小目標(biāo)的檢測效果仍不太理想,并且其骨干網(wǎng)絡(luò)的參數(shù)量龐大,增加了設(shè)備運行的負(fù)擔(dān)。因此有必要對YOLO 的結(jié)構(gòu)進(jìn)行精簡化并提升對小目標(biāo)的檢測精度。 航拍圖像普遍存在背景復(fù)雜、目標(biāo)較小且分布散亂、目標(biāo)與背景占比失衡問題,易導(dǎo)致目標(biāo)的漏檢和誤檢,給航拍圖像目標(biāo)檢測帶來了一定的挑戰(zhàn)。

      由此,本文考慮選用YOLOv4[5]模型進(jìn)行優(yōu)化,構(gòu)建M-YOLOv4(OURS)網(wǎng)絡(luò)模型。 首先,將輕量化網(wǎng)絡(luò)MobileNetV3[6]的部分骨干結(jié)構(gòu)插入YOLOv4 骨干網(wǎng)絡(luò)中,保留YOLOv4 骨干網(wǎng)絡(luò)的淺層部分,提高小目標(biāo)檢測精度;MobileNetV3 的結(jié)構(gòu)能夠減輕骨干網(wǎng)絡(luò)的參數(shù)量,減輕設(shè)備運行的負(fù)擔(dān)。 其次,YOLOv4 中的空間金字塔池化結(jié)構(gòu)(Spatial Pyramid Pooling Module,SPPM)[7]能夠有效豐富網(wǎng)絡(luò)的感受野,但只能解決局部短距離目標(biāo)之間的聯(lián)系,對于全局信息的捕獲能力不足,為獲得目標(biāo)之間長距離的信息依賴,將條紋池化結(jié)構(gòu)(Strip Pooling Module,SPM)[8]與 SPPM進(jìn)行特征通道融合,使得密集或稀疏分布的目標(biāo)都能被捕獲到,減少漏檢或誤檢的情況發(fā)生。 最后,在網(wǎng)絡(luò)模型頸部的路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[9]中設(shè)計殘差結(jié)構(gòu)(Res-Net)[10]取代串聯(lián)的卷積結(jié)構(gòu),豐富和補充高分辨率特征層中小目標(biāo)的語義信息,提升小目標(biāo)的檢測精度,并減少殘差結(jié)構(gòu)中標(biāo)準(zhǔn)化和激活函數(shù)的操作[11]。

      1 網(wǎng)絡(luò)結(jié)構(gòu)

      1.1 M-YOLOv4(OURS)整體結(jié)構(gòu)

      M-YOLOv4(OURS)網(wǎng)絡(luò)模型由骨干網(wǎng)絡(luò)的Mobile-CSPDarkNet53、頸部網(wǎng)絡(luò)的混合池化結(jié)構(gòu)(Mixed Pooling Module,MPM)[8]、改進(jìn)的 PANet以及YOLOv4 的多尺度檢測頭組成,同時骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)之間通過卷積與深度可分離卷積的串聯(lián)結(jié)構(gòu)進(jìn)行連接。 M-YOLOv4(OURS)結(jié)構(gòu)如圖1 所示。

      圖1 M-YOLOv4(OURS)結(jié)構(gòu)圖

      1.2 輕量化骨干網(wǎng)絡(luò)

      MobileNetV3 的骨干網(wǎng)絡(luò)是由多個倒置殘差結(jié)構(gòu)串聯(lián)而成,即深度可分離卷積[6]、通道注意力機制網(wǎng)絡(luò)[12]以及殘差連接的過程,其結(jié)構(gòu)如圖2所示。 在通道注意力機制網(wǎng)絡(luò)中的激活函數(shù)使用Hard-Sigmoid[6],如式(1)所示;改進(jìn)后得到非線性激活函數(shù) Hard-Swish,如式(2) 所示,Hard-Swish 可消除網(wǎng)絡(luò)潛在的精度損失,并提升對小目標(biāo)的檢測精度,提高運算效率。

      圖2 MobileNetV3 模塊結(jié)構(gòu)

      式中 ReLU6(x) = min(6,max(0,x)),表示在使用ReLU 激活函數(shù)時的最大輸出值為6,減少了精度的損失。

      本文選擇MobileNetV3 嵌入YOLOv4 的骨干CSPDarkNet53 中,構(gòu)成 Mobile-CSPDarkNet53 骨干網(wǎng)絡(luò),將 CSPDarkNet53 的前半部分銜接 MobileNetV3 的后半部分。 保留 CSPDarkNet53 骨干的前半部分可在一定程度上保留高分辨率特征層中小目標(biāo)的語義信息,CSPDarkNet53 通過與MobileNetV3 進(jìn)行銜接,減輕骨干網(wǎng)絡(luò)的參數(shù)量,保留了小目標(biāo)的檢測精度。

      1.3 MPM

      MPM 由 SPPM 和 SPM 組成。 在 SPPM 中,若輸入的張量為X∈RC×H×W(C表示通道數(shù)、H表示高度、W表示寬度),池化核的高度為h、寬度為w,輸出特征y∈RH0×W0(H0=H/h,W0=W/w),則SPPM 的過程可表示為

      式中:i0、j0表示池化區(qū)域的初始坐標(biāo)位置,0

      在SPM 中,對輸入的張量X并行進(jìn)行池化核大小為1 ×W的水平條紋池化和池化核為H×1的垂直條紋池化操作,可得垂直方向的張量,記為,m表示垂直方向的張量數(shù)量;水平方向的張量記為表示水平方向的張量數(shù)量,對垂直和水平方向的張量按元素位置做加法得到y(tǒng)C,m,n,如公式(4) 所示。 對輸出yC,m,n進(jìn)行卷積和激活函數(shù)的操作后與輸入的張量X按位置做乘法,可得最后的輸出Y,如公式(5)所示。

      式中:Scale(?,?)表示元素按位置做乘法;σ表示Sigmoid 激活函數(shù);f表示卷積核大小為1 ×1的卷積操作。

      MPM 結(jié)構(gòu)如圖3 所示。 對于輸入的特征層分別進(jìn)行SPPM 和SPM 的操作;然后將二者輸出后的特征進(jìn)行通道維度的拼接;最后將拼接后的信息嫁接到輸入特征層上完成混合池化的過程。MPM 融合了SPPM 和 SPM 的優(yōu)點,使得特征層中的局部特征信息和全局特征信息均被捕獲到。

      圖3 混合池化網(wǎng)絡(luò)結(jié)構(gòu)圖

      本文對骨干網(wǎng)絡(luò)輸出后用于通道數(shù)調(diào)整的三次卷積結(jié)構(gòu)進(jìn)行改進(jìn),將使用3 ×3 卷積核的卷積替換為深度可分離卷積,以減輕網(wǎng)絡(luò)的參數(shù)量;由于Mobile-CSPDarkNet53 骨干輸出后的特征層尺寸為 19 ×19,而 MPM 中的 SPPM 池化核大小為12 ×12、20 ×20,故將該池化核大小改進(jìn)為 6 ×6、10 ×10,以便適應(yīng)網(wǎng)絡(luò)的結(jié)構(gòu)。

      1.4 改進(jìn)PANet

      PANet 主要以 FPN 為骨架,對 YOLOv4 骨干網(wǎng)絡(luò)輸出的三個特征層分支中的信息進(jìn)行反復(fù)提取。 本文對PANet 中串聯(lián)的五次卷積結(jié)構(gòu)進(jìn)行改進(jìn),設(shè)計一種基于深度可分離卷積的殘差結(jié)構(gòu),稱為Res?Convs Block,簡稱R?CB,其結(jié)構(gòu)如圖1中所示。 首先對輸入該模塊骨干的特征層進(jìn)行二次卷積操作,將其中使用3 ×3 卷積核的卷積替換為深度可分離卷積,同時對分支僅進(jìn)行一次卷積操作;隨后將該模塊的主干輸出與分支輸出進(jìn)行通道維度上的拼接,再進(jìn)行標(biāo)準(zhǔn)化和使用Leaky-ReLU 激活函數(shù)的操作;最后進(jìn)行一次卷積、標(biāo)準(zhǔn)化與Hard-Swish 激活函數(shù)操作后輸出。 R?CB的設(shè)計借鑒了CSPDarkNet53 中的ResNet,能夠有效保留圖像信息的完整性。 深度可分離卷積與減少標(biāo)準(zhǔn)化和激活函數(shù)的操作都能夠減輕網(wǎng)絡(luò)的運算量,提升檢測精度與效率。

      1.5 損失函數(shù)

      M-YOLOv4(OURS)在處理目標(biāo)檢測的問題時,將輸入的圖片分割成K×K的網(wǎng)格(K=19,38,76),每個網(wǎng)格包含M(M=3)個建議框,最終形成K×K×M個建議框,若目標(biāo)的中心點落在某個網(wǎng)格內(nèi),由該網(wǎng)格負(fù)責(zé)檢測此目標(biāo)。 使用非極大值抑制算法篩選出真實框與建議框之間完整交并比(CIOU)大于0.5 的建議框用于回歸預(yù)測框。

      M-YOLOv4(OURS)在預(yù)測框回歸損失中使用和YOLOv4 相同的CIOU 值計算方式[13]。 CIOU 值考慮了建議框與真實框之間的邊框重合度、中心距離以及高寬比的問題。 預(yù)測框回歸損失函數(shù)Losspre計算如式(6)所示。

      M-YOLOv4(OURS)中的置信度損失函數(shù)Lossconf計算如式(7)所示。

      M-YOLOv4(OURS) 中的類別損失函數(shù)Losscls計算如式(8)所示。

      式中:c表示類別;s表示類別的集合、pu(c)分別表示該類別預(yù)測概率與真實概率。

      綜上所述,M-YOLOv4(OURS)總體損失函數(shù)Loss計算如式(9)所示。

      2 實驗

      2.1 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集CARPK[14]在大約40 米高的無人機視圖中收集,其中包含89 777 輛汽車的圖像,所有圖像的分辨率均為1 280 ×720。

      數(shù)據(jù)集圖像格式為jpg 格式,標(biāo)簽格式為xml格式。

      2.2 實驗細(xì)節(jié)與評價指標(biāo)

      實驗平臺硬件配置為:Inter i7 10th Gen 處理器、NVIDIA RTX 3090 顯卡、32 GB 運行內(nèi)存、500 GB固態(tài)硬盤。 系統(tǒng)環(huán)境配置為: Ubuntu 20.04版本、PyTorch1. 9 版本、CUDA11. 1 版本。在進(jìn)行訓(xùn)練時,未使用預(yù)訓(xùn)練權(quán)重,均采用凍結(jié)訓(xùn)練的方法,前100 輪對網(wǎng)絡(luò)的骨干進(jìn)行凍結(jié),其權(quán)值不發(fā)生改變,僅對分支網(wǎng)絡(luò)進(jìn)行訓(xùn)練,減輕網(wǎng)絡(luò)的負(fù)擔(dān),學(xué)習(xí)率設(shè)為0.001,骨干網(wǎng)絡(luò)解凍后的訓(xùn)練學(xué)習(xí)率設(shè)為0.000 1。 單次輸入的圖片數(shù)量均設(shè)置為8,輸入圖像經(jīng)裁剪后大小為608 ×608。同時使用馬賽克數(shù)據(jù)增強方法、余弦退火衰減方法,避免損失函數(shù)陷入局部最優(yōu)解。 為避免訓(xùn)練過程中出現(xiàn)過擬合的現(xiàn)象,使用標(biāo)簽平滑技術(shù),設(shè)定平滑值為0.01。 M-YOLOv4(OURS)的其他參數(shù)設(shè)置均與YOLOv4 相同。 通過多次訓(xùn)練實驗,M-YOLOv4(OURS)最終在第400 輪之前完成收斂,訓(xùn)練效果如圖4 所示。

      圖4 M-YOLOv4(OURS)訓(xùn)練損失

      2.3 實驗對比與結(jié)果分析

      實驗中所采用的網(wǎng)絡(luò)模型均在相同環(huán)境和條件下使用 CARPK 數(shù)據(jù)集進(jìn)行消融實驗。 由于CARPK 數(shù)據(jù)集只有汽車一類目標(biāo),故實驗中采用精準(zhǔn)度AP 值評價網(wǎng)絡(luò)的檢測精度,并采用每秒檢測幀率FPS[15]評價網(wǎng)絡(luò)的檢測速度。

      2.3.1 激活函數(shù)的影響

      為驗證不同激活函數(shù)(Mish、Leaky-ReLU、Hard-Swish)對 M-YOLOv4(OURS)的 AP 值和FPS 的影響,實驗使用不同的激活函數(shù)在骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)進(jìn)行組合配置,如表1 所示(AF 表示激活函數(shù))。 本文選取了 Mish +Hard-Swish 的組合,對小目標(biāo)的AP 值相較于Mish +Leaky-Re-LU 和 Hard-Swish + Hard-Swish 的組合分別提升了29. 9% 和 41. 2%;FPS 相較于 Mish + Leaky-ReLU 的組合增加了1. 4,相較于 Hard-Swish +Hard-Swish 的組合減少了0.7。

      表1 激活函數(shù)的影響

      2.3.2 骨干網(wǎng)絡(luò)的影響

      實驗驗證不同的骨干網(wǎng)絡(luò)(CSPDarkNet53、MobileNetV3 Block、Mobile-CSPDarkNet53)對整體網(wǎng)絡(luò)的AP 值和FPS 的影響,實驗結(jié)果如表2所示。 本文通過對骨干網(wǎng)絡(luò)的改進(jìn)得到了Mobile-CSPDarkNet53,總體 AP 值略微下降,F(xiàn)PS 為59.9,相較于MobileNetV3 Block 的參數(shù)量僅增加1 MB,但提升了小目標(biāo)的AP 值。

      表2 骨干網(wǎng)絡(luò)的影響

      2.3.3 其他改進(jìn)方法的影響

      MPM 和R?CB 能夠有效提升密集小目標(biāo)的檢測效果。 本文通過實驗對比了MPM 和R?CB兩種方法在YOLOv4 中的檢測效果,如表3 所示。采用 YOLOv4 +Mobile-CSPDarkNet53 + MPM +R?CB 的方式得到本文的方法 M-YOLOv4(OURS),相較于 YOLOv4 + Mobile-CSPDark-Net53,參數(shù)量減小了64.2%;FPS 減少了6.7;而小目標(biāo)的AP 值提高了50.0%;總體AP 值提高了1.5%。

      表3 其他改進(jìn)方法的影響

      2.3.4 與其他YOLOv4 系列的對比

      M-YOLOv4(OURS)與YOLOv4 以及其輕量版YOLOv4-Tiny 的對比如表4 所示。 YOLOv4-Tiny 的參數(shù)量僅占 YOLOv4 的9.1%;而 FPS 最快可達(dá)125. 4;但總體 AP 值較低。 M-YOLOv4(OURS)提升了小目標(biāo)的AP 值,并且參數(shù)量僅占YOLOv4 的19.6%;總體AP 值僅下降了2.3%;中、大目標(biāo)AP 值分別下降了2.3%和3.3%,但小目標(biāo)的 AP 值提高了 10. 2%;同時 PFS 增加了4.2。

      表4 與其他YOLOv4 系列的對比

      2.3.5 部分實驗效果展示

      使用M-YOLOv4(OURS)在CARPK 數(shù)據(jù)集的測試集部分檢測結(jié)果如圖5 所示。 在復(fù)雜背景下M-YOLOv4(OURS)對稀疏、密集以及遮擋的車輛目標(biāo)都能檢測到,并且對車輛目標(biāo)的檢測效果不受不同光線條件影響。 YOLOv4 和 M-YOLOv4(OURS)對其他場景下航拍圖像的檢測結(jié)果對比如圖6 所示。 該場景下背景復(fù)雜、目標(biāo)較小,YOLOv4的檢測效果如圖6(a)所示,只有小部分目標(biāo)被檢測出來,甚至出現(xiàn)了誤檢的情況,M-YOLOv4(OURS)檢測效果如圖6(b)所示,小目標(biāo)檢測效果明顯優(yōu)于YOLOv4,但仍有一定的提升空間。

      圖5 M-YOLOv4(OURS)部分檢測效果圖

      圖6 YOLOv4 與M-YOLOv4(OURS)在其他航拍場景的檢測效果對比

      3 結(jié)論

      本文提出了具有輕量化結(jié)構(gòu)的M-YOLOv4(OURS)網(wǎng)絡(luò)模型,模型的參數(shù)量較小,減輕了在設(shè)備上運行的負(fù)擔(dān);同時使用混合池化結(jié)構(gòu),豐富網(wǎng)絡(luò)感受野的同時增加了遠(yuǎn)距離目標(biāo)間的交互;在頸部網(wǎng)絡(luò)中的金字塔結(jié)構(gòu)中加入了殘差結(jié)構(gòu),提升了對小目標(biāo)的檢測精度。 消融實驗結(jié)果表明,M-YOLOv4(OURS)的檢測指標(biāo)在總體AP 值略微下降的情景下,小目標(biāo)的AP 值和FPS 大幅提升,保證了精度與速度的平衡。

      猜你喜歡
      池化張量骨干
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設(shè)計
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
      四元數(shù)張量方程A*NX=B 的通解
      核心研發(fā)骨干均16年以上!創(chuàng)美克在產(chǎn)品研發(fā)上再發(fā)力
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      骨干風(fēng)采展示
      擴散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
      關(guān)于組建“一線話題”骨干隊伍的通知
      北辰区| 汕头市| 思茅市| 荔浦县| 和龙市| 新河县| 临湘市| 白城市| 西宁市| 宜兴市| 西吉县| 蒙阴县| 华阴市| 亳州市| 乐都县| 遵化市| 和平县| 乐东| 长汀县| 凤冈县| 灵寿县| 温宿县| 宜兴市| 汝州市| 崇左市| 黎平县| 吉木乃县| 余姚市| 邹城市| 南乐县| 夏邑县| 溆浦县| 江达县| 资源县| 沁阳市| 栖霞市| 新建县| 铜山县| 民丰县| 茌平县| 大连市|