基于DA2-YOLOv4算法綠籬識別研究*

2022-08-17 05:03:14韋錦李正強許恩永蒙艷玫韋和鈞武豪

中國農機化學報 2022年9期

韋錦，李正強，許恩永，蒙艷玫，韋和鈞，武豪

(1. 廣西大學機械工程學院，南寧市，530004； 2. 東風柳州汽車有限公司，廣西柳州，545005)

0 引言

隨著人們經濟水平的提高和環(huán)保意識的增強，城市綠化進入了快速發(fā)展階段，具有成型刀具的車載式綠籬修剪機越來越被廣泛用于高速公路隔離帶、城市道路綠化帶、園林觀賞綠籬等綠化景觀的修剪，只需將成型刀具移至柱形或球形綠籬上方的水平截面中心將旋轉關節(jié)旋轉一周即可完成修剪。然而，通過人工操作進行修剪不僅需要操作員具有嫻熟的技術，還容易導致疲勞，出現(xiàn)誤操作，所以一直無法得到普及，通過經濟的視覺傳感器來實現(xiàn)修剪自動化成為解決該問題的最佳方案。

想要實現(xiàn)修剪自動化，首先必須進行綠籬識別，因此研究能準確、快速地識別綠籬的算法是實現(xiàn)綠籬修剪自動化的基礎。近年來基于深度學習的目標檢測算法已經全面超過傳統(tǒng)目標檢測算法，主流的目標檢測算法目前主要分為雙階段和單階段兩大類，其中雙階段目標檢測算法主要有：RCNN[1]、SPPNet[2]、Fast RCNN[3]、Faster RCNN[4]、FPN[5]等，單階段目標檢測算法主要有：YOLO(You Only Look Once)[6]系列、SSD(Single Shot MultiBox Detector)[7]系列、RetinaNet[8]。雙階段目標檢測算法雖然精度較高，但是很難滿足實時性要求，相比之下，單階段目標檢測具有速度快、結構簡單的優(yōu)點，而且其精度已經十分接近雙階段算法，其中YOLOv4[9]更是被廣泛研究甚至已經成功應用于實際。

文獻[10]提出一種改進YOLOv4的交通標志識別算法，通過深度可分離卷積、雙向特征金字塔、Focal Loss函數(shù)成功減少了參數(shù)量和模型大小，提升了檢測速度和精度。文獻[11]將YOLOv4用于識別不同種類果實，并且完成果實采摘，每種果實識別準確率可達94%以上，檢測時間為12.3 ms。文獻[12]對YOLOv4進行改進并用于林業(yè)害蟲實時檢測，在檢測速度基本不變的情況下，mAP可以提升6.1%。文獻[13]也將改進的YOLOv4用于果園障礙物檢測，成功將模型大小壓縮了75%，檢測速度提高了29.4%，能快速完成障礙物的識別和分類。文獻[14]使用YOLOv4進行黑色素瘤病變檢測，能檢測同一患者的多種皮膚疾病，以及各種病人的多種疾病。文獻[15]提出一種YOLOv4-FPM模型，可以實現(xiàn)無人機對橋梁裂縫的實時檢測，mAP可達97.6%。

雖然YOLOv4已經具有很好的性能，但是YOLOv4是一種通用目標檢測算法，根據(jù)使用場合進行專用化改進還可以獲得更高的性能，因此為了滿足車載式綠籬修剪機自動化修剪的需要，為了更魯棒、更準確、更快速地識別綠籬，本文對YOLOv4進行專用化修改，提出了一種AD2-YOLOv4綠籬識別算法。使用針對性Mosaic數(shù)據(jù)增強獲得更合理的數(shù)據(jù)擴充，使訓練更具魯棒性；在YOLOv4的CSPDarknet53主干網絡引入空洞卷積(Dilated convolution)，變成了D-YOLOv4 算法，增加了感受野(Receptive Field)，提升了網絡準確率和速度；在SPP結構中引入平均池化(Avg pooling),變成了DA-YOLOv4算法，能充分利用上下文信息，使網絡更具魯棒性；通過刪減小目標檢測，變成了DA2-YOLOv4算法，能減少了大量計算，獲得了巨大速度提升；使用DIOU柔性非極大值抑制(Soft-DIOU-NMS)，在檢測重疊目標時獲得了更好的效果。

1 YOLOv4網絡模型

如圖1所示為YOLOv4的網絡模型，主要包括：輸入(Input)、主干(Backbone，即CSPDarknet53)、頸部(Neck)和頭部(Head)。Conv1表示1×1的基礎卷積操作，負責調整張量和尺寸；Conv3表示3×3的基礎卷積操作，負責提取特征；BatNor表示批量標準化操作，可以加快收斂速度；Mish和LeakyReLU都是激活函數(shù)操作，可以增加網絡非線性；Concat表示堆疊操作，用于堆疊相同尺寸的特征圖(Feature Map)。通常所說的卷積操作實質上是基礎卷積+批量標準化+激活函數(shù)的組合操作，而且往往進行3×3卷積提取特征前后都會進行1×1卷積來調整張量和尺寸。

輸入端為具有3個通道的彩色圖像數(shù)據(jù)集，每張圖像都預先標注了檢測對象的位置和種類。YOLOv4采用Mosaic 數(shù)據(jù)增強和自對抗訓練(Self-Adversarial Training, SAT)進行數(shù)據(jù)擴充，其中Mosaic 數(shù)據(jù)增強使用4張圖片進行隨機變換后組成一張圖片，可以增加樣本中的小目標，而且有利于使用一張GPU進行訓練；SAT使神經網絡反向更新圖像，在添加擾動后的圖像上訓練，增強了網絡的魯棒性。

主干網絡為整個網絡模型的核心，負責從輸入圖像中進行特征提取，常用主干網絡有VGG[16]、ResNet[17]、CSPDarknet53[18]等。YOLOv4采用CSPDarket53作為主干網絡，其在Darknet53中引入了CSPNet結構，一方面可以消除網絡反向優(yōu)化時的梯度信息冗余現(xiàn)象，增強了學習能力；另一方面可以在保證準確率的情況下降低網絡計算量，實現(xiàn)了網絡輕量化。采用Mish激活函數(shù)，增強了深層信息的傳播。

頸部網絡的作用是增強特征，一般是通過上采樣和下采樣方法對不同層次的特征進行融合。YOLOv4主要采用了空間金字塔池化(Space Pyramid Pooling, SPP)[19]和路徑聚合網絡(Path Aggregation Network, PANet)[20]，SSP通過四個不同大小的最大池化(Max pooling)來實現(xiàn)，可以擴大感受野，增強上下文特征，提升了網絡魯棒性和準確率；PANet通過特征金字塔網絡(Feature Pyramid Network, FPN)和一個自下而上的路徑增強(Bottom-up Path Augmentation，BuPA)結構來實現(xiàn)，F(xiàn)PN可以融合不同層次的特征，BuPA可以增強較低層次的特征，進一步提升了網絡準確率。

頭部網絡用于預測，包括對先驗框回歸得到預測框和分類，是單階段網絡和雙階段網絡的差別所在。YOLOv4作為單階段網絡，同時進行先驗框的調整和分類，輸出密集、適中、稀疏3種不同網格尺寸的特征圖，分別檢測小、中、大3中目標。對于只識別出現(xiàn)最多的球形綠籬和柱形綠籬共2個類時，頭部輸出特征圖的通道數(shù)為21，即

(4+1+class_num)×3=(4+1+2)×3=21

其中4個通道用于調整矩形預測框大小，1個通道用于判斷是否檢測到物體，class_num個通道分別代表了各類別的置信度，并且每次檢測含有3個先驗框。

圖1 YOLOv4網絡Fig. 1 YOLOv4 network

2 DA2-YOLOv4的改進

2.1 網絡結構的改進

如圖2所示，主要對YOLOv4的主干網絡、SPP結構和PANet結構進行了改進。對于CSPDarknet53主干網絡，將最開始的3×3卷積操作C3BM以及CSPResBlockX中的第一次3×3卷積操作C3BM均替換成了3×3的空洞卷積操作D3BM，并將修改后的CSPDarknet53、CSPResBlockX分別記為D-CSPDarknet53和D-CSPResBlockX；對于SPP結構，將中間的兩個最大池化改成了平均池化(Avg pooling),并將修改后的SPP記為A-SPP；對于PANet結構，刪除了對小目標的檢測部分，并將改進后的PANet記為PANet2。

2.1.1 D-CSPDarknet53的改進

如圖3(a)所示是卷積核大小(Kernel Size)為3×3，填充(Padding)為1×1，步長(Stride)為1的普通卷積，其感受野(Receptive Field)只有3×3，而且得到的特征圖信息過于緊密，但是對于綠籬來說，其大部分相鄰像素間的信息差異并不大。

因此過于緊密的信息是不必要的，對于7×7的圖像，需要進行(7-3+1)×(7-3+1)=25次3×3卷積計算。

如圖3(b)所示是卷積核大小為3×3，填充為0，步長為1，擴張率為2的空洞卷積[21]，其感受野為5×5。由于空洞卷積擁有更大的感受野，因此其能接觸到的原始圖像范圍就更大，這意味著它蘊含更為全局、語義層次更高的特征，這十分有利于提高網絡的魯棒性和準確率，而且對于7×7的圖像只需要進行(7-5+1)×(7-5+1)=9次卷積操作，大幅提升了計算速度，因此考慮在CSPDarknet53中引入空洞卷積來提升網絡魯棒性、準確率以及速度。

圖2 DA2-YOLOv4 網絡結構圖Fig. 2 DA2-YOLOv4 network structure diagram

(a) 普通卷積

(b) 空洞卷積圖3 普通卷積和空洞卷積對比Fig. 3 Comparison between ordinary convolution and dilated convolution

首先嘗試將CSPDarknet53中所有用于提取特征的3×3卷積全部替換成3×3空洞卷積，結果特征圖尺寸大幅縮小，卷積計算量下降，速度得到提升，但是出現(xiàn)了網格效應(Gridding Effect)，連續(xù)的空洞卷積使數(shù)據(jù)越來越稀疏，捕獲信息能力差，不利于卷積訓練，所以提出的D-CSPDarknet53不在殘差塊中引入空洞卷積，而且為了不使每層D-CSPDarknet53輸出的特征圖尺寸縮小，會進行空洞卷積后的下一個卷積中增加填充，因此D-CSPDarknet53相比與CSPDarknet53只在進行空洞卷積時縮小了特征圖尺寸。理論上，通過3×3普通卷積將608×608×3(需要添加1×1填充，所以實際上是610×610×3)的輸入圖片變?yōu)?08×608×32的特征圖，進行的3×3卷積計算量

(610-3+1)2×3×32=35 487 744

換成3×3空洞卷積后的3×3卷積計算量為

(610-5+1)2×3×32=35 254 656

減少了233 088的3×3卷積計算量，同理可得每個D-CSPResBlockX分別減少了3 717 120、4 947 968、9 830 400、19 398 656、37 748 736的3×3卷積計算量，因此D-CSPDarknet53能比CSPDarknet53減少75 875 584的3×3卷積計算量，擁有更快的速度和更大的感受野。

如表1所示為YOLOv4與使用D-CSPDarknet53替換了CSPDarknet53的D-YOLOv4的性能對比，D-YOLOv4的mAP提高了4.5%，訓練時間縮短了11.94%，F(xiàn)PS提升了3.7。

表1 D-CSPDarknet53和CSPDarknet53的對比Tab. 1 Comparison of D-CSPDarknet53 and CSPDarknet53

2.1.2 A-SPP的改進

YOLOv4中SPP的主要作用是增加感受野，其核心是4個不同尺度的最大池化，池化還可以減少特征和參數(shù)，可以保持某種不變性(旋轉、平移、伸縮等)，有助于增加網絡魯棒性，其中最大池化更有利于提取紋理特征，平均池化更有利于關聯(lián)上下文信息。

如圖4所示，最大池化在前向傳播中只取patch中最大的值，在反向傳播中也只把梯度值傳給patch中的某一個，其余設為0，并沒有充分利用上下文信息。

(a) 前向傳播

(b) 反向傳播圖4 前向傳播最大池化和反向傳播最大池化Fig. 4 Forward propagation max pooling and reverse propagation max pooling

如圖5所示，平均池化在前向傳播中會用到patch中所有的值，即取所有值的平均值，在反向傳播中也會將梯度值平分給patch中所有的值，對于綠籬這種大目標而言，其中心點附近的信息都是相似的，平均池化充分利用了這些信息，使檢測更加準確。

(a) 前向傳播

(b) 反向傳播圖5 前向傳播平均池化和反向傳播平均池化Fig. 5 Forward propagation agv pooling and reverse propagation max pooling

本研究嘗試將所有最大池化都替換成平均池化，但是并沒有只替換中間兩個最大池化的效果好，這是由于太大的池化并不適合使用平均池化，會導致紋理缺失，小的平均池化和大的最大池化結合使用才能達到最好的效果。

如表2所示為D-YOLOv4與使用了A-SPP的DA-YOLOv4的性能對比，DA-YOLOv4在訓練時間和FPS基本不變的情況下，將mAP提升了1.2%。

表2 A-SPP和SPP的對比Tab. 2 Comparison of A-SPP and SPP

2.1.3 PANet2的改進

YOLOv4之所以要引出主干網絡CSPDarknet53最后三層CSPResBlockX的輸出主要是為了分別檢測小、中、大目標，但是對于檢測綠籬這種大目標來說是沒有必要保留對小目標的檢測，而且其特征圖網格數(shù)還是最多的，在頭部進行先驗框回歸和分類時要占用大量計算，因此刪除對小目標的檢測幾乎不會降低對綠籬識別的準確率，但卻能大幅減少計算量，提升檢測速度。

如表3所示為DA-YOLOv4與使用了PANet2的DA2-YOLOv4的性能對比，DA2-YOLOv4在mAP只降低了0.1%的情況下，將訓練時間縮短了18.22%，F(xiàn)PS提升了11.5。

表3 PANet2和PANet的對比Tab. 3 Comparison of PANet2 and PANet

2.2 針對性Mosaic數(shù)據(jù)增強

YOLOv4使用的Mosaic數(shù)據(jù)增強是參考了2019年提出的CutMix數(shù)據(jù)增強，使得YOLOv4可以只使用一張GPU顯卡就可以完成訓練。如圖6所示，Mosaic數(shù)據(jù)增強采用4張圖片分別進行隨機縮放、隨機裁剪、隨機旋轉、隨機翻轉、隨機色域變換等操作，然后以隨機排布的方式進行拼接以豐富數(shù)據(jù)集，一方面通過隨機縮放增加了很多小目標，使得網絡魯棒性提升，另一方面Mosaic增強訓練時，可以直接計算4張圖片的數(shù)據(jù)，使得Mini-batch大小并不需要很大，因此一個GPU就可以達到比較好的效果。然而，需要修剪的綠籬一般都是水平擺放的，而且顏色一般為綠色、黃色、紅色等，因此Mosaic數(shù)據(jù)增強通過垂直翻轉、大角度旋轉、隨機色域變換等來豐富數(shù)據(jù)集是不合適的，這反而會誤導網絡，丟失綠籬方向、顏色等顯著特征，降低檢測置信度。

如圖7所示，本文根據(jù)綠籬先驗數(shù)據(jù)，針對性地不進行垂直翻轉，而且只在一定范圍內進行隨機旋轉和特定區(qū)間內進行隨機色域變換，因為戶外環(huán)境光照影響較大，所以還加大了對亮度調整的概率和幅度，豐富了不同亮度下地數(shù)據(jù)集，因此針對性Mosaic數(shù)據(jù)增強不僅具備Mosaic數(shù)據(jù)增強所有的優(yōu)點還可以更合理地豐富數(shù)據(jù)集，加強了綠籬方向、顏色等顯著特征，抑制了光照特征，增加了檢測置信度和魯棒性。

圖6 Mosaic數(shù)據(jù)增強Fig. 6 Mosaic data enhancement

圖7 針對性Mosaic數(shù)據(jù)增強Fig. 7 Targeted Mosaic data enhancement

如表4所示為DA2-YOLOv4與使用了針對性Mosaic的DA2-YOLOv4的性能對比，使用了針對性Mosaic的DA2-YOLOv4在訓練時間和FPS上基本沒有變化，但使mAP提升了1.7%。

表4 針對性Mosaic的DA2-YOLOv4和 DA2-YOLOv4的對比Tab. 4 Comparison of targeted-mosaic DA2-YOLOv4 and DA2-YOLOv4

2.3 Soft-DIOU-NMS

在目標檢測算法中，同一檢測目標往往會產生許多不同大小的預測框，而我們只需要保留一個最佳的預測框，因此非極大值抑制(Non-Maximum Suppression，NMS)應運而生，其主要作用就是將某一類別的預測框按置信度排序，再把最高分值的框設定為基準框，然后分別求剩余的框與基準框的交并比(Intersection over Union，IOU)，如果交并比大于設定閾值，說明很可能是同一檢測目標，要進行刪除；如果交并比小于閾值，說明不是同一檢測目標，選擇保留，依此遍歷所有類別就可以消除冗余重復的預測框，找到檢測目標的最佳位置。YOLOv4使用的DIOU-NMS還考慮了邊界框不重合、邊界框中心距等因素，但沒有考慮置信度得分，對于重疊程度高的多個目標容易出現(xiàn)漏檢情況，其計算方法

式中：Si——當前類別的置信度得分；

IOU——預測框和基準框的交并比；

RDIOU——DIOU損失函數(shù)的懲罰項；

μ——所有預測框中置信度最高的那個框；

Bi——當前類別中所有被比較的預測框；

ε——人為設定的閾值，一般取0.5；

ρ2(b,bgt)——預測框和真實框的中心點的歐氏距離；

c——預測框和真實框最小外接矩形的對角線距離。

DIOU柔性非極大值抑制(Soft-DIOU-NMS)[22]不僅通過重合程度進行篩選，同時還考慮置信度得分，因此Soft-DIOU-NMS在重疊程度小于閾值時和普通非極大值抑制是一樣的，唯一區(qū)別是在重疊程度大于閾值時還要考慮置信度得分，減少漏檢的情況，其計算式

因此將DIOU-NMS替換成了上述更優(yōu)秀的Soft-DIOU-NMS，這樣即便是從某個方向看過去重疊程度很高的多株綠籬也能更完整識別出來。

表5 針對性Mosaic的DA2-YOLOv4和DA2-YOLOv4的對比Tab. 5 Comparison of targeted-mosaic DA2-YOLOv4 and DA2-YOLOv4

如表5所示為DA2-YOLOv4與使用了Soft-DIOU-NMS的DA2-YOLOv4的性能對比，使用了Soft-DIOU-NMS的DA2-YOLOv4在訓練時間和FPS基本沒有變化的情況下，將mAP提升了0.8%。

3 試驗及結果分析

3.1 數(shù)據(jù)集制作

如圖8所示為本文采集綠籬數(shù)據(jù)集所用的試驗平臺，目前實現(xiàn)綠籬修剪自動化的方案是：首先使用雙目相機識別綠籬，接著通過深度圖信息靠近+綠籬，再控制機械手末端的廣角相機移動到綠籬上方，然后通過廣角相機即可獲得精確的綠籬水平截面中心，完成對中后通過旋轉關節(jié)讓成型刀具旋轉一周即可完成綠籬修剪。準確、快速的綠籬識別是該綠籬修剪自動化方案的基礎，為了增加綠籬數(shù)據(jù)的實用性，本文所制作的綠籬數(shù)據(jù)均通過該試驗平臺的雙目相機進行采集。

本文一共采集了2 000張1 280×960的原始綠籬圖片，并使用labelImg進行標注，將球形綠籬標注為qlvli，將柱形綠籬標注為zlvli。其中球形綠籬圖片有1 322 張，包含5 287株球形綠籬；圓柱綠籬圖片有1 198 張，包含4 993株柱形綠籬，在數(shù)據(jù)集足夠大的情況下，保證了數(shù)據(jù)集各類別圖片數(shù)量均衡性和目標個數(shù)均衡性。

圖8 試驗平臺Fig. 8 Experimental platform

3.2 試驗配置

所有實驗均在裝有Intel(R)Core(TM)i7-9700CPU@3.00GHz 3.00GHz處理器和NVIDIA GeForce GTX2080顯卡的工控機上使用Ubuntu16.04系統(tǒng)，CUDA11.0，Cudnn8.0進行測試，所有算法均使用python3.6語言和Pytorch架構。訓練時輸入圖片尺寸為608×608，學習率為0.001，權重衰減系數(shù)為0.000 5，優(yōu)化器為Adam，Batchsize為16，迭代次數(shù)為10 000次。

3.3 評價指標

損失函數(shù)的值(Loss)在機器學習中用于表示預測值與真實值之間的差距，所謂網絡訓練就是通過不斷修改網絡各層的參數(shù)來使得Loss值越來越小，最終目的是為了得到足夠小的Loss值下的所有網絡參數(shù)即為權重參數(shù)。mAP就是對所有類的AP值取平均值，而AP指的是以精確度(Precision)和召回率(Recall)為坐標軸所得曲線下面的面積，可以同時度量Precision和Recall，其計算式

式中：TP——被分類器認為是正樣本而且確實是正樣本的個數(shù)；

FP——被分類器認為是正樣本但實際上不是正樣本的個數(shù)；

FN——被分類器認為是負樣本但實際上不是負樣本的個數(shù)。

因此Precision可以視為查準率，Recall可以視為查全率，而mAP可以視為對所有分類而言Precision和Recall的綜合指標，其值越大證明訓練效果越好。

3.4 試驗結果分析

如圖9所示，采用YOLOv4算法時，Loss曲線整體上呈現(xiàn)明顯下降趨勢，但是波動較大，Loss最小值為0.4。而采用DA2-YOLOv4算法時，Loss曲線也呈現(xiàn)明顯下降趨勢。與YOLOv4算法相比，DA2-YOLOv4的Loss曲線下降速度更快，波動更小，且Loss最小值下降到0.2。

(a) YOLOv4訓練Loss曲線

(b) DA2-YOLOv4訓練Loss曲線圖9 訓練效果對比Fig. 9 Comparison of training effect

相比之下，DA2-YOLOv4的mAP整體上呈上升趨勢，而且波動較小，最終達到98.8%；Loss曲線也呈現(xiàn)明顯下降趨勢，不僅下降速度更快，而且波動很小，最終可達到0.2以下。

如圖10所示，檢測結果表明：在多目標識別中DA2-YOLOv4能完整識別所有綠籬，置信度幾乎全在0.98以上，而且能精確識別綠籬冠層位置；YOLOv4雖然也能完整識別所有綠籬，但是總體上置信度在0.95以下，而且識別精度較差。

(a) YOLOv4

(b) DA2-YOLOv4 圖10 多目標識別對比Fig. 10 Comparison of multi-target recognition

如圖11所示，在目標重疊程度較大情況下，DA2-YOLOv4 也能準確識別三個重疊的目標，而且置信度可達到0.99；YOLOv4在3個重疊目標中只能識別最前面的1個，而且置信度只有0.97。

(a) YOLOv4

(b) DA2-YOLOv4 圖11 目標重疊識別對比Fig. 11 Comparison of target-overlap recognition

如圖12所示，在開放環(huán)境中存在很多綠籬，DA2-YOLOv4 不僅能很好識別靠前的2株綠籬，還能識別復雜環(huán)境中的3株綠籬，不僅置信度均在0.55以上，而且識別精確；YOLOv4只能以高置信度識別前面2株綠籬，而且識別精度明顯不如DA2-YOLOv4。

(a) YOLOv4

(b) DA2-YOLOv4 圖12 開放環(huán)境識別對比Fig. 12 Comparison of open-environment recognition

如表6所示為DA2-YOLOv4與主流目標檢測算法的性能對比，在主流目標檢測算法中，YOLOv4已經是比較優(yōu)秀的算法，但DA2-YOLOv4依然在訓練階段和檢測階段獲得了巨大的提升，因此DA2-YOLOv4在各方面均明顯優(yōu)于其他目標檢測算法，具有最快的訓練速度、最高的mAP、最快的FPS。

表6 綠籬識別算法對比Tab. 6 Comparison of hedge recognition algorithms

綜上，DA2-YOLOv4的改進效果是十分顯著的，相比于YOLOv4，僅需19.2 h就能完成10 000次迭代的訓練，訓練時間縮短了28.3%，訓練時mAP可達到98.8%，提升了5.9%；在檢測階段DA2-YOLOv4的mAP仍能達到98.5%，提升了8.1%，F(xiàn)PS可達到83.1，提升了14.9。在實際檢測中，DA2-YOLOv4的多目標檢測、目標重疊檢測、開放環(huán)境檢測均取得了很好的效果，明顯優(yōu)于其他算法，完全能滿足綠籬修剪行業(yè)自動化需求。

4 結論

基于YOLOv4提出一種DA2-YOLOv4綠籬識別算法。通過針對性Mosaic數(shù)據(jù)增強來更合理地擴充數(shù)據(jù)集，可以有效防止誤導網絡，使訓練結果更具魯棒性；通過在CSPDarknet53中引入3×3空洞卷積提出了D-CSPDarknet53，可以獲得更大的感受野，大幅提升了mAP和FPS；通過在SPP中引入平均池化得到了A-SPP，在感受野已經足夠的情況下更加充分利用信息，使網絡更具魯棒性；通過刪除不必要的小目標檢測部分得到了PANet2，大幅提升了網絡速度；使用Soft-DIOU-NMS更能準確識別重合程度高的多個目標。試驗結果表明，DA2-YOLOv4的改進效果顯著，相比于YOLOv4，mAP提升了8.1%，F(xiàn)PS提升了14.9，且在綠籬識別中各方面的表現(xiàn)均明顯優(yōu)于其他主流算法，能很好地滿足綠籬修剪行業(yè)自動化需求。