基于改進YOLO v4的自然環(huán)境蘋果輕量級檢測方法

2022-09-14 05:28:52王梟雄白曉平趙泳嘉

農(nóng)業(yè)機械學報 2022年8期

王卓王健王梟雄時佳白曉平趙泳嘉

(1.中國科學院沈陽自動化研究所，沈陽 110016； 2.中國科學院機器人與智能制造創(chuàng)新研究院，沈陽 110169；3.中國科學院大學計算機科學與技術(shù)學院，北京 100049)

0 引言

蘋果是我國規(guī)模最大的果品之一，蘋果園約占全國果園的18%，年產(chǎn)量約為4.139×107t[1]。然而由于果園環(huán)境復(fù)雜，蘋果的采摘依舊以人工采摘為主，采摘成本高，效率低，因此，研究蘋果采摘機器人代替人工進行自動化采摘具有重要意義。采摘機器人主要由視覺系統(tǒng)和機械臂系統(tǒng)組成[2]，機械臂系統(tǒng)受視覺系統(tǒng)引導(dǎo)完成對果實的采摘，因而對果實進行快速、精準地識別與定位是實現(xiàn)自動采摘的關(guān)鍵[3]。

果園環(huán)境較為復(fù)雜，枝葉遮擋、果實重疊、光照變化等會影響模型的檢測精度，造成誤檢、漏檢等問題；另外，由于采摘機器人搭載的嵌入式平臺算力資源有限，復(fù)雜模型的檢測速度無法滿足任務(wù)實時性需求，且難以部署。在保證檢測精度的同時提高檢測速度成為非結(jié)構(gòu)環(huán)境下蘋果檢測主要的難點問題和研究熱點。

近年來，深度學習技術(shù)不斷發(fā)展，基于卷積神經(jīng)網(wǎng)絡(luò)的蘋果檢測算法也因其魯棒性強、自適應(yīng)性強以及準確性高而被廣泛應(yīng)用[4-6]。其中，應(yīng)用于蘋果檢測任務(wù)中的算法主要分為兩類，一類是側(cè)重于精度，將檢測分為定位和分類兩個過程的two-stage算法，如Faster R-CNN[7]、R-FCN[8]等， GAO等[9]針對枝葉遮擋問題，使用改進的Faster R-CNN網(wǎng)絡(luò)對密葉果樹中的蘋果進行檢測，mAP為87.9%，單幅圖像平均檢測時間為0.241 s。另一類是側(cè)重于速度，將檢測過程中的定位和分類轉(zhuǎn)化為回歸問題的one-stage算法，如YOLO[10]、SSD[11]等。張恩宇等[12]將SSD算法與U分量閾值分割法相結(jié)合識別自然環(huán)境中的青蘋果，擁有較好的檢測效果；武星等[13]使用一種輕量化的YOLO v3卷積神經(jīng)網(wǎng)絡(luò)檢測蘋果，mAP為94.69%，工作站和嵌入式開發(fā)板上的檢測速度分別為116.96、7.59 f/s；FU等[14]基于YOLO v3-tiny提出了DY3TNet模型，對果園中的獼猴桃進行檢測，平均檢測精度達90.05%，GPU下單幅圖像檢測時間為34 ms，實現(xiàn)了獼猴桃的快速檢測。目前，基于高性能平臺開展的蘋果檢測研究，已取得階段性進展，而在算力資源有限的嵌入式設(shè)備上，檢測精度與速度的平衡值得進一步研究。

本文以果園中非結(jié)構(gòu)環(huán)境中的蘋果作為檢測任務(wù)，針對算力資源有限的嵌入式平臺，提出一種輕量化蘋果實時檢測方法YOLO v4-CA。該方法以YOLO v4為基礎(chǔ)框架，基于MobileNet v3改進網(wǎng)絡(luò)主干，并使用深度可分離卷積優(yōu)化特征融合網(wǎng)絡(luò)，壓縮模型，減少模型計算量；引入坐標注意力機制，彌補因模型輕量化以及非結(jié)構(gòu)化環(huán)境所造成的精度損失；提出一種將跨域遷移與域內(nèi)遷移相結(jié)合的學習策略，提高模型的泛化能力。在臺式計算機及嵌入式平臺Jetson AGX Xavier上分別將本文提出的檢測算法與主流目標檢測模型進行對比。

1 改進的自然環(huán)境蘋果檢測方法

1.1 YOLO v4網(wǎng)絡(luò)結(jié)構(gòu)

YOLO v4[15]是目前最先進的實時檢測模型之一，它在YOLO v3的基礎(chǔ)上進一步優(yōu)化，使得總體性能顯著提高。其網(wǎng)絡(luò)結(jié)構(gòu)有3大改進：CSPDarkNet53替換DarkNet53作為特征提取網(wǎng)絡(luò)，促進底層信息融合，增強特征提取能力；提出空間金字塔池化模塊SPP[16]，在最后一層輸出中進行4個不同尺度的最大池化操作，有效提高感受野，提取出最顯著的上下文特征；將特征金字塔網(wǎng)絡(luò)FPN[17]結(jié)構(gòu)修改為路徑聚合網(wǎng)絡(luò)PAN[18]，在FPN的自底向上結(jié)構(gòu)中添加一個自頂向下的結(jié)構(gòu)，進一步提取和融合不同尺度特征。

1.2 網(wǎng)絡(luò)結(jié)構(gòu)輕量化改進

YOLO v4在多類別檢測任務(wù)中具有優(yōu)異的識別精度和速度，而本文所研究的識別任務(wù)僅對蘋果進行單類識別，原始模型具有參數(shù)冗余，存在不必要的計算開銷，另外，采摘機器人多搭載嵌入式設(shè)備部署識別任務(wù)，算力資源有限，冗余的計算會影響模型的檢測速度。因此，為使模型部署在嵌入式設(shè)備時滿足實時性需求，本文基于YOLO v4對其特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)進行輕量化改進。

1.2.1基于MobileNet v3特征提取網(wǎng)絡(luò)的結(jié)構(gòu)改進

MobileNet是一種適用于移動端的輕量級神經(jīng)網(wǎng)絡(luò)。本文使用MobileNet v3[19]輕量級神經(jīng)網(wǎng)絡(luò)作為YOLO v4-CA的特征提取網(wǎng)絡(luò)。MobileNet v3保留MobileNet v2[20]中具有線性瓶頸層的逆殘差結(jié)構(gòu)，并將SENet[21]中的輕量級注意模塊集成其中作為bneck基本塊，提高網(wǎng)絡(luò)對于特征通道的敏感程度，增強網(wǎng)絡(luò)的特征提取能力；在深層網(wǎng)絡(luò)中使用h-swish代替ReLU，降低運算量，提高模型性能。本文所使用的MobileNet v3網(wǎng)絡(luò)參數(shù)如表1所示，將特征層8、14、17提取到的特征圖輸出，作為后續(xù)特征融合層的輸入。

表1 MobileNet v3主干Tab.1 MobileNet v3 backbone

1.2.2基于深度可分離卷積的特征融合網(wǎng)絡(luò)結(jié)構(gòu)改進

深度可分離卷積[22]將卷積過程分解為逐通道卷積和逐點卷積，相較于傳統(tǒng)卷積能夠大幅減少參數(shù)計算量，將YOLO v4特征融合部分路徑聚合網(wǎng)絡(luò)(PAN)結(jié)構(gòu)中的普通卷積替換為深度可分離卷積，進一步壓縮模型，提高模型計算效率。

網(wǎng)絡(luò)結(jié)構(gòu)的輕量化改進能夠大幅降低模型的參數(shù)量和計算量，但與此同時會帶來檢測精度上的損失，因此，需要對模型進行進一步優(yōu)化以提高模型檢測精度。

1.3 引入坐標注意力機制的特征融合網(wǎng)絡(luò)

注意力機制是一種仿生物視覺機制。通過快速掃描全局圖像，篩選出感興趣的區(qū)域，投入更多的注意力資源，并抑制其他無用信息，提高視覺信息處理的效率與準確性[23]。

自然環(huán)境下的蘋果常出現(xiàn)果實重疊和枝葉遮擋的問題，造成模型檢測精度的損失，本文使用一種將位置信息與通道信息相結(jié)合的坐標注意力機制[24]施加于網(wǎng)絡(luò)的關(guān)鍵位置中，增加模型對蘋果特征的敏感程度。對于任務(wù)中較難識別的重疊、遮擋目標分配高權(quán)重以增加關(guān)注度，對于不感興趣的自然背景分配低權(quán)重加以抑制，提高自然環(huán)境下蘋果的識別精度。

如圖1所示，坐標注意力機制(Coordinate attention, CA)包含信息嵌入以及注意力生成兩部分。信息嵌入階段對特征進行匯聚，對輸入特征圖的所有通道，分別沿水平坐標和垂直坐標方向進行平均池化，獲取到尺寸為C×H×1和C×1×W的特征圖。在注意力生成階段，將獲取到的兩幅特征圖拼接為C×1×(H+W)的特征圖，然后采用1×1卷積將其通道維數(shù)以收縮率r從C維壓縮至C/r維，并使用ReLU函數(shù)進行非線性激活，再將獲取到的結(jié)果沿空間維分解為C/r×H×1的水平注意張量和C/r×1×W的垂直注意張量。之后，再使用兩組1×1的卷積將通道維從C/r維升至C維，并使用Sigmoid函數(shù)進行非線性激活。最后，將獲取到的兩個注意圖C×H×1和C×1×W與輸入的特征圖相乘，完成坐標注意力的施加。將坐標注意力機制引入至特征融合網(wǎng)絡(luò)PAN，如圖2所示的位置2處，位于信息交匯處，使得坐標注意力能夠充分獲取不同尺度的特征信息，通過兩個不同方向注意圖的施加，判斷目標是否存在于注意圖對應(yīng)的行與列中，提升網(wǎng)絡(luò)對密集目標的識別效果，緩解枝葉遮擋、果實重疊引起的檢測精度損失。另外，圖2所示的網(wǎng)絡(luò)中于位置1及位置3處所施加的CA模塊僅用于后續(xù)對照試驗說明用，不作為最終網(wǎng)絡(luò)結(jié)構(gòu)的一部分。

圖1 坐標注意力機制Fig.1 Coordinate attention mechanism

圖2 施加坐標注意力機制的特征融合網(wǎng)絡(luò)Fig.2 Feature fusion network with coordinate attention mechanism

基于YOLO v4模型進行網(wǎng)絡(luò)輕量化改進，于特征融合層引入坐標注意力機制后的網(wǎng)絡(luò)(YOLO v4-CA)結(jié)構(gòu)如圖3所示。

圖3 YOLO v4-CA網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 YOLO v4-CA network structures

1.4 跨域遷移與域內(nèi)遷移相結(jié)合的學習策略

模型的訓練需要大量數(shù)據(jù)，大規(guī)模的蘋果數(shù)據(jù)集獲取比較困難，成本高，而當數(shù)據(jù)不充足時，通常采用數(shù)據(jù)增強的方式擴充數(shù)據(jù)集，并以跨域遷移的方式進行知識遷移，對于蘋果檢測任務(wù)，識別對象為自然環(huán)境中的蘋果，遷移前后源域與目標域相似度低，通常方法所帶來的精度提升有限。因此，本文針對蘋果檢測任務(wù)提出一種將跨域遷移與域內(nèi)遷移相結(jié)合的學習策略[25]，在通常的源域與目標域之間，即通用數(shù)據(jù)集與自然環(huán)境蘋果數(shù)據(jù)集之間添加僅含有蘋果特征的數(shù)據(jù)集作為過渡域，并采用亮度調(diào)整以及縮放的方式進行數(shù)據(jù)擴充，豐富數(shù)據(jù)集中不同光影及尺度下的蘋果特征，減少其與目標域的差異性，提升遷移學習的效果，進而提高模型的檢測精度。

具體地，跨域遷移與域內(nèi)遷移相結(jié)合的學習策略分為2個階段：進行跨域遷移學習，使用通用數(shù)據(jù)集下訓練得到的參數(shù)對網(wǎng)絡(luò)主干部分進行初始化，并利用僅含有蘋果特征的數(shù)據(jù)集對模型進行微調(diào)，習得蘋果特征；進行域內(nèi)遷移學習，利用自然環(huán)境蘋果數(shù)據(jù)集在階段1訓練好的模型上進一步微調(diào)，習得受復(fù)雜環(huán)境影響的蘋果特征。

2 網(wǎng)絡(luò)訓練與檢測試驗

2.1 數(shù)據(jù)集準備

本文試驗所采用數(shù)據(jù)集分為兩部分。數(shù)據(jù)集1來自于開源的Fruit-360數(shù)據(jù)集[26]，該數(shù)據(jù)集包含120種不同的水果和蔬菜，每幅圖像均取自實驗室環(huán)境，并在獲取后去除目標以外的背景，提取其中Braeburn、Crimson Snow、Pink Lady、Red 1、Red 2、Red 3共6個品種的蘋果圖像，共計3 767幅圖像，其中訓練集為2 804幅圖像，測試集為963幅圖像。數(shù)據(jù)集2使用自建數(shù)據(jù)集，圖像源自互聯(lián)網(wǎng)，以蘋果、蘋果樹、自然環(huán)境蘋果等作為關(guān)鍵詞進行檢索獲得，經(jīng)過篩選，保留1 057幅圖像作為數(shù)據(jù)集，并以8∶1∶1的比例將其分為訓練集845幅，驗證集106幅，測試集106幅，根據(jù)樣本的遮擋情況對數(shù)據(jù)集進行劃分，劃分結(jié)果如表2所示，其中，輕度遮擋樣本為平均遮擋程度小于30%的樣本，重度遮擋樣本為平均遮擋程度大于30%的樣本。

表2 數(shù)據(jù)集2遮擋情況及其數(shù)量Tab.2 Occlusion and quantity of datasets 2 幅

使用LabelImg圖像標注工具對數(shù)據(jù)集進行人工標注，在標注過程中忽略圖像中遮擋超過80%的目標，獲得PASCAL VOC格式的XML文件作為標簽文件。將數(shù)據(jù)集2中圖像的分辨率調(diào)整為網(wǎng)絡(luò)輸入時所需要的416像素×416像素，使用K-means算法對標簽中邊界框的尺寸進行聚類，聚類中心設(shè)置為9，將聚類結(jié)果作為網(wǎng)絡(luò)的先驗框，分別為(15, 21)、(28, 35)、(40, 53)、(52, 73)、(67, 97)、(83, 62)、(91, 116)、(113, 159)、(167, 214)。

為提高二階段域內(nèi)遷移學習效果，對數(shù)據(jù)集1進行增強以增加源域與目標域的相似性。將圖像變換至HSI空間，將I通道下數(shù)據(jù)隨機調(diào)整至原來的0.8～4.0倍；根據(jù)數(shù)據(jù)集2的先驗框尺寸，將圖像進行0.15～2的隨機等比例縮放。進行上述操作，將數(shù)據(jù)集1擴充至原來的4倍，共計11 966幅圖像，處理效果如圖4所示。

圖4 數(shù)據(jù)集1擴充后圖像Fig.4 Images of expanded datasets 1

2.2 損失函數(shù)

本文模型的損失函數(shù)(Loss)由置信度損失、類別損失以及邊界框損失3部分組成。

2.3 評價標準

本文以準確率P、召回率R、平均精度(Average precision,AP)作為模型檢測精度的評價指標。

另外，從3方面評價模型的性能，使用單位時間圖像檢測數(shù)量(fps)評價模型的檢測速度，浮點數(shù)計算量(FLOPs)評價模型的計算復(fù)雜度，內(nèi)存占用量評價模型的大小。

2.4 試驗平臺

本文模型訓練平臺為臺式計算機，配置為Intel(R) Core(TM) i7-8700 3.20 GHz CPU，內(nèi)存16 GB，GPU為NVIDIA TITAN V，顯存12 GB，運行環(huán)境為Windows 10系統(tǒng)，Python版本為3.6，Pytorch版本為1.2.0，CUDA版本為10.0，cuDNN版本為7.4.1。模型測試平臺除上述高性能臺式機外，還有一臺Jetson AGX Xavier嵌入式平臺，搭載 NVIDIA Carmel ARMv8.2 CPU、GPU為NVIDIA Volta，能夠達到每秒11萬億次浮點數(shù)計算量，運行環(huán)境為Ubuntu系統(tǒng)，Python版本為3.6，Pytorch版本為1.6.0，CUDA版本為10.2，cuDNN版本為8.0.0。

2.5 模型訓練

模型的訓練策略分為兩階段，階段1進行跨域遷移學習，利用大規(guī)模數(shù)據(jù)集VOC訓練好的MobileNet v3網(wǎng)絡(luò)預(yù)訓練權(quán)重對網(wǎng)絡(luò)參數(shù)進行初始化，并利用Fruit-360數(shù)據(jù)集對網(wǎng)絡(luò)進行微調(diào)；階段2進行域內(nèi)遷移學習，利用自建的蘋果數(shù)據(jù)集對網(wǎng)絡(luò)進行進一步微調(diào)。

訓練過程分為兩步，首先，凍結(jié)網(wǎng)絡(luò)骨架部分，批量大小為64，初始學習率為1×10-3，訓練輪次為50；接著，解凍訓練，批量大小為16，初始學習率為1×10-4，訓練輪次為50。訓練中所使用到的優(yōu)化器均為Adam，參數(shù)為默認值，每訓練一輪學習率衰減為原來的0.9。

訓練過程中使用Tensorboard記錄數(shù)據(jù)，每進行一次迭代，寫入訓練集損失；每訓練一個輪次，寫入驗證集損失，并保存模型權(quán)重。損失值變化曲線如圖5所示，共訓練100個輪次，將后50輪次中驗證集損失最低的模型作為訓練結(jié)果以進行后續(xù)分析。

圖5 損失值變化曲線Fig.5 Change curves of loss value

3 試驗與結(jié)果分析

為驗證本文針對蘋果檢測任務(wù)所設(shè)計方法的有效性，比較不同策略施加前后對模型性能的影響，在相同測試集下與改進前模型、兩種常用目標檢測模型以及兩種輕量級目標檢測模型進行綜合對比。

3.1 網(wǎng)絡(luò)輕量化對模型檢測效果的影響

由表3可知，將YOLO v4的原特征提取網(wǎng)絡(luò)CSPDarkNet53替換為MobileNet v3，并將特征融合網(wǎng)絡(luò)中的普通卷積替換為深度可分離卷積后，模型的浮點數(shù)計算量降低88.38%，模型內(nèi)存占用量降低78.03%，AP降低6.71個百分點。說明網(wǎng)絡(luò)輕量化能夠有效降低模型計算量、內(nèi)存占用量，但同時會損失一定檢測精度，因此，需要對模型進一步優(yōu)化，提高綜合能力。

表3 網(wǎng)絡(luò)輕量化對模型的影響Tab.3 Effect of network lightweighting on model

3.2 坐標注意力機制施加不同位置對模型檢測效果的影響

在網(wǎng)絡(luò)輕量化模型的基礎(chǔ)上，將坐標注意力機制CA施加在圖2所示的特征融合網(wǎng)絡(luò)中的不同位置，對比施加位置不同對模型檢測能力的影響，結(jié)果如表4所示，在位置2處施加使模型AP提高了1.21個百分點，而在位置1和位置3處施加分別使模型AP降低了6.82、1.33個百分點，說明CA在特征融合網(wǎng)絡(luò)中不同位置的施加并不一定會帶來模型檢測性能的提升，而由于位置2處于特征提取網(wǎng)絡(luò)中不同尺度信息的交匯處，相較于位置1和位置3能夠使注意力機制進行信息嵌入階段獲取更加豐富的特征信息，進而提升模型的檢測效果。另外，由表4可知，CA于不同位置施加時模型額外內(nèi)存占用量較低。

表4 施加注意力機制至不同位置檢測能力對比Tab.4 Comparison of detection capabilities with attention mechanism at different locations

3.3 不同注意力機制對模型檢測效果的影響

在網(wǎng)絡(luò)輕量化模型的基礎(chǔ)上，在圖2所示的位置2處施加不同的注意力機制，對比不同注意力機制對模型檢測能力的影響，由表5可知，施加SE在收縮率為32時模型AP最高，為86.74%；施加CBAM在收縮率為8時模型AP最高，為86.26%；施加CA在收縮率為32時模型AP最高，為87.53%，相較于施加前，SE、CA分別提高0.22、1.01個百分點，CBAM降低0.26個百分點，說明在模型特征融合網(wǎng)絡(luò)中施加注意力機制并不一定能夠帶來檢測精度的提升，需根據(jù)特定任務(wù)加以選擇。本文所引入的CA模塊使用兩個一維注意圖進行特征編碼，通過嵌入不同尺度的特征信息，以一種近似于坐標的形式?jīng)Q定圖像中目標的關(guān)注程度，能夠有效提高模型對于密集目標的敏感程度，進而改善蘋果檢測任務(wù)中果實重疊、枝葉遮擋對檢測精度帶來的負面影響。另外，由表5可知，于特征融合網(wǎng)絡(luò)中施加不同注意力機制帶來的額外內(nèi)存占用量較低，結(jié)合表4得出以下結(jié)論：對于內(nèi)存空間及算力受到約束的任務(wù)中，可通過在網(wǎng)絡(luò)中施加合適的注意力機制改善模型的檢測性能。

表5 施加不同注意力機制的檢測能力對比Tab.5 Comparison of detection capabilities with different attention mechanisms

綜上所述，將YOLO v4的原特征提取網(wǎng)絡(luò)CSPDarkNet53替換為MobileNet v3，并將特征融合網(wǎng)絡(luò)中的普通卷積替換為深度可分離卷積，同時于圖2所示位置2處施加收縮率為32的CA模塊能夠使改進后模型檢測精度達到最佳，因此，后續(xù)對比試驗的討論基于該網(wǎng)絡(luò)結(jié)構(gòu)展開。

3.4 不同遷移學習方式對模型檢測效果的影響

比較不同遷移學習方式對模型檢測精度的影響。使用VOC預(yù)訓練模型在數(shù)據(jù)集2上進行訓練，作為跨域遷移學習；對模型進行隨機初始化并先后在數(shù)據(jù)集1和數(shù)據(jù)集2上進行訓練，作為域內(nèi)遷移學習；使用VOC預(yù)訓練模型先后在數(shù)據(jù)集1和數(shù)據(jù)集2上進行訓練，作為跨域遷移與域內(nèi)遷移相結(jié)合的學習方式。由表6可知，進行跨域遷移與域內(nèi)遷移相結(jié)合的學習方式使模型精度達到最優(yōu)，相較于單獨進行跨域遷移和域內(nèi)遷移的AP分別提高4.7、19.87個百分點，這是由于兩者相結(jié)合的學習方式分兩階段進行，在模型掌握通用特征后學習蘋果特征，進而再學習自然環(huán)境下的蘋果特征，相較于跨域遷移，添加過渡域以緩解因源域與目標域相似性低所帶來的負面影響；而相較于域內(nèi)遷移，通過通用特征對模型進行初始化，彌補因數(shù)據(jù)集1中不具備背景所造成的信息損失，因而能夠獲得3種學習方式中最佳的模型檢測精度，具有最強的泛化能力。

表6 不同遷移學習方式檢測能力對比Tab.6 Comparison of detection capabilities with different transfer learning methods

3.5 不同檢測模型對比試驗

為驗證本文模型的效果，在相同測試集下，分別與YOLO v4、SSD300、Faster R-CNN、DY3TNet以及YOLO v5s進行對比，對比結(jié)果如表7、8所示。對無遮擋、輕度遮擋以及重度遮擋3種情況下模型檢測效果的對比如圖6所示，其中紅色矩形框為預(yù)測結(jié)果，橙色圓形框為誤檢目標，黃色圓形框為漏檢目標。由表7可知，本文模型的AP為92.23%，相比于YOLO v4降低了1.00個百分點，相比于SSD300及Faster R-CNN提升0.91、2.02個百分點，相比于DY3TNet及YOLO v5s提升7.33、7.73個百分點。由圖6可知，YOLO v4-CA對于無遮擋以及輕度遮擋情況下的樣本檢測效果優(yōu)異，而對于遮擋情況較為嚴重的樣本，與YOLO v4、SSD300以及Faster R-CNN的檢測效果相近，但依然存在漏檢現(xiàn)象，這是由于遮擋超過80%的目標默認不做標注。另外，YOLO v4-CA在6種檢測模型中擁有最高的識別準確率，即擁有最低的誤檢率，避免了在蘋果采摘過程中出現(xiàn)誤檢現(xiàn)象而造成機械臂的誤操作，提高了機器人的整體采摘效率，因此，擁有高識別準確率的YOLO v4-CA更適合于蘋果采摘任務(wù)。

圖6 不同檢測方法處理效果對比Fig.6 Comparison of detection results with different detection methods

表7 不同模型檢測精度比較Tab.7 Comparison of detection accuracy with different models %

由表8可知，本文模型內(nèi)存占用量為 54.1 MB，約為YOLO v4的1/4，SSD300及Faster R-CNN的1/2，DY3TNet和YOLO v5s的2倍；計算量相較于YOLO v4減少87%、相較于SSD300及Faster R-CNN分別減少89%和93%，相較于DY3TNet及YOLO v5s減少44%和59%；在高性能臺式機平臺上單幅圖像的檢測速度與YOLO v4相近，為15.34 f/s，約為SSD300的1/5，F(xiàn)aster R-CNN的2倍，約為DY3TNet及YOLO v5s的1/8和1/4；在嵌入式平臺Jetson AGX Xavier上檢測速度為15.11 f/s，約為YOLO v4的3倍，SSD300及Faster R-CNN的1.75倍和12倍，約為DY3TNet及YOLO v5s的1/4和2/3。對比可以發(fā)現(xiàn)，6種模型部署于高性能臺式計算機平臺上時普遍擁有不錯的檢測速度，而當移植到算力有限的嵌入式平臺上時，模型檢測速度均會產(chǎn)生不同程度的衰減。另外，YOLO v4-CA的檢測速度不如兩種輕量級模型，但相較于YOLO v4及兩種常用的目標檢測模型SSD300、Faster R-CNN，YOLO v4-CA在嵌入式平臺上的檢測速度具有明顯優(yōu)勢。

表8 不同模型檢測性能比較Tab.8 Comparison of detection performance with different models

綜合考慮模型的檢測精度與性能，相比于改進前模型以及兩種常用的目標檢測模型，YOLO v4-CA更易于在嵌入式平臺上部署，同時能夠在保證精度的前提下?lián)碛休^高的檢測速度；相較于兩種輕量級模型，YOLO v4-CA在檢測速度上不具有競爭力，但擁有更高的檢測精度以及識別準確率。因此，綜合以上分析可知，YOLO v4-CA實現(xiàn)了檢測速度和檢測精度的平衡，在保證蘋果采摘過程中低誤檢率的同時提高了檢測速度，更適用于蘋果采摘任務(wù)。

4 結(jié)論

(1)提出了一種改進YOLO v4輕量化實時蘋果檢測方法(YOLO v4-CA)，試驗結(jié)果表明，YOLO v4-CA的平均檢測精度達到了92.23%，內(nèi)存占用量為54.1 MB，浮點數(shù)計算量為6.92×109，在臺式計算機及嵌入式平臺Jetson AGX Xavier上的檢測速度分別達到15.34 f/s和15.11 f/s。模型能夠在保證檢測精度的同時，滿足采摘機器人實時性需求。

(2)將CA注意力機制引入特征融合網(wǎng)絡(luò)，提升網(wǎng)絡(luò)對密集目標的識別效果，改善枝葉遮擋、果實重疊對蘋果檢測帶來的精度損失，在僅增加少量內(nèi)存占用量的前提下AP提高1.01個百分點。

(3)針對自然環(huán)境中的蘋果檢測，提出了一種將跨域遷移與域內(nèi)遷移相結(jié)合的學習方法，有效提高了模型的泛化能力，相較于傳統(tǒng)的跨域遷移學習AP提高4.7個百分點。

(4)為驗證本文模型的優(yōu)越性，與兩種常用的目標檢測模型以及兩種輕量級目標模型進行對比。本文模型的AP相較于SSD300與Faster R-CNN分別提高0.91、2.02個百分點，相較于DY3TNet與YOLO v5s分別提高7.33、7.73個百分點，在嵌入式平臺上的檢測速度分別約為SSD300與Faster R-CNN的1.75倍和12倍，約為DY3TNet及YOLO v5s的1/4和2/3。