王 卓 王 健 王梟雄 時 佳 白曉平 趙泳嘉
(1.中國科學院沈陽自動化研究所, 沈陽 110016; 2.中國科學院機器人與智能制造創(chuàng)新研究院, 沈陽 110169;3.中國科學院大學計算機科學與技術(shù)學院, 北京 100049)
蘋果是我國規(guī)模最大的果品之一,蘋果園約占全國果園的18%,年產(chǎn)量約為4.139×107t[1]。然而由于果園環(huán)境復(fù)雜,蘋果的采摘依舊以人工采摘為主,采摘成本高,效率低,因此,研究蘋果采摘機器人代替人工進行自動化采摘具有重要意義。采摘機器人主要由視覺系統(tǒng)和機械臂系統(tǒng)組成[2],機械臂系統(tǒng)受視覺系統(tǒng)引導(dǎo)完成對果實的采摘,因而對果實進行快速、精準地識別與定位是實現(xiàn)自動采摘的關(guān)鍵[3]。
果園環(huán)境較為復(fù)雜,枝葉遮擋、果實重疊、光照變化等會影響模型的檢測精度,造成誤檢、漏檢等問題;另外,由于采摘機器人搭載的嵌入式平臺算力資源有限,復(fù)雜模型的檢測速度無法滿足任務(wù)實時性需求,且難以部署。在保證檢測精度的同時提高檢測速度成為非結(jié)構(gòu)環(huán)境下蘋果檢測主要的難點問題和研究熱點。
近年來,深度學習技術(shù)不斷發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的蘋果檢測算法也因其魯棒性強、自適應(yīng)性強以及準確性高而被廣泛應(yīng)用[4-6]。其中,應(yīng)用于蘋果檢測任務(wù)中的算法主要分為兩類,一類是側(cè)重于精度,將檢測分為定位和分類兩個過程的two-stage算法,如Faster R-CNN[7]、R-FCN[8]等, GAO等[9]針對枝葉遮擋問題,使用改進的Faster R-CNN網(wǎng)絡(luò)對密葉果樹中的蘋果進行檢測,mAP為87.9%,單幅圖像平均檢測時間為0.241 s。另一類是側(cè)重于速度,將檢測過程中的定位和分類轉(zhuǎn)化為回歸問題的one-stage算法,如YOLO[10]、SSD[11]等。張恩宇等[12]將SSD算法與U分量閾值分割法相結(jié)合識別自然環(huán)境中的青蘋果,擁有較好的檢測效果;武星等[13]使用一種輕量化的YOLO v3卷積神經(jīng)網(wǎng)絡(luò)檢測蘋果,mAP為94.69%,工作站和嵌入式開發(fā)板上的檢測速度分別為116.96、7.59 f/s;FU等[14]基于YOLO v3-tiny提出了DY3TNet模型,對果園中的獼猴桃進行檢測,平均檢測精度達90.05%,GPU下單幅圖像檢測時間為34 ms,實現(xiàn)了獼猴桃的快速檢測。目前,基于高性能平臺開展的蘋果檢測研究,已取得階段性進展,而在算力資源有限的嵌入式設(shè)備上,檢測精度與速度的平衡值得進一步研究。
本文以果園中非結(jié)構(gòu)環(huán)境中的蘋果作為檢測任務(wù),針對算力資源有限的嵌入式平臺,提出一種輕量化蘋果實時檢測方法YOLO v4-CA。該方法以YOLO v4為基礎(chǔ)框架,基于MobileNet v3改進網(wǎng)絡(luò)主干,并使用深度可分離卷積優(yōu)化特征融合網(wǎng)絡(luò),壓縮模型,減少模型計算量;引入坐標注意力機制,彌補因模型輕量化以及非結(jié)構(gòu)化環(huán)境所造成的精度損失;提出一種將跨域遷移與域內(nèi)遷移相結(jié)合的學習策略,提高模型的泛化能力。在臺式計算機及嵌入式平臺Jetson AGX Xavier上分別將本文提出的檢測算法與主流目標檢測模型進行對比。
YOLO v4[15]是目前最先進的實時檢測模型之一,它在YOLO v3的基礎(chǔ)上進一步優(yōu)化,使得總體性能顯著提高。其網(wǎng)絡(luò)結(jié)構(gòu)有3大改進:CSPDarkNet53替換DarkNet53作為特征提取網(wǎng)絡(luò),促進底層信息融合,增強特征提取能力;提出空間金字塔池化模塊SPP[16],在最后一層輸出中進行4個不同尺度的最大池化操作,有效提高感受野,提取出最顯著的上下文特征;將特征金字塔網(wǎng)絡(luò)FPN[17]結(jié)構(gòu)修改為路徑聚合網(wǎng)絡(luò)PAN[18],在FPN的自底向上結(jié)構(gòu)中添加一個自頂向下的結(jié)構(gòu),進一步提取和融合不同尺度特征。
YOLO v4在多類別檢測任務(wù)中具有優(yōu)異的識別精度和速度,而本文所研究的識別任務(wù)僅對蘋果進行單類識別,原始模型具有參數(shù)冗余,存在不必要的計算開銷,另外,采摘機器人多搭載嵌入式設(shè)備部署識別任務(wù),算力資源有限,冗余的計算會影響模型的檢測速度。因此,為使模型部署在嵌入式設(shè)備時滿足實時性需求,本文基于YOLO v4對其特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)進行輕量化改進。
1.2.1基于MobileNet v3特征提取網(wǎng)絡(luò)的結(jié)構(gòu)改進
MobileNet是一種適用于移動端的輕量級神經(jīng)網(wǎng)絡(luò)。本文使用MobileNet v3[19]輕量級神經(jīng)網(wǎng)絡(luò)作為YOLO v4-CA的特征提取網(wǎng)絡(luò)。MobileNet v3保留MobileNet v2[20]中具有線性瓶頸層的逆殘差結(jié)構(gòu),并將SENet[21]中的輕量級注意模塊集成其中作為bneck基本塊,提高網(wǎng)絡(luò)對于特征通道的敏感程度,增強網(wǎng)絡(luò)的特征提取能力;在深層網(wǎng)絡(luò)中使用h-swish代替ReLU,降低運算量,提高模型性能。本文所使用的MobileNet v3網(wǎng)絡(luò)參數(shù)如表1所示,將特征層8、14、17提取到的特征圖輸出,作為后續(xù)特征融合層的輸入。
表1 MobileNet v3主干Tab.1 MobileNet v3 backbone
1.2.2基于深度可分離卷積的特征融合網(wǎng)絡(luò)結(jié)構(gòu)改進
深度可分離卷積[22]將卷積過程分解為逐通道卷積和逐點卷積,相較于傳統(tǒng)卷積能夠大幅減少參數(shù)計算量,將YOLO v4特征融合部分路徑聚合網(wǎng)絡(luò)(PAN)結(jié)構(gòu)中的普通卷積替換為深度可分離卷積,進一步壓縮模型,提高模型計算效率。
網(wǎng)絡(luò)結(jié)構(gòu)的輕量化改進能夠大幅降低模型的參數(shù)量和計算量,但與此同時會帶來檢測精度上的損失,因此,需要對模型進行進一步優(yōu)化以提高模型檢測精度。
注意力機制是一種仿生物視覺機制。通過快速掃描全局圖像,篩選出感興趣的區(qū)域,投入更多的注意力資源,并抑制其他無用信息,提高視覺信息處理的效率與準確性[23]。
自然環(huán)境下的蘋果常出現(xiàn)果實重疊和枝葉遮擋的問題,造成模型檢測精度的損失,本文使用一種將位置信息與通道信息相結(jié)合的坐標注意力機制[24]施加于網(wǎng)絡(luò)的關(guān)鍵位置中,增加模型對蘋果特征的敏感程度。對于任務(wù)中較難識別的重疊、遮擋目標分配高權(quán)重以增加關(guān)注度,對于不感興趣的自然背景分配低權(quán)重加以抑制,提高自然環(huán)境下蘋果的識別精度。
如圖1所示,坐標注意力機制(Coordinate attention, CA)包含信息嵌入以及注意力生成兩部分。信息嵌入階段對特征進行匯聚,對輸入特征圖的所有通道,分別沿水平坐標和垂直坐標方向進行平均池化,獲取到尺寸為C×H×1和C×1×W的特征圖。在注意力生成階段,將獲取到的兩幅特征圖拼接為C×1×(H+W)的特征圖,然后采用1×1卷積將其通道維數(shù)以收縮率r從C維壓縮至C/r維,并使用ReLU函數(shù)進行非線性激活,再將獲取到的結(jié)果沿空間維分解為C/r×H×1的水平注意張量和C/r×1×W的垂直注意張量。之后,再使用兩組1×1的卷積將通道維從C/r維升至C維,并使用Sigmoid函數(shù)進行非線性激活。最后,將獲取到的兩個注意圖C×H×1和C×1×W與輸入的特征圖相乘,完成坐標注意力的施加。將坐標注意力機制引入至特征融合網(wǎng)絡(luò)PAN,如圖2所示的位置2處,位于信息交匯處,使得坐標注意力能夠充分獲取不同尺度的特征信息,通過兩個不同方向注意圖的施加,判斷目標是否存在于注意圖對應(yīng)的行與列中,提升網(wǎng)絡(luò)對密集目標的識別效果,緩解枝葉遮擋、果實重疊引起的檢測精度損失。另外,圖2所示的網(wǎng)絡(luò)中于位置1及位置3處所施加的CA模塊僅用于后續(xù)對照試驗說明用,不作為最終網(wǎng)絡(luò)結(jié)構(gòu)的一部分。
圖1 坐標注意力機制Fig.1 Coordinate attention mechanism
圖2 施加坐標注意力機制的特征融合網(wǎng)絡(luò)Fig.2 Feature fusion network with coordinate attention mechanism
基于YOLO v4模型進行網(wǎng)絡(luò)輕量化改進,于特征融合層引入坐標注意力機制后的網(wǎng)絡(luò)(YOLO v4-CA)結(jié)構(gòu)如圖3所示。
圖3 YOLO v4-CA網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 YOLO v4-CA network structures
模型的訓練需要大量數(shù)據(jù),大規(guī)模的蘋果數(shù)據(jù)集獲取比較困難,成本高,而當數(shù)據(jù)不充足時,通常采用數(shù)據(jù)增強的方式擴充數(shù)據(jù)集,并以跨域遷移的方式進行知識遷移,對于蘋果檢測任務(wù),識別對象為自然環(huán)境中的蘋果,遷移前后源域與目標域相似度低,通常方法所帶來的精度提升有限。因此,本文針對蘋果檢測任務(wù)提出一種將跨域遷移與域內(nèi)遷移相結(jié)合的學習策略[25],在通常的源域與目標域之間,即通用數(shù)據(jù)集與自然環(huán)境蘋果數(shù)據(jù)集之間添加僅含有蘋果特征的數(shù)據(jù)集作為過渡域,并采用亮度調(diào)整以及縮放的方式進行數(shù)據(jù)擴充,豐富數(shù)據(jù)集中不同光影及尺度下的蘋果特征,減少其與目標域的差異性,提升遷移學習的效果,進而提高模型的檢測精度。
具體地,跨域遷移與域內(nèi)遷移相結(jié)合的學習策略分為2個階段:進行跨域遷移學習,使用通用數(shù)據(jù)集下訓練得到的參數(shù)對網(wǎng)絡(luò)主干部分進行初始化,并利用僅含有蘋果特征的數(shù)據(jù)集對模型進行微調(diào),習得蘋果特征;進行域內(nèi)遷移學習,利用自然環(huán)境蘋果數(shù)據(jù)集在階段1訓練好的模型上進一步微調(diào),習得受復(fù)雜環(huán)境影響的蘋果特征。
本文試驗所采用數(shù)據(jù)集分為兩部分。數(shù)據(jù)集1來自于開源的Fruit-360數(shù)據(jù)集[26],該數(shù)據(jù)集包含120種不同的水果和蔬菜,每幅圖像均取自實驗室環(huán)境,并在獲取后去除目標以外的背景,提取其中Braeburn、Crimson Snow、Pink Lady、Red 1、Red 2、Red 3共6個品種的蘋果圖像,共計3 767幅圖像,其中訓練集為2 804幅圖像,測試集為963幅圖像。數(shù)據(jù)集2使用自建數(shù)據(jù)集,圖像源自互聯(lián)網(wǎng),以蘋果、蘋果樹、自然環(huán)境蘋果等作為關(guān)鍵詞進行檢索獲得,經(jīng)過篩選,保留1 057幅圖像作為數(shù)據(jù)集,并以8∶1∶1的比例將其分為訓練集845幅,驗證集106幅,測試集106幅,根據(jù)樣本的遮擋情況對數(shù)據(jù)集進行劃分,劃分結(jié)果如表2所示,其中,輕度遮擋樣本為平均遮擋程度小于30%的樣本,重度遮擋樣本為平均遮擋程度大于30%的樣本。
表2 數(shù)據(jù)集2遮擋情況及其數(shù)量Tab.2 Occlusion and quantity of datasets 2 幅
使用LabelImg圖像標注工具對數(shù)據(jù)集進行人工標注,在標注過程中忽略圖像中遮擋超過80%的目標,獲得PASCAL VOC格式的XML文件作為標簽文件。將數(shù)據(jù)集2中圖像的分辨率調(diào)整為網(wǎng)絡(luò)輸入時所需要的416像素×416像素,使用K-means算法對標簽中邊界框的尺寸進行聚類,聚類中心設(shè)置為9,將聚類結(jié)果作為網(wǎng)絡(luò)的先驗框,分別為(15, 21)、(28, 35)、(40, 53)、(52, 73)、(67, 97)、(83, 62)、(91, 116)、(113, 159)、(167, 214)。
為提高二階段域內(nèi)遷移學習效果,對數(shù)據(jù)集1進行增強以增加源域與目標域的相似性。將圖像變換至HSI空間,將I通道下數(shù)據(jù)隨機調(diào)整至原來的0.8~4.0倍;根據(jù)數(shù)據(jù)集2的先驗框尺寸,將圖像進行0.15~2的隨機等比例縮放。進行上述操作,將數(shù)據(jù)集1擴充至原來的4倍,共計11 966幅圖像,處理效果如圖4所示。
圖4 數(shù)據(jù)集1擴充后圖像Fig.4 Images of expanded datasets 1
本文模型的損失函數(shù)(Loss)由置信度損失、類別損失以及邊界框損失3部分組成。
本文以準確率P、召回率R、平均精度(Average precision,AP)作為模型檢測精度的評價指標。
另外,從3方面評價模型的性能,使用單位時間圖像檢測數(shù)量(fps)評價模型的檢測速度,浮點數(shù)計算量(FLOPs)評價模型的計算復(fù)雜度,內(nèi)存占用量評價模型的大小。
本文模型訓練平臺為臺式計算機,配置為Intel(R) Core(TM) i7-8700 3.20 GHz CPU,內(nèi)存16 GB,GPU為NVIDIA TITAN V,顯存12 GB,運行環(huán)境為Windows 10系統(tǒng),Python版本為3.6,Pytorch版本為1.2.0,CUDA版本為10.0,cuDNN版本為7.4.1。模型測試平臺除上述高性能臺式機外,還有一臺Jetson AGX Xavier嵌入式平臺,搭載 NVIDIA Carmel ARMv8.2 CPU、GPU為NVIDIA Volta,能夠達到每秒11萬億次浮點數(shù)計算量,運行環(huán)境為Ubuntu系統(tǒng),Python版本為3.6,Pytorch版本為1.6.0,CUDA版本為10.2,cuDNN版本為8.0.0。
模型的訓練策略分為兩階段,階段1進行跨域遷移學習,利用大規(guī)模數(shù)據(jù)集VOC訓練好的MobileNet v3網(wǎng)絡(luò)預(yù)訓練權(quán)重對網(wǎng)絡(luò)參數(shù)進行初始化,并利用Fruit-360數(shù)據(jù)集對網(wǎng)絡(luò)進行微調(diào);階段2進行域內(nèi)遷移學習,利用自建的蘋果數(shù)據(jù)集對網(wǎng)絡(luò)進行進一步微調(diào)。
訓練過程分為兩步,首先,凍結(jié)網(wǎng)絡(luò)骨架部分,批量大小為64,初始學習率為1×10-3,訓練輪次為50;接著,解凍訓練,批量大小為16,初始學習率為1×10-4,訓練輪次為50。訓練中所使用到的優(yōu)化器均為Adam,參數(shù)為默認值,每訓練一輪學習率衰減為原來的0.9。
訓練過程中使用Tensorboard記錄數(shù)據(jù),每進行一次迭代,寫入訓練集損失;每訓練一個輪次,寫入驗證集損失,并保存模型權(quán)重。損失值變化曲線如圖5所示,共訓練100個輪次,將后50輪次中驗證集損失最低的模型作為訓練結(jié)果以進行后續(xù)分析。
圖5 損失值變化曲線Fig.5 Change curves of loss value
為驗證本文針對蘋果檢測任務(wù)所設(shè)計方法的有效性,比較不同策略施加前后對模型性能的影響,在相同測試集下與改進前模型、兩種常用目標檢測模型以及兩種輕量級目標檢測模型進行綜合對比。
由表3可知,將YOLO v4的原特征提取網(wǎng)絡(luò)CSPDarkNet53替換為MobileNet v3,并將特征融合網(wǎng)絡(luò)中的普通卷積替換為深度可分離卷積后,模型的浮點數(shù)計算量降低88.38%,模型內(nèi)存占用量降低78.03%,AP降低6.71個百分點。說明網(wǎng)絡(luò)輕量化能夠有效降低模型計算量、內(nèi)存占用量,但同時會損失一定檢測精度,因此,需要對模型進一步優(yōu)化,提高綜合能力。
表3 網(wǎng)絡(luò)輕量化對模型的影響Tab.3 Effect of network lightweighting on model
在網(wǎng)絡(luò)輕量化模型的基礎(chǔ)上,將坐標注意力機制CA施加在圖2所示的特征融合網(wǎng)絡(luò)中的不同位置,對比施加位置不同對模型檢測能力的影響,結(jié)果如表4所示,在位置2處施加使模型AP提高了1.21個百分點,而在位置1和位置3處施加分別使模型AP降低了6.82、1.33個百分點,說明CA在特征融合網(wǎng)絡(luò)中不同位置的施加并不一定會帶來模型檢測性能的提升,而由于位置2處于特征提取網(wǎng)絡(luò)中不同尺度信息的交匯處,相較于位置1和位置3能夠使注意力機制進行信息嵌入階段獲取更加豐富的特征信息,進而提升模型的檢測效果。另外,由表4可知,CA于不同位置施加時模型額外內(nèi)存占用量較低。
表4 施加注意力機制至不同位置檢測能力對比Tab.4 Comparison of detection capabilities with attention mechanism at different locations
在網(wǎng)絡(luò)輕量化模型的基礎(chǔ)上,在圖2所示的位置2處施加不同的注意力機制,對比不同注意力機制對模型檢測能力的影響,由表5可知,施加SE在收縮率為32時模型AP最高,為86.74%;施加CBAM在收縮率為8時模型AP最高,為86.26%;施加CA在收縮率為32時模型AP最高,為87.53%,相較于施加前,SE、CA分別提高0.22、1.01個百分點,CBAM降低0.26個百分點,說明在模型特征融合網(wǎng)絡(luò)中施加注意力機制并不一定能夠帶來檢測精度的提升,需根據(jù)特定任務(wù)加以選擇。本文所引入的CA模塊使用兩個一維注意圖進行特征編碼,通過嵌入不同尺度的特征信息,以一種近似于坐標的形式?jīng)Q定圖像中目標的關(guān)注程度,能夠有效提高模型對于密集目標的敏感程度,進而改善蘋果檢測任務(wù)中果實重疊、枝葉遮擋對檢測精度帶來的負面影響。另外,由表5可知,于特征融合網(wǎng)絡(luò)中施加不同注意力機制帶來的額外內(nèi)存占用量較低,結(jié)合表4得出以下結(jié)論:對于內(nèi)存空間及算力受到約束的任務(wù)中,可通過在網(wǎng)絡(luò)中施加合適的注意力機制改善模型的檢測性能。
表5 施加不同注意力機制的檢測能力對比Tab.5 Comparison of detection capabilities with different attention mechanisms
綜上所述,將YOLO v4的原特征提取網(wǎng)絡(luò)CSPDarkNet53替換為MobileNet v3,并將特征融合網(wǎng)絡(luò)中的普通卷積替換為深度可分離卷積,同時于圖2所示位置2處施加收縮率為32的CA模塊能夠使改進后模型檢測精度達到最佳,因此,后續(xù)對比試驗的討論基于該網(wǎng)絡(luò)結(jié)構(gòu)展開。
比較不同遷移學習方式對模型檢測精度的影響。使用VOC預(yù)訓練模型在數(shù)據(jù)集2上進行訓練,作為跨域遷移學習;對模型進行隨機初始化并先后在數(shù)據(jù)集1和數(shù)據(jù)集2上進行訓練,作為域內(nèi)遷移學習;使用VOC預(yù)訓練模型先后在數(shù)據(jù)集1和數(shù)據(jù)集2上進行訓練,作為跨域遷移與域內(nèi)遷移相結(jié)合的學習方式。由表6可知,進行跨域遷移與域內(nèi)遷移相結(jié)合的學習方式使模型精度達到最優(yōu),相較于單獨進行跨域遷移和域內(nèi)遷移的AP分別提高4.7、19.87個百分點,這是由于兩者相結(jié)合的學習方式分兩階段進行,在模型掌握通用特征后學習蘋果特征,進而再學習自然環(huán)境下的蘋果特征,相較于跨域遷移,添加過渡域以緩解因源域與目標域相似性低所帶來的負面影響;而相較于域內(nèi)遷移,通過通用特征對模型進行初始化,彌補因數(shù)據(jù)集1中不具備背景所造成的信息損失,因而能夠獲得3種學習方式中最佳的模型檢測精度,具有最強的泛化能力。
表6 不同遷移學習方式檢測能力對比Tab.6 Comparison of detection capabilities with different transfer learning methods
為驗證本文模型的效果,在相同測試集下,分別與YOLO v4、SSD300、Faster R-CNN、DY3TNet以及YOLO v5s進行對比,對比結(jié)果如表7、8所示。對無遮擋、輕度遮擋以及重度遮擋3種情況下模型檢測效果的對比如圖6所示,其中紅色矩形框為預(yù)測結(jié)果,橙色圓形框為誤檢目標,黃色圓形框為漏檢目標。由表7可知,本文模型的AP為92.23%,相比于YOLO v4降低了1.00個百分點,相比于SSD300及Faster R-CNN提升0.91、2.02個百分點,相比于DY3TNet及YOLO v5s提升7.33、7.73個百分點。由圖6可知,YOLO v4-CA對于無遮擋以及輕度遮擋情況下的樣本檢測效果優(yōu)異,而對于遮擋情況較為嚴重的樣本,與YOLO v4、SSD300以及Faster R-CNN的檢測效果相近,但依然存在漏檢現(xiàn)象,這是由于遮擋超過80%的目標默認不做標注。另外,YOLO v4-CA在6種檢測模型中擁有最高的識別準確率,即擁有最低的誤檢率,避免了在蘋果采摘過程中出現(xiàn)誤檢現(xiàn)象而造成機械臂的誤操作,提高了機器人的整體采摘效率,因此,擁有高識別準確率的YOLO v4-CA更適合于蘋果采摘任務(wù)。
圖6 不同檢測方法處理效果對比Fig.6 Comparison of detection results with different detection methods
表7 不同模型檢測精度比較Tab.7 Comparison of detection accuracy with different models %
由表8可知,本文模型內(nèi)存占用量為 54.1 MB,約為YOLO v4的1/4,SSD300及Faster R-CNN的1/2,DY3TNet和YOLO v5s的2倍;計算量相較于YOLO v4減少87%、相較于SSD300及Faster R-CNN分別減少89%和93%,相較于DY3TNet及YOLO v5s減少44%和59%;在高性能臺式機平臺上單幅圖像的檢測速度與YOLO v4相近,為15.34 f/s,約為SSD300的1/5,F(xiàn)aster R-CNN的2倍,約為DY3TNet及YOLO v5s的1/8和1/4;在嵌入式平臺Jetson AGX Xavier上檢測速度為15.11 f/s,約為YOLO v4的3倍,SSD300及Faster R-CNN的1.75倍和12倍,約為DY3TNet及YOLO v5s的1/4和2/3。對比可以發(fā)現(xiàn),6種模型部署于高性能臺式計算機平臺上時普遍擁有不錯的檢測速度,而當移植到算力有限的嵌入式平臺上時,模型檢測速度均會產(chǎn)生不同程度的衰減。另外,YOLO v4-CA的檢測速度不如兩種輕量級模型,但相較于YOLO v4及兩種常用的目標檢測模型SSD300、Faster R-CNN,YOLO v4-CA在嵌入式平臺上的檢測速度具有明顯優(yōu)勢。
表8 不同模型檢測性能比較Tab.8 Comparison of detection performance with different models
綜合考慮模型的檢測精度與性能,相比于改進前模型以及兩種常用的目標檢測模型,YOLO v4-CA更易于在嵌入式平臺上部署,同時能夠在保證精度的前提下?lián)碛休^高的檢測速度;相較于兩種輕量級模型,YOLO v4-CA在檢測速度上不具有競爭力,但擁有更高的檢測精度以及識別準確率。因此,綜合以上分析可知,YOLO v4-CA實現(xiàn)了檢測速度和檢測精度的平衡,在保證蘋果采摘過程中低誤檢率的同時提高了檢測速度,更適用于蘋果采摘任務(wù)。
(1)提出了一種改進YOLO v4輕量化實時蘋果檢測方法(YOLO v4-CA),試驗結(jié)果表明,YOLO v4-CA的平均檢測精度達到了92.23%,內(nèi)存占用量為54.1 MB,浮點數(shù)計算量為6.92×109,在臺式計算機及嵌入式平臺Jetson AGX Xavier上的檢測速度分別達到15.34 f/s和15.11 f/s。模型能夠在保證檢測精度的同時,滿足采摘機器人實時性需求。
(2)將CA注意力機制引入特征融合網(wǎng)絡(luò),提升網(wǎng)絡(luò)對密集目標的識別效果,改善枝葉遮擋、果實重疊對蘋果檢測帶來的精度損失,在僅增加少量內(nèi)存占用量的前提下AP提高1.01個百分點。
(3)針對自然環(huán)境中的蘋果檢測,提出了一種將跨域遷移與域內(nèi)遷移相結(jié)合的學習方法,有效提高了模型的泛化能力,相較于傳統(tǒng)的跨域遷移學習AP提高4.7個百分點。
(4)為驗證本文模型的優(yōu)越性,與兩種常用的目標檢測模型以及兩種輕量級目標模型進行對比。本文模型的AP相較于SSD300與Faster R-CNN分別提高0.91、2.02個百分點,相較于DY3TNet與YOLO v5s分別提高7.33、7.73個百分點,在嵌入式平臺上的檢測速度分別約為SSD300與Faster R-CNN的1.75倍和12倍,約為DY3TNet及YOLO v5s的1/4和2/3。