摘要:為了解決蘋果采摘機器人識別算法中涉及到的復(fù)雜網(wǎng)絡(luò)架構(gòu)及大量參數(shù)占用內(nèi)存巨大、計算需求龐大所導(dǎo)致的檢測模型反應(yīng)緩慢等問題,提出一種改進YOLO v5模型的輕量級果園蘋果檢測算法。首先,使用帶有SE注意力機制的DepthSepConv模塊和改進的Fast-C3模塊對YOLO v5的Backbone網(wǎng)絡(luò)部分進行重組,保持較高的精確率的同時減小模型體積;其次,用改進的Fast-C3模塊替換整個Neck部分的C3模塊,提高模型的準確率;替換頸部網(wǎng)絡(luò)的普通卷積為Ghostconv,進一步降低模型的參數(shù)量與體積;最后,引入SIoU損失函數(shù),使回歸精確率和收斂速度得到提高。試驗結(jié)果表明,該模型對蘋果檢測mAP為94.0%、模型計算量為8.4G FLOPs、體積僅為7.3 M。對比YOLO v5原模型,在mAP提高0.3百分點的情況下,計算量降低46.84%,模型體積縮減49.31%。于嵌入式平臺上進行應(yīng)用測試,實時檢測速率達到了18.76 幀/s,約為原模型檢測速率的1.5倍。因此,優(yōu)化后的YOLO v5輕型模型不僅提升了識別準確性,并明顯減少了計算負載量與模型大小,使得它能在嵌入式設(shè)備上快速有效地捕捉并分析復(fù)雜果園場景下的蘋果信息。
關(guān)鍵詞:果園蘋果;YOLO v5s;輕量化;Fast-C3;SIoU;嵌入式設(shè)備
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1002-1302(2024)17-0200-09
收稿日期:2024-06-26
基金項目:湖北省自然科學基金(編號:2019CFB813)。
作者簡介:朱齊齊(1996—),男,安徽阜陽人,碩士研究生,主要研究方向為嵌入式開發(fā)。E-mail:zqq13155642201@163.com。
通信作者:陳西曲,博士,教授,主要研究方向為紅外成像技術(shù)、電子信息處理技術(shù)、嵌入式技術(shù)、圖像處理技術(shù)。E-mail:cxqdhl@whpu.edu.cn。
蘋果作為一種營養(yǎng)豐富、投入高、產(chǎn)出高的水果,在我國具有重要的地位。然而,蘋果采摘幾乎完全依賴于人力手工方式進行,這大約占到全過程工作量的一半[1],消耗了大量的時間和人力資源。因此,蘋果采摘機器人具有極大的研究價值。這種機器人主要是由視覺識別技術(shù)和機械手臂裝置構(gòu)成[2]。快速識別、準確定位是現(xiàn)有采摘機器人普遍遇到的技術(shù)難題,也是采摘作業(yè)最關(guān)鍵的一環(huán)。因此,如何迅速且精確地辨識并定位果實,已經(jīng)成為自動采摘的核心研究內(nèi)容[3]。
多種因素會干擾成熟蘋果的智能辨識過程,例如:光線差異導(dǎo)致的顏色分布不均,采收時的日光強度、氣象與風向狀況,樹枝、葉子、果實的遮蔽作用等。這些采集過程中的現(xiàn)實干擾因素直接影響了模型的識別準確率,并可能導(dǎo)致錯誤分類或遺漏等情況發(fā)生。此外,嵌入式設(shè)備的算力有限,過于復(fù)雜的模型可能會降低其執(zhí)行效率,很難進行實際應(yīng)用。如何既能保持高準確率,又能提升處理速率,是非結(jié)構(gòu)化背景下蘋果鑒別的主要難題和研究重點[4]。
近些年,由于深度學習的持續(xù)發(fā)展,以高魯棒性和自我調(diào)整能力為顯著特征的卷積神經(jīng)網(wǎng)絡(luò)已成為蘋果識別算法的主要工具[5-7]。目前,用于蘋果識別的各種算法主要可劃分為兩大類別。一是以準確度為主導(dǎo)的類別,比如R-CNN[8]、Faster R-CNN[9-10]等,通過生成一系列目標候選框進行定位,然后對樣本進行分類。Gao等利用改進后的 Faster R-CNN網(wǎng)絡(luò)對枝葉遮擋問題嚴重的蘋果進行檢測,平均精確達到了87. 9%,且每幅圖像的平均檢測時間為0.241 s[11]。此類算法檢測速度慢,訓(xùn)練時間長,不利于算力不足的嵌入式平臺。另一種類別的策略是把目標識別和預(yù)判分類同步執(zhí)行,使得其檢測效率更高,比如SSD[12] (single shot MultiBox detector)、YOLO[13](you only look once)等。羅志聰?shù)忍岢鲆粋€以改良版的YOLO v5為基礎(chǔ)的百香果低功耗檢測模型(MbECA-v5),提升了檢測準確率,并明顯減少計算量及模型大小,使之能在嵌入式設(shè)備中實時有效地對繁雜果園場景下的百香果進行檢測[14]。張恩宇等利用SSD算法與U分量閾值分割法相結(jié)合,得到一種高精度識別算法[15]。汪穎等引入完全交并比非極大抑制算法和加權(quán)雙向特征金字塔網(wǎng)絡(luò),得到一種用于復(fù)雜環(huán)境下的果蔬檢測YOLO v5算法,改進的YOLO v5算法的平均識別精確率達到92.5%,相比于原始YOLO v5算法提高3.5%,能夠在復(fù)雜情況下快速準確地識別果蔬[16]。此類算法雖然在精確率和速度方面取得了單方面的進展,但對于嵌入式平臺上的檢測速度和精確率沒有達到很好的平衡。
雖然高性能平臺展開的蘋果檢測算法已經(jīng)取得了不錯的進展,但在資源有限的嵌入式平臺上,檢測速度與檢測精確率的平衡須作更進一步的研究。本研究在真實果園環(huán)境中,以蘋果為檢測目標,針對算力有限的嵌入式設(shè)備,提出一種改進YOLO v5模型的輕量級果園蘋果檢測算法。該算法主要以Fast-C3模塊和深度可分離卷積相結(jié)合的方式將模型主干輕量化,減少計算量和提升檢測速度;并利用GhostConv替換neck網(wǎng)絡(luò)中的普通卷積,在不影響檢測精確率的前提下,使模型的參數(shù)量和計算量降低,檢測速度得到提升;引入新的激活函數(shù)SIoU來提高預(yù)測框的回歸精確率和收斂速度。在保證檢測準確率的前提下,實現(xiàn)模型的輕量化并可以在嵌入式平臺上部署,從而減少邊緣計算設(shè)備的使用,進一步滿足實時檢測的需求。
1 YOLO v5s算法
YOLO v5是一種單階段目標檢測算法[17]。圖1為YOLO v5s的網(wǎng)絡(luò)結(jié)構(gòu),一般由4個部分構(gòu)成:輸入端、主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)、預(yù)測端(Head)。
Mosaic數(shù)據(jù)增強、對果園蘋果圖片尺寸的自適應(yīng)處理以及錨框計算優(yōu)化[18],為輸入端提供了豐富的圖片信息,首先執(zhí)行隨機縮放、剪裁和排列,然后將其輸入到網(wǎng)絡(luò)中。
主干網(wǎng)絡(luò)(Backbone)主要實現(xiàn)對蘋果的特征進行提取,其中包含了Focus模塊、標準卷積(CBS)模塊、C3模塊、SPPF模塊。Focus模塊會把給定的水果圖片切成小塊,以獲取其特性的深度描述;CBS 是基于CSP架構(gòu)進行改良的結(jié)果,由于過度使用梯度的副作用,導(dǎo)致算法復(fù)雜度過大且耗費大量資源,因此移除后續(xù)批次規(guī)范化的步驟與激活因子環(huán)節(jié),進而降低運行成本。最后的 SPPF階段則負責整合來自各種大小果實的獨特屬性作為最終結(jié)果,這不僅提升了整體模型識別準確率,還增強了解析能力。
頸部(Neck)網(wǎng)絡(luò)的主要功能是整合蘋果的特性,其構(gòu)建方式主要是基于路徑聚合網(wǎng)絡(luò)(PANet)[19]。通過自頂向下的方法,F(xiàn)PN[20]可以提高目標識別的效果;而PAN則采用自底向上的方式來獲取豐富且多樣的位置信息。最終,會在backbone中對各種層次的信息進行綜合處理,從而強化特征抽取的能力,使PANet網(wǎng)絡(luò)能夠承載更多的語義信息,并進一步加強定位的功能。
預(yù)測端(Head)包含3個層次,每個層次都對應(yīng)著不同的特征圖尺寸,目的是為了識別大小各異的目標。每個Head會接收到不同的向量,從而依據(jù)這些向量來確定原始圖像中目標的預(yù)測框位置和類別信息。
2 Fast-YOLO v5網(wǎng)絡(luò)
針對YOLOv5s算法部署在嵌入式平臺上體積
大和檢測速率低的問題,提出的Fast-YOLO v5算法主要做了以下3個方面的改進。(1)對特征提取網(wǎng)絡(luò)(Backbone)的改進。基于Fast-Block、PConv改進原模型的C3模塊,得到新的輕量化模塊Fast-C3。利用Fast-C3模塊替換原網(wǎng)絡(luò)主干中的C3模塊,再引入DepthSepConv模塊替換主干中的所有Conv。其中,第8層的Fast-C3模塊也由DepthSepConv模塊替換。同時,在主干網(wǎng)絡(luò)的最后2個深度可分離卷積層引入SE通道注意力機制。更改后的主干網(wǎng)絡(luò)如表1 所示。(2)對于特征融合網(wǎng)絡(luò)(Neck)的改進。同樣使用Fast-C3模塊替換原有的C3模塊,為了提升實時性、降低復(fù)雜度,使得模型輕量化,使用GhostConv 代替普通卷積,使檢測精確率得到保證的情況下,進一步降低模型的參數(shù)量和計算量。(3)損失函數(shù)的改進。為了應(yīng)對果園蘋果檢測數(shù)量大、目標小、位置密集的特點,在信息高度分布的區(qū)域中,CIoU往往忽略考慮預(yù)測框和地面實況框之間的定向差異,可能存在預(yù)測框具有較大自由度且與地面實況框的匹配收斂速度差的情況,這使得模型存在定位錯誤問題。因此,引入SIoU損失函數(shù)來代替CIoU損失函數(shù)。Fast-YOLO v5模型如圖2所示。
2.1 深度可分離卷積
MobileNet v1[21]提出了一種深度可分離卷積,它把普通的卷積操作分為2個部分:深度卷積和逐點卷積。深度卷積利用將卷積核轉(zhuǎn)為單通道的方式,逐點卷積利用對特征圖進行維數(shù)改變的方式,如此就可以大幅降低運算負擔。由圖3可見,設(shè)輸入特征圖寬、高分別為DW、DH,輸入通道為M,輸出通道為N,卷積核用DK表示,可得標準卷積參數(shù)量Ps、計算量Fs:
Ps=DK×DK×M×N;(1)
Fs=DK×DK×M×N×DW×DH。(2)
同理可得深度可分離卷積參數(shù)量Pd、計算量Fd(圖4):
Pd=DK×DK×M+M×N;(3)
Fd=DK×DK×M×DW×DH+M×N×DW×DH。(4)
通過計算可得,深度可分離卷積的參數(shù)量和計算量與標準卷積的參數(shù)量和計算量的比值為1N+1D2K,當卷積核DK取3時,易知深度可分離卷積的參數(shù)量和計算量約降至原標準卷積的19~18,可大大減小模型的計算成本。
2.2 SE注意力機制
SE通道注意力機制[22]是針對卷積神經(jīng)網(wǎng)絡(luò)中信息特征的構(gòu)造問題所提出的,SE組件可以通過通道的相互依存關(guān)系來增強特征響應(yīng),強化重要特征而弱化次要特征。它主要由壓縮、激勵2個部分組成,首先把輸入的特征圖的信息進行壓縮,然后將輸入的特征圖與其所學到的信息進行融合,得到最終的特征信息。SE模塊首先通過卷積操作生成特征U,然后進行全局平均池化,將特征層維度壓縮至1×1×C,再進行激勵操作,通過全連接層生成所需要的權(quán)重信息, 最后將原特征U進行權(quán)重幅賦值得到最終的特征圖。
2.3 Fast-C3模塊
在CVPR2023最新發(fā)布的FasterNet論文中指出了實現(xiàn)更高FLOPs的重要性,不應(yīng)為了更快的神經(jīng)網(wǎng)絡(luò)而減少FLOPs[23]。引入了一種簡單但快速且有效的卷積PConv,推出了FasterNet主干網(wǎng)絡(luò),這種網(wǎng)絡(luò)在GPU、CPU、ARM處理器等多種設(shè)備上運行良好且普遍快速。借鑒其中的思想,設(shè)計基于Fast-Block、PConv的新的C3模塊:Fast-C3。
2.3.1 PConv
由于特征圖在不同通道之間具有高度相似性,造成大量冗余。而PConv可以同時減少計算冗余和內(nèi)存訪問,其工作原理如圖5所示。
此種方法只在輸入通道的一部分上應(yīng)用常規(guī)Conv進行空間特征提取,并保持其余通道不變。對于連續(xù)或規(guī)則的內(nèi)存訪問,將第1個或最后1個連續(xù)的通道視為整個特征圖的代表進行計算。在不喪失一般性的情況下認為輸入和輸出特征圖具有相同數(shù)量的通道。因此,PConv的FLOPs為:
h×w×k2×c2p。(5)
對于典型的r=1/4,PConv的FLOPs只有常規(guī)Conv的1/16。此外,PConv的內(nèi)存訪問量較小,即:
h×w×2cp+k2×c2p≈h×w×2cp。(6)
對于r=1/4,其內(nèi)存訪問量僅為常規(guī)Conv的1/4。
2.3.2 Fast-Block結(jié)構(gòu)
由圖6可見,每個Fast-Block塊有1個PConv層,后跟2個Conv 1×1層。它們共同顯示為倒置殘差塊,中間層具有擴展的通道數(shù)量,利用Shortcut以重用輸入特征。除了上述算子,標準化和激活層對于高性能神經(jīng)網(wǎng)絡(luò)也是不可或缺的。使用批次歸一化(BN)代替其他替代方法,其優(yōu)點是可以合并到其相鄰的Conv層中,從而更快地進行推斷,并且與其他層一樣有效。對于激活層,選擇ReLU用于Fast-Block變體,同時考慮了運行時間和有效性。
2.3.3 Fast-C3結(jié)構(gòu)
借鑒FasterNet的思想將原先C3結(jié)構(gòu)的BottleNeck層換為Fast-Block就得到了新的C3結(jié)構(gòu):Fast-C3(圖7)。
2.4 GhostConv
GhostConv的引入能夠替代特征融合網(wǎng)絡(luò)中的
Conv,這樣不僅能夠提高測量精確度,還能減小建模參量和運算量,從而提升測試速率。GhostConv能減少參數(shù)量和計算復(fù)雜度,其原因是放棄了部分普通卷積,利用線性變換的方式進行特征提取,能夠更好地利用特征之間的相關(guān)性和冗余性[24]。普通卷積Conv(圖8-a)用來獲取的特征層內(nèi),其中有一些特征信息較為相似,通過消除這些冗余的特征信息可以減少計算量。首先,GhostConv利用標準的卷積來捕捉特征數(shù)據(jù)并生成通用特征圖像。接著,對
每個通道的通用特征圖像執(zhí)行線性操作以獲得具有相同通道數(shù)的新附加特征圖像(即Ghost特征圖像)。這個Ghost特征圖像代表多余的特征圖像量,可以通過簡單的線性轉(zhuǎn)換而得出,在極少干擾識別準確性的同時,明顯減少普通的卷積Conv的重復(fù)部分,從而實現(xiàn)減小計算難度的目標。最后,把基本特征圖像與Ghost特征圖像疊加起來形成最終結(jié)果。圖8-b為GhostConv的結(jié)構(gòu)。
2.5 SIoU損失函數(shù)
YOLO v5 的損失函數(shù)為 CIoU,公式如下:
LCIoU=1-IoU+ρ2(b,bgt)(wc)2+(hc)2+αv;(7)
α=v(1-IoU)+v;(8)
v=4π2arctanwgthgt-arctanwh2。(9)
Y3JMx20LIfeMd0V5plkB8i+0Qc+sb3gJZ5oor0/fC20=其中:預(yù)測框和真實框的寬、高分別由w、h和wgt、hgt表示,b、bgt則用來表示預(yù)測框、真實框的中心點,b、bgt的歐氏距離由ρ表示,wc、hc分別表示兩框的最小外接矩形的寬、高,IoU表示交并比。
在模型訓(xùn)練時,已有方法匹配了兩框之間的IoU、中心點距離、寬高比等[16-18],但是均沒有考慮不匹配的方向問題,從而導(dǎo)致收斂速度比較慢且效率較低;因為預(yù)測框可能在訓(xùn)練過程中“徘徊”,最后生成更壞的模型。為克服現(xiàn)行邊界損失函數(shù)存在的缺陷,引入了新的SIou損失函數(shù)[25],該函數(shù)是從預(yù)期和實際回歸之間的矢量視角出發(fā),對角度懲罰進行了全新衡量,從而使得預(yù)測區(qū)域能夠迅速移動至與之最接近的軸上,之后僅需調(diào)整1個坐標(如x或y)即可完成回歸任務(wù),這樣就大大降低了解決問題的自由度數(shù)量。
SIoU更加重視兩框之間的向量角度,以及對損失函數(shù)重新定義,包含了4個部分損失:角度損失(angle cost)、距離損失(distance cost)、形狀損失(shape cost)、IoU損失(IoU cost)。其中角度損失是為了解決兩框之間的隨機匹配問題,最大程度減少與距離有關(guān)的變量的影響。訓(xùn)練時,首先模型試著將預(yù)測框靠近與真實框最近的軸方向,然后以相關(guān)軸為方向不斷靠近真實邊界框,如果α≤π/4,整個收斂過程將最小化α為首要目標,相反以最小化β為首要目標,計算公式如下:
β=π2-α;(10)
chσ=sinα;(11)
σ=(bgtcx-bcx)2+(bgtcy-bcy)2;(12)
ch=max(bgtcy-bcy)-min(bgtcy-bcy)。(13)
其中:sinα是直角三角形中的對邊比斜邊;σ代表著兩框中心點的距離;ch則是兩框中心點的高度差,代碼中直接使用勾股定理求得;bgtcx、bgtcy表示真實框中心坐標,bcx、bcy表示預(yù)測框中心坐標。
利用下列方法定義預(yù)測框與標注的真實邊界框的向量角度損失函數(shù):
Λ=1-2×sin2arcsinchσ-π4=cos2×arcsinchσ-π4。
(14)
從angle cost考慮,重新定義其他3個部分的損失函數(shù):
Δ=∑t=x,y(1-eγρt)=2-eγρt-eγρy;(15)
ρx=bgtcx-bcxcw2,ρy=bgtcy-bcych2;(16)
γ=2-Λ。(17)
其中:cw表示兩框最小外接矩形的寬,ch表示兩框最小外接矩形的高。
形狀損失(Shape cost)函數(shù)如下:
Ω=∑t=w,h(1-ewt)θ=(1-eww)θ+(1-ewh)θ;(18)
ww=|w-wgt|max(w,wgt);(19)
wh=|h-hgt|max(h,hgt)。(20)
其中:w、h和wgt、hgt分別定義為預(yù)測框和真實框的寬、高;θ是對形狀損失的關(guān)注程度的控制,過分關(guān)注形狀損失會導(dǎo)致減少預(yù)測框的移動,使用遺傳算法計算出接近4,所以參數(shù)范圍設(shè)定為[2,6]。
最后,回歸損失函數(shù)為:
Lbox=1-IoU+Δ+Ω2。(21)
總損失函數(shù)為:
LSIoU=Wboxlbox+WclsLcls;(22)
其中:Lcls是FocalLoss,Wbox表示框的損失權(quán)重;Wcls表示類的損失權(quán)重。通過對angle懲罰成本的添加,并且后面的部分只需要1個坐標x或y的回歸,縮減了損失的總自由度,對模型訓(xùn)練時的收斂過程有顯著提高。
3 結(jié)果與分析
3.1 試驗平臺與數(shù)據(jù)集
圖像采集使用蘋果手機在果園實景拍攝,圖片分辨率設(shè)定為1 280像素×960像素。在不同情況下收集到的圖像包含單個或多個單獨存在的蘋果圖像、被樹葉及枝干遮擋的圖像、相互重疊或者黑暗環(huán)境下的圖像等共計2 923幅,不同環(huán)境下的蘋果部分圖像如圖9所示。將從各種不同條件下取得的數(shù)據(jù)集合整理,以JPEG形式存儲起來備用。同時使用人工標注工具LableImg對采集到的蘋果圖像進行標注,獲取準確的蘋果位置數(shù)據(jù)。從減少復(fù)雜背景像素對檢測結(jié)果的影響角度考慮,標注時將蘋果的最小外接矩形框作為真實框(Ground truth),最終得到VOC格式的xml文件。蘋果名稱、尺寸、位置都包含在文件內(nèi)。最后,對以上標注好的數(shù)據(jù)集進行劃分,訓(xùn)練集 ∶驗證集按照比例9 ∶1進行隨機分配。訓(xùn)練集、驗證集分別含有圖像2 631、292幅。
此次試驗基于Windows 11系統(tǒng)+AutoDL遠程服務(wù)器租賃平臺進行pytorch深度學習框架搭建。測試條件設(shè)定為Python 3.8的版本、CUDA 11.2的多線程處理器和 Intel Xeon Platinum 8350C CPU@2.60 GHz的16個vCPU,總共擁有56 GB的內(nèi)存容量,配備了NVIDIA GeForce RTX 3090的圖形處理器,其顯存量達到了24 GB。
3.2 評價指標
試驗結(jié)果分析使用的評價標準是:精確率、平均精確率均值、模型計算量大小。精確率(P) 、召回率(R)的計算方法如下:
P=TPTP+FP;(23)
R=TPTP+FN。(24)
其中:TP代表了正確識別正樣本的個數(shù);FP表示負樣本誤判的的個數(shù);FN正面樣本被誤認為是負面樣本的數(shù)量。通過選擇不同精確率與準確率的組合,可繪制出 PR曲線,所覆蓋的區(qū)域則被稱為AP,對每個測試類別的平均AP值就是mAP。性能評價指數(shù)AP(PAP) 、 mAP(PmAP) 計算方法如下:
PAP=∫10P(r)dr;(25)
PmQ1UABNc09k/s0mEr+s8hLw==AP=1n∑ni=1PAP,i。(26)
3.3 消融試驗
通過采用消融試驗的方式來驗證Fast-YOLO v5算法帶來的性能優(yōu)化,試驗結(jié)果如表2所示。首先對原始算法進行了各種性能測試。模型1為在原模型的基礎(chǔ)上優(yōu)化損失函數(shù),將其替換為SIoU。模型2 是在改進損失函數(shù)的基礎(chǔ)上將網(wǎng)絡(luò)中所有的C3模塊換為Fast-C3模塊,試驗表明,在模型體積縮小17.36%、計算量降低20.25%的同時,mAP提高了1百分點。模型3是在模型2的基礎(chǔ)上,將Backbone中的普通卷積(Conv)換為深度可分離卷積(DepthSepConv),在幾乎不損失精度的情況下,進一步降低模型的計算量(降低了41.14%)和模型體積(縮減了36.11%)。模型4是將Backbone結(jié)構(gòu)進一步調(diào)整,利用深度可分離卷積(DepthSepConv)替換主干第8層的Fast-C3結(jié)構(gòu),同時在最后2個深度可分離卷積層引入SE通道注意力機制。對比模型3,模型4的mAP沒有改變,但模型體積和計算量進一步降低;相較于原模型,模型4的體積縮減了43.06%,計算量降低了43.67%。最后,再利用GhostConv 替換Neck中的普通卷積(Conv)得到最終模型:Fast-YOLO v5。不僅召回率和mAP值均有部分提升外,模型體積大幅縮減了49.31%,模型計算量也降低了46.84%,充分證明所提出改進措施的有效性。
3.4 對比試驗
對使用優(yōu)化算法改良后的模型與Fast R-CNN、YOLO v5s、PP_LCNet-v5、EfficientNet-v5、GhostNet-v5、ShuffleNet-v5等6種不同類型的機器學習框架在Jetson TX2平臺上的表現(xiàn)進行比較,其結(jié)果如表3所示。
對YOLO v5s模型進行改動, 將其主干網(wǎng)絡(luò)更換為PP_LCNet、EfficientNet-Lite、GhostNet、ShuffleNet v2等4種網(wǎng)絡(luò),從而得到PP_LCNet-v5、Efficientlite-v5、GhostNet-v5、ShuffleNet-v5這4種輕量化模型。試驗結(jié)果表明,F(xiàn)ast-YOLO v5模型的平均精度達到了94.0%,是7種模型中的最高值。此外,F(xiàn)ast-YOLO v5的模型體積僅為7.3 MB,是所有對比模型體積中最小的,分別約為Fast R-CNN、YOLO v5s的1/15、1/2;就嵌入式設(shè)備上的實時檢測效率而言,F(xiàn)ast-YOLO v5明顯優(yōu)于其他6種模型。嵌入式平臺實時檢測速率為18.76幀/s,約為Fast R-CNN、YOLO v5s的35.4、1.5倍,對比試驗中其他輕量化模型也具有明顯優(yōu)勢。綜上所述,經(jīng)過改良的輕量級網(wǎng)絡(luò)Fast-YOLO v5在測試方面表現(xiàn)優(yōu)秀,并且在邊緣設(shè)備上的部署更加實時。
4 結(jié)論
針對復(fù)雜果園環(huán)境提出一種基于改進YOLO v5算法的果園蘋果檢測算法,該算法使用改進的 Fast-C3 模塊結(jié)合深度可分離卷積塊對YOLO v5s的特征提取網(wǎng)絡(luò)進行改良,并且引入GhostConv替換原模型中的普通卷積,使用SIoU損失函數(shù)代替CIoU。使精確率提升的同時讓模型的計算量和體積大幅度縮減,通過消融試驗分析驗證了算法的有效性。部署到嵌入式平臺上對果園復(fù)雜環(huán)境下蘋果實時檢測表明,改進的模型在檢測精度和檢測速度方面效果都要優(yōu)于原模型。綜上,F(xiàn)ast-YOLO v5模型在降低嵌入式設(shè)備運行內(nèi)存的同時,也兼顧了精確率和實時性,能夠滿足對果園蘋果圖像檢測的快速且精準需求,這為蘋果采摘機器人的視覺識別系統(tǒng)提供了技術(shù)和理論上的支持。
參考文獻:
[1]馮 娟,劉 剛,司永勝,等. 蘋果采摘機器人激光視覺系統(tǒng)的構(gòu)建[J]. 農(nóng)業(yè)工程學報,2013,29(增刊1):32-37.
[2]Lehnert C,Sa I,McCool C,et al. Sweet pepper pose detection and grasping for automated crop harvesting[C]//2016 IEEE International Conference on Robotics and Automation. Stockholm,Sweden.IEEE,2016:2428-2434.
[3]王丹丹,宋懷波,何東健. 蘋果采摘機器人視覺系統(tǒng)研究進展[J]. 農(nóng)業(yè)工程學報,2017,33(10):59-69.
[4]王 卓,王 健,王梟雄,等. 基于改進YOLO v4的自然環(huán)境蘋果輕量級檢測方法[J]. 農(nóng)業(yè)機械學報,2022,53(8):294-302.
[5]景 亮,王 瑞,劉 慧,等. 基于雙目相機與改進YOLO v3算法的果園行人檢測與定位[J]. 農(nóng)業(yè)機械學報,2020,51(9):34-39,25.
[6]何進榮,石延新,劉 斌,等. 基于DXNet模型的富士蘋果外部品質(zhì)分級方法研究[J]. 農(nóng)業(yè)機械學報,2021,52(7):379-385.
[7]薛 勇,王立揚,張 瑜,等. 基于GoogLeNet深度遷移學習的蘋果缺陷檢測方法[J]. 農(nóng)業(yè)機械學報,2020,51(7):30-35.
[8]Turan M,Almalioglu Y,Araujo H,et al. Deep EndoVO:a recurrent convolutional neural network (RCNN) based visual odometry approach for endoscopic capsule robots[J]. Neurocomputing,2018,275:1861-1870.
[9]Ren Y,Zhu C R,Xiao S P. Object detection based on fast/faster RCNN employing fully convolutional architectures[J]. Mathematical Problems in Engineering,2018,2018:3598316.
[10]Sun X D,Wu P C,Hoi S C H. Face detection using deep learning:an improved faster RCNN approach[J]. Neurocomputing,2018,299:42-50.
[11]Gao F F,F(xiàn)u L S,Zhang X,et al. Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN[J]. Computers and Electronics in Agriculture,2020,176:105634.
[12]Yang J,He W Y,Zhang T L,et al. Research on subway pedestrian detection algorithms based on SSD model[J]. IET Intelligent Transport Systems,2020,14(11):1491-1496.
[13]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016:779-788.
[14]羅志聰,李鵬博,宋飛宇,等. 嵌入式設(shè)備的輕量化百香果檢測模型[J]. 農(nóng)業(yè)機械學報,2022,53(11):262-269,322.
[15]張恩宇,成云玲,胡廣銳,等. 基于SSD算法的自然條件下青蘋果識別[J]. 中國科技論文,2020,15(3):274-281.
[16]汪 穎,王 峰,李 瑋,等. 用于復(fù)雜環(huán)境下果蔬檢測的改進YOLO v5算法研究[J]. 中國農(nóng)機化學報,2023,44(1):185-191.
[17]熊俊濤,韓詠林,王 瀟,等. 基于YOLO v5-Lite的自然環(huán)境木瓜成熟度檢測方法[J]. 農(nóng)業(yè)機械學報,2023,54(6):243-252.
[18]董麗君,曾志高,易勝秋,等. 基于YOLO v5的遙感圖像目標檢測[J]. 湖南工業(yè)大學學報,2022,36(3):44-50.
[19]Liu S,Qi L,Qin H F,et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.
[20]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu:IEEE,2017:936-944.
[21]Yao T,Zhang Q,Wu X Y,et al. Image recognition method of defective button battery base on improved MobileNetV1[C]//Wang Y,Li X,Peng Y.Chinese Conference on Image and Graphics Technologies.Singapore:Springer,2020:313-324.
[22]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[23]Chen J R,Kao S H,He H,et al. Run,don’t walk:chasing higher FLOPS for faster neural networks[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:12021-12031.
[24]Han K,Wang Y H,Tian Q,et al. GhostNet:more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle:IEEE,2020:1580-1589.
[25]朱瑞鑫,楊福興. 運動場景下改進YOLO v5小目標檢測算法[J]. 計算機工程與應(yīng)用,2023,59(10):196-203.