摘要:為了解決傳統(tǒng)蘋果分揀方法效率低下、實時性差等問題,提出一種基于輕量化YOLO v7-Tiny算法的改進(jìn)方法,用于檢測和分類蘋果的好果和壞果。首先,為提升非線性和泛化能力,采用深度可分離卷積策略,并對PReLU激活函數(shù)進(jìn)行重新設(shè)計以減少參數(shù)量。同時,為增強對目標(biāo)輪廓和空間位置的特征感知能力,引入CBAM和ECA 2種注意力機制,以防止梯度消失和過擬合問題。試驗結(jié)果表明,改進(jìn)后的YOLO v7-Tiny網(wǎng)絡(luò)模型對蘋果好果和壞果的識別精度均值達(dá)到了97.3%,相比原始YOLO v7-Tiny提高了0.4百分點。與原模型相比,改進(jìn)后的模型在參數(shù)量、浮點運算數(shù)、模型大小和單張圖片推理時間方面都具有顯著優(yōu)勢,分別降低了28.3%、25.0%、27.6%、3.8%。這一改進(jìn)模型不僅實現(xiàn)了蘋果好果和壞果的可靠檢測與分類,還成功平衡了識別準(zhǔn)確率和實時性能的需求。綜上所述,本研究通過優(yōu)化YOLO v7-Tiny算法,實現(xiàn)了對蘋果好果和壞果的高效檢測和分類。采用深度可分離卷積策略、重新設(shè)計激活函數(shù)以及引入注意力機制,有效提升了模型的性能。這一改進(jìn)方法在試驗中表現(xiàn)出了良好的精度和魯棒性,為蘋果檢測分類領(lǐng)域的自動化與智能化發(fā)展提供了重要支持。
關(guān)鍵詞:蘋果;分類;輕量化;YOLO v7-Tiny算法;深度可分離卷積;激活函數(shù);注意力
中圖分類號:TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號:1002-1302(2024)23-0221-09
徐江鵬,王傳安. 基于輕量化改進(jìn)YOLO v7-Tiny算法的蘋果檢測與分類[J]. 江蘇農(nóng)業(yè)科學(xué),2024,52(23):221-229.
doi:10.15889/j.issn.1002-1302.2024.23.030
收稿日期:2023-12-18
基金項目:安徽省高校自然科學(xué)研究重點項目(編號:KJ2021A0895);安徽省教育廳科學(xué)研究項目(編號:2022AH051642)。
作者簡介:徐江鵬(1999—),男,江西九江人,碩士研究生,主要從事農(nóng)業(yè)信息化研究。E-mail:xjpusta@163.com。
通信作者:王傳安,博士,副教授,主要從事計算機應(yīng)用技術(shù)與網(wǎng)絡(luò)通信研究。E-mail:43124609@qq.com。
蘋果是全球產(chǎn)量最高的水果之一,隨著多年的發(fā)展,我國已成為最大的蘋果生產(chǎn)國[1]。根據(jù)美國農(nóng)業(yè)部對外農(nóng)業(yè)服務(wù)局的數(shù)據(jù),我國的蘋果種植面積和產(chǎn)量均占全球一半以上。然而,蘋果質(zhì)量的不穩(wěn)定性已經(jīng)成為影響其出口的重要因素之一。隨著人們對高品質(zhì)和食品安全標(biāo)準(zhǔn)的關(guān)注不斷提高,自動化、精準(zhǔn)化的蘋果分類檢測需求也愈發(fā)增長。因此,在蘋果上市之前,對存在缺陷的蘋果進(jìn)行精準(zhǔn)檢測并自動剔除,顯得尤為重要。
圖像處理和機器學(xué)習(xí)技術(shù)的飛速進(jìn)步,推動了計算機視覺和深度學(xué)習(xí)在農(nóng)業(yè)上的廣泛應(yīng)用。蘋果檢測與分類也隨之迎來了新的發(fā)展。在這一背景下,不同的研究者們積極探索了多種方法。例如,Behroozi-Khazaei等提出了一種利用人工神經(jīng)網(wǎng)絡(luò)和遺傳算法的葡萄識別算法。這一算法具有極高的魯棒性,其識別精度高達(dá)99.4%[2]。另一方面,Hu等采用TensorFlow深度學(xué)習(xí)框架和SSD深度學(xué)習(xí)算法,以識別蘋果表面缺陷為目標(biāo)[3]。另外,Li等提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的蘋果品質(zhì)快速分類模型,通過與Google InceptionV3模型和HOG/GLCM+SVM進(jìn)行比較,實現(xiàn)了95.33%的蘋果品質(zhì)分級準(zhǔn)確率[4]。Liang等通過通道和層剪枝來壓縮YOLO v4網(wǎng)絡(luò),成功降低了網(wǎng)絡(luò)的推理時間和模型大小,同時將mAP提升至93.74%,適用于不同品種蘋果的缺陷鑒定[5]。劉潔等改進(jìn)了YOLO v4模型,使其適用于橙果的檢測,平均精度高達(dá)97.24%,這為復(fù)雜環(huán)境下的橙果采摘開辟了新思路[6]。另外,周桂紅等針對蘋果果園密植栽培導(dǎo)致的蘋果識別難題,提出了一種綜合改進(jìn)YOLO v4和閾值邊界框匹配合并算法的方法,用于全景圖像中的蘋果識別[7]。這一改進(jìn)后,YOLO v4模型的識別準(zhǔn)確率達(dá)到了96.19%。然而,這些研究多數(shù)在速度、精度之間的權(quán)衡中更偏向精度。
鑒于蘋果檢測與分類是一個輕量級任務(wù),本研究選擇了適用于邊緣設(shè)備的輕量級模型YOLO v7-Tiny作為主干網(wǎng)絡(luò)。雖然YOLO v7-Tiny模型具有較快的檢測速度,但其識別精度相對YOLO v7模型較低。為了確保檢測和識別的精確性與實時性,采用深度可分離卷積來減少參數(shù)量,并重新設(shè)計了激活函數(shù),以提升網(wǎng)絡(luò)的檢測精度,并緩解過擬合問題的影響。同時,引入了CBAM和ECA 2種注意力機制的融合,以增強YOLO v7-Tiny對目標(biāo)輪廓和空間位置的特征感知能力。這些改進(jìn)措施旨在保持模型輕量性的同時提高其性能。
1" 材料與方法
1.1" YOLO v7-Tiny算法原理
YOLO v7-Tiny算法是YOLO v7的一個輕量級版本,它繼承了基于級聯(lián)的模型縮放策略,并對高效層聚合網(wǎng)絡(luò)(ELAN)進(jìn)行了優(yōu)化。這些改進(jìn)使得算法在提升檢測精度的同時,具有更少的參數(shù)和更快的檢測速度[8-10]。因此,筆者所在課題組采用YOLO v7-Tiny算法的基礎(chǔ)框架來改進(jìn)。該算法主要由輸入端、特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和輸出端這4個部分構(gòu)成[11],整體結(jié)構(gòu)如圖1所示。
特征提取網(wǎng)絡(luò)由CBL卷積塊、經(jīng)過優(yōu)化的ELAN層和MPConv卷積層組成[12]。雖然ELAN層在提高特征提取速度方面表現(xiàn)卓越,但在某種程度上可能減少了特征提取能力,因為它從原始YOLO v7中削減了2組特征計算塊。
特征融合網(wǎng)絡(luò)部分采用了YOLO v5系列中的路徑聚合特征金字塔(PAFPN)網(wǎng)絡(luò)架構(gòu)。這個架構(gòu)將特征金字塔網(wǎng)絡(luò)(FPN)從高層傳遞的強語義信息與路徑聚合網(wǎng)絡(luò)(PANet)自底向上傳遞的強定位信息張量進(jìn)行拼接,以實現(xiàn)多尺度學(xué)習(xí)和融合。雖然多尺度有助于保留小目標(biāo)特征,對小缺陷目標(biāo)的檢測有幫助,但當(dāng)前的張量拼接方法在相鄰層特征融合方面可能不夠全面[13]。此外,最鄰近插值上采樣方法未能很好地平衡速度和精度這2個主要目標(biāo),同時融合網(wǎng)絡(luò)對小目標(biāo)特征信息的關(guān)注度相對較低,容易導(dǎo)致特征信息的丟失。
輸出部分采用了IDetect檢測頭,與YOLOR模型類似,但引入了隱式表示策略,以便基于融合的特征值更精細(xì)地細(xì)化預(yù)測結(jié)果[14]。
1.2" 改進(jìn)的YOLO v7-Tiny算法結(jié)構(gòu)
為了在保持算法準(zhǔn)確性的前提下,降低計算量,以及更精準(zhǔn)地區(qū)分蘋果的品質(zhì),本研究提出了一種基于輕量化改進(jìn)的YOLO v7-Tiny算法,用于蘋果檢測。以下是主要的改進(jìn)方案:為YOLO v7-Tiny算法的CBL卷積塊重新設(shè)計激活函數(shù),將其調(diào)整為CBP卷積塊,以更靈活地解決死神經(jīng)元問題,同時提升網(wǎng)絡(luò)的穩(wěn)定性。在YOLO v7-Tiny算法的ELAN模塊中,引入深度可分離卷積(DSC)以構(gòu)建ELAN-D,從而降低參數(shù)量和計算復(fù)雜度。此外,在YOLO v7-Tiny算法特征融合前分別加入ECA和CBAM注意力機制,提高對多尺度特征的表征能力,進(jìn)而增強模型性能。
綜上所述,通過上述改進(jìn)方案,實現(xiàn)了一種更精確且計算效率更高的蘋果檢測模型,即基于輕量化改進(jìn)的YOLO v7-Tiny算法。圖2中展示了改進(jìn)算法的整體結(jié)構(gòu)。
1.3" 輕量化改進(jìn)YOLO v7-Tiny算法的方法
1.3.1" PReLU激活函數(shù)提高特征提取網(wǎng)絡(luò)能力" YOLO v7-Tiny網(wǎng)絡(luò)中使用的激活函數(shù)是LeakyReLU,它是ReLU激活函數(shù)的一種變體,旨在緩解ReLU可能導(dǎo)致的無效神經(jīng)元問題[15]。其定義為:
LeakyReLU(x)=x,xgt;00.01x,x≤0。(1)
PReLU則引入了一個可學(xué)習(xí)的參數(shù),允許網(wǎng)絡(luò)自己學(xué)習(xí)一個關(guān)于斜率的值,這個斜率可以在訓(xùn)練過程中根據(jù)數(shù)據(jù)進(jìn)行調(diào)整[16]。其定義為:
PReLU(x)=x,xgt;0αx,x≤0。(2)
式中:α是可學(xué)習(xí)的參數(shù)。
將PReLU激活函數(shù)替換LeakyReLU激活函數(shù)的優(yōu)勢主要體現(xiàn)在PReLU激活函數(shù)通過可學(xué)習(xí)的參數(shù),提高了網(wǎng)絡(luò)的適應(yīng)性、抑制了梯度消失、增強了表示能力。PReLU激活函數(shù)如圖3所示。
1.3.2" 引入深度可分離卷積網(wǎng)絡(luò)" 在目標(biāo)檢測模型中,特征提取是為后續(xù)特征融合階段提供基礎(chǔ)數(shù)據(jù)的關(guān)鍵環(huán)節(jié)。通常情況下,YOLO v7-Tiny網(wǎng)絡(luò)中的ELAN模塊采用傳統(tǒng)的標(biāo)準(zhǔn)卷積來提取目標(biāo)特征[17]。然而,為了在保持準(zhǔn)確性的前提下降低計算成本,本研究采用深度可分離卷積模塊來替代原先的標(biāo)準(zhǔn)卷積。這一變化有助于減小整體模型的計算負(fù)擔(dān),并進(jìn)一步提升小目標(biāo)檢測的能力。深度可分離卷積的計算過程和公式如圖4和公式(3)所示。
DH×DW×M×DK×DK+DH×DW×M×NDH×DW×M×N×DK×DK=1N+1D2K。(3)
其中,DH和DW是特征圖的長度和寬度;M和N是特征圖的輸入和輸出通道數(shù);DK是卷積核的大小,通常取3。
1.3.3" 強化特征融合" 為神經(jīng)網(wǎng)絡(luò)添加注意力機制是提高其特征融合能力的有效方法[18-20]。本研究在YOLO v7-Tiny主干部分添加了一個ECA結(jié)構(gòu),它代表高效通道注意力[21]。這個模塊可以通過自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)來幫助提高模型的性能。并在模型的頭部添加了一個CBAM結(jié)構(gòu),它是卷積塊注意力模塊[22]。這個模塊可以通過在空間和通道維度上突出重要特征來幫助提高模型的性能。ECA和CBAM的融合提升通道和空間關(guān)注,可以加強特征感知,提高檢測準(zhǔn)確性、魯棒性和泛化能力[23]。
ECA注意力機制是一種卷積神經(jīng)網(wǎng)絡(luò)中的注意力機制,其通過計算特征圖與其自身的卷積結(jié)果來提取重要特征。該機制充分利用了特征圖的內(nèi)在信息,以學(xué)習(xí)如何選擇最相關(guān)的特征,從而提升網(wǎng)絡(luò)性能和魯棒性。與傳統(tǒng)的注意力機制不同,ECA注意力機制不依賴外部信息,且計算效率高,非常適合實時的目標(biāo)檢測任務(wù)。該機制的結(jié)構(gòu)如圖5所示。
在ECA模塊中,首先通過對輸入特征圖進(jìn)行一次全局平均池化(GAP),將特征圖X從H×W×C的矩陣轉(zhuǎn)換為1×1×C的通道特征向量。接著,通過計算自適應(yīng)函數(shù)的一維卷積核大小k(見公式4),將該核應(yīng)用于池化后的特征向量。通過Sigmoid函數(shù)學(xué)習(xí)通道注意力,得到各通道權(quán)重。再用權(quán)重和原始特征圖逐通道相乘,得到加權(quán)后的特征圖Y。
k=log2(C)γ+bγ;γ=2,b=1。(4)
CBAM結(jié)構(gòu)主要由2個模塊組成:通道注意力模塊以及空間注意力模塊。利用通道注意力和空間注意力模塊的串聯(lián)對原始的蘋果特征圖進(jìn)行信息提煉,從而提高特征提取的精度。 該結(jié)構(gòu)的示意
圖如圖6所示。
CBAM的通道注意力模塊是通過對輸入特征圖
分別執(zhí)行全局平均池化與全局最大池化,生成新的特征圖。隨后利用函數(shù)得出權(quán)重系數(shù),并將權(quán)重系數(shù)與相應(yīng)的特征圖相乘,從而得到輸出特征圖。計算過程詳見公式(5)。
Mc(F)=δ{MLP[AvgPool(F)]+MLP[MaxPool(F)]}。(5)
通道注意力模塊輸出的特征圖作為CBAM的空間注意力模塊的輸入,先做最大池化和平均池化處理,再沿著通道維度進(jìn)行拼接。然后,用卷積將通道數(shù)降為1個,并通過函數(shù)得到空間權(quán)重系數(shù),隨后與輸入特征圖相乘,輸出最終的特征圖。計算過程詳見公式(6)。
Ms(F)=δ(f7×7([AvgPool(F);MaxPool(F)]))。(6)
其中,Mc和Ms分別是通道注意力圖和空間注意力圖;F是輸入特征圖;δ是Sigmoid函數(shù);f是7×7 卷積;MLP是多層感知器神經(jīng)網(wǎng)絡(luò)(multilayer perceptron)。
2" 試驗過程
2.1" 數(shù)據(jù)集
本試驗于2023年5月在安徽科技學(xué)院信息與網(wǎng)絡(luò)工程學(xué)院實驗室進(jìn)行。本次試驗主要是從百度和谷歌圖片庫中獲取了大部分的圖像數(shù)據(jù)。通過互聯(lián)網(wǎng)渠道,收集健康蘋果(簡稱為“好果”)以及3種類型的損壞蘋果(統(tǒng)稱為“壞果”),包括斑點、腐爛和缺損[24]??紤]到數(shù)據(jù)集僅包含713張樣本(其中“好果”共290張,“壞果”共423張),為了提高網(wǎng)絡(luò)模型的準(zhǔn)確性和魯棒性,本研究使用多種方式來擴(kuò)充模型的訓(xùn)練數(shù)據(jù),以避免出現(xiàn)過擬合和泛化能力低等問題[25]。通過對最初的圖像進(jìn)行隨機旋轉(zhuǎn)、添加高斯噪聲、施加高斯模糊以及調(diào)整對比度等操作來模擬不同場景,有效地擴(kuò)充了數(shù)據(jù)集的規(guī)模,將數(shù)據(jù)集增加到3 565張圖像。這些操作有助于提高模型對各種情況的適應(yīng)能力,從而增強模型的性能和穩(wěn)定性。這一擴(kuò)充后的數(shù)據(jù)集以9 ∶1的比例分為訓(xùn)練集(3 208張)和驗證集(357張)[26]。通常情況下,對于普通蘋果的采后品質(zhì)分級,僅需將蘋果分為正常和有缺陷2類即可,而無需對每個蘋果的缺陷進(jìn)行定位。因此,本研究的目標(biāo)是開發(fā)一種基于輕量化改進(jìn)的YOLO v7-Tiny算法,通過對水果圖像進(jìn)行直接分析,實現(xiàn)對有缺陷蘋果的準(zhǔn)確識別。利用自行設(shè)計的蘋果測試集,對改進(jìn)模型的性能進(jìn)行了驗證。
2.2" 試驗平臺及參數(shù)設(shè)置
模型訓(xùn)練是在云服務(wù)器AutoDL上使用PyTorch訓(xùn)練和測試框架進(jìn)行的。該服務(wù)器配置Intel Xeon Platinum 8255C CPU @ 2.50GHz處理器,80 GB 內(nèi)存和NVIDIA RTX 3090 24 GB顯卡。采用CUDA 11.0對訓(xùn)練進(jìn)行加速。輸入圖像大小設(shè)置為640像素×640像素,批量大小設(shè)置為8,訓(xùn)練步數(shù)設(shè)置為500,學(xué)習(xí)率為0.01,動量設(shè)置為0.937,隨機梯度下降(SGD)使用權(quán)重衰減為 0.005 的優(yōu)化。具體試驗平臺參數(shù)如表1所示。
2.3" 評價指標(biāo)
網(wǎng)絡(luò)性能的評估主要采用精度(precision,P)、召回率(recall,R)和平均精度均值(mAP)為精度評價指標(biāo)。mAP越高,說明模型的整體性能越好。以及采用Inference Time作為評價模型速度的指標(biāo),可用于衡量模型的實時性。另外,參數(shù)量(Params)和每秒執(zhí)行的十億次浮點運算操作(GFLOPs)可用來評估模型的大小和計算復(fù)雜度,以便判斷其是否適合移動端部署。一般而言,參數(shù)量越低,GFLOPs越小的模型對硬件的要求越低,更有利于實現(xiàn)實時檢測。
mAP0.5是指IoU閾值為50%時的mAP值;mAP0.5 ∶0.95是指在IoU閾值從50%逐漸提高到95%的過程中,計算各個IoU閾值下的mAP值并求其平均值。計算公式如下所示:
mAP=∑ci=1-APiC;(7)
其中,C為數(shù)據(jù)集類別數(shù)量。
AP=∫10Psmooth(R)d。(8)
其中,Psmooth(R)表示平滑后的P-R曲線。
精度(P)=TPTP+FP×100%;(9)
召回率(R)=TPFP+FN×100%。(10)
式中:TP、FP、FN分別表示預(yù)測結(jié)果和實際標(biāo)簽的對應(yīng)情況。TP表示預(yù)測為正類且實際為正類的樣本數(shù);FP表示預(yù)測為正類但實際為負(fù)類的樣本數(shù);FN表示預(yù)測為負(fù)類但實際為正類的樣本數(shù)。
深度可分離卷積(DSC)其浮點運算量計算公式見式(11),對比普通標(biāo)準(zhǔn)卷積浮點運算量,計算見式(12)。
FLOPs1=Cint×K2×Hout×Wout+Cint×Hout×Wout×Cout;(11)
FLOPs2=Cint×K2×Hout×Wout×Cout。(12)
其中,Cint、Cout分別為輸入、輸出通道數(shù);K為卷積核大小;Hout、Wout分別為輸出特征圖高度以及寬度。
GFLOPs=109×FLOPs/t。(13)
其中,t為以秒為單位的運行時間。
3" 結(jié)果與分析
3.1" 消融試驗
為驗證本算法的改進(jìn)效果,進(jìn)行一組消融試驗,參數(shù)一致,未使用預(yù)訓(xùn)練權(quán)重。試驗結(jié)果見表2。改進(jìn)模型命名:PReLU激活函數(shù)改進(jìn)為YOLO v7-TP,PReLU激活函數(shù)+DSC為YOLO v7-TPD,PReLU激活函數(shù)+DSC+ECA為YOLO v7-TPDE,PReLU激活函數(shù)+DSC+CBAM為YOLO v7-TPDC,PReLU激活函數(shù)+DSC+ECA+CBAM為YOLO v7-TPDEC。
從表2可見,僅替換激活函數(shù)的YOLO v7-TP相對YOLO v7-Tiny提升了mAP值,但檢測時間增加。YOLO v7-TPD在參數(shù)、浮點運算量、模型大小、檢測時間上有顯著效果,但mAP值稍降。僅加入注意力模塊的YOLO v7-TPDC和YOLO v7-TPDE在多數(shù)方面有顯著提升,但mAP值也稍低。最終改進(jìn)的YOLO v7-TPDEC相對原YOLO v7-Tiny,在參數(shù)量、計算量、模型大小、檢測時間上分別降低了28.3%、25.0%、27.6%、3.8%,且精確率和召回率分別提升了1.6百分點和1.3百分點以及mAP值提升了0.4百分點。顯示輕量級改進(jìn)的YOLO v7-TPDEC不僅平衡了準(zhǔn)確性和實時性, 還降低了計算成本,更適合輕量化場景,也證明了改進(jìn)方法的有效性和通用性。
3.2" 不同模型試驗結(jié)果對比
為進(jìn)一步驗證改進(jìn)效果,與目前比較流行的不同算法進(jìn)行對比試驗,包括YOLO v4-Tiny、YOLO v5s、YOLO v8s及YOLO v7,對比試驗結(jié)果見表3。
從表3可見,最終改進(jìn)的YOLO v7-TPDEC算法相比YOLO v4-Tiny、YOLO v5s、YOLO v8s算法mAP值分別提升了1.5、0.8、0.2百分點。且參數(shù)量分別下降了29.5%、38.5%和61.3%,這在輕量化算法的檢測性能上有著很大優(yōu)勢。與YOLO v7算法相比,雖然在mAP值等方面略有下降,但在參數(shù)量、計算量、模型大小、單張推理時間方面,本研究提出的改進(jìn)算法都更低,更適合部署在邊緣設(shè)備上,這在保證準(zhǔn)確率的同時更保證了輕量化。
3.3" 網(wǎng)絡(luò)模型訓(xùn)練結(jié)果對比
為了驗證改進(jìn)的網(wǎng)絡(luò)架構(gòu)的有效性,同時保持訓(xùn)練參數(shù)不變,比較原始的YOLO v7-Tiny網(wǎng)絡(luò)模型和經(jīng)過輕量化改進(jìn)的最終網(wǎng)絡(luò)模型的性能。
圖7和圖8展示了網(wǎng)絡(luò)訓(xùn)練過程中mAP與總損失值的變化趨勢。隨著迭代次數(shù)的不斷增加,2條曲線分別向上和向下變化,最終穩(wěn)定。當(dāng)?shù)螖?shù)達(dá)到500時,訓(xùn)練過程收斂并結(jié)束。與原始YOLO v7-Tiny網(wǎng)絡(luò)模型相比,輕量化改進(jìn)后的模型表現(xiàn)出更高的mAP值和更低的損失值。因此,可以得出結(jié)論,經(jīng)過改進(jìn)的網(wǎng)絡(luò)模型是有效的。
3.4" 檢測結(jié)果與評價
為了檢驗本研究提出的改進(jìn)模型相較于原始模型在檢測效果上的優(yōu)勢,同時選取復(fù)雜、密集和果樹等多種場景進(jìn)行了試驗。試驗中采用了一些蘋果圖像作為檢測對象。圖9至圖11分別展示了
原始模型和改進(jìn)模型的檢測結(jié)果。從這些對比圖中,可以明顯看出改進(jìn)模型在漏檢率的降低方面有了明顯的提升,能夠檢測出更多的目標(biāo)并且識別更準(zhǔn)確。
4" 結(jié)論
針對傳統(tǒng)的蘋果檢測與分類效率低、實時性差,無法滿足現(xiàn)代生產(chǎn)需求的問題,本研究提出了一種基于輕量化改進(jìn)的YOLO v7-Tiny算法實現(xiàn)蘋果好果和壞果的檢測與分類。通過在模型中引入深度可分離卷積和PReLU激活函數(shù),成功地降低了參數(shù)量并提高了模型的非線性能力和泛化能力。另外,引入的CBAM和ECA注意力機制有助于增強對目標(biāo)特征的感知能力,從而在目標(biāo)識別過程中有效地防止梯度消失和過擬合問題。
在經(jīng)過一系列驗證試驗后,改進(jìn)模型在平均精度
均值方面達(dá)到了97.3%,相較于原始的YOLO v7-Tiny模型,取得了顯著的提升。此外,改進(jìn)模型在參數(shù)量、浮點運算數(shù)、模型大小以及單張圖片推理時間等方面也表現(xiàn)出明顯的優(yōu)勢,分別降低了28.3%、25.0%、27.6%和3.8%。這些結(jié)果進(jìn)一步證明了所提出的改進(jìn)算法在保持高準(zhǔn)確性的同時,具備更高的實時性和更小的計算資源消耗。
綜上所述,本研究成功地克服了檢測和分類方面的一系列難題,通過引入輕量化改進(jìn)的YOLO v7-Tiny算法,實現(xiàn)了對蘋果好果和壞果的高效準(zhǔn)確檢測與分類。這一研究成果在現(xiàn)代農(nóng)業(yè)生產(chǎn)中具有重要的應(yīng)用前景,為提升產(chǎn)品質(zhì)量提供了有力的技術(shù)支持。未來將探索該算法在其他農(nóng)產(chǎn)品檢測與分類領(lǐng)域中的應(yīng)用,并進(jìn)一步優(yōu)化模型細(xì)節(jié)以取得更優(yōu)異的性能。
參考文獻(xiàn):
[1]劉軍弟,王" 靜,劉天軍,等. 中國蘋果加工產(chǎn)業(yè)發(fā)展趨勢分析[J]. 林業(yè)經(jīng)濟(jì)問題,2012,32(2):185-188.
[2]Behroozi-Khazaei N,Maleki M R. A robust algorithm based on color features for grape cluster segmentation[J]. Computers and Electronics in Agriculture,2017,142:41-49.
[3]Hu G R,Zhang E Y,Zhou J G,et al. Infield apple detection and grading based on multi-feature fusion[J]. Horticulturae,2021,7(9):276-292.
[4]Li Y F,F(xiàn)eng X Y,Liu Y D,et al. Apple quality identification and classification by image processing based on convolutional neural networks[J]. Scientific Reports,2021,11:16618.
[5]Liang X T,Jia X Y,Huang W Q,et al. Real-Time grading of defect apples using semantic segmentation combination with a pruned YOLO v4 network[J]. Foods,2022,11(19):3150.
[6]劉" 潔,李" 燕,肖黎明,等. 基于改進(jìn)YOLO v4模型的橙果識別與定位方法[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(12):173-182.
[7]周桂紅,馬" 帥,梁芳芳. 基于改進(jìn)YOLO v4模型的全景圖像蘋果識別[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(21):159-168.
[8]齊向明,董" 旭. 改進(jìn)YOLO v7-tiny的鋼材表面缺陷檢測算法[J]. 計算機工程與應(yīng)用,2023,59(12):176-183.
[9]Li C,Wang Y,Liu X. An improved YOLO v7 lightweight detection algorithm for obscured pedestrians[J]. Sensors,2023,23(13):5912.
[10]Kulyukin V A,Kulyukin A V. Accuracy vs. energy:an assessment of bee object inference in videos from on-hive video loggers with YOLO v3,YOLO v4-Tiny,and YOLO v7-Tiny[J]. Sensors,2023,23(15):6791.
[11]Ma L,Zhao L Y,Wang Z X,et al. Detection and counting of small target apples under complicated environments by using improved YOLO v7-tiny[J]. Agronomy,2023,13(5):1419.
[12]Li S J,Wang S L,Wang P. A small object detection algorithm for traffic signs based on improved YOLO v7[J]. Sensors,2023,23(16):7145.
[13]Zhang Y L,F(xiàn)ang X P,Guo J,et al. CURI-YOLO v7:a lightweight YOLO v7-tiny target detector for citrus trees from UAV remote sensing imagery based on embedded device[J]. Remote Sensing,2023,15(19):4647.
[14]Quan P K,Lou Y N,Lin H Y,et al. Research on identification and location of charging ports of multiple electric vehicles based on SFLDLC-CBAM-YOLO v7-Tinp-CTMA[J]. Electronics,2023,12(8):1855.
[15]祝志慧,何昱廷,李沃霖,等. 基于改進(jìn)YOLO v7模型的復(fù)雜環(huán)境下鴨蛋識別定位[J]. 農(nóng)業(yè)工程學(xué)報,2023,39(11):274-685.
[16]連逸亞,吳小俊. 超深卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建研究[J]. 計算機工程,2019,45(1):217-220.
[17]楊秀伶. 深度學(xué)習(xí)無人機遙感影像車輛快速檢測方法研究[J]. 測繪技術(shù)裝備,2023,25(1):23-30.
[18]陸健強,梁" 效,余超然,等. 基于坐標(biāo)注意力機制與高效邊界框回歸損失的線蟲快速識別[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(22):123-132.
[19]王科平,連凱海,楊" 藝,等. 基于改進(jìn)YOLO v4的綜采工作面目標(biāo)檢測[J]. 工礦自動化,2023,49(2):70-76.
[20]張會敏,謝澤奇. 基于多尺度注意力卷積神經(jīng)網(wǎng)絡(luò)的蘋果葉部病害識別方法[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(16):154-161.
[21]余賢海,孔德義,謝曉軒,等. 基于深度學(xué)習(xí)的番茄授粉機器人目標(biāo)識別與檢測[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(24):129-137.
[22]鄧" 梟,葉" 蔚,謝" 睿,等. 基于深度學(xué)習(xí)的源代碼缺陷檢測研究綜述[J]. 軟件學(xué)報,2023,34(2):625-654.
[23]黃震華,楊順志,林" 威,等. 知識蒸餾研究綜述[J]. 計算機學(xué)報,2022,45(3):624-653.
[24]任維民,鐘國韻,朱偉東,等. 基于改進(jìn)YOLO v5的行人檢測算法[J]. 計算機與數(shù)字工程,2022,50(11):2404-2410.
[25]李偉豪,詹" 煒,周" 婉,等. 輕量型Yolov7-TSA網(wǎng)絡(luò)在茶葉病害檢測識別中的研究與應(yīng)用[J]. 河南農(nóng)業(yè)科學(xué),2023,52(5):162-169.
[26]劉浩翰,樊一鳴,賀懷清,等. 改進(jìn)YOLO v7-tiny的目標(biāo)檢測輕量化模型[J]. 計算機工程與應(yīng)用,2023,59(14):166-175.