doi:10.15889/j.issn.1002-1302.2024.20.025
摘要:實時監(jiān)測稻田害蟲泛濫情況是預(yù)防水稻產(chǎn)量降低的重要手段之一。針對當(dāng)前的目標(biāo)檢測算法在實際稻田環(huán)境下檢測精度較低且模型計算量較大、難以實現(xiàn)實時檢測等問題,提出一種基于YOLO v8的改進的水稻害蟲識別算法YOLO v8-SDPS。首先在主干網(wǎng)絡(luò)中用SD_Conv卷積替代標(biāo)準(zhǔn)卷積,重構(gòu)特征提取模塊,在降低參數(shù)量的同時盡可能保留害蟲目標(biāo)的邊緣特征信息,提升對害蟲目標(biāo)的特征提取能力;其次在頸部引入基于Slim-Neck范式的GSConv模塊和VoV-GSCSP模塊,在減少模型計算量的同時提升模型的檢測精度;最后在SPPF層前引入PSA注意力模塊,降低背景的噪聲干擾,使模型更加關(guān)注個體的空間位置信息。用本研究提出的算法在經(jīng)數(shù)據(jù)增強后的自建水稻害蟲數(shù)據(jù)集上進行試驗,結(jié)果表明,YOLO v8-SDPS獲得86.6%的平均檢測精度,相較于原始YOLO v8n模型提升4.1百分點。同時改進后的模型參數(shù)量為2.62 M,計算量為7.5 GFLOPs,相較于基準(zhǔn)模型分別降低16.8%和15.7%,實現(xiàn)了模型輕量化和較高檢測精度的平衡。在害蟲小且密集、背景干擾嚴(yán)重、光照強烈等復(fù)雜環(huán)境下,YOLO v8-SDPS均能較好地識別出目標(biāo)個體,有效地降低漏檢率和誤檢率,具有較好的魯棒性,可為稻田實時巡檢提供有效技術(shù)支持。
關(guān)鍵詞:目標(biāo)檢測;水稻害蟲;深度學(xué)習(xí);YOLO v8;極化自注意力
中圖分類號:S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號:1002-1302(2024)20-0209-11
收稿日期:2024-04-09
基金項目:國家自然科學(xué)基金(編號:62173049、62273060);湖北省教育廳科學(xué)研究計劃(編號:D20211302)。
作者簡介:李" 龍(2000—),男,湖北武漢人,碩士研究生,研究方向為深度學(xué)習(xí)與目標(biāo)檢測。E-mail:2022710628@yangtzeu.edu.cn。
通信作者:李夢霞,博士,副教授,碩士生導(dǎo)師,研究方向為油氣田軟件開發(fā)、最優(yōu)化理論與算法。E-mail:limengxia@yangtzeu.edu.cn。
水稻是我國主要的農(nóng)作物之一,種植面積約占糧食作物總種植面積的1/3[1]。我國水稻病蟲草害種類繁多,農(nóng)藥用量居高不下,因此及時檢測稻田害蟲不僅有利于預(yù)防蟲害爆發(fā)而造成水稻產(chǎn)量降低,而且能避免農(nóng)藥使用過量而污染環(huán)境[2]。早期的害蟲檢測主要依賴人工判斷,但是田間害蟲情況復(fù)雜,對于農(nóng)業(yè)人員的專業(yè)水平要求較高,且人工檢測費時費力,存在較強的主觀性[3]。
隨著計算機視覺技術(shù)的不斷更新迭代,越來越多的學(xué)者將該技術(shù)與農(nóng)業(yè)生產(chǎn)結(jié)合起來。Zou等結(jié)合蟲洞的顏色特征、形狀特征等設(shè)計出一種基于支持向量機(SVM)的分類器,用于判斷西蘭花幼苗圖像中的蟲洞大小,進而為精準(zhǔn)控制農(nóng)藥噴灑用量提供參考[4]。田冉等利用紅外傳感器和SVM圖像處理方法,在果樹害蟲檢測上取得較好的結(jié)果[5-6]。上述基于機器學(xué)習(xí)的方法雖然取得一定的成果,但較為依賴人工手動地設(shè)計特征,且實際農(nóng)田環(huán)境較為復(fù)雜,成像條件較為嚴(yán)苛,在實時監(jiān)測方面存在一定的不足[7-10]?;谏疃葘W(xué)習(xí)的方法近年來逐漸受到研究者的青睞,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、Transformer等為代表的深度學(xué)習(xí)方法可對數(shù)據(jù)進行無監(jiān)督學(xué)習(xí),并從大量的數(shù)據(jù)中自動學(xué)習(xí)多種層次的特征信息,較傳統(tǒng)機器學(xué)習(xí)方法展現(xiàn)出更好的性能[11-16]。例如,佘顥等提出一種基于SSD網(wǎng)絡(luò)模型的水稻害蟲識別方法,用特征金字塔模型替換SSD原有的多尺度特征圖,同時優(yōu)化激活函數(shù),使得模型對目標(biāo)的檢測精度得到提升,在自建數(shù)據(jù)集上取得79.3%的平均檢測精度[17]。范春全等針對數(shù)據(jù)集較小、害蟲種類不足導(dǎo)致的模型識別精度下降問題,構(gòu)建涵蓋16種水稻病蟲害的近2萬張水稻病蟲害數(shù)據(jù)集,以ResNet50為主干網(wǎng)絡(luò)進行試驗,驗證模型的性能[18]。
上述研究雖然取得了一定的效果,但存在如下問題:(1)真實稻田場景與實驗室環(huán)境有較大差異,導(dǎo)致訓(xùn)練出來的模型泛化能力不強;(2)實際稻田場景中害蟲分布不均、尺度不一、背景噪聲較大,容易出現(xiàn)誤檢、漏檢等情況。針對上述問題,本研究基于YOLO v8設(shè)計一種新的水稻害蟲識別模型,以期為稻田害蟲實時巡檢提供技術(shù)支撐。
1" 材料和方法
1.1" 數(shù)據(jù)來源
本試驗所用數(shù)據(jù)集由2個部分組成,即IP102公開數(shù)據(jù)集中的部分水稻害蟲子集和從Roboflow網(wǎng)站(https://universe.roboflow.com)中獲取的水稻害蟲圖像數(shù)據(jù)[19],其中IP102包含102種害蟲的共計75 222張圖像數(shù)據(jù),本研究在上述2個數(shù)據(jù)集來源中綜合選取對水稻生產(chǎn)危害較大的6種水稻害蟲,即稻褐飛虱、黑尾葉蟬、稻縱卷葉螟、稻蝽、水稻二化螟、稻水蠅作為研究對象。
1.2" 數(shù)據(jù)預(yù)處理
將獲取的圖像分辨率統(tǒng)一調(diào)整為640像素×640像素,并保存為JPG格式,剔除其中質(zhì)量較差的圖像后采用Labelimg標(biāo)注工具進行標(biāo)注,共計獲得 1 828 張圖像數(shù)據(jù),并按照7 ∶2 ∶1的比例將其劃分成訓(xùn)練集、驗證集和測試集。部分圖像數(shù)據(jù)如圖1所示。
為提高模型在不同場景下的泛化能力和魯棒性,本研究對訓(xùn)練集中的數(shù)據(jù)進行增強,訓(xùn)練集圖像數(shù)據(jù)增強前后各類害蟲圖像數(shù)量如表1所示。
增強方式:(1)以50%的概率在水平和豎直方向上進行翻轉(zhuǎn);(2)調(diào)整亮度,隨機增強或降低25%的圖片亮度,以貼合實際稻田場景不同時間段的光照情景;(3)隨機加入2.5 px高斯模糊,模擬實時檢測中設(shè)備的抖動情況。將3種圖像增強方法隨機組合,得到3 840張圖像數(shù)據(jù)。增強后的部分?jǐn)?shù)據(jù)集圖像如圖2所示。
1.3" 方法
1.3.1" 網(wǎng)絡(luò)模型
YOLO v8是Ultralytics于2023年1月發(fā)布的YOLO系列最新版本,融合了眾多的SOTA技術(shù),相較于先前的版本,在擴展性方面有明顯提升,可用于目標(biāo)檢測、圖像分類、實例分割等多個領(lǐng)域[20-23]。相較于先前的YOLO v5,YOLO v8提出以新的C2f模塊替換原本的C3模塊,豐富了梯度流,同時使模型進一步輕量化;在Head部分,YOLO v8采用目前主流的解耦頭結(jié)構(gòu)(decoupled-head),將分類和檢測頭分離開來, 同時遵循Anchor-Free思想,舍棄了先前使用的Anchor-Based[24]。在損失函數(shù)的計算上,YOLO v8采用了Task-Aligned Assigner正樣本分配策略,并引入了Distribution Focal Loss,用于目標(biāo)框的回歸損失計算,其結(jié)構(gòu)如圖3所示。
1.3.2" 改進YOLO v8模型
本研究以YOLO v8n為基準(zhǔn)模型,提出改進的YOLO v8-SDPS,主要改進內(nèi)容如下:(1)保留主干網(wǎng)絡(luò)第1層的3×3卷積,當(dāng)圖像分辨率較大時,利用大卷積核能更好地獲取全局特征,并同時將步長縮短為1,以盡可能地保留特征圖的細(xì)粒度信息,另外將SPD-Conv模塊和深度可分離卷積(DSConv)相結(jié)合,重構(gòu)特征提取模塊,稱為SD_Conv,在降低參數(shù)量的同時,提升模型對低分辨率下小目標(biāo)的提取能力;(2)遵循Slim-Neck范式的設(shè)計思想,引入GSConv和VoV-GSCSP模塊,分別替換頸部的卷積操作和CSP模塊,降低模型的復(fù)雜度,綜合考慮全局和局部特征信息,更好地捕捉節(jié)點的上下文信息;(3)在主干網(wǎng)絡(luò)的SPPF層前添加極化自注意力模塊PSA(polarized self-attention),抑制背景噪聲,使得網(wǎng)絡(luò)模型更加關(guān)注個體的空間坐標(biāo)信息。
改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
1.3.3" SD_Conv模塊
在實際害蟲檢測任務(wù)中,害蟲個體往往表現(xiàn)出小目標(biāo)的特點,只占整張圖像的較小部分,在卷積操作中特征容易丟失,是造成模
型檢測性能降低的原因之一,而原始的YOLO系列對于此類小目標(biāo)的檢測并不友好,因此本研究在原始YOLO v8n的基礎(chǔ)上,在主干網(wǎng)絡(luò)中首先引入SPD_Conv模塊,以提升模型的特征提取能力[25]。
SPD_Conv模塊由2個部分構(gòu)成,分別為space-to-depth部分(SPD層)和non-strided convolution部分(Conv層)。SPD模塊會對輸入的特征圖先進行下采樣,并保留通道維度中的信息。對于任何尺度為S×S×C1的中間特征圖X,SPD可將其切分為公式(1)至公式(3)的子特征序列,子圖fx,y由i+x和i+y按比例整除所有條目X(i+y)得到。因此,每個子圖按比例因子對X進行下采樣。
f0,0=X[0:S:scale,0:S:scale],
f1,0=X[1:S:scale,0:S:scale],…,
fscale-1,0=X[scale-1;S:scale,0:S:scale];(1)
f0,1=X[0:S:scale,1:S:scale],f1,1,…,
fscale-1,1=X[scale-1:S:scale,1:S:scale];(2)
f0,scale-1=X[0:S:scale,scale-1:S:scale],f1,scale-1,…,
fscale-1,scale-1=X[scale-1:S:scale,scale-1:S:scale]。(3)
以scale為2時為例,模塊首先對大小為S×S×C1的特征圖X進行下采樣操作,在特征圖橫向和縱向上每隔1個像素進行跳躍采樣,得到4個寬高減半、通道數(shù)保持不變,即大小為S/2×S/2×C1的子特征圖f0,0、f1,0、f0,1、f1,1,接著將4個子特征圖在通道維度上依次進行拼接,得到2倍下采樣中間特征圖X2。為盡可能保留所有的判別性特征信息,在SPD特征轉(zhuǎn)換層后對中間特征圖連接一個包含有C2個大小為1×1的卷積核的非跨步卷積層(stride=1,C2=scale2C1),有效減少細(xì)粒度信息的損失,此外使用1×1的卷積可以減少參數(shù)量、擴大模型的感受野,SPD_Conv模塊示意如圖5所示。
考慮到SPD_Conv模塊在卷積過程中會造成通道維度成倍增加,進而引起參數(shù)量的翻倍增長,不利于模型的輕量化實現(xiàn),本研究在SPD_Conv模塊后添加一層深度可分離卷積(DSConv)進行跨通道信息融合,在保證卷積核學(xué)習(xí)能力的同時減少參數(shù)量,其結(jié)構(gòu)示意如圖6所示。
DSConv包含逐通道卷積和逐點卷積兩部分,在逐通道卷積中,首先對輸入特征圖的每個通道進行分組卷積,得到中間特征圖,然后對中間特征圖用 1×1卷積核進行卷積操作,對同一空間坐標(biāo)上不同層的信息進行有效利用,以進一步提取特征[26]。設(shè)輸入特征圖大小為W×H×C,卷積核大小為K×K,則標(biāo)準(zhǔn)卷積參數(shù)量(Convparams)、DSConv參數(shù)量(DSConvparams)及兩者參數(shù)量對比(Comparison)的計算公式分別為公式(4)、(5)、(6)。
Convparams=K×K×C×C;(4)
DSConvparams=K×K×1×C+1×1×C×C;(5)
Comparison=DSConvparamsConvparams=1C+1K2。(6)
由公式(6)可知,標(biāo)準(zhǔn)卷積的參數(shù)量是DSConv的C倍,在通道數(shù)較多的情況下,DSConv可以大幅減少模型的計算量,較好地解決了SPD層造成的通道數(shù)翻倍后參數(shù)量增加的問題。
1.3.4" GSConv和VoV-GSCSP模塊
Li等在自動
駕駛領(lǐng)域提出GSConv和Slim-Neck設(shè)計范式,在減輕模型負(fù)擔(dān)的同時實現(xiàn)更高的檢測器計算成本效益,保證了較好的模型大小與檢測精度的平衡[27]??紤]到本研究對害蟲的檢測,后續(xù)會部署到智能巡檢設(shè)備中實現(xiàn)實時檢測,本研究在上述改進的基礎(chǔ)上,在Neck部分引入GSConv,替換原始的標(biāo)準(zhǔn)卷積操作,引入基于Slim-Neck思想設(shè)計的跨級部分網(wǎng)絡(luò)模塊VoV-GSCSP,替換原始的CSP模塊,這在降低一定參數(shù)量的同時,也能保證較好的精度。
GSConv模塊由標(biāo)準(zhǔn)卷積、深度可分離卷積和Shuffle混洗3個部分組成。該模塊將標(biāo)準(zhǔn)卷積得到的特征信息通過Shuffle混洗操作滲透到深度可分離卷積生成的特征信息中,有效減少多通道信息損失,同時降低計算成本。GSConv示意如圖7所示。
假定輸入圖像通道數(shù)為C1,經(jīng)過1次標(biāo)準(zhǔn)卷積得到的通道數(shù)為C2/2,再經(jīng)過1次深度可分離卷積操作,得到一個通道數(shù)仍為C2/2的輸出,將2次輸出進行Concat拼接和Shuffle混洗,得到通道數(shù)為C2的輸出結(jié)果。在Backbone中,特征圖維度變化時會不可避免地?fù)p失部分特征信息,而GSConv嘗試保留這些信息,當(dāng)特征圖處理達(dá)到Neck部分時,在寬高維度上已然最小,在通道維度上最大,冗余信息少,不用再進行變換,因此本研究僅在Neck部分用GSConv替換標(biāo)準(zhǔn)卷積,在減少參數(shù)量的同時,實現(xiàn)更好的多尺度融合效果。GSConv的時間復(fù)雜度可以表示為式(7)。
TimeGSConv=OW×H×X1×X2×C22(C1+1)。(7)
其中,W、H表示輸入特征圖的寬、高;X1和X2表示卷積核的大??;C1和C2分別表示輸入特征圖的通道數(shù)和輸出特征圖的通道數(shù)。
遵循Slim-Neck的設(shè)計思想,本研究引入基于GSConv設(shè)計的瓶頸層GS bottleneck以及跨級部分網(wǎng)絡(luò)模塊VoV-GSCSP,并用VoV-GSCSP替換原有的CSP模塊,其示意如圖8所示。
1.3.5" PSA注意力
在目標(biāo)檢測任務(wù)中,準(zhǔn)確地提取個體的空間位置信息是至關(guān)重要的。對于包含害蟲個體的數(shù)據(jù)圖像,稻葉、農(nóng)田等自然背景占比較大,在卷積等過程中這些無用背景同樣參與計算,產(chǎn)生較多的冗余信息,對害蟲目標(biāo)的識別造成干擾。為提高空間信息的權(quán)重,降低背景噪聲的影響,本研究在主干提取網(wǎng)絡(luò)的SPPF層前嵌入了極化自注意力(polarized self-attention,PSA)機制模塊以解決該問題[28]。
PSA極化自注意力機制來源于光學(xué)攝影中的極化濾波思想,即將某一方向上的特征完全折疊,同時在其正交方向上保證較低的信息壓縮損失。如圖9所示,PSA模塊由通道自注意力和空間自注意力2個部分構(gòu)成,計算方法見公式(8)、(9)。
在通道自注意力部分中,輸入的特征圖會首先經(jīng)過2次卷積操作轉(zhuǎn)換成通道被完全壓縮的特征Q(W×H×1)以及通道對半壓縮的特征V(W×H×C/2),其次對Q進行降維轉(zhuǎn)置,并通過Softmax函數(shù)
對先前壓縮的空間特征信息賦予權(quán)重,對V進一步執(zhí)行降維操作,將通過上述操作后得到的Q(WH×1×1)和V(WH×C/2)相乘,并將得到的結(jié)果進行卷積和歸一化處理,然后通過Sigmoid函數(shù)計算即可獲得對應(yīng)的通道權(quán)重值。
Ch(X)=fsg[W(σ1(Wv(X)))×fsm(σ2(Wq(X)))]。(8)
fsm(X)=∑Npj=1exj∑Npm=1exmxj。(9)
其中,Ch(X)代表通道自注意力;fsg代表Sigmoid函數(shù);fsm代表softmax函數(shù);Wv、Wq、W代表卷積操作;σ1、σ2、σ3代表降/升維操作。
空間自注意力部分會接收來自通道自注意力部分的權(quán)重值,同樣經(jīng)過2次卷積,得到通道數(shù)減半的Q和V,Q經(jīng)過全局池化后,在空間維度上信息被完全壓縮,經(jīng)過同自注意力模塊中相同的操作后,與被降維后的V進行相乘、升維、Sigmoid函數(shù)處理,得到對應(yīng)的空間權(quán)重值,將得到的通道和空間權(quán)重值進行點乘加權(quán),即可得到特征輸出,計算方法見公式(10)、(11)。
Sp(X)=fsg[σ3(fsm(σ1(fgp(wq(X))))×σ2(Wv(X))];(10)
fgp=1H×W∑Hi=1∑Wj=1X(:,i,j)。(11)
其中,fgp代表全局池化操作。
1.4" 試驗平臺及參數(shù)設(shè)置
軟件試驗環(huán)境:64位Windows 10操作系統(tǒng),使用python 3.8版本進行開發(fā),開發(fā)軟件為Pycharm2023專業(yè)版,深度學(xué)習(xí)框架為Pytorch 2.0.1,cuda版本為11.8;硬件配置:CPU為Intel Core i5-13400f,GPU使用NVIDIA GeForce RTX2060s,GPU顯存為8 GB。所有試驗均在相同環(huán)境下進行,試驗時間為2024年1—3月,試驗地點為湖北省荊州市長江大學(xué)計算機科學(xué)學(xué)院。模型訓(xùn)練過程中的超參數(shù)設(shè)置如表2所示。
1.5" 評價指標(biāo)
為檢驗本研究提出模型的優(yōu)越性,采用目標(biāo)檢測領(lǐng)域中公認(rèn)的精確率(precision,P)、召回率(recall,R)、平均精度均值(mean average precision,mAP)、浮點計算量(GFLOPs)作為評價指標(biāo)進行優(yōu)越性評價,計算公式分別為
P=NTPNTP+NFP×100%;(12)
R=NTPNTP+NFN×100%;(13)
AP=∫10P(R)dR;(14)
mAP=1n∑ni=1PAPi。(15)
本研究中,NTP(true postives)代表正確識別出害蟲的數(shù)量;NFP代表(true postives)錯誤識別的害蟲數(shù)量;NFN(1 negatives)表示未檢測出的害蟲數(shù)量;AP是P-R曲線對應(yīng)的積分,代表平均精度;n為類別數(shù)量,在本研究中n=6。
2" 結(jié)果與分析
2.1" 消融試驗結(jié)果
為驗證本研究改進的有效性,在相同的試驗環(huán)境和參數(shù)設(shè)定下,基于YOLO v8n進行消融試驗,分析各部分改進的有效性。記前文主干改進為試驗A、頸部改進為試驗B、添加注意力模塊為試驗C,a~f 依次表示的本研究中的6類害蟲:稻褐飛虱、黑尾葉蟬、稻縱卷葉螟、稻蝽、二化螟、稻水蠅。
由表3可知,(1)在主干網(wǎng)絡(luò)中引入SD_Conv后,模型對6類害蟲的識別精度分別提高6.4、2.3、2.4、1.6、3.3、4.0百分點,說明加入SPD模塊的特征提取網(wǎng)絡(luò)盡可能地保留了相對細(xì)小的特征信息,對于圖像數(shù)據(jù)中表現(xiàn)出小目標(biāo)特征的害蟲具有更好的特征提取能力;(2)在頸部引入GSConv和 VoV-GSCSP 模塊后,雖然在mAP0.5上僅提升1.0百分點,但計算量降低14.6%,滿足在算力較低的設(shè)備上部署的要求,同時證明在YOLO v8n中引入Slim-Neck范式具有可行性;(3)加入PSA注意力模塊后,模型的平均檢測精度提升2.8百分點,說明加入注意力模塊后的模型能夠更加關(guān)注個體的空間信息,有效降低背景噪聲的影響,提高模型的識別能力。此外,模型對于稻水蠅和稻褐飛虱的識別精度偏低,核驗數(shù)據(jù)集后發(fā)現(xiàn),這2類害蟲在不同生長時期的外觀有一定差異,且存在部分生長時期害蟲特征不易區(qū)分的問題,導(dǎo)致檢測結(jié)果偏低,后期會針對不同生長時期的害蟲進行進一步細(xì)分,使得模型有更好的檢測效果。
由表3和圖10可知,基于上述3種改進的YOLO v8-SDPS相較于基準(zhǔn)模型計算量有所降低,mAP0.5提升4.1百分點,準(zhǔn)確率和召回率均明顯提升,說明YOLO v8-SDPS充分融合了各模塊改進之后的優(yōu)勢,實現(xiàn)了模型檢測性能與計算量的平衡,符合實際生產(chǎn)過程中的需求。
2.2" 對比試驗
2.2.1" 注意力對比" 在模型中加入注意力模塊是研究者們常用的提升模型性能的方法,為驗證本研究模型添加PSA注意力模塊的有效性,將PSA與SE、CA、ECA、CBAM等經(jīng)典注意力機制進行對比,注意力添加位置保持一致,對比結(jié)果如圖11、表4所示,CA模塊對于模型精度略有提升(提升1.0百分點),CBAM模塊對于模型提升較為明顯(提升2.3百分點),但低于PSA,且模型收斂速度較慢,ECA模塊加快了模型的收斂速度,但對于精度的提升效果甚微,SE模塊對模型并未起到提升精度的作用。本研究采用的PSA注意力模塊不僅對于模型精度提升明顯(提升2.8百分點),并且模型在迭代60輪時接近收斂,均優(yōu)于其他注意力模塊,證明了本研究引入PSA模塊的優(yōu)越性。
2.2.2" 不同模型對比
在本研究建立的數(shù)據(jù)集上,對比分析YOLO v8-SDPS與當(dāng)前主流的目標(biāo)檢測算法,結(jié)果如表5所示。
由表5可知,雙階段檢測模型Faster R-CNN的檢測效果最差且運算量最大。YOLO v8-SDPS相比于改進前的基準(zhǔn)模型YOLO v8n降低了一定的計算量,精確率、召回率、mAP0.5均不同程度地優(yōu)于其他網(wǎng)絡(luò)模型,平均精度較YOLO系列中的YOLO X、YOLO v5s、YOLO v7-Tiny、YOLO v8n分別提高了6.4、3.9、5.2、4.1百分點,而FPS雖然比改進前有所降低,但與YOLO v7-Tiny相當(dāng),仍滿足實時性檢測需求,相較于其他模型
展現(xiàn)出更為突出的性能。
2.3" 目標(biāo)檢測結(jié)果及分析
本研究對基準(zhǔn)模型和改進后的模型在尺度不一、部分遮擋、背景相似、目標(biāo)微小、強光照等不同條件下的檢測效果進行可視化對比分析,以驗證改進后模型的性能效果,對比結(jié)果如圖12所示。由圖12可以看出,原始模型存在一定的漏檢、誤檢情況,將圖12-b圖左下角部分遮擋的稻褐飛虱未被識別到,將圖12-e圖的背景錯誤識別為稻蝽,將圖 12-h 圖背景中的葉片識別成黑尾葉蟬等,說明原始模型在特征提取階段丟失較多特征信息。而改
進后的模型對于小目標(biāo)邊緣特征的提取更為充分,同時能有效降低背景噪聲的影響,使模型更關(guān)注個
體特征,在不同環(huán)境下依然能保持優(yōu)于基準(zhǔn)模型的檢測性能。
3" 結(jié)論與討論
針對現(xiàn)有水稻害蟲識別方法準(zhǔn)確率較低、計算較為復(fù)雜以及缺乏檢測功能等問題,本研究提出一種基于YOLO v8的改進模型并命名為YOLO v8-SDPS,對6種常見且危害較大的水稻害蟲進行研究。該模型通過引入SD_Conv模塊替代標(biāo)準(zhǔn)卷積、引入基于Slim-Neck范式的GSConv和VoV-GSCSP模塊、添加PSA自注意力,降低參數(shù)量,同時提高模型的檢測性能。通過對比試驗結(jié)果可知,本研究提出的改進后的模型在自建水稻害蟲數(shù)據(jù)集上的平均識別精度提升4.1百分點,參數(shù)量、計算量分別降低了16.8%、15.7%,滿足部署在低能耗設(shè)備上的要求。這表明本研究取得較好的效果,證明改進的有效性。本研究中的YOLO v8-SDPS模型不僅可以對水稻害蟲進行識別分類,而且可以對發(fā)生蟲害的水稻進行檢測定位。在實際生產(chǎn)中,可以幫助相關(guān)從事者及時、準(zhǔn)確定位稻田蟲害發(fā)生的位置,從而采取相應(yīng)的防治措施。該模型亦可為農(nóng)業(yè)領(lǐng)域中相關(guān)農(nóng)作物的害蟲識別防治提供一定的參考。
本研究針對現(xiàn)有的水稻害蟲識別問題提出的YOLO v8-SDPS模型取得了良好的試驗效果,但仍存在部分害蟲在不同生長周期因外觀特征相似而識別精度較低的問題。未來的研究將重點關(guān)注相似外觀特征的害蟲識別問題,通過擴大數(shù)據(jù)集、細(xì)化標(biāo)簽標(biāo)注等方式,持續(xù)優(yōu)化模型在多種復(fù)雜情況下的識別能力,為農(nóng)業(yè)工作者提供準(zhǔn)確的害蟲信息,促進智慧農(nóng)業(yè)的發(fā)展。
參考文獻(xiàn):
[1]褚世海,李儒海,黃啟超,等. 湖北省水稻田農(nóng)藥使用現(xiàn)狀調(diào)查[J]. 中國植保導(dǎo)刊,2022,42(12):65-68.
[2]鐘朝軍,戴長庚,毛向華. 水稻主要蟲害綠色防控技術(shù)研究[J]. 耕作與栽培,2022,42(6):123-124.
[3]蔣心璐,陳天恩,王" 聰,等. 農(nóng)業(yè)害蟲檢測的深度學(xué)習(xí)算法綜述[J]. 計算機工程與應(yīng)用,2023,59(6):30-44.
[4]Zou K L,Ge L Z,Zhou H,et al. Broccoli seedling pest damage degree evaluation based on machine learning combined with color and shape features[J]. Information Processing in Agriculture,2021,8(4):505-514.
[5]田" 冉,陳梅香,董大明,等. 紅外傳感器與機器視覺融合的果樹害蟲識別及計數(shù)方法[J]. 農(nóng)業(yè)工程學(xué)報,2016,32(20):195-201.
[6]Rustia D J A,Lin C E,Chung J Y,et al. Application of an image and environmental sensor network for automated greenhouse insect pest monitoring[J]. Journal of Asia-Pacific Entomology,2020,23(1):17-28.
[7]王春桃,梁煒健,郭慶文,等. 農(nóng)業(yè)害蟲智能視覺檢測研究綜述[J]. 中國農(nóng)機化學(xué)報,2023,44(7):207-213.
[8]溫艷蘭,陳友鵬,王克強,等. 基于機器視覺的病蟲害檢測綜述[J]. 中國糧油學(xué)報,2022,37(10):271-279.
[9]Domingues T,Brando T,F(xiàn)erreira J C.Machine learning for detection and prediction of crop diseases and pests:a comprehensive survey[J]. Agriculture,2022,12(9):1350.
[10]Kasinathan T,Uyyala S R.Machine learning ensemble with image processing for pest identification and classification in field crops[J]. Neural Computing and Applications,2021,33(13):7491-7504.
[11]吳子煒,夏" 芳,陸林峰,等. 基于改進YOLO v5的水稻主要害蟲識別方法[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(21):218-224.
[12]溫艷蘭,陳友鵬,王克強,等. 基于遷移學(xué)習(xí)和改進殘差網(wǎng)絡(luò)的復(fù)雜背景下害蟲圖像識別[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(8):171-177.
[13]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[14]Xiao J Q,Zhou Z Y. Research progress of RNN language model[C]//2020 IEEE International Conference on Artificial Intelligence and Computer Applications(ICAICA).Dalian,China:IEEE,2020:1285-1288.
[15]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[EB/OL]. (2017-06-12)[2024-04-01]. https://arxiv.org/abs/1706.03762.
[16]慕君林,馬" 博,王云飛,等. 基于深度學(xué)習(xí)的農(nóng)作物病蟲害檢測算法綜述[J]. 農(nóng)業(yè)機械學(xué)報,2023,54(增刊2):301-313.
[17]佘" 顥,吳" 伶,單魯泉. 基于SSD網(wǎng)絡(luò)模型改進的水稻害蟲識別方法[J]. 鄭州大學(xué)學(xué)報(理學(xué)版),2020,52(3):49-54.
[18]范春全,何彬彬. 基于遷移學(xué)習(xí)的水稻病蟲害識別[J]. 中國農(nóng)業(yè)信息,2020,32(2):36-44.
[19]Wu X P,Zhan C,Lai Y K,et al. IP102:a large-scale benchmark dataset for insect pest recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA:IEEE,2019:8779-8788.
[20]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA:IEEE,2016:779-788.
[21]Redmon J,F(xiàn)arhadi A. YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu,HI,USA:IEEE,2017:6517-6525.
[22]Redmon J,F(xiàn)arhadi A. YOLO v3:an incremental improvement[EB/OL]. (2018-04-08)[2023-12-16]. https://arxiv.org/abs/1804.02767v1.
[23]Thuan D. Evolution of Yolo algorithm and YOLO v5:the State-of-the-Art object detention algorithm[J/OL]. Oulu University of Applied Sciences,2021:1-61(2021-03-04)[2023-04-27]. https://urn.fi/URN:NBN:fi:amk-202103042892.
[24]Fu J,Liu J,Tian H J,et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA:IEEE,2019:3141-3149.
[25]Sunkara R,Luo T. No more strided convolutions or pooling:a new CNN building block for low-resolution images and Small objects[EB/OL]. (2022-08-07)[2023-11-13]. https://doi.org/10.48550/arXiv.2208.03641.
[26]毛遠(yuǎn)宏,賀占莊,劉露露. 目標(biāo)跟蹤中基于深度可分離卷積的剪枝方法[J]. 西安交通大學(xué)學(xué)報,2021,55(1):52-59.
[27]Li H L,Li J,Wei H B,et al. Slim-neck by GSConv:a better design paradigm of detector architectures for autonomous vehicles[EB/OL]. (2022-06-06)[2023-11-01]. https://arxiv.org/abs/2206.02424v3.
[28]Liu H J,Liu F Q,F(xiàn)an X Y,et al. Polarized self-attention:towards high-quality pixel-wise mapping[J]. Neurocomputing,2022,506:158-167.