doi:10.15889/j.issn.1002-1302.2024.20.018
摘要:針對(duì)農(nóng)田環(huán)境下小麥麥穗目標(biāo)檢測(cè)精確率低的問題,在YOLO v7-tiny模型基礎(chǔ)上進(jìn)行深入改進(jìn),旨在提高麥穗檢測(cè)的準(zhǔn)確率,以滿足農(nóng)業(yè)生產(chǎn)管理系統(tǒng)和農(nóng)業(yè)機(jī)器人邊緣檢測(cè)設(shè)備的需求。采用EfficientViT的主干網(wǎng)絡(luò)替代YOLO v7-tiny的特征提取網(wǎng)絡(luò)層,強(qiáng)化圖像特征的提取能力;在特征融合網(wǎng)絡(luò)層,引入CARAFE上采樣模塊替代原模型中的上采樣模塊,進(jìn)一步優(yōu)化特征融合過程;在特征融合網(wǎng)絡(luò)層和輸出層引入基于跨空間學(xué)習(xí)的高效多尺度注意力機(jī)制,有效提升模型的目標(biāo)檢測(cè)性能。結(jié)果表明,改進(jìn)后的模型在小麥麥穗檢測(cè)精確率上比YOLO v7-tiny模型提高了2.9百分比;與YOLO v7模型相比,本模型雖然精確率低0.2百分點(diǎn),但在參數(shù)量、計(jì)算量上分別降低了82.6%、84.5%,同時(shí)模型體積減小了81.2%。綜合考慮精確率、參數(shù)量、計(jì)算量、模型體積等多個(gè)指標(biāo),本研究的改進(jìn)模型在部署于智能農(nóng)機(jī)類邊緣檢測(cè)設(shè)備方面具有優(yōu)越性。
關(guān)鍵詞:目標(biāo)檢測(cè);YOLO v7;EfficientViT;CARAFE;高效多尺度注意力機(jī)制
中圖分類號(hào):S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)20-0147-10
收稿日期:2023-09-25
基金項(xiàng)目:新疆維吾爾自治區(qū)重大科技專項(xiàng)(編號(hào):2022A02011-2);科技創(chuàng)新2030重大項(xiàng)目(編號(hào):2022ZD0115805)。
作者簡(jiǎn)介:魯子翱(2000—),男,湖南岳陽(yáng)人,主要研究方向?yàn)閳D像處理。E-mail:17873555123@163.com。
通信作者:張婧婧,副教授,主要從事農(nóng)業(yè)信息化技術(shù)工作。E-mail:zjj@xjau.edu.cn。
小麥?zhǔn)乾F(xiàn)今世界上最重要的糧食作物之一。我國(guó)小麥種植面積約占糧食作物總播種面積的22%[1]。我國(guó)是世界上最大的小麥生產(chǎn)國(guó),準(zhǔn)確識(shí)別麥穗對(duì)于監(jiān)測(cè)小麥生長(zhǎng)、估算產(chǎn)量、分析表型特征至關(guān)重要[2-4]。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)和GPU計(jì)算能力的發(fā)展,目標(biāo)檢測(cè)被廣泛應(yīng)用于智慧農(nóng)業(yè)、人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域[5-7]。將目標(biāo)檢測(cè)技術(shù)應(yīng)用到小麥麥穗的識(shí)別中,可有效減少小麥?zhǔn)崭钪械膿p耗并降低收割成本。目前,小麥麥穗及相關(guān)目標(biāo)檢測(cè)任務(wù)已相繼展開。Olgun等依靠DSIFT進(jìn)行特征提取后,借助支持向量機(jī)分類算法對(duì)麥穗進(jìn)行識(shí)別檢測(cè),該方法針對(duì)單一小麥麥穗進(jìn)行目標(biāo)進(jìn)行檢測(cè),應(yīng)用范圍有限[8]。在自然農(nóng)田環(huán)境中,鮑文霞等提出一種基于YOLO v3對(duì)小麥麥穗進(jìn)行目標(biāo)檢測(cè)與計(jì)數(shù)的方法,但模型數(shù)據(jù)集較小,模型的魯棒性較差[9]。Li等提出一種改進(jìn)YOLO v5的麥穗檢測(cè)算法,對(duì)農(nóng)田環(huán)境下模糊不清、有遮擋的麥穗檢測(cè)有一定的性能提升,但模型體積較大[10]。臧賀藏等使用YOLO v5s模型對(duì)淮南區(qū)域試驗(yàn)小麥進(jìn)行麥穗檢測(cè),可以快速準(zhǔn)確地檢測(cè)出小麥穗數(shù),但沒有對(duì)模型進(jìn)行改進(jìn)[11]。李云等提出一種基于YOLO v5的麥穗檢測(cè)方法,對(duì)模型體積進(jìn)行輕量化改進(jìn),但是檢測(cè)精確度不如基線模型[12]。楊蜀秦等利用改進(jìn)YOLOX的單位面積麥穗檢測(cè)方法,通過采樣框?qū)崿F(xiàn)單位面積麥穗計(jì)數(shù),與對(duì)比模型相比,其檢測(cè)精確率提升效果仍不明顯[13]。Zhang等利用YOLO結(jié)構(gòu)的旋轉(zhuǎn)YOLO小麥檢測(cè)網(wǎng)絡(luò)作為一種新型旋轉(zhuǎn)檢測(cè)器,能夠檢測(cè)任意方向檢測(cè)盒的麥穗圖像,可解決水平檢測(cè)中的背景干擾問題,但是運(yùn)用場(chǎng)景較為單一[14]。
綜上所述,為了提高復(fù)雜農(nóng)田背景下的密集型目標(biāo)檢測(cè)任務(wù)的精確率,本研究對(duì)YOLO v7-tiny檢測(cè)算法進(jìn)行改進(jìn),主要方法如下:(1)用EfficientViT替換YOLO v7-Tiny的特征提取網(wǎng)絡(luò)層,采用EfficientViT高效的計(jì)算方法[15],通過優(yōu)化內(nèi)存效率和減少計(jì)算冗余,提高模型的計(jì)算效率,進(jìn)而提升檢測(cè)精確率;(2)在特征融合網(wǎng)絡(luò)層中,用輕量級(jí)上采樣算子CARAFE[16]替換最近鄰插值上采樣方式,以擴(kuò)大感受野并自適應(yīng)輸入內(nèi)容,進(jìn)一步提升檢測(cè)精確率;(3)在特征融合網(wǎng)絡(luò)層和輸出層的特定位置嵌入基于跨空間學(xué)習(xí)的高效多尺度注意力(EMA)機(jī)制[17],提高多尺度圖像處理的效率和準(zhǔn)確性,通過跨空間學(xué)習(xí),提高模型的靈活性,實(shí)現(xiàn)輕量級(jí)特性。
1" 材料與方法
1.1" 數(shù)據(jù)集的制作
為提高模型的泛化能力,本次研究使用2個(gè)數(shù)據(jù)集構(gòu)成,共3 436幅圖像,訓(xùn)練集 ∶驗(yàn)證集 ∶測(cè)試集按照8 ∶1 ∶1隨機(jī)劃分。
1.1.1" 自制數(shù)據(jù)集
自制數(shù)據(jù)集的小麥麥穗圖象采集于新疆省昌吉市大西渠鎮(zhèn)華興農(nóng)場(chǎng)(87°29′E,44°22′N),屬于溫帶大陸性氣候。小麥品種為新冬22。拍攝時(shí)間為2023年6—7月,每隔1周進(jìn)行拍攝,覆蓋小麥的成熟期。田間小麥分布較為密集,在采集圖像時(shí)均從側(cè)上方拍攝圖像,經(jīng)過圖像數(shù)量的對(duì)比和預(yù)試驗(yàn),最終保留53幅圖像構(gòu)成自制數(shù)據(jù)集。采集的麥穗穗圖像分辨率為 1 706像素×1 280 像素,圖 1-a為自制數(shù)據(jù)集圖像示例。
1.1.2" 公開數(shù)據(jù)集
公開數(shù)據(jù)集為全球小麥麥穗檢測(cè)數(shù)據(jù)集[18],包含4 700幅RGB圖像和約 190 000 個(gè)標(biāo)記的麥穗,由歐洲、北美洲、大洋洲、亞洲的不同品種、不同種植條件、不同氣候、不同采集方法等渠道匯總而成。因此,全球小麥麥穗檢測(cè)數(shù)據(jù)集具有基因型和環(huán)境的多樣性,對(duì)提高小麥穗部檢測(cè)和定位的準(zhǔn)確性、可靠性有所幫助。圖1-b為公開數(shù)據(jù)集圖像示例。
1.2" YOLO v7-tiny模型
YOLO v7是YOLO v4官方團(tuán)隊(duì)在2022年提出的YOLO系列全新架構(gòu)[19],在5~160 幀/s范圍內(nèi)的速度和準(zhǔn)確率都超過了目前多數(shù)目標(biāo)檢測(cè)器。YOLO v7-tiny算法由YOLO v7精簡(jiǎn)而來,保留基于級(jí)聯(lián)的模型縮放策略,并改進(jìn)了高效長(zhǎng)程聚合網(wǎng)絡(luò)(ELAN);在保證檢測(cè)精確率的基礎(chǔ)上,其參數(shù)量更小,檢測(cè)速度更快,適應(yīng)各類實(shí)時(shí)檢測(cè)的需求。故本研究選擇在YOLO v7-tiny的基礎(chǔ)上進(jìn)行模型改進(jìn)。YOLO v7-tiny算法由輸入端(Input)、特征提取網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(Neck)、輸出端(Head)4個(gè)部分構(gòu)成(圖2)。
輸入端使用Mosaic技術(shù),提升訓(xùn)練速度,降低內(nèi)存消耗。圖像經(jīng)過輸入端裁剪、縮放等一系列預(yù)處理操作,使像素統(tǒng)一,滿足特征提取網(wǎng)絡(luò)需求。
特征提取網(wǎng)絡(luò)包括CBL卷積塊、改進(jìn)的高效遠(yuǎn)程聚合網(wǎng)絡(luò)(ELAN-A)層和MP卷積層。ELAN-A層從基線的YOLO v7中削減了2組特征計(jì)算塊,提高了特征提取速度,但降低了特征提取能力。
YOLO v7-tiny的特征融合網(wǎng)絡(luò)采用了 YOLO v5 系列的路徑聚合特征金字塔網(wǎng)絡(luò)架構(gòu),將特征金字塔網(wǎng)絡(luò)頂層的強(qiáng)語(yǔ)義信息與路徑聚合網(wǎng)絡(luò)自下而上的強(qiáng)定位信息張量相結(jié)合,通過特征信息融合,實(shí)現(xiàn)多尺度學(xué)習(xí)。其中,特征融合網(wǎng)絡(luò)的張量拼接中沒有充分優(yōu)先考慮相鄰層的特征目標(biāo)信息,可能導(dǎo)致特征信息的丟失。
輸出端使用類似于YoloR模型的IDetect[20]檢測(cè)頭,引入了一種隱式表示策略,以基于融合的特征值來改進(jìn)預(yù)測(cè)結(jié)果。
1.3" 改進(jìn)YOLO v7-tiny目標(biāo)檢測(cè)算法
1.3.1" 主干特征提取網(wǎng)絡(luò)
對(duì)農(nóng)田環(huán)境下的麥穗檢測(cè)任務(wù)而言,YOLO v7的特征提取模型復(fù)雜度較高,增大了模型的參數(shù)量與計(jì)算量。Vision Transformer (ViT)是將Transformer引入計(jì)算機(jī)視覺領(lǐng)域的成功嘗試。EfficientViT的高速ViT模型通過設(shè)計(jì)新的模塊和注意力機(jī)制來提高內(nèi)存效率和計(jì)算效率,從而在速度和準(zhǔn)確性之間取得良好的平衡?;诖?,本研究提出用EfficientViT取代YOLO v7-Tiny的主干網(wǎng)絡(luò),以減少模型參數(shù)量,加快檢測(cè)速度并節(jié)省計(jì)算資源。
EfficientViT由3個(gè)模塊組成(圖3)。這3個(gè)模塊分別是三明治布局塊(a)、級(jí)聯(lián)組注意力模塊(b)、參數(shù)重新分配(c)。其中,三明治布局塊采用一種新的布局方式,使用較少內(nèi)存綁定的自注意力層和較多內(nèi)存的高效前饋神經(jīng)網(wǎng)絡(luò)層進(jìn)行通道通信。三明治布局塊旨在解決注意力頭之間的計(jì)算冗余問題,提出一種級(jí)聯(lián)的分組注意力模塊,將完整特征的不同分割提供給注意力頭,既節(jié)省計(jì)算成本,又提高注意力的多樣性。參數(shù)重新分配則是為了減少模型參數(shù),提出一種參數(shù)重分配策略,將一些參數(shù)從注意力頭移動(dòng)到前饋神經(jīng)網(wǎng)絡(luò)中。
三明治布局塊。為了建立一個(gè)內(nèi)存有效的塊,采用較少內(nèi)存綁定自我注意力層φAi和較多內(nèi)存的有效FFN層φFi信道通信。具體來說,它應(yīng)用了單一的對(duì)于空間混合的單個(gè)自注意力層:
Xi=ПnφFi{φAi[ПnφFi(Xi)]}。(1)
式(1)中:Xi是第i個(gè)塊的完整輸入特征。塊在單個(gè)自注意層之前和之后將Xi變換為X(i+1)。設(shè)計(jì)減
少了模型中自我注意力層造成的存儲(chǔ)時(shí)間消耗,并應(yīng)用更多的前饋神經(jīng)網(wǎng)絡(luò)層,允許不同特征通道之間的有效通信;此外使用深度卷積在每個(gè)前饋神經(jīng)網(wǎng)絡(luò)之前應(yīng)用額外的令牌交互層,通過引入局部結(jié)構(gòu)信息的感性偏置,增強(qiáng)模型能力。
級(jí)聯(lián)組注意力模塊。注意頭冗余是多頭自注意力中的一個(gè)嚴(yán)重問題,容易導(dǎo)致計(jì)算效率低下。級(jí)聯(lián)群注意力為每個(gè)頭部提供完整特征的不同分割,從而明確地分解頭部之間的注意力計(jì)算。公式可以表述為:
X~ij=Attn(XijWQij,XijWKij,XijWVij),
X~i+1=Concat(X~ij)j-1 ∶hWpi。(2)
式(2)中:第j個(gè)頭部計(jì)算Xij上的自注意力,Xij是輸入特征Xi的第j個(gè)分割;WQij、WKij、WVij將輸入特征映射到不同子空間的投影層;WPi是將級(jí)聯(lián)的輸出特征投影回與輸入一致的維度的線性層。
圖2中,通過激勵(lì)Q、K、V層學(xué)習(xí),具有更豐富信息特征上的投影將繼續(xù)提高其容量,并以級(jí)聯(lián)的方式計(jì)算每個(gè)頭部的注意力圖,其將每個(gè)頭部的輸出添加到后續(xù)頭部以漸進(jìn)細(xì)化特征。公式可表述為:
X′ij=Xij+X~i(j-1),1lt;j≤h。(3)
式中:X′ij是第j個(gè)輸入Xij和第(j-1)個(gè)輸出 X~i(j-1) 的相加,當(dāng)計(jì)算自注意力時(shí),它取代Xij以充當(dāng)?shù)趈個(gè)頭部的新輸入特征。另外,在Q投影之后應(yīng)用交互層,自注意力能夠聯(lián)合捕獲局部和全局關(guān)系,并進(jìn)一步增強(qiáng)特征表示。
參數(shù)重新分配。為了提高參數(shù)效率,EfficientViT通過擴(kuò)大關(guān)鍵模塊的信道寬度、縮小不重要模塊的信道寬度,來重新分配網(wǎng)絡(luò)中的參數(shù)。具體而言,每個(gè)頭部所有階段的Q、K投影均設(shè)置了小通道維度。對(duì)于V投影,允許它與輸入嵌入具有相同的維數(shù)。由于其參數(shù)冗余性,F(xiàn)FN的擴(kuò)展比也從4降低到2。該策略中重要模塊在高維空間中有更多學(xué)習(xí)表征的通道,避免了特征信息的丟失。同時(shí),去除不重要模塊中的冗余參數(shù),加快推理速度,提高模型效率。
EfficientViT用6個(gè)不同的寬度和深度建立了M0-M5的模型,并為每個(gè)階段設(shè)置了不同數(shù)量的頭部(表1)。與MobileNet v3、LeViT類似,在處理較大分辨率圖像時(shí),前期的階段計(jì)算更為耗時(shí)。因此,在早期階段比晚期階段使用更少的塊。其中,Ci 、Li 、Hi分別是指第i階段頭部的寬度、深度、數(shù)量。
EfficientViT采用3種優(yōu)化方法來提高計(jì)算效率并減少計(jì)算冗余。不同的優(yōu)化方法對(duì)EfficientViT的性能有不同的影響,通過減少內(nèi)存訪問時(shí)間和計(jì)算冗余,EfficientViT能夠提高計(jì)算效率和加快推理速度。(1)在高效前饋神經(jīng)網(wǎng)絡(luò)層之間使用單個(gè)內(nèi)存綁定的多頭自注意力,提高內(nèi)存效率,同時(shí)增強(qiáng)信道通信;(2)為了解決注意圖在不同頭部之間具有高相似性而導(dǎo)致的計(jì)算冗余問題,級(jí)聯(lián)組注意力模塊以不同的全特征分割方式饋送注意頭,既節(jié)省了計(jì)算成本,又提高了特征多樣性;(3)通過結(jié)構(gòu)化剪枝來重新分配參數(shù),將更多的參數(shù)分配給關(guān)鍵的網(wǎng)絡(luò)組件,這種參數(shù)重新分配方式最終提高了模型的參數(shù)效率。
1.3.2" 引入上采樣算子CARAFE
現(xiàn)有卷積網(wǎng)絡(luò)體系結(jié)構(gòu)中,特征上采樣是一個(gè)關(guān)鍵算子。傳統(tǒng)算法中上采樣以最近鄰插值法為主,僅僅通過像素點(diǎn)位置來決定上采樣核,并沒有利用特征圖的語(yǔ)義信息,且感知域很小。本研究采用感受野較大的輕量級(jí)通用上采樣算子CARAFE,可以很好地利用特征圖的語(yǔ)義信息,同時(shí)不引入過多的參數(shù)量和計(jì)算量。利用CARAFE代替所有特征層中最近鄰插值上采樣,加強(qiáng)低分辨率特征圖經(jīng)過CARAFE上采樣與高分辨率特征圖的融合,提升特征金字塔網(wǎng)絡(luò)性能。CARAFE分為2個(gè)主要模塊,分別是上采樣核預(yù)測(cè)模塊、特征重組模塊。
由圖4可見,上采樣倍率為δ,輸入特征圖是 H×W×C。通過上采樣核預(yù)測(cè)模塊對(duì)上采樣核進(jìn)行預(yù)測(cè),再通過特征重組模塊對(duì)上采樣完成重組,獲得具有形狀δH×δW×C的輸出特征圖。在上采樣預(yù)測(cè)模塊中,為降低后續(xù)計(jì)算量,對(duì)輸入形狀H×W×C的特征圖先通過1×1卷積壓縮通道數(shù),然后壓縮為H×W×Cm的內(nèi)容編碼并預(yù)測(cè)上采樣核,使用Kencode×Kencode卷積層預(yù)測(cè)上采樣核,輸入的通道數(shù)是Cm,輸出是δ2K2up的上采樣核歸一化運(yùn)算,使得上采樣核加權(quán)和為1。在特征重組模塊,針對(duì)輸出特征圖的每一個(gè)位置,映射回到輸入特征圖并取其中1個(gè)大小為Kup×Kup的區(qū)域作為中心,對(duì)該點(diǎn)處采樣核進(jìn)行點(diǎn)積預(yù)測(cè)以獲得輸出值。同一地點(diǎn)不同信道共用同一個(gè)上采樣核,并最終獲得輸出為 δH×δW×C的輸出特征圖。增大Kencode可以擴(kuò)大感受野的范圍,利用更大區(qū)域的上下文信息。增大Kup可以更充分地利用特征圖的語(yǔ)義信息。本研究選取Kencode=3、Kup=5。利用CARAFE上采樣替換特征金字塔網(wǎng)絡(luò)中最近鄰上采樣改進(jìn)后的模型,在檢測(cè)召回率、準(zhǔn)確率、精確率方面均有提升,增強(qiáng)了特征金字塔網(wǎng)絡(luò)對(duì)圖像特征提取和融合的能力。
1.3.3" 引入注意力機(jī)制
關(guān)于小麥輸入的圖像,除了麥穗的信息外,常會(huì)伴有復(fù)雜的農(nóng)田背景信息。在特征融合網(wǎng)絡(luò)中進(jìn)行卷積時(shí),背景的迭代累積會(huì)形成大量冗余信息,淹沒部分目標(biāo),導(dǎo)致檢測(cè)準(zhǔn)確率不高。為此,本研究加入EMA注意力機(jī)制,選擇出有效位置,將其加入到Y(jié)OLO v7-tiny網(wǎng)絡(luò)模型中進(jìn)行特征融合,使模型更加精準(zhǔn)地定位和識(shí)別興趣目標(biāo)。
EMA模塊從坐標(biāo)注意力機(jī)制的設(shè)計(jì)策略,將位置信息嵌入到通道注意中,將通道注意力分解為沿2個(gè)不同方向聚合特征的一維特征編碼過程,分別沿水平和垂直方向做一維全局平均池化,不同于通道注意力將輸入使用二維的全局池化轉(zhuǎn)化為單個(gè)特征向量。EMA注意力機(jī)制將通道注意力分解為2個(gè)一維向量的特征編碼,垂直方向捕獲長(zhǎng)距離的依賴性,水平方向保留精確的位置信息,同時(shí)增加1個(gè)卷積核大小為 3×3 的并行分支,聚合多尺度的空間結(jié)構(gòu)信息,它們可以互補(bǔ)地應(yīng)用于輸入的特征圖,有效建立長(zhǎng)短期依賴關(guān)系,增強(qiáng)對(duì)目標(biāo)物體表征的關(guān)注。EMA注意力機(jī)制模塊結(jié)構(gòu)如圖5所示。
1.3.4" 改進(jìn)后的YOLO v7-tiny模型
改進(jìn)后的YOLO v7-tiny模型如圖6所示。將主干網(wǎng)絡(luò)替換為EfficientViT-M1模塊,采用一種更為高效的計(jì)算方法,提升檢測(cè)精確率;采用CARAFE上采樣替換特征金字塔網(wǎng)絡(luò)中最鄰近上采樣改進(jìn)后的模型,增強(qiáng)特征金字塔網(wǎng)絡(luò)對(duì)圖像特征提取和融合的能力;在網(wǎng)絡(luò)模型中添加7個(gè)EMA注意力機(jī)制模塊,通過跨空間學(xué)習(xí),在多個(gè)通道和批次維度上嵌入模型,提高模型的靈活性和輕量級(jí)特性。
2" 結(jié)果與分析
2.1" 試驗(yàn)環(huán)境
試驗(yàn)于2023年7—9月在新疆農(nóng)業(yè)大學(xué)實(shí)驗(yàn)室進(jìn)行。試驗(yàn)環(huán)境配置:CPU為 AMD EPYC 7642 48-Core Processor,GPU為NVIDIA GeForce RTX 3090,顯存為24 G、ubuntu 20.04系統(tǒng)。使用Pytorch 1.11.0版本,編程語(yǔ)言python 3.8.0,CUDA版本為11.3。訓(xùn)練超參數(shù)設(shè)置見表2。
2.2" 評(píng)價(jià)指標(biāo)
模型的評(píng)價(jià)指標(biāo)主要有:平均精確率均值mAP、參數(shù)量、浮點(diǎn)計(jì)算量GFLOPs、模型體積。
P=TPTP+FP;(4)
R=TPTP+FN;(5)
AP=∫10P(R)dR;(6)
mAP=1N∑Nj=1APj。(7)
式中:TP表示被正確地判定為正樣本的個(gè)數(shù),F(xiàn)P表示被錯(cuò)誤地判定為正樣本的個(gè)數(shù),F(xiàn)N表示被錯(cuò)誤判定為負(fù)樣本的個(gè)數(shù)。P(precision)表示精確率、R(recall)表示召回率、 AP(average precision)表示平均精確率,mAP為平均精確率均值。IoU是指預(yù)測(cè)框、真實(shí)框交集部分面積與預(yù)測(cè)框、真實(shí)框并集部分面積的比值。mAP通常分為mAP@0.5和mAP@0.5 ∶0.95 ∶mAP@0.5 是指將IoU設(shè)為0.5;mAP@0.5 ∶0.95是指IoU閾值范圍為0.5~0.95,步長(zhǎng)為0.5。
2.3" 模塊對(duì)比分析試驗(yàn)
為了驗(yàn)證改進(jìn)模型算法的可行性和有效性,針對(duì)改進(jìn)模塊進(jìn)行橫向?qū)Ρ仍囼?yàn),在保持原有模型的基礎(chǔ)上,對(duì)相同位置不同改進(jìn)點(diǎn)進(jìn)行對(duì)比試驗(yàn)。試驗(yàn)均在YOLO v7-tiny版本基礎(chǔ)上進(jìn)行改進(jìn),迭代數(shù)為150次。
2.3.1" backbone主干網(wǎng)絡(luò)的對(duì)比分析
為了驗(yàn)證本研究EfficientViT-M1的優(yōu)越性,與其他主干做對(duì)比。將原YOLO v7-tiny的主干網(wǎng)絡(luò)替換為其他主干,主要包括resnet18、Efficient formerv2、EfficientViT-M0、EfficientViT-M2、EfficientViT-M3、EfficientViT-M4、EfficientViT-M5。從表3可以看出,EfficientViT作為主干,相對(duì)于其他主干網(wǎng)絡(luò)具有良好的精確度,且參數(shù)量和計(jì)算量相對(duì)較小,其中EfficientViT-M1更適合作為本次試驗(yàn)的主干網(wǎng)絡(luò)。
2.3.2" 注意力機(jī)制的對(duì)比分析
為了驗(yàn)證本研究跨空間學(xué)習(xí)的高效多尺度注意力機(jī)制的有效性,將該注意力機(jī)制與其他主流注意力機(jī)制做對(duì)比。在相同的位置插入這些主流注意力機(jī)制,包括SimAM[21]、SE[22]、CoTAttention[23](CoT)、SkAttention[24](SK)。
由表4可知,加入SimAM、SE注意力機(jī)制后,mAP均有降低。CoT注意力機(jī)制加入后,模型的mAP提升
0.1百分點(diǎn),效果不明顯。加入SK注意力機(jī)制后,mAP提升了0.9百分點(diǎn),但參數(shù)量、計(jì)算量、模型體積有大幅度提升。加入EMA注意力機(jī)制后,模型的參數(shù)量、計(jì)算量只有略微提升,模型的mAP增加了1.1百分點(diǎn)。與其他主流注意力機(jī)制相比,本研究所使用的EMA注意力機(jī)制擁有更好的性能。使用EMA注意力機(jī)制可以提高多尺度圖像處理的效率和準(zhǔn)確性,在略微增加參數(shù)量、計(jì)算量的前提下,可以更好地映射出特征之間的聯(lián)系,提高檢測(cè)的精確率。由圖7可知,增加EMA注意力機(jī)制后的檢測(cè)效果明顯優(yōu)于其他注意力機(jī)制。
2.4" 消融試驗(yàn)
為了驗(yàn)證本研究提出的各個(gè)改進(jìn)算法是否有效,設(shè)計(jì)1組消融試驗(yàn)進(jìn)行對(duì)比分析。原模型以 YOLO v7-tiny 為基線,試驗(yàn)A將EfficientViT-M1網(wǎng)絡(luò)作為新的骨干網(wǎng)絡(luò),試驗(yàn)B替換特征融合網(wǎng)絡(luò)輕量化上采樣算子CARAFE,試驗(yàn)C加入EMA注意力機(jī)制。消融試驗(yàn)結(jié)果(表5)表明,7種改進(jìn)算法都能給模型帶來明顯的性能增益,而且本研究提出的檢測(cè)算法在檢測(cè)性能上表現(xiàn)更為優(yōu)異。
P-R曲線代表精確率與召回率之間的關(guān)系。由圖8可以看出,所有曲線圍成面積均占到90%以上。試驗(yàn)A、B、C的各種改進(jìn)方法對(duì)模型的檢測(cè)性能均起到一定的提升作用。
2.5" 系列模型對(duì)比分析
為進(jìn)一步展示改進(jìn)后模型的檢測(cè)效果,將改進(jìn)的檢測(cè)算法與YOLO系列的模型YOLO v3-Tiny、YOLO v5s、YOLO v7、YOLO v7-tiny相比較,結(jié)果如表6所示。YOLO v3-tiny的mAP值僅為88.7%,模型體積為17.5 MB,與改進(jìn)后的YOLO v7-tiny模型有較大差距。YOLO v5s的mAP值為89.1%,參數(shù)量為7.02 M,性能表現(xiàn)相對(duì)YOLO v3-tiny較好,并未超越Y(jié)OLO v7-tiny的模型效果。YOLO v7-tiny 的mAP值為91.1%,參數(shù)量為 6.01 M,性能表現(xiàn)良好。改進(jìn)過的YOLO v7-tiny的mAP達(dá)到94.0%,且模型的復(fù)雜程度相對(duì)變化不大。YOLO v7檢測(cè)算法的mAP值雖達(dá)到94.2%,與改進(jìn)后的算法相接近,但模型參數(shù)量達(dá)到36.50 M,計(jì)算量為103.2 GFLOPs。最新的 YOLO v8s 模型的檢測(cè)效果較好,mAP值為93.8%,模型的復(fù)雜度相對(duì)于改進(jìn)后的模型較大。綜合比較,不難看出改進(jìn)后模型的性能整體優(yōu)于其他網(wǎng)絡(luò)模型。
2.6" 麥穗檢測(cè)效果
在小麥麥穗的目標(biāo)檢測(cè)中,使用YOLO v7-tiny與改進(jìn)后的YOLO v7-tiny檢測(cè)算法進(jìn)行識(shí)別對(duì)比,結(jié)果如圖9所示。圖9-a、圖9-c為 YOLO v7-tiny 檢測(cè)效果圖,圖9-b、圖9-d為改進(jìn)后模型的檢測(cè)效果圖。對(duì)比圖9-a、圖9-b可以發(fā)現(xiàn), 標(biāo)記圈內(nèi)實(shí)際含2個(gè)麥穗,而YOLO v7-tiny
檢測(cè)出3個(gè)麥穗,存在誤檢現(xiàn)象;對(duì)比圖9-c、圖 9-d 可以發(fā)現(xiàn),標(biāo)記圈內(nèi)仍含2個(gè)麥穗,而YOLO v7-tiny檢測(cè)出1個(gè)麥穗,出現(xiàn)漏檢問題。在改進(jìn)后的模型測(cè)試中,漏檢、誤檢得到改善。綜上,在小麥麥穗的檢測(cè)模型中,改進(jìn)前后的置信度基本相似,而改進(jìn)后的麥穗目標(biāo)檢測(cè)效果更好。
圖10中,黃色曲線為改進(jìn)后的YOLO v7-tiny模型,藍(lán)色為YOLO v7-tiny基線模型,改進(jìn)后的模型mAP@0.5和mAP@0.5 ∶0.95均優(yōu)于改進(jìn)前的模型,改進(jìn)后的檢測(cè)算法更優(yōu)。
3" 結(jié)論
以YOLO v7-tiny檢測(cè)模型為基礎(chǔ),本研究采用農(nóng)田環(huán)境下小麥麥穗數(shù)據(jù)集作為研究對(duì)象, 提出
改進(jìn)的YOLO v7-tiny模型。將EfficientViT作為其主干網(wǎng)絡(luò),原有的特征融合網(wǎng)絡(luò)上采樣方法替換為CARAFE算子,在特征融合網(wǎng)絡(luò)層和輸出層的特定位置加入EMA注意力機(jī)制,在定量評(píng)估不同檢測(cè)模型的精確率、參數(shù)量、計(jì)算量和模型體積之后發(fā)現(xiàn),本改進(jìn)模型對(duì)小麥麥穗的檢測(cè)更具優(yōu)勢(shì),適于在智能農(nóng)機(jī)類邊緣檢測(cè)設(shè)備中部署。
參考文獻(xiàn):
[1]Liu H,Wang Z H,Yu R,et al. Optimal nitrogen input for higher efficiency and lower environmental impacts of winter wheat production in China[J]. Agriculture,Ecosystems amp; Environment,2016,224:1-11.
[2]宋懷波,王云飛,段援朝,等. 基于YOLO v5-MDC的重度粘連小麥籽粒檢測(cè)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(4):245-253.
[3]王" 玲,張" 旗,馮天賜,等. 基于YOLO v7-ST模型的小麥籽粒計(jì)數(shù)方法研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(10):188-197,204.
[4]黃" 碩,周亞男,王起帆,等. 改進(jìn)YOLO v5測(cè)量田間小麥單位面積穗數(shù)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(16):235-242.
[5]鄭遠(yuǎn)攀,李廣陽(yáng),李" 曄. 深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2019,55(12):20-36.
[6]康飛龍,李" 佳,劉" 濤,等. 多類農(nóng)作物病蟲害的圖像識(shí)別應(yīng)用技術(shù)研究綜述[J]. 江蘇農(nóng)業(yè)科學(xué),2020,48(22):22-27.
[7]李子涵,周省邦,趙" 戈,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)業(yè)病蟲害識(shí)別研究綜述[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(7):15-23.
[8]Olgun M,Onarcan A O,zkan K,et al. Wheat grain classification by using dense SIFT features with SVM classifier[J]. Computers and Electronics in Agriculture,2016,122:185-190.
[9]鮑文霞,謝文杰,胡根生,等. 基于TPH-YOLO的無人機(jī)圖像麥穗計(jì)數(shù)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2023,39(1):155-161.
[10]Li R,Wu Y P. Improved YOLO v5 wheat ear detection algorithm based on attention mechanism[J]. Electronics,2022,11(11):1673.
[11]臧賀藏,趙" 晴,周" 萌,等. 基于YOLO v5s模型的小麥品種(系)穗數(shù)檢測(cè)[J]. 山東農(nóng)業(yè)科學(xué),2022,54(11):150-157.
[12]李" 云,邱述金,趙華民,等. 基于輕量化YOLO v5的谷穗實(shí)時(shí)檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(6):168-177.
[13]楊蜀秦,王" 帥,王鵬飛,等. 改進(jìn)YOLOX檢測(cè)單位面積麥穗[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(15):143-149.
[14]Zhang D Y,Luo H S,Cheng T,et al. Enhancing wheat Fusarium head blight detection using rotation Yolo wheat detection network and simple spatial attention network[J]. Computers and Electronics in Agriculture,2023,211:107968.
[15]Liu X Y,Peng H W,Zheng N X,et al. EfficientViT:memory efficient vision transformer with cascaded group attention[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouve:IEEE,2023:14420-14430.
[16]Wang J Q,Chen K,Xu R,et al. CARAFE:content-aware ReAssembly of FEatures[C]//2019 IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:3007-3016.
[17]Ouyang D L,He S,Zhang G Z,et al. Efficient multi-scale attention module with cross-spatial learning[C]//2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing.Rhodes Island:IEEE,2023:1-5.
[18]David E,Madec S,Sadeghi-Tehran P,et al. Global wheat head detection (GWHD) dataset:a large and diverse dataset of high-resolution RGB-labelled images to develop and benchmark wheat head detection methods[J]. Plant Phenomics,2020,2020:3521852.
[19]Wang C Y,Bochkovskiy A,Liao H Y M. YOLO v7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:7464-7475.
[20]Wang C Y,Yeh I H,Liao H Y M.You only learn one representation:unified network for multiple tasks[J]. Journal of Information Science and Engineering,2023,39(3):691-709.
[21]Yang L,Zhang R,Li L,et al. SimAM:a simple,parameter-free attention module for convolutional neural networks[C]//Proceedings of the 38th International Conference on Machine Learning.PMLR,2021,139:11863-11874.
[22]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[23]Li Y H,Yao T,Pan Y W,et al. Contextual transformer networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(2):1489-1500.
[24]Li X,Wang W H,Hu X L,et al. Selective kernel networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach:IEEE,2019:510-519.