• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      采用天氣增強(qiáng)與八度卷積改進(jìn)YOLOv5的番茄檢測(cè)模型構(gòu)建

      2022-12-20 02:20:30代國(guó)威樊景超胡林
      山東農(nóng)業(yè)科學(xué) 2022年11期
      關(guān)鍵詞:八度番茄卷積

      代國(guó)威樊景超胡林

      (1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所/國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心,北京 100081;2. 中國(guó)農(nóng)業(yè)科學(xué)院國(guó)家南繁研究院,海南 三亞 572024)

      番茄是世界上廣泛種植的園藝作物,2020年全球產(chǎn)量約為1.87 億噸[1]。中國(guó)作為番茄全球產(chǎn)量的第一貢獻(xiàn)者,溫室種植番茄因高產(chǎn)和可全年穩(wěn)定供應(yīng)的優(yōu)勢(shì)在過(guò)去的幾十年里迅速且廣泛發(fā)展。傳統(tǒng)番茄采摘依靠人工,不僅效率低,而且人工成本占比超過(guò)生產(chǎn)利潤(rùn)的44.5%[2];此外,人口老齡化趨勢(shì)導(dǎo)致番茄采摘作業(yè)越來(lái)越缺乏勞動(dòng)力[3]。隨著人工智能技術(shù)在農(nóng)業(yè)和食品研究領(lǐng)域的應(yīng)用和推廣,農(nóng)業(yè)采摘機(jī)器人[4]的研發(fā)及應(yīng)用為上述問(wèn)題提供了有效的解決方案,不僅可以降低人工成本,而且采摘機(jī)器人能適應(yīng)高強(qiáng)度作業(yè),大大提高采摘效率。

      采摘機(jī)器人設(shè)計(jì)的難點(diǎn)在于識(shí)別和檢測(cè)番茄目標(biāo),而識(shí)別和檢測(cè)的準(zhǔn)確性關(guān)系到采摘機(jī)器人的工作效率,因此,快速準(zhǔn)確地檢測(cè)成熟西紅柿是用自動(dòng)化系統(tǒng)取代人工勞作的一項(xiàng)重要任務(wù)。目前,基于計(jì)算機(jī)視覺(jué)進(jìn)行番茄缺陷或等級(jí)檢測(cè)的方法主要有兩類,即基于手工特征的方法和使用深度學(xué)習(xí)特征的方法。手工特征具有局部性和簡(jiǎn)單性的優(yōu)點(diǎn),但由于需要根據(jù)經(jīng)驗(yàn)選擇合適的特征,因此在變化的環(huán)境中可能缺乏提取特征的語(yǔ)義和判別能力[5–7]。如馮俊惠等[8]提出一種改進(jìn)Hough 圓變換算法的番茄識(shí)別方法,該算法基于顏色信息對(duì)背景進(jìn)行分割,并利用Sobel 算子提取輪廓信息,最后通過(guò)改進(jìn)Hough 圓變換算法用于成熟番茄識(shí)別;為了對(duì)多個(gè)重疊粘連的番茄進(jìn)行定位識(shí)別,李寒等[9]利用K-means 對(duì)SOM 算法進(jìn)行優(yōu)化,通過(guò)提取果實(shí)輪廓點(diǎn)的平面和深度信息進(jìn)行三維聚類,將得到的點(diǎn)云聚類結(jié)果轉(zhuǎn)換為世界坐標(biāo)系,并擬合得到各個(gè)番茄的位置與形狀;設(shè)施番茄種植密度大,采集圖像中番茄果實(shí)相互粘連的現(xiàn)象更為嚴(yán)重,針對(duì)此情況,伍萍輝等[10]提出一種改進(jìn)的群體智能優(yōu)化算法,利用擾動(dòng)因子改進(jìn)灰狼算法與K 均值聚類算法用于果實(shí)分割,并在此基礎(chǔ)上將形態(tài)學(xué)算法和多尺度Hough 算法相結(jié)合,實(shí)現(xiàn)了對(duì)強(qiáng)粘連番茄果實(shí)的識(shí)別定位。雖然此類方法已取得了較好的識(shí)別效果,但面對(duì)復(fù)雜多變的溫室環(huán)境仍是一項(xiàng)相當(dāng)大的挑戰(zhàn),此外,確定分類所需的特征提取器和分類器的最佳組合也非常耗時(shí)。相比之下,深度學(xué)習(xí)模型不需要耗時(shí)尋找特征提取器和分類器的最佳組合,而且能在復(fù)雜環(huán)境下提取深層次特征,準(zhǔn)確性更高[11–15]。例如成偉[16]、Lawal[17]、Wang[18]與Lawal[19]等提出了改進(jìn)YOLOv3 實(shí)現(xiàn)復(fù)雜環(huán)境條件下溫室番茄的檢測(cè);Seo 等[20]利用K-means聚類算法將番茄果實(shí)區(qū)域與背景區(qū)域分割,在HSV 顏色模型下通過(guò)Faster R-CNN 檢測(cè)水培條件下生長(zhǎng)的番茄;李天華等[21]提出一種基于YOLOv4 與HSV 相結(jié)合的番茄識(shí)別方法,能夠解決果實(shí)粘連及藤曼、葉片或光照影響而引起的識(shí)別錯(cuò)誤問(wèn)題,并利用HSV 顏色特征處理實(shí)現(xiàn)番茄果實(shí)紅色部分的分割,通過(guò)對(duì)檢測(cè)框內(nèi)分割部分的面積計(jì)算,提高識(shí)別的準(zhǔn)確性;何斌等[22]提出一種適合日光溫室夜間環(huán)境的改進(jìn)YOLOv5 番茄識(shí)別方法,通過(guò)對(duì)自適應(yīng)框的重計(jì)算與改進(jìn)CIOU目標(biāo)損失函數(shù)實(shí)現(xiàn)暗光特征下的番茄果實(shí)識(shí)別。為實(shí)現(xiàn)不同成熟度番茄自動(dòng)分揀,Ko 等[23]利用多流卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)及其隨機(jī)決策融合(SDF)方法檢測(cè)番茄成熟度,將檢測(cè)過(guò)程分為初始成熟度檢測(cè)階段和隨機(jī)決策融合階段,從而獲得更精確的成熟度分類結(jié)果。

      然而現(xiàn)有研究缺乏溫室復(fù)雜環(huán)境下針對(duì)遠(yuǎn)近距離產(chǎn)生的小目標(biāo)番茄、果實(shí)本身較小及被重疊遮擋番茄的檢測(cè)。因此, 本研究采用改進(jìn)YOLOv5 目標(biāo)檢測(cè)算法,提出一種通過(guò)注意力機(jī)制與八度卷積提高復(fù)雜環(huán)境條件下溫室番茄檢測(cè)準(zhǔn)確性的方法——OctaveC-YOLOv5,并引入天氣增強(qiáng)技術(shù),從而有效抵抗環(huán)境干擾,克服由果實(shí)重疊、樹(shù)枝遮擋、光照不均等引起的識(shí)別精度、時(shí)效性和魯棒性較差的問(wèn)題,捕捉到充足的目標(biāo)信息,并能端對(duì)端完成定位和檢測(cè)任務(wù),有望在智能采摘機(jī)器人上應(yīng)用。

      1 OctaveC-YOLOv5 模型的構(gòu)建及性能評(píng)價(jià)方法

      1.1 YOLOv5 架構(gòu)

      YOLO 架構(gòu)系列的最新產(chǎn)品是YOLOv5[24]模型,該模型識(shí)別準(zhǔn)確率高,推理速度快,最快的識(shí)別速度為每秒140 幀,且目標(biāo)檢測(cè)網(wǎng)絡(luò)的權(quán)重文件較小,比YOLOv4 縮小了近90%,適合部署到嵌入式設(shè)備上, 實(shí)現(xiàn)即時(shí)檢測(cè)。本研究使用YOLOv5s 模型,大小為14 mb,推斷時(shí)間為2.2 ms,網(wǎng)絡(luò)架構(gòu)如圖1 所示,主要由Backbone、Neck和Head 組成。

      Backbone 結(jié)構(gòu)是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),它結(jié)合不同的細(xì)粒度圖像并形成圖像特征。其中,Conv 模塊為貫穿架構(gòu)的基本卷積單元,對(duì)輸入依次進(jìn)行二維卷積、二維正則化、SiLU 激活操作(圖1a)。C3 模塊作為提取特征的主要結(jié)構(gòu),由3 個(gè)Conv 與1 個(gè)Bottleneck 組成(圖1b),組成的結(jié)構(gòu)依次添加到計(jì)算圖,通過(guò)解決大規(guī)模重復(fù)梯度信息的問(wèn)題,將梯度變化整合于特征圖中,減少模型每秒浮點(diǎn)運(yùn)算(floating point operations,F(xiàn)LOPs)和參數(shù),縮小模型大小,并且保證推理的準(zhǔn)確性和速度。Concat模塊用于連接不同維度的特征圖;Upsample 模塊用于特征圖上采樣。空間金字塔模塊(spatial pyramid pooling, SPP)位于Backbone 的第9 層,旨在通過(guò)將任何尺寸的特征圖轉(zhuǎn)化為固定尺寸的特征向量來(lái)增加網(wǎng)絡(luò)的感受野。

      圖1 YOLOv5 網(wǎng)絡(luò)架構(gòu)

      Neck 結(jié)構(gòu)通過(guò)流水線增加信息的流動(dòng)性。低層特征可以通過(guò)添加特征金字塔網(wǎng)絡(luò)(FPN)進(jìn)行有效傳播,具有自下而上的路徑增強(qiáng)特性;同樣,可以通過(guò)添加路徑聚合網(wǎng)絡(luò)(PAN)將高層特征向下傳遞,實(shí)現(xiàn)特征融合。特征金字塔、路徑聚合網(wǎng)絡(luò)和所有其他特征通過(guò)自適應(yīng)池連接在一起,使每個(gè)特征層的有用信息都能被利用。該網(wǎng)絡(luò)從所有層決定哪些特征是有效的,通過(guò)使用高層的正確定位信號(hào)與低層的強(qiáng)語(yǔ)義特征來(lái)提高物體定位的準(zhǔn)確性。

      Head 結(jié)構(gòu)的檢測(cè)網(wǎng)絡(luò)包括3 個(gè)檢測(cè)層,每個(gè)檢測(cè)層分別輸入一個(gè)尺寸為80×80、40×40 和20×20 的像素特征圖,用于檢測(cè)各種尺寸的圖像對(duì)象。本研究有2 個(gè)檢測(cè)對(duì)象,所以每個(gè)檢測(cè)層輸出一個(gè)21 通道的向量,包括2 個(gè)類別、1 個(gè)置信度、4 個(gè)邊界框坐標(biāo)和3 個(gè)錨框[(2+1+4)×3],用于生成并標(biāo)記原始圖像中目標(biāo)的預(yù)測(cè)邊界框和類別,從而實(shí)現(xiàn)對(duì)圖像目標(biāo)的檢測(cè)。

      1.2 八度卷積(octave convolution)

      對(duì)于數(shù)字圖像而言,信息以不同的頻率傳遞,其中高頻部分包含了大量的細(xì)節(jié)信息,如圖像的邊緣、輪廓與噪聲信號(hào)等,而低頻部分則反映了圖像的全局結(jié)構(gòu)編碼,如物體的整體形象、背景等,決定性信息較少(圖2)。普通卷積處理數(shù)字圖像的任務(wù)就是捕捉全局布局的粗結(jié)構(gòu)低頻信號(hào)和捕捉精細(xì)細(xì)節(jié)的高頻信號(hào),然而其輸入輸出特征具有一致的空間分辨率,這會(huì)導(dǎo)致捕獲的空間低頻信息包含空間中的冗余信息?;诖?,Chen等[25]引入八度(octave)特征表示,建議在經(jīng)典的CNN 中使用八度卷積而不是卷積層,從而顯式地將特征映射張量分解為對(duì)應(yīng)的低頻組和高頻組。由圖3 可見(jiàn),八度卷積的輸入特征圖由高頻XH和低頻XL兩部分組成,分別以YH和YL兩種方式輸出。輸出的高頻和低頻特征圖分別由YH=Y(jié)H→H+YL→H和YL=Y(jié)L→L+YH→L傳遞,即將低頻特征圖上采樣到高頻特征圖,并與低頻特征圖進(jìn)行分組;同樣,將高頻特征圖下采樣為低頻張量,并與高頻特征圖進(jìn)行分組。

      圖2 數(shù)字圖像(a)及其低頻部分(b)與高頻部分(c)

      圖3 八度卷積結(jié)構(gòu)

      另外,為了進(jìn)行卷積運(yùn)算,八度卷積將卷積核W 分成WH和WL兩組,分別對(duì)輸入XH和XL進(jìn)行卷積。WH和WL也由兩部分組成WH=[WL→H,WH→H],WL=[WH→L,WL→L]并保證XL→H和XH→H(XH→L和XL→L)可以進(jìn)行不同的卷積。值得一提的是,YX→H表示卷積從特征圖組X 到組Y 的更新,如YL→L和YH→H表示同頻更新,而YL→H和YH→L表示不同頻間的通信。其中,頻間信息的更新,八度卷積使用高低頻特征分別進(jìn)行升/降采樣,將特征張量XL上采樣與XH池化下采樣折疊到卷積中消除計(jì)算和存儲(chǔ),以實(shí)現(xiàn)不同頻率間信息的交互;而同頻信息的更新,則更注重于使用常規(guī)卷積對(duì)高頻特征進(jìn)行更新。因此,與普通卷積相比,通過(guò)八度卷積壓縮低頻分辨率能有效地將感受野擴(kuò)大2 倍,可以幫助每個(gè)八度卷積層捕獲更多的長(zhǎng)距離上下文信息,從而提高識(shí)別性能。

      1.3 注意力機(jī)制(CBAM)模塊

      深度學(xué)習(xí)中的注意力機(jī)制允許在解決特定任務(wù)時(shí)只關(guān)注圖像的一部分而不是整個(gè)區(qū)域,從而突出有利于分類的特征,抑制不需要的噪聲。空間注意力模塊(spatial attention module,SAM)和通道注意力模塊(channel attention module,CAM)是前饋神經(jīng)網(wǎng)絡(luò)(feed forward neural network)[26]的兩個(gè)有效注意力模塊,其中,空間注意力模塊在特征圖中探測(cè)目標(biāo)位置時(shí)表現(xiàn)突出,通道注意力模塊在尋找目標(biāo)時(shí)表現(xiàn)突出。大量實(shí)驗(yàn)證明,先使用通道注意力模塊,再使用空間注意力模塊,對(duì)于網(wǎng)絡(luò)學(xué)習(xí)效果最好[27]。

      CBAM(convolutional block attention module)是一種典型的注意力機(jī)制結(jié)構(gòu),包含CAM 和SAM 模塊。對(duì)于CAM 模塊,以一個(gè)假設(shè)的中間特征圖f′∈Rw×h×c(h 為每個(gè)通道的高度;w 為每個(gè)通道的寬度,即通道的權(quán)重;c 為每層通道的數(shù)量)作為輸入,對(duì)其并行進(jìn)行平均和最大池化,然后利用多層感知器對(duì)這兩個(gè)通道進(jìn)行Sigmoid 激活函數(shù)操作,得到CAM 特征圖。式(1)即顯示了CAM模塊的計(jì)算過(guò)程,其中δ 為Sigmoid 激活函數(shù),MLP為多層感知器,AvgPool(f′)與MaxPool(f′)分別表示特征圖的平均和最大池化。同樣,對(duì)于SAM 模塊,給定一個(gè)中間特征映射f′作為輸入,采用并行平均和最大池化的方法進(jìn)行降維,得到2 個(gè)特征,根據(jù)通道維數(shù)將其拼接起來(lái),形成一個(gè)二維特征,然后對(duì)二維特征進(jìn)行卷積,以保證最終特征在空間維度上與原始輸入特征相兼容,接著通過(guò)Sigmoid 函數(shù)生成SAM 特征圖,最后乘以模塊的輸入,得到最終生成的特征圖。具體過(guò)程如式(2)所示,其中,fn×n表示卷積運(yùn)算,卷積核的大小為n×n,CAM 和SAM 模塊的中間特征圖f′可以用式(3)、式(4)表示,式中?為點(diǎn)積。

      1.4 OctaveC-YOLOv5 番茄檢測(cè)模型

      雖然YOLOv5 可直接用于番茄目標(biāo)檢測(cè),但在復(fù)雜的溫室場(chǎng)景中,一是由于番茄品種繁多、背景復(fù)雜、植株間距較小,相同生長(zhǎng)周期大小不一的番茄果實(shí)容易相互遮擋,造成誤檢;二是較遠(yuǎn)距離的番茄在視覺(jué)上表現(xiàn)較小,在圖像層面表征為未成熟的小番茄,雖與圖像上作為主體的較大或成熟的番茄紋理特征相似,但檢測(cè)時(shí)往往因與背景難以區(qū)分而易造成漏檢,不利于溫室場(chǎng)景下的番茄檢測(cè)。為此,本研究提出了一種高檢測(cè)精度的OctaveC-YOLOv5 番茄檢測(cè)算法,模型結(jié)構(gòu)如圖4所示,主要從以下方面進(jìn)行了改進(jìn):①使用八度卷積替換Conv 模塊中的Conv2d,然后利用Conv 作為基本卷積單元的特性,使YOLOv5 中涉及Conv的所有模塊間接替換了八度卷積,完成了整個(gè)網(wǎng)絡(luò)的卷積替換。②Backbone 結(jié)構(gòu)提取的特征在4、6、9 層輸出,第9 層輸出的特征被輸入到CBAM模塊中,從而使網(wǎng)絡(luò)能夠從復(fù)雜的背景顏色中提取更可區(qū)分的特征表示。③通過(guò)特征融合達(dá)到減少信息丟失的目的,然后將特征輸出到Neck 結(jié)構(gòu),使用FPN+PAN 組合來(lái)處理特征。④Head 結(jié)構(gòu)輸出的三個(gè)不同維度的特征映射能夠攜帶更多的紋理特征和缺陷區(qū)域的語(yǔ)義特征。⑤使用CIoU[28]作為邊界框損失函數(shù),并采用非極大值抑制(non-maximum suppression,NMS)使其分類和定位更加準(zhǔn)確,提高了檢測(cè)精度。本研究提出的OctaveC-YOLOv5 繼承了YOLOv5 所有特點(diǎn),并增加了壓縮低頻分辨率以增大感受野與注意力機(jī)制的功能性質(zhì)。

      圖4 OctaveC-YOLOv5 算法網(wǎng)絡(luò)結(jié)構(gòu)

      1.5 天氣增強(qiáng)(weather augmentation)

      使用Python 中Albumentations 庫(kù)[29]的圖像數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練集應(yīng)用不同的數(shù)據(jù)增強(qiáng)技術(shù),以克服過(guò)擬合問(wèn)題,并增強(qiáng)數(shù)據(jù)集的多樣性。本研究采用多種天氣增強(qiáng)技術(shù)組合來(lái)模擬不同天氣與溫室設(shè)施引起的環(huán)境變化對(duì)圖像的影響,如圖5 所示。

      使用雨滴變換(RandomRain)為圖像隨機(jī)添加雨滴,雨滴大小為1.0、類型為drizzle,并設(shè)置0.6的陰天參數(shù)(Brightness_coefficient),以模擬溫室噴淋降溫作業(yè)對(duì)圖像采集的影響(圖5b)。

      由于溫室內(nèi)外溫差和室內(nèi)濕度較大以及霧化系統(tǒng)噴霧作業(yè),會(huì)使溫室內(nèi)產(chǎn)生霧氣,影響采集圖像的清晰度,因此,可使用霧氣變換(Randomfog),選擇0.1~0.6 的霧氣強(qiáng)度(fog_coef)與霧圈透明度(Alpha_coef)為0.1 的參數(shù)值,隨機(jī)地向圖像不同位置添加霧氣,并使背景模糊(圖5c)。

      植物的生命活動(dòng)與光照密不可分,本研究以圖像的左上角(0.0, 0.0, 1.0, 0.5)與右上角(0.9, 0, 1.0, 0.5)作為光照的來(lái)源,選擇太陽(yáng)光照變換(RandomSunFlare)對(duì)溫室光照條件下采集的圖像進(jìn)行模擬,出現(xiàn)太陽(yáng)耀斑的圖像區(qū)域(Flare_roi)由四個(gè)參數(shù)決定(x_min、y_min、x_max、y_max),x_min 與y_min 表示起始坐標(biāo),x_max 與y_max 表示結(jié)束坐標(biāo)(圖5d)。

      番茄果實(shí)生長(zhǎng)于葉下,而溫室番茄的株距較小,采集的圖像易受葉片陰影的影響,可通過(guò)陰影變換(RandomShadow)在一定程度上消除這種影響。本研究就陰影圖像(Shadow_roi)的出現(xiàn)區(qū)域進(jìn)行隨機(jī)化,陰影數(shù)量在1~5 浮動(dòng),陰影多邊形的形狀邊參數(shù)設(shè)置為4(圖5e)。

      圖5 原圖與使用天氣增強(qiáng)后圖像對(duì)比示例

      1.6 試驗(yàn)數(shù)據(jù)集

      本研究選用農(nóng)業(yè)場(chǎng)景視覺(jué)解析任務(wù)番茄數(shù)據(jù)集(https:/ /www.agridata.cn/)中現(xiàn)場(chǎng)采集部分的數(shù)據(jù),包含原始圖像以及處理后可直接用于目標(biāo)檢測(cè)、語(yǔ)義分割與實(shí)例分割的數(shù)據(jù)標(biāo)簽。圖像采自江蘇省農(nóng)業(yè)科學(xué)院番茄生產(chǎn)智能溫室,單目圖像的分辨率為1600×1200 像素,雙目圖像的分辨率為1280×720 像素。提取目標(biāo)檢測(cè)標(biāo)簽與對(duì)應(yīng)的原始圖像建立VOC格式的數(shù)據(jù)集,將數(shù)據(jù)集中帶有標(biāo)注的100 張單目圖像和100 張雙目左邊圖像全部用于TBD-1 數(shù)據(jù)集構(gòu)建,并按8∶2 劃分訓(xùn)練集與驗(yàn)證測(cè)試集,然后使用OctaveC-YOLOv5 與YOLOv5s 模型從零開(kāi)始訓(xùn)練和測(cè)試,結(jié)果如表1 所示,可見(jiàn)兩種模型的表現(xiàn)都較差,雖然本研究提出的模型相對(duì)于YOLOv5s 取得了一定的進(jìn)步,但離實(shí)際生產(chǎn)中農(nóng)業(yè)機(jī)器人高精準(zhǔn)采摘的要求還有較大差距。

      表1 OctaveC-YOLOv5 與YOLOv5s 模型在TBD-1 數(shù)據(jù)集的試驗(yàn)結(jié)果

      為此,將現(xiàn)場(chǎng)采集部分未標(biāo)注的650 張單目圖像與300 張雙目圖像使用LabelMe 工具標(biāo)注為XML 格式,標(biāo)簽類別與原數(shù)據(jù)集標(biāo)注一致,分為成熟番茄與未成熟番茄(可采摘番茄與不可采摘番茄),標(biāo)注過(guò)程如圖6 所示。最終,將新標(biāo)注的950 張圖像與原帶標(biāo)注的TBD-1 數(shù)據(jù)集的200張圖像共同組成TBD-2 數(shù)據(jù)集,然后按80%、10%、10%的比例隨機(jī)劃分出訓(xùn)練集、驗(yàn)證集、測(cè)試集,分別為920、115、115 張圖像,并在訓(xùn)練集執(zhí)行不同組合的天氣增強(qiáng)技術(shù)。

      圖6 LabelMe 標(biāo)注番茄示例

      1.7 試驗(yàn)環(huán)境

      操作平臺(tái)為Nettrix X640 G30 AI 服務(wù)器,操作系統(tǒng)環(huán)境為Ubuntu 20.04,CPU 為2 塊Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz,GPU為2 臺(tái)NVIDIA GeForce RTX 3090、256G 內(nèi)存,5個(gè)7.5T 固態(tài)驅(qū)動(dòng)器。訓(xùn)練環(huán)境由Anaconda3 創(chuàng)建,環(huán)境配置為Python 3.9.5、PyTorch 1.9.1 與Torch Vision 0.10.1 人工神經(jīng)網(wǎng)絡(luò)庫(kù)。同時(shí),采用CUDA 11.3 GPU 運(yùn)算平臺(tái)及cuDNN 11.3 深度神經(jīng)網(wǎng)絡(luò)加速庫(kù)。

      訓(xùn)練參數(shù)設(shè)置:采用OctaveC-YOLOv5 為訓(xùn)練模型,使用損失函數(shù)BCEWithLogitLoss 處理樣本不均衡,并由SmoothBCE[30]與QFocalLoss[31]防止模型過(guò)擬合,優(yōu)化器使用SGD,輸入圖像尺寸為640×640 像素,批量大小為32,學(xué)習(xí)率初始化為0.01,最終為0.0032,動(dòng)量參數(shù)為0.925,重量衰減設(shè)置為0.00056,并使用預(yù)熱參數(shù)5.0 保證模型起始訓(xùn)練時(shí)對(duì)數(shù)據(jù)具有一定的先驗(yàn)知識(shí),其他參數(shù)保持默認(rèn)。模型訓(xùn)練的收斂速度與具體數(shù)據(jù)集相關(guān),當(dāng)模型性能在一個(gè)階段的Epoch 停止不前或下降時(shí),繼續(xù)訓(xùn)練模型也得不到很好的收斂,此時(shí)最好的辦法就是提前停止訓(xùn)練,Early stopping早停機(jī)制能很好地解決這個(gè)問(wèn)題[32]。本研究在OctaveC-YOLOv5 集成了早停機(jī)制,并設(shè)置參數(shù)為30。

      1.8 評(píng)價(jià)指標(biāo)

      為了驗(yàn)證提出模型檢測(cè)番茄的有效性,利用目標(biāo)檢測(cè)領(lǐng)域常用的量化指標(biāo),即查準(zhǔn)率(precision,Pt)、查全率(recall,Rt)、F1 得分(F1t)、平均準(zhǔn)確率(average precision,AP)、平均精度均值(mean average precision, mAP)對(duì)模型進(jìn)行評(píng)估,公式如下。

      式中T(Ptomato)、F(Ptomato)和F(Ntomato)分別指正確識(shí)別、錯(cuò)誤或未識(shí)別及把成熟番茄檢測(cè)為未成熟番茄或其他背景的數(shù)量;F1t為綜合衡量查準(zhǔn)率與查全率的指標(biāo);AP 定義為當(dāng)AP 的交并比(Intersection over Union, IoU)閾值取0.5 時(shí),對(duì)于某一類別具有多個(gè)正確檢驗(yàn)框的樣本,每增加一個(gè)正確檢驗(yàn)框?qū)?duì)應(yīng)一個(gè)Pt值,對(duì)多個(gè)Pt取平均值即得到該類別的AP;mAP 為AP 在所有類別下的均值,能整體表征多類別目標(biāo)檢測(cè)模型的綜合性能;Q 指定義的檢測(cè)類別,本研究有成熟與未成熟番茄2 類,所以Q 為2。

      2 模型檢測(cè)效果分析

      2.1 訓(xùn)練結(jié)果分析

      在訓(xùn)練的早期,模型欠學(xué)習(xí),損失函數(shù)值較大,跳過(guò)前50 次后,重畫損失函數(shù)和mAP 參數(shù)的變化,更詳細(xì)地觀察和分析模型的訓(xùn)練過(guò)程。從損失函數(shù)和mAP 的曲線(圖7)可以看出,在前210 次訓(xùn)練中,損失函數(shù)急劇下降,mAP 曲線劇烈振蕩,這是因?yàn)樵谟?xùn)練的初始階段得到的權(quán)值與訓(xùn)練樣本不匹配訓(xùn)練梯度較大,更新后的參數(shù)與上次相比差異較大;從600 到900 次迭代的損失函數(shù)變化逐漸趨于平穩(wěn),而mAP 曲線降低了振蕩,這表明訓(xùn)練中逐漸獲得的權(quán)重匹配樣本的特征和梯度下降訓(xùn)練逐漸接近最佳點(diǎn);900 次迭代后,損失函數(shù)變化趨于穩(wěn)定,mAP 曲線進(jìn)一步放緩接近1,并略有振蕩。觀察訓(xùn)練1 000 次后,停止訓(xùn)練并保存權(quán)重文件,用于模型評(píng)估。

      圖7 OctaveC-YOLOv5 損失函數(shù)(a)與mAP(b)的變化曲線

      2.2 番茄目標(biāo)檢測(cè)結(jié)果與分析

      2.2.1 OctaveC-YOLOv5 與YOLOv5s 模型檢測(cè)結(jié)果對(duì)比分析 選擇115 幅樣本圖片作為模型檢驗(yàn)的測(cè)試集, 分別使用 YOLOv5s 和 OctaveC -YOLOv5 模型進(jìn)行檢驗(yàn),并使用模型評(píng)價(jià)指標(biāo)對(duì)模型性能進(jìn)行評(píng)估。為了更直觀地展現(xiàn)OctaveCYOLOv5 相對(duì)于YOLOv5s 的性能,隨機(jī)抽取圖像在相同試驗(yàn)平臺(tái)進(jìn)行對(duì)比測(cè)試,結(jié)果如圖8 所示。圖中左邊與右邊的圖片分別表示番茄較少與較多兩種檢測(cè)場(chǎng)景,均包含遠(yuǎn)近距離與目標(biāo)較小的情況。觀察可見(jiàn),YOLOv5s 對(duì)于小目標(biāo)的檢測(cè)效果較差,存在許多小番茄未被準(zhǔn)確檢測(cè)情況,且對(duì)于隱形特征或特征模糊和有番茄葉遮擋的番茄存在較多的檢測(cè)丟失;而OctaveC-YOLOv5 能成功檢出較小的和存在遮擋的番茄,有效提升了小目標(biāo)和被遮擋目標(biāo)的檢出率,降低了漏檢率,檢測(cè)精度較高,魯棒性強(qiáng)。

      圖8 YOLOv5s 與OctaveC-YOLOv5 模型樣本測(cè)試效果對(duì)比

      2.2.2 使用與未使用天氣增強(qiáng)方法的對(duì)比分析為了評(píng)估所提出的天氣增強(qiáng)方法對(duì)OctaveCYOLOv5 模型性能的影響,將天氣增強(qiáng)技術(shù)應(yīng)用于TBD-2 數(shù)據(jù)集的訓(xùn)練集,與未使用天氣增強(qiáng)方法的檢測(cè)結(jié)果(表2)相比,使用天氣增強(qiáng)方法后,成熟、未成熟番茄的檢出準(zhǔn)確率分別提升7.85、7.97個(gè)百分點(diǎn),分別達(dá)到95.36%與92.86%,表明所提出的天氣增強(qiáng)方法有助于提升OctaveCYOLOv5 模型的檢測(cè)性能。

      表2 使用與未使用天氣增強(qiáng)方法的OctaveC-YOLOv5 模型性能對(duì)比(%)

      2.2.3 數(shù)據(jù)集TBD-2 與TBD-1 對(duì)檢測(cè)結(jié)果影響的對(duì)比分析 從TBD-2 數(shù)據(jù)集的測(cè)試集隨機(jī)選擇20 幅圖,分別使用YOLOv5s 與OctaveC -YOLOv5 模型進(jìn)行檢測(cè),結(jié)果如表3 所示。與以TBD-1 數(shù)據(jù)集測(cè)試的結(jié)果(表1)相比,YOLOv5s與OctaveC-YOLOv5s 模型以TBD-2 數(shù)據(jù)集進(jìn)行檢測(cè)的綜合性能表現(xiàn)均明顯提升,平均精度均值分別提高10.85、13.76 個(gè)百分點(diǎn),且OctaveCYOLOv5 的性能提升更大??梢?jiàn),應(yīng)用TBD-2 數(shù)據(jù)集更有利于提升模型對(duì)番茄識(shí)別的準(zhǔn)確率。

      表3 OctaveC-YOLOv5 與YOLOv5s 模型在TBD-2 的試驗(yàn)結(jié)果(%)

      2.2.4 基于TBD-2 數(shù)據(jù)集和天氣增強(qiáng)方法的OctaveC-YOLOv5 模型檢測(cè)效果 檢測(cè)結(jié)果用混淆矩陣進(jìn)行展示,如圖9a,混淆矩陣的行表示預(yù)測(cè)的類別標(biāo)簽,列表示真實(shí)的類別標(biāo)簽,對(duì)角線上的值是預(yù)測(cè)的正確率,數(shù)值越大說(shuō)明識(shí)別的準(zhǔn)確率越高,而非對(duì)角線的值則是預(yù)測(cè)錯(cuò)誤的比例??梢?jiàn),OctaveC-YOLOv5 模型的檢測(cè)性能良好,成熟番茄和未成熟番茄類別的檢出準(zhǔn)確率分別為94%和92%;背景FN 為0,表明標(biāo)記的對(duì)象都被成功檢測(cè)到。值得注意的是,成熟和未成熟番茄FP 分別為0.46 與0.54,說(shuō)明兩種類型番茄都有部分被判別為背景,且未成熟番茄中占比較大。

      圖9b 展示了Precision-Recall (PR)曲線,用于描繪模型所屬類別的綜合性能表現(xiàn),曲線越接近于右上角說(shuō)明模型整體性能越優(yōu)異。其中,曲線下方的面積為該類別的AP 值。由圖9b 可知,成熟與未成熟番茄的AP 值分別為92.10%、92.90%;未成熟番茄達(dá)到的最低mAP 為0.85,低于成熟番茄類別(0.88)。

      圖9 基于TBD-2 數(shù)據(jù)集和天氣增強(qiáng)方法的OctaveC-YOLOv5 模型檢測(cè)效果

      總體而言,本研究提出的OctaveC-YOLOv5模型結(jié)合天氣增強(qiáng)方法在TBD-2 數(shù)據(jù)集上達(dá)到了較好的檢測(cè)性能。

      2.3 消融對(duì)比試驗(yàn)

      本研究提出了3 個(gè)用于改進(jìn)YOLOv5 的方法,為了驗(yàn)證這些方法的有效性,基于TBD-2 數(shù)據(jù)集,逐步添加改進(jìn)方法進(jìn)行消融對(duì)比試驗(yàn),并用模型的參數(shù)量與浮點(diǎn)運(yùn)算量度量模型的復(fù)雜度。參數(shù)量與浮點(diǎn)運(yùn)算量都代表了數(shù)據(jù)在通過(guò)復(fù)雜網(wǎng)絡(luò)時(shí)經(jīng)歷的計(jì)算量,值越低,網(wǎng)絡(luò)的復(fù)雜性就越低。

      由表4 可知,相比于YOLOv5 網(wǎng)絡(luò),引入八度卷積的YOLOv5 網(wǎng)絡(luò)mAP 提升了8.91 個(gè)百分點(diǎn),引入CBAM 的YOLOv5 網(wǎng)絡(luò)mAP 提升了6.97個(gè)百分點(diǎn),前者對(duì)模型性能的提升更顯著,這得益于八度卷積高低頻特征的覆蓋能力較強(qiáng);并且八度卷積使檢測(cè)時(shí)間縮短0.001 s,而CBAM 卻使檢測(cè)時(shí)間延長(zhǎng)0.007 s。但將兩者共同引入YOLOv5模型,mAP 提升了11.13 個(gè)百分點(diǎn),分別高出單獨(dú)使用八度卷積和CBAM 2.22、4.16 個(gè)百分點(diǎn),且檢測(cè)時(shí)間相對(duì)于單引入CBAM 縮短0.002 s。另外,八度卷積在提高模型檢測(cè)精度的同時(shí),能夠有效降低模型參數(shù)量與浮點(diǎn)運(yùn)算量。綜上表明,利用八度卷積挖掘細(xì)節(jié)信息與注意力機(jī)制抑制無(wú)用特征能有效提高YOLOv5 網(wǎng)絡(luò)檢測(cè)性能。天氣增強(qiáng)方法能夠幫助模型抵抗過(guò)擬合,提高模型泛化能力。與試驗(yàn)4 相比,試驗(yàn)5 的mAP 提升了1.86個(gè)百分點(diǎn)??梢?jiàn),本研究提出的3 個(gè)方法均對(duì)模型檢測(cè)性能有所提升,以三者共同引入的效果最佳;雖然CBAM 會(huì)導(dǎo)致模型的復(fù)雜度與檢測(cè)時(shí)間增加,但八度卷積能在一定程度上抑制CBAM 的副作用,從而使模型的檢測(cè)精度明顯提升。

      表4 模型消融試驗(yàn)結(jié)果比較

      2.4 OctaveC-YOLOv5 模型與其他7 種模型的性能對(duì)比分析

      為了考察OctaveC-YOLOv5 的性能和實(shí)用性,基于TBD-2 數(shù)據(jù)集,與其他7 種模型(表5)進(jìn)行對(duì)比測(cè)試,可以看出,OctaveC-YOLOv5 模型的檢測(cè)準(zhǔn)確率、mAP 明顯提升;檢測(cè)時(shí)間雖比YOLOv3-tiny、SSD、YOLOv3、YOLOv5 模型延長(zhǎng)0.005~0.009 s,但mAP 卻提升了7.34~28.26 個(gè)百分點(diǎn)。改進(jìn)后的OctaveC-YOLOv5 在性能上明顯優(yōu)于其他檢測(cè)模型。這主要是因?yàn)閷硕染矸e與注意力機(jī)制結(jié)合,提升了遠(yuǎn)近距離視覺(jué)上目標(biāo)信息的獲取,降低了無(wú)用特征信息對(duì)模型的影響,解決了番茄果實(shí)與葉片重疊、嚴(yán)重遮擋、較多小目標(biāo)等問(wèn)題的干擾。

      表5 不同檢測(cè)算法性能指標(biāo)對(duì)比

      3 結(jié)論

      本研究提出了一種精準(zhǔn)度更高的番茄成熟檢測(cè)方法OctaveC-YOLOv5,可用于采摘機(jī)器人對(duì)溫室番茄的識(shí)別和采摘。該模型引入了八度卷積和注意力機(jī)制,加強(qiáng)了對(duì)遠(yuǎn)近距離產(chǎn)生的小目標(biāo)番茄、葉片遮擋果實(shí)和番茄果實(shí)多個(gè)重疊目標(biāo)識(shí)別的魯棒性,有效提高了番茄檢測(cè)精度。此外,將天氣增強(qiáng)技術(shù)應(yīng)用于數(shù)據(jù)增強(qiáng)及模型訓(xùn)練,豐富了訓(xùn)練數(shù)據(jù)量,提高了模型的泛化能力。利用該模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行檢測(cè),平均精度為94.58%(IoU≥0.5),對(duì)溫室中高度遮擋的番茄表現(xiàn)出良好的識(shí)別和檢測(cè)準(zhǔn)確性,為番茄采摘機(jī)器人提供了一種新的視覺(jué)識(shí)別思路。

      為了驗(yàn)證OctaveC-YOLOv5 的優(yōu)越性,將其與Fast R-CNN、SSD、YOLOv3-tiny、YOLOv3、YOLOv4、YOLOv5、YOLOX 模型進(jìn)行對(duì)比試驗(yàn),綜合檢測(cè)準(zhǔn)確率和檢測(cè)時(shí)間,OctaveC-YOLOv5 的檢測(cè)性能明顯優(yōu)于其他模型,表現(xiàn)出更好的泛化性和實(shí)時(shí)檢測(cè)優(yōu)勢(shì),適用于收獲機(jī)器人。

      在未來(lái)的研究中,將開(kāi)發(fā)一個(gè)可在收獲前通過(guò)觀察實(shí)時(shí)識(shí)別和估計(jì)番茄成熟度的綜合框架,以確定適當(dāng)?shù)氖斋@時(shí)間并監(jiān)測(cè)植株的生長(zhǎng)狀態(tài)。

      猜你喜歡
      八度番茄卷積
      番茄炒蛋
      秋茬番茄“疑難雜癥”如何挽救
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      番茄果實(shí)“起棱”怎么辦
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      鋼琴演奏中的八度技巧
      ——探究李斯特鋼琴曲《魔王》
      芻議音樂(lè)表演與鋼琴演奏中的八度技巧
      試論音樂(lè)表演中如何進(jìn)行鋼琴演奏中的八度技巧
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      东明县| 陆良县| 易门县| 甘孜县| 灵山县| 沁阳市| 藁城市| 河津市| 涟源市| 九台市| 博罗县| 疏附县| 德惠市| 乐安县| 宝鸡市| 登封市| 米脂县| 申扎县| 镶黄旗| 治县。| 泰兴市| 青田县| 许昌市| 京山县| 精河县| 杭锦旗| 宁陵县| 偃师市| 宝丰县| 仁怀市| 平昌县| 湘潭县| 兴化市| 开远市| 白山市| 丘北县| 永定县| 丰顺县| 松阳县| 闵行区| 即墨市|