• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于YOLOX的小麥穗旋轉(zhuǎn)目標(biāo)檢測

      2024-12-31 00:00:00張世豪董巒趙昀杰
      江蘇農(nóng)業(yè)科學(xué) 2024年20期
      關(guān)鍵詞:目標(biāo)檢測

      doi:10.15889/j.issn.1002-1302.2024.20.019

      摘要:小麥穗檢測對于農(nóng)業(yè)估產(chǎn)和育種研究具有重要意義,但由于小麥穗角度和姿態(tài)多變且存在遮擋和尺度變化等因素,給目標(biāo)檢測帶來較大困難,提出一種針對小麥穗旋轉(zhuǎn)目標(biāo)檢測的改進方法YOLOX-RoC,該方法在YOLOX基礎(chǔ)上使用旋轉(zhuǎn)矩形框代替水平矩形框,更好地擬合小麥穗的輪廓和方向,減少背景干擾和重疊區(qū)域,使模型更具靈活性,更準(zhǔn)確地捕捉小麥穗的特征;添加坐標(biāo)注意力模塊并采用KL散度損失函數(shù)代替交叉熵損失函數(shù),提高對旋轉(zhuǎn)目標(biāo)的感知能力并解決旋轉(zhuǎn)敏感度的誤差度量問題,優(yōu)化旋轉(zhuǎn)目標(biāo)的定位精度。利用基于圖像合成的 Copy-Paste 數(shù)據(jù)增強方法,生成更多的訓(xùn)練樣本以提高模型對不同尺度、姿態(tài)和遮擋情況的泛化能力,提高模型的魯棒性。試驗結(jié)果表明,YOLOX-RoC的AP比基準(zhǔn)模型提升2.4百分點,針對小尺寸和被嚴(yán)重遮擋的小麥穗目標(biāo)可以更準(zhǔn)確地預(yù)測目標(biāo)邊界和角度,減少漏檢和誤檢。本研究為小麥穗目標(biāo)檢測提供了一種準(zhǔn)確和魯棒的解決方案,為小麥估產(chǎn)和育種的智能化奠定了技術(shù)基礎(chǔ)。

      關(guān)鍵詞:目標(biāo)檢測;小麥穗;旋轉(zhuǎn)矩形框;YOLOX;坐標(biāo)注意力模塊;KL額度;損失函數(shù)

      中圖分類號:S126;TP391.41" 文獻標(biāo)志碼:A

      文章編號:1002-1302(2024)20-0157-08

      收稿日期:2023-11-06

      基金項目:新疆維吾爾自治區(qū)重大科技專項(編號:2022A02011)。

      作者簡介:張世豪(1998—),男,山東臨沂人,碩士研究生,研究方向為深度學(xué)習(xí)與計算機視覺。E-mail:320203293@xjau.edu.cn。

      通信作者:董" 巒,博士,副教授,研究方向為深度學(xué)習(xí)與計算機視覺。E-mail:dl@xjau.edu.cn。

      小麥?zhǔn)鞘澜缟献钪匾募Z食作物之一[1],在全球糧食安全和經(jīng)濟發(fā)展中具有關(guān)鍵地位。小麥穗作為小麥植株的主要產(chǎn)量部位,其形態(tài)特征和生長狀態(tài)對小麥產(chǎn)量和品質(zhì)具有重要影響。因此,準(zhǔn)確、快速且自動化地檢測和分析小麥穗,對于提高小麥育種效率、優(yōu)化農(nóng)業(yè)管理、評估小麥產(chǎn)量等具有重要意義。

      小麥穗檢測是小麥穗表型分析的基礎(chǔ)和前提,涉及從復(fù)雜背景中提取小麥穗的位置、形狀、大小、方向等信息。這些信息可以用于計算小麥穗的數(shù)量、密度等信息,從而評估小麥的生長狀況和產(chǎn)量潛力。同時,檢測小麥穗也為后續(xù)的小麥穗識別、分類、計數(shù)等任務(wù)提供有效的輸入。

      目前,檢測小麥穗主要依賴于基于深度學(xué)習(xí)的目標(biāo)檢測方法,如Faster R-CNN[2]、YOLO[3]、SSD[4]等。Hasan等使用RGB相機拍攝小麥穗圖片,采用Faster R-CNN深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練麥穗識別模型,使用相同的R-CNN架構(gòu),基于不同的訓(xùn)練和測試圖像數(shù)據(jù)集生成4個不同的模型,在不同的測試圖像集上檢測準(zhǔn)確率為88%~94%的[5]。He等提出基于改進YOLO v4的小麥穗目標(biāo)檢測算法,適用于無人機在田間檢測小麥穗[6]。該方法在自然場景下,包括重疊、遮擋、光照變化、不同顏色和形狀等方面,都能保持出色的性能。劉航等將基于深度殘差網(wǎng)絡(luò)的密度回歸模型引入麥穗的計數(shù)領(lǐng)域,建立原始圖片與密度圖的對應(yīng)關(guān)系,以密度圖像素值總和確定圖像中麥穗數(shù)量,改進后的ResNet-16模型實現(xiàn)了端到端的麥穗計數(shù),精度達到94%[7]。黃子琦提出一種麥穗檢測網(wǎng)絡(luò)PPYOLO-SE,該網(wǎng)絡(luò)在保證檢測速度的同時提高了模型對小麥麥穗特征的學(xué)習(xí)能力,實現(xiàn)較高的檢測精度和速度,構(gòu)建了基于深度回歸的小麥穗計數(shù)模型,使用Tassel Net V2+網(wǎng)絡(luò),在小麥大田數(shù)據(jù)集上訓(xùn)練,實現(xiàn)了大田圖像麥穗計數(shù)。經(jīng)過試驗驗證,該模型在大田麥穗數(shù)據(jù)集上的平均檢測精度達到了95.13%[8]。

      盡管上述方法在一定程度上提高了檢測效果,但仍存在以下問題:首先,由于小麥穗的特殊形態(tài),采用傳統(tǒng)的水平矩形框表示其位置和形狀會導(dǎo)致空間冗余和遮擋問題,降低檢測精度和效率。其次,小麥穗在不同生長階段和拍攝角度下會呈現(xiàn)不同的方向,固定方向框的使用忽略了其方向信息,降低了檢測的可解釋性和實用性。最后,現(xiàn)有方法通常需要大量的標(biāo)注數(shù)據(jù)和計算資源,對于數(shù)據(jù)量有限或計算能力受限的場景,使用現(xiàn)有方法面臨數(shù)據(jù)不足或訓(xùn)練時間過長的問題。

      針對現(xiàn)有方法的局限性和小麥穗目標(biāo)檢測的需求,本研究提出了一種基于改進YOLOX的小麥穗旋轉(zhuǎn)矩形框檢測方法。通過將YOLOX目標(biāo)檢測算法進行優(yōu)化和改進,將傳統(tǒng)的矩形框替換為旋轉(zhuǎn)矩形框,以更好地適應(yīng)小麥穗的旋轉(zhuǎn)形態(tài),提高檢測的準(zhǔn)確性和魯棒性。同時,采用Copy-Paste數(shù)據(jù)增強技術(shù),增強數(shù)據(jù)集的多樣性和豐富性,從而進一步提升模型的性能。本研究在公開的小麥穗目標(biāo)檢測數(shù)據(jù)集上進行試驗,結(jié)果表明,所提出的YOLOX-RoC模型在檢測效率和靈活性方面優(yōu)于傳統(tǒng)的水平矩形框方法,并具有較大的改進空間。本研究為農(nóng)業(yè)領(lǐng)域中的小麥穗檢測提供一種新的解決方案,促進農(nóng)作物生產(chǎn)的智能化和高效化發(fā)展。同時,本研究改進方法也具有一定的通用性,可在其他旋轉(zhuǎn)目標(biāo)檢測任務(wù)中得到應(yīng)用。

      1" YOLOX模型簡介

      YOLOX模型于2001年提出,與YOLO v5一樣都采用YOLO系列模型的設(shè)計思路[9],即將目標(biāo)檢測問題轉(zhuǎn)化為單一的回歸問題,并且都采用相似的檢測流程,但YOLOX的無錨框和高級標(biāo)簽分配策略等改進使其特點鮮明。YOLOX模型的主干特征提取網(wǎng)絡(luò)有2種,分別來源于YOLO v3[10]和YOLO v5,本研究使用的YOLOX主干為YOLO v3中的DarkNet53,模型結(jié)構(gòu)見圖1。

      其中,CBL模塊是一個簡單而有效的卷積層,由卷積(Conv)、批歸一化(BN)[11]和LeakyReLU激活函數(shù)[12]組成。CBL模塊可以在不改變特征圖的高度和寬度的情況下,提取特征并增加非線性,CBL模塊在YOLOX模型中被廣泛使用。

      ResN模塊由1個CBL模塊和多個殘差塊(ResUnit)組成,ResUnit模塊是一個典型的沙漏型殘差塊,它首先使用1個1×1卷積層將輸入通道數(shù)減半,接著使用1個3×3卷積層將輸出通道數(shù)恢復(fù)原來的大小,最后將2個卷積層的輸出與輸入相加得到最終結(jié)果。殘差塊的輸入和輸出通過相加實現(xiàn)特征圖的短路連接,從而增強網(wǎng)絡(luò)的表達能力和梯度傳播,因此可以有效地減少參數(shù)量和計算量,同時保持較高的性能 。

      SPP模塊在YOLO v3的SPP-Net模塊[13]的基礎(chǔ)上進行改進,用于特征融合,它通過使用不同尺寸的最大池化層來提取多尺度的特征,然后將池化結(jié)果拼接起來,形成一個更豐富和多尺度的特征表示[14]再送入CBL模塊。SPP模塊是一種輕量化、自適應(yīng)、高效的特征融合方法,可以有效地提升目標(biāo)檢測的性能。

      YOLOX的預(yù)測頭(Head)與前文所述YOLO v5的改進的Decouple Head 類似,它將原來的YOLO Head分解為2個獨立的分支,不再共享參數(shù),分別負責(zé)分類和回歸。通過減少不同任務(wù)之間的耦合使收斂速度和檢測精度提高。

      2" YOLOX模型改進

      2.1" 坐標(biāo)注意力模塊

      注意力機制是一種數(shù)據(jù)處理方法,它讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到對輸入的不同部分賦予的權(quán)重,從而突出相關(guān)的信息。在計算機視覺中,注意力機制的基本思想是讓模型學(xué)會專注,把注意力集中在重要的信息上而忽視不重要的信息。代表性的注意力機制設(shè)計有SE(squeeze-and-excitation)[15]、CBAM(convolutional block attention module)[16]等。

      坐標(biāo)注意力(coordinate attention,CA)[17]是一種高效的注意力機制,它可以為模型提供更好的特征表示能力。坐標(biāo)注意力模塊見圖2,它的主要思想是在水平方向和垂直方向上進行平均池化,再進行空間信息編碼,最后把空間信息通過在通道上加權(quán)的方式融合,可以有效地將空間坐標(biāo)信息整合到生成的注意力圖中,在保留位置信息的同時,捕獲輸入特征圖沿不同空間方向的長程依賴關(guān)系。

      相對于SE和CBAM,CA可以捕獲空間信息,提高定位和識別能力,SE忽略了空間信息,CBAM則會丟失位置信息和增加計算開銷;CA可以靈活地插入到移動網(wǎng)絡(luò)中,幾乎沒有額外的計算開銷,SE和CBAM都需要增加額外的參數(shù)和計算量,影響移動網(wǎng)絡(luò)的輕量級和高效性;CA可以作為預(yù)訓(xùn)練模型,為密集預(yù)測任務(wù)帶來顯著的性能提升。將CA融入到Y(jié)OLOX模型的小麥穗檢測模型,有望在小目標(biāo)檢測任務(wù)中獲得優(yōu)勢。CA允許模型根據(jù)位置信息分配注意力,提高對小目標(biāo)的感知能力。這將有助于更精確地定位和識別小麥穗,提升模型的檢測準(zhǔn)確性和魯棒性。

      2.2" 旋轉(zhuǎn)框預(yù)測頭

      YOLOX默認(rèn)的模型算法中只有水平矩形框的表示方法,這意味著它不能很好地檢測傾斜或旋轉(zhuǎn)的目標(biāo),因此需要設(shè)計旋轉(zhuǎn)矩形框的表示方法。旋轉(zhuǎn)矩形框的邊長表示法是一種用于描述目標(biāo)檢測中的旋轉(zhuǎn)目標(biāo)的方法,它可以用5個參數(shù)來定義1個旋轉(zhuǎn)矩形框,分別是中心點坐標(biāo)、2條邊的長度和旋轉(zhuǎn)角度。

      長邊定義法如圖3所示,它使用(x,y,w,h,θ)來表示1個旋轉(zhuǎn)矩形框,其中(x,y)是中心點坐標(biāo),W和H分別是2條邊的長度,θ是逆時針方向到長邊所成直線與x軸正方向夾角,規(guī)定θ∈-π2,π2。

      為了適應(yīng)旋轉(zhuǎn)目標(biāo)檢測的任務(wù),YOLOX的預(yù)測頭需要進行一些改進。除了原有的類別分類頭和邊界框回歸頭,還需要增加1個角度回歸頭,用于學(xué)習(xí)目標(biāo)的旋轉(zhuǎn)角度信息。修改后的預(yù)測頭的結(jié)構(gòu)見圖4。

      2.3" KL散度損失函數(shù)

      YOLOX的損失函數(shù)主要由3個部分組成:分類損失、置信度損失、定位損失。其中,分類損失和置信度損失采用的是二元交叉熵損失函數(shù),見式(1):

      BCELoss=-1N∑Ni=1yi×ln[σ(xi)]+(1-yi)×ln[1-σ(xi)]。(1)

      式中:σ(xi)為Sigmoid激活函數(shù);BCELoss為二元交叉熵損失函數(shù);N表示樣本數(shù)量。yi是第i個樣本的真實標(biāo)簽。

      在目標(biāo)檢測任務(wù)中,對于旋轉(zhuǎn)邊界框的角度參數(shù)進行回歸時,存在旋轉(zhuǎn)敏感度誤差問題,這會導(dǎo)致模型訓(xùn)練不穩(wěn)定,從而影響檢測精度。為了解決這個問題,本研究采用KL散度(kullback-leibler divergence,KLD)[18]作為損失函數(shù)進行邊界框回歸損失的計算。KL散度是一種用于衡量2個概率分布之間差異的指標(biāo),可以將旋轉(zhuǎn)邊界框轉(zhuǎn)換為二維高斯分布,并計算高斯分布之間的相對熵,從而得到損失函數(shù)的值。通過使用KL散度作為損失函數(shù),可以有效地解決旋轉(zhuǎn)敏感度誤差問題,并提高模型的訓(xùn)練穩(wěn)定性和檢測精度,KL散度如公式(2)所示。

      DKL(NP‖Mt)=12(up-ut)T∑-1t(up-ut)+12Tr(∑-1t∑p)+12ln|∑t||∑p|-1。(2)

      其中:(up-ut)T∑-1t(up-ut)、Tr(∑-1t∑p)和 ln|∑t||∑p| 分別如式(3)、(4)、(5)所示。

      (up-ut)T∑-1t(up-ut)=4(Δxcosθt+Δysinθt)2w2t+4(Δycosθt-Δxsinθt)2h2t; (3)

      Tr(∑-1t∑p)=h2pw2tsin2Δθ+w2ph2tsin2Δθ+h2ph2tcos2Δθ+w2pw2tcos2Δθ;(4)

      ln|∑t||∑p|=lnh2th2p+lnw2tw2p。(5)

      其中:Δx=xp-xt、Δy=yp-yt、Δθ=θp-θt分別是預(yù)測框和真實框之間的中心點坐標(biāo)和角度差值;u表示二元高斯分布的均值;∑表示協(xié)方差矩陣;p(預(yù)測)和t(實際)區(qū)分2個獨立的高斯分布;∑-1t表示∑t的逆矩陣;Tr表示矩陣的跡;θ表示bonding box的旋轉(zhuǎn)角度;p和t區(qū)分預(yù)測和真實的2個box;h是高度;w是寬度。

      KL散度損失函數(shù)計算公式如式(6)所示,如果KL散度DKL(Np‖Nt)等于0,那么損失函數(shù)也為0;如果KL散度很大,損失函數(shù)為1,在KL散度上利用y=lnx函數(shù)來平滑損失函數(shù)。

      LKLD(Np‖Nt)=1-11+ln[DKL(Np‖Nt)]。(6)

      KL散度損失函數(shù)能夠根據(jù)目標(biāo)的尺度動態(tài)調(diào)整權(quán)重,從而減少微小的角度誤差對檢測精度的影響,使得高精度的旋轉(zhuǎn)檢測成為可能[19]。

      3" 數(shù)據(jù)集

      3.1" 數(shù)據(jù)集制作

      本研究主要使用GWHD 2021(global wheat head detection 2021)數(shù)據(jù)集和WEDD(wheat ears detection dataset)數(shù)據(jù)集。

      GWHD2021數(shù)據(jù)集中的小麥穗圖片來自亞洲、歐洲、美洲、非洲、大洋洲的12個國家[20],拍攝于2015—2021年,包括6 500張圖片和275 000個小麥穗,分辨率為1 024像素×1 024像素,可以有效地避免因為麥穗特征單一或者代表性不足而導(dǎo)致擬合到特定數(shù)據(jù)集,在實際小麥穗圖像檢測中效果較差的問題。

      WEDD(wheat ears detection dataset)是Madec等提供的公開數(shù)據(jù)集[21],包含236張6 000像素×4 000 像素的高分辨率小麥圖片,共有30 729個小麥麥穗。該數(shù)據(jù)采集于2017年6月在法國格雷烏萊班(43.7°N,5.8°E)的麥田表型平臺,使用索尼 ILCE-6000 數(shù)碼相機,并將相機固定在吊桿上距離地面2.9 m進行拍攝。2個數(shù)據(jù)集圖片見圖5。

      目前公開的小麥穗數(shù)據(jù)集圖片都是使用水平矩形框標(biāo)注的,這種標(biāo)注方式存在一定的局限性,例如無法準(zhǔn)確地描述小麥穗部的形狀和方向,容易造成標(biāo)注框之間的重疊等問題。為了實現(xiàn)更精確的目標(biāo)檢測,本研究選取公開數(shù)據(jù)集中的部分圖片,使用旋轉(zhuǎn)矩形框進行重新標(biāo)注。

      標(biāo)注1個旋轉(zhuǎn)矩形是比較困難的,因為旋轉(zhuǎn)矩形的4個點是落于旋轉(zhuǎn)目標(biāo)的輪廓外邊,很難快速定位到4個點的位置并標(biāo)注1個比較符合預(yù)期的旋轉(zhuǎn)矩形,更多的是標(biāo)注1個比較扭曲的四邊形(圖6)。針對這種標(biāo)注耗時、費力的情況,本研究使用了十字標(biāo)注法,將原本順時針標(biāo)注變?yōu)榻徊鏄?biāo)注,而這些交叉標(biāo)注的點都落于目標(biāo)上,將1條對角線作為基準(zhǔn)線,即目標(biāo)的朝向,另外2個點向這條基準(zhǔn)線做垂線,將“十”字標(biāo)注轉(zhuǎn)為旋轉(zhuǎn)矩形框,結(jié)果如圖6-b所示。

      旋轉(zhuǎn)矩形框圖片使用Labelme工具標(biāo)注,標(biāo)注示意圖見圖7,圖像標(biāo)注完成后劃分為訓(xùn)練集、驗證集、測試集。訓(xùn)練集用于訓(xùn)練模型的參數(shù),使模型能夠擬合數(shù)據(jù)的特征和規(guī)律[22]。驗證集用于調(diào)整模型的超參數(shù),如學(xué)習(xí)率、正則化系數(shù)等,以優(yōu)化模型的性能和泛化能力。測試集用于評估模型在未知數(shù)據(jù)上的表現(xiàn),檢驗?zāi)P偷臏?zhǔn)確度和魯棒性。

      本研究對上述2個公開數(shù)據(jù)集的圖片重新標(biāo)注旋轉(zhuǎn)矩形框標(biāo)簽,并用于比較水平矩形框的模型訓(xùn)練和檢測效果。所制作的數(shù)據(jù)集共包含408張圖片,其中386張的分辨率為1 024像素×1 024像素,來自GWHD2021數(shù)據(jù)集;另外22張的分辨率為6 000像素×4 000像素,來自WEDD數(shù)據(jù)集。這些圖片來源各不相同,具備一定的復(fù)雜度和多樣性,同時包含水平矩形框和旋轉(zhuǎn)矩形框2種標(biāo)簽。為了評估不同模型的性能,將這2個數(shù)據(jù)集按照8 ∶1 ∶1的比例劃分為訓(xùn)練集、驗證集和測試集。本研究基于這2個數(shù)據(jù)集,對YOLOX模型進行了進一步的研究和改進。

      3.2" 數(shù)據(jù)增強

      由于本研究使用的旋轉(zhuǎn)矩形框數(shù)據(jù)集相比水平矩形框數(shù)據(jù)集少一些,因此可以進一步使用數(shù)據(jù)增強方法擴充數(shù)據(jù)集,以提高模型檢測效果。在使用更多的隨機平移、裁剪、Mosaic和Mixup數(shù)據(jù)增強

      方法的同時,額外使用Copy-Paste方法[23],Copy-Paste是一種簡單而有效的數(shù)據(jù)增強方法,它的基本思想是:從訓(xùn)練集中隨機選擇2幅圖像,從其中一張圖片中隨機選擇一個目標(biāo)子集,并將其復(fù)制粘貼到另一張圖片中的隨機位置,同時更新相應(yīng)的標(biāo)注框信息。這樣可以豐富數(shù)據(jù)中的場景和對象的組合,提高模型對不同尺度、姿態(tài)和遮擋的泛化能力,使用數(shù)據(jù)增強后的效果見圖8。

      4" 模型訓(xùn)練

      4.1" 試驗配置與參數(shù)

      本試驗全部在Linux環(huán)境下進行,訓(xùn)練模型的操作系統(tǒng)為Ubuntu 18.04.6 LTS,圖形處理器為NVIDIA Tesla P100,計算機內(nèi)存和顯存均為16 GB,具體配置信息見表1。本研究訓(xùn)練YOLO v5模型采用的超參數(shù)設(shè)置見表2。

      4.2" 評價指標(biāo)

      Precision和Recall是2個常用的評價分類模型性能的指標(biāo)。Precision(P)表示預(yù)測為正例的樣本中真正為正例的比例,也就是正確預(yù)測的正例占所有預(yù)測為正例的樣本的比例。

      在平面直角坐標(biāo)系中以Recall(R)值為橫軸,P值

      為縱軸,可以得到PR曲線,AP(average precision)是Precision-Recall曲線下的面積,可使用積分計算,如式(7)所示。AP綜合考慮P和R 2個指標(biāo),能夠更全面地評估模型的性能。

      5" 試驗結(jié)果與分析

      試驗結(jié)果見表3,其中YOLOX為基礎(chǔ)模型,YOLOX_CA為在此基礎(chǔ)上添加坐標(biāo)注意力模塊;YOLOX_Rotation為修改預(yù)測頭和損失函數(shù)后的旋轉(zhuǎn)矩形框檢測模型,YOLOX_Rotation_CA為該模型添加坐標(biāo)注意力模塊后的模型,并命名為YOLOX-RoC。

      添加坐標(biāo)注意力模塊后,YOLOX_CA和YOLOX_Rotation_CA(YOLOX-RoC)模型在AP0.5和AP0.5 ∶0.95 2個指標(biāo)上都有顯著的提升,分別達到了78.4%和41.9%,以及78.9%和43.9%。這說明坐標(biāo)注意力模塊可以有效地增強特征表示能力,提高小麥穗檢測的準(zhǔn)確性。同時,YOLOX-RoC模型相比于YOLOX_CA模型有更高的性能,這表明旋轉(zhuǎn)矩形框相比于水平矩形框更適合于小麥穗檢測任務(wù)。然而,值得注意的是, YOLOX-Rotation模型

      的算法復(fù)雜度也相對較高,比YOLOX模型更復(fù)雜。

      圖9展示了YOLOX_Rotation_CA(YOLOX-RoC)模型在檢測小麥穗時相對于其他模型的優(yōu)勢。首先,在遮擋較嚴(yán)重的圖像中,只有YOLOX-RoC模型可以正確識別出被遮擋的麥穗,并且使用旋轉(zhuǎn)矩形框更準(zhǔn)確地擬合麥穗的輪廓(圖9-a)。其次,在圖像中較小的小麥穗目標(biāo)下,只有YOLOX-RoC模型可以辨別出這些較小且難以識別的小麥穗目標(biāo),并且使用坐標(biāo)注意力模塊可以更好地突出這些目標(biāo)區(qū)域(圖9-b)。最后,在圖像中存在多個不同方向和大小的小麥穗目標(biāo)時,只有YOLOX-RoC模型可以準(zhǔn)確地檢測出所有的目標(biāo),并且使用旋轉(zhuǎn)矩形框和坐標(biāo)注意力模塊可以更好地表示目標(biāo)的位置、方向和大小(圖 9-c)。

      6" 結(jié)論

      本研究提出了一種新的旋轉(zhuǎn)目標(biāo)檢測方

      法——YOLOX-Rotation, 結(jié)合坐標(biāo)注意力模塊, 取得了顯著優(yōu)勢。相較于水平矩形框,旋轉(zhuǎn)矩形框在小麥穗檢測任務(wù)中更精確,提供更好的可視化效果,且在模型精度和靈活性上表現(xiàn)更好。本研究主要通過以下幾個關(guān)鍵改進來實現(xiàn)這一進展:(1)重新設(shè)計旋轉(zhuǎn)目標(biāo)的表示方法,修改YOLOX的預(yù)測頭,以更好地表示旋轉(zhuǎn)目標(biāo)的位置和姿態(tài),從而提高模型的性能;(2)采用KL散度損失函數(shù)來解決旋轉(zhuǎn)敏感度誤差,提高了訓(xùn)練穩(wěn)定性和檢測精度;(3)采用Copy-Paste數(shù)據(jù)增強方法,擴充了訓(xùn)練樣本,增加了數(shù)據(jù)的多樣性和復(fù)雜性,提高了模型的泛化能力;(4)引入坐標(biāo)注意力模塊,以增強特征表示能力。這一模塊能更好地捕獲特征圖的依存關(guān)系,提高檢測效果。通過試驗驗證,改進后的YOLOX-RoC模型AP值提升2.4百分點,特別在小目標(biāo)和遮擋嚴(yán)重的情況下表現(xiàn)出色。

      綜上所述,本研究在旋轉(zhuǎn)目標(biāo)檢測領(lǐng)域取得了顯著的進展,提出的YOLOX-RoC方法在檢測精度和泛化能力上表現(xiàn)出色,但仍然存在一些潛在的改進空間。未來可以進一步研究如何進一步提高模型的魯棒性和效率,以及如何更好地適應(yīng)更復(fù)雜多樣化的場景,使其在實際應(yīng)用中具有更廣泛的價值和應(yīng)用前景。

      參考文獻:

      [1]Zhao C J,Zhang Y,Du J J,et al. Crop phenomics:current status and perspectives[J]. Frontiers in Plant Science,2019,10:714.

      [2]Girshick R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Santiago:IEEE,2015:1440-1448.

      [3]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:779-788.

      [4]Liu W,Anguelov D,Erhan D,et al. SSD:single shot MultiBox detector[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2016:21-37.

      [5]Hasan M M,Chopin J P,Laga H,et al. Detection and analysis of wheat spikes using Convolutional Neural Networks[J]. Plant Methods,2018,14:100.

      [6]He M X,Hao P,Xin Y Z.A robust method for wheatear detection using UAV in natural scenes[J]. IEEE Access,2020,8:189043-189053.

      [7]劉" 航,劉" 濤,李世娟,等. 基于深度殘差網(wǎng)絡(luò)的麥穗回歸計數(shù)方法[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報,2021,26(6):170-179.

      [8]黃子琦. 基于深度學(xué)習(xí)麥穗識別的小麥估產(chǎn)研究[D]. 泰安:山東農(nóng)業(yè)大學(xué),2022:3-4.

      [9]Ge Z,Liu S,Wang F,et al. Yolox:Exceeding yolo series in 2021[EB/OL]. (2021-07-18)[2023-10-05]. https://arxiv.org/abs/2107.08430.

      [10]Redmon J,F(xiàn)arhadi A.YOLO v3:an incremental improvement[EB/OL]. (2018-04-08)[2023-10-05]. https://arxiv.org/abs/1804.02767v1.

      [11]Ioffe S,Szegedy C. Batch normalization:accelerating deep network training by reducing internal covariate shift[J]. 32nd International Conference on Machine Learning,2015,1:448-456.

      [12]Xu B,Wang N Y,Chen T Q,et al. Empirical evaluation of rectified activations in convolutional network[EB/OL]. (2015-11-27)[2023-10-05]. https://arxiv.org/abs/1505.00853v2.

      [13]He K M,Zhang X Y,Ren S Q,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.

      [14]Huang Z C,Wang J L,F(xiàn)u X S,et al. DC-SPP-YOLO:dense connection and spatial pyramid pooling based YOLO for object detection[J]. Information Sciences,2020,522:241-258.

      [15]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE,2018:7132-7141.

      [16]Woo S,Park J,Lee J Y,et al. CBAM:convolutional block attention module[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:3-19.

      [17]Hou Q B,Zhou D Q,F(xiàn)eng J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Nashville:IEEE,2021:13708-13717.

      [18]Yang X,Yang X J,Yang J R,et al. Learning high-precision bounding box for rotated object detection via kullback-leibler divergence[EB/OL]. (2021-06-03)[2023-10-05]. https://arxiv.org/abs/2106.01883v5.

      [19]Zakaria Y,Mokhtar S A,Baraka H,et al. Improving small and cluttered object detection by incorporating instance level denoising into single-shot alignment network for remote sensing imagery[J]. IEEE Access,2022,10:51176-51190.

      [20]David E,Serouart M,Smith D,et al. Global Wheat Head Dataset 2021:more diversity to improve the benchmarking of wheat head localization methods[EB/OL]. (2021-06-03)[2023-10-05]. https://arxiv.org/abs/2105.07660v2.

      [21]Madec S,Jin X L,Lu H,et al. Ear density estimation from high resolution RGB imagery using deep learning technique[J]. Agricultural and Forest Meteorology,2019,264:225-234.

      [22]劉" 穎,劉紅燕,范九倫,等. 基于深度學(xué)習(xí)的小目標(biāo)檢測研究與應(yīng)用綜述[J]. 電子學(xué)報,2020,48(3):590-601.

      [23]Ghiasi G,Cui Y,Srinivas A,et al. Simple copy-paste is a strong data augmentation method for instance segmentation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville:IEEE,2021:2918-2928.

      猜你喜歡
      目標(biāo)檢測
      多視角目標(biāo)檢測與跟蹤技術(shù)的研究與實現(xiàn)
      視頻中目標(biāo)檢測算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      行為識別中的人體運動目標(biāo)檢測方法
      移動機器人圖像目標(biāo)識別
      基于視頻監(jiān)控的運動圖像檢測算法研究
      基于背景建模法的運動目標(biāo)檢測
      基于P3電位的目標(biāo)檢測研究
      科技視界(2016年4期)2016-02-22 13:09:19
      智能視頻技術(shù)在電力系統(tǒng)領(lǐng)域的應(yīng)用
      相關(guān)K分布雜波中擴展目標(biāo)積累檢測性能分析
      基于連通域標(biāo)記的目標(biāo)檢測算法設(shè)計與實現(xiàn)
      奎屯市| 霍林郭勒市| 海安县| 吉木萨尔县| 隆德县| 海宁市| 甘肃省| 西华县| 远安县| 绩溪县| 昌黎县| 九龙县| 怀柔区| SHOW| 五原县| 旬邑县| 海晏县| 张家口市| 南部县| 绍兴市| 大英县| 保山市| 土默特左旗| 安阳县| 岑巩县| 会昌县| 渭南市| 莆田市| 龙山县| 广宗县| 鸡泽县| 衢州市| 新营市| 县级市| 彝良县| 中山市| 松阳县| 灯塔市| 西城区| 新乡县| 新建县|