陳柯屹,朱龍付,宋 鵬,田曉敏,黃成龍,聶新輝,肖愛玲,何良榮
融合動(dòng)態(tài)機(jī)制的改進(jìn)型Faster R-CNN識(shí)別田間棉花頂芽
陳柯屹1,朱龍付1,宋 鵬1※,田曉敏2,黃成龍3,聶新輝2,肖愛玲4,何良榮5
(1. 華中農(nóng)業(yè)大學(xué)植物科學(xué)技術(shù)學(xué)院,武漢 430070;2. 石河子大學(xué)農(nóng)學(xué)院,石河子 832003;3. 華中農(nóng)業(yè)大學(xué)工學(xué)院,武漢 430070;4. 塔里木大學(xué)機(jī)械電氣化工程學(xué)院,阿拉爾 843300;5. 塔里木大學(xué)植物科學(xué)學(xué)院,阿拉爾 843300)
針對(duì)田間密植環(huán)境棉花精準(zhǔn)打頂時(shí),棉花頂芽因其小體積特性所帶來識(shí)別困難問題,該研究提出一種改進(jìn)型快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region Convolutional Neural Networks,F(xiàn)aster R-CNN)目標(biāo)檢測(cè)算法實(shí)現(xiàn)大田環(huán)境棉花頂芽識(shí)別。以Faster R-CNN為基礎(chǔ)框架,使用 RegNetX-6.4GF作為主干網(wǎng)絡(luò),以提高圖像特征獲取性能。將特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)和導(dǎo)向錨框定位(Guided Anchoring,GA)機(jī)制相融合,實(shí)現(xiàn)錨框(Anchor)動(dòng)態(tài)自適應(yīng)生成。通過融合動(dòng)態(tài)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Region Convolutional Neural Networks,Dynamic R-CNN),實(shí)現(xiàn)訓(xùn)練階段檢測(cè)模型自適應(yīng)候選區(qū)域(Proposal)分布的動(dòng)態(tài)變化。最后在目標(biāo)候選區(qū)域(Region of Interest,ROI)中引入目標(biāo)候選區(qū)域提取器(Generic ROI Extractor,GROIE)提高圖像特征融合能力。采集自然環(huán)境下7種不同棉花總計(jì)4 819張圖片,建立微軟常見物體圖像識(shí)別庫2017(Microsoft Common Objects in Context 2017,MS COCO 2017)格式的棉花頂芽圖片數(shù)據(jù)集進(jìn)行試驗(yàn)。結(jié)果表明,該研究提出方法的平均準(zhǔn)確率均值(Mean Average Precision,MAP)為98.1%,模型的處理幀速(Frames Per Second,F(xiàn)PS)為10.3幀/s。其MAP在交并比(Intersection Over Union,IOU)為0.5時(shí)較Faster R-CNN、RetinaNet、Cascade R-CNN和RepPoints網(wǎng)絡(luò)分別提高7.3%、78.9%、10.1%和8.3%。該研究算法在田間對(duì)于棉花頂芽識(shí)別具有較高的魯棒性和精確度,為棉花精準(zhǔn)打頂作業(yè)奠定基礎(chǔ)。
深度學(xué)習(xí);算法;棉花;機(jī)制融合;動(dòng)態(tài)適應(yīng);頂芽識(shí)別;Faster R-CNN
棉花是中國(guó)重要的經(jīng)濟(jì)作物和戰(zhàn)略資源,其種植規(guī)模日益擴(kuò)大[1]。作為棉花栽培過程的重要環(huán)節(jié),棉花打頂作業(yè)正朝著智能化方向發(fā)展[2]。棉花打頂即通過去除其主莖生長(zhǎng)點(diǎn)來抑制頂端優(yōu)勢(shì),使其提早結(jié)鈴,提高種植效益[3]。田間自然環(huán)境進(jìn)行棉花頂芽的精準(zhǔn)識(shí)別,是實(shí)現(xiàn)棉花頂芽精準(zhǔn)去除作業(yè)的基礎(chǔ)。
早期研究者主要通過激光、超聲等傳感器檢測(cè)棉花頂芽所處高度[4],如孫杰[5]采用并排激光對(duì)射傳感器識(shí)別棉花頂芽位置;李霞等[6]采用超聲波測(cè)距原理測(cè)量棉花株高來控制打頂作業(yè),該類方法主要通過檢測(cè)棉花植株高度來指導(dǎo)打頂,誤差較大。圖像處理技術(shù)的發(fā)展為棉花頂芽精準(zhǔn)識(shí)別提供了新思路,劉俊奇[7]開發(fā)了用于棉花打頂高度檢測(cè)的棉花頂芽圖像識(shí)別系統(tǒng),驗(yàn)證了采用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行棉花頂芽識(shí)別的可行性;瞿端陽[8]提出了一種基于機(jī)器視覺技術(shù)的棉株定位識(shí)別方法,該類方法在室內(nèi)識(shí)別精度高,但易受田間環(huán)境影響,進(jìn)而影響棉花頂芽檢測(cè)的穩(wěn)定性。
卷積神經(jīng)網(wǎng)絡(luò)的提出,為田間環(huán)境目標(biāo)準(zhǔn)確檢測(cè)提供了新思路[9-11],越來越多的學(xué)者針對(duì)不同農(nóng)業(yè)應(yīng)用場(chǎng)景研究各種改進(jìn)算法,來進(jìn)一步提高檢測(cè)精度和效率[12-14]。彭明霞等[15]在Faster R-CNN識(shí)別算法中融合特征金字塔網(wǎng)絡(luò)來提高算法的圖像特征提取能力,進(jìn)行復(fù)雜棉田雜草識(shí)別;姚青等[16]采用基于ResNeXt101的特征提取網(wǎng)絡(luò)的RetinaNet作為水稻冠層蟲害檢測(cè)模型,通過改進(jìn)網(wǎng)絡(luò)中的特征提取網(wǎng)絡(luò)提高了識(shí)別算法的識(shí)別精度。
本研究以中國(guó)新疆田間種植待打頂時(shí)期棉花為對(duì)象,針對(duì)自然環(huán)境復(fù)雜、棉花田間種植密度大、頂芽區(qū)域相對(duì)較小等特性,提出一種融合動(dòng)態(tài)機(jī)制的改進(jìn)型Faster R-CNN棉花頂芽識(shí)別方法。采用RegNetX-6.4GF作為特征提取模塊,融合導(dǎo)向錨框定位(Guided Anchoring,GA)機(jī)制、動(dòng)態(tài)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Region Convolutional Neural Networks,Dynamic R-CNN)方法及目標(biāo)候選區(qū)域提取器(Generic ROI Extractor,GROIE),最終實(shí)現(xiàn)田間棉花頂芽的準(zhǔn)確識(shí)別,以期為棉花精準(zhǔn)打頂作業(yè)奠定基礎(chǔ)。
1.1.1 圖片采集
為建立自然環(huán)境下棉花群體中較為完備的棉花頂芽數(shù)據(jù)集,本研究于2020年7月6日至2020年7月17日期間,在新疆石河子地區(qū)采集實(shí)際待打頂時(shí)期自然環(huán)境下的陸地棉()群體圖像。其種植模式為一膜四行,行距(28 +50 +28) cm +55 cm,株距9.5 cm,行長(zhǎng)5 m。該群體來源廣泛,其葉片性狀因遺傳變異有所差別[17]。為保證本研究具有代表性,選取該群體中7種葉片形狀有差異的植株,采用具有不同分辨率的智能手機(jī)在田間隨機(jī)取樣,采集時(shí)間為北京時(shí)間10:00—18:00。分別在距離棉花冠層30~50 cm處(中距離)及50~100 cm處(遠(yuǎn)距離)兩種場(chǎng)景下,在均勻光照、強(qiáng)光斜射、強(qiáng)光直射、光照陰影4種不同光照條件,采集大田中不同類別棉花圖像。采集過程不做任何遮光處理,采集的原始圖片如圖 1所示。
1.1.2 數(shù)據(jù)集制作
本文選取包含以上各場(chǎng)景的棉花樣本圖片總計(jì)4 819 張,其中分辨率為2 592×1 944(像素)像素的圖片3 000張,分辨率為8 000×6 000(像素)的圖片1 819張。圖片集中對(duì)應(yīng)圖 1a中的不同棉花的圖片數(shù)量分別為2 175、406、408、301、448、468和613張。使用開源標(biāo)注工具Labelimg對(duì)圖片進(jìn)行標(biāo)注。選取兩種不同距離拍攝場(chǎng)景下的1 300 張棉花樣本圖片作為測(cè)試集,其中包括中距離場(chǎng)景圖片966張及遠(yuǎn)距離場(chǎng)景圖片334張。將余下的3 519張圖片按照4∶1的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集。數(shù)據(jù)集格式為MS COCO 2017。
Faster R-CNN[18]是兩階段目標(biāo)檢測(cè)框架的主流框架,兩個(gè)階段可以視為兩次以分類為基礎(chǔ)的目標(biāo)檢測(cè)。在采用Faster R-CNN進(jìn)行棉花頂芽識(shí)別時(shí),檢測(cè)器通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的棉花頂芽圖片進(jìn)行特征提取并生成特征圖(Feature Maps),之后特征圖輸入?yún)^(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN),生成多尺寸多比例的錨框(Anchor)網(wǎng)格,形成諸多候選目標(biāo)區(qū)域,并對(duì)這些目標(biāo)候選區(qū)域進(jìn)行前景和背景的分類計(jì)算及網(wǎng)格邊框回歸計(jì)算,通過比較計(jì)算得分,生成目標(biāo)候選區(qū)(Region of Interest,ROI),最后在檢測(cè)器的第二階段,對(duì)ROI進(jìn)行進(jìn)一步分類和邊框回歸來預(yù)測(cè)棉花頂芽類別的置信度及其所在位置的邊框。
考慮大田密植環(huán)境棉花頂芽小區(qū)域特性,針對(duì)Faster R-CNN算法難以有效動(dòng)態(tài)適應(yīng)復(fù)雜環(huán)境小目標(biāo)識(shí)別問題,本文對(duì)Faster R-CNN算法進(jìn)行優(yōu)化。采用RegNetX-6.4GF作為特征提取模塊,改善棉花圖片特征提取能力。在RPN中使用FPN并融合Guided Anchoring機(jī)制,使RPN可以根據(jù)棉花頂芽特征圖信息動(dòng)態(tài)生成相應(yīng)的Anchor,形成以棉花頂芽圖片特征為基礎(chǔ)的候選區(qū)域Proposals。同時(shí)在其訓(xùn)練階段融合Dynamic R-CNN機(jī)制,使識(shí)別算法在第二階段根據(jù)基于棉花特征信息的Proposal動(dòng)態(tài)變化過程來改變IOU閾值,獲得高質(zhì)量的Proposals來提高模型的訓(xùn)練效果,同時(shí)引入GROIE機(jī)制,使其在ROI階段有效提取FPN中的特征信息。改進(jìn)型Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)見圖2。
1.2.1 RegNetX-6.4GF卷積網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)從圖片中獲取不同層次特征的能力決定著模型的性能。其中,層數(shù)深淺則影響著網(wǎng)絡(luò)的特征提取能力[20-21]。針對(duì)棉花頂芽在復(fù)雜背景情況下的圖像特征,本文選取RegNetX-6.4GF[22]作為卷積神經(jīng)網(wǎng)絡(luò)替換Faster R-CNN原本采用的VGG-16,其結(jié)構(gòu)如圖3所示,該網(wǎng)絡(luò)結(jié)構(gòu)中輸入特征圖的長(zhǎng)度和寬度均為,為特征圖的通道數(shù),w=[168, 392, 784, 1 624]。
RegNet網(wǎng)絡(luò)結(jié)構(gòu)使用神經(jīng)結(jié)構(gòu)搜索(Neural Architecture Search,NAS)技術(shù)實(shí)現(xiàn)。給定設(shè)計(jì)空間(Designed Search Space)通過搜索算法去搜索出一組最佳參數(shù)組合。本文采取RegNetX-6.4GF網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)絡(luò)來提取圖像特征。該網(wǎng)絡(luò)中殘差結(jié)構(gòu)的引入解決了網(wǎng)絡(luò)深度增加所帶來的梯度消失的問題,具有更強(qiáng)的特征提取能力,其在ImageNet數(shù)據(jù)集上的Top-1 Error相較于VGG-16的28.07%和ResNeXt-50的21.9%下降為20.8%[22]。
1.2.2 Guided Anchoring-FPN模塊
RPN依據(jù)卷積神經(jīng)網(wǎng)絡(luò)提取到的特征圖生成棉花頂芽的前景目標(biāo)候選框。此階段目標(biāo)候選區(qū)域的質(zhì)量高低直接影響檢測(cè)器的性能,目標(biāo)候選區(qū)域的質(zhì)量高低表現(xiàn)為兩個(gè)方面,即在更高的IOU閾值下是否有更多的目標(biāo)候選區(qū)域和錨框(Anchor)形狀與目標(biāo)形狀匹配。為解決上述問題,本文通過在RPN中將FPN與Guided Anchoring相融合,來改變?cè)蠥nchor生成機(jī)制。
FPN[23]通過搭建一條自頂向下的路徑將各層次特征圖進(jìn)行連接,實(shí)現(xiàn)了淺層特征和深層特征的融合。在生成的每一特征圖層上,F(xiàn)aster R-CNN 按照特定的步長(zhǎng)以滑框(Sliding Window)的方式生成的Anchor。在棉花頂芽識(shí)別中,這種方式會(huì)帶來兩個(gè)問題,一是棉花頂芽所在區(qū)域過小,而生成Anchor則是在全圖均勻分布,這樣會(huì)造成多數(shù)Anchor分布于背景之中從而引起正負(fù)樣本不均衡進(jìn)而影響分類器的計(jì)算速度。二是生成的Anchor均是固定尺度和比例,不適用于自然狀態(tài)下非固定尺度的棉花頂芽。故對(duì)于棉花頂芽的識(shí)別,需要形狀位置動(dòng)態(tài)可變的Anchor生成機(jī)制。
為解決上述問題,在FPN中引入Guided Anchoring機(jī)制[24]。Anchor 的概率分布被分解為兩個(gè)條件概率分布,即給定圖像特征之后 Anchor 中心點(diǎn)的概率分布和給定圖像特征和中心點(diǎn)之后的形狀概率分布(圖4)。
式中,,,分別表示Anchor的中心點(diǎn)坐標(biāo)和寬高。
對(duì)于Anchor的中心點(diǎn)坐標(biāo)的確定,采用1×1卷積對(duì)特征圖進(jìn)行處理,獲得每點(diǎn)處是否含有物體的得分,與設(shè)定預(yù)設(shè)的閾值比較,本文將預(yù)設(shè)閾值設(shè)置為0.01,將可能含有物體的位置作為中心點(diǎn)。在確定中心點(diǎn)坐標(biāo)之后,使用Bounded IOU Loss對(duì)邊框長(zhǎng)寬進(jìn)行回歸計(jì)算,以獲得最佳的長(zhǎng)和寬。最后使用3×3的可變形卷積修正原始的特征圖,使得特征圖適應(yīng)每個(gè)Anchor的形狀。
1.2.3 Generic ROI Extractor模塊
傳統(tǒng)Faster R-CNN中通過式(9)從RPN選取特征圖來提取ROI。
式中為所選取特征圖,0表示最高層次特征圖,224則是ImageNet中與訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的圖片尺寸。w、h代表ROI的寬度和高度。這種選擇單一特征圖層的方法對(duì)于棉花頂芽識(shí)別會(huì)引起特征信息損失。為了綜合多尺度特征,本文引入目標(biāo)候選區(qū)域提取器(Generic ROI Extractor)[25]來對(duì)改進(jìn)型Faster R-CNN中的RPN信息進(jìn)行綜合提取。
如圖5所示,Generic ROI Extractor首先使用目標(biāo)候選區(qū)域?qū)R[26]將ROI映射到經(jīng)Guided Anchoring-FPN處理的每層特征圖對(duì)應(yīng)位置處,之后再對(duì)每一層進(jìn)行預(yù)處理,將不同尺寸的特征信息進(jìn)行消融,最后使用注意力機(jī)制提取全局特征,最終經(jīng)過分類回歸計(jì)算得到棉花頂芽的識(shí)別結(jié)果。
1.2.4 Dynamic R-CNN 機(jī)制
Faster R-CNN中Guided Anchoring-FPN的引入,使得生成的Anchor可以根據(jù)棉花頂芽的特征信息進(jìn)行動(dòng)態(tài)調(diào)整,這一機(jī)制的改變使得訓(xùn)練過程中產(chǎn)生的候選區(qū)域在不同IOU閾值下的分布也在動(dòng)態(tài)變化,而Faster R-CNN中只有閾值為0.5的IOU。針對(duì)此問題,本文在Faster R-CNN中融合Dynamic R-CNN[27],使得算法在第二階段的分類器(Classifier)和回歸計(jì)算器(Regressor)能動(dòng)態(tài)適應(yīng)Proposal的分布變化。在分類器中使用動(dòng)態(tài)標(biāo)注分類(Dynamic Label Assignment,DLA),見式(10)。
1.3.1 軟硬件平臺(tái)
本文方法所基于的軟件平臺(tái):系統(tǒng)軟件為Ubuntu18.04,Python3.7.9,Pytorch1.7.1深度學(xué)習(xí)模型框架基于香港中文大學(xué)的OpenMMLab開源框架MMdetection2.8。試驗(yàn)所用服務(wù)器硬件平臺(tái)配置:處理器Intel Core i9-9900k,主頻為3.6 GHz,內(nèi)存32 G,顯卡NVIDIA GeForce RTX 3080(10 GB)。
1.3.2 模型訓(xùn)練方法
算法模型使用MS COCO2017格式的棉花頂芽數(shù)據(jù)集,使用訓(xùn)練集2 815張圖片對(duì)算法模型參數(shù)進(jìn)行訓(xùn)練,在驗(yàn)證集704張圖片中比較不同算法性能,并在測(cè)試集1 300張圖片測(cè)試本算法實(shí)際識(shí)別效果。
在MMdetection框架平臺(tái)中對(duì)模型進(jìn)行訓(xùn)練,使用隨機(jī)梯度下降法訓(xùn)練模型,權(quán)值衰減系數(shù)為0.000 05,動(dòng)量參數(shù)為0.9,基于單RTX 3080顯卡的Batch大小為3。采用多尺度訓(xùn)練方案,輸入圖片尺寸長(zhǎng)邊像素大小為1 333,短邊像素尺寸每輪訓(xùn)練中從[640,672,704,736,768,800]中隨機(jī)挑選。學(xué)習(xí)率大小為0.002 5,設(shè)定訓(xùn)練36期(Epochs),學(xué)習(xí)率采用動(dòng)態(tài)變化機(jī)制,初始學(xué)習(xí)率為0.001,學(xué)習(xí)率在訓(xùn)練迭代500次中線性增加,在訓(xùn)練迭代到500次時(shí)增加到0.002 5并保持不變,之后學(xué)習(xí)率在第28和第34期減少為原來的1/10,來對(duì)模型參數(shù)進(jìn)行精細(xì)調(diào)整。
1.3.3 模型評(píng)估方法
本文采用驗(yàn)證集來測(cè)試訓(xùn)練好模型的性能,并在在測(cè)試集測(cè)試改進(jìn)后的算法實(shí)際識(shí)別效果。以交并比(Intersection Over Union,IOU)來評(píng)價(jià)模型精度,采用平均精度均值(Mean Average Precision,MAP),召回率(Recall)和準(zhǔn)確率(Precision)進(jìn)行模型評(píng)價(jià)[13]。通常情況MAP數(shù)值越高越好,本文只識(shí)別棉花頂芽,類別數(shù)為一,故本文采用召回率(Recall)和準(zhǔn)確率(Precision)作為評(píng)價(jià)指標(biāo),取值區(qū)間為[0,1]。
算法模型在訓(xùn)練集2 815張圖片中進(jìn)行訓(xùn)練,在36期中共迭代35 000次,改進(jìn)型Faster R-CNN由于引入了Guided Anchoring 機(jī)制,如式(1)所示,其Loss函數(shù)在原有基礎(chǔ)上增加了Anchor 的位置損失和形狀損失函數(shù),使得訓(xùn)練過程能獲得更多高質(zhì)量的Anchor。圖 6b,6c分別表示訓(xùn)練過程Anchor位置損失及形狀損失曲線,圖6d表示訓(xùn)練過程正負(fù)樣本的分類損失曲線,由圖可知,Anchor位置損失、形狀損失及分類損失在迭代30 000次之后均收斂到穩(wěn)定值?;诖藱C(jī)制生成Anchor的位置和形狀能與數(shù)據(jù)集圖像特征相契合,提升了模型對(duì)棉花頂芽區(qū)域的學(xué)習(xí)能力和識(shí)別效果,進(jìn)而表現(xiàn)為總體損失函數(shù)值下降較快(圖6a),總體損失函數(shù)值在迭代30 000次之后達(dá)到穩(wěn)定,此時(shí)模型參數(shù)達(dá)到預(yù)期訓(xùn)練效果。
為了驗(yàn)證模型的識(shí)別精度,將訓(xùn)練好的模型應(yīng)用于測(cè)試集,對(duì)測(cè)試集中兩種不同場(chǎng)景下的棉花圖片進(jìn)行檢測(cè),場(chǎng)景一為中距離拍攝場(chǎng)景不同光照條件下的識(shí)別效果,包含966張圖片,1 314個(gè)棉花頂芽。場(chǎng)景二為遠(yuǎn)距離拍攝場(chǎng)景識(shí)別效果,包含334張圖片764個(gè)棉花頂芽。統(tǒng)計(jì)結(jié)果如表1所示。
表1 棉花頂芽識(shí)別結(jié)果
通過對(duì)模型在測(cè)試集上的統(tǒng)計(jì)結(jié)果可以看出,改進(jìn)后的Faster R-CNN模型在大田自然環(huán)境下對(duì)棉花頂芽有較高的識(shí)別準(zhǔn)確度。由表1可以看出,本文所提方法的識(shí)別準(zhǔn)確率在中距離和遠(yuǎn)距離場(chǎng)景下,較Faster R-CNN分別提高了3.2和3.1百分點(diǎn)。針對(duì)所有樣本識(shí)別的平均準(zhǔn)確率均值可達(dá)98.1%,較Faster R-CNN高3.2個(gè)百分點(diǎn)。這是因?yàn)閷aster R-CNN中的卷積網(wǎng)絡(luò)替換為RegNetX-6.4GF,提高了模型對(duì)目標(biāo)信息的提取能力,同時(shí)Guided Anchoring和GROIE機(jī)制的融合使得Anchor能夠動(dòng)態(tài)適應(yīng)目標(biāo)位置及大小變化,增強(qiáng)了模型對(duì)于圖像中棉花頂芽特征信息的識(shí)別能力。針對(duì)不同拍攝距離、不同光照條件的棉花頂芽識(shí)別效果如圖7所示。
目前在深度學(xué)習(xí)領(lǐng)域,以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的目標(biāo)識(shí)別模型主要有兩大分支。一是Anchor-based分支,其內(nèi)部又分為單階段、雙階段及多階段模型框架。二是Anchor-free分支,其主要通過確定特征點(diǎn)的方式來形成最終的識(shí)別框。
為驗(yàn)證本文算法的有效性,選取目前主流的識(shí)別算法在棉花頂芽數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在驗(yàn)證集上將其和本文提出的算法進(jìn)行性能比較。本文選用Anchor-based中的基于單步多目標(biāo)檢測(cè)器(Single Shot MultiBox Detector,SSD)改進(jìn)的單階段模型RetinaNet、雙階段模型Faster R-CNN和多階段模型中采用級(jí)聯(lián)檢測(cè)器結(jié)構(gòu)的Cascade R-CNN[28]以及Anchor-free中的RepPoints[29]模型框架進(jìn)行對(duì)比分析。計(jì)算IOU值在0.5情況下的準(zhǔn)確率[13],并計(jì)算模型處理幀速(Frames Per Second,F(xiàn)PS),結(jié)果如表2所示。
表2 不同算法在驗(yàn)證集上的測(cè)試結(jié)果
注:IOU為交并比。Note:IOU is intersection over union.
通過表2可知,針對(duì)棉花頂芽數(shù)據(jù)集,本文提出的改進(jìn)型Faster R-CNN在IOU=0.5時(shí),其MAP相較于Faster R-CNN提高7.3%,較RetinaNet、Cascade R-CNN和RepPoints分別提高78.9%、10.1%和8.3%。改進(jìn)后的Faster R-CNN對(duì)圖像信息具有更好的感知和學(xué)習(xí)能力,具有較高的精度。處理速度為10.3幀/s,滿足棉花精準(zhǔn)打頂實(shí)時(shí)識(shí)別速度需求。
本文針對(duì)大田環(huán)境下棉花精準(zhǔn)打頂作業(yè)過程的棉花頂芽識(shí)別問題,在Faster R-CNN算法框架中基于棉花頂芽的小目標(biāo)在復(fù)雜背景下的特點(diǎn)對(duì)算法進(jìn)行的改進(jìn),提出一種針對(duì)棉花頂芽識(shí)別的改進(jìn)型Faster R-CNN識(shí)別算法,主要結(jié)論如下:
1)本文將Faster R-CNN中的卷積神經(jīng)網(wǎng)絡(luò)替換為RegNetX-6.4GF,并將Guided Anchoring和GROIE機(jī)制進(jìn)行融合,增強(qiáng)了模型對(duì)棉花頂芽的識(shí)別能力。所提方法在中距離和遠(yuǎn)距離場(chǎng)景下的識(shí)別準(zhǔn)確率較Faster R-CNN分別提高3.2和3.1個(gè)百分點(diǎn)。
2)將本文提出方法與主流識(shí)別算法RetinaNet、Cascade R-CNN和RepPoints進(jìn)行比較,結(jié)果表明,本文方法檢測(cè)的MAP在交并比為0.5時(shí)相比Faster R-CNN提高7.3%,較RetinaNet、Cascade R-CNN和RepPoints分別提高78.9%、10.1%和8.3%。
3)本文提出的改進(jìn)型Faster R-CNN對(duì)棉花識(shí)別的平均準(zhǔn)確率均值達(dá)98.1%,處理幀速為10.3幀/s,滿足棉花打頂作業(yè)對(duì)于精確度和實(shí)時(shí)性的要求,可為棉花精準(zhǔn)打頂裝備的研發(fā)奠定基礎(chǔ)。
[1] 李繼福,何俊峰,陳佛文,等. 中國(guó)棉花生產(chǎn)格局與施肥研究現(xiàn)狀—基于CNKI數(shù)據(jù)計(jì)量分析[J]. 中國(guó)棉花,2019,46(4):17-24,28.
[2] 盧秀茹,賈肖月,牛佳慧. 中國(guó)棉花產(chǎn)業(yè)發(fā)展現(xiàn)狀及展望[J]. 中國(guó)農(nóng)業(yè)科學(xué),2018,51(1):26-36.
Lu Xiuru, Jia Xiaoyue, Niu Jiahui, et al. The present situation and prospects of cotton industry development in China[J], Scientia Agricultura Sinica, 2018, 51(1): 26-36. (in Chinese with English abstract)
[3] 劉照啟,張蔚然,劉海濤,等. 棉花打頂技術(shù)應(yīng)用現(xiàn)狀與發(fā)展趨勢(shì)[J]. 現(xiàn)代農(nóng)村科技,2020(7):16.
[4] 鄧勁松,石媛媛,陳利蘇,等. 基于近紅外傳感器和面向?qū)ο蠊庾V分割技術(shù)的田間棉株識(shí)別與提取[J]. 光譜學(xué)與光譜分析,2009,29(7):1754-1758.
Deng Jinsong, Shi Yuanyuan, Chen Lisu, et al. Cotton identification and extraction using near infrared sensor and object-oriented spectral segmentation technique[J], Spectroscopy and Spectral Analysis, 2009, 29(7): 1754-1758. (in Chinese with English abstract)
[5] 孫杰. 棉花打頂機(jī)打頂高度自動(dòng)控制系統(tǒng)的設(shè)計(jì)與試驗(yàn)研究[D]. 烏魯木齊:新疆農(nóng)業(yè)大學(xué),2015.
Sun Jie. Design and Experimental Research of An Automatic Height Control System for Topping of Cotton Top-cutting Machine[D]. Urumqi: Xinjiang Agricultural University, 2015. (in Chinese with English abstract)
[6] 李霞,王維新,張若宇. 超聲波測(cè)高技術(shù)在棉花打頂中的應(yīng)用[J]. 石河子大學(xué)學(xué)報(bào):自然科學(xué)版,2009,27(3):358-360.
Li Xia, Wang Weixin, Zhang Ruoyu. Application of cotton altitude automation measurement based on ultrasonic technology[J], Journal of Shihezi University: Natural Science, 2009, 27(3): 358-360. (in Chinese with English abstract)
[7] 劉俊奇. 棉花株頂識(shí)別系統(tǒng)的研究[D]. 石河子:石河子大學(xué),2009.
Liu Junqi. The Research of Automatic Recognition of Cotton’s Top[D]. Shihezi: Shihezi University, 2009. (in Chinese with English abstract)
[8] 瞿端陽. 基于機(jī)器視覺技術(shù)的棉株識(shí)別系統(tǒng)研究[D]. 石河子:石河子大學(xué),2013.
Qu Duanyang. Cotton Plant Recognition System based on the Machine Vision Technology[D]. Shihezi: Shihezi University, 2013. (in Chinese with English abstract)
[9] Alotaibi A, Mahmood A. Deep face liveness detection based on nonlinear diffusion using convolution neural network[J]. Signal, Image and Video Processing, 2017, 11(4): 713-720.
[10] Bautista C M, Dy C A, Ma?alac M I, et al. Convolutional neural network for vehicle detection in low resolution traffic videos[C]. 2016 IEEE Region 10 Symposium (TENSYMP). Bali, Indonesia, IEEE, 2016: 277-281.
[11] Tajbakhsh N, Shin J Y, Gurudu S R, et al. Convolutional neural networks for medical image analysis: Full training or fine tuning[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1299-1312.
[12] 張領(lǐng)先,陳運(yùn)強(qiáng),李云霞,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的冬小麥麥穗檢測(cè)計(jì)數(shù)系統(tǒng)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(3) :144-150.
Zhang Lingxian, Chen Yunqiang, Li Yunxia, et al. Detection and counting system for winter wheat ears based on convolutional neural network[J], Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(3): 144-150. (in Chinese with English abstract)
[13] 熊俊濤,劉振,湯林越,等. 自然環(huán)境下綠色柑橘視覺檢測(cè)技術(shù)研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2018,49(4):45-52.
Xiong Juntao, Liu Zhen, Tang Linyue, et al. Visual detection technology of green citrus under natural environment[J], Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(4): 45-52. (in Chinese with English abstract)
[14] Nazki H, Yoon S, Fuentes A, et al. Unsupervised image translation using adversarial networks for improved plant disease recognition[J]. Computers and Electronics in Agriculture, 2020, 168: 105-117.
[15] 彭明霞,夏俊芳,彭輝. 融合FPN的Faster R-CNN復(fù)雜背景下棉田雜草高效識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(20):202-209.
Peng Mingxia, Xia Junfang, Peng Hui. Efficient recognition of cotton and weed in field based on Faster R-CNN by integrating FPN[J], Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(20): 202-209. (in Chinese with English abstract)
[16] 姚青,谷嘉樂,呂軍,等. 改進(jìn)RetinaNet的水稻冠層害蟲為害狀自動(dòng)檢測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(15):182-188.
Yao Qing, Gu Jiale, Lyu Jun, et al. Automatic detection model for pest damage symptoms on rice canopy based on improved RetinaNet[J], Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(15): 182-188. (in Chinese with English abstract)
[17] 雷杰杰,邵盤霞,郭春平,等. 新疆陸地棉經(jīng)濟(jì)性狀優(yōu)異等位基因位點(diǎn)的遺傳解析[J]. 棉花學(xué)報(bào),2020,32(3):185-198.
Lei Jiejie, Shao Panxia, Guo Chunping, et al. Genetic dissection of allelic loci associated with economic traits of upland cottons in Xinjiang[J]. Cotton Science, 2020, 32(3): 185-198. (in Chinese with English abstract)
[18] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[19] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[20] Simonyan K, Zisserman, A. Very deep convolutional networks for large-scale image recognition[C]. International Conference on Learning Representations, San Diego, CA, USA, 2015: 1-14.
[21] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 2015: 1-9.
[22] Radosavovic I, Kosaraju R P, Girshick R, et al. Designing network design spaces[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Seattle, WA, USA, 2020: 10425-10433.
[23] Lin T, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA, 2017: 936-944.
[24] Wang J, Chen K, Yang S, et al. Region proposal by guided anchoring[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 2019: 2960-2969.
[25] Rossi L, Karimi A, Prati A. A novel region of interest extraction Layer for Instance Segmentation[C]. International Conference on Pattern Recognition, Milan, Italy, 2021: 2203-2209.
[26] He K, Gkioxari G, Dollar P, et al. Mask R-CNN[C]. IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2980-2988.
[27] Zhang H, Chang H, Ma B, et al. Dynamic R-CNN: Towards high quality object detection via dynamic training[C]. European Conference on Computer Vision, Glasgow, UK, 2020: 260-275.
[28] Cai Z, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection[C]. Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018: 6154-6162.
[29] Yang Z, Liu S, Hu H, et al. Reppoints: Point set representation for object detection[C]. International Conference on Computer Vision, Seoul, Korea, 2019: 9656-9665.
Recognition of cotton terminal bud in field using improved Faster R-CNN by integrating dynamic mechanism
Chen Keyi1, Zhu Longfu1, Song Peng1※, Tian Xiaomin2, Huang Chenglong3, Nie Xinhui2, Xiao Ailing4, He Liangrong5
(1.,,430070,; 2.,832003,; 3.,,430070,; 4.,843300,;5.,843300,)
Accurate identification of cotton top bud is important for cotton topping operation to detect cotton terminal bud accurately in field, a recognition method using Faster R-CNN (Faster Region Convolutional Neural Networks, Faster R-CNN) by integrating dynamic mechanism was proposed to solve the recognition difficulties caused by the small size of cotton terminal bud when it is topped in densely planted fields. The RegNetX-6.4GF model was used as the backbone network to improve its image feature extractor capabilities. Due to number of proposals under a higher IOU(Intersection Over Union, IOU) as well as the matching degree between anchor and the target shape affect the performance of the detector, the method proposed in this paper changed the original anchor generation mechanism by combining FPN (Feature Pyramid Network, FPN) and Guided Anchoring in RPN (Region Proposal Network, RPN), which will cause the distribution of the proposals generated by the RPN of the algorithm under different IOUs dynamically change during the training process. To adapt the dynamic change of proposals distribution, we integrated Dynamic Region Convolutional Neural Networks ( Dynamic R-CNN) in Faster R-CNN, which can dynamically adjust the value of IOU to obtain high quality proposals. And the GROIE (Generic ROI Extractor, GROIE) mechanism was inducted to extract ROI (Region of Interest, ROI) to improve the feature fusion capability. In this paper, 4 819 images ofpopulation which contain seven leaf types were taken from the top of cotton plant at distance of 30-50 cm (medium distance) and 50-100 cm (long distance) under uniform light, oblique strong light, direct strong light, and shadows. Those images were processed as MS COCO 2017 format dataset and assigned to the training set, validation set, and test set, which contained 2 815, 704, and 1 300 pictures respectively. The experimental results demonstrated that FPS (Frames Per Second, FPS) of proposed model was up to 10.3 frames/s and the Mean Average Precision (MAP) of bud identification reached to 98.1% which was 3.2 percentage points higher than original Faster R-CNN model. The validation set were used to compare performance of mainstream recognition algorithm and proposed method. Results showed that the improved Faster R-CNN's MAP was 7.3% higher than original Faster R-CNN, which was also higher than RetinaNet, Cascade R-CNN (Cascade Region Convolutional Neural Networks, Cascade R-CNN) and RepPoints by 78.9%, 10.1% and 8.3% when IOU was set to 0.5. The improved Faster R-CNN proposed in this paper meets the accuracy and real-time requirements of cotton topping operation.
deep learning; algorithm; cotton; mechanism fusion; dynamic adaptation; terminal bud recognition; Faster R-CNN
10.11975/j.issn.1002-6819.2021.16.020
TP274;TP391.41
A
1002-6819(2021)-16-0161-08
陳柯屹,朱龍付,宋鵬,等. 融合動(dòng)態(tài)機(jī)制的改進(jìn)型Faster R-CNN識(shí)別田間棉花頂芽[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(16):161-168.doi:10.11975/j.issn.1002-6819.2021.16.020 http://www.tcsae.org
Chen Keyi, Zhu Longfu, Song Peng, et al. Recognition of cotton terminal bud in field using improved Faster R-CNN by integrating dynamic mechanism[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 161-168. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.16.020 http://www.tcsae.org
2021-05-31
2021-08-10
中央高?;究蒲谢穑?662019QD053)
陳柯屹,研究方向?yàn)檗r(nóng)業(yè)信息感知及農(nóng)業(yè)機(jī)器人技術(shù)。Email:davidchan_n1@outlook.com
宋鵬,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)檗r(nóng)業(yè)信息技術(shù)及裝備。Email:songp@mail.hzau.edu.cn
中國(guó)農(nóng)業(yè)工程學(xué)會(huì)會(huì)員:宋鵬(E041201229S)