摘要:針對(duì)辣椒采摘機(jī)器人在真實(shí)場(chǎng)景中辣椒簇狀、粘連和光照不均導(dǎo)致無(wú)法精準(zhǔn)采摘辣椒的問(wèn)題,提出一種基于Mask R-CNN實(shí)例分割網(wǎng)絡(luò)模型的辣椒識(shí)別方法。以真實(shí)場(chǎng)景下的辣椒為研究對(duì)象,采集自然生長(zhǎng)的辣椒圖像4 496張,對(duì)其中的4 000張進(jìn)行數(shù)據(jù)標(biāo)注作為數(shù)據(jù)集,通過(guò)設(shè)置不同的學(xué)習(xí)率、訓(xùn)練周期和模型網(wǎng)絡(luò)層對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。試驗(yàn)結(jié)果表明,Mask R-CNN網(wǎng)絡(luò)模型對(duì)真實(shí)場(chǎng)景下辣椒的識(shí)別和分割效果較好,平均準(zhǔn)確率達(dá)到90.34%,平均速度達(dá)到0.82 s/幅,為智能辣椒采摘機(jī)器人的辣椒分割識(shí)別和定位提供有力的技術(shù)支撐。
關(guān)鍵詞:辣椒識(shí)別;實(shí)例分割;Mask R-CNN;神經(jīng)網(wǎng)絡(luò);采摘機(jī)器人
中圖分類號(hào):S225.92; TP391.4" " " 文獻(xiàn)標(biāo)識(shí)碼:A" " " 文章編號(hào):2095?5553 (2024) 09?0215?05
Research on pepper recognition method in complex environment based on Mask R-CNN
Fu Xiaoge Li Han Zuo Zhijiang Du Zheng
(1. State Key Laboratory of Percision Blasting, Jianghan University, Wuhan, 430056, China;
2. Hubei Key Laboratory of Blasting Engineering, Wuhan, 430056, China;
3. Institute of Agricultural Mechanization, Wuhan Academy of Agricultural Sciences, Wuhan, 430207, China)
Abstract: In order to solve the problem that pepper picking robots can not pick pepper accurately in real scenes due to pepper clusters, adhesion and uneven lighting, a pepper recognition method based on Mask R-CNN instance segmentation network model is proposed. With pepper in the real scene as the research object, 4 496 images of naturally growing pepper were collected, and 4 000 of them were labeled as data sets. The data sets were trained by setting different learning rates, training cycles and model network layers. The experimental results show that the Mask R-CNN network model has a good effect on pepper recognition and segmentation in the real scene, with an average accuracy of 90.34% and an average speed of 0.82 s/frame, providing a strong technical support for pepper segmentation recognition and location of intelligent pepper picking robot.
Keywords: pepper recognition; instance segmentation; Mask R-CNN; neural networks; picking robot
0 引言
辣椒是一種重要的蔬菜和調(diào)味品,富有多種維生素,種植面積和年產(chǎn)量不斷增長(zhǎng),位居蔬菜種植種類中的首位[1]。在農(nóng)業(yè)生產(chǎn)中,辣椒的采摘過(guò)程主要依靠勞動(dòng)人力進(jìn)行,采摘效率較低,采摘成本較高。加快農(nóng)業(yè)生產(chǎn)的發(fā)展,推動(dòng)農(nóng)業(yè)生產(chǎn)實(shí)現(xiàn)自動(dòng)化、智能化是未來(lái)必要的發(fā)展趨勢(shì),采用智能辣椒采摘機(jī)器人進(jìn)行辣椒的采摘具有重大的意義[2?4]。
智能辣椒采摘機(jī)器人中主要有4大模塊,分別是相機(jī)、柔性機(jī)械夾持器、六自由度機(jī)械臂和機(jī)器人移動(dòng)底盤(pán)。其中,相機(jī)安裝在六自由度機(jī)械臂末端,通過(guò)機(jī)器視覺(jué)技術(shù),實(shí)現(xiàn)辣椒的識(shí)別檢測(cè)和定位,進(jìn)而引導(dǎo)機(jī)械臂對(duì)識(shí)別到的辣椒進(jìn)行采摘,辣椒識(shí)別和定位的精準(zhǔn)性,直接影響到智能辣椒采摘機(jī)器人的效率和準(zhǔn)確性。因此,實(shí)現(xiàn)對(duì)辣椒快速且準(zhǔn)確的識(shí)別定位是研發(fā)智能辣椒采摘機(jī)器人的關(guān)鍵技術(shù)。
目標(biāo)分割識(shí)別算法主要有基于特征、像素和深度學(xué)習(xí)的三類識(shí)別方法[5]。汪杰等[6]提出HSV和形狀特征融合的花椒識(shí)別算法,利用花椒圓度特征,排除樹(shù)枝及樹(shù)葉等的干擾,實(shí)現(xiàn)花椒的準(zhǔn)確識(shí)別。但基于特征的目標(biāo)分割識(shí)別方法需要目標(biāo)物體顏色或者形狀能夠和背景形成強(qiáng)烈的對(duì)比,而辣椒植株枝葉茂密,辣椒與枝葉顏色沒(méi)有明顯差別,僅依靠顏色和形狀特征難以實(shí)現(xiàn)辣椒的識(shí)別和定位。Lu等[7]開(kāi)發(fā)一種通用的自動(dòng)閾值方法,快速有效地從結(jié)構(gòu)照明反射成像獲得的圖像中的蘋(píng)果。邵志明等[8]通過(guò)Otsu法對(duì)近紅外圖像進(jìn)行背景分割,基于圖像的灰度直方圖進(jìn)行無(wú)損和有損區(qū)域分割閾值的設(shè)定,并結(jié)合形態(tài)學(xué)處理提取蘋(píng)果樣本的損傷區(qū)域。但基于像素的識(shí)別,會(huì)受到光線條件的影響,導(dǎo)致識(shí)別分割的效果不是很好。張磊等[9]提出基于改進(jìn)YOLOv4網(wǎng)絡(luò)模型的番茄果實(shí)檢測(cè),可以很好地實(shí)現(xiàn)自然環(huán)境下番茄果實(shí)的精準(zhǔn)檢測(cè)。Yan等[10]改進(jìn)YOLOv5能夠有效地識(shí)別未被遮擋或僅被樹(shù)葉遮擋的可抓蘋(píng)果和被樹(shù)枝遮擋或其他果實(shí)遮擋的不可抓蘋(píng)果。閆建偉等[11]RetinaNet為基礎(chǔ),通過(guò)改進(jìn)bias公式以及運(yùn)用K-means++聚類算法,增強(qiáng)數(shù)據(jù)和合理調(diào)節(jié)參數(shù),實(shí)現(xiàn)對(duì)刺梨加工車(chē)間的果實(shí)進(jìn)行高精度、快速識(shí)別。李艷文等[12]提出改進(jìn)的SegNet模型能夠更好地分割自然環(huán)境下蘋(píng)果目標(biāo)的采摘點(diǎn)。但目標(biāo)檢測(cè)只能夠識(shí)別圖像中目標(biāo)的類別和目標(biāo)的大致位置,且采用矩形框進(jìn)行目標(biāo)物體的定位,由于辣椒長(zhǎng)條形的特殊形狀,對(duì)于水平方向的定位精度要求較高。一旦矩形包圍框在水平方向的偏移較大,極有可能使得最終的定位中心不在辣椒上。語(yǔ)義分割只能夠識(shí)別圖像中的每個(gè)像素所屬的類別,但是無(wú)法分辨同類物體的不同個(gè)體[13],因此無(wú)法處理自然環(huán)境下辣椒簇狀、粘連和光照不均的問(wèn)題。在應(yīng)用于辣椒采摘時(shí),使用目標(biāo)檢測(cè)和語(yǔ)義分割并不能夠?qū)⒚總€(gè)辣椒之間以及辣椒和背景之間的邊緣識(shí)別出來(lái),會(huì)導(dǎo)致辣椒采摘機(jī)器人在進(jìn)行采摘時(shí),造成不必要的采摘損失。而實(shí)例分割結(jié)合了目標(biāo)檢測(cè)和語(yǔ)義分割的優(yōu)勢(shì),不僅能夠?qū)D像中的辣椒類別和位置檢測(cè)出來(lái),還能將辣椒像素類別識(shí)別出來(lái),獲得辣椒的輪廓,以實(shí)現(xiàn)辣椒的識(shí)別分割和定位。
針對(duì)上述情況,本文提出一種基于Mask R-CNN實(shí)例分割網(wǎng)絡(luò)模型的辣椒識(shí)別方法,利用Mask R-CNN網(wǎng)絡(luò)模型對(duì)辣椒圖像進(jìn)行分割,識(shí)別出圖像中辣椒像素類別,獲得辣椒的輪廓。
1 數(shù)據(jù)集制作
1.1 數(shù)據(jù)采集和預(yù)處理
試驗(yàn)數(shù)據(jù)采集地位于武漢市農(nóng)業(yè)科學(xué)院農(nóng)業(yè)機(jī)械化研究所,采集場(chǎng)景如圖1所示,選取圓錐椒類和長(zhǎng)椒類等不同類別的辣椒進(jìn)行取樣采集,采集硬件設(shè)施主要包括計(jì)算機(jī)、深度相機(jī)和手機(jī)等移動(dòng)設(shè)備,相機(jī)主要采用的是D455深度相機(jī),深度分辨率為1 280像素×720像素,深度幀率為90 fps,拍攝條件包括0.5 m、1 m和2 m等不同遠(yuǎn)近距離,背光和逆光等不同角度光照,辣椒豎直和彎曲等不同生長(zhǎng)狀態(tài),辣椒葉子和桿子等不同雜物遮擋,共采集了562張辣椒圖像,如圖2所示,數(shù)據(jù)集的圖片大小為1 024像素×682像素與640像素×480像素。為加強(qiáng)圖像的視覺(jué)效果,提高圖像的清晰度,突出圖像中感興趣的特征,抑制無(wú)用的圖像信息,將圖像通過(guò)翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪、縮放、平移和抖動(dòng)等數(shù)據(jù)增強(qiáng)方法生成4 496張圖像,選取其中的4 000張圖像作為訓(xùn)練數(shù)據(jù)集,496張為測(cè)試數(shù)據(jù)集。
1.2 數(shù)據(jù)標(biāo)注
使用圖像標(biāo)注軟件labelme對(duì)辣椒訓(xùn)練數(shù)據(jù)集圖像中的辣椒進(jìn)行標(biāo)注,采用標(biāo)注點(diǎn)方法對(duì)圖像中的目標(biāo)辣椒邊緣輪廓進(jìn)行標(biāo)注,獲取辣椒區(qū)域的特征,不同辣椒實(shí)例之間標(biāo)上不同編號(hào),將其辣椒標(biāo)簽和辣椒標(biāo)注點(diǎn)坐標(biāo)保存到對(duì)應(yīng)的json文件中。通過(guò)json_to_dataset將json數(shù)據(jù)標(biāo)注的結(jié)果進(jìn)行可視化,分為背景和辣椒,且不同辣椒的實(shí)例也通過(guò)不同的mask進(jìn)行標(biāo)記區(qū)分,呈現(xiàn)出不同的顏色,如圖3所示。
2 Mask R-CNN網(wǎng)絡(luò)模型
2.1 Mask-RCNN模型框架
Mask R-CNN主要包括Backbone、RPN和ROI Align三個(gè)主要部分,相較Faster R-CNN增加了一個(gè)Mask分支,在實(shí)現(xiàn)目標(biāo)檢測(cè)的同時(shí)將目標(biāo)像素分割出來(lái),Mask-RCNN模型結(jié)構(gòu)如圖4所示。
Backbone(骨干網(wǎng)絡(luò))通過(guò)一系列的卷積對(duì)圖像中的目標(biāo)物體進(jìn)行特征提取,隨著網(wǎng)絡(luò)層數(shù)的不斷加深,模型的準(zhǔn)確率不斷提高,獲取的特征信息也越來(lái)越豐富,直至達(dá)到飽和狀態(tài)。隨著網(wǎng)絡(luò)的繼續(xù)加深,會(huì)造成梯度爆炸和梯度消失的問(wèn)題,阻礙網(wǎng)絡(luò)的收斂,模型出現(xiàn)退化現(xiàn)象。ResNet通過(guò)shortcut支路將輸入直接連接到后邊的網(wǎng)絡(luò)層,保護(hù)特征信息的完整性,解決了退化問(wèn)題。ResNet主要有5種大小的網(wǎng)絡(luò):ResNet18、ResNet34、ResNet50、ResNet101和ResNet152,各個(gè)網(wǎng)絡(luò)之間最大的區(qū)別是需要通過(guò)訓(xùn)練更新的層數(shù)不同。底層網(wǎng)絡(luò)的特征語(yǔ)義信息較少,但檢測(cè)的目標(biāo)位置比較準(zhǔn)確,可以將簡(jiǎn)單的目標(biāo)區(qū)分開(kāi)來(lái),高層網(wǎng)絡(luò)則相反,有較豐富的語(yǔ)義信息,能夠?qū)?fù)雜的目標(biāo)區(qū)分開(kāi)來(lái),但檢測(cè)的目標(biāo)位置比較粗略。FPN結(jié)合了底層網(wǎng)絡(luò)和高層網(wǎng)絡(luò)的特征,可以獲取準(zhǔn)確的語(yǔ)義信息和檢測(cè)目標(biāo)位置信息。FPN主要包括3部分,分別是bottom?up、top?down和lateral connection。bottom?up是通過(guò)將圖像輸入到卷積網(wǎng)絡(luò)中來(lái)提取特征的過(guò)程,每個(gè)stage往上用step=2的降采樣。top?down通過(guò)上采樣將高層的小特征圖放大到和上個(gè)stage的特征圖一樣的大小。lateral connection將上采樣后的高層語(yǔ)義特征與底層位置信息進(jìn)行融合。本文利用同一數(shù)據(jù)集在不同ResNet網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行試驗(yàn),最終選用ResNet101網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合FPN作為Backbone。
原始圖像經(jīng)過(guò)ResNet101和FPN處理得到Feature Map,同時(shí)將目標(biāo)物體特征信息輸入RPN中。在R-CNN和FastR-CNN等物體檢測(cè)中,使用Selective Search來(lái)提取候選框,比較耗費(fèi)時(shí)間,但RPN可以將物體檢測(cè)融入到神經(jīng)網(wǎng)絡(luò)中,使用特征提取的形式生成預(yù)選框的位置,提升了預(yù)選框生成的速度。RPN對(duì)特征圖上的anchor point生成不同大小的anchor boxes,將anchor boxes輸入到網(wǎng)絡(luò)層,通過(guò)二分類方法來(lái)判斷每個(gè)anchor box是屬于foreground還是background,得到目標(biāo)物體相應(yīng)的anchor boxes。
將得到的Feature Map和anchor boxes輸入給ROIAlign,ROI Align對(duì)ROI Pooling進(jìn)行了改進(jìn),遍歷每個(gè)anchor boxes,對(duì)于量化中產(chǎn)生的坐標(biāo)為浮點(diǎn)數(shù)的像素,使用雙線性內(nèi)插方法計(jì)算像素值,取消了量化操作,將Feature Map統(tǒng)一為固定大小,得到每個(gè)anchor boxes的Feature Map。將Feature Map輸入到Fully Connected Layers和Fully Connected Network,得到目標(biāo)物體的Classification、BoxRegression和Mask。
2.2 損失函數(shù)
Mask R-CNN的損失函數(shù)主要有3部分組成,分別是矩形框分類損失、矩形框回歸框損失和生成掩碼損失,可以表示為
L=Lcls+Lbox+Lmask (1)
式中:Lcls——矩形框分類損失;
Lbox——矩形框回歸框損失;
Lmask——生成掩碼損失。
3 試驗(yàn)與分析
3.1 試驗(yàn)方法
試驗(yàn)所用的硬件為筆記本電腦,系統(tǒng)為Windows 10,64位操作系統(tǒng),基于x64的處理器,機(jī)帶RAM位16.0 GB,訓(xùn)練編程語(yǔ)言為Python3.7,環(huán)境為tensorflow1.13.2深度學(xué)習(xí)庫(kù),keras2.1.5人工神經(jīng)網(wǎng)絡(luò)庫(kù)。使用ResNet101結(jié)合FPN為主干網(wǎng)絡(luò)的Mask R-CNN進(jìn)行模型訓(xùn)練,訓(xùn)練模式為“coco”,訓(xùn)練權(quán)重從頭開(kāi)始訓(xùn)練,合適的學(xué)習(xí)率能夠使得目標(biāo)函數(shù)再合適的時(shí)間內(nèi)收斂到局部最小值,通過(guò)設(shè)置不同的學(xué)習(xí)率進(jìn)行對(duì)比試驗(yàn),選定效果較好的0.000 01設(shè)置為最終訓(xùn)練模型學(xué)習(xí)率,訓(xùn)練的周期設(shè)為100。
3.2 評(píng)價(jià)指標(biāo)
本文選取準(zhǔn)確率Accuracy、召回率Recall作為評(píng)價(jià)指標(biāo),準(zhǔn)確率是指所有預(yù)測(cè)中預(yù)測(cè)正確的比例,召回率是指在原始樣本的正樣本中正確識(shí)別的概率,計(jì)算如式(2)、式(3)所示。
Accuracy=TP+TN/TP+TN+FP+FN (2)
Recall=TPTP+FN (3)
式中: TP——正確預(yù)測(cè)正樣本的數(shù)量;
FN——錯(cuò)誤預(yù)測(cè)正樣本的數(shù)量;
FP——正確預(yù)測(cè)負(fù)樣本的數(shù)量;
TN——錯(cuò)誤預(yù)測(cè)負(fù)樣本的數(shù)量。
3.3 結(jié)果分析
3.3.1 不同網(wǎng)絡(luò)模型的對(duì)比試驗(yàn)
為驗(yàn)證Mask R-CNN網(wǎng)絡(luò)模型作為辣椒采摘機(jī)器人視覺(jué)系統(tǒng)的有效性,分別采用Faster R-CNN、SegNet和Mask R-CNN網(wǎng)絡(luò)模型,設(shè)置相同的訓(xùn)練參數(shù),對(duì)相同的辣椒數(shù)據(jù)集進(jìn)行對(duì)比試驗(yàn)。檢測(cè)效果如圖5所示。
Faster R-CNN檢測(cè)效果如圖5(b)所示,F(xiàn)aster R-CNN可以找到圖像中所有的辣椒,確定辣椒在圖像中的位置,判斷出每張圖像中包含的每個(gè)辣椒的種類和位置,但是矩形框只能對(duì)辣椒進(jìn)行粗略的定位,作為辣椒采摘機(jī)器人的視覺(jué)系統(tǒng)引導(dǎo)機(jī)械臂作業(yè)時(shí),不能精準(zhǔn)對(duì)辣椒進(jìn)行采摘,容易對(duì)辣椒造成損傷。SegNet檢測(cè)效果如圖5(c)所示,SegNet可以找到圖像中所有屬于辣椒的像素,并對(duì)像素進(jìn)行分類,可以將辣椒的邊緣與背景分割開(kāi)來(lái),作為辣椒采摘機(jī)器人的視覺(jué)系統(tǒng)引導(dǎo)機(jī)械臂作業(yè)時(shí)可以精準(zhǔn)的采摘辣椒,但是對(duì)于辣椒之間簇裝、粘連以及辣椒混雜的情況時(shí),SegNet會(huì)將多個(gè)辣椒識(shí)別為一個(gè)實(shí)例,此時(shí)引導(dǎo)機(jī)械臂作業(yè)時(shí),就會(huì)對(duì)辣椒的定位以及數(shù)量檢測(cè)造成誤差,進(jìn)行采摘時(shí)就會(huì)損害到辣椒。Mask R-CNN檢測(cè)效果如圖5(d)所示,采用Mask R-CNN網(wǎng)絡(luò)模型時(shí)不僅能夠?qū)⒗苯愤吘壟c背景分割開(kāi)來(lái),每個(gè)辣椒之間的邊緣也能夠很好的進(jìn)行分割,作為辣椒采摘機(jī)器人的視覺(jué)系統(tǒng)引導(dǎo)機(jī)械臂作業(yè)時(shí),能夠精準(zhǔn)的識(shí)別到每個(gè)辣椒,有效滿足了辣椒采摘機(jī)器人視覺(jué)系統(tǒng)的需求。
利用測(cè)試集來(lái)驗(yàn)證不同算法的檢測(cè)結(jié)果,計(jì)算出準(zhǔn)確率和召回率,使用Mask R-CNN網(wǎng)絡(luò)模型相較Faster R-CNN和SegNet在準(zhǔn)確率和召回率上都有一定的提升,準(zhǔn)確率由83.43%和64.54%提升到90.34%,召回率由85.32%和83.67%提升到89.52%,三種不同算法的試驗(yàn)評(píng)價(jià)結(jié)果如表1所示。
試驗(yàn)結(jié)果可見(jiàn),對(duì)辣椒的識(shí)別分割和定位,提出的基于Mask R-CNN的復(fù)雜環(huán)境下辣椒識(shí)別方法比其他兩種方法的檢測(cè)精度更好,平均速度達(dá)到0.82 s/幅,能夠很好地滿足辣椒采摘機(jī)器人對(duì)辣椒識(shí)別的需求。
3.3.2 不同骨干網(wǎng)絡(luò)的對(duì)比試驗(yàn)
深度學(xué)習(xí)中有很多種骨干網(wǎng)絡(luò),例如AlexNet、VGG、ResNet、LeNet和DenseNet等,Mask R-CNN延用了Faster R-CNN的ResNet作為骨干網(wǎng)絡(luò),通過(guò)構(gòu)建恒等映射來(lái)處理網(wǎng)絡(luò)的輸入輸出,ResNet主要有5種大小的網(wǎng)絡(luò):ResNet18、ResNet34、ResNet50、ResNet101和ResNet152,各個(gè)網(wǎng)絡(luò)之間最大的區(qū)別是需要通過(guò)訓(xùn)練更新的層數(shù)不同。在Mask R-CNN中最常用的是ResNet50和ResNet101這兩種大小的網(wǎng)絡(luò),本文在保證其他參數(shù)相同的情況下,分別使用ResNet50和ResNet101作為骨干網(wǎng)絡(luò)來(lái)進(jìn)行對(duì)比試驗(yàn),兩種模型損失見(jiàn)圖6。
由圖6可以看出,ResNet101網(wǎng)絡(luò)相較ResNet50網(wǎng)絡(luò)最后的損失值更低,說(shuō)明ResNet101網(wǎng)絡(luò)能夠得到更高的提取精度,所以選取ResNet101網(wǎng)絡(luò)作為Mask R-CNN網(wǎng)絡(luò)模型的骨干網(wǎng)絡(luò)。
3.3.3 不同學(xué)習(xí)率的對(duì)比試驗(yàn)
學(xué)習(xí)率作為梯度下降過(guò)程中更新權(quán)重時(shí)的超參數(shù),設(shè)置過(guò)小時(shí)網(wǎng)絡(luò)收斂過(guò)程會(huì)變得很緩慢,設(shè)置過(guò)大時(shí)會(huì)在最小值附近來(lái)回震蕩,導(dǎo)致網(wǎng)絡(luò)無(wú)法收斂。為了驗(yàn)證不同學(xué)習(xí)率對(duì)Mask R-CNN網(wǎng)絡(luò)的影響,選擇合適的學(xué)習(xí)率進(jìn)行訓(xùn)練,設(shè)置0.000 001為初始學(xué)習(xí)率,在每個(gè)batch之后都更新網(wǎng)絡(luò)增加學(xué)習(xí)率,統(tǒng)計(jì)每個(gè)batch的loss,繪制學(xué)習(xí)率和loss變化曲線,如圖7所示,直觀地觀察學(xué)習(xí)率對(duì)網(wǎng)絡(luò)模型的影響。
從圖7中可以看出,隨著學(xué)習(xí)率從初始值開(kāi)始變大的過(guò)程,網(wǎng)絡(luò)模型的loss先下降,直至達(dá)到一個(gè)較小的數(shù)值,隨后隨著學(xué)習(xí)率的增大而增大。因此,學(xué)習(xí)率設(shè)置為0.00 001時(shí)損失函數(shù)收斂,網(wǎng)絡(luò)模型能夠達(dá)到很好的擬合效果。
4 結(jié)論
提出基于Mask R-CNN實(shí)例分割網(wǎng)絡(luò)模型的辣椒識(shí)別方法,通過(guò)設(shè)置不同網(wǎng)絡(luò)模型的對(duì)比試驗(yàn),驗(yàn)證Mask R-CNN網(wǎng)絡(luò)模型對(duì)簇裝、粘連和光照不均情況下的辣椒識(shí)別具有很好的效果。
1) 分別研究不同骨干網(wǎng)絡(luò)和不同學(xué)習(xí)率對(duì)Mask R-CNN網(wǎng)絡(luò)模型的影響,選擇對(duì)辣椒特征提取效果較好的ResNet101結(jié)合FPN作為骨干網(wǎng)絡(luò),設(shè)置0.000 01為Mask R-CNN網(wǎng)絡(luò)模型訓(xùn)練的學(xué)習(xí)率。
2) Mask R-CNN網(wǎng)絡(luò)模型對(duì)真實(shí)場(chǎng)景下辣椒的識(shí)別和分割效果較好,平均準(zhǔn)確率達(dá)到90.34%,平均速度達(dá)到0.82 s/幅,基本可以滿足辣椒采摘機(jī)器人視覺(jué)模塊的需求。
參 考 文 獻(xiàn)
[ 1 ] 鄒學(xué)校, 馬艷青, 戴雄澤, 等. 辣椒在中國(guó)的傳播與產(chǎn)業(yè)發(fā)展[J]. 園藝學(xué)報(bào), 2020, 47(9): 1715-1726.
[ 2 ] 王立浩, 張寶璽, 張正海, 等. “十三五”我國(guó)辣椒育種研究進(jìn)展、產(chǎn)業(yè)現(xiàn)狀及展望[J]. 中國(guó)蔬菜, 2021(2): 21-29.
[ 3 ] Arad B, Balendonck J, Barth R, et al. Development of a sweet pepper harvesting robot [J]. Journal of Field Robotics, 2020, 37(6): 1027-1039.
[ 4 ] Augusto M S, Paul M A, dos Neves S F, et al. Active perception fruit harvesting robots: A systematic review [J]. Journal of Intelligent amp; Robotic Systems, 2022, 105(1).
[ 5 ] 李天華, 孫萌, 婁偉, 等. 采摘機(jī)器人分割與識(shí)別算法的研究現(xiàn)狀[J]. 山東農(nóng)業(yè)科學(xué), 2021, 53(10): 140-148.
[ 6 ] 汪杰, 陳曼龍, 李奎, 等. 基于HSV與形狀特征融合的花椒圖像識(shí)別[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2021, 42(10): 180-185.
Wang Jie, Chen Manlong, Li Kui, et al. Prickly ash image recognition based on HSV and shape feature fusion [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(10): 180-185.
[ 7 ] Lu Yuzhen, Lu Renfu. Histogram?based automatic thresholding for bruise detection of apples by structured?illumination reflectance imaging [J]. Biosystems Engineering, 2017, 160.
[ 8 ] 邵志明, 王懷彬, 董志城, 等. 基于近紅外相機(jī)成像和閾值分割的蘋(píng)果早期損傷檢測(cè)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(S1): 134-139.
Shao Zhiming, Wang Huaibin, Dong Zhicheng, et al. Early bruises detection method of apple surface based on near infrared camera imaging technology and image threshold segmentation method [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(S1): 134-139.
[ 9 ] 張磊, 劉琪芳, 聶紅玫, 等. 基于改進(jìn)YOLOV4網(wǎng)絡(luò)模型的番茄果實(shí)檢測(cè)[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2022, 43(12): 162-169.
Zhang Lei, Liu Qifang, Nie Hongmei, et al. Tomato fruit detection based on improved YOLOv4 network model [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(12): 162-169.
[10] Yan Bin, Fan Pan, Lei Xiaoyan, et al. A real?time apple targets detection method for picking robot based on improved YOLOv5 [J]. Remote Sensing, 2021, 13(9): 1619.
[11] 閆建偉, 張樂(lè)偉, 趙源, 等. 改進(jìn)RetinaNet的刺梨果實(shí)圖像識(shí)別[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2021, 42(3): 78-83.
Yan Jianwei, Zhang Leiwei, Zhao Yuan, et al. Image recognition of Rosa roxburghii fruit by improved RetinaNet [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(3): 78-83.
[12] 李艷文, 左朝陽(yáng), 王登奎, 等. 基于改進(jìn)型SegNet的蘋(píng)果采摘點(diǎn)分割算法研究[J]. 燕山大學(xué)學(xué)報(bào), 2022, 46(5): 455-460, 470.
Li Yanwen, Zuo Chaoyang, Wang Dengkui, et al. Apple picking point segmentation based on improved SegNet [J]. Journal of Yanshan University, 2022, 46(5): 455-460, 470.
[13] 蘇麗, 孫雨鑫, 苑守正. 基于深度學(xué)習(xí)的實(shí)例分割研究綜述[J]. 智能系統(tǒng)學(xué)報(bào), 2022, 17(1): 16-31.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2024年9期