董婭蘭 胡國玉 劉廣 古麗巴哈爾·托乎提
摘要:剪枝點的精確識別與定位是實現(xiàn)葡萄藤冬季剪枝智能化的基礎(chǔ),葡萄藤關(guān)鍵結(jié)構(gòu)的分割是用于推理精確剪枝點的重要前提。針對現(xiàn)有分割方法受背景影響較大致使葡萄藤各關(guān)鍵結(jié)構(gòu)損失和剪枝點識別與定位不準(zhǔn)確的問題,提出一種基于Mask RCNN的葡萄藤關(guān)鍵結(jié)構(gòu)分割方法,建立葡萄藤修剪模型以及各關(guān)鍵結(jié)構(gòu)數(shù)據(jù)集。通過主干特征提取網(wǎng)絡(luò)和分割性能的對比試驗,得出最優(yōu)的Mask RCNN模型結(jié)構(gòu)并驗證其擬合與泛化能力以及在不同自然背景下的分割性能。結(jié)果表明,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型具有較好的擬合與泛化能力,相較于對照組模型準(zhǔn)確率分別提升7.33%和8.89%,召回率分別提升9.32%和9.26%,平均精度均值分別提升12.69%和12.63%,其能夠克服各類自然種植背景因素,分割目標(biāo)邊緣完整,葡萄藤各關(guān)鍵結(jié)構(gòu)之間連接關(guān)系正確。
關(guān)鍵詞:圖像分割;特征提??;葡萄藤;深度學(xué)習(xí)
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼:A
文章編號:20955553 (2024) 02020708
收稿日期:2022年8月12日 ?修回日期:2022年10月17日
基金項目:國家自然科學(xué)基金資助項目(12162031)
第一作者:董婭蘭,女,1999年生,甘肅隴南人,碩士研究生;研究方向為農(nóng)牧機器人及智能農(nóng)業(yè)裝備。Email: dongyalan122@163.com
通訊作者:胡國玉,女,1979年生,新疆烏魯木齊人,博士,副教授;研究方向為農(nóng)牧機器人及智能農(nóng)業(yè)裝備。Email: xjhuguoyu@xju.edu.cn
Segmentation method for grapevine critical structure based on Mask RCNN model
Dong Yalan, Hu Guoyu, Liu Guang, Gulbahar Tohti
(College of Mechanical Engineering, Xinjiang University, Urumqi, 830049, China)
Abstract:
The precise identification and positioning of pruning points is the basis for the intelligent pruning of grapevines in winter, the segmentation of the critical structure of the grapevine is an important prerequisite for reasoning about the precise pruning point. Aiming at the problem that the existing cutting method is greatly affected by the background, resulting in the loss of critical structures of the grapevine, and inaccurate identification and positioning of pruning points, a segmentation method of grapevine critical structure based on Mask RCNN was proposed, the grapevine pruning model and the critical structure data sets were established. Through the comparative experiment of backbone feature extraction network and segmentation performance, the optimal Mask RCNN model structure was obtained and its fitting and generalization ability and segmentation performance in different natural backgrounds were verified, The results showed that the Mask RCNN model with ResNet 101+FPN as the backbone feature extraction network proposed had better fitting and generalization ability, compared with the control group model, the accuracy rate was increased by 7.33% and 8.89%, the recall rate was increased by 9.32% and 9.26%, and the average precision was increased by 12.69% and 12.63% respectively, it could overcome various natural planting background factors, the edge of the segmentation target was complete, and the connection relationship between the critical structures of the grapevine was correct.
Keywords:
image processing; feature extraction; grapevine; deep learning
0 引言
冬季修剪是葡萄種植管理過程中一項重要的農(nóng)藝環(huán)節(jié),通過冬季修剪能夠合理分布生長枝與結(jié)果枝,阻止結(jié)果部位過快上移;調(diào)節(jié)單位面積上的芽眼負(fù)載量、結(jié)果母枝數(shù)量與長度,進(jìn)而提高來年的葡萄產(chǎn)量與質(zhì)量[1]。目前現(xiàn)有修剪機械多針對林果樹木,粗獷的修剪方式與機械無法滿足精細(xì)化的葡萄藤冬季修剪需求[2],因此葡萄冬季修剪主要依靠人工作業(yè),其季節(jié)性勞動強度大、人工作業(yè)效率低,致使勞動成本投入增加。因此,開發(fā)自動化、智能化的葡萄修剪設(shè)備具有重要意義。
在葡萄栽培與種植過程中,機器視覺技術(shù)常被應(yīng)用于葡萄串檢測、葡萄藤結(jié)構(gòu)識別、病蟲害防治、產(chǎn)量與葉面積的估算[36]。針對葡萄冬季修剪作業(yè),剪枝點的精確識別與定位可以保證來年葡萄保質(zhì)增產(chǎn),葡萄藤關(guān)鍵結(jié)構(gòu)包括綁縛主干、枝條與節(jié)點,其各結(jié)構(gòu)之間具有較強附屬性,并且相似性較大,各關(guān)鍵結(jié)構(gòu)之間的連接關(guān)系是推理與定位葡萄藤冬季修剪點的關(guān)鍵。為此,國內(nèi)外學(xué)者研究多集中于葡萄各關(guān)鍵結(jié)構(gòu)的識別、芽點二維與三維位置的推理與識別以及智能裝備的開發(fā)。賈挺猛等[7]將骨架提取方法應(yīng)用于葡萄藤各關(guān)鍵結(jié)構(gòu)提取中,對比分析多種細(xì)化算法用于保證骨架具有良好的連通性與中心性,在此基礎(chǔ)上,Xu等[8]提出一種基于Rosenfeld細(xì)化算法和Harris算法結(jié)合的芽點檢測方法。Botterill等[9]設(shè)計了一種葡萄藤自動修剪機器人,通過三目攝像機重建形成完整的三維藤蔓模型,同時對機器人手臂進(jìn)行高效的無碰撞路徑規(guī)劃,實現(xiàn)葡萄藤冬季修剪作業(yè)的自動化。Pérez[10]、Daz[11]等使用尺度不變特征變換來計算底層特征,利用支持向量機訓(xùn)練分類器來檢測葡萄芽在三維空間中的位置。
由于芽點的大小與形狀存在差異、圖像采集多受光照與背景影響,傳統(tǒng)的圖像處理方式會導(dǎo)致在藤條細(xì)化過程中弱小芽點被忽略。深度學(xué)習(xí)是目前最先進(jìn)的處理葡萄種植任務(wù)的方法,已經(jīng)應(yīng)用于葡萄藤修剪作業(yè),如Marset等[12]提出了一種基于完全卷積網(wǎng)絡(luò)從葡萄藤圖像中完整分割出芽體形狀的語義分割網(wǎng)絡(luò),用于識別突出芽體。Fernandes等[13]對葡萄藤圖像進(jìn)行分割并創(chuàng)建葡萄藤植物代表模型,依據(jù)農(nóng)藝規(guī)則推測潛在的修剪點。Yang等[14]提出一種基于細(xì)化算法和輕量級卷積神經(jīng)網(wǎng)絡(luò)的二維葡萄冬季剪枝位置,訓(xùn)練分類器查找芽眼并獲得冬季剪枝位置。由于國內(nèi)葡萄種植環(huán)境較復(fù)雜,葡萄藤關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與周圍環(huán)境之間都存在較大相似性,上述方式不適用于在國內(nèi)復(fù)雜的種植背景下精確的葡萄藤關(guān)鍵結(jié)構(gòu)識別以及葡萄藤冬季剪枝點推理以及定位作業(yè)。綜上,本文提出一種基于Mask RCNN的葡萄藤關(guān)鍵結(jié)構(gòu)的分割方法,用以保證葡萄藤各關(guān)鍵結(jié)構(gòu)的識別與連接關(guān)系,為進(jìn)一步提高復(fù)雜環(huán)境下二維以及三維空間下芽點的識別與剪枝點的推理精度提供依據(jù)。
1 葡萄藤冬季修剪原理
為實現(xiàn)葡萄園種植過程機械化作業(yè)與產(chǎn)量增收,國內(nèi)普遍采用“廠”形栽培模式,即保留植株單個主莖成為綁縛主枝,并呈“廠”形在第一條綁縛線上進(jìn)行固定。枝條生長于綁縛主枝上,主要生長方向垂直于綁縛主枝。葡萄藤精細(xì)化的冬季剪枝農(nóng)藝需求為:各枝條保留靠近綁縛主干的一至兩個芽點后,在保留芽點與上部芽點之間的枝條處做截斷處理。“廠”形栽培模式的葡萄藤修剪示例模型如圖1所示。葡萄藤各關(guān)鍵結(jié)構(gòu)的識別與連接關(guān)系成為確定精確剪枝點的必要前提。
2 葡萄藤關(guān)鍵結(jié)構(gòu)分割模型
2.1 Mask RCNN網(wǎng)絡(luò)模型
隨著深度學(xué)習(xí)分割方法逐步在農(nóng)業(yè)工程領(lǐng)域的應(yīng)用,目前已經(jīng)在各項農(nóng)業(yè)種植環(huán)節(jié)中成功實施[1517]。經(jīng)典的圖像分割模型包括全連接卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)、DeepLab、PSPNet、Mask RCNN[1819],其中Mask RCNN可實現(xiàn)復(fù)雜背景下較高精度的像素分割,并且能夠并行實現(xiàn)目標(biāo)檢測、分類以及像素分割問題。由于葡萄藤關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與背景之間顏色相近,枝條叢生交錯、姿態(tài)多樣,傳統(tǒng)的閾值分割和邊緣分割[2021]方式難以實現(xiàn)葡萄藤關(guān)鍵結(jié)構(gòu)與背景的準(zhǔn)確識別以及分割,鑒于深度學(xué)習(xí)網(wǎng)絡(luò)同時具備的特征提取與識別的優(yōu)勢,本文將基于Mask RCNN網(wǎng)絡(luò)框架,對葡萄藤關(guān)鍵結(jié)構(gòu)進(jìn)行分割識別,為推理精確的葡萄藤冬季剪枝點,實現(xiàn)自動化剪枝作業(yè)提供完整的修剪模型依據(jù)。其算法框架如圖2所示,實現(xiàn)步驟如下。
1) 通過由殘差網(wǎng)絡(luò)(Residual Network)和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)組成的主干特征提取網(wǎng)絡(luò)對輸入的圖像進(jìn)行多尺度的信息提取與融合,生成一系列有效特征層。
2) 在提取到的有效特征層上生成不同尺寸的感興趣區(qū)域(Region of Interest,ROI)后傳入?yún)^(qū)域選取網(wǎng)絡(luò)(Region Proposal Network,RPN),RPN將各尺寸的ROI進(jìn)行初步篩選后對進(jìn)行分類以及回歸操作,以獲得目標(biāo)候選區(qū)域。
3) 通過ROI Align(Region of Interest Align)層將RPN網(wǎng)絡(luò)篩選出來的目標(biāo)候選區(qū)域與主干特征提取網(wǎng)絡(luò)的有效特征圖進(jìn)行匹配對齊,并統(tǒng)一特征圖大小。
4) 統(tǒng)一大小的特征圖將輸入由類別、邊界框以及掩膜分支構(gòu)成的網(wǎng)絡(luò)頭部,用于輸出類別概率、定位的目標(biāo)邊界框位置以及目標(biāo)區(qū)域的掩膜分割。
2.2 圖像采集與標(biāo)注
試驗數(shù)據(jù)于2021年10月13日10:00~21:00(天氣晴,光照強烈,自然種植環(huán)境)、10月14日(陰,光線較弱,自然種植環(huán)境)采集于新疆昌吉州瑪納斯縣中信國安葡萄酒合約種植地。采集對象為“廠”形種植的8年生赤霞珠釀酒葡萄,多方位進(jìn)行拍攝,按照拍攝圖片的光照條件分為晴天順光、晴天逆光、陰天。共采集像素為3000×4000的圖片606張,將樣本圖片統(tǒng)一縮小至512像素×512像素,為防止數(shù)據(jù)集在訓(xùn)練過程中產(chǎn)生過擬合,采用圖像與標(biāo)簽同時進(jìn)行水平翻轉(zhuǎn)與增減亮度的調(diào)整方式對數(shù)據(jù)集進(jìn)行增廣,經(jīng)過數(shù)據(jù)增強后,數(shù)據(jù)集總數(shù)為1818張,按照8∶1∶1的比例劃分訓(xùn)練集、驗證集和測試集,數(shù)據(jù)增強后各類樣本數(shù)量與數(shù)據(jù)集劃分如表1所示。
葡萄藤各關(guān)鍵結(jié)構(gòu)之間具有附屬性,合理的數(shù)據(jù)集標(biāo)注有助于后期形成各組分連接關(guān)系與推斷準(zhǔn)確的剪枝點位置。依據(jù)葡萄藤精細(xì)化的冬季剪枝農(nóng)藝需求與規(guī)范的修剪示例,用labelme[22]圖像標(biāo)注工具建立含有三類標(biāo)簽的數(shù)據(jù)集,并為數(shù)據(jù)集圖像添加掩膜標(biāo)簽,如圖3所示。
2.3 對照組網(wǎng)絡(luò)模型
DeepLab v3+和PSPNet作為經(jīng)典的語義分割網(wǎng)絡(luò),具有較好泛化能力和分割效果,因此本文將采用DeepLab v3+模型和PSPNet模型[2324]作為對照組模型對葡萄藤關(guān)鍵結(jié)構(gòu)的分割性能進(jìn)行對比試驗。
DeepLab v3+模型是近年來深度學(xué)習(xí)發(fā)展中分割精度偏高、使用較廣泛的目標(biāo)分割模型。DeepLab v3+采用編碼-解碼結(jié)構(gòu),編碼結(jié)構(gòu)主體使用帶有空洞卷積的深度卷積神經(jīng)網(wǎng)絡(luò)與帶有空洞卷積的金字塔池化模塊,獲取不同尺度的感受野并進(jìn)行多尺度的特征提取,DeepLab v3+模型在DeepLab v3的基礎(chǔ)上,引入解碼模塊實現(xiàn)底層特征與高層特征的融合,最后通過上采樣輸出預(yù)測結(jié)果。PSPNet模型主要由主干特征提取網(wǎng)絡(luò)與加強特征提取結(jié)構(gòu)組成,其中加強特征提取網(wǎng)絡(luò)將獲取到的特征層劃分為不同大小的區(qū)域,并對各區(qū)域進(jìn)行平均池化用以實現(xiàn)不同區(qū)域上下文信息的聚合,從而提高獲取全局信息的能力,特征融合進(jìn)行上采樣后通過卷積層輸出目標(biāo)物體的分割結(jié)果。對照組網(wǎng)絡(luò)模型均采用Labelme工具對數(shù)據(jù)進(jìn)行標(biāo)注,采用PASCAL VOC數(shù)據(jù)集格式進(jìn)行訓(xùn)練。
2.4 性能評價指標(biāo)
采用COCO數(shù)據(jù)集評價標(biāo)準(zhǔn)對模型性能做出評估,其包括準(zhǔn)確率P(Precision)、召回率R(Recall),平均精度AP(Average Precision):AP值可以對各給定類別準(zhǔn)確率與召回率全面的表達(dá)與綜合體現(xiàn);平均精度均值MAP(Mean Average Precision):MAP值可以滿足多標(biāo)簽分類模型的評價任務(wù);各評價指標(biāo)計算公式如式(1)~式(4)所示。
P=TPTP+FP×100%
(1)
R=TPTP+FN×100%
(2)
AP=∫10P(R)dR×100%
(3)
MAP=1n∑ni=1AP×100%
(4)
式中:
TP——被模型預(yù)測為正的正樣本;
FP——被模型預(yù)測為正的負(fù)樣本;
FN——被模型預(yù)測為負(fù)的正樣本;
AP——
準(zhǔn)確率在召回率上的積分,數(shù)值越高,模型性能越好;
MAP——每個類別AP值的平均值;
n——
類別個數(shù),在本文中n=3(綁縛主干+枝條+節(jié)點)。
2.5 試驗設(shè)計
2.5.1 計算環(huán)境配置
本試驗主機配置Windows 10系統(tǒng),中央處理器為Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40 GHz,顯卡為GeForce GTX 3090。各網(wǎng)絡(luò)模型在Anaconda 3虛擬環(huán)境下訓(xùn)練,采用TensorflowGPU 1.13.2和Keras 2.1.5、TensorflowGPU 2.5.0深度學(xué)習(xí)框架來適應(yīng)不同模型的網(wǎng)絡(luò)訓(xùn)練需求。虛擬環(huán)境配置安裝Python 3.8編程環(huán)境、GPU并行計算架構(gòu)Cuda 11.2和深度神經(jīng)網(wǎng)絡(luò)GPU加速庫Cudnn 8.1。
2.5.2 計算環(huán)境配置
1) Mask RCNN模型參數(shù)設(shè)置:GPU個數(shù)1;單GPU同時處理圖片數(shù)量2;類別個數(shù)為1(背景)+3(綁縛藤條、枝條、節(jié)點),RPN錨大小為32、64、128、256、512;加載COCO數(shù)據(jù)集默認(rèn)權(quán)重。為進(jìn)一步提升目標(biāo)圖像分割精度,采用將區(qū)域選取網(wǎng)絡(luò)和網(wǎng)絡(luò)頭部(分類、邊框回歸以及掩膜分支)合并起來的端到端的訓(xùn)練模式,整個網(wǎng)絡(luò)訓(xùn)練迭代數(shù)為100,初始學(xué)習(xí)率為0.001,網(wǎng)絡(luò)權(quán)重衰減系數(shù)為0.000 1,動量為 0.9。
2) 對照組模型參數(shù)設(shè)置:本文中對照組模型為DeepLab v3+與PSPNet網(wǎng)絡(luò)模型,均采用PASCAL VOC(PASCAL Visual Object Classes)數(shù)據(jù)集格式進(jìn)行訓(xùn)練,數(shù)據(jù)集圖片分辨率大小分別設(shè)置為512像素×512像素、473像素×473像素,整個網(wǎng)絡(luò)迭代數(shù)為100,總迭代次數(shù)為1 000,初始學(xué)習(xí)率為0.001,每迭代100次,學(xué)習(xí)率降低0.1。
2.5.3 對比試驗設(shè)計
1) 主干特征提取網(wǎng)絡(luò)對比試驗。
為使模型的識別與分割效果達(dá)到最佳,分別以ResNet 50+FPN、ResNet 101+FPN作為Mask RCNN的主干特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練并進(jìn)行對比驗證。通過訓(xùn)練及驗證損失曲線是否收斂判斷模型泛化擬合能力與樣本的適用性;依據(jù)訓(xùn)練后模型的平均精度AP值、訓(xùn)練時間以及分割效果,選擇出最優(yōu)的主干特征提取網(wǎng)絡(luò)。
2) 分割模型對比試驗。
在主干特征提取網(wǎng)絡(luò)對比試驗的基礎(chǔ)上選出Mask RCNN模型的最優(yōu)主干后,與基于MobilNet v2主干特征提取網(wǎng)絡(luò)的DeepLab v3+和PSPNet模型進(jìn)行分割模型性能對比試驗。通過訓(xùn)練與驗證損失曲線收斂程度、收斂后損失值的保持?jǐn)?shù)值判斷分割模型的擬合與泛化能力;對比各模型在葡萄藤關(guān)鍵結(jié)構(gòu)圖片測試集上得到的準(zhǔn)確率、召回率、平均精度均值以及分割效果,對比各類模型的分割性能。
3 結(jié)果與分析
3.1 主干特征提取網(wǎng)絡(luò)性能對比分析
將ResNet 50+FPN、ResNet 101+FPN分別作為主干特征提取網(wǎng)絡(luò),對Mask RCNN模型進(jìn)行訓(xùn)練與驗證,試驗結(jié)果表明:兩種模型在訓(xùn)練與驗證的迭代過程中,分類、邊框和掩膜的訓(xùn)練集與驗證集的損失值整體呈現(xiàn)降低的趨勢,如圖4所示,兩個模型在100個epoch之內(nèi)均達(dá)到收斂,收斂后3個模型整體訓(xùn)練集損失值保持在(0.25,0.3)之間,整體驗證集損失率保持在(0.24,0.3)之間。從損失曲線的結(jié)果呈現(xiàn),證明由兩種主干特征提取網(wǎng)絡(luò)構(gòu)成的Mask RCNN分割模型具有較好的擬合與泛化能力,本數(shù)據(jù)集的構(gòu)建也較符合用于葡萄藤關(guān)鍵結(jié)構(gòu)的識別。
經(jīng)過擬合泛化能力的確定,可知兩種主干特征提取網(wǎng)絡(luò)對模型以及圖像樣本有效可用,在此基礎(chǔ)上,需要通過對比其模型整體的性能來選擇最優(yōu)的主干特征提取網(wǎng)絡(luò)。表2是兩種主干特征提取網(wǎng)絡(luò)的AP50(IoU取值為0.5)、AP75(IoU取值為0.75)、AP(IoU取值為0.5~0.95閾值下的平均值)以及訓(xùn)練時間的對比。由數(shù)值可以看出,ResNet 101+FPN作為主干特征提取網(wǎng)絡(luò)具有較高的精準(zhǔn)度,盡管網(wǎng)絡(luò)參數(shù)量是ResNet 50+FPN的1.4倍,但訓(xùn)練時間僅多出0.462h;AP值相較于ResNet 50+FPN提升1.3%,識別精度提升對比顯著,極大程度上保證了葡萄藤關(guān)鍵結(jié)構(gòu)的識別精度。
(a) 不同主干網(wǎng)絡(luò)訓(xùn)練損失曲線
(b) 不同主干網(wǎng)絡(luò)驗證損失曲線
為驗證以ResNet 50+FPN、ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的分割性能,在測試集上對兩種模型分割性能進(jìn)行對比試驗。由于葡萄藤各關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與背景之間顏色都較為相近,為驗證模型對各背景的識別與分割效果,采用強、弱背景之分的圖片對模型進(jìn)行性能檢測。利用兩種主干特征提取網(wǎng)絡(luò)對葡萄藤各關(guān)鍵結(jié)構(gòu)的識別與分割效果如圖5所示。由圖5(b)與圖5(c)對比可知,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,在不同背景下對葡萄藤各關(guān)鍵結(jié)構(gòu)的識別與分割整體優(yōu)于ResNet 50+FPN。圖5(b)是以ResNet 50+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,其對于強背景區(qū)分的葡萄藤關(guān)鍵結(jié)構(gòu)的分類與掩膜較差,對弱背景區(qū)分無法完成分類與掩膜任務(wù)。圖5(c)是以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,對不同背景區(qū)分下的各類分割目標(biāo)輪廓清晰,沒有出現(xiàn)目標(biāo)像素點重復(fù)、遺漏標(biāo)注的情況;對比強、弱背景區(qū)分對作物的分類與掩膜效果,其針對強背景區(qū)分的邊框回歸與分類效果更佳。通過對比兩種主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,綜合考慮模型對于目標(biāo)作物分類、邊框回歸、掩膜效果,訓(xùn)練時間,模型整體參數(shù)量以及電腦配置,選取以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,用于葡萄藤關(guān)鍵結(jié)構(gòu)的分割模型對比試驗。
(a) 原圖
(b) 以ResNet 50+FPN為主干網(wǎng)絡(luò)的分割效果圖
(c) 以ResNet 101+FPN為主干網(wǎng)絡(luò)的分割效果圖
3.2 分割模型性能對比分析
在主干特征提取網(wǎng)絡(luò)對比試驗中,得出ResNet 101+FPN是Mask RCNN模型最優(yōu)的主干特征提取網(wǎng)絡(luò),為進(jìn)一步驗證以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型對葡萄藤關(guān)鍵結(jié)構(gòu)分割的分割性能,將其與以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+、PSPNet模型進(jìn)行分割性能比較。采用相同數(shù)據(jù)集對兩類對比模型進(jìn)行訓(xùn)練與驗證,試驗結(jié)果表明:對照組兩種模型在訓(xùn)練與驗證的迭代過程中,訓(xùn)練集以及驗證集的損失值整體呈現(xiàn)降低的趨勢,見圖6,對照組兩種模型在100個epoch之內(nèi)均達(dá)到收斂。PSPNet模型在訓(xùn)練集上效果最佳,收斂后模型損失值保持在0.25以下;以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型在驗證集上效果最佳,收斂后在驗證集的損失值相較于PSPNet、DeepLab v3+模型低0.3左右。對比三類模型在訓(xùn)練集與驗證集的訓(xùn)練效果,得出以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型具有最優(yōu)的擬合與泛化能力。
(a) 不同分割模型訓(xùn)練損失曲線圖
(b) 不同分割模型驗證損失曲線圖
經(jīng)過擬合泛化能力的確定,需要通過對比三類模型的分割性能來獲得最優(yōu)的葡萄藤關(guān)鍵結(jié)構(gòu)分割模型,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型、以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet、DeepLab v3+模型在測試集上對葡萄藤關(guān)鍵結(jié)構(gòu)的分割試驗結(jié)果如表3所示。
由表3可知,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型的各項結(jié)果均優(yōu)與對照組模型,其相較于以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet、DeepLab v3+模型對葡萄藤各關(guān)鍵結(jié)構(gòu)的準(zhǔn)確率分別提升7.33個和8.89個百分點,召回率分別提升9.32個和9.26個百分點,平均精度均值分別提升12.68個和12.63個百分點。試驗結(jié)果表明:采用以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型雖然網(wǎng)絡(luò)層數(shù)較深,模型參數(shù)量較大,致使網(wǎng)絡(luò)運行速度較慢,但綜合其優(yōu)越的分割性能,針對葡萄藤關(guān)鍵結(jié)構(gòu)的分割任務(wù)更具有魯棒性。
由于葡萄藤各關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與土壤背景之間都存在較大相似度,需要模型具有目標(biāo)作物與背景相似度較高的弱背景區(qū)分下識別與分割能力,因此采用強、弱背景區(qū)分兩類圖像對三類分割模型進(jìn)行對比試驗,三類模型對葡萄藤關(guān)鍵結(jié)構(gòu)在測試集上的分割效果如圖7所示。
(a) 原圖
(b) 掩碼分割圖
(c) Mask RCNN模型分割效果
(d) DeepLab v3+模型分割效果
(e) PSPNet模型分割效果
在強背景區(qū)分的圖像樣本中,綁縛主干、枝條、節(jié)點個數(shù)如標(biāo)簽圖7(b)左所示分別為1、2、5個,以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+模型分割情況,如圖7(d)左所示,分割圖像出現(xiàn)將枝條像素錯誤分割為綁縛主干、綁縛主干與枝條之間形成錯誤間接關(guān)系、節(jié)點漏、錯分割比例占80%的情況;以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet模型分割情況,如圖7(e)左所示,分割圖像存在枝條與枝條之間像素點粘連、節(jié)點邊緣分割不完整并且漏分割比例占20%的情況。對于弱背景區(qū)分的圖像樣本中,綁縛主干、枝條、節(jié)點個數(shù)如標(biāo)簽圖7(b)右所示分別為2、5、8個,以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+模型分割情況,如圖7(d)右示,分割圖像綁縛主枝與枝條邊緣分割較完整,節(jié)點邊緣分割完整度較差,未完整分割的節(jié)點比例為87.5%,由于節(jié)點與節(jié)點之間距離較小,存在節(jié)點之間像素點粘連劃分形成錯誤連接關(guān)系的情況;以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet模型分割情況,如圖7(e)右所示,枝條與節(jié)點分割邊緣完整性較差,節(jié)點沒有完整分割的個體。可見以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+、PSPNet模型受背景信息的影響較大,尤其在弱背景區(qū)分下,模型難以區(qū)分目標(biāo)作物與背景的顏色與形狀特征,漏分割與誤分割現(xiàn)象嚴(yán)重。
對于試驗樣本,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型展現(xiàn)出良好的分割性能,如圖7(c)所示,對三類分割目標(biāo)分割輪廓完整,各分割目標(biāo)之間的連接關(guān)系正確,樣本試驗分割正確率與整體掩碼程度達(dá)到100%。綜上,在不同背景與環(huán)境下以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型對葡萄藤各關(guān)鍵結(jié)構(gòu)具有較好的分割性能。
4 結(jié)論
本文提出了基于Mask RCNN模型的葡萄藤關(guān)鍵結(jié)構(gòu)的分割方法,并對模型的主干特征提取網(wǎng)絡(luò)進(jìn)行對比選取、對模型分割性能進(jìn)行對比驗證。
1) 進(jìn)行以ResNet 50+FPN和ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型的對比試驗,經(jīng)驗證,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的模型具有較好的擬合與泛化能力,對葡萄藤各關(guān)鍵結(jié)構(gòu)的平均檢測精度為76%,相比以ResNet 50+FPN為主干特征提取網(wǎng)絡(luò)的模型AP0.5、AP0.75、AP分別提高了4%、4.6%與1.3%,表明其較優(yōu)的目標(biāo)檢測能力,并且在強、弱背景區(qū)分下其分割效果均優(yōu)于ResNet 50+FPN主干特征提取網(wǎng)絡(luò)。
2) 在模型分割性能驗證上,采用以MobileNet v2主干特征提取網(wǎng)絡(luò)的DeepLab v3+和PSPNet模型進(jìn)行分割模型為對照組進(jìn)行對比試驗,經(jīng)驗證,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型相較于對照組兩類模型具有更好的擬合與泛化能力,相比于對照組模型準(zhǔn)確率分別提升7.33%和8.89%,召回率分別提升9.32%和9.26%,平均精度均值分別提升12.69%和12.63%;在分割效果性能方面,相較于對照組模型在強、弱背景下的分割效果均優(yōu)于對照組分割模型,分割邊緣完整,葡萄藤各關(guān)鍵結(jié)構(gòu)之間連接關(guān)系正確。
3) 本文提出的基于Mask RCNN模型分割識別方法,初步實現(xiàn)了對葡萄藤各關(guān)鍵結(jié)構(gòu)完整的識別與分割。雖然在識別與分割精度方面還有待優(yōu)化,但與傳統(tǒng)圖像處理方式下的葡萄藤關(guān)鍵結(jié)構(gòu)識別相比,保證了各關(guān)鍵結(jié)構(gòu)的連接關(guān)系,并針對現(xiàn)有種植環(huán)境下,實現(xiàn)對自然種植背景的目標(biāo)識別與分割任務(wù),能夠為葡萄藤精確剪枝點的識別與定位研究提供精確的關(guān)鍵結(jié)構(gòu)推理模型,為葡萄自動化、智能化的修剪作業(yè)奠定基礎(chǔ)。
參 考 文 獻(xiàn)
[1]金子煜, 劉淑紅, 周祥軍. 葡萄冬季修剪技術(shù)淺析[J]. 南方農(nóng)業(yè), 2021, 15(5): 30-31, 40.
[2]秦喜田, 劉學(xué)峰, 任冬梅, 等. 我國果園生產(chǎn)機械化現(xiàn)狀及其發(fā)展趨勢[J]. 農(nóng)業(yè)裝備與車輛工程, 2019, 57(S1): 35-38.
Qin Xitian, Liu Xuefeng, Ren Dongmei, et al. Current situation and development prospect of orchard mechanization in China [J]. Agricultural Equipment & Vehicle Engineering, 2019, 57(S1): 35-38.
[3]劉平, 朱衍俊, 張同勛, 等. 自然環(huán)境下貼疊葡萄串的識別與圖像分割算法[J]. 農(nóng)業(yè)工程學(xué)報, 2020, 36(6): 161-169.
Liu Ping, Zhu Yanjun, Zhang Tongxun, et al. Algorithm for recognition and image segmentation of overlapping grape cluster in natural environment [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(6): 161-169.
[4]蘇仕芳, 喬焰, 饒元. 基于遷移學(xué)習(xí)的葡萄葉片病害識別及移動端應(yīng)用[J]. 農(nóng)業(yè)工程學(xué)報, 2021, 37(10): 127-134.
Su Shifang, Qiao Yan, Rao Yuan. Recognition of grape leaf diseases and mobile application based on transfer learning [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(10): 127-134.
[5]Francesca C, Ermes M, Davide C, et al. Estimating leaf area index (LAI) in vineyards using the PocketLAI smartapp [J]. Sensors, 2016, 16(12): 2004.
[6]Fourie J, Bateman C, Hsiao J, et al. Towards automated grapevine pruning: Learning by example using recurrent graph neural networks [J]. International Journal of Intelligent Systems, 2021, 36(2): 715-735.
[7]賈挺猛, 荀一, 鮑官軍, 等. 基于機器視覺的葡萄樹枝骨架提取算法研究[J]. 機電工程, 2013, 30(4): 501-504.
Jia Tingmeng, Xun Yi, Bao Guanjun, et al. Skeleton extraction algorithm on grapevine based on machine vision [J]. Journal of Mechanical & Electrical Engineering, 2013, 30(4): 501-504.
[8]Xu S, Xun Y, Jia T, et al. Detection method for the buds on winter vines based on computer vision [C]. 2014 Seventh International Symposium on Computational Intelligence and Design. IEEE, 2014, 2: 44-48.
[9]Botterill T, Paulin S, Green R, et al. A robot system for pruning grapevines [J]. Journal of Field Robotics, 2017, 34(6): 1100-1122.
[10]Pérez D S, Bromberg F, Diaz C A. Image classification for detection of winter grapevine buds in natural conditions using scaleinvariant features transform, bag of features and support vector machines [J]. Computers and Electronics in Agriculture, 2017, 135: 81-95.
[11]Díaz C A, Pérez D S, Miatello H, et al. Grapevine buds detection and localization in 3D space based on structure from motion and 2D image classification [J]. Computers in Industry, 2018, 99: 303-312.
[12]Marset W V, Pérez D S, Díaz C A, et al. Towards practical 2D grapevine bud detection with fully convolutional networks [J]. Computers and Electronics in Agriculture, 2021, 182: 105947.
[13]Fernandes M, Scaldaferri A, Fiameni G, et al. Grapevine winter pruning automation: On potential pruning points detection through 2D plant modeling using grapevine segmentation [C]. 2021 IEEE 11th Annual International Conference on CYBER Technology in Automation, Control, and Intelligent Systems (CYBER). IEEE, 2021: 13-18.
[14]Yang Q, Yuan Y, Chen Y, et al. Method for detecting 2D grapevine winter pruning location based on thinning algorithm and lightweight convolutional neural network [J]. International Journal of Agricultural and Biological Engineering, 2022, 15(3): 177-183.
[15]傅隆生, 宋珍珍, Zhang Xin, 等. 深度學(xué)習(xí)方法在農(nóng)業(yè)信息中的研究進(jìn)展與應(yīng)用現(xiàn)狀[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報, 2020, 25(2): 105-120.
Fu Longsheng, Song Zhenzhen, Zhang Xin, et al. Applications and research progress of deep learning in agriculture [J]. Journal of China Agricultural University, 2020, 25(2): 105-120.
[16]孫俊, 譚文軍, 毛罕平, 等. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多種植物葉片病害識別[J]. 農(nóng)業(yè)工程學(xué)報, 2017, 33(19): 209-215.
Sun Jun, Tan Wenjun, Mao Hanping, et al. Recognition of multiple plant leaf diseases based on improved convolutional neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(19): 209-215.
[17]龍潔花, 趙春江, 林森, 等. 改進(jìn)Mask RCNN的溫室環(huán)境下不同成熟度番茄果實分割方法[J]. 農(nóng)業(yè)工程學(xué)報, 2021, 37(18): 100-108.
Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask RCNN [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(18): 100-108.
[18]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.
[19]He K, Gkioxari G, Dollár P, et al. Mask RCNN [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.
[20]黃鵬, 鄭淇, 梁超. 圖像分割方法綜述[J]. 武漢大學(xué)學(xué)報(理學(xué)版), 2020, 66(6): 519-531.
Huang Peng, Zheng Qi, Liang Chao. Overview of image segmentation methods [J]. Journal of Wuhan University(Natural Science Edition), 2020, 66(6): 519-531.
[21]劉碩. 閾值分割技術(shù)發(fā)展現(xiàn)狀綜述[J]. 科技創(chuàng)新與應(yīng)用, 2020(24): 129-130.
[22]Russell B C, Torralba A, Murphy K P, et al. LabelMe: A database and webbased tool for image annotation [J]. International Journal of Computer Vision, 2008, 77(1): 157-173.
[23]Chen L C, Zhu Y, Papandreou G, et al. Encoderdecoder with atrous separable convolution for semantic image segmentation [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 801-818.
[24]Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2881-2890.