宋振帥 宋龍 周艷 何磊 朱賀 王治民 韓大龍
摘要:針對冬季休眠期矮化蘋果樹果園修剪中人工修剪及半自動化修剪作業(yè)效率低的問題,在U-Net網(wǎng)絡(luò)模型基礎(chǔ)上,通過VGG16與U-Net結(jié)合構(gòu)建改進(jìn)的U-Net網(wǎng)絡(luò)模型,采用VGG16作為上采樣特征提取網(wǎng)絡(luò),運用注意力機(jī)制SEnet增強(qiáng)圖像特征提取能力,提升分割精度,進(jìn)而與下采樣提取的圖像特征進(jìn)行融合,實現(xiàn)端到端圖像分割效果。結(jié)果表明,測試集上SE2網(wǎng)絡(luò)模型(改進(jìn)U-Net網(wǎng)絡(luò)模型)的MIoU、MPA均大于原始U-Net網(wǎng)絡(luò)模型;在SE2網(wǎng)絡(luò)模型中,當(dāng)r=8時測試集的MIoU、測試集的MPA、訓(xùn)練集的Fscore、測試集的Fscore均最大,分別為89.59%、94.17%、0.942 806、0.944 506;在試驗臺上對SE2網(wǎng)絡(luò)模型? (r=8)進(jìn)行性能驗證,表明SE2網(wǎng)絡(luò)模型(r=8)分割性能較好。
關(guān)鍵詞:改進(jìn)U-Net;網(wǎng)絡(luò)模型;冬季休眠期;矮化蘋果樹;修剪枝條;分割方法
中圖分類號:TS23-9???????? 文獻(xiàn)標(biāo)識碼:A
文章編號:0439-8114(2024)05-0194-07
DOI:10.14088/j.cnki.issn0439-8114.2024.05.034??????????? 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Segmentation method for pruned branches of dwarfing apple trees during winter dormancy period based on improved U-Net
SONG Zhen-shuai 1,SONG Long2,ZHOU Yan 2, HE Lei2,ZHU He1,WANG Zhi-min1,HAN Da-long 2
(1.College of Mechanical and Electrical Engineering,Shihezi University, Shihezi? 832003, Xinjiang,China;
2.Institute of Machinery and Equipment, Xinjiang Academy of Agricultural and Reclamation Science, Shihezi? 832000, Xinjiang,China)
Abstract: In response to the low efficiency of manual and semi-automatic pruning operations in dwarfing apple trees during the winter dormancy period,based on the U-Net network model, an improved U-Net network model was constructed by combining VGG16 with U-Net. Using VGG16 as the upsampling feature extraction network, the attention mechanism SEnet was used to enhance the image feature extraction ability, improve segmentation accuracy, and then fuse with the downsampling extracted image features to achieve the end-to-end image segmentation effect. The results showed that the MIoU and MPA of the SE2 network model (improved U-Net network model) on the test set were greater than those of the original U-Net network model;in the SE2 network model, when r=8, the MIoU of the test set, MPA of the test set, Fscore of the training set, and Fscore of the test set were all the highest, with values of 89.59%, 94.17%, 0.942 806, and 0.944 506, respectively; the performance of the SE2 network model (r=8) was validated on the test bench, and it was found that the segmentation performance of the SE2 network model (r=8) was good.
Key words: improved U-Net; network model; winter dormancy period; dwarfing apple trees; pruned branches; segmentation method
收稿日期:2022-09-13
基金項目:新疆生產(chǎn)建設(shè)兵團(tuán)重大科技項目(2021AA00503);國家重點研發(fā)計劃項目(2017YFD07014);新疆生產(chǎn)建設(shè)兵團(tuán)農(nóng)業(yè)領(lǐng)域重點科技攻關(guān)項目(2018AB016)
作者簡介:宋振帥(1997-),男,山東臨沂人,碩士,主要從事圖像識別與分割研究,(電話)19190249234(電子信箱)1459588016@qq.com;通信作者,周 艷(1970-),女,四川大竹人,研究員,博士,主要從事林果機(jī)械化研究,(電子信箱)806551889@qq.com。
宋振帥,宋 龍,周 艷,等. 基于改進(jìn)U-Net的冬季休眠期矮化蘋果樹修剪枝條分割方法[J]. 湖北農(nóng)業(yè)科學(xué),2024,63(5):194-200,206.
新疆林果種植面積約占全國林果種植面積的13%,種植面積逐年遞增[1],是全國林果主要產(chǎn)區(qū)。林果業(yè)對農(nóng)民增收起到重要的作用,成為當(dāng)前農(nóng)民致富的一條重要道路[2],是新疆優(yōu)勢突出、特色鮮明、市場前景廣闊的產(chǎn)業(yè),已成為優(yōu)化農(nóng)村產(chǎn)業(yè)結(jié)構(gòu)的重點。但新疆地廣人稀,且現(xiàn)階段機(jī)械修剪機(jī)以人工操作為主,自動化技術(shù)在修剪上的應(yīng)用較少,人工操作效率低,并隨著人工成本的提高,林果產(chǎn)業(yè)的經(jīng)濟(jì)效益低靡。種植者對自動化作業(yè)需求極為迫切,因此實現(xiàn)智能化、自動化機(jī)械修剪迫在眉睫,本研究利用改進(jìn)的U-Net網(wǎng)絡(luò)模型對冬季休眠期矮化蘋果樹枝條采取端到端分割提取,對修剪枝條修剪點三維坐標(biāo)的確定有重要意義。
目前分割方法主要有傳統(tǒng)方法和基于深度學(xué)習(xí)的方法,傳統(tǒng)方法主要基于邊緣檢測、模板匹配和形變模型等[3]。Momtanu等[4]采用形態(tài)學(xué)邊緣方法對目標(biāo)進(jìn)行檢測。2016 年Hamuda等[5]利用HSV顏色空間在不同光照及在雜草、土壤為背景的情況下分割出花椰菜。黃彪[6]利用基于色差的圖像分割獲取到間斷的枸杞枝條圖像,通過非合理間斷圖像的恢復(fù)獲取到枝條的中心坐標(biāo)及直徑,進(jìn)而完成枸杞枝條提取。嚴(yán)亞飛[7]將RGB顏色空間轉(zhuǎn)換到LAB顏色空間,通過K-Means聚類及膨脹腐蝕等方法獲取到枸杞枝條的輪廓,通過三維重建獲取到枝條定位。傳統(tǒng)的圖像識別方法需要人工提取圖像特征,當(dāng)受到光照不均或背景較復(fù)雜時,分割效果較差。因此有針對性地選用圖像特征和自動、便捷的模型非常重要。
近年來,隨著深度學(xué)習(xí)技術(shù)及計算機(jī)技術(shù)的發(fā)展,傳統(tǒng)的深度卷積分類網(wǎng)絡(luò)如AlexNet和VGGNet[8]包含全連接層,其計算量較大,也無法運用到語義分割任務(wù)中。Speckmann[9]提出的全卷積神經(jīng)網(wǎng)絡(luò)(FCN)實現(xiàn)了端到端的語義分割,但其分割精度不高。衛(wèi)長秋等[10]提出的U-Net網(wǎng)絡(luò)模型是在FCN網(wǎng)絡(luò)模型基礎(chǔ)上構(gòu)建獲得,是一個U型結(jié)構(gòu),具有編碼器結(jié)構(gòu),左側(cè)是對圖像的下采樣,右側(cè)是對圖像的上采樣,進(jìn)而進(jìn)行特征融合實現(xiàn)語義分割。Keir等[11]提出了一個改進(jìn)后的U-Net網(wǎng)絡(luò)模型,將Droupout層放在每個卷積層的后面。Fred等[12]提出了Fast R-CNN網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型采用多任務(wù)損失函數(shù)并將原網(wǎng)絡(luò)模型中SVM分類用Softmax和SmoothLoss替換,進(jìn)而減小了電腦磁盤的占用。
隨著遷移學(xué)習(xí)的發(fā)展,通常把在其他數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重運用到自己的數(shù)據(jù)集中進(jìn)行微調(diào),以解決樣本過少導(dǎo)致網(wǎng)絡(luò)過擬合的問題[13]。Chen[14]等提出一個將預(yù)訓(xùn)練權(quán)重ResNet-34作為編碼層的U型網(wǎng)絡(luò)模型結(jié)構(gòu),用于分割視盤,分割效果較好。雖然卷積神經(jīng)網(wǎng)絡(luò)分割在某些方面優(yōu)于傳統(tǒng)的色差分割方法,但是依然存在一些問題,當(dāng)分割背景較復(fù)雜時,編碼器的特征提取能力不足;在訓(xùn)練網(wǎng)絡(luò)模型數(shù)據(jù)集較少時,容易出現(xiàn)過擬合現(xiàn)象。同時,也會出現(xiàn)對某些數(shù)據(jù)集分割效果較好,但對某些數(shù)據(jù)分割效果較差,且泛化性不足的情況。本研究在U-Net網(wǎng)絡(luò)模型的基礎(chǔ)上,通過VGG16與U-Net結(jié)合構(gòu)建新的網(wǎng)絡(luò)模型,在網(wǎng)絡(luò)模型下采樣時,采用VGG16作為特征提取網(wǎng)絡(luò),進(jìn)而運用注意力機(jī)制SEnet增強(qiáng)圖像特征提取能力,提升分割精度,同時,在模型上采樣時,直接進(jìn)行兩倍上采樣,與下采樣提取的圖像特征進(jìn)行特征融合,最終獲得的特征層和輸入圖片高寬相同,分割效果與原圖相比更直觀,具有較好的穩(wěn)定性及泛化能力,魯棒性較好。
1 圖像采集與數(shù)據(jù)集的構(gòu)造
1.1 圖像采集系統(tǒng)搭建
使用Bumblebee2雙目相機(jī)、1394a圖像采集卡、筆記本電腦、三角支架、12V鋰電池等進(jìn)行圖像采集,相機(jī)參數(shù)如表1所示,圖像格式為JPG,電腦操作系統(tǒng)為Win10系統(tǒng),基于Python 3.6.13,Pytorch 1.7.0在編譯器Pycharm 2021開發(fā)環(huán)境上對采集的圖像進(jìn)行調(diào)試和處理。
1.2 試驗臺搭建
機(jī)器視覺平臺中上位機(jī)是整個系統(tǒng)的大腦中樞,起到控制輸出和提供服務(wù)的作用。根據(jù)算法程序與儲存需要,本研究選擇型號為SP-XC841T-V720、處理器為i5-7500、運行內(nèi)存為8 G的上位機(jī)。上位機(jī)主要負(fù)責(zé)接收工業(yè)相機(jī)采集的圖像信息,進(jìn)行圖像處理并將相關(guān)結(jié)果發(fā)送至顯示屏。顯示屏為TPC1261Hii嵌入式一體化觸摸屏,屬于上位機(jī)的I/O設(shè)備,是一種輸入輸出設(shè)備,主要負(fù)責(zé)接收上位機(jī)的信號。采集系統(tǒng)配備了2根3 m網(wǎng)線,型號為SC-GN-X3,負(fù)責(zé)將相機(jī)采集的圖像信息輸送至上位機(jī)的程序處理中心,試驗臺結(jié)構(gòu)如圖1所示。
試驗臺通過底部尤奈特驅(qū)動電機(jī)運輸至距離樹合理的作業(yè)位置(0.9~1.5 m),如圖2所示。首先通過導(dǎo)向滑軌調(diào)整相機(jī)水平高度,使其可以采集到樹的全部枝條,其次相機(jī)開始圖像采集并將采集到的圖像信息傳輸至工控機(jī)的網(wǎng)絡(luò)模型中進(jìn)行圖像預(yù)測處理,最后將工控機(jī)上圖像預(yù)測處理結(jié)果發(fā)送并顯示在顯示屏。
1.3 數(shù)據(jù)集構(gòu)造
經(jīng)過篩選,剔除重疊度較高的圖像,共獲得100張有效圖像,由于雙目相機(jī)在采集枝條圖像時需要將雙目圖像切割成左目圖像和右目圖像,因此獲得了200張需要標(biāo)注的圖像。由于網(wǎng)絡(luò)模型的圖像為512 px×512 px,為了提高后期模型的訓(xùn)練效率,將圖像都調(diào)整為512 px×512 px。為了防止出現(xiàn)過擬合現(xiàn)象,模型需要大量的訓(xùn)練數(shù)據(jù)集,本研究通過旋轉(zhuǎn)、鏡像、縮放等方式進(jìn)行樣本數(shù)量擴(kuò)充,并使用labelme對原始數(shù)據(jù)集進(jìn)行標(biāo)注,最終圖像數(shù)據(jù)集包含400張圖像,并按照9∶1隨機(jī)劃分為訓(xùn)練集和測試集。
2 相關(guān)技術(shù)
2.1 U-Net網(wǎng)絡(luò)模型
FU等[15]提出了U-Net結(jié)構(gòu),U-Net最初被用到醫(yī)學(xué)影像分割中,是在全卷積網(wǎng)絡(luò)FCN的基礎(chǔ)上進(jìn)行了優(yōu)化,一共包含了23個卷積層,可以在數(shù)據(jù)集上獲得較優(yōu)的結(jié)果,U-Net網(wǎng)絡(luò)結(jié)構(gòu)被稱為編碼器-解碼器結(jié)構(gòu),如圖3所示,編碼器是左半部分的特征提取網(wǎng)絡(luò),解碼器是右半部分的加強(qiáng)特征提取網(wǎng)絡(luò)。
在卷積神經(jīng)網(wǎng)絡(luò)中,決定某一層輸出結(jié)果中一個元素所對應(yīng)的輸入層區(qū)域大小被稱為感受野[16]。越深層的網(wǎng)絡(luò)卷積得到的特征圖有更大的感受野,所以在U-Net網(wǎng)絡(luò)模型中,淺層卷積得到的特征圖要關(guān)注其紋理特征,深層卷積得到的特征圖要關(guān)注其語義特征。在U-Net網(wǎng)絡(luò)中加強(qiáng)特征提取部分,通過下采樣獲取特征圖使圖像邊緣信息缺失,在每次上采樣提煉特征的同時,也必然會損失一些邊緣特征信息,而失去的特征在上采樣中不能復(fù)現(xiàn),因此通過特征的拼接來實現(xiàn)邊緣特征的復(fù)現(xiàn)。
由于U-Net網(wǎng)絡(luò)模型設(shè)計結(jié)構(gòu)的優(yōu)越性,使得該網(wǎng)絡(luò)同時具備捕捉上下文信息的收縮路徑和允許精確定位的對稱擴(kuò)展路徑。相較于全卷積神經(jīng)網(wǎng)絡(luò),U-Net的上采樣過程依然有大量的通道,這有助于網(wǎng)絡(luò)將上下文信息融合在一起;相較于SegNet語義分割網(wǎng)絡(luò)[17],U-Net網(wǎng)絡(luò)有著訓(xùn)練樣本少且精度高的優(yōu)勢,能實現(xiàn)端到端圖像分割任務(wù),因此也增加了該模型的精準(zhǔn)度和使用領(lǐng)域。
2.2 VGG16網(wǎng)絡(luò)
VGG-Net是牛津大學(xué)計算機(jī)視覺組(Visual geometry group)和Google DeepMind公司一起研發(fā)的深度卷積網(wǎng)絡(luò)。VGG-Net網(wǎng)絡(luò)模型搭建16~19層卷積神經(jīng)網(wǎng)絡(luò),包含VGG16、VGG19 2種結(jié)構(gòu),全部運用了3×3小型卷積核和2×2最大池化核,通過不斷加深網(wǎng)絡(luò)結(jié)構(gòu)來提升性能。VGG-Net借鑒了AlexNet的卷積模型結(jié)構(gòu),運用ZFNet的小卷積思想嘗試了1×1卷積,探索卷積神經(jīng)網(wǎng)絡(luò)深度與其性能之間的關(guān)系,實現(xiàn)高效稠密預(yù)測。VGG-Net網(wǎng)絡(luò)模型運用3×3小卷積核,使VGG-Net網(wǎng)絡(luò)模型成為主流模型,并使其作為分類、定位、檢測、分割一系列圖像任務(wù)的骨干網(wǎng)絡(luò)結(jié)構(gòu)。VGG16的網(wǎng)絡(luò)模型如圖4所示,本研究將VGG16作為特征提取網(wǎng)絡(luò),并采用SEnet模塊加強(qiáng)圖片的有效提取特征。
2.3 遷移學(xué)習(xí)
深度學(xué)習(xí)往往需要大規(guī)模數(shù)據(jù)來進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練和優(yōu)化,在小規(guī)模數(shù)據(jù)集上訓(xùn)練往往會出現(xiàn)過擬合現(xiàn)象。遷移學(xué)習(xí)可以解決數(shù)據(jù)量少導(dǎo)致的深度卷積神經(jīng)網(wǎng)絡(luò)不好訓(xùn)練的問題。遷移學(xué)習(xí)首先在大規(guī)模數(shù)據(jù)集上(如ImageNet數(shù)據(jù)集)進(jìn)行訓(xùn)練,然后運用到自己的數(shù)據(jù)集上,可以較好地降低模型訓(xùn)練時間,并且取得良好的結(jié)果。
3 改進(jìn)的網(wǎng)絡(luò)模型
輸入圖像為RGB的3通道彩色圖像,首先把圖像輸入到網(wǎng)絡(luò)模型中,進(jìn)而進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練,輸出分割好的圖像。提取的目標(biāo)結(jié)果為紅色,背景區(qū)域為黑色,實現(xiàn)自動、端到端圖像分割的目標(biāo)并獲取三維坐標(biāo),圖5為彩色圖像分割流程。
[改進(jìn)網(wǎng)絡(luò)模型][后處理][解碼器][解碼器]
3.1 注意力機(jī)制
注意力機(jī)制源于人類大腦,并被引入NLP領(lǐng)域,從數(shù)學(xué)角度看,注意力機(jī)制提供一種權(quán)重模式運算。在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制利用一些網(wǎng)絡(luò)層計算得到圖像特征層的權(quán)重,可以較好地獲取圖像信息,因此注意力機(jī)制在圖像分類、語義分割和自然語言處理領(lǐng)域受到廣泛關(guān)注。2010年楊璟等[18]提出SE(Sequeeze and excitation)模塊,如圖6所示,SE模塊由Squeeze、Excitation構(gòu)成。輸入圖片的維度為H×W×C,其中H為提取特征的高,W為提取特征的寬,C為通道數(shù)。第一步運用Squeeze操作沿著空間維度進(jìn)行全局平均池化來提取全局信息,生成1個1×1×C維度的通道。為了將Squeeze提取到的全局信息充分利用,第二步利用Excitation操作來獲取各通道的相互關(guān)系,首先把通道數(shù)C縮小為C/r,通過參數(shù)r可以控制SE模塊的計算量,r取不同的值,模型的效果也會不同,其次經(jīng)過全連接層使通道數(shù)變?yōu)樵瓉淼腃,最后通過Sigmoid函數(shù)生成1個1×1×C維度的向量,并將該向量和最初輸入的特征信息(X)進(jìn)行各通道的相乘。
圖7中的2個全連接層主要決定整個SE模塊的參數(shù)量,SE模塊參數(shù)量在計算時,需對特征圖通道重新標(biāo)定,如圖7所示。經(jīng)過重新標(biāo)定后的特征圖,不同通道的重要性也不同,圖像中有用信息被放大,不重要信息被消弱,因此SE模塊具有顯示通道之間的關(guān)系、加強(qiáng)主要特征提取、抑制無效特征、大幅度提升精度及減少參數(shù)量的特點。
[輸入特征][輸出特征]
3.2 改進(jìn)模型的構(gòu)建
基于上述分析,本研究使用的U-Net網(wǎng)絡(luò)結(jié)構(gòu)主要由主干特征提取網(wǎng)絡(luò)(編碼器)和加強(qiáng)特征提取網(wǎng)絡(luò)(解碼器)構(gòu)成,其形狀為U字形,如圖8所示。該模型分成3個部分,第一部分是主干特征提取,采用VGG16做主干提取部分,獲得5個初步有效特征層,具體結(jié)構(gòu)參數(shù)如表2所示。第二部分是加強(qiáng)特征提取部分,利用獲取的5個初步有效特征層進(jìn)行上采樣,并與下采樣獲取到的5個有效特征層進(jìn)行融合。第三部分為預(yù)測部份,最終獲得的有效特征層利用1×1卷積對每個特征點進(jìn)行分類,相當(dāng)于對每個像素點進(jìn)行分類。上采樣時在第4個有效特征層、第5個有效特征層后運用SE模塊,加強(qiáng)網(wǎng)絡(luò)模型的主要特征提取,抑制無效特征、減少參數(shù)量、大幅提升精度。同時,為防止出現(xiàn)過擬合現(xiàn)象,本研究采用VGG16網(wǎng)絡(luò)在ImageNet[18]數(shù)據(jù)集上得到的預(yù)訓(xùn)練權(quán)重進(jìn)行遷移學(xué)習(xí),運用ImageNet的預(yù)訓(xùn)練權(quán)重進(jìn)行凍結(jié),訓(xùn)練U-Net的解碼器部分,較好地降低模型訓(xùn)練時間。
原始的U-Net網(wǎng)絡(luò)中3×3卷積層沒有使用padding進(jìn)行0的填充策略,這使得每次卷積后的卷積輸出尺寸都會減小,所以,為了方便網(wǎng)絡(luò)的構(gòu)建與更好的通用性,在每個卷積層中都采用padding填充策略,即3×3的卷積填充padding為1,這使得卷積前后特征圖尺寸一致,因此可以利用1×1的卷積進(jìn)行通道調(diào)整,獲得的輸出尺寸與原圖大小一致。
3.3 模型損失函數(shù)
本研究所使用的損失函數(shù)包含交叉熵?fù)p失函數(shù)和Dice Loss損失函數(shù)[17]。交叉熵主要是用來表達(dá)神經(jīng)網(wǎng)絡(luò)輸入和輸出的結(jié)果差異,交叉熵越小代表輸入和輸出的結(jié)果越接近。交叉熵?fù)p失函數(shù)(L)的計算公式如下。
[L=-c=1Mytruelog(ypred)]????? ?? (1)
式中,M表示類別個數(shù);ytrue是One-hot向量,如果該類別和樣本的類別相同取1,不相同取0;ypred表示預(yù)測樣本屬于c類樣本的概率。
Dice Loss是語義分割中常見的評價指標(biāo),用來解決語義分割中正負(fù)樣本極度不平衡的場景[19]。Dice Loss來自Dice coefficient,通常用來評估2個樣本的相似性,其取值范圍在[0,1],Dice coefficient的值(Dice)越大表示越相似,其計算公式如下。
[Dice=2X?YX+Y]??????? ??????? ??(2)
式中,|X∩Y|表示X和Y的交集,|X|和|Y|分別表示Predict mask和Ground truth [15]。
基于Dice coefficient,Dice Loss(LDice)的計算公式如下,LDice越小表示分割網(wǎng)絡(luò)的效果越好。
[LDice=1-2|X?Y||X|+|Y|]?? ? ???(3)
3.4 評價指標(biāo)
為了泛化本研究對冬季休眠期矮化蘋果樹修剪枝條的分割效果。本研究采用平均像素準(zhǔn)確率(Mean pixel accuracy,MPA)、平均交并比(Mean intersection over union,MIoU)、F分?jǐn)?shù)(Fscore)來進(jìn)行評價[16],計算公式如下。
[MPA=1k+1i=0kpiij=0kpij]?????????? ? ??(4)
[MIoU=1k+1i=0kpiij=0kpij+j=0kpji-pii]? ?(5)
[Fscore=2×Precision×RecallPrecision+Recall]?????? ??????? ???(6)
式中,k為類別數(shù);pii為真陽性;pij、pji均為假陽性;i為真實類別;j為預(yù)測類別;Precision為準(zhǔn)確率;Recall為召回率[17]。
4 試驗細(xì)節(jié)與結(jié)果分析
4.1 試驗細(xì)節(jié)
操作系統(tǒng)為Win10,語言環(huán)境為Anaconda3和Python 3.6,CPU為IntelCorei7-9700,GPU為Nvidia GeForce GTX 1660,深度學(xué)習(xí)編譯器為Pycharm。
本研究模型訓(xùn)練選擇Adam優(yōu)化器進(jìn)行端到端訓(xùn)練,采用隨機(jī)梯度下降法訓(xùn)練[18],衰減率設(shè)置為0.92。初始學(xué)習(xí)率設(shè)置為0.000 1,Batchsize設(shè)置為2,訓(xùn)練共進(jìn)行100次迭代循環(huán)。為加快訓(xùn)練速度,本研究使用了U-Net網(wǎng)絡(luò)在VOC 2007數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重[19],在前50個網(wǎng)絡(luò)模型訓(xùn)練循環(huán)中,凍結(jié)VGG16神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練,訓(xùn)練U-Net的解碼器部分,后面50個網(wǎng)絡(luò)模型訓(xùn)練循環(huán)中把所有的網(wǎng)絡(luò)層解凍進(jìn)行全部訓(xùn)練,同時學(xué)習(xí)速率與前50個enpoch保持不變。
4.2 試驗結(jié)果與分析
為了顯示改進(jìn)的U-Net網(wǎng)絡(luò)模型與其他語義分割網(wǎng)絡(luò)模型在測試集上的性能對比。在改進(jìn)U-Net網(wǎng)絡(luò)模型每個解碼器后放置SE模塊的模型稱為SE1網(wǎng)絡(luò)模型,在改進(jìn)U-Net網(wǎng)絡(luò)模型的第四個有效特征層和第五個有效特征層后放置SE模塊的模型稱為SE2網(wǎng)絡(luò)模型。測試集采用原始U-Net網(wǎng)絡(luò)模型、SE1網(wǎng)絡(luò)模型、SE2網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,訓(xùn)練過程中損失函數(shù)變化如圖9所示。
經(jīng)過100個enpoch后,原始U-Net的訓(xùn)練集、測試集的損失值最大,訓(xùn)練集的損失值在0.18時保持平衡;當(dāng)SE1網(wǎng)絡(luò)模型運用VGG16網(wǎng)絡(luò)進(jìn)行特征提取并采用ImageNet預(yù)訓(xùn)練權(quán)重數(shù)據(jù),網(wǎng)絡(luò)模型損失值迅速下降,減少了訓(xùn)練時間,訓(xùn)練集損失值在0.042時保持平衡,模型得到改進(jìn);當(dāng)網(wǎng)絡(luò)模型調(diào)整為SE2網(wǎng)絡(luò)模型時損失值更低。
由表3可知,測試集上SE2網(wǎng)絡(luò)模型的MIoU、MPA均大于原始U-Net網(wǎng)絡(luò)模型;在SE2網(wǎng)絡(luò)模型中,當(dāng)r=8時測試集的MIoU、測試集的MPA、訓(xùn)練集的Fscore、測試集的Fscore均最大,分別為89.59%、94.17%、0.942 806、0.944 506。SE2網(wǎng)絡(luò)模型(r=8)的分割效果較好,如圖10所示;將其在試驗臺上進(jìn)行性能驗證,如圖11所示,結(jié)果表明SE2網(wǎng)絡(luò)模型(r=8)分割性能較好。
5 小結(jié)
為滿足對目標(biāo)特征提取的需求,在原始U-Net網(wǎng)絡(luò)模型的基礎(chǔ)上對下采樣部分采用遷移學(xué)習(xí)的VGG16網(wǎng)絡(luò),通過SEnet模塊提取重要信息,抑制非重要信息,并且討論了r的取值對改進(jìn)網(wǎng)絡(luò)模型性能的影響,從而構(gòu)建改進(jìn)的U-Net網(wǎng)絡(luò)模型(SE2,r=8),該模型在測試數(shù)據(jù)集上的MIoU為89.59%,MPA為94.17%,比原始U-Net網(wǎng)絡(luò)模型性能有所提高,可以滿足對冬季枝剪樹木圖像分割的要求。后續(xù)將在時間序列上進(jìn)行數(shù)據(jù)集的擴(kuò)充,進(jìn)一步提高模型的性能[20],通過語義分割二維圖像,進(jìn)而將分割后的圖像進(jìn)行骨架提取,并求解修剪點,將二維坐標(biāo)映射到三維中,最終提取三維坐標(biāo),通過機(jī)械臂去執(zhí)行該三維坐標(biāo)點,此方法可以為實現(xiàn)自動化修剪提供參考。
參考文獻(xiàn):
[1] 周曉雄. 阿克蘇地區(qū)林果產(chǎn)業(yè)發(fā)展現(xiàn)狀與對策[D].新疆塔里木:塔里木大學(xué),2021.
[2] 張秀莉. 蘋果紡錘形改造為主干形的技術(shù)與效果[D].新疆塔里木:塔里木大學(xué),2017.
[3] 劉 慧,朱晟輝,沈 躍,等. 基于多特征融合的樹干快速分割算法[J].農(nóng)業(yè)機(jī)械學(xué)報,2020,51(1):221-229.
[4] MOMTANU C,KHOT L R,SINDHUJN S. Evaluation of mobile 3D light detection and ranging based canopy mapping system for tree fruit crops[J]. Computers and electronics in agriculture, 2019, 158:10.
[5] HAMUDA E,GLAVIN M,JONES E. A survey of image processing techniques for plant extraction and segmentation in the field[J]. Computers and electronics in agriculture,2016,18:121-126.
[6] 黃 彪. 枇杷剪枝機(jī)器人關(guān)鍵技術(shù)的研究[D].廣州:華南理工大學(xué),2016.
[7] 嚴(yán)亞飛. 智能枸杞采摘機(jī)器人枝條識別與定位關(guān)鍵技術(shù)研究[D].合肥:合肥工業(yè)大學(xué),2019.
[8] WU C Y, YANG L Y.3D reconstruction of Chinese hickory tree for dynamics analysis[J]. Biosystems engineering, 2014, 119:11.
[9] SPECKMANN H. Providing measured position data for agricultural machinery[J]. Computers and electronics in agriculture, 2000,??? 25(1):13-16.
[10] 衛(wèi)長秋,崔建榮,馬海紅,等. 蘋果紡錘形改造成高光效樹形的技術(shù)要點[J].山西果樹,2007(6):46.
[11] KEIR E, KEIGHTLE Y, GERALD W, et al. 3D volumetric modeling of grapevine biomass using tripod LiDAR[J]. Computers and electronics in agriculture, 2010, 74(2):8.
[12] FRED W,MITCH B. Graph-based methods for analyzing orchard tree structure using noisy point cloud data[J]. Computers and electronics in agriculture, 2021, 187:16-21.
[13] 郝 婕,索相敏,李學(xué)營,等. 短枝富士蘋果樹體結(jié)構(gòu)及相關(guān)因素分析[J].河北農(nóng)業(yè)科學(xué),2016,20(3):17-19.
[14] CHEN Y, XIONG Y J. 3D point cloud semantic segmentation toward large-scale unstructured agricultural classification[J]. Computers and electronics in agriculture, 2021, 190:198-222.
[15] FU L S, GAO F. Application of consumer RGB-D cameras for fruit detection and localization in field: A critical review[J]. Computers and electronics in agriculture, 2020, 75(6):177-178.
[16] 劉 晨. 基于機(jī)器視覺工件尺寸的高精度測量技術(shù)研究[D].長春:長春工業(yè)大學(xué),2020.
[17] CHOLLET F. Deep learning with depth separable convolutions[J]. American journal of cardiology, 2016, 50:1006-1012.
[18] 楊 璟,朱 雷.基于RGB顏色空間的彩色圖像分割方法[J].計算機(jī)與現(xiàn)代化,2010(8):147-149,171.
[19] 張亞輝. 基于Faster R-CNN目標(biāo)檢測的機(jī)器人抓取系統(tǒng)研究[D].合肥:中國科學(xué)院深圳先進(jìn)技術(shù)研究院,2019.
[20] 李建坤. 基于圖像SURF特征的電路板缺陷自動檢測系統(tǒng)[D].西安:西北大學(xué),2020.