基于多尺度特征融合和密集連接網(wǎng)絡(luò)的疏果期黃花梨植株圖像分割

2021-09-17 00:19:47魏超宇韓文龐程劉輝軍

江蘇農(nóng)業(yè)學(xué)報 2021年4期

關(guān)鍵詞：圖像分割

魏超宇韓文龐程劉輝軍

摘要：由于自然環(huán)境下果蔬植株的果實、枝干和葉片等目標(biāo)尺度不一、邊緣不規(guī)則，因此造成其準(zhǔn)確分割較為困難。針對該問題，提出1種多尺度特征融合和密集連接網(wǎng)絡(luò)（Multi-scale feature fusion and dense connection networks，MDNet）以實現(xiàn)黃花梨疏果期植株圖像的準(zhǔn)確分割。在研究中借鑒了編碼-解碼網(wǎng)絡(luò)，其中編碼網(wǎng)絡(luò)采用DenseNet對多層特征進(jìn)行復(fù)用和融合，以改善信息傳遞方式;解碼網(wǎng)絡(luò)使用轉(zhuǎn)置卷積進(jìn)行上采樣，結(jié)合跳層連接融合淺層細(xì)節(jié)信息與深層語義信息;在編碼、解碼之間加入空洞空間金字塔池化（Atrous spatial pyramid pooling，ASPP）用于提取不同感受野的特征圖以融合多尺度特征，聚合上下文信息。結(jié)果表明，ASPP有效提高了模型的分割精度，MDNet在測試集上的平均局域重合度（MIoU）為77.97%，分別較SegNet、Deeplabv2和DNet提高了8.10個、5.77個和2.17個百分點，果實、枝干和葉片的像素準(zhǔn)確率分別為93.57%、90.31%和95.43%，實現(xiàn)了黃花梨植株果實、枝干和葉片等目標(biāo)的準(zhǔn)確分割。在翠冠梨植株圖像的獨立測試中，MIoU為70.93%，表明該模型具有較強的泛化能力，對自然環(huán)境下果蔬植株圖像的分割有一定的參考價值。

關(guān)鍵詞：黃花梨植株;多尺度特征融合;密集連接網(wǎng)絡(luò);圖像分割;空洞空間金字塔池化（ASPP）;感受野

中圖分類號： TP391.4?? 文獻(xiàn)標(biāo)識碼： A?? 文章編號： 1000-4440（2021）04-0990-08

Image segmentation of Huanghua pear plants at fruit-thinning stage based on multi-scale feature fusion and dense connection network

WEI Chao-yu， HAN Wen， PANG Cheng， LIU Hui-jun

（College of Metrological Technology and Engineering， China Jiliang University， Hangzhou 310018， China）

Abstract： ?As the fruits， branches and leaves of fruit and vegetable plants vary in scales and margins under natural environment， it is difficult to segment them accurately. To solve the problem， a multi-scale feature fusion and dense connection network （MDNet） was proposed to achieve the accurate segmentation of Huanghua pear images at fruit-thinning stage. The coding-decoding network was adopted in this study and DenseNet was adopted to reuse and fuse multi-layer features in the coding network， so as to improve the transfer mode of information. The transposed convolution was used to carry out up-sampling in the decoding network， and the skip-layer connection was also employed to fuse shallow detail information and deep semantic information. The atrous spatial pyramid pooling （ASPP） was added between coding and decoding to extract future maps with different receptive fields so as to fuse multi-scale feature and aggregate context information. The results showed that ASPP improved the segmentation accuracy of the MDNet model effectively. The mean intersection over union （MIoU） of the MDNet on the test set was 77.97%， improved by 8.10， 5.77 and 2.17 percentage points respectively compared with SegNet， Deeplabv2 and DNet. The pixel accuracy for fruits， branches and leaves was 93.57%， 90.31% and 95.43%， respectively. Therefore， the accurate segmentation of fruits， branches and leaves of Huanghua pear plants was realized. The MIoU was 70.93% in the independent test of Cuiguan pear plants images， indicating that the model had strong generalization ability and was particularly valuable for the image segmentation of fruit and vegetable plants in natural environment.

Key words： Huanghua pear plants;multi-scale feature fusion;dense connection network;image segmentation;atrous spatial pyramid pooling （ASPP）;receptive field

植株分割對于作物表型信息獲取、生長狀態(tài)監(jiān)測和自動采收等具有重要意義。目前，機器視覺技術(shù)已廣泛用于小麥[1]、水稻[2]和玉米[3]等大田作物的分割。果蔬多采用矮株密植，冠層結(jié)構(gòu)復(fù)雜，在自然環(huán)境下，存在果葉近色、光照度不均、枝葉遮擋和尺度不一等問題，使得對其果實、枝干和葉片等部位的準(zhǔn)確分割具有挑戰(zhàn)性。黃花梨是中國南方地區(qū)廣泛種植的優(yōu)質(zhì)水果，本研究選擇標(biāo)準(zhǔn)化商業(yè)果園的疏果期黃花梨植株作為研究對象，以期為研究大宗果蔬植株的分割提供參考。

果蔬植株的分割是智能農(nóng)業(yè)領(lǐng)域的研究熱點之一。Cheng等[4]利用白色幕布簡化了蘋果植株的背景，在YCbCr顏色空間依次設(shè)定閾值分割出果實和葉片，并根據(jù)果實數(shù)量、面積及果葉比等參數(shù)建立了估產(chǎn)模型。趙德安等[5]通過白熾燈照明削弱了圖像中的陰影，將色差法分割結(jié)果與二次分割得到的果實高亮反光區(qū)域進(jìn)行融合，提出了一種適用于夜間的蘋果識別方法。Zhang等[6]將簡單線性迭代聚類（Simple linear iterative clustering，SLIC）與K-means聚類方法結(jié)合，提出了一種針對黃瓜植株的病害葉片分割方法，其中對炭疽病葉片的像素識別準(zhǔn)確率達(dá)到了92.15%。Zemmour等[7]提出了一種多顏色空間融合的自適應(yīng)閾值分割方法，在自然環(huán)境下對黃椒分割的F1值為99.31%，對綠葡萄分割的F1值為73.52%。此類基于特征工程的方法，在二元分類問題中可以取得較高的精度，但是對多類分割問題的研究較少，其特征設(shè)計過程復(fù)雜、費時，依賴于目標(biāo)的顏色、紋理和形態(tài)等特征，且多需要特定的環(huán)境條件約束，在非結(jié)構(gòu)化環(huán)境下，該方法難以保證魯棒性。

近年來，深度卷積神經(jīng)網(wǎng)絡(luò)（Deep convolutional neural networks，DCNN）發(fā)展迅速，其可直接將原始圖像作為輸入，通過自學(xué)習(xí)提取特征，表現(xiàn)出了優(yōu)異的泛化性，在圖像分類、目標(biāo)檢測和語義分割等領(lǐng)域取得了巨大成就[8]。其中，R-FCN、YOLO和SSD等主流目標(biāo)檢測網(wǎng)絡(luò)已經(jīng)在果蔬領(lǐng)域得到了應(yīng)用，有效提高了遮擋、陰影和果葉近色等復(fù)雜條件下果實的檢測和定位精度[9-10]。然而，目標(biāo)檢測的框選方式不能反映果蔬植株中果、枝、葉目標(biāo)的輪廓與姿態(tài)等信息。語義分割是對圖像進(jìn)行像素級分類，融合了圖像分割和目標(biāo)檢測2個任務(wù)[11]，適用于多類分割問題。典型的語義分割網(wǎng)絡(luò)多采用編碼-解碼結(jié)構(gòu)，如FCN[12]、SegNet[13]和DeepLab[14]等。Lin等[15]利用FCN對綠色番石榴果實和枝干進(jìn)行分割，并根據(jù)分割結(jié)果估計果實的姿態(tài)，指導(dǎo)機器人采摘。Majeed等[16]為了進(jìn)行落葉期蘋果植株的自動整枝，從點云數(shù)據(jù)中獲取植株的深度信息和紅綠藍(lán)（Red-green-blue，RGB）圖像，在利用深度信息去除背景中的植株后，使用SegNet對顏色近似的樹干、樹枝進(jìn)行語義分割，像素準(zhǔn)確率分別為92%、93%。Ambrozio等[17]提出了1種基于Deeplab的自然環(huán)境下蘋果花語義分割的方法，結(jié)果顯示，IoU（Intersection over union）為71.4%，在對梨花、桃花圖像的測試中也取得了優(yōu)異的效果，表明該模型具有較強的泛化能力。Kang等[18]設(shè)計了1種多功能網(wǎng)絡(luò)DASNet-V2，可在對果實進(jìn)行檢測的同時對枝干進(jìn)行語義分割，在不同時間段拍攝的圖像上的測試結(jié)果表明，模型對光照具有較強的魯棒性，最后通過對RGB-D圖像進(jìn)行點云可視化，實現(xiàn)了植株的三維重建?？傮w看出，基于DCNN的語義分割有利于克服人工設(shè)計特征的不足，減少果葉近色和環(huán)境光照的影響，提高非結(jié)構(gòu)化環(huán)境下果蔬植株的分割精度。

植株圖像分割過程中果、枝、葉等目標(biāo)的細(xì)節(jié)信息有助于農(nóng)業(yè)機器人更好地感知和理解復(fù)雜的植株環(huán)境，提高目標(biāo)的定位精度，并減少對植株的損傷。DCNN通過卷積與池化交替的方式進(jìn)行連續(xù)的下采樣，具有空間上的平移不變性，對位置信息不敏感，有利于圖像分類，但是對于語義分割是不利的，會丟失目標(biāo)的細(xì)節(jié)信息，使得目標(biāo)邊緣過于平滑。并且大多數(shù)語義分割網(wǎng)絡(luò)檢測尺度單一，存在大目標(biāo)過分割和小目標(biāo)丟失[19]的問題。此外，果蔬植株中果、枝、葉等目標(biāo)邊緣不規(guī)則、尺度不一，又由于相互間的遮擋，目標(biāo)形態(tài)往往變得更為復(fù)雜，使得果蔬植株的語義分割較為困難。

DenseNet[20]采用密集連接實現(xiàn)了多層特征的復(fù)用和融合，有利于改善信息的傳遞方式。跳層連接可融合淺層細(xì)節(jié)信息與深層語義信息[12]?？斩纯臻g金字塔池化（ASPP）[21]則通過多個并行的空洞卷積得到不同感受野的特征圖并將其融合，可提取多個尺度上的特征。因此，本研究利用ASPP提取并融合多尺度特征，結(jié)合DenseNet和跳層連接恢復(fù)細(xì)節(jié)信息，提出了1種基于編碼-解碼結(jié)構(gòu)的密集連接網(wǎng)絡(luò)（MDNet），并分別在疏果期黃花梨、翠冠梨植株數(shù)據(jù)集上進(jìn)行了測試。

1 數(shù)據(jù)與方法

1.1 圖像采集

試驗果園位于杭州市錢塘江南岸（地理位置為120.30°E、30.26°N），為國家級蜜梨標(biāo)準(zhǔn)化示范基地。圖像采集時間為2018年6月上旬，此時黃花梨植株正值疏果期，并已完成初次疏果，其冠層枝葉遮擋嚴(yán)重，果、葉均呈近綠色，果徑約為40 mm，具有一定的代表性。圖像采集設(shè)備為FUJIFILM F47fd佳能數(shù)碼相機，圖像分辨率為3 488像素×2 616像素，圖像保存格式為JPEG。圖像采集時，為了模擬機器人作業(yè)環(huán)境，采用三腳架將相機固定于植株行間，相機至主枝干的水平距離約為1.2 m，高度隨植株冠層的分布而調(diào)整。同期采集了翠冠梨植株圖像，用于測試模型的泛化能力。

1.2 數(shù)據(jù)集的制作

共采集400幅黃花梨植株圖像，隨機選取250幅組成訓(xùn)練集，50幅組成驗證集，其余100幅組成測試集;共采集160幅翠冠梨植株圖像，全部作為獨立測試集。為了減少試驗的運行時間，將圖像分辨率縮小至872像素×654像素。圖1為數(shù)據(jù)集的制作過程，根據(jù)植株的特點，利用Labelme將圖像標(biāo)注為果實、枝干、葉片和背景（包括草地、天空和遠(yuǎn)景中的黃花梨植株等）等4個類別，并將不同類別的像素值映射為不同顏色，得到標(biāo)注圖像（圖1b）?？梢钥闯?，果、枝、葉等目標(biāo)的邊緣不規(guī)則，目標(biāo)之間的尺度變化較大。

針對果園中光照復(fù)雜多變和枝葉姿態(tài)不定的問題，分別采用亮度變換、圖像旋轉(zhuǎn)處理對訓(xùn)練集進(jìn)行數(shù)據(jù)增強。其中亮度變化處理將圖像亮度隨機調(diào)整為原始亮度的50%～150%，圖像旋轉(zhuǎn)處理則對圖像進(jìn)行 ± 30°的隨機旋轉(zhuǎn)。數(shù)據(jù)增強后，訓(xùn)練集圖像數(shù)量增加為原來的3倍，共750張。由于網(wǎng)絡(luò)的下采樣倍率為16，輸入的圖像高度、寬度須是16的倍數(shù)，因此將圖像隨機裁剪為512像素×512像素。對于旋轉(zhuǎn)后的圖像，僅對其中心部分進(jìn)行裁剪，以避免引入黑色邊緣中的無關(guān)像素，詳見圖1c、圖1d和圖1e。

1.3 基于MDNet的黃花梨植株分割網(wǎng)絡(luò)

MDNet由編碼網(wǎng)絡(luò)、ASPP和解碼網(wǎng)絡(luò)共3個部分組成，網(wǎng)絡(luò)結(jié)構(gòu)見圖2。首先，編碼網(wǎng)絡(luò)對輸入的植株圖像進(jìn)行特征提取。然后，ASPP通過提取不同感受野的特征圖進(jìn)一步融合多尺度特征。最后，解碼網(wǎng)絡(luò)對特征圖進(jìn)行上采樣，實現(xiàn)像素的分類，輸出分割結(jié)果。

1.3.1 編碼網(wǎng)絡(luò) 目前，AlexNet、VGG等源于圖像分類任務(wù)的網(wǎng)絡(luò)已被用于語義分割，其通過卷積與池化進(jìn)行特征提取。池化層可以增加輸出神經(jīng)元的感受野大小，從而提取更為抽象的特征，但是過多的池化層也會使特征圖的分辨率銳減，導(dǎo)致細(xì)節(jié)信息丟失，這對語義分割而言是非常不利的。

DenseNet借鑒殘差結(jié)構(gòu)，在卷積層間增加了密集連接，具有特征復(fù)用和深層監(jiān)督的特點[20]，優(yōu)化了信息傳遞方式，有利于果蔬植株細(xì)節(jié)信息的傳遞。DenseNet有5個池化層，為了減少細(xì)節(jié)信息的丟失以更適于果蔬植株的語義分割任務(wù)，本研究刪去了其中最后1個池化層。

DenseNet由密集塊（Dense block，DB）與下采樣（Transition down，TD）構(gòu)成。TD由1×1卷積層和2×2最大池化層組成，DB中第i層的輸出Xi可表示為如下公式：

Xi=Hi（[X0，X1，…，Xi-1]）（1）

式中，Hi為非線性變換，由BN層、ReLU激活函數(shù)和3×3的卷積層組成，[X0，X1，…，Xi-1]表示第0層到第i-1層輸出特征圖的疊加。經(jīng)Hi輸出的特征圖數(shù)量為k，稱為增長率（本研究中k為12）。令X0的特征圖數(shù)量為k0，則DB輸出的特征圖數(shù)量為k0+（i-1）×k。圖3是1個3層DB的結(jié)構(gòu)示意，其中“”表示特征圖的疊加。

1.3.2 空洞空間金字塔池化（ASPP） ASPP的主要結(jié)構(gòu)為空洞卷積，空洞卷積可在不降低特征圖分辨率的前提下增大感受野，其一維公式如下：

y[i]=Nn-1x[i+dn]·w[n]（2）

式中，y[i]為輸出;x[i]為輸入;N為卷積核大小;w[n]為卷積核中第n個參數(shù);d為空洞率，表示在卷積核的2個連續(xù)值之間插入d-1個空洞。

大小為N、空洞率為d的卷積核獲得的感受野（R）[22]可表示為如下公式：

R=（d-1）×（N-1）+N（3）

如圖4a所示，當(dāng)d為1時（即標(biāo)準(zhǔn)卷積），輸出神經(jīng)元的感受野較小，更關(guān)注局部信息，上層信息被利用多次，冗余信息較多[22]。圖4b為d=2的空洞卷積，空洞卷積允許卷積核與間隔為d-1的輸入神經(jīng)元進(jìn)行運算，可以在不增加參數(shù)的情況下增大每個輸出神經(jīng)元的感受野，有利于利用全局信息、聚合上下文信息。

經(jīng)空洞卷積輸出的特征圖具有固定的感受野，只能利用單一尺度上的特征[23]。ASPP采用多個不同的空洞卷積得到不同感受野的特征圖并將其融合，以提取多尺度特征。如圖2所示，ASPP結(jié)構(gòu)包含4個并行分支，每個分支中卷積的空洞率不同，相應(yīng)輸出特征圖的感受野也不同，可以提取不同尺度上的特征。各分支上特征圖的通道數(shù)均為256個，疊加后得到通道數(shù)為1 024個的特征圖，包含多個尺度的信息，最后采用1×1卷積進(jìn)行跨通道信息的融合和降維。

果蔬植株上果、枝、葉等目標(biāo)尺度不一，經(jīng)ASPP輸出的特征圖的感受野變得更大，尺度范圍也更廣，可在多個尺度進(jìn)行特征提取，以聚合更多的上下文信息，實現(xiàn)果蔬植株的多尺度檢測。由于不同分割任務(wù)的目標(biāo)尺度范圍不同，因此空洞率的設(shè)置需要根據(jù)具體情況進(jìn)行討論。

1.3.3 解碼網(wǎng)絡(luò) 解碼網(wǎng)絡(luò)采用DB與上采樣（Transition up，TU）結(jié)合的方式進(jìn)行，將特征圖分辨率恢復(fù)至原圖大小。TU為步長為2的3×3轉(zhuǎn)置卷積，卷積核數(shù)量設(shè)置為（i-1）×k，以避免上采樣過程中特征圖通道數(shù)的快速增長。為了更好地恢復(fù)細(xì)節(jié)信息，在解碼過程中加入了跳層連接，將編碼中的DB輸出與解碼中對應(yīng)的TU輸出疊加，以實現(xiàn)淺層細(xì)節(jié)信息與深層語義信息的融合，最后通過1×1卷積輸出分辨率為原圖大小、通道數(shù)為類別數(shù)（在本研究中類別數(shù)為4）的特征圖，之后對每個像素進(jìn)行分類，并將交叉熵作為損失函數(shù)。

2 結(jié)果與分析

本試驗在Windows 10系統(tǒng)下運行，基于NVIDIA GTX1080Ti GPU的硬件平臺搭建Tensorflow深度學(xué)習(xí)框架，Python版本為3.6。設(shè)置超參數(shù)批尺寸為2，學(xué)習(xí)率為0.001，每經(jīng)過1個epoch，乘以衰減系數(shù)0.995以更新學(xué)習(xí)率，epoch設(shè)置為150。梯度下降方式采用均方根傳遞（Root mean square prop，RMSP），以減小梯度下降時的振幅，加速訓(xùn)練。遷移學(xué)習(xí)是常用的學(xué)習(xí)方法，可有效提高模型的精度。由于MDNet模型的特征提取網(wǎng)絡(luò)是基于DenseNet改進(jìn)的，目前未有公開的預(yù)訓(xùn)練模型可供遷移學(xué)習(xí)，因此其權(quán)重初始化采用常用的Xavier方式。

2.1 評價指標(biāo)

評價指標(biāo)[24]采用類別像素準(zhǔn)確率（wj）、統(tǒng)計像素準(zhǔn)確率（PA）和平均區(qū)域重合度（MIoU），各指標(biāo)的定義見下式：

wj=pjjc-1j=0pjm（4）

PA=c-1j=0pjjc-1j=0c-1m=0pjm（5）

MIoU=1cc-1j=0pjjc-1m=0pjm+c-1m=0pmj-pjj（6）

式中，pjm為本屬于j類卻被預(yù)測為m類的像素點數(shù)量，c為類別數(shù);MIoU反映了分割結(jié)果的完整性和準(zhǔn)確性，常被用作最終的評價指標(biāo)。

2.2 空洞空間金字塔池化參數(shù)對模型的影響

為了考察ASPP的有效性并確定最佳空洞率，本研究對比了模型在不同空洞率參數(shù)下的訓(xùn)練損失曲線和分割結(jié)果，分別見圖5和表1，其中DNet模型無ASPP結(jié)構(gòu)。

不同分割任務(wù)的目標(biāo)尺度范圍不同，因此需要尋找最佳空洞率?？斩绰蔬^小，經(jīng)ASPP輸出的特征圖感受野尺度分布范圍也較小，對于較大目標(biāo)的分割效果可能較差?？斩绰蔬^大，感受野尺度分布范圍也較大，但是不同感受野之間過于稀疏，不能充分提取特征，分割效果也會變差。

從圖5、表1可以看出，ASPP的加入可使模型的訓(xùn)練損失達(dá)到更低的收斂值，有效提高了模型的分割精度，其中MDNet（ASPP-6）的MIoU最高，表明該空洞率較適合黃花梨植株分割任務(wù)。由公式（3）可知，ASPP-6空洞率對應(yīng)的4種感受野分別為1、13、25和37，經(jīng)ASPP-6輸出的特征圖感受野變得更大、尺度范圍更廣，可在多個尺度上提取特征。以下關(guān)于MDNet的討論均基于MDNet（ASPP-6）模型。

DNet、MDNet的分割結(jié)果示例分別見圖6e、圖6f。在第1行場景中，兩者均準(zhǔn)確分割了較小的果實，效果較為接近。在第2行場景中，上方存在較大且表面有陰影的果實，其局部特征與枝干特征相似。DNet的感受野相對較小，僅關(guān)注目標(biāo)的局部信息，導(dǎo)致將該果實的一部分誤判為枝干。而MDNet通過ASPP融合多個尺度上的特征，聚合了上下文信息，利用目標(biāo)像素與周圍像素的聯(lián)系，實現(xiàn)了該果實的準(zhǔn)確分割。在第3行場景中，由于DNet更關(guān)注局部信息，因此難以區(qū)分遠(yuǎn)處植株葉片與當(dāng)前植株葉片。而MDNet的感受野更大、范圍更廣，能夠提取更抽象的特征，因而較好地區(qū)分了當(dāng)前植株與背景，減少了背景的干擾。

2.3 不同模型的語義分割結(jié)果比較

為了進(jìn)一步驗證MDNet模型對黃花梨植株分割的有效性，本研究將其與SegNet、Deeplabv2和DNet等模型在測試集上的分割結(jié)果進(jìn)行對比分析。

從表2可以看出，MDNet模型的精度最高，其MIoU、PA分別為77.97%和93.31%，果實、枝干和葉片的像素準(zhǔn)確率分別為93.57%、90.31%和95.43%。MDNet模型的MIoU分別較SegNet、Deeplabv2和DNet模型提高了8.10個、5.77個、2.17個百分點。由于背景包含草地、天空和遠(yuǎn)景中的植株等，目標(biāo)多且差異大，不同模型的果實、枝干和葉片的像素準(zhǔn)確率均高于背景。

從圖6可以看出，不同模型均克服了果葉近色的問題。圖6c為SegNet的分割結(jié)果，可見網(wǎng)絡(luò)有5個池化層，細(xì)節(jié)信息丟失嚴(yán)重，分割結(jié)果中果、枝、葉的邊緣較粗糙，第1行場景中未分割出上方較小的果實，第2行場景中的果實及第3行場景中的背景均被錯誤分割，不同類別像素的準(zhǔn)確率均為模型中最低的。

Deeplabv2與MDNet均采用了ASPP融合多尺度特征，較準(zhǔn)確地分割了不同尺度的果、枝、葉目標(biāo)，詳見圖6d、圖6f，但Deeplabv2采用雙線性插值進(jìn)行上采樣，不能較好地恢復(fù)目標(biāo)的細(xì)節(jié)信息[23]，從分割結(jié)果可以看出，果實之間產(chǎn)生了粘連，果、枝、葉邊緣多被平滑處理，失去了原有細(xì)節(jié)。MDNet采用DenseNet作為特征提取網(wǎng)絡(luò)，對多層特征進(jìn)行復(fù)用和融合，優(yōu)化了信息傳遞方式，并通過跳層連接融合淺層細(xì)節(jié)信息與深層語義信息，可有效地保留并恢復(fù)細(xì)節(jié)信息。MDNet的分割結(jié)果較Deeplabv2具有更好的細(xì)節(jié)性，目標(biāo)的邊緣均得到了準(zhǔn)確分割，如圖6中第2行場景中的樹干;此外，MDNet的MIoU也超過Deeplabv2。

綜上，本研究提出的MDNet，通過ASPP提取不同感受野的特征圖以融合多尺度特征，增強多尺度目標(biāo)檢測能力，并結(jié)合DenseNet網(wǎng)絡(luò)和跳層連接恢復(fù)細(xì)節(jié)信息，優(yōu)化了邊緣分割，有效地提高了非結(jié)構(gòu)化環(huán)境下黃花梨植株的語義分割精度。

2.4 對翠冠梨植株的語義分割

為了進(jìn)一步考察MDNet模型的泛化能力，采用160幅同期翠冠梨植株圖像對模型進(jìn)行了獨立測試，MIoU達(dá)到了70.93%。圖7a為輸入的原圖，可見翠冠梨植株與黃花梨植株的冠層結(jié)構(gòu)較為相似，果實呈扁圓形，略小于同期的黃花梨果實，果、葉顏色更為相近。由圖7b、圖7c可以看出，在不同光照條件下，翠冠梨枝干與葉片均具有較好的細(xì)節(jié)。由于翠冠梨顏色、形態(tài)的差異，使得翠冠梨果實的邊緣信息不同程度地丟失，但多數(shù)果實得到了有效檢測。草地、天空和遠(yuǎn)景中的植株也較準(zhǔn)確地被分類為背景。由此可見，所建模型對疏果期翠冠梨植株也有較好的分割效果，具有較強的泛化能力。

3 討論

本研究采用ASPP提取并融合多尺度特征，結(jié)合DenseNet網(wǎng)絡(luò)與跳層連接，提出了1種基于MDNet的果蔬植株語義分割方法。在疏果期黃花梨植株數(shù)據(jù)集上的試驗結(jié)果表明，ASPP通過提取不同感受野的特征圖融合多尺度特征，聚合了上下文信息，提高了黃花梨植株的語義分割精度，當(dāng)空洞率為1、6、12和18時，MDNet模型的分割精度最高。所建模型MDNet有效克服了自然條件下果葉近色、光照度不均、枝葉遮擋及尺度不一等問題的影響，且較好地保留了植株的細(xì)節(jié)信息。在黃花梨植株測試集上，該模型的MIoU為77.97%，效果優(yōu)于SegNet、Deeplabv2和DNet等模型;在翠冠梨植株獨立測試集上，該模型的MIoU達(dá)到70.93%，表現(xiàn)出較強的泛化能力。本研究所提方法對自然環(huán)境下果蔬植株的分割有一定參考價值。后續(xù)將研究在該方法的基礎(chǔ)上結(jié)合點云信息來實現(xiàn)植株的三維重建，從而提高農(nóng)業(yè)機器人對復(fù)雜植株環(huán)境的感知和理解水平。

參考文獻(xiàn)：

[1] GUO W， RAGE U K， NINOMIYA S. Illumination invariant segmentation of vegetation for time series wheat images based on decision tree model[J]. Computers and Electronics in Agriculture， 2013， 96： 58-66.

[2] XIONG X， DUAN L F， LIU L B， et al. Panicle-SEG： a robust image segmentation method for rice panicles in the field based on deep learning and superpixel optimization[J]. Plant Methods， 2017， 13（1）： 104.

[3] 蘇偉，蔣坤萍，郭浩，等. 地基激光雷達(dá)提取大田玉米植株表型信息[J].農(nóng)業(yè)工程學(xué)報，2019，35（10）： 125-130.

[4] CHENG H， DAMEROW L， BLANKE M， et al. ANN model for apple yield estimation based on feature of tree image[J]. Transactions of the Chinese Society for Agricultural Machinery， 2015， 46（1）： 14-19.

[5] 趙德安，劉曉洋，陳玉，等. 蘋果采摘機器人夜間識別方法[J].農(nóng)業(yè)機械學(xué)報，2015，46（3）： 15-22.

[6] ZHANG S W， WANG H X， HUANG W Z， et al. Plant diseased leaf segmentation and recognition by fusion of superpixel， K-means and PHOG[J]. Optik， 2017， 157： 866-872.

[7] ZEMMOUR E， KURTSER P， EDAN Y. Automatic parameter tuning for adaptive thresholding in fruit detection[J]. Sensors， 2019， 19（9）， 2130-2151.

[8] 盧宏濤，張秦川. 深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理，2016，31（1）： 1-17.

[9] 王丹丹，何東健. 基于R-FCN深度卷積神經(jīng)網(wǎng)絡(luò)的機器人疏果前蘋果目標(biāo)的識別[J].農(nóng)業(yè)工程學(xué)報，2019，35（3）： 156-163.

[10]薛月菊，黃寧，涂淑琴，等. 未成熟芒果的改進(jìn)YOLOv2識別方法[J].農(nóng)業(yè)工程學(xué)報，2018，34（7）： 173-179.

[11]魏云超，趙? 耀. 基于DCNN的圖像語義分割綜述[J].北京交通大學(xué)學(xué)報（自然科學(xué)版），2016，40（4）： 82-91.

[12]LONG J， SHELHAMER， DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE. IEEE conference on computer vision and pattern recognition. Seoul， Korea： IEEE， 2015： 3431-3440.

[13]BADRINARAYANAN V， KENDALL A， CIPOLLA R. SegNet： a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39： 2481-2495.

[14]CHEN L C， PAPANDREOU G， KOKKINOS I， et al. DeepLab： semantic image segmentation with deep convolutional nets， atrous convolution， and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2018， 40（4）： 834-848.

[15]LIN G C， TANG Y C， ZOU X J， et al. Guava detection and pose estimation using a low-cost RGB-D sensor in the field[J]. Sensors， 2019， 19（2）： 428-443.

[16]MAJEED Y， ZHANG J， ZHANG X， et al. Apple tree trunk and branch segmentation for automatic trellis training using convolutional neural network based semantic segmentation[J]. International Federation of Automatic Control， 2018， 51（17）： 75-80.

[17]AMBROZIO D P， AMY T， HENRY M. Multi-species fruit flower detection using a refined semantic segmentation network[J]. IEEE Robotics and Automation Letters， 2018， 3（4）： 3003-3010.

[18]KANG H W， CHEN C. Fruit detection， segmentation and 3D visualisation of environments in apple orchards[J]. Computers and Electronics Agriculture， 2020， 171： 1016-1033.

[19]NOH H， HONG， HAN B. Learning deconvolution network for semantic segmentation[C]//IEEE. IEEE international conference on computer vision. Los Alamitos， USA： IEEE Computer Society Press， 2015： 1520-1528.

[20]HUANG G， LIU Z， WEINBERGER K Q， et al. Densely connected convolutional networks[C]//IEEE. IEEE conference on computer vision and pattern recognition. Honolulu， USA： IEEE， 2016： 4700-4708.

[21]CHEN L C， PAPANDREOU G， KOKKINOS I， et al. Semantic image segmentation with deep convolutional nets and fully connected crfs[J]. International Conference on Learning Representations， 2014（4）：357-361.

[22]徐子豪，黃偉泉，王胤. 基于深度學(xué)習(xí)的監(jiān)控視頻中多類別車輛檢測[J].計算機應(yīng)用，2019，39（3）：700-705.

[23]YANG M K， YU K， ZHANG C， et al. DenseASPP for semantic segmentation in street scenes[C]//IEEE. IEEE computer society conference on computer vision and pattern recognition.? Piscataway， NJ： IEEE Press， 2018： 3684-3692.

[24]李云伍，徐俊杰，劉得雄，等. 基于改進(jìn)空洞卷積神經(jīng)網(wǎng)絡(luò)的丘陵山區(qū)田間道路場景識別[J].農(nóng)業(yè)工程學(xué)報，2019，35（7）： 150-159.

（責(zé)任編輯：徐艷）

收稿日期：2020-10-13

基金項目：國家自然科學(xué)基金項目（51606181）;國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目（201910356009）

作者簡介：魏超宇（1995-），男，浙江嘉興人，碩士研究生，研究方向為計算機視覺、深度學(xué)習(xí)等。（E-mail）P1802085258@cjlu.edu.cn

通訊作者：劉輝軍，（E-mail）liuhj@cjlu.edu.cn