錢文秀, 常 青, 向 輝, 康文斌
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
近年來,中國的草莓種植面積逐步擴(kuò)大,草莓采摘是整個(gè)草莓生產(chǎn)過程中最耗時(shí)、耗力的環(huán)節(jié)之一,約占整個(gè)生產(chǎn)過程勞動(dòng)總量的50%[1],因此草莓的自動(dòng)化信息采集、采摘對(duì)草莓的大規(guī)模種植和科學(xué)管理具有重要意義。草莓圖像分割是機(jī)械化采摘、信息化管理的核心關(guān)鍵之一,草莓圖像分割效果直接影響后續(xù)的信息采集和草莓采摘。
現(xiàn)有文獻(xiàn)大多只針對(duì)固定背景的水果圖像、成熟且無雜物遮擋的草莓圖像分割。其中,Lyu 等[2]通過應(yīng)用K-means 對(duì)RGB、Lab 顏色空間的G、B 顏色通道分割后進(jìn)行開運(yùn)算、微小區(qū)域消除、融合等操作來分割出目標(biāo)。然而,分割結(jié)果對(duì)初始聚類中心敏感,需連續(xù)對(duì)樣本進(jìn)行分類和調(diào)整,更新聚類中心,導(dǎo)致算法的時(shí)間復(fù)雜度增加。Wei 等[3]提出了一種復(fù)雜農(nóng)業(yè)背景下采摘機(jī)器人的水果圖像自動(dòng)提取方法,應(yīng)用Ohta 顏色空間的新特征作為輸入,進(jìn)行OTSU 算法的閾值分割,雖然大多數(shù)時(shí)候能成功提取復(fù)雜農(nóng)業(yè)背景下的成熟水果,但在處理石榴圖像時(shí)部分果實(shí)圖像會(huì)缺失,且存在光照、背景、時(shí)間復(fù)雜度或參數(shù)設(shè)定等缺陷,并不適用于實(shí)際背景下成熟草莓的圖像分割。張紅旗等[4]通過遺傳算法尋找FCM 圖像分割方法的聚類中心,提出了基于遺傳算法的草莓圖像FCM 分割方法,但需預(yù)先設(shè)置簇的數(shù)量,且遺傳算法收斂速度較慢。Karlo 等[5]提出了一種基于凸面檢測(cè)和分類的RGB-D 圖像水果識(shí)別方法,但是該方法對(duì)光線強(qiáng)度比較敏感,強(qiáng)烈陽光照射的環(huán)境會(huì)影響分割效果。Zhao 等[6]提出的基于ISODATA 算法的草莓圖像分割方法參數(shù)設(shè)置繁瑣且僅對(duì)完全成熟的草莓圖像分割效果良好。覃磊等[7]基于RGB 顏色相度的成熟草莓圖像分割(CS-BASED RSIS)僅應(yīng)用于完全成熟草莓圖像的分割,對(duì)未完全成熟的草莓分割效果明顯下降。劉輝等[8]提出的融合深度信息的Grabcut 自動(dòng)圖像分割,基于深度信息提取Grabcut 的矩形框,因草莓對(duì)象的不規(guī)則和復(fù)雜背景的干擾,并不能精確地標(biāo)記前景對(duì)象,降低了分割準(zhǔn)確度。
常用的Grabcut[9]算法使用矩形框指導(dǎo)分割目標(biāo),矩形框內(nèi)除了不同成熟度或可能被葉子、雜物遮擋的草莓目標(biāo)還包含其他復(fù)雜背景,影響了Grabcut分割的精確度。本文提出根據(jù)顯著性區(qū)域制作掩模,用以標(biāo)記Grabcut 的前景和背景來指導(dǎo)目標(biāo)草莓分割。為了使該算法在昏暗的環(huán)境中也能得到較好的分割結(jié)果,提出用限制對(duì)比度自適應(yīng)直方圖均衡化為基于HNSD 架構(gòu)顯著區(qū)域的檢測(cè)增強(qiáng)整體邊緣,最終實(shí)現(xiàn)有效地檢測(cè)顯著草莓區(qū)域,不僅能適用于不同程度明亮、昏暗環(huán)境而且可以分割出完全成熟和未成熟的草莓圖像。
本文算法的主要步驟如圖1 所示。首先采用限制對(duì)比度自適應(yīng)性直方圖均衡化(Contrast-limited Adaptive Histogram Equalization,CLAHE)[10]增強(qiáng)原始圖像,降低光線敏感度,然后使用結(jié)合短連接的整體嵌套顯著目標(biāo)檢測(cè)(Holistically-Nested Salient Object Detection with Short Connections,HNSD)[11]查找顯著性區(qū)域,最后將顯著性區(qū)域作為Grabcut 的前景進(jìn)行分割得到分割圖像。
圖 1 算法流程圖Fig. 1 Flow chart of algorithm
常用的直方圖均衡化(Histogram Equalization,HE)是一種圖像整體增強(qiáng)方法,不能有效增強(qiáng)局部信息,造成局部區(qū)域的明暗信息損失[12],而自適應(yīng)直方圖均衡化(Adaptive Histogram Equalization,AHE)[13]在強(qiáng)化圖像局部細(xì)節(jié)的同時(shí)增加了圖像噪聲,因此,本文采用CLAHE 對(duì)原始草莓圖像進(jìn)行增強(qiáng)處理。
CLAHE 通過限制局部直方圖的高度來限制對(duì)比度的增強(qiáng)幅度,從而限制噪聲和局部對(duì)比度。CLAHE 算法基本流程如下:
(1)將原圖分割成 M ×N 個(gè)連續(xù)不重疊的子區(qū)域,子塊大小與增強(qiáng)效果、細(xì)節(jié)丟失成正比。
(2)對(duì)圖像每個(gè)通道計(jì)算灰度直方圖 H (i) 。
(3)設(shè)置閾值T(如圖2 所示),當(dāng) H (i)<T 時(shí),
H (i) 、L、 Hmax三者的關(guān)系為
圖 2 剪裁分配示意圖Fig. 2 Clipping assignment schematic
(4)對(duì)每個(gè)受限子區(qū)域進(jìn)行直方圖均衡化。
(5)選取每個(gè)子區(qū)域的中心為參考點(diǎn),對(duì)圖像每個(gè)像素進(jìn)行灰度雙線性插值計(jì)算,如圖3 所示。插值公式如下:
式中:G(i)代表點(diǎn)(x,y)處的灰度值; G--(i) 為點(diǎn)(x,y)左上方樣本點(diǎn); G-+(i) 、 G+-(i) 、 G++(i) 分別為其他3 個(gè)方位的樣本點(diǎn)。
圖 3 雙線性插值運(yùn)算Fig. 3 Bilinear interpolation operation
圖4 示出了CLAHE 的處理效果??梢钥闯觯啾扔谧筮吇璋淡h(huán)境下的暗紅色草莓,右邊的鮮紅色草莓具有明顯的輪廓特征,更易于整體邊緣檢測(cè),最終得到更優(yōu)的顯著區(qū)域。
圖 4 CLAHE 的處理效果對(duì)比圖Fig. 4 Process images by CLAHE
1.2.1 HNSD 結(jié)構(gòu) 結(jié)合短連接的整體嵌套顯著目標(biāo)檢測(cè)是基于整體嵌套邊緣檢測(cè)(Holistically-Nested Edge Detector,HED)[14]的顯著性檢測(cè)結(jié)構(gòu),如表1 所示,包含5 個(gè)卷積層和1 個(gè)池化層,在每個(gè)側(cè)面輸出連接3 個(gè)具有不同濾波器通道和空間大小的卷積層。其中,“1”、“2”和“3”表示每層側(cè)輸出中使用的3 個(gè)網(wǎng)絡(luò)層, n ,k×k 中的 n 和 k ×k 分別表示通道數(shù)和卷積核尺度。
表 1 側(cè)面輸出信息Table 1 Details of each side output.
其中: αm為第 m 個(gè)側(cè)面輸出的權(quán)重;表示第 m 個(gè)側(cè)面輸出的圖像級(jí)類平衡交叉熵?fù)p失函數(shù)。使用標(biāo)準(zhǔn)交叉熵計(jì)算訓(xùn)練圖像和真值顯著圖之間所有像素的損失函數(shù)。損失函數(shù)定義如下:
其中: f =(f1,···,fM) 為融合權(quán)重;為第 m 層輸出的激活值;表示真值圖和預(yù)測(cè)融合圖 之間的距離。因此,最終的損失函數(shù)為
1.2.2 短連接 引入一種自上而下的方法,即從較深的側(cè)面輸出到較淺的側(cè)面輸出層的一系列短連接。結(jié)合較深的側(cè)面信息,較淺的側(cè)面輸出既可以準(zhǔn)確地預(yù)測(cè)顯著區(qū)域,又可以從較深的側(cè)面輸出中細(xì)化結(jié)果,從而產(chǎn)生密集且準(zhǔn)確的顯著區(qū),因此在HNSD體系上引入短連接可更優(yōu)地結(jié)合深層和淺層的優(yōu)點(diǎn)。短連接結(jié)構(gòu)圖如圖5 所示。
圖 5 短連接結(jié)構(gòu)圖Fig. 5 Illustration of short connections
1.2.3 基于短連接的深度監(jiān)督顯著目標(biāo)檢測(cè) 較深的側(cè)面輸出能夠找到顯著區(qū)域的位置,但要付出損失細(xì)節(jié)的代價(jià),而淺的側(cè)面輸出側(cè)重于低級(jí)特征,但缺乏全局信息。通過適當(dāng)?shù)亟M合不同的側(cè)面輸出,可以提取視覺上更佳的對(duì)象。為了使模型達(dá)到更優(yōu)的效果,HNSD 使用如下的短連接方法:
1.2.4 參數(shù)設(shè)置 設(shè)置學(xué)習(xí)率 為 1 0-8,衰 減權(quán)重為0.5×10-3,動(dòng)量為0.9,每個(gè)側(cè)面輸出的損失權(quán)重為1。使用全分辨率圖像來訓(xùn)練網(wǎng)絡(luò),將最小批量設(shè)置為10。使用隨機(jī)數(shù)初始化新添加的卷積層中的內(nèi)核權(quán)重。融合層權(quán)重在訓(xùn)練階段都初始化為0.166 7。
Grabcut 算法是根據(jù)GraphCut[15-17]算法進(jìn)行改進(jìn)的一種基于圖論的圖像分割方法。它將圖像映射成無向網(wǎng)絡(luò)圖,然后構(gòu)建一個(gè)優(yōu)化對(duì)象變量的能量函數(shù),最后使用最大流/最小割方法優(yōu)化能量函數(shù)。
Grabcut 簡(jiǎn)化了用戶交互并使用了GMM 而非直方圖。首先定義一個(gè)無向圖G(V,E),其中V 表示所有無向圖所有頂點(diǎn)的集合,E 表示鏈接所有頂點(diǎn)的無向邊的集合。在V 集合內(nèi)添加源S 和接收器T,使所有像素點(diǎn)連接到兩個(gè)端子。于是,無向圖G(V,E)包含t-links (Neighbored)和n-links (Terminal)兩種連接方式。所有表示像素的頂點(diǎn)的中心邊為n-links;所有與額外兩個(gè)端點(diǎn)相連的邊為t-links。通常,無向圖使用4 鄰域或8 鄰域連接兩個(gè)像素。圖像中含有N 個(gè)像素,圖像表示為 z= (z1,z2,···,zN) ,定義能量函數(shù)為
并結(jié)合了像素標(biāo)記方法用來表示最佳分割。
首先引入一組新的向量 α ={α1,α2,···,αN} ,用來標(biāo)記每個(gè)像素屬于前景或背景。得到顯著圖后,設(shè)置一個(gè)閾值對(duì)圖像進(jìn)行二值化。本文實(shí)驗(yàn)設(shè)置閾值為100,通過設(shè)置顯著區(qū)域,其余像素屬于背景來初始化Grabcut 掩模圖像,這樣可以增加分割的準(zhǔn)確性。
平滑項(xiàng)V 使用歐式距離求出:
其中: α ,β 為常量。在Grabcut 中, α =50 是根據(jù)Rother等實(shí)驗(yàn)獲得[16],而 β 根據(jù)圖像對(duì)比度確定。
本文實(shí)驗(yàn)使用的數(shù)據(jù)集是OpenMV 攝像頭采集的中國傳統(tǒng)地壟種植草莓園里的草莓圖像,制作5 000 張像素為500×500、格式為JPG 的圖像。評(píng)價(jià)指標(biāo)包括F-measure[18-20]和IOU (Intersection Over Union)[21],計(jì)算公式如下:
其中: U 表示真值圖中的真實(shí)目標(biāo); U′為分割目標(biāo)。選取文獻(xiàn)[2]、文獻(xiàn)[6-8]與本文算法進(jìn)行比較。
圖6 示出了相似光線強(qiáng)度下6 張不同的草莓圖像,以及本文算法與其他4 種算法的直觀視覺效果。其中第1、2 行是完全成熟草莓對(duì)應(yīng)不同算法的分割效果,文獻(xiàn)[6-8]和本文算法皆取得了精確度較高的效果。第3、4 行圖像中包含完全成熟和完全青色的草莓對(duì)象,文獻(xiàn)[6-7]僅完好地分割出了完全成熟部分,將青色未成熟草莓誤判為背景;文獻(xiàn)[2]、文獻(xiàn)[8]保留了較多的背景;本文算法則分割出了較完整的成熟草莓和青色草莓。第5、6 行為未完全成熟的草莓圖像,文獻(xiàn)[6-7]沒有分割出完整的草莓對(duì)象,文獻(xiàn)[2]、文獻(xiàn)[8]依舊保留較多的草莓背景,而本文算法比較完整地分割出了未成熟目標(biāo)草莓。結(jié)果表明,本文算法在相似光照強(qiáng)度下,可以有效地分割出不同成熟度的草莓。
圖 6 不同算法的分割圖比較Fig. 6 Comparison of segmentation graphs with different algorithms
圖7 示出了3 張草莓圖片在明亮光線和昏暗環(huán)境下采用本文算法的分割效果,其中第2 行為第1 行的分割結(jié)果??梢钥闯?,本文算法在昏暗的環(huán)境下也能完好地分割出草莓目標(biāo),可以適用于較大差異的光線環(huán)境,有效地去除過多的復(fù)雜背景,分割出未成熟和已成熟的草莓對(duì)象,在實(shí)際草莓采摘環(huán)境下取得了與真實(shí)值較接近的效果。
圖 7 不同明暗環(huán)境本文算法分割圖比較Fig. 7 Comparison of algorithm segmentation graphs in different light and dark environments
對(duì)在實(shí)際環(huán)境采集的5 000 張草莓圖像數(shù)據(jù)集計(jì)算F-measure、IOU 指標(biāo),結(jié)果如圖8 所示。圖8(a)示出了 β =1 時(shí)的準(zhǔn)確率、召回率、F-measure。可以看出,文獻(xiàn)[2]、文獻(xiàn)[6-8]的回召率和精確率表現(xiàn)出明顯的差異且明顯低于本文算法。圖8(b)示出了IOU 的比較結(jié)果,顯示了本文算法的實(shí)際分割對(duì)象與真值圖具有較高的重疊率,證明了本文算法得到的F-measure、IOU 均優(yōu)于其他算法。
圖 8 數(shù)據(jù)集上的結(jié)果比較Fig. 8 Comparisons of results on data sets
表2 示出了本文算法在不同明暗環(huán)境下的草莓圖像分割精確率、回召率、F-measure、IOU 指標(biāo),可以看出,昏暗環(huán)境與明亮環(huán)境下的4 種指標(biāo)值沒有較大的變化,表明本文算法可適用于不同程度的明暗環(huán)境。
表 2 不同明暗環(huán)境下分割結(jié)果比較Table 2 Comparison of segmentation results under different lighting and shading environments
本文提出了基于深度監(jiān)督顯著目標(biāo)檢測(cè)的草莓圖像分割研究,限制對(duì)比度自適應(yīng)性直方圖均衡化處理降低了對(duì)光線明暗的敏感度?;诙踢B接的深度監(jiān)督顯著目標(biāo)檢測(cè)算法查找顯著性區(qū)域,可以準(zhǔn)確地查找到草莓區(qū)域,最后Grabcut 根據(jù)草莓區(qū)域作為前景得到更精確的分割目標(biāo)。實(shí)驗(yàn)結(jié)果證明,本文方法在實(shí)際圖像上獲得了比其他算法更高的F-measure、重疊率指標(biāo),驗(yàn)證了該方法具有更優(yōu)異的分割效果。未來將考慮更快的計(jì)算速度和算法應(yīng)用環(huán)境的移植,以增強(qiáng)算法的實(shí)用性。