黃祥 王克曉 李波 吳園
摘 要 為了解農(nóng)作物種植信息提取領(lǐng)域的圖像分割技術(shù)研究現(xiàn)狀,對(duì)常用的圖像分割方法進(jìn)行了系統(tǒng)性梳理。根據(jù)是否引入深度學(xué)習(xí)算法將圖像分割技術(shù)分為傳統(tǒng)方法和深度學(xué)習(xí)分割方法。簡(jiǎn)要概述了閾值分割、分水嶺分割、聚類分割、邊緣分割及多尺度分割等4種傳統(tǒng)圖像分割方法和FCN、DeepLab及SegNet等3種基于深度學(xué)習(xí)的圖像分割方法,分析了各種方法在農(nóng)作物種植信息提取中的優(yōu)缺點(diǎn),以及圖像分割技術(shù)目前存在的難點(diǎn),以期為提高圖像分割技術(shù)在農(nóng)作物種植信息提取中的應(yīng)用水平提供參考。
關(guān)鍵詞 農(nóng)作物;遙感監(jiān)測(cè);圖像分割;深度學(xué)習(xí);計(jì)算機(jī)視覺(jué)
中圖分類號(hào):S771.8 文獻(xiàn)標(biāo)志碼:C DOI:10.19415/j.cnki.1673-890x.2023.17.020
農(nóng)作物種植面積是制定農(nóng)業(yè)政策和優(yōu)化農(nóng)作物種植結(jié)構(gòu)的重要依據(jù),快捷、準(zhǔn)確地獲取農(nóng)作物種植面積對(duì)保障糧食安全和國(guó)家經(jīng)濟(jì)發(fā)展具有重要意義[1-2]。傳統(tǒng)的農(nóng)作物種植面積監(jiān)測(cè)方法大多依賴于現(xiàn)場(chǎng)目視解譯,監(jiān)測(cè)時(shí)效性和精確性較差。遙感技術(shù)憑借其快速、無(wú)損、大范圍等優(yōu)點(diǎn)已廣泛應(yīng)用于農(nóng)作物種植信息監(jiān)測(cè)。隨著傳感器技術(shù)的快速進(jìn)步,無(wú)人機(jī)遙感得以飛速發(fā)展,高光譜、高分辨率遙感影像獲取成本大大降低,在農(nóng)田信息監(jiān)測(cè)領(lǐng)域表現(xiàn)出巨大的應(yīng)用潛力。為了能夠更好地分析農(nóng)田種植信息,本文對(duì)常見(jiàn)的圖像分割方法進(jìn)行了比較分析。
1? 圖像分割概述
圖像分割是基于圖像灰度、顏色、形狀和紋理等特征,將圖像劃分成具有獨(dú)特性質(zhì)的子區(qū)域。同一子區(qū)域的像素點(diǎn)被認(rèn)為是同類,即是對(duì)圖片中有相同性質(zhì)的像素賦予相同標(biāo)簽的過(guò)程[3]。根據(jù)分割機(jī)理可以分為連續(xù)分割和非連續(xù)分割,連續(xù)分割是指將具有相同特征的像素劃分為同一區(qū)域,常見(jiàn)的連續(xù)分割方法有閾值分割、區(qū)域生成及聚類分割等。非連續(xù)分割是利用像素值突變特性所呈現(xiàn)的不同邊界,常見(jiàn)的分割方法有邊緣分割。近年來(lái),隨著深度學(xué)習(xí)的飛速發(fā)展,計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)了巨大突破,其中,圖像分割作為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要技術(shù),也取得了突破性進(jìn)展。本文以深度學(xué)習(xí)是否引入分割算法為依據(jù),將圖像分割分為傳統(tǒng)分割方法和基于深度學(xué)習(xí)的分割方法,并根據(jù)類別分別簡(jiǎn)述其經(jīng)典算法。
2? 傳統(tǒng)圖像分割方法
傳統(tǒng)的圖像分割方法大多基于光譜、紋理等淺層次特征進(jìn)行區(qū)域劃分,簡(jiǎn)單且易操作,分析效率高。本節(jié)對(duì)農(nóng)作物種植信息提取中常用的經(jīng)典圖像分割算法進(jìn)行闡述,包括閾值分割法、分水嶺分割法、聚類分割法、邊緣分割法和多尺度分割法,并簡(jiǎn)要描述其優(yōu)缺點(diǎn)及在丘陵山區(qū)農(nóng)作物遙感監(jiān)測(cè)中的應(yīng)用潛力。
2.1? 閾值分割法
最早的圖像分割方法是基于閾值的圖像分割方法,通過(guò)設(shè)定不同的灰度閾值,將同類劃分在同一灰度范圍內(nèi),進(jìn)行粗糙的像素級(jí)別分割。這種分割方法,對(duì)于背景和目標(biāo)區(qū)別明顯的簡(jiǎn)單場(chǎng)景有效。根據(jù)不同的分割規(guī)則,可將閾值分割分為:局部閾值分割方法[4]、基于點(diǎn)的全局閾值分割方法[5]、基于區(qū)域的全局閾值分割方法[6]。閾值分割方法簡(jiǎn)單易實(shí)現(xiàn),并且耗時(shí)較短,能迅速完成分割。然而,該類方法只考慮到光譜信息,未考慮空間信息。對(duì)于同物異譜或異物同譜等現(xiàn)象,閾值分割并不能取得理想的分割效果。因此,對(duì)于種植結(jié)構(gòu)復(fù)雜、地形起伏較大的丘陵山區(qū),閾值分割的應(yīng)用潛力較小。
2.2? 分水嶺分割法
分水嶺分割算法是一種基于區(qū)域生長(zhǎng)的圖像分割方法,通過(guò)像素的相似性特征對(duì)像素點(diǎn)進(jìn)行分類并構(gòu)成區(qū)域[7]。分水嶺分割是將圖像特征看作地理上的地貌特征,將圖像的邊緣輪廓轉(zhuǎn)換為“山脈”,將均勻區(qū)域轉(zhuǎn)換為“山谷”。算法過(guò)程如下:1)以局部最小值作為谷底,局部最高值作為山峰。2)通過(guò)谷底向外慢慢生長(zhǎng),直至覆蓋所有區(qū)域。類似于向各個(gè)孤立的山谷中注入不同顏色的水,每一種顏色代表一個(gè)類別[8]。3)當(dāng)水漲起來(lái)后,為了避免不同山谷間的水開(kāi)始合并,在合并處建立障礙,連同山峰構(gòu)成分水嶺,完成圖像分割。分水嶺分割算法適用于大部分應(yīng)用場(chǎng)景,其核心在于種子點(diǎn)和生長(zhǎng)原則的選取,將直接影響分割效果。通常以局部極小值點(diǎn)作為種子點(diǎn),并圍繞種子點(diǎn)向外生長(zhǎng),由于圖像中存在噪聲像元和像元缺失等情況,出現(xiàn)局部種子點(diǎn)過(guò)多,易導(dǎo)致分割結(jié)果出現(xiàn)過(guò)度分割現(xiàn)象,同時(shí),該方法相對(duì)復(fù)雜,耗時(shí)較長(zhǎng)。
2.3? 聚類分割法
基于像素的聚類分割是將具有特征相似性的像素點(diǎn)聚集到同一區(qū)域[9],反復(fù)迭代聚類結(jié)果至收斂,以實(shí)現(xiàn)分割,代表方法有K-means聚類[10]、譜聚類[11](Spectral Clustering, SC)和簡(jiǎn)單線性迭代聚類[12](simple linear iterative Clustering,SLIC)等。K-means聚類是最著名的聚類分割算法,于20世紀(jì)60年代提出,算法過(guò)程如下:1)首先從數(shù)據(jù)庫(kù)中隨機(jī)選取K個(gè)數(shù)據(jù)樣本作為聚類中心。2)依次測(cè)量每個(gè)樣本到每個(gè)聚類中心的距離,并把它歸到最近的聚類中心的類。3)重新計(jì)算已經(jīng)得到的各個(gè)類的聚類中心。
4)迭代2~3步,直至新的聚類中心與原聚類中心相等或小于指定閾值。目前,基于K-means聚類算法已經(jīng)發(fā)展出大量不同的改進(jìn)算法。Achanta等在2010年提出SLIC算法,該算法是一種易于實(shí)現(xiàn)的圖像分割算法。SLIC算法通過(guò)構(gòu)造像素點(diǎn)距離度量標(biāo)準(zhǔn),來(lái)衡量顏色和空間相似度,對(duì)圖像進(jìn)行聚類。SLIC 算法可以將圖像中的像素劃分為超像素塊,因此也被稱為超像素分割、在運(yùn)算速度、物體輪廓保持等方面具有較高的綜合評(píng)價(jià),被廣泛應(yīng)用于多種圖像分割場(chǎng)景。
聚類分割算法基于特征相似性原則,包括光譜、紋理等特征,需滿足同一聚類中的對(duì)象特征相似度較高,而不同聚類中的對(duì)象特征相似度較小,更適用于目標(biāo)地物特征差異明顯的應(yīng)用場(chǎng)景。在農(nóng)作物種植信息提取中,超像素分割法是應(yīng)用較廣的聚類分割算法,相對(duì)其他聚類分割算法,對(duì)地物邊界的還原度更好,但是也存在耗時(shí)較長(zhǎng)的問(wèn)題。
2.4? 邊緣分割法
基于邊緣檢測(cè)的圖像分割方法[13],本質(zhì)上是利用像元灰度值不連續(xù)進(jìn)行圖像分割,其基礎(chǔ)是邊緣檢測(cè)。通過(guò)邊緣檢測(cè)并連接邊界處像素點(diǎn),形成邊緣輪廓,從而將圖像劃分成不同的區(qū)域。邊緣檢測(cè)通常借助微分算子,將待分割圖像與微分算子卷積,完成邊緣像元提取,獲取地物輪廓信息。根據(jù)采用的微分算子,可以區(qū)分不同的邊緣檢測(cè)算法,常用的微分算子有Canny[14]、Roberts[15]等?;谶吘墮z測(cè)的圖像分割方法,過(guò)程簡(jiǎn)單易操作,耗時(shí)較短,性能相對(duì)優(yōu)良,對(duì)像元灰度值具有明顯突變的影像分割效果較好,但該算法易受圖像噪聲和像元缺失的影響,邊界特征無(wú)法被完整描述。因此,邊緣檢測(cè)后,對(duì)于斷開(kāi)的邊緣輪廓,需要通過(guò)相似性準(zhǔn)則搜索并連接相鄰邊緣點(diǎn),以完整描述邊界信息,形成有意義的邊界。
2.5? 多尺度分割法
針對(duì)傳統(tǒng)單一尺度分割出現(xiàn)過(guò)分割或欠分割情況,比如,地物面積大而分割尺度小,必然導(dǎo)致分割結(jié)果過(guò)于破碎,反之分割尺度大而地物面積小,則分割結(jié)果不完全。Bruzzone和Carlin等[16]提出了多尺度分割算法,該算法的核心分割模型仍然是傳統(tǒng)的單一尺度圖像分割模型,比如閾值分割、區(qū)域生長(zhǎng)和邊緣分割等,區(qū)別在于利用分割模型去處理多種尺度圖像,再將各尺度下的分割結(jié)果進(jìn)行融合。具體算法過(guò)程如下:1)進(jìn)行尺度變換,采用小波變換或金字塔變換將原始圖像變換為不同分辨率的新圖像。2)對(duì)變換后的不同尺度新圖像,借助傳統(tǒng)分割模型,逐一進(jìn)行單一尺度分割。3)對(duì)不同尺度分割結(jié)果進(jìn)行融合,得到多尺度分割結(jié)果。多尺度分割算法通過(guò)像素級(jí)的加權(quán)平均或區(qū)域級(jí)的合并等方式進(jìn)行分割結(jié)果融合,使得融合后的分割邊界較為平滑,符合農(nóng)作物種植信息提取要求。特別是丘陵山區(qū),地形復(fù)雜,地塊破碎,單一尺度分割精度不夠理想,更適合采用多尺度分割算法。當(dāng)然,多尺度分割的“尺度”數(shù)量較單一尺度多,尤其分割尺度太小時(shí),運(yùn)行效率極慢。
3? 基于深度學(xué)習(xí)的分割方法
近年來(lái),深度學(xué)習(xí)發(fā)展迅猛,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)被廣泛應(yīng)用于圖像分類、識(shí)別等計(jì)算機(jī)視覺(jué)領(lǐng)域,基于卷積神經(jīng)網(wǎng)絡(luò)框架的圖像分割技術(shù)發(fā)展迅速,并取得了突破性進(jìn)展[17],成功構(gòu)建了多種圖像分割模型。隨著圖像分割場(chǎng)景日益復(fù)雜化,傳統(tǒng)的圖像分割方法難以滿足實(shí)際要求,基于深度學(xué)習(xí)的圖像分割方法實(shí)現(xiàn)了更加高效和精準(zhǔn)的分割。本節(jié)重點(diǎn)介紹幾種經(jīng)典的基于深度學(xué)習(xí)的分割方法,包括:FCN[18]、DeepLab[19]、SegNet[20]等。
3.1? 完全卷積網(wǎng)絡(luò)
完全卷積網(wǎng)絡(luò)[18](Fully Convolution Networks,F(xiàn)CN)由Jonathan Long等學(xué)者于2015年提出,是首個(gè)端到端的深度學(xué)習(xí)分割模型,在圖像分割領(lǐng)域具有重要意義。FCN基于傳統(tǒng)的卷積改進(jìn)而來(lái),采用卷積層替換網(wǎng)絡(luò)中的全連接層。FCN的網(wǎng)絡(luò)架構(gòu)采用編碼-解碼結(jié)構(gòu),編碼部分采用經(jīng)典的CNN網(wǎng)絡(luò),如VGG、ResNet等,用于特征提??;解碼部分,由于卷積和池化操作會(huì)導(dǎo)致圖像尺寸變小,使用上采樣方式對(duì)圖像尺寸進(jìn)行恢復(fù),得到輸入圖像尺寸大小的分割圖像。此外,通過(guò)跳躍連接,將淺層輸出和深層輸出進(jìn)行聯(lián)合,減少底層的圖像信息丟失,同時(shí)避免網(wǎng)絡(luò)退化及梯度爆炸等問(wèn)題。
3.2? DeepLab網(wǎng)絡(luò)
DeepLab[19]是Chen等學(xué)者基于FCN提出的一系列圖像分割模型,最新版本為DeepLab-v3+[21]。“DeepLab-v3+”采用編碼-解碼結(jié)構(gòu)。編碼器由深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)模型及ASPP模塊構(gòu)成,將圖像輸入DCNN進(jìn)行處理,輸出中淺層特征圖和經(jīng)過(guò)ASPP 融合卷積后的特征圖,并將兩者作為解碼器的輸入。解碼部分,對(duì)輸入的中淺層特征圖進(jìn)行卷積,再與經(jīng)過(guò)上采樣的ASPP特征圖進(jìn)行融合,然后經(jīng)過(guò)上采樣操作輸出原始尺寸大小的分割圖,實(shí)現(xiàn)端到端的語(yǔ)義分割。DCNN網(wǎng)絡(luò)是一種采用深度可分離卷積層的卷積神經(jīng)網(wǎng)絡(luò),將通道之間分開(kāi)處理,減少光譜和空間相關(guān)性干擾。ASPP模塊將空洞卷積和特征金字塔池化結(jié)合在一起,在相同的計(jì)算代價(jià)下增大卷積核的感受野,挖掘多尺度上下文信息,以更好地捕捉地塊邊界。
3.3? SegNet網(wǎng)絡(luò)
SegNet是在FCN基礎(chǔ)上改進(jìn)而來(lái),由一個(gè)編碼器網(wǎng)絡(luò)、一個(gè)相應(yīng)的解碼器網(wǎng)絡(luò)和一個(gè)逐像素分類層組成,其特點(diǎn)在于編碼階段,進(jìn)行池化時(shí),保留最大值的位置信息,然后,在解碼階段,利用最大池化索引進(jìn)行非線性上采樣,將低分辨率編碼器輸出特征映射到原始輸入圖像分辨率特征圖,避免在編碼階段保存特征圖,從而節(jié)省內(nèi)存空間。同時(shí),消除了學(xué)習(xí)上采樣的需要,減少了訓(xùn)練參數(shù),從而節(jié)約了計(jì)算時(shí)間。
4? 結(jié)語(yǔ)
本文著重介紹了幾類常用的傳統(tǒng)圖像分割方法和幾種深度學(xué)習(xí)圖像分割方法,傳統(tǒng)的圖像分割方法在簡(jiǎn)單場(chǎng)景下應(yīng)用效果較好,而基于深度學(xué)習(xí)的圖像分割方法在復(fù)雜場(chǎng)景下效果更好。不同分割算法的優(yōu)缺點(diǎn)不同,需要根據(jù)應(yīng)用場(chǎng)景靈活選擇,甚至將多種分割方法結(jié)合使用,以獲得最佳分割效果。圖像分割作為計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)基礎(chǔ)技術(shù),是圖像理解的重要一環(huán),至今仍受到工業(yè)界與學(xué)術(shù)界的高度重視,但仍然存在一些難題:1)樣本標(biāo)注工作繁重,海量樣本數(shù)據(jù)集構(gòu)建難度大;2)小尺寸或復(fù)雜形狀目標(biāo)分割精度不夠;3)基于深度學(xué)習(xí)的分割網(wǎng)絡(luò)對(duì)計(jì)算資源的消耗嚴(yán)重,使得模型收斂速度非常慢,在計(jì)算能力有限的情況下,模型訓(xùn)練耗時(shí)長(zhǎng)久;4)采用編碼-解碼結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)框架,運(yùn)用卷積和池化操作,會(huì)降低圖像分辨率,深層次特征對(duì)細(xì)節(jié)信息表達(dá)不夠充分,導(dǎo)致目標(biāo)地物輪廓分割得不夠細(xì)致,即使采用跳躍連接技術(shù),將淺層特征和深層特征融合,也只在一定程度上緩解了上述問(wèn)題。這些問(wèn)題具有重要的研究?jī)r(jià)值,若能較好地解決,對(duì)于促進(jìn)圖像分割技術(shù)落地、應(yīng)用和推廣具有重要意義。
參考文獻(xiàn):
[1] 胡瓊,吳文斌,宋茜,等.農(nóng)作物種植結(jié)構(gòu)遙感提取研究進(jìn)展[J].中國(guó)農(nóng)業(yè)科學(xué),2015,48(10):
1900-1914.
[2] 王崠,吳見(jiàn).農(nóng)作物種類高光譜遙感識(shí)別研究[J].地理與地理信息科學(xué),2015,31(2):29-33,2.
[3] 黃鵬,鄭淇,梁超.圖像分割方法綜述[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2020,66(6):519-531.
[4] YEN J C, CHANG F J, CHANG S. A new criterion for automatic multilevel thresholding[J]. IEEE transactions on image processing: a publication of the IEEE Signal Processing Society, 1995, 4(3): 370.
[5] OTSU N. A threshold selection method from gray-level histograms[J]. IEEE transactions on systems, man, and cybernetics, 1979, 9(1): 62-66.
[6] PUN T. A new method for grey-level picture thresholding using the entropy of the histogram[J]. Signal processing, 1980, 2(3): 223-237.
[7] 王國(guó)權(quán),周小紅,蔚立磊.基于分水嶺算法的圖像分割方法研究[J].計(jì)算機(jī)仿真,2009,26(5):255-258.
[8] 王鑫,羅斌,寧晨.一種基于小波和分水嶺算法的圖像分割方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006(1):
17-19,22.
[9] 白雪飛.基于視覺(jué)顯著性的圖像分割方法研究[D].太原:山西大學(xué),2014.
[10] 霍迎秋,秦仁波,邢彩燕,等.基于CUDA的并行K-means聚類圖像分割算法優(yōu)化[J].農(nóng)業(yè)機(jī)械學(xué)報(bào), 2014(11):47-53.
[11] 張向榮,騫曉雪,焦李成.基于免疫譜聚類的圖像分割[J].軟件學(xué)報(bào),2010,21(9):2196-2205.
[12] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(11): 2274-2282.
[13] 劉俠,甘權(quán),李冰,等.融合加權(quán)隨機(jī)森林的自動(dòng)3D椎骨CT圖像主動(dòng)輪廓分割方法[J].光電工程,2020,47(12):37-48.
[14] ER-SEN L, SHU-LONG Z, BAO-SHAN Z, et al. An Adaptive Edge-Detection Method Based on the Canny Operator[C]//International Conference on Environmental Science & Information Application Technology. IEEE, 2009.
[15] ROSENFELD A. The max Roberts operator is a Hueckel type edge detector[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1981, 3(1): 101-103.
[16] BRUZZONE L, CARLIN L. A Multilevel Context-Based System for Classification of Very High Spatial Resolution Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(9):
2587-2600.
[17] 張明月.基于深度學(xué)習(xí)的圖像分割研究[D].長(zhǎng)春:吉林大學(xué),2017.
[18] SHELHAMER E, LONG J, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(4): 640-651.
[19] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[20] BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.
[21] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.
(責(zé)任編輯:丁志祥)
收稿日期:2023-06-19
基金項(xiàng)目:重慶市農(nóng)業(yè)科學(xué)院市級(jí)財(cái)政科研項(xiàng)目(cqaas2023sjczqn007)。
作者簡(jiǎn)介:黃祥(1988—),男,四川綿陽(yáng)人,碩士,農(nóng)藝師,主要從事農(nóng)業(yè)遙感研究。E-mail:419850173@qq.com。