左宗成,張 文,張東映
1. 武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079; 2. 歐特克(中國)軟件研發(fā)有限公司,上海 200122; 3. 鄭州大學(xué)水利與環(huán)境學(xué)院,河南 鄭州 450002
高分辨率遙感影像已經(jīng)在制圖、城市規(guī)劃、災(zāi)害監(jiān)測、房地產(chǎn)管理、計量經(jīng)濟(jì)學(xué)、作物分類和氣候研究等多領(lǐng)域得到應(yīng)用[1]。遙感影像語義分割作為高分辨率遙感影像信息提取與目標(biāo)識別的前提和基礎(chǔ),是實現(xiàn)從數(shù)據(jù)到信息的對象化提取的過渡環(huán)節(jié)和關(guān)鍵步驟,具有十分重要的意義[2]。圖像語義分割不同于圖像分類或物體檢測等任務(wù),圖像語義分割是一個空間密集型的預(yù)測任務(wù),換言之,這需要預(yù)測一幅圖像中所有像素點的類別[3]。語義分割旨在分類每一個像素到指定的類別,是一種對于理解和推理對象以及場景中物體之間關(guān)系的重要任務(wù)。作為通向高級任務(wù)的橋梁,在計算機視覺和遙感領(lǐng)域中,語義分割被用在了多種應(yīng)用中,例如自動駕駛、姿態(tài)估計、遙感影像解譯及3D重建等[4]。傳統(tǒng)的特征提取難以應(yīng)付空間變換的要求,并且手工特征設(shè)計難度大。自從FCNs[3]首次被用于圖像的語義分割之后,新的方法不斷被創(chuàng)造。近年來,由于深度卷積神經(jīng)網(wǎng)絡(luò)的廣泛使用使得密集型預(yù)測的語義分割取得了長足的發(fā)展。最近的工作都表明,在許多圖像處理任務(wù)中,深度學(xué)習(xí)模型往往顯著優(yōu)于傳統(tǒng)的方法[5]。
標(biāo)準(zhǔn)的卷積操作通常是在特征圖譜固定的位置上進(jìn)行采樣,對于復(fù)雜目標(biāo)對象的檢測來說不是很合理,這是因為不同位置對應(yīng)的目標(biāo)大小是不同的。如果能夠使得感受野[6]在不同位置的大小進(jìn)行自適應(yīng)調(diào)整,那么對于語義分割任務(wù)必然有很大的幫助。
其次,對于深度卷積神經(jīng)網(wǎng)絡(luò)來說,從分類器獲取以對象為中心的決策需要空間不變性,其內(nèi)在特性限制了深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)的空間精度模型,并且DCNNs的最后一層通常沒有充分地對局部對象進(jìn)行分割,所以本文通過采用全連接的條件隨機場來提升本文方法捕獲細(xì)節(jié)的能力[7]。條件隨機場(CRF)已廣泛應(yīng)用于語義分割,以便將由多方向分類器計算的類別得分與由像素和邊緣的局部交互所捕獲的低級信息進(jìn)行綜合[8]。因此本文提出一種融合可變形卷積與條件隨機場的方法來解決標(biāo)準(zhǔn)卷積操作對空間自適應(yīng)能力的欠缺以及采用條件隨機場的方法來提高局部分割精度。
本文方法主要分為3個步驟:①對常規(guī)的標(biāo)準(zhǔn)卷積添加了一項二維偏移量到采樣網(wǎng)格中,得到一種可變形卷積網(wǎng)絡(luò)[9],該項偏移量的添加使得卷積網(wǎng)絡(luò)可以自由形成變形,這些偏移量是通過卷積層抽取的特征圖譜進(jìn)行學(xué)習(xí)而來;②訓(xùn)練的網(wǎng)絡(luò)采用VGGNet網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化,反卷積網(wǎng)絡(luò)作為分割結(jié)果層進(jìn)行預(yù)測每個像素的分類結(jié)果;③對輸出的粗糙預(yù)測分割結(jié)果進(jìn)行CRF操作,得到精細(xì)化的分割圖。
1.1.1 可變形卷積
傳統(tǒng)的二維圖像上的卷積操作包含兩個步驟:①在輸入特征圖譜x上采用常規(guī)網(wǎng)格R進(jìn)行采樣;②由w加權(quán)的采樣值的求和。網(wǎng)格R定義了感受野的大小和步幅。例如:R={(-1,-1),(-1,0),(-1,1),(0,1),(0,0),(0,-1),(1,1),(1,0),(1,-1)}定義了一個步幅為1的3×3卷積核。對于輸出特征圖譜y上的每個位置p0可得到
(1)
可變形卷積使用偏移{Δpn|n=1,…,N}擴(kuò)充了常規(guī)網(wǎng)格R,這里的N=|R|。上述方程變?yōu)?/p>
(2)
現(xiàn)在,采樣在不規(guī)則和偏移位置pn+Δpn之上。由于偏移Δpn通常是小數(shù)形式的,式(2)通過雙線性插值變換之后變?yōu)?/p>
(3)
式中,p代表一個任意位置(p=p0+pn+Δpn);q枚舉特征圖譜x中的所有的積分空間位置;G(.,.)代表雙線性插值核。這里的G是二維的,它可以被分為兩個一維的內(nèi)核
G(q,p)=g(qx,px)g(qy,py)
(4)
式中,g(a,b)=max(0,1-|a-b|)。式(4)是快速計算,因為G(q,p)僅對于部分q的取值是非零的。
如式(2)所示,可變形卷積是通過在相同的輸入特征圖譜上應(yīng)用卷積層來獲得偏移??勺冃尉矸e核與當(dāng)前卷積層也是具有相同的空間分辨率。輸出偏移量與輸入特征圖譜具有相同的空間分辨率。當(dāng)通道維數(shù)為2N時,需要編碼N個二維偏移向量。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練期間,可以學(xué)習(xí)用于產(chǎn)生輸出特征和產(chǎn)生偏移量的卷積內(nèi)核。在可變形卷積模塊上執(zhí)行的梯度可以通過式(3)和式(4)中的雙線性運算來反向傳播。
文獻(xiàn)[10]發(fā)現(xiàn),感受野中并不是所有的像素都有助于輸出單元響應(yīng)。由于靠近中心的像素具有更大的影響,所以有效感受野只占理論感受野中的小部分,并服從高斯分布。雖然理論感受野尺寸隨著卷積層的數(shù)量線性增加,但讓人感到意外的是,有效感受野尺寸是隨著卷積層數(shù)量的平方根線性增加,因此以比預(yù)期慢得多的速率進(jìn)行收斂[10]。這一發(fā)現(xiàn)表明,即便是CNNs中的頂層單元也可能沒有足夠大的感受野。這部分也解釋了為什么空洞卷積[11]被廣泛應(yīng)用于視覺任務(wù)。它揭示了可自適應(yīng)性感受野學(xué)習(xí)的必要性??勺冃尉矸e能夠自適應(yīng)地學(xué)習(xí)感受野,如圖1所示。
在標(biāo)準(zhǔn)卷積中的空間采樣位置增加了額外的偏移量就可以得到可變形卷積。這些偏移量是從目標(biāo)任務(wù)驅(qū)動的數(shù)據(jù)中學(xué)習(xí)的。當(dāng)可變形模塊堆疊成多層時,復(fù)合變形的影響是巨大的。相較于標(biāo)準(zhǔn)卷積而言,對于復(fù)雜目標(biāo)可變形卷積有著強大的自適應(yīng)提取能力。如圖1所示,標(biāo)準(zhǔn)卷積濾波器中的感受野和采樣位置在上層特征圖譜上是固定的(圖1(a));當(dāng)使用可變形卷積時,它們會根據(jù)物體的尺度和形狀進(jìn)行自適應(yīng)調(diào)整(圖1(b))。特別是對于非剛性物體增強了目標(biāo)定位能力。
圖1 標(biāo)準(zhǔn)卷積與可變形卷積Fig.1 Standard convolution and deformable convolution
1.1.2 可變形卷積的網(wǎng)絡(luò)結(jié)構(gòu)
可變形卷積與標(biāo)準(zhǔn)卷積有著相同的輸入和輸出。因此,在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中可變形卷積可以很容易替換標(biāo)準(zhǔn)卷積操作。在訓(xùn)練期間,可以學(xué)習(xí)用于產(chǎn)生輸出特征和產(chǎn)生偏移量的卷積內(nèi)核。在可變形卷積模塊上執(zhí)行的梯度可以通過式(3)中的雙線性運算來反向傳播。他們通過反向傳播訓(xùn)練,通過方程式中的雙線性插值運算,所得到的CNNs稱為可變形網(wǎng)絡(luò)(deformable ConvNets)??勺冃尉W(wǎng)絡(luò)自動學(xué)習(xí)預(yù)測影像中物體對象的位置,它是基于增強空間采樣位置的能力為考量并使用非監(jiān)督方法從目標(biāo)任務(wù)中學(xué)習(xí)偏移量。
為了將可變形ConvNets與現(xiàn)有的CNNs架構(gòu)相結(jié)合,本文提出由3個階段組成的流程來實現(xiàn)可變形卷積網(wǎng)絡(luò)。首先,深度全卷積網(wǎng)絡(luò)(DFCNs)在整個輸入圖像上生成特征圖譜;其次,從特征圖譜中生成分割結(jié)果;最后,對于粗糙的結(jié)果進(jìn)行反卷積得到精細(xì)化的分割圖。以下詳細(xì)說明這3個步驟。
(1) 可變形卷積的特征提取。本文采用廣泛使用且具有良好性能的特征提取架構(gòu)VGGNet[12]作為特征提取層。網(wǎng)絡(luò)的初始化參數(shù)在ImageNet[13]分類數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。這個VGGNet模型是由卷積層、平均池化層和一個用于ImageNet分類的1000路全連接層組成。本文刪除了平均池化層和全連接層。像通常的做法[14]一樣,本文將最后卷積塊中的有效步幅從32像素減少到16像素,以增加特征映射分辨率。本文中可變形卷積層被施加在最后3層作為特征提取層。
(2) 語義分割網(wǎng)絡(luò)。當(dāng)前有許多可用的語義分割的網(wǎng)絡(luò)架構(gòu)。本文選擇SegNet架構(gòu)[15](圖2),因為它提供了精度與計算成本之間的良好平衡。以此結(jié)構(gòu)為基礎(chǔ),嵌入可變形卷積結(jié)構(gòu)。SegNet的對稱架構(gòu)使得它對池化層及反卷積的使用非常有效,這對于遙感數(shù)據(jù)來說至關(guān)重要。除了SegNet,還對DeepLab[16]進(jìn)行了初步試驗,結(jié)果顯示并沒有顯著改善甚至沒有改善。因此,沒有必要切換到更昂貴的計算架構(gòu)。請注意,本文方法可以輕松地適應(yīng)其他架構(gòu),而不是限定于SegNet的架構(gòu)。SegNet具有VGG-16的卷積層的編碼器與解碼器架構(gòu)[17-18]。編碼器由一系列卷積層組成,每個卷積層后面緊跟著的是批量歸一化[19]和整流線性單元。卷積塊之后是池化層,本文采用步幅為2的最大池化層操作。沒有試驗其他的激活函數(shù),如PReLU[20]或ELU[21],也沒有進(jìn)一步改變SegNet架構(gòu)。這樣做的目的是為了在后續(xù)試驗中對比可變形卷積的性能。
(3) 反卷積網(wǎng)絡(luò)。解碼器的結(jié)構(gòu)與編碼器是對稱的,解碼器對于輸入結(jié)果進(jìn)行上采樣,本文使用文獻(xiàn)[24]中的策略隨機初始化解碼器中網(wǎng)絡(luò)的權(quán)重。在一般的CNNs結(jié)構(gòu)中,如AlexNet、VGGNet均使用了池化操作來縮小輸出圖片的尺寸,例如VGGNet,5次池化操作后輸入圖像的尺寸被縮小了32倍。本文目的是得到一個與原圖像尺寸相同的分割圖,因此需要對最后一層特征提取層進(jìn)行上采樣。卷積網(wǎng)絡(luò)輸出的特征圖譜是縮小的尺寸,因為最終預(yù)測的分割圖是基于像素的,所以需要對卷積網(wǎng)絡(luò)的輸出進(jìn)行反卷積操作。反卷積就是卷積計算的逆過程,可以從卷積過程中來推導(dǎo)反卷積的過程
Wn+1=(Wn+2p-k)/s+1
(5)
Hn+1=(Hn+2p-k)/s+1
(6)
式中,W表示寬度;p表示填充像素大??;k表示卷積核尺寸;s表示卷積的步幅??梢院苋菀淄茖?dǎo)到反卷積的公式
Wn=s+k-2p(Wn+1-1)
(7)
Hn=s+k-2pHn+1
(8)
本文使用卷積特征圖譜的后3層作為反卷積的輸入特征。
(9)
式(9)即為訓(xùn)練網(wǎng)絡(luò)的損失函數(shù)。
圖2 帶有編碼器和解碼器的SegNet架構(gòu)Fig.2 SegNet architecture with an encoder and a decoder
DCNNs得分圖可以可靠地預(yù)測圖像中已知的對象和粗略位置,但不太適合用于指向其精確的輪廓。卷積網(wǎng)絡(luò)的分類準(zhǔn)確度和定位精度之間有一個合適的權(quán)衡:具有多個最大池化層的深層模型在分類任務(wù)中被證明是成功的,然而過多的池化層所帶來的對空間不變性的提升與有效感受野增大的同時也使得從網(wǎng)絡(luò)輸出層根據(jù)得分推斷位置變得更具挑戰(zhàn)性。
解決這個問題目前有兩種方法:第1種方法是利用卷積網(wǎng)絡(luò)中多尺度的信息來更好地估計對象邊界[3,22];第2種方法是采用超像素表示,基本上將定位任務(wù)委托給低級分割方法,這種解決思路由文獻(xiàn)[23]提出。
條件隨機場已被廣泛應(yīng)用于平滑噪聲分割圖[24-25]。通常,這些模型包含耦合相鄰節(jié)點的能量項,有利于對空間鄰近像素的類別分配[26]。本質(zhì)上,這些短距離CRF的主要功能是清理基于局部手工設(shè)計的弱分類器的虛假預(yù)測。嚴(yán)格來說,這種模式適合于有效的近似概率推理[27]。本文通過融合DCNNs的識別能力和全連接的條件隨機場(CRF)的細(xì)粒度定位精度來尋求新的替代方向,通過試驗表明它在解決逐像素定位與分類方面取得了良好的結(jié)果,產(chǎn)生了準(zhǔn)確的語義分割結(jié)果以及恢復(fù)對象邊界的細(xì)節(jié)能力。
圖3所示為模型的分割流程。通過可變形卷積采樣POI區(qū)域,然后得到特征圖譜,使用特征圖譜來生成粗糙的縮小分割圖,再通過反卷積插值得到同尺寸的預(yù)測分割圖,最后將此粗糙的分割圖使用CRF進(jìn)行精細(xì)化分割,得到精細(xì)化的分割圖。
圖3 語義分割流程Fig.3 The flowchart of the proposed approach
本文使用ISPRS Vaihingen 2D語義標(biāo)簽遙感數(shù)據(jù)集[28]來評估本文提出的方法。這是一個開放的基準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)集由33幅大小不同的圖像組成,每幅圖像為300萬至1000萬像素,圖像是在德國Vaihingen地區(qū)拍攝的高分辨率正射影像,影像的平均尺寸約2493×2063像素,分辨率為9 cm。除了正射影像之外,數(shù)據(jù)集中還包含具有相同空間分辨率的數(shù)字表面模型(DSM)圖像。此外,文獻(xiàn)[29]提供了歸一化的DSM,以限制不同地面高度的影響。33幅圖像中的16幅圖像已被正確標(biāo)注,其中所有像素都被標(biāo)記,總共分為6個類別,即道路、建筑物、植被、樹木、車輛及雜類地物(例如集裝箱、網(wǎng)球場、游泳池等)。如以前在其他方法中所做的那樣,試驗中不包括雜類,因為雜類的像素面積僅占總圖像像素的0.88%。
ISPRS只提供16幅標(biāo)注的圖像進(jìn)行訓(xùn)練,而其余17幅圖像未標(biāo)注用于評估提交的方法。為了評估本文方法,有標(biāo)簽分類的數(shù)據(jù)集被分為訓(xùn)練集和驗證集。按照文獻(xiàn)[30]的例子,訓(xùn)練集包含11幅圖像(圖幅區(qū)域為1、3、5、7、13、17、21、23、26、32、37);驗證集包含5幅圖像(圖幅區(qū)域為11、15、28、30、34)。
高分辨率遙感圖像通常尺寸較大,無法整幅圖像通過卷積進(jìn)行處理。例如,來自Vaihingen數(shù)據(jù)集的ISPRS瓦片的平均尺寸為2493×2063像素,而大多數(shù)卷積操作的分辨率為256×256。鑒于目前的GPU內(nèi)存限制,本文使用滑動窗口將原始的遙感影像分割成較小的圖像塊。如果卷積步幅小于圖像塊尺寸,在連續(xù)圖像塊重疊的情況下,對多個預(yù)測進(jìn)行平均,以獲得重疊像素的最終分類。這可以平滑每個圖像塊邊界的預(yù)測,并消除可能出現(xiàn)的不連續(xù)性。
本文的目標(biāo)是將當(dāng)前計算機視覺領(lǐng)域中的典型的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用到地球觀測數(shù)據(jù)中,因此,使用最初為RGB數(shù)據(jù)設(shè)計的人工神經(jīng)網(wǎng)絡(luò),處理后的圖像必須遵守這種3通道格式。ISPRS數(shù)據(jù)集包含Vaihingen的IRRG圖像,因此,3個通道(近紅外、紅色和綠色)將被處理為RGB圖像。該數(shù)據(jù)集包含從空載激光傳感器獲取的數(shù)字表面模型(DSM)的數(shù)據(jù)。本文還將使用文獻(xiàn)[30]中的歸一化數(shù)字表面模型(NDSM),然后從近紅外和紅外通道計算歸一化差異植被指數(shù)(NDVI),最終使用DSM,NDSM和NDVI信息為每個IRRG圖像構(gòu)建一個相對應(yīng)的合成圖像。
本試驗中深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練設(shè)備為4核心8線程Intel I7-7700K CPU;32 GB內(nèi)存;NVIDIA GTX 1080顯卡,8 G顯存。軟件環(huán)境為Ubuntu16.04.01操作系統(tǒng);開發(fā)平臺是Anaconda 4.3.1;內(nèi)置的Python版本為3.6.1;深度學(xué)習(xí)軟件框架是TensorFlow1.2。本次試驗訓(xùn)練迭代次數(shù)為5e5,總訓(xùn)練時間為32 h 30 min。
本文使用隨機梯度下降方法訓(xùn)練網(wǎng)絡(luò)。學(xué)習(xí)率采用固定大小,本文使用的學(xué)習(xí)率為5e-3,學(xué)習(xí)率過大容易無法收斂,太小訓(xùn)練時間過長。批處理數(shù)量(batch)受到顯存大小的限制,所以本文設(shè)置batch=10。本文網(wǎng)絡(luò)特征提取層的權(quán)重使用了VGGNet[20]上進(jìn)行預(yù)訓(xùn)練的權(quán)重,遷移預(yù)訓(xùn)練的權(quán)重可以增強網(wǎng)絡(luò)在特征提取的性能。
本文使用ISPRS[28]定義的評估方法來評估結(jié)果,用F1分?jǐn)?shù)來評估試驗的結(jié)果
(10)
2.4.1 分割結(jié)果的比較
本文模型在ISPRSVaihingen數(shù)據(jù)集上獲得了良好的分割結(jié)果,分割結(jié)果參見表1。表1比較了采用CNNs、FCNs及SegNet作為自編碼器的網(wǎng)絡(luò)。圖4展示了采用本文方法與采用其他當(dāng)前主流人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的分割結(jié)果,分割圖中白色代表道路,藍(lán)色代表建筑物,青色代表植被,綠色代表樹木,黃色代表車輛。其中圖4(c)為文獻(xiàn)[31]中提出的傳統(tǒng)CNNs方法的影像分割結(jié)果;圖4(d)為文獻(xiàn)[32]中提出的FCNs方法的影像分割結(jié)果;圖4(e)為本文提出的方法的影像分割結(jié)果。
表1 ISPRS Vaihingen數(shù)據(jù)集語義分割結(jié)果
從試驗結(jié)果中可以看出,CNNs算法難以很好地分割不同地物類別的邊界,且整體分割精度較低,僅為85.9%。由圖4(c)可以看出植被、建筑物與道路之間的分割邊界很模糊并且不規(guī)整;其次是分割的地物中出現(xiàn)了很多類別錯誤,例如在植被區(qū)域出現(xiàn)了圖斑狀的樹木類別,導(dǎo)致植被的分割精度只有77.8%。究其原因,文獻(xiàn)[31]中已經(jīng)提及這是由于CNNs網(wǎng)絡(luò)對于空間變換沒有很強的自適應(yīng)能力。FCNs方法在邊界分割能力上有一定的提升。從圖4(d)可以看出,相較于CNNs方法,F(xiàn)CNs方法的分割邊界更加清晰并且更加規(guī)整,但是依然存在較多的分割錯誤,例如房屋的邊界不連續(xù)并且在車輛類別上的分割精度只有57.3%。從文獻(xiàn)[32]中得知,F(xiàn)CNs某種程度上解決了CNNs的一些缺點。該方法的內(nèi)在本質(zhì)是利用現(xiàn)有的CNNs作為強大的視覺模型,使得網(wǎng)絡(luò)能夠?qū)W習(xí)特征的層次結(jié)構(gòu)。盡管FCNs模型具有強大的性能和靈活性,但它仍然具有局限性,其內(nèi)在的空間不變性并沒有考慮有用的全局上下文信息,導(dǎo)致FCNs對細(xì)節(jié)不敏感。究其原因主要有兩點:一是固定尺寸的感受野,對于大尺度目標(biāo)而言,只能獲得該目標(biāo)的局部信息,導(dǎo)致目標(biāo)的某些部分將被錯誤分類,對于小尺度目標(biāo)而言,很容易被忽略或當(dāng)成背景處理;二是目標(biāo)的細(xì)節(jié)結(jié)構(gòu)容易被丟失,導(dǎo)致邊緣信息不充分,這是由于FCNs得到的特征圖譜過于粗糙,這樣用于上采樣操作的信息過于簡單。
本文提出的可變形卷積在空間變換上具有很強的自適應(yīng)性。因為在不同區(qū)域?qū)?yīng)的目標(biāo)尺寸是不相同的,如果感受野在不同區(qū)域的尺寸能夠進(jìn)行自適應(yīng)調(diào)整,這對于語義分割必然有很大幫助。從圖4(e)中可以看出,分割的邊界相較于CNNs與FCNs更加清晰規(guī)整,整體分割精度達(dá)到了90.7%??梢钥吹奖疚姆椒ㄏ啾纫訡NNs和FCNs作為自編碼器網(wǎng)絡(luò)的方法在各個類別的分割精度上均有提升,尤其在車輛這個類別上提升最多達(dá)到了85.7%的分割精度,說明本文方法對于小目標(biāo)物體的分割有著很高的適應(yīng)性。
圖4 試驗結(jié)果Fig.4 The experimental results
2.4.2 可變形卷積的理解
可變形卷積的理念是建立在一個容易理解的想法之上的??勺冃尉矸e是將空間采樣位置增加額外的偏移量,這些偏移量是以目標(biāo)任務(wù)為驅(qū)動的數(shù)據(jù)中學(xué)習(xí)到的。當(dāng)可變形模塊堆疊成多層時,復(fù)合變形的作用是顯著的。對于同一區(qū)域的5幅圖像,本文選取了不同尺度大小的地物(依次為車輛、建筑物、樹木、植被和道路)作為激活單元,分別展示不同地物的采樣位置,以此來可視化可變形卷積濾波器的工作原理。如圖5所示,其中綠色點代表激活單元的位置,藍(lán)色點代表對該地物的采樣位置,每幅圖像中展示了93=729個采樣點的位置。
2.4.3 可變形卷積與CRF的性能比較
為了定量量化本文提出的兩個模塊對于分割精度的作用,將CRF模塊與可變形卷積模塊單獨嵌入SegNet網(wǎng)絡(luò)中進(jìn)行試驗,以此來定量對比模塊的效果。CRF可以細(xì)化模型的分割輸出并提高其捕捉細(xì)粒度細(xì)節(jié)的能力。CRF能夠?qū)⒌图増D像信息(如像素間的交互)與產(chǎn)生逐個像素的類別得分的多類推理系統(tǒng)的輸出進(jìn)行組合。這種組合對于捕獲卷積層未能考慮的遠(yuǎn)程依賴關(guān)系特別重要,并且可以保留良好的局部細(xì)節(jié)。從圖6(b)中可以看到采用全連接的CRF顯著改善了分割結(jié)果,使模型能夠準(zhǔn)確捕獲復(fù)雜的對象邊界,尤其是車輛這類小目標(biāo)物體,可以看出相對于單獨使用SegNet網(wǎng)絡(luò)分割精度提升了11.9%。從局部分割圖中也可以看出,分割的邊界更加清晰,并且錯誤分類的孤立圖斑更少。經(jīng)過試驗比較,一般對CRF的迭代次數(shù)取為10次,多于10次以上性能提升不明顯,應(yīng)用CRF操作之后整體精度可以提升1%~2%左右。從圖6(c)可以看出對于道路、建筑物及樹木這些不規(guī)則的地物,可變形卷積有著很好的提升效果,尤其在道路的分割精度上提升了1.7%。這也證明了可變形卷積在空間變換上有著很好的自適應(yīng)能力。
圖5 可變形濾波器的采樣位置Fig.5 Sampling locations of deformable filters
圖6 可變形卷積與條件隨機場的分割對比Fig.6 Comparing deformable convolution with conditional random field segmentation
本文研究了深度卷積神經(jīng)網(wǎng)絡(luò)在遙感影像語義分割中的應(yīng)用。當(dāng)前使用卷積網(wǎng)絡(luò)來分割影像已經(jīng)取得了很大的進(jìn)展,但是由于傳統(tǒng)的卷積方式無法有效地模擬幾何變換,導(dǎo)致分割能力受到限制。相比之下,本文采用的可變形卷積方法對空間變換有著很強的自適應(yīng)能力。準(zhǔn)確捕獲復(fù)雜地物的邊界一直都是語義分割的難點,為此本文在神經(jīng)網(wǎng)絡(luò)的輸出層加入了結(jié)構(gòu)化的后處理步驟——條件隨機場,并通過試驗驗證其有效性。本文也展示了如何為這種級聯(lián)方法構(gòu)建訓(xùn)練實例,并在ISPRS 2D Vaihingen數(shù)據(jù)集上驗證了本文方法。由表1可以看出,本文方法獲得了良好的分割結(jié)果。今后,殘差校正是否能改善不同拓?fù)渚W(wǎng)絡(luò)的分割性能是下一步研究目標(biāo)。