張文凱,劉文杰,3,4*,孫顯,許光鑾,付琨
1. 中國科學(xué)院空天信息創(chuàng)新研究院, 北京 100190; 2. 中國科學(xué)院網(wǎng)絡(luò)信息體系重點實驗室, 北京 100190;3. 中國科學(xué)院大學(xué), 北京 100190; 4. 中國科學(xué)院大學(xué)電子電氣與通信工程學(xué)院, 北京 100190
隨著高分辨率對地觀測系統(tǒng)重大專項的推進(jìn),高分辨率遙感影像語義分割在戰(zhàn)場環(huán)境構(gòu)建、環(huán)境監(jiān)測以及國土規(guī)劃、城市規(guī)劃等方面扮演著重要的角色,一直是遙感領(lǐng)域中一個長期研究的課題。與遙感場景中的目標(biāo)檢測和分類不同,遙感影像語義分割旨在將語義標(biāo)簽分配給圖像中的每個像素。傳統(tǒng)的基于手工特征的分割算法由于其有限的特征表達(dá)能力,導(dǎo)致模型訓(xùn)練泛化能力不強(qiáng)。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(LeCun等,1989)在語義分割等計算機(jī)視覺任務(wù)中展示了卓越的特征學(xué)習(xí)能力,并且在自然場景的分割任務(wù)中也取得了許多重大突破。Long等人(2015)提出的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)可以在可變大小的圖像上以端到端的方式訓(xùn)練深層網(wǎng)絡(luò)進(jìn)行語義分割,在語義分割領(lǐng)域具有開創(chuàng)性的意義。受FCN的啟發(fā),提出了各種結(jié)構(gòu)和方法以進(jìn)一步增強(qiáng)語義分割性能,典型的網(wǎng)絡(luò)如SegNet(Badrinarayanan等,2017)、PSPNet(pyramid scene parsing network)(Zhao等,2017)和DeepLab(Chen等,2018)等。其中,SegNet設(shè)計了編碼器—解碼器結(jié)構(gòu),通過編碼器提取特征并下采樣特征圖尺寸,再利用解碼器恢復(fù)低分辨率的特征映射,來獲取更精細(xì)的分割結(jié)果。PSPNet通過金字塔池化模塊引入更多的上下文信息,從而對尺度較大或較小的目標(biāo)具有更好的識別效果。DeepLab V3+采用空洞卷積,在不增加參數(shù)數(shù)量的前提下增大感受野,更好地提取圖像特征。
與此同時,自然場景中語義分割任務(wù)取得的巨大突破也極大地鼓舞了語義分割在遙感領(lǐng)域的研究。然而,與自然場景可見光圖像不同,遙感影像具有復(fù)雜的光譜特性,并且目標(biāo)多樣、分布不均衡,這給遙感影像語義分割帶來了一定挑戰(zhàn)。目前遙感場景語義分割主要存在兩大挑戰(zhàn):1)遙感地物形態(tài)多樣、尺度差異大,解譯困難;2)光譜特征相近但屬于不同類別的物體難以區(qū)分(如草坪和樹、道路和屋頂)。
針對挑戰(zhàn)1),許多研究表明,上下文語義建模能夠為語義分割任務(wù)提供重要的線索,可以很好地解決遙感場景中目標(biāo)種類繁多、尺度差異大等問題。其中一個重要的方向就是在預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的頂部應(yīng)用新的層,集成更多的上下文信息以擴(kuò)大其有效感受野,達(dá)到精細(xì)化分割物體。捕獲上下文依賴主要有3種途徑:1)基于多尺度信息的上下文建模。PSPNet采用金字塔池化模塊將特征圖劃分成不同的尺度區(qū)域,通過平均每個區(qū)域的像素作為該區(qū)域中每個像素的局部上下文信息。DeepLab V3+網(wǎng)絡(luò)中引入了一個空洞空間金字塔池(atrous spatial pyramid pooling,ASPP)以在多個尺度上捕獲有用的上下文信息?;诙喑叨刃畔⒌纳舷挛慕J腔诰矸e和池化(非全局池化)等局部操作的,直接重復(fù)卷積層在計算上效率低下且難以優(yōu)化,因而這種模型往往很難捕捉到實體之間的長距離空間關(guān)系。2)基于圖形模型的上下文建模。為了獲得更好的語義分割效果,有很多基于圖形模型的方法被采用。例如,在DeepLab V3+中的工作使用條件隨機(jī)場(conditional random field,CRF)作為后處理,以生成更平滑的預(yù)測圖。Zheng 等人(2015)和Liu等人(2015)進(jìn)一步使CRF模塊可微,并將其集成為網(wǎng)絡(luò)內(nèi)的聯(lián)合訓(xùn)練部分。然而,這些方法對外觀的變化很敏感,并且由于需要迭代推理過程而代價高昂。3)基于自注意力機(jī)制的上下文建模。DANet(dual attention network)(Fu等,2019)和CCNet(criss-cross network)(Huang等,2019)利用非局部塊思想通過模擬像素級的成對關(guān)系來聚集遠(yuǎn)程空間信息。但是過高的計算成本和大量的GPU內(nèi)存占用阻礙了它在許多實際應(yīng)用中的使用。為了在有效建模上下文信息的同時有較低的算法復(fù)雜度,相比于上述方法,本文設(shè)計了一個輕量化的全局上下文聚合模塊。該模塊從空間和通道兩個維度,通過建模圖像中像素點之間的遠(yuǎn)程關(guān)系來捕獲關(guān)系增強(qiáng)的特征表示,進(jìn)一步提升高分辨率遙感影像語義分割效果。
針對挑戰(zhàn)2),由于單一模態(tài)數(shù)據(jù)的特征表達(dá)能力有限,當(dāng)面對光譜特征相似的地物時(如草坪和樹、道路和屋頂),僅利用可見光圖像很難進(jìn)行區(qū)分。一個直接方法是顯式地將幾何相關(guān)數(shù)據(jù)(如數(shù)字表面模型(digital surface model,DSM))作為附加輸入進(jìn)行多源數(shù)據(jù)融合(Qin和Fang,2014;Marcos等,2018;Cao等,2019)。按照特征融合的先后順序,這些方法可以分為早期融合、中期融合和后期融合。一種直觀的早期融合技術(shù)是將來自多個模式的數(shù)據(jù)按通道方向進(jìn)行疊加,并將其作為4個或6個通道數(shù)據(jù)輸入到網(wǎng)絡(luò)。Marcos等人(2018)簡單地結(jié)合了近紅外、紅綠(infrared、red、green,IRRG)光譜和數(shù)字表面模型(DSM)作為網(wǎng)絡(luò)的輸入,這種圖像級融合方法由于沒有充分利用異構(gòu)信息之間的關(guān)系,會在訓(xùn)練中引入冗余特征。中期融合的方法,又稱為分層融合,結(jié)合了來自不同層次的多模態(tài)特定編碼器的特征映射(通常在每個下采樣階段),并使用單個解碼器對融合后的特征進(jìn)行上采樣。Marmanis等人(2016)設(shè)計并行分支網(wǎng)絡(luò)來提取IRRG圖像和DSM數(shù)據(jù)特征,并在中間層進(jìn)行模態(tài)特征交互,但這種龐大的結(jié)構(gòu)帶來了大量的參數(shù),對硬件的要求較高,并且在訓(xùn)練和推理階段會耗費大量時間。后期融合的方法通常設(shè)計相同的網(wǎng)絡(luò)流,首先在特定的模式下單獨訓(xùn)練,然后使用級聯(lián)或元素級求和將特征映射融合到網(wǎng)絡(luò)的末端,典型的代表有V-FuseNet(Audebert等,2018),使用兩個卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)分別對光譜數(shù)據(jù)和DSM數(shù)據(jù)進(jìn)行處理,并采用元素相加的方式進(jìn)行融合。這種級聯(lián)或者相加的融合方式并不能使網(wǎng)絡(luò)適應(yīng)不斷變化的場景上下文??傊捎诳梢姽夂透叱虜?shù)據(jù)的特征分布在不同場景中差異較大,簡單地在網(wǎng)絡(luò)結(jié)構(gòu)的早期、中期和后期對多個模態(tài)流特征進(jìn)行級聯(lián),未能有效利用多模態(tài)數(shù)據(jù)的互補(bǔ)信息。為了更好地解決這一問題,本文提出了一個多源特征自適應(yīng)融合網(wǎng)絡(luò),如圖1所示,它利用兩個主干網(wǎng)絡(luò)分別提取了IRRG光譜圖像特征和DSM高程信息特征。為了根據(jù)輸入的場景上下文動態(tài)地重新校準(zhǔn)特征映射,本文利用模態(tài)自適應(yīng)融合塊顯式地建模兩個模態(tài)特征映射之間的相關(guān)性,將高程信息應(yīng)用到光譜通道中,進(jìn)一步強(qiáng)化目標(biāo)的類間相似性;同時避免了引入大量冗余特征,減少噪聲的影響。
綜上所述,本文的主要貢獻(xiàn)概述如下:
1)提出了一個多源特征自適應(yīng)融合網(wǎng)絡(luò)模型(multi-source features adaptation fusion network,MSFAFNet),同時利用光譜信息和DSM信息來提高高分辨率遙感圖像的分割性能。
2)提出了一種模態(tài)自適應(yīng)融合模塊(modality adaptation fusion block,MAB),該模塊依據(jù)像素的目標(biāo)類別以及上下文信息動態(tài)地進(jìn)行特征融合,從而有效地將DSM特征融合到光譜特征中。
3)提出了一個高效的全局上下文聚合模塊(global context aggregation module, GCAM),從空間和通道角度對全局上下文進(jìn)行建模。
4)在公開的ISPRS(International Society for Photogrammetry and Remote Sensing) Vaihingen數(shù)據(jù)集和高分衛(wèi)星GID(Gaofen Image Dataset)數(shù)據(jù)集上與當(dāng)前算法進(jìn)行對比,實驗結(jié)果表明,本文提出的MSFAFNet在不進(jìn)行任何后處理操作的情況下可以獲得良好的結(jié)果。
基于多源特征自適應(yīng)融合的遙感影像語義分割網(wǎng)絡(luò)整體框架如圖1所示,它基于兩個高效的單模態(tài)語義分割框架 (efficient unimodal segmentation architecture,EUSA),主要包含負(fù)責(zé)IRRG光譜特征提取的下分支、負(fù)責(zé)DSM高程特征提取的上分支、模態(tài)自適應(yīng)融合塊、全局上下文聚合模塊以及分類器5個部分。網(wǎng)絡(luò)采用雙輸入模式,本文以IRRG光譜圖像和歸一化DSM圖像作為輸入,分別通過不同參數(shù)的ResNet101(He等,2016)網(wǎng)絡(luò)來提取可見光圖像的光譜特征和深度圖像的幾何特征。與DANet(Fu等,2019)和CCNet(Huang等,2019)工作類似,本文網(wǎng)絡(luò)首先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后通過去除主干網(wǎng)絡(luò)第3階段和第4階段的最后兩個下采樣操作,使用空洞卷積(Chen等,2018)來保持輸出特征為原始輸入圖像1/8的空間分辨率。
圖1 多源特征自適應(yīng)融合網(wǎng)絡(luò)的整體框架Fig.1 The pipeline of the proposed MSFAFNet
然后經(jīng)過模態(tài)自適應(yīng)融合塊顯式地建模兩個模態(tài)特征映射之間的相關(guān)性,以便根據(jù)輸入的場景上下文動態(tài)地重新校準(zhǔn)特征映射。這一過程將DSM圖像所包含的高程信息與IRRG圖像所提取的光譜特征依據(jù)像素的目標(biāo)類別以及上下文信息動態(tài)地進(jìn)行模態(tài)特征融合。通過合理地將高程信息應(yīng)用到光譜通道中,進(jìn)一步增大了地物目標(biāo)類間相似性;同時避免了引入大量冗余特征,減少噪聲的影響。
最后綜合考慮分割精度與內(nèi)存資源消耗,本文引入了輕量化的全局上下文聚合模塊,在空間和通道維度對融合后的特征信息進(jìn)行全局上下文建模,最后通過上采樣操作得到最終的分割結(jié)果。
在高分辨率遙感圖像中存在許多相似視覺特征的地物類別,例如草坪和樹林、屋頂和道路等。僅使用多光譜數(shù)據(jù)的基線網(wǎng)絡(luò)FCN在分辨相似的地物時往往會出現(xiàn)區(qū)域誤判,研究發(fā)現(xiàn)誤判的主要原因是單一模態(tài)數(shù)據(jù)特征表達(dá)能力有限。為解決此問題,需要對IRRG圖像特征和DSM數(shù)據(jù)特征進(jìn)行很好地融合。
為了自適應(yīng)地重新校準(zhǔn)和融合來自特定模態(tài)網(wǎng)絡(luò)的特征,本文提出了一種新的結(jié)構(gòu)單元——模態(tài)自適應(yīng)融合塊。模態(tài)自適應(yīng)融合塊是在IRRG圖像特征和DSM數(shù)據(jù)特征融合前,顯式地建模兩個模態(tài)特征映射之間的相關(guān)性,以便根據(jù)輸入的場景上下文動態(tài)地重新校準(zhǔn)特征映射。網(wǎng)絡(luò)通過學(xué)習(xí)來利用兩種模態(tài)的互補(bǔ)特征,通過合理地將高程信息應(yīng)用到光譜通道中,進(jìn)一步增大了地物目標(biāo)類間相似性;同時避免了引入大量冗余特征,減少噪聲的影響。本文利用卷積操作來構(gòu)建模態(tài)自適應(yīng)融合塊,使得網(wǎng)絡(luò)可以針對特定的對象類別或者空間位置來選擇特定模態(tài)網(wǎng)絡(luò)的特征信息。
模態(tài)自適應(yīng)融合塊如圖2所示。本文假設(shè)T={(An,Bn,Dn)|n=1,…,N}表示多模態(tài)語義分割訓(xùn)練集,其中,An={ar|r=1,…,p}代表模態(tài)IRRG,Bn={br|r=1,…,p}代表模態(tài)DSM,Dn={dr|r=1,…,p}表示真值,這里dr取值為{1,…,C}表示數(shù)據(jù)集的語義類別。假設(shè)Xa∈RC×H×W,Xb∈RC×H×W分別代表模態(tài)IRRG和模態(tài)DSM的輸入,其中,C表示特征通道數(shù),H×W代表輸入圖像大小。
圖2 模態(tài)自適應(yīng)融合塊Fig.2 Modality adaptation fusion block
本文設(shè)計的模態(tài)自適應(yīng)融合塊可以利用下面步驟實現(xiàn):
1)Xa,Xb經(jīng)過簡單連接得到Xab;
2)將Xab連續(xù)通過兩個3×3的卷積層,具體為
s=F(Xab;W)=σ(g(Xab;W))=
σ(W2δ(W1Xab))
(1)
式中,F(xiàn)(·)表示對級聯(lián)后的特征Xab進(jìn)行重新校準(zhǔn),旨在適應(yīng)融合前的特征映射,g()表示對特征的嵌入學(xué)習(xí)。其中第1個卷積層權(quán)重為W1,非線性函數(shù)δ(·)采用的是ReLU函數(shù);第2個卷積層權(quán)重為W2,這里σ(·)采用Sigmoid函數(shù),目的是將激活的動態(tài)范圍縮放到[0,1]區(qū)間。
3)利用上述得到的s對Xa進(jìn)行加權(quán),即
(2)
式中,F(xiàn)s表示s對Xa進(jìn)行加權(quán)的函數(shù),?表示對Xa和s進(jìn)行哈達(dá)瑪乘積。最后經(jīng)過一個權(quán)重為W3的3×3的卷積層和一個batch normalization層,得到最終的融合結(jié)果,即
(3)
式中,G表示融合操作函數(shù),Xf∈RC×H×W表示模態(tài)IRRG與DSM最終融合后的特征表示。
本文提出了一個新的全局上下文建模框架,稱為全局上下文聚合模塊,如圖3所示。它結(jié)合了非局部塊(Wang等,2018)和壓縮激勵塊(squeeze-and-excita-tion,SE)(Hu等,2020)的優(yōu)點,具體包括了3個部分:上下文建模、特征變換以及最終的融合模塊。整體流程表示為
(4)
圖3 全局上下文聚合模塊Fig. 3 Global context aggregation module
全局上下文聚合模塊可以抽象為3個部分:1)利用非局部塊的思想建模全局上下文信息。在SE(Hu等,2020)的工作中利用全局平均池化的方式來對全局上下文信息進(jìn)行建模,這種方式對于像素點之間的遠(yuǎn)程依賴性建模不足。本文的全局上下文聚合模塊利用非局部塊的思想,通過將全局上下文信息添加到所有位置來捕獲遠(yuǎn)程依賴。2)利用輕量化的瓶頸變換模塊來進(jìn)行特征變換。非局部塊中的變換模塊是一個1×1卷積層,通常高層特征的通道數(shù)數(shù)目龐大,這使得變換模塊具有大量的參數(shù)。為了獲得輕量化特性,本文利用SE(Hu等,2020)中的瓶頸變換模塊來代替1×1卷積。首先通過一個1×1卷積將通道數(shù)降為C/r,然后采用了layer normalization,極大地簡化了兩層瓶頸轉(zhuǎn)換結(jié)構(gòu)的優(yōu)化,最后再通過一個1×1卷積將通道數(shù)升為C。最終該模塊將參數(shù)數(shù)目從C×C顯著減少到2×C×C/r,其中r是瓶頸比率,C/r表示瓶頸的隱藏維數(shù)。Sigmoid函數(shù)的主要目的是計算每個通道之間的重要程度。3)利用融合模塊(按元素相乘)重新校準(zhǔn)通道特征。
2.1.1 ISPRS Vaihingen數(shù)據(jù)集
為了分析MSFAFNet及其在包含多光譜信息和DSM信息的高分辨率遙感影像中的性能,本文在公開的ISPRS Vaihingen數(shù)據(jù)集上進(jìn)行實驗。該數(shù)據(jù)集包含33幅IRRG正射影像和相應(yīng)的DSM數(shù)據(jù),影像和DSM數(shù)據(jù)分辨率均為9 cm,其中每幅影像均包含6個類別,即不透明表面、建筑物、低植被、樹、汽車和雜波/背景。圖4展示了ISPRS Vaihingen數(shù)據(jù)集樣例,從左至右分別是正射影像、DSM圖和真值標(biāo)簽。
圖4 ISPRS Vaihingen 數(shù)據(jù)集樣例Fig.4 ISPRS Vaihingen sample dataset ((a)true orthophoto;(b) DSM;(c) ground truth)
實驗時選擇其中的16幅影像用于訓(xùn)練,剩余的17幅影像用于測試。為了消除地形或地面的影響,本文對DSM進(jìn)行歸一化處理。針對GPU有限的資源,對所有訓(xùn)練圖像和標(biāo)簽隨機(jī)裁剪為512×512像素,并對所有的裁剪切片進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)和尺度變換等數(shù)據(jù)增強(qiáng)操作。
2.1.2 GID數(shù)據(jù)集
GID數(shù)據(jù)集是由高分2號衛(wèi)星數(shù)據(jù)(GF-2)構(gòu)建的大規(guī)模地表覆蓋數(shù)據(jù)集,有效空間分辨率為1 m,且每幅圖像尺寸為7 200×6 800像素,由于其覆蓋范圍大、分布廣、空間分辨率高,比現(xiàn)有的地表覆蓋數(shù)據(jù)集具有更大的優(yōu)勢。在GID的大規(guī)模分類集中,共標(biāo)注了6個主要類別:建筑物、農(nóng)田、森林、草地、水域以及背景區(qū)域,分別用6種不同顏色標(biāo)記:紅色、綠色、青色、黃色、藍(lán)色和黑色。圖5展示了GID圖像的實例及其相應(yīng)的標(biāo)簽。
圖5 GID圖像的實例及其相應(yīng)的標(biāo)簽Fig.5 Examples of GF-2 images and their corresponding ground truth((a)true orthophoto; (b) ground truth)
實驗時選擇GID數(shù)據(jù)集中的11幅影像用于訓(xùn)練,另外選擇8幅影像用于測試。針對GPU有限的資源,對所有訓(xùn)練圖像和標(biāo)簽隨機(jī)裁剪為512×512像素,并對所有的裁剪切片進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)和尺度變換等數(shù)據(jù)增強(qiáng)操作。
為了評估本文網(wǎng)絡(luò)的性能,使用計算前景對象類的F1分?jǐn)?shù),即
(5)
式中,β通常設(shè)置為1。pc表示準(zhǔn)確率,rc則表示召回率。交并比(intersection over union, IoU)和整體精度(overall accuracy, OA)分別定義為
(6)
(7)
式中,TP,TN,F(xiàn)P和FN分別代表真正類(true positive)、真負(fù)類(true negative)、假正類(false positive)以及假負(fù)類(false negative)。值得注意的是,為了與不同模型進(jìn)行全面比較,本文計算了所有類別(包括背景)的總體精度。在驗證集上,本文使用帶有侵蝕邊界的地面真實情況進(jìn)行評估。
為了驗證模型的有效性,本文進(jìn)行了3組實驗: 全局上下文聚合模塊的消融實驗、融合方式實驗以及與其他方法的對比實驗,并分別評估了相應(yīng)的模型。首先在單模態(tài)IRRG驗證集上,對本文提出的全局上下文聚合模塊進(jìn)行了消融實驗,并驗證了本文模塊的輕量化效果。接著在多模態(tài)驗證集上,對本文提出的多模態(tài)自適應(yīng)融合方式的有效性進(jìn)行驗證。最后基于ISPRS Vaihingen測試數(shù)據(jù)集,利用F1分?jǐn)?shù)、OA、mIoU(mean IoU)等指標(biāo)與其他方法進(jìn)行了比較。
2.4.1 全局上下文聚合模塊的消融實驗分析
為了驗證本文提出的全局上下文聚合模塊的有效性,本文與PPM (pyramid pooling module)、ASPP、NLB(non-local block)和SE上下文聚合方法進(jìn)行了比較,輸入相同的采用單模IRRG的光譜圖像,評估標(biāo)準(zhǔn)為OA值、mIoU、參數(shù)和計算量開銷。其中參數(shù)和計算開銷是針對增加的語義聚合模塊進(jìn)行計算的,在推斷階段,處理的特征尺寸為[1×2 048×64×64]。為公平起見,以上所有實驗都是在相同的訓(xùn)練/測試環(huán)境下進(jìn)行的,所有框架的主干網(wǎng)絡(luò)采用ResNet101。基準(zhǔn)實驗Baseline不采用任何語義聚合策略,SE為壓縮激勵塊,NLB_2為非局部塊(下采樣2),NLB為非局部塊,ASPP為DeepLab V3+中的空洞空間金字塔池化模塊,PPM為PSPNet中的金字塔池化模塊。
由表1可知,提出的高效單模態(tài)語義分割框架EUSA(在Baseline的基礎(chǔ)上增加了全局上下文聚合模塊)在引入少量參數(shù)和計算量的前提下,OA值和mIoU值相較于Baseline分別提高了1.55%和3.05%。此外,提出的全局上下文聚合模塊相比于SE、非局部塊、ASPP以及PPM而言,OA值分別提升了0.26%, 0.2%, 0.18%和0.22%;mIoU值分別提升了0.95%,0.65%,0.67%以及0.3%;并且參數(shù)量和計算量大大減少,表明了本文提出的全局上下文聚合模塊的有效性。
表1 全局上下文聚合模塊與壓縮激勵塊、非局部塊、空洞空間金字塔池化塊和金字塔池化塊的比較Table 1 Comparison with SE, NLB, ASPP and PPM
2.4.2 融合方式實驗分析
遙感場景中可見光圖像和高程數(shù)據(jù)的特征分布差異較大,直接相加或者級聯(lián)的多模態(tài)特征融合方式未能有效利用多模態(tài)數(shù)據(jù)的互補(bǔ)信息,相反會引入額外的冗余信息甚至噪聲信息,不利于遙感影像的分割結(jié)果。為了根據(jù)輸入的場景上下文動態(tài)地重新校準(zhǔn)特征映射,本文設(shè)計了一個新的模態(tài)自適應(yīng)融合模塊。此外,進(jìn)一步對不同模態(tài)的融合方式進(jìn)行了對比實驗,實驗結(jié)果如表2所示。其中Baseline仍為FCN,輸入為單模IRRG圖像;Add表示輸入為IRRG和DSM圖像,按元素相加的方式進(jìn)行特征融合;Concat表示輸入為IRRG和DSM圖像,采用級聯(lián)的方式進(jìn)行特征融合;MAB則表示利用本文提出的模態(tài)自適應(yīng)融合方式。正如表2所示,本文提出的模態(tài)自適應(yīng)塊相比于Baseline在OA值和mIoU值分別提升了1.32%,2.33%。在同一主干網(wǎng)絡(luò)ResNet101中,MAB與按元素相加的融合方式相比,OA值和mIoU值分別提升了0.24%和1.73%;MAB與在通道維度級聯(lián)的方式相比,OA值和mIoU上分別提升了0.15%和2.28%。實驗結(jié)果表明了本文提出的模態(tài)自適應(yīng)塊的有效性。
表2 不同融合方式的對比Table 2 Comparison of different fusion methods
2.4.3 與其他方法的對比實驗分析
在圖6中,本文給出了ISPRS Vaihingen測試集語義分割結(jié)果示意圖,可以看到用紅色方塊標(biāo)記的顏色相似區(qū)域的分割結(jié)果比基準(zhǔn)baseline得到的結(jié)果有明顯的改善。
圖6 ISPRS Vaihingen測試集語義分割結(jié)果示意圖Fig.6 Schematic of semantic segmentation results of ISPRS Vaihingen dataset((a)IRRG images; (b)label images; (c)baseline;(d)MSFAFNet)
本文提出的MSFAFNet模型在ISPRS Vaihingen測試集上的定量性能分析如表3所示。分別與IS-PRS Vaihingen挑戰(zhàn)的其他最佳發(fā)布方法進(jìn)行了比較,并將F1分?jǐn)?shù)、全局精度以及平均交并比評價結(jié)果列在表3中。值得注意的是,大多數(shù)方法都和本文一樣采用ResNet101作為主干網(wǎng)絡(luò),總體準(zhǔn)確率為90.77%,F(xiàn)1平均得分為90.27%,mIoU為82.47%,其中每一類的F1得分幾乎都是最高的。
表3 多源特征自適應(yīng)融合網(wǎng)絡(luò)與其他方法的比較Table 3 Comparison of MSFAFNet with state-of-the-art methods /%
本文在單模態(tài)可見光影像GID數(shù)據(jù)集上進(jìn)行實驗,以進(jìn)一步評估高效單模態(tài)語義分割框架EUSA的有效性。根據(jù)經(jīng)驗,在GID數(shù)據(jù)集上采用與ISPRS Vaihingen數(shù)據(jù)集相同的訓(xùn)練和測試參數(shù)設(shè)置。與當(dāng)前最優(yōu)方法的比較如表4所示,EUSA的總體準(zhǔn)確率為82.11%,平均IoU為69.27%,尤其在建筑物、農(nóng)田、草地以及水域達(dá)到了最優(yōu)的效果。
表4 高效單模語義分割框架與其他方法的比較Table 4 Comparison of EUSA with state-of-the-art methods /%
在圖7中,本文給出了GID數(shù)據(jù)集語義分割結(jié)果示意圖,可以看到用白色方塊標(biāo)記的顏色相似區(qū)域的分割結(jié)果比基準(zhǔn)Baseline得到的結(jié)果有明顯的改善。
圖7 GID數(shù)據(jù)集語義分割結(jié)果示意圖Fig.7 Schematic of semantic segmentation results of GID dataset((a) IRRG images; (b) label images; (c) baseline; (d) MSFAFNet)
針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型對遙感影像的幾何特征沒有進(jìn)行充分挖掘以及像素點之間上下文關(guān)系建模不足等問題,本文提出了一個端到端的多源特征自適應(yīng)融合網(wǎng)絡(luò)MSFAFNet,在ResNet101的基礎(chǔ)上引入高程支路對DSM數(shù)據(jù)的高程信息進(jìn)行提取,并利用模態(tài)自適應(yīng)融合塊依據(jù)像素的目標(biāo)類別以及上下文信息動態(tài)地進(jìn)行模態(tài)特征融合以獲取更具判別性的特征映射。通過引入多種模態(tài)遙感數(shù)據(jù),利用多種模態(tài)間特征的互補(bǔ)特性來提取遙感場景中含有歧義的地物要素。本文在ISPRS Vaihingen數(shù)據(jù)集上進(jìn)行了測試,結(jié)果表明MSFAFNet分割性能要優(yōu)于其他經(jīng)典的模型,實現(xiàn)了建筑物、道路等大物體以及汽車等小目標(biāo)較為準(zhǔn)確的分割。
此外,通過全局上下文聚合模塊高效地對全局上下文進(jìn)行了建模,在減少參數(shù)運算的同時,提高了分割準(zhǔn)確率。在高分衛(wèi)星GID數(shù)據(jù)集上對全局上下文聚合模塊進(jìn)行了測試,結(jié)果表明高效單模語義分割框架EUSA可以很好地建模像素之間的遠(yuǎn)程關(guān)系,在建筑物、農(nóng)田、草地以及水域等類別上達(dá)到了最優(yōu)的效果,且具有很好的泛化作用。
本文提出的MSFAFNet在提升分割性能的同時增加了大量的網(wǎng)絡(luò)參數(shù)和計算復(fù)雜度。因而利加輕量級網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)以及對多模態(tài)數(shù)據(jù)地物要素分類網(wǎng)絡(luò)的其他結(jié)構(gòu)進(jìn)行相應(yīng)的輕量化設(shè)計很有必要,后續(xù)工作將單個任務(wù)解耦為語義分割和高程估計兩個任務(wù),通過設(shè)計一個高程信息蒸餾的輕量級網(wǎng)絡(luò),從可見光影像中聯(lián)合學(xué)習(xí)2D語義和3D幾何特征,利用蒸餾的高程特征來進(jìn)一步輔助語義分割結(jié)果。
致 謝衷心感謝德國攝影測量、遙感和地理信息學(xué)會(DGPF)提供Vaihingen數(shù)據(jù)集(http://www.ifp.uni-stuttgart.de/dgpf/DKEPAllg.html.),中國武漢大學(xué)提供的高分影像數(shù)據(jù)集(GID)。