郭楊亮, 馬瑞娟, 韓子清
(1.河南省地球物理空間信息研究院,鄭州 450009;2.河南省地質(zhì)礦產(chǎn)勘查開發(fā)局第五地質(zhì)勘查院,鄭州 450052; 3.河南省地質(zhì)調(diào)查院,鄭州 450007)
隨著遙感技術(shù)的發(fā)展,遙感影像的空間分辨率不斷提高,為獲取高分辨率遙感影像提供了便利[1]. 從高分辨率遙感圖像中提取建筑物在城市規(guī)劃、人口估算、災(zāi)害監(jiān)測和智慧城市建設(shè)中發(fā)揮著重要作用[2]. 傳統(tǒng)的建筑物提取方法主要使用人工建圖,存在效率低、成本高的問題,不能滿足實(shí)時(shí)性要求[3]. 計(jì)算機(jī)視覺和模式識別的進(jìn)步,使許多自然光學(xué)圖像處理方法被已廣泛應(yīng)用于遙感建筑物提取任務(wù). 然而,不同的光照條件、圖像采集角度和建筑材料不可避免地對遙感圖像中建筑物的準(zhǔn)確提取提出了更大的挑戰(zhàn).
以往的遙感影像建筑物提取研究主要依賴于影像的基本特征,如光譜、形狀、輪廓、紋理、顏色、陰影等,在這一領(lǐng)域已經(jīng)提出了一些有效的方法. Zheng和Wang[4]提出了一種基于對象的馬爾可夫隨機(jī)場(OMRF)模型進(jìn)行建筑物提取,該模型通過區(qū)域大小和邊緣特征信息建立加權(quán)區(qū)域鄰接圖,然后使用帶有區(qū)域懲罰項(xiàng)的OMRF來完成準(zhǔn)確的建筑區(qū)域提??;Zhang等[5]提出了一種基于顯著性分析的建筑物提取方法,通過傅里葉變換和自適應(yīng)小波提取遙感圖像的多尺度紋理和邊緣特征;Xie 和Zhou[6]使用擴(kuò)展多分辨率分割(EMRS)和反向傳播(BP)網(wǎng)絡(luò)完成了建筑區(qū)域提取,其中EMRS用于多尺度空間分辨率特征表示,BP網(wǎng)絡(luò)用于分類具有不同建筑區(qū)域的像素點(diǎn);Liu等[7]提出了一種局部競爭超像素分割方法,可以有效融合遙感圖像的空間分辨率和多尺度特征,完成建筑區(qū)域的準(zhǔn)確提取;Li等[8]提出了一種基于混合稀疏表示的建筑物提取方法,將遙感圖像分割成具有不同分量的子圖組合,然后用稀疏表示來表達(dá)不同的子圖特征,并使用支持向量機(jī)完成建筑物區(qū)域的提取. 以上基本特征的建筑物提取方法取得了一定的效果. 然而,由于對遙感圖像中包含的深層語義特征和全局空間特征的提取不足,其分割提取結(jié)果仍然存在邊界信息丟失和形狀結(jié)構(gòu)不完整等問題.
近年來,得益于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)強(qiáng)大的特征提取和表示能力,它被廣泛應(yīng)用于圖像分類、目標(biāo)檢測、圖像分割和目標(biāo)跟蹤[9-11]. CNNs是一種局部連接和權(quán)重共享的深度前饋神經(jīng)網(wǎng)絡(luò)模型,對輸入信息具有很強(qiáng)的局部不變性,可以自動(dòng)獲取不同尺度的特征信息. 因此,使用CNNs可以解決傳統(tǒng)建筑物提取方法中手動(dòng)設(shè)計(jì)特征提取器的問題. 現(xiàn)有的基于CNNs的建筑物提取方法可以概括為以下幾類:①第一種方法是基于CNNs的圖像分類任務(wù),其中將固定大小的圖像放入CNNs模型中并預(yù)測一個(gè)或幾個(gè)像素;②第二種方法稱為面向?qū)ο蟮腃NNs語義分割,將圖像分割與神經(jīng)網(wǎng)絡(luò)分類相結(jié)合;③第三種方法稱為語義分割,基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN). Xu等[12]提出了一種結(jié)合深度殘差網(wǎng)絡(luò)和引導(dǎo)濾波的建筑物提取方法,利用殘差網(wǎng)絡(luò)提取遙感圖像的多尺度分辨率特征,然后通過引導(dǎo)濾波對建筑物區(qū)域進(jìn)行逐像素分割;Hui等[13]提出了一種用于建筑物提取的多任務(wù)U-Net模型,該模型利用多特征跳躍連接來獲得遙感圖像的空間分辨率,并通過多任務(wù)學(xué)習(xí)來融合建筑物的區(qū)域結(jié)構(gòu)特征信息;Zhang等[14]提出了一種局部-全局雙流網(wǎng)絡(luò)(DS-Net),可以獲取全局上下文特征信息用于建筑物區(qū)域提取,采用雙流互補(bǔ)的方法在不同特征之間交換信息以獲得更好的建筑物提取結(jié)果;Xie等[15]使用多特征卷積神經(jīng)網(wǎng)絡(luò)(MFCNN)提取建筑物區(qū)域的多個(gè)特征信息,然后使用形態(tài)學(xué)濾波從高分辨率遙感圖像中提取建筑物. 盡管現(xiàn)有的基于CNNs的建筑物提取方法雖然取得了較好的效果,但無法充分提取遙感影像中包含的多尺度特征信息和空間特征信息,使得提取結(jié)果存在不同程度的邊界模糊和輪廓信息丟失現(xiàn)象.
針對遙感影像中建筑物提取任務(wù),本文提出了一種用于遙感建筑物提取的生成對抗網(wǎng)絡(luò)模型,使用該模型用于遙感影像中的建筑物提取任務(wù). 所提出的MSR-cGAN包括生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)兩個(gè)部分,其中生成網(wǎng)絡(luò)用于生成預(yù)測結(jié)果,對抗網(wǎng)絡(luò)用于修正預(yù)測結(jié)果與地面真值之間的誤差,MSR-cGAN的結(jié)構(gòu)如圖1所示.
生成網(wǎng)絡(luò)(Generative Network)包括編碼結(jié)構(gòu)和解碼結(jié)構(gòu)兩部分,其中編碼結(jié)構(gòu)用于提取遙感圖像的多尺度特征;解碼結(jié)構(gòu)用于恢復(fù)圖像分辨率尺寸. 編碼結(jié)構(gòu)包括五個(gè)循環(huán)殘差卷積模塊(Recurrent Residual Convolution Module,RRCM),每個(gè)模塊由1×1卷積、3×3卷積、最大池化操作(Max-pooling)組成;解碼結(jié)構(gòu)包括四個(gè)卷積(Conv)模塊,每個(gè)模塊包括反卷積(Deconvolution)和上采樣(Up-sampling)操作;同時(shí)在每個(gè)編碼結(jié)構(gòu)和解碼結(jié)構(gòu)之間使用注意力門限跳躍連接操作進(jìn)行不同尺度的特征傳遞.
MSR-cGAN中的生成網(wǎng)絡(luò)是在U-Net的基礎(chǔ)上改進(jìn)的,為了使生成網(wǎng)絡(luò)具有更好的自適應(yīng)能力,保留了U-Net模型的端到端結(jié)構(gòu). 由于U-Net為多層結(jié)構(gòu),直接使用其對遙感圖像進(jìn)行分割將導(dǎo)致梯度消失、梯度爆炸和過擬合等問題. 而且,由于遙感圖像的目標(biāo)區(qū)域受到復(fù)雜背景干擾,U-Net不能抑制背景干擾信息.所提出的生成網(wǎng)絡(luò)為編解碼結(jié)構(gòu),編碼結(jié)構(gòu)能夠充分提取輸入圖像的多尺度信息,解碼結(jié)構(gòu)用于緩解背景噪聲干擾和恢復(fù)圖像分辨率,生成網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 MSR-cGAN網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 The model structure of MSR-cGAN
1.1.1 循環(huán)殘差卷積模塊
為了解決由于網(wǎng)絡(luò)層數(shù)增加導(dǎo)致的分割準(zhǔn)確率下降問題,在生成網(wǎng)絡(luò)中引入循環(huán)殘差卷積模塊,增強(qiáng)不同卷積層的特征信息傳遞和特征復(fù)用,從而提升模型對目標(biāo)區(qū)域的分割準(zhǔn)確率. 循環(huán)殘差卷積模塊能夠增強(qiáng)特征傳遞,合并不同卷積層特征,同時(shí)有效地利用輸出特征圖,有益于遙感圖像目標(biāo)區(qū)域的特征提取.使用循環(huán)殘差卷積能夠?qū)W習(xí)不同局部感受野的多尺度特征,同時(shí)能夠有效地進(jìn)一步提取目標(biāo)區(qū)域特征. 循環(huán)殘差卷積模塊包含三個(gè)由卷積、池化、批歸一化、ReLu激活函數(shù)組成的特征提取模塊. 對輸入特征圖在特征提取模塊中進(jìn)行循環(huán)卷積核特征合并操作,之后將其輸入1×1卷積層進(jìn)行特征壓縮,其能夠有效解決由多個(gè)卷積操作造成的特征信息和網(wǎng)絡(luò)參數(shù)殘余等問題.
1.1.2 門限跳躍連接
為更有效地聚合多尺度特征信息,使用注意力門限跳躍連接操作替代原始U-Net的跳躍連接操作,其能夠增加遙感目標(biāo)區(qū)域的特征信息權(quán)重,同時(shí)減少背景區(qū)域的特征信息權(quán)重. 如圖1所示,生成網(wǎng)絡(luò)的編碼結(jié)構(gòu)由下采樣層和卷積層組成,每個(gè)下采樣層包含兩個(gè)并行通道,其中卷積層的尺寸為3×3大小,初始卷積層的特征通道數(shù)為64,使用的卷積操作為循環(huán)殘差卷積;解碼結(jié)構(gòu)由四個(gè)上采樣層和卷積層組成,其卷積層的參數(shù)與編碼結(jié)構(gòu)相同,同時(shí)解碼結(jié)構(gòu)的最后一層為1×1卷積層,用于輸出分割結(jié)果. 在編碼結(jié)構(gòu)與解碼結(jié)構(gòu)之間使用門限跳躍連接操作進(jìn)行圖像特征信息融合,同時(shí)緩解背景特征對目標(biāo)區(qū)域的干擾.
對抗網(wǎng)絡(luò)(Adversarial Network)為雙分支并行結(jié)構(gòu),每個(gè)分支包含兩個(gè)下采樣(Down-sampling)模塊和三個(gè)卷積模塊. 對抗網(wǎng)絡(luò)的輸入為生成網(wǎng)絡(luò)的預(yù)測結(jié)果、原始遙感圖像、地面真值;下采樣模塊包含下采樣層、組歸一化層(GroupNorm)和LeakReLu激活函數(shù);每個(gè)分支的輸出結(jié)果使用1×1卷積層進(jìn)行特征融合,同時(shí)使用L1損失函數(shù)計(jì)算預(yù)測結(jié)果與地面真值之間的誤差.
在MSR-cGAN 模型中,對抗網(wǎng)絡(luò)用于區(qū)分生成網(wǎng)絡(luò)分割結(jié)果與地面真值圖像之間的誤差. 在遙感圖像分割任務(wù)中,生成網(wǎng)絡(luò)的優(yōu)化目標(biāo)用于最小化生成損失,使對抗網(wǎng)絡(luò)難以區(qū)分分割結(jié)果與地面真值之間的誤差. 對抗網(wǎng)絡(luò)的優(yōu)化目標(biāo)是使對抗損失最小化,并使分割結(jié)果與地面真值之間的差異最大. 在模型訓(xùn)練過程中,對抗網(wǎng)絡(luò)將逐步提高判別能力,并引導(dǎo)生成網(wǎng)進(jìn)行訓(xùn)練. 因此,對抗網(wǎng)絡(luò)等效于可訓(xùn)練的損失函數(shù),能夠根據(jù)深度數(shù)據(jù)分布計(jì)算出生成結(jié)果與地面真值之間的差,所以對抗網(wǎng)絡(luò)能夠較好地監(jiān)督生成網(wǎng)絡(luò)的訓(xùn)練.
MSR-cGAN 的對抗網(wǎng)絡(luò)是一種類似于生成網(wǎng)絡(luò)的編解碼結(jié)構(gòu),使得模型更易于訓(xùn)練,并且可以避免由于對抗網(wǎng)絡(luò)的強(qiáng)大區(qū)分能力而導(dǎo)致生成網(wǎng)絡(luò)的訓(xùn)練崩潰. 此外,為了防止對抗網(wǎng)絡(luò)的過度擬合,所構(gòu)建的模型使用簡單的下采樣池化層和卷積層,對抗網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示. 對抗網(wǎng)絡(luò)使用兩個(gè)具有相同結(jié)構(gòu)的下采樣池化層. 每個(gè)下采樣層使用步長為2 的4×4 池化核,并在下采樣操作之前對輸入要素執(zhí)行填充操作. 這種方式能夠有效地合并下采樣池化特征,并且輸出特征可以是稀疏的,避免了由于下采樣操作而導(dǎo)致的細(xì)節(jié)特征信息丟失的問題. 此外,對抗網(wǎng)絡(luò)使用三個(gè)具有相同結(jié)構(gòu)的卷積模塊,每個(gè)卷積模塊使用3×3 大小,步長為1 的卷積核進(jìn)行特征提取,對輸入特征執(zhí)行大小為2 的填充操作在卷積運(yùn)算之前. 使用構(gòu)造的卷積模塊進(jìn)行特征提取能夠有效融合多尺度特征,而無須更改特征尺度. 對抗網(wǎng)絡(luò)的輸出層為單個(gè)卷積層,內(nèi)核大小為1×1,步幅尺寸為1,能夠確保輸出特征層不會產(chǎn)生下采樣,并且輸出系數(shù)特征能夠更好地匹配L1損失函數(shù).
IAILD(Inria Aerial Image Labeling Dataset)數(shù)據(jù)集包含810 km2的遙感圖像,空間分辨率為0.3 m,其中405 km2的建筑物已經(jīng)被正確標(biāo)注. 數(shù)據(jù)集來源于奧斯汀、芝加哥、基薩普、西蒂羅爾、維也納五個(gè)地區(qū),每個(gè)地區(qū)建筑物風(fēng)格差異較大,數(shù)據(jù)集樣本如圖2所示. IAILD數(shù)據(jù)集包含180幅分辨率為5000×5000像素的遙感圖像,為了加快模型訓(xùn)練和提高泛化能力,將數(shù)據(jù)集圖像裁剪為4500幅分辨率為1000×1000像素的遙感圖像. 在實(shí)驗(yàn)過程中,將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集、測試集,其中用于模型訓(xùn)練的訓(xùn)練集圖像數(shù)量為3150幅,用于優(yōu)化模型性能的驗(yàn)證集包含900幅圖像,用于測試模型性能的測試數(shù)據(jù)集包含450幅圖像.
圖2 IAILD數(shù)據(jù)集樣本示例Fig.2 Sample images of IAILD dataset
為了更加公平地比較算法性能,對IAILD 數(shù)據(jù)集使用不同的量化指標(biāo). 由于IAILD 數(shù)據(jù)集中僅包含建筑物區(qū)域和背景區(qū)域,可以將其視為像素二分類問題,因此將召回率(recall)、分割精度(accuracy)、和F1_measure作為量化指標(biāo). 其中,召回率表示分類為建筑物的像素與真實(shí)建筑物像素之比;分割精度表示正確分類為建筑物的像素與所有分類為建筑物的像素之比;F1_measure表示召回率和分割精度的綜合評價(jià)指標(biāo). 量化指標(biāo)的具體計(jì)算公式分別如下:
式中:Bseg表示分割結(jié)果中建筑物區(qū)域被正確分類的像素;Iunseg表示圖像中屬于建筑物區(qū)域但未被歸類為建筑物的像素;Iwseg表示背景區(qū)域像素被錯(cuò)誤分類為建筑物區(qū)域的像素.
為了驗(yàn)證所提出方法在IAILD 數(shù)據(jù)集上的性能,我們將MSR-cGAN 與其他方法進(jìn)行比較,其中包括通用的語義分割方法FCN、SegNet和U-Net. 此外,還與基于GAN的遙感圖像分割方法進(jìn)行比較,包括具有空間和通道注意力機(jī)制的生成對抗網(wǎng)絡(luò)(GAN-SCA)和基于貝葉斯理論的生成對抗網(wǎng)絡(luò)(BAS-Net). 具體的,F(xiàn)CN為全卷積神經(jīng)網(wǎng)絡(luò)模型,使用卷積和池化操作獲取輸入圖像的多尺度特征,而上采樣則用于恢復(fù)特征圖分辨率;SegNet和U-Net為編解碼結(jié)構(gòu),其中編碼結(jié)構(gòu)用于提取輸入圖像特征,解碼結(jié)構(gòu)用于恢復(fù)圖像分辨率,其區(qū)別在于SegNet 使用池化索引還原特征圖,而U-Net 通過復(fù)制和裁剪進(jìn)行特征轉(zhuǎn)移. GAN-SCA 在GAN的基礎(chǔ)上引入了空間和通道注意力機(jī)制,在生成網(wǎng)絡(luò)中引入了空間注意力機(jī)制提高模型對遙感圖像的特征提取能力,在對抗網(wǎng)絡(luò)中引入通道注意力機(jī)制提高模型的判別能力. BAS-Net將FCN的分割結(jié)果作為先驗(yàn)知識輸入GAN進(jìn)行遙感圖像分割,有效地避免了模型訓(xùn)練過程中的過擬合問題.
表1 和圖3 顯示了不同方法在IAILD 數(shù)據(jù)集上不同方法的分割結(jié)果. 由于FCN、SegNet、和U-Net 為通用的語義分割網(wǎng)絡(luò),因此無法完全提取遙感建筑物區(qū)域的特征,因此其F1_measure 分別為0.802、0.815、0.822. 從圖3 的可視化分割結(jié)果中看出遙感建筑物的大面積區(qū)域尚未完成準(zhǔn)確分割. GAN-SCA 的精度、召回率和F1_measure 分別為0.920、0.864、0.891. 由于引入了注意力機(jī)制,可以較好地提取建筑物區(qū)域的多尺度特征,從可視化結(jié)果能夠看出,GAN-SCA 能夠?qū)Υ竺娣e建筑物進(jìn)行分割,但對建筑物邊緣分割結(jié)果較差. BAS-Net 可以更好地分割建筑物區(qū)域的邊緣和輪廓,但對密集建筑物區(qū)域的分割效果較差,其精度、召回率和F1_measure 分別為0.932、0.872、0.901. 所提出的MSR-cGAN 在量化指標(biāo)上均優(yōu)于其他被比較的方法,從表1 中能夠看出,其分割精度、召回率和F1_measure 分別為0.954、0.897、0.925,圖3 的可視化結(jié)果表明MSR-cGAN 能夠準(zhǔn)確分割遙感圖像的建筑物區(qū)域,并能準(zhǔn)確完成對募集區(qū)域建筑物的分割.
圖3 不同方法在IAILD數(shù)據(jù)集上的分割結(jié)果Fig.3 Segmentation results of different methods on IAILD dataset
表1 IAILD數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of IAILD dataset
圖4顯示了不同方法的ROC曲線和RP曲線,能夠看出FCN、SegNet和U-Net的性能明顯劣于GAN-SCA和BAS-Net,而MSR-cGAN的結(jié)果優(yōu)于GAN-SCA和BAS-Net,證明了提出方法的有效性.
圖4 不同方法在IAILD數(shù)據(jù)集上的ROC和PR曲線Fig.4 ROC and PR curves of different methods on IAILD dataset
本文中提出了一個(gè)基于CNNs 的建筑物提取框架. 提出的方法由生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)組成,其中生成網(wǎng)絡(luò)能夠提取遙感建筑物區(qū)域的多尺度和多分辨率特征,對抗網(wǎng)絡(luò)是一個(gè)并行的編碼器-解碼器結(jié)構(gòu),它通過計(jì)算預(yù)測結(jié)果與標(biāo)注信息之間的誤差來指導(dǎo)模型優(yōu)化訓(xùn)練. 此外,在模型訓(xùn)練過程中引入條件信息約束以緩解過擬合問題,提高建筑物提取精度. IAILD建筑數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,MSR-cGAN在建筑提取精度方面明顯優(yōu)于其他建筑物提取方法. 在未來的工作中,本文考慮引入無監(jiān)督學(xué)習(xí)策略,使模型能夠在未標(biāo)記的數(shù)據(jù)集中獲得更好的提取結(jié)果.