宋廷強(qiáng),劉童心,宗 達(dá),蔣曉旭,黃騰杰,范海生
1.青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島266000
2.珠海歐比特宇航科技股份有限公司,廣東 珠海519000
從遙感圖像中提取道路信息在智慧城市規(guī)劃、交通管理等眾多地理信息應(yīng)用中發(fā)揮重要作用。目前獲取遙感數(shù)據(jù)的成本越來越低,各個(gè)遙感平臺(tái)通過多種傳感器設(shè)備,獲得所需的海量遙感數(shù)據(jù),如:高分?jǐn)?shù)據(jù)、高光譜數(shù)據(jù)、雷達(dá)數(shù)據(jù)等,人類觀測(cè)、探索到的地球信息更實(shí)時(shí)、更全面。隨著深度學(xué)習(xí)技術(shù)在實(shí)際生產(chǎn)生活中的廣泛應(yīng)用,利用其對(duì)遙感數(shù)據(jù)中目標(biāo)地物信息進(jìn)行提取研究有著非同尋常的意義。
近些年,學(xué)者們對(duì)遙感影像中道路目標(biāo)的提取進(jìn)行了一系列研究。分別使用自適應(yīng)全局閾值配合形態(tài)學(xué)方法[1]、面向?qū)ο蠓椒╗2]、高斯馬爾可夫隨機(jī)場(chǎng)結(jié)合支持向量機(jī)算法[3]、人工神經(jīng)網(wǎng)絡(luò)算法[4]等。不可否認(rèn),上述方法在一定應(yīng)用場(chǎng)景下取得可觀的效果,但部分較好結(jié)果建立在人工反復(fù)實(shí)驗(yàn)調(diào)整閾值參數(shù)等一系列耗時(shí)耗力且存在主觀性的基礎(chǔ)上,在目前一些大規(guī)模數(shù)據(jù)應(yīng)用上受限,且分割精度和效率無法達(dá)到目前需求。
卷積神經(jīng)網(wǎng)絡(luò)憑借卓越的特征學(xué)習(xí)能力,在圖像語義分割問題中取得較好效果。本文通過改進(jìn)語義分割算法,從而實(shí)現(xiàn)道路目標(biāo)與背景信息二分類。當(dāng)前廣泛使用的語義分割網(wǎng)絡(luò)以Long 等[5]提出FCN 為代表,通過使用卷積層替換全連接層,輸出保留上下文空間特征的圖像,實(shí)現(xiàn)圖像像素級(jí)別端到端的預(yù)測(cè)?;贔CN架構(gòu),Zhong等[6]使用FCN-4s模型進(jìn)行道路目標(biāo)提取,并通過使用跳躍連接結(jié)構(gòu)復(fù)用淺層的特征信息,在Massachusetts Roads測(cè)試集上召回率達(dá)到66%。Wei等[7]搭建RSRCNN 網(wǎng)絡(luò)進(jìn)行道路目標(biāo)提取,但該網(wǎng)絡(luò)編碼部分采用VGG16 預(yù)訓(xùn)練模型,對(duì)輸入數(shù)據(jù)進(jìn)行4 次下采樣,縮小為原來1/32,存在特征圖細(xì)節(jié)還原較為粗糙問題。為了解決這個(gè)問題,Panboonyuen等[8]在SegNet網(wǎng)絡(luò)[9]上引入池化索引,編碼器部分使用池化層進(jìn)行下采樣時(shí)記錄最大池化的索引(位置),在解碼器中調(diào)用相應(yīng)的索引信息進(jìn)行上采樣,減小最大池化造成的位置信息丟失的影響;U-Net模型[10]則在FCN的基礎(chǔ)上添加了更多的跳躍連接,在解碼階段復(fù)用編碼階段的低層特征,從而能夠更好地利用紋理信息。但是相對(duì)于一般場(chǎng)景來說,遙感影像存在紋理特征復(fù)雜的特點(diǎn),為提高分類精度,現(xiàn)有研究通?;趦蓚€(gè)方向。一方面通過增加網(wǎng)絡(luò)層數(shù),訓(xùn)練更深的神經(jīng)網(wǎng)絡(luò)來提取深層次的的語義信息。其中,Wang等[11]提出了一種結(jié)合殘差單元和U-Net架構(gòu)的編碼-解碼結(jié)構(gòu)網(wǎng)絡(luò),在Massachusetts Roads 數(shù)據(jù)集上取得良好效果。Zhang 等采用DenseNet 結(jié)構(gòu)構(gòu)建多條回路連接,該模型可以適應(yīng)不同大小的目標(biāo),并且有效地在高分辨率影像中提取道路[12],但是顯著增加了網(wǎng)絡(luò)的參數(shù)量,導(dǎo)致訓(xùn)練耗時(shí)長(zhǎng)。另一方面采用結(jié)合更高效模塊提高網(wǎng)絡(luò)的特征提取能力。Li 等人[13]結(jié)合注意力機(jī)制和空間金字塔模塊,提出了金字塔注意力網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)特征信息的增強(qiáng)。此外,遙感影像中的道路目標(biāo)具有尺度多變的特點(diǎn),而U-Net的卷積堆疊的編碼器并不利于應(yīng)對(duì)多尺度目標(biāo),DeepLabV3網(wǎng)絡(luò)[14]中提出的ASPP 模塊,其利用不同空洞率的空洞卷積捕獲多尺度語義信息的思想,對(duì)于進(jìn)行遙感影像道路提取時(shí)如何有效利用背景和領(lǐng)域空間信息的問題上具有借鑒意義。
本文的主要?jiǎng)?chuàng)新點(diǎn)如下:提出引入注意力機(jī)制和ASPP 模型的AS-Unet 網(wǎng)絡(luò)架構(gòu),應(yīng)用于遙感影像道路目標(biāo)分割。第一,在編碼器即特征提取網(wǎng)絡(luò)中加入通道注意力機(jī)制對(duì)特征信息進(jìn)行選擇。在解碼器中采用空間注意力機(jī)制對(duì)不同空間道路特征的相關(guān)性建模,提高模型分割性能。第二,在編碼器中加入了改進(jìn)的ASPP模型,即在每個(gè)并行空洞卷積操作后加入1×1 網(wǎng)絡(luò),更好地以不同的膨脹率來捕獲多尺度道路特征。
高度對(duì)稱的編解碼網(wǎng)絡(luò)U-Net 體系結(jié)構(gòu)如圖1 所示,由編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)兩部分組成。
圖1 原始U-Net體系框架
編碼網(wǎng)絡(luò)的每個(gè)下采樣階段使用兩個(gè)相同的卷積層堆疊方式進(jìn)行特征提取,每個(gè)卷積層后使用Relu函數(shù)激活,而后采用大小為2×2的最大池化操作對(duì)特征圖下采樣。解碼網(wǎng)絡(luò)逐步恢復(fù)特征圖至輸入圖像尺寸,每個(gè)上采樣階段堆疊兩個(gè)卷積層,并且每個(gè)階段級(jí)聯(lián)編碼網(wǎng)絡(luò)中對(duì)應(yīng)層次的特征圖,從而復(fù)用低層次語義信息。
本文AS-Unet 網(wǎng)絡(luò)架構(gòu)以1.1 節(jié)U-Net 網(wǎng)絡(luò)為基準(zhǔn)模型進(jìn)行改進(jìn),網(wǎng)絡(luò)結(jié)構(gòu)由兩部分組成,架構(gòu)如圖2所示。
圖2 AS-Unet網(wǎng)絡(luò)結(jié)構(gòu)圖
第一部分為編碼網(wǎng)絡(luò),每層網(wǎng)絡(luò)中的卷積塊之后加入通道注意力機(jī)制。在空間維度上分別采用基于全局的平均池化和最大池化操作。通過一系列全連接層之后逐通道融合特征信息,最終得到對(duì)應(yīng)的通道權(quán)重值。在通道維度上加強(qiáng)有用的道路特征,并抑制無效且復(fù)雜多樣的背景特征,進(jìn)而提高網(wǎng)絡(luò)模型計(jì)算效率。對(duì)于編碼網(wǎng)絡(luò)最后一層,卷積層之后的特征圖中含有豐富的空間語義信息,將特征圖輸入改進(jìn)ASPP模塊中,經(jīng)過不同擴(kuò)張率的空洞卷積后輸入1×1網(wǎng)絡(luò),旨在不同尺度上對(duì)圖像特征進(jìn)行描述。保證了編碼網(wǎng)絡(luò)在低層提取關(guān)聯(lián)性高的道路輪廓細(xì)節(jié)特征,實(shí)現(xiàn)目標(biāo)的精細(xì)分割定位;高層階段得到有用的特征信息,提高圖像中道路識(shí)別精度。
第二部分為解碼網(wǎng)絡(luò),每層上采樣模塊最后加入空間注意力機(jī)制。在通道維度上分別使用全局平均池化和全局最大池化網(wǎng)絡(luò),得到通道上的全局特征。將特征圖通過維度方向拼接的方式進(jìn)行特征融合,最后,經(jīng)過卷積操作后獲得對(duì)應(yīng)的空間權(quán)重值。旨在幫助上采樣層有效恢復(fù)道路目標(biāo)空間信息,且一定程度上提升網(wǎng)絡(luò)對(duì)被樹木、陰影等遮擋的道路的分割能力,從而在恢復(fù)至原圖分辨率時(shí)能得到準(zhǔn)確率更高的分割結(jié)果。
1.2.1 嵌入通道注意力模塊
本文中將通道注意力模塊嵌入到編碼器部分,結(jié)構(gòu)如圖3 所示。特征圖X經(jīng)過編碼部分特征提取網(wǎng)絡(luò)得到大小H×W×C特征圖U=[u1,u2,…,uc],而后將其輸入通道注意力模型中,分別進(jìn)行全局平均池化和全局最大池化操作得到,輸入信息在通道維度上進(jìn)行融合,生成2個(gè)大小1×1×C的輸出;第二步設(shè)置兩層全連接網(wǎng)絡(luò),第一層神經(jīng)元個(gè)數(shù)為C/γ,γ代表衰減率,通過γ控制參數(shù)量及注意力強(qiáng)度,本文中γ=8,即尺寸大小?1×1×C/8,使用relu函數(shù)激活。第二層神經(jīng)元個(gè)數(shù)為C,旨在得到與輸入通道數(shù)對(duì)應(yīng)的長(zhǎng)度為C的向量,此時(shí)向量中每個(gè)元素即全連接層每個(gè)神經(jīng)元的輸出,可以代表不同通道的重要程度。之后將兩個(gè)平行分支的輸出進(jìn)行融合并使用sigmoid 函數(shù)激活,為原始輸入的每個(gè)特征通道生成唯一的權(quán)重值。最后,將學(xué)習(xí)到的權(quán)重與原始輸入特征圖進(jìn)行逐通道維度相乘,得到帶有權(quán)重注意力的輸出特征圖U',則U'中具有更大的感受野和更清晰的語義信息。
圖3 通道注意力網(wǎng)絡(luò)結(jié)構(gòu)圖
此網(wǎng)絡(luò)具體計(jì)算過程為:
式中,U'為最終得到不同權(quán)重值的特征圖,MC(U)表示通道注意力模塊對(duì)輸入特征圖U進(jìn)行上述處理得到通道不同權(quán)重的過程,其定義如下:
此處σ代表sigmoid激活函數(shù),W0∈?C/8×C,W1∈?C×C/8,W0、W1為圖2兩個(gè)平行分支中全連接層全連接網(wǎng)絡(luò)對(duì)應(yīng)權(quán)重值,圖中亦可看出W0后使用relu激活函數(shù)。
1.2.2 嵌入空間注意力模塊
本文網(wǎng)絡(luò)在解碼器部分加入空間注意力模塊,進(jìn)一步關(guān)注像素位置信息,選取有效的道路細(xì)節(jié)特征,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 空間注意力網(wǎng)絡(luò)結(jié)構(gòu)圖
圖4 中將大小為H×W×C的特征圖F,分別輸入全局最大池化和全局平均池化網(wǎng)絡(luò)中,在通道維度上進(jìn)行全局信息壓縮,得到大小為H×W×1 特征圖。融合后使用7×7卷積核進(jìn)行特征學(xué)習(xí),獲得通道數(shù)為1的特征圖,之后采用Sigmoid層計(jì)算出注意力權(quán)重,結(jié)果與原輸入特征圖逐像素相乘,得到最終加權(quán)處理后的特征圖F'即:
式中,F(xiàn)'為最終得到不同權(quán)重值的特征圖,MS(F)表示空間注意力網(wǎng)絡(luò)對(duì)輸入特征圖F進(jìn)行上述處理后得到不同權(quán)重的過程且MS(F)∈RH×W,定義如下:
式中,σ表示sigmoid激活函數(shù),f7×7表示7×7的卷積操作。
1.2.3 嵌入改進(jìn)的ASPP模塊
何凱明等[15]提出空間金字塔池化模塊,使得包含全連接層的卷積網(wǎng)絡(luò)能接受任意大小的圖片作為輸入。但由于在最大池化或平均池化之類池化層操作過程中,降低了圖像空間分辨率,并導(dǎo)致部分空間信息的丟失,致使后續(xù)不能很好地恢復(fù)圖像原始像素信息。Yu等人[16]研究表明,空洞卷積能夠有效增加神經(jīng)元的感受野,加入不同擴(kuò)張率的空洞卷積,在不損失圖像空間分辨率基礎(chǔ)上,關(guān)注了更廣范圍特征信息。對(duì)于遙感影像中每一個(gè)像素點(diǎn)i、空洞卷積輸入x、長(zhǎng)度為K的過濾器ω[k],網(wǎng)絡(luò)輸出y,計(jì)算公式如下[17]:
其中,r代表決定輸入圖片采樣步長(zhǎng)的擴(kuò)張比率,通過賦予比率r不同數(shù)值,改變過濾器感受野。
基于此本文對(duì)ASPP網(wǎng)絡(luò)進(jìn)行改進(jìn),模型結(jié)構(gòu)如圖5所示:圖5(a)表示,本文的ASPP模塊由四個(gè)平行卷積構(gòu)成,分別為1個(gè)1×1卷積塊和3個(gè)3×3的空洞卷積,擴(kuò)張率分別設(shè)置為3、5、7。其中3個(gè)并行空洞卷積后加入1×1卷積塊、批處理歸一化層和relu激活函數(shù),旨在降低通道至統(tǒng)一維數(shù),且通過加深網(wǎng)絡(luò)深度增加非線性特征,以捕獲目標(biāo)多尺度特征和更多細(xì)節(jié)信息。最后,采用級(jí)聯(lián)運(yùn)算融合特征,獲得圖像的局部特征在不同尺度上的描述。
圖5 改進(jìn)的ASPP網(wǎng)絡(luò)模塊結(jié)構(gòu)圖
圖(5)(b)表示,通過全局平均池化產(chǎn)生圖像級(jí)別特征集,使所有分支的最終特征被雙線型上采樣至輸入尺寸,之后進(jìn)行級(jí)聯(lián)操作并輸入大小為1×1 卷積網(wǎng)絡(luò)層中,生成特征圖后饋送到后續(xù)網(wǎng)絡(luò)部分。
本文實(shí)驗(yàn)基于64 位Ubuntu 16.04 系統(tǒng),使用Keras和Tensorflow深度學(xué)習(xí)框架搭建模型,CPU為Intel Xeon Silver 4114,GPU為NVIDIA GeForce Titan Xp(12GB)×4。
2.2.1 Massachusetts道路數(shù)據(jù)集
其一數(shù)據(jù)集是地面分辨率1 m/像素的Massachusetts遙感道路數(shù)據(jù)集[18],由1 171張大小為1 500×1 500、覆蓋美國(guó)馬薩諸塞州超過2 600 km2的遙感圖像組成。1 108張遙感影像及其對(duì)應(yīng)標(biāo)注影像作為訓(xùn)練集,49張遙感影像及其對(duì)應(yīng)標(biāo)注影像作為測(cè)試集,14張遙感影像及其對(duì)應(yīng)標(biāo)注影像作為驗(yàn)證集。在網(wǎng)絡(luò)訓(xùn)練過程中需要一定數(shù)據(jù)量支撐,且部分訓(xùn)練樣本存在數(shù)據(jù)缺失問題,故選擇通過數(shù)據(jù)增強(qiáng)方式進(jìn)行樣本擴(kuò)充。通過旋轉(zhuǎn)90°、180°、270°;水平、垂直鏡像翻轉(zhuǎn)方式進(jìn)行五次擴(kuò)充,每種方式后都進(jìn)行隨機(jī)HSV和隨機(jī)resize變換,其中HSV隨機(jī)范圍為H(-15,15)、S(-20,20)、V(-30,30) ;resize為上下左右隨機(jī)縮放15%,并隨機(jī)偏移放置,最終得到原始樣本六倍數(shù)量,總共6 648 張的訓(xùn)練數(shù)據(jù)集。最后以512為步長(zhǎng),重疊區(qū)域?yàn)?56對(duì)訓(xùn)練樣本裁剪,制作生成可訓(xùn)練的遙感道路數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集中部分圖像及標(biāo)簽如圖6所示。
圖6 通過旋轉(zhuǎn)和鏡像翻轉(zhuǎn)增強(qiáng)的訓(xùn)練集示例
2.2.2 DeepGlobe道路數(shù)據(jù)集
DeepGlobe衛(wèi)星道路數(shù)據(jù)集[19]由尺寸為1 024×1 024、地面分辨率0.5 m/像素的圖像組成,每張圖像包含三通道信息(Red、Green、Blue)。數(shù)據(jù)集包含6 226張訓(xùn)練樣本及其相對(duì)應(yīng)標(biāo)簽,將其隨機(jī)劃分成5 000 張訓(xùn)練集,326 張驗(yàn)證集和900 張測(cè)試集,對(duì)訓(xùn)練集、驗(yàn)證集以512為步長(zhǎng)進(jìn)行裁剪,得到尺寸為512×512 的重疊區(qū)域?yàn)?56的圖像數(shù)據(jù),最終用來全圖預(yù)測(cè)的測(cè)試集尺寸不做任何變化。數(shù)據(jù)集中部分圖像如圖7所示。
圖7 部分遙感道路圖像及其標(biāo)簽圖
訓(xùn)練過程中實(shí)驗(yàn)參數(shù)設(shè)置分別為:每批次輸入大小為8;本文實(shí)驗(yàn)使用Adam優(yōu)化算法,相比SGD,RMSprop和AdaGrad 優(yōu)化器,其使模型更快收斂到性能最優(yōu),使用Adam[20]中默認(rèn)參數(shù),其中學(xué)習(xí)率設(shè)為0.001,指數(shù)衰減率β1=0.9,β2=0.999,常數(shù)設(shè)置ε=10-8,若在5輪訓(xùn)練中損失函數(shù)沒有下降,學(xué)習(xí)率下降為原來0.1倍,學(xué)習(xí)率最小值為1.0×10-10;選擇Lovasz-Softmax loss 函數(shù)[21]在模型反向傳播過程中,更新網(wǎng)絡(luò)參數(shù);訓(xùn)練迭代次數(shù)為100次。
對(duì)遙感影像中的道路數(shù)據(jù)提取,即語義分割中進(jìn)行像素級(jí)別二分類問題,其中道路像素為正樣本,背景信息表示負(fù)樣本,故所有預(yù)測(cè)結(jié)果可分為四類,即:True Positive(TP)表示正確分類的道路像素?cái)?shù)量;True Negative(TN)表示背景像素被正確分類的數(shù)量;False Positive(FP)代表背景像素誤分為道路像素的數(shù)量;False Negative(FN)代表道路像素誤分為背景的數(shù)量。
基于上述指標(biāo)值,本文使用語義分割中普遍使用的評(píng)估指標(biāo),分別為:精確率(Precision)、召回率(Recall)、F-measure值(F1)和平均交并比(IoU),其計(jì)算公式如下所示:
準(zhǔn)確率為被正確分類為道路的像素占所有預(yù)測(cè)為道路像素的比率,召回率評(píng)估的是被正確分類為道路的像素占所有實(shí)際標(biāo)注為正樣本即道路的比例,選用F1即準(zhǔn)確率和召回率兩指標(biāo)的調(diào)和平均數(shù),尋找兩者之間平衡點(diǎn),顯然F1 值越高,效果越好。此外平均交并比作為總體度量標(biāo)準(zhǔn),其還考慮到道路像素錯(cuò)分為背景類別現(xiàn)象,使得評(píng)估更全面。
本節(jié)討論消融實(shí)驗(yàn)搭建的網(wǎng)絡(luò)和本文AS-Unet 網(wǎng)絡(luò),在Massachusetts道路數(shù)據(jù)集和DeepGlobe道路數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果和分析。
2.5.1 Massachusetts道路數(shù)據(jù)提取結(jié)果
對(duì)Massachusetts道路數(shù)據(jù)上訓(xùn)練的模型,使用測(cè)試集進(jìn)行預(yù)測(cè)時(shí)輸入圖像的原始尺寸即1 500×1 500,輸出結(jié)果為經(jīng)過全連接條件隨機(jī)場(chǎng)優(yōu)化的預(yù)測(cè)二值圖,實(shí)驗(yàn)中所有對(duì)比網(wǎng)絡(luò)在相同運(yùn)行環(huán)境下且參數(shù)設(shè)置一致,部分預(yù)測(cè)結(jié)果如圖8 所示,從左到右依次為測(cè)試原圖、Baseline U-net、Unet-SAM、Unet-CAM、A-Unet、AS-Unet。
圖8 網(wǎng)絡(luò)在Massachusetts測(cè)試集上分割效果圖
圖8 展示了四幅道路背景復(fù)雜度各異的遙感影像原圖、Baseline U-net、Unet-SAM、Unet-CAM、A-Unet、和本文網(wǎng)絡(luò)測(cè)試結(jié)果圖。其中,Unet-CAM、Unet-SAM、A-Unet 網(wǎng)絡(luò),分別為在基準(zhǔn)網(wǎng)絡(luò)U-Net 基礎(chǔ)上,本文精心搭建的僅編碼器加入通道注意力的網(wǎng)絡(luò)、僅解碼器加入空間注意力的網(wǎng)絡(luò)和編碼器加入通道注意力網(wǎng)絡(luò)同時(shí)解碼器加入空間注意力的網(wǎng)絡(luò)。通過預(yù)測(cè)圖中紅色框區(qū)域可以看出,本文網(wǎng)絡(luò)在Massachusetts道路測(cè)試集上效果優(yōu)于其他對(duì)比模型,在上述四景圖具體表現(xiàn)為:被兩旁樹木不同程度遮擋情況下,影像中部分長(zhǎng)度面積較小的道路預(yù)測(cè)不完整及錯(cuò)分現(xiàn)象得到改善,可以分割出相對(duì)高質(zhì)量預(yù)測(cè)道路圖;長(zhǎng)度面積相對(duì)大的道路出現(xiàn)中斷情況有所改進(jìn),預(yù)測(cè)道路目標(biāo)更完整、更準(zhǔn)確,得到可觀的結(jié)果。
基于上文提到的語義分割網(wǎng)絡(luò)評(píng)估指標(biāo),本節(jié)在Massachusetts 道路數(shù)據(jù)集上進(jìn)行訓(xùn)練模型泛化能力的評(píng)價(jià)比較,結(jié)果如表1所示。
表1 模型在Massachusetts roads測(cè)試集上的比較
表1分別列出了本文模型以及搭建各個(gè)對(duì)比網(wǎng)絡(luò),在測(cè)試數(shù)據(jù)集上多次實(shí)驗(yàn)得到的平均結(jié)果值,從評(píng)價(jià)指標(biāo)來看,本文提出模型在各項(xiàng)指標(biāo)上面都明顯優(yōu)于Baseline U-net,Baseline U-net模型基于經(jīng)典的VGG16結(jié)構(gòu),結(jié)果可代表模型提取道路的一般水平,對(duì)比易見,本文網(wǎng)絡(luò)的準(zhǔn)確率、召回率、F1 值較U-Net 分別提高0.034、0.026、0.031;而且,對(duì)比表1 中Unet-SAM、Unet-CAM、A-Unet 網(wǎng)絡(luò),顯然在三項(xiàng)指標(biāo)上本文AS-Unet 網(wǎng)絡(luò)的結(jié)果均略勝一籌,優(yōu)于對(duì)比模型。
2.5.2 DeepGlobe道路數(shù)據(jù)提取結(jié)果
用DeepGlobe道路數(shù)據(jù)上訓(xùn)練得到的模型,對(duì)選取的測(cè)試集圖像進(jìn)行道路目標(biāo)預(yù)測(cè),輸入測(cè)試集圖像的原始尺寸即1 024×1 024,輸出為經(jīng)過全連接條件隨機(jī)場(chǎng)優(yōu)化的預(yù)測(cè)二值圖,實(shí)驗(yàn)中所有對(duì)比網(wǎng)絡(luò)在相同運(yùn)行環(huán)境下且參數(shù)設(shè)置一致,部分預(yù)測(cè)結(jié)果如圖9 所示,從左到右依次為測(cè)試圖、Baseline U-net、Unet-SAM、Unet-CAM、A-Unet、AS-Unet。
圖9 中第一列展示了六幅不同背景下的遙感影像原圖;第二列和最后一列分別為Baseline U-net 網(wǎng)絡(luò)及其本文提出模型預(yù)測(cè)效果圖,三、四、五列分別為Unet-SAM、Unet-CAM、A-Unet 模型預(yù)測(cè)結(jié)果。由圖中標(biāo)注紅色框區(qū)域可以看出,本文提出模型在DeepGlobe道路測(cè)試集上的預(yù)測(cè)結(jié)果,相較于U-Net網(wǎng)絡(luò)分割結(jié)果圖更理想,最終提取的不同大小道路目標(biāo)的完整度更高。從圖中的對(duì)比可看出,其具體在以下幾種情況下得到了明顯改善:道路被樹木或其陰影、汽車、建筑物部分遮擋或者完全遮擋時(shí),以及部分道路與周圍黃土極為相似時(shí)。從而減少了模型對(duì)道路漏分錯(cuò)分的情況,使得最終輸出的結(jié)果邊緣更加平滑,提取更準(zhǔn)確。
圖9 網(wǎng)絡(luò)在DeepGlobe道路測(cè)試集上分割效果圖
基于上文提到的語義分割網(wǎng)絡(luò)評(píng)估指標(biāo),本節(jié)在DeepGlobe 道路數(shù)據(jù)集上進(jìn)行模型泛化能力的評(píng)價(jià)比較,結(jié)果如表2所示。
表2 模型在DeepGlobe roads測(cè)試集上的表現(xiàn)比較
表2列出本文網(wǎng)絡(luò)模型在DeepGlobe道路測(cè)試數(shù)據(jù)集上的平均準(zhǔn)確率、平均召回率、平均F1 及平均交并比,與基準(zhǔn)U-Net 網(wǎng)絡(luò)比較,本文所提分割模型在前述四個(gè)指標(biāo)上分別提升0.043、0.032、0.037、0.038。本文AS-Unet模型對(duì)比精心搭建Unet-SAM、Unet-CAM和AUnet網(wǎng)絡(luò),其在各項(xiàng)指標(biāo)上表現(xiàn)較好,IoU值相對(duì)較高,從而可以更準(zhǔn)確地從遙感影像中分割出道路目標(biāo)。
本節(jié)討論AS-Unet模型與現(xiàn)有模型在Massachusetts和DeepGlobe兩個(gè)道路數(shù)據(jù)集上的分割結(jié)果對(duì)比。
2.6.1 Massachusetts roads數(shù)據(jù)集
AS-Unet 網(wǎng)絡(luò)及相關(guān)文獻(xiàn)中模型在Massachusetts roads 測(cè)試集上的精準(zhǔn)率、召回率、F1 值對(duì)比值如表3所示。
表3 模型在Massachusetts roads測(cè)試集上的比較
從表3可以得出,本文改進(jìn)模型在準(zhǔn)確率、F1 值指標(biāo)上明顯優(yōu)于對(duì)比網(wǎng)絡(luò),與為防止丟失太多道路細(xì)節(jié)信息,搭建的較淺層編解碼網(wǎng)絡(luò)DCED 相比,召回率略低0.007,但是本文方法Precision 提升了0.029,F(xiàn)1-score提高了0.013??梢娪捎谏鲜鰧?duì)比算法均未從特征的篩選和多尺度方面考慮,網(wǎng)絡(luò)分割性能略差于本文ASUnet模型。
2.6.2 DeepGlobe Road Extraction數(shù)據(jù)集
本文模型和目前常用語義分割框架在DeepGlobe roads測(cè)試集上進(jìn)行各項(xiàng)指標(biāo)值對(duì)比,結(jié)果如表4所示。
表4 模型在DeepGlobe roads測(cè)試集上的表現(xiàn)比較
由表4 所示,本文的Precision、Recall、F1 值和IoU最高,分別為0.776、0.772、0.773 和0.612。四項(xiàng)指標(biāo)值均高于網(wǎng)絡(luò)FCN-8s 和FCN-4s,相比SegNet 網(wǎng)絡(luò),本文方法F1 值提高了0.036,IoU提高了0.037。由于本文在編解網(wǎng)絡(luò)中加入通道、空間注意力機(jī)制對(duì)特征進(jìn)行加權(quán)處理,和ASPP捕獲多尺度上下文信息,改善道路目標(biāo)小細(xì)節(jié)提取,共同提高模型泛化能力,提升圖像分割性能。
本文對(duì)遙感影像中道路目標(biāo)的提取進(jìn)行研究,旨在提高分割準(zhǔn)確率、獲得更準(zhǔn)確的分割結(jié)果,基于U-Net網(wǎng)絡(luò)設(shè)計(jì)了高度對(duì)稱、簡(jiǎn)潔的編解碼網(wǎng)絡(luò)AS-Unet。其中加入通道注意力機(jī)制提高模型在通道維度上提取細(xì)節(jié)特征的能力;考慮到不同尺度上道路特征表征,網(wǎng)絡(luò)中集成ASPP模塊,同時(shí)也起到提高分類精度作用;加入空間注意力機(jī)制使模型在空間維度上建模,較好獲取目標(biāo)區(qū)域位置關(guān)系信息和細(xì)節(jié)信息,從而提升模型在復(fù)雜場(chǎng)景中對(duì)道路目標(biāo)提取的能力。所提出網(wǎng)絡(luò)在Massachusetts 道路數(shù)據(jù)集和DeepGlobe 道路數(shù)據(jù)集上取得不錯(cuò)的效果,相比基準(zhǔn)網(wǎng)絡(luò)U-Net 預(yù)測(cè)結(jié)果中出現(xiàn)的錯(cuò)分、漏分現(xiàn)象,本文模型的預(yù)測(cè)結(jié)果得到明顯改善,輸出圖像中的不同尺度道路目標(biāo)相對(duì)完整且準(zhǔn)確。但是本文網(wǎng)絡(luò)還需進(jìn)一步改進(jìn),以準(zhǔn)確提取不同場(chǎng)景下更為復(fù)雜多樣的道路數(shù)據(jù),在保證準(zhǔn)確率的同時(shí)做到模型參數(shù)量更少、效果更實(shí)時(shí)。同時(shí)下一步可基于目前理論體系相對(duì)比較完善的傳統(tǒng)道路提取原理,結(jié)合深度學(xué)習(xí)方法進(jìn)行遙感影像道路提取方面的探索與研究。