康健 管海燕 于永濤 景莊偉 劉超 高俊勇
摘要針對現(xiàn)階段卷積神經(jīng)網(wǎng)絡(luò)模型在復(fù)雜地物背景下水體提取精度低、多尺度特征捕獲能力差、模型復(fù)雜的問題,基于LinkNet模型提出一種結(jié)合RFB模塊和通道注意力機制的RFA-LinkNet高分辨率光學(xué)遙感影像水體提取模型.首先,將RFB模塊用于獲取高階水體語義信息與多尺度特征;其次,利用通道注意力機制,對特征編碼和解碼的特征進行加權(quán)融合,抑制背景特征,增強水體語義.與現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型相比,提出方法不僅具有高效的性能和魯棒性,而且能實現(xiàn)高精度的水體提取.
關(guān)鍵詞遙感影像;水體提取;多尺度特征;注意力機制;
中圖分類號
TP79
文獻標(biāo)志碼
A
收稿日期
2022-01-02
資助項目
國家自然科學(xué)基金(41971414,62076107);江蘇省研究生科研與實踐創(chuàng)新計劃(KYCX20_0976)
作者簡介康健,男,碩士生,研究方向為遙感影像語義分割.20191235005@nuist.cn
管海燕(通信作者),女,博士,教授,研究方向為點云、遙感影像數(shù)據(jù)智能處理.guanhy.nj@nuist.edu.cn
0 引言
水資源在人類社會發(fā)展和地球能量循環(huán)過程中起著重要作用.因此,研究水體的時空分布,精確識別水體,對于水資源的管理和監(jiān)測、城市規(guī)劃、環(huán)境保護和防洪減災(zāi)[1-2]具有重要意義.特別是從光學(xué)遙感影像中識別水體獲得了廣泛關(guān)注.
當(dāng)前,從光學(xué)遙感影像中提取水體主要分為傳統(tǒng)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的方法.前者包括單/自適應(yīng)閾值法、基于樣本特征和人工先驗知識的機器學(xué)習(xí)法以及基于地物光譜差異的面向?qū)ο蠓ǎ墨I[3]提出歸一化差異水體指數(shù)(Normalized Difference Water Index,NDWI),可減少背景影響,有效提取水體;文獻[4]提出改進的歸一化差異水體指數(shù)(Modified NDWI,MNDWI)有效解決了陰影對于水體提取的影響;文獻[5]結(jié)合相鄰像素間的空間相關(guān)性、像素強度等多特征,利用馬爾可夫隨機場算法精確提取水體信息并監(jiān)測其面積;文獻[6]提出了面向?qū)ο蟮姆炙畮X算法,實現(xiàn)了山地湖泊水體信息的提?。@些傳統(tǒng)水體提取方法雖然能有效獲得水體信息,但水體提取結(jié)果存在椒鹽噪聲,且受環(huán)境影響嚴重,難以實現(xiàn)大規(guī)模自動提取水體.
近年來,深度學(xué)習(xí)發(fā)展迅速,其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[7]憑借強大特征學(xué)習(xí)能力被廣泛應(yīng)用于圖像分類、目標(biāo)檢測等領(lǐng)域.特別是全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[8]的提出,克服了以往網(wǎng)絡(luò)中存在全連接層對于特征圖空間信息的破壞,實現(xiàn)了圖像的像素級端到端特征提?。墨I[9]聯(lián)合CNN模型與NDWI,同時結(jié)合水體光譜和空間信息,顯著提高了水體提取精度;文獻[10]提出了DeepWaterMap模型,將水體從復(fù)雜環(huán)境中提取出來.由于受限于Landsat影像空間分辨率,從而對精細水體提取效果不顯著.文獻[11]提出了VGG-FCN模型遷移學(xué)習(xí)的水體提取方法,并將其與傳統(tǒng)的閾值法和CrabCut算法進行分析比較,實驗表明基于CNN模型的水體提取算法具有自動化程度高和水體提取精度高等優(yōu)點;文獻[12]基于改進的UNet模型,結(jié)合條件隨機場算法實現(xiàn)了GF-2影像的水體的提?。?dāng)前基于卷積神經(jīng)網(wǎng)絡(luò)的方法,雖然能有效提取水體信息,但由于水體的大小、形狀、紋理復(fù)雜多樣,且地域分布差異明顯,因而從高分遙感影像中高效、精確提取水體,特別是復(fù)雜地物背景下的多尺度水體依然有一定難度.另外,基于經(jīng)典語義分割的網(wǎng)絡(luò)模型參數(shù)量大、收斂緩慢、計算效能低.
針對現(xiàn)階段卷積神經(jīng)網(wǎng)絡(luò)模型在復(fù)雜地物背景下水體提取精度低、多尺度特征提取能力差、模型復(fù)雜和計算效能低的問題,本文基于LinkNet模型,提出了一種結(jié)合RFB (Receptive Field Block)模塊和通道注意力機制的Receptive Field Attention LinkNet (RFA-LinkNet)高分遙感影像水體識別模型.首先,基于RFB模塊獲取高階水體語義信息與多尺度特征;其次,利用通道注意力機制,對LinkNet模型的編碼和解碼器特征進行加權(quán)融合,從而抑制背景噪聲,增強水體特征顯著性.與現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型分析對比,實驗表明本文方法能夠?qū)崿F(xiàn)高效、高精度水體提?。?/p>
1 水體提取模型框架
1.1 RFA-LinkNet水體提取模型
本文提出的RFA-LinkNet水體提取模型基于經(jīng)典的LinkNet模型[13],如圖1a所示.LinkNet模型采用特征編碼-解碼結(jié)構(gòu):特征編碼部分主要由3個3×3的初始卷積層和4個特征編碼層組成.特征編碼層通過殘差塊[14]和池化操作提取目標(biāo)語義特征,生成特征圖,并減小特征圖大?。?00×800尺寸的RGB影像經(jīng)過初始卷積層后,變?yōu)榫哂?4個通道、400×400大小的特征圖,再經(jīng)過4個特征編碼層后特征圖大小依次變?yōu)?00×200、100×100、100×100、50×50,通道數(shù)變?yōu)?4、128、256、512,其中殘差塊結(jié)構(gòu)如圖1b所示.
特征解碼部分由4個反卷積塊和1個末端輸出卷積層構(gòu)成,反卷積塊結(jié)構(gòu)如圖1c所示.經(jīng)過4個反卷積塊后,25×25×512的特征圖尺寸大小依次變?yōu)?0×50、100×100、200×200、400×400,通道數(shù)分別變?yōu)?56、128、64、64.最后經(jīng)過輸出卷積層生成800×800×1的水體概率分布圖.其中,特征編碼和解碼兩部分,采用逐像素相加的方式進行特征融合.
特征編碼部分經(jīng)過多次卷積和池化操作,可以生成具有豐富全局信息和語義特征的高階特征圖.因此,本文在LinkNet網(wǎng)絡(luò)的基礎(chǔ)上,首先,引入RFB模塊來增大感受野,增強多尺度水體信息的獲取能力,抑制背景特征,實現(xiàn)高階水體語義特征的提取.其次,利用通道注意力機制對各特征編碼層生成的特征圖進行通道加權(quán),降低無關(guān)特征的干擾,增強不同尺度特征圖中的水體語義特征,提高水體提取精度.
1.2 RFB模塊
光學(xué)遙感影像中的水體時空分布多樣、形狀和紋理差異明顯,特別是在高空分辨的光學(xué)遙感影像中水體與背景的邊緣紋理特征、細節(jié)信息豐富,對精確水體提取構(gòu)成挑戰(zhàn).在常規(guī)的卷積神經(jīng)中,網(wǎng)絡(luò)通過堆疊卷積層增大感受,獲取不同尺度上的特征.然而,在固定大小的卷積核生成的高階特征圖中,存在大量無關(guān)背景特征,會影響目標(biāo)特征的提?。斩淳矸e[15]引入擴張率,在卷積核之間填充0,增大感受野,捕獲多尺度特征的同時未增加參數(shù)量.空洞卷積等效感受野的計算公式如下:
K=K size+(K size-1)·(R rate-1),(1)
其中,K為空洞卷積的等效卷積核大小,K size為空洞卷積的卷積核大小,R rate為擴張率大小.如圖2所示擴張率分別為1、3、5的3×3卷積.
輸入的影像經(jīng)過LinkNet模型的特征編碼,可獲得大量特征信息,其中無關(guān)的背景特征會影響水體語義特征的提?。虼?,本文引入RFB模塊進一步獲得豐富的多尺度水體信息,抑制非水體特征,實現(xiàn)高階水體語義特征提取.RFB模塊模擬人類視覺感受野,加強多尺度特征提取能力,被廣泛地應(yīng)用于目標(biāo)檢測領(lǐng)域[16].
本文構(gòu)建的高階特征提取RFB模塊,其結(jié)構(gòu)如圖3所示.首先,應(yīng)用1×1的卷積層對輸入特征圖進行通道降維;然后,將降維的特征圖分別輸入到含有空洞卷積的4個分支中,在擴張率為1、3、5的3×3空洞卷積層前,使用了3×1和1×3的非對稱卷積減小參數(shù);其次,利用1×1的卷積對4個分支生成的多尺度特征進行聚合;最后,將初始多尺度特征與原始特征進行深層次融合,完成多尺度特征的提取,增強高階水體語義信息.
1.3 通道注意力機制
特征編碼過程中,特征圖尺寸大小減半,同時特征圖通道數(shù)在增加,含有目標(biāo)特征的通道對目標(biāo)語義特征表達有益,不含目標(biāo)特征的通道則不利于特征表達.LinkNet模型中將編碼和解碼特征簡單地進行逐像素相加,缺乏對于無關(guān)特征的抑制,不能準(zhǔn)確提取目標(biāo)特征.因此,本文引入通道注意力機制來增強水體特征,通過對特征編碼階段生成的特征圖各通道間相互關(guān)系建模,增強水體語義特征的表達.首先,通過兩個池化層對輸入特征圖壓縮,同時捕獲全局語義特征;然后,在通道維度對語義特征分組卷積,依據(jù)語義特征建立通道間的相互關(guān)系;最后,按通道間的相互關(guān)系對輸入語義特征進行加權(quán),實現(xiàn)水體語義特征的增強.
本文中構(gòu)建的通道注意力機制如圖4所示,假設(shè)輸入的特征圖為Fin C×H×W,其中C,H和W分別為通道數(shù)、高度和寬度.首先,利用全局平均池化(AvgPooling)和全局最大池化(MaxPooling)在行、列維度上聚合語義特征,生成FAvg C×1×1 和Fmax C×1×1.為了突出特征圖通道間相關(guān)性,對FAvg C×1×1 和Fmax C×1×1 進行分組卷積,生成具有語義權(quán)重分布的特征圖,并將兩分支的特征圖元素求和合并.接著,利用Sigmoid激活函數(shù)將融合后的通道權(quán)重特征圖映射到[0,1],得到具有強語義特征表達的通道權(quán)重,即通道注意力f CW.最后通過通道注意力對輸入特征圖進行通道加權(quán),生成具有強語義特征的特征圖Fout C×H×W.在水體識別任務(wù)中,通道注意力機制將特征編碼和解碼兩部分連接,有效增強水體語義特征表達,抑制無關(guān)背景特征,有利于提高水體識別精度.具體計算過程如下:
FAvg C×1×1=AvgPooling(Fin C×H×W), (2)
Fmax C×1×1=MaxPooling(Fin C×H×W),? (3)
f CW=σ{[Conv(f ReLU(Conv(FAvg C×1×1)]+? [Conv(f ReLU(Conv(Fmax C×1×1)]},? (4)
Fout C×H×W=f CWFin C×H×W,? (5)
其中,f CW為通道權(quán)重,Conv為1×1的卷積操作,f ReLU為ReLU激活函數(shù),σ為Sigmoid函數(shù),表示元素點乘,F(xiàn)out C×H×W 和Fin C×H×W分別表示輸出和輸入特征圖.
2 實驗分析
2.1 實驗數(shù)據(jù)集與超參數(shù)設(shè)置
本實驗的高分遙感數(shù)據(jù)利用BIGEMAP軟件(http://www.bigemap.com)從谷歌地球服務(wù)獲得.該數(shù)據(jù)集總共4 500張800×800大小包含水體的影像,影像空間分辨率為1~2 m.利用Labelme軟件對影像中的水體進行了像素水平精細標(biāo)注,最后生成了只有水體和非水體的二值掩碼圖,部分樣本如圖5所示.
受限于樣本數(shù)量,將樣本按照8∶2比例,隨機從總樣本影像中選出3 600張作為訓(xùn)練數(shù)據(jù),900張作為測試數(shù)據(jù).在訓(xùn)練過程中,使用隨機水平、垂直翻轉(zhuǎn)、變換亮度、對比度、飽和度、圖像標(biāo)準(zhǔn)化和歸一化的線上數(shù)據(jù)擴充策略,增強模型學(xué)習(xí)能力,減少過擬合.
該實驗環(huán)境為一臺Inter(R)CoreTMi9-9820X,10核3.30 GHz的CPU、兩張NVIDIA RTX 2080Ti(11 GB)顯卡,以及64 GB內(nèi)存的工作站.本實驗涉及所有網(wǎng)絡(luò)模型都是基于Python 3.7.4 編程語言和Pytorch 1.8.1深度學(xué)習(xí)框架,采用Adam優(yōu)化器和二元交叉熵損失函數(shù)優(yōu)化網(wǎng)絡(luò),kaiming正態(tài)分布初始化卷積層參數(shù).訓(xùn)練時,批量大小設(shè)為2,學(xué)習(xí)率設(shè)為0.000 5,訓(xùn)練周期為50.這些參數(shù)都經(jīng)多次實驗得出.為了比較公平性,所有提及網(wǎng)絡(luò)都采用相同超參數(shù)訓(xùn)練,并保存訓(xùn)練集上性能表現(xiàn)最好的模型權(quán)重參數(shù).
2.2 評價指標(biāo)
本文使用基于像素的精度評價指標(biāo)來定量評估水體提取精度,主要包括整體精度(OA)、錯分誤差(CE)、漏分誤差(OE)、均交并比(mIoU)以及F1分數(shù)(F1-Score),其計算公式如下:
OA=TP+TNTP+TN+FP+FN×100%, (6)
CE=1-TPTP+FP×100%, (7)
OE=1-TPTP+FN×100%, (8)
mIoU=1n+1∑ni=0TPTP+FP+FN×100%, (9)
F1-Score=2×TP2TP+FP+FN×100%, (10)
其中:TP表示正確識別為水體像素的數(shù)量;FP表示錯誤識別為水體像素的數(shù)量;FN表示錯誤識別為非水體像素的數(shù)量;TN表示正確識別為非水體的像素的數(shù)量.OA、mIoU、F1-Score用來整體評價水體提取的精度,CE和OE用來評價水體提取的誤差程度.
2.3 有效性分析
為了細致分析模型中各模塊的有效性,以LinkNet模型為基礎(chǔ),分別與RFB模塊和通道注意力機制結(jié)合構(gòu)建了LinkNet+注意力機制、LinkNet+RFB模塊兩個對比模型.在計算機視覺領(lǐng)域,空洞空間金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP)[17]、密集空洞空間金字塔池化(Densely Connected Atrous Spatial Pyramid Pooling,DenseASPP)[18]模塊與RFB模塊結(jié)構(gòu)相似,都是通過多分支空洞卷積增大感受野,捕獲并融合多尺度特征,來提高語義分割精度,已經(jīng)被廣泛地應(yīng)用于遙感影像自動解譯.因此,基于本文提出的模型,將其中的RFB模塊進行替換,構(gòu)建LinkNet+注意力機制+ASPP模塊和LinkNet+注意力機制+DenseASPP模塊兩個模型,全面分析本文提出模型.最后,共構(gòu)建了5個模型與本文提出方法進行了對比,在測試集上水體提取的定量精度如表1所示.
從表1可以知,本文提出的RFA-LinkNet模型,在OA、mIoU和F1-Score三個精度評價指標(biāo)上分別達到96.27%、91.30%和93.42%,高于構(gòu)建的對比模型.相比于LinkNet+RFB模塊,精度提高不明顯,這是因為在整個網(wǎng)絡(luò)模型中,深層卷積層生成的特征圖相對淺層而言,含有豐富的高階水體語義信息,因此增強高階語義特征提取更有利于精確水體識別.從CE評價指標(biāo)來看,RFA-LinkNet模型最低,僅為9.34%,表明RFB模塊與通道注意力機制的組合對于提高水體識別精度有顯著作用.但是在OE指標(biāo)上,RFA-LinkNet模型表現(xiàn)并非最好,為3.64%,主要是因為通道注意力機制從行、列維度上聚合特征,生成通道注意力時破壞了相應(yīng)特征圖的空間結(jié)構(gòu),丟失了空間信息,增加了部分影像水體提取的誤差.
從測試集中選取了包含人工建筑、光譜變化、多尺度水體以及自然植被分布的影像,這些典型影像都對精確水體提取構(gòu)成了一定挑戰(zhàn).為了直觀形象比較,將測試影像經(jīng)過網(wǎng)絡(luò)模型生成的水體提取概率制成熱力圖展示,如圖6所示.其中第一、第二列展示了原始影像以及融合標(biāo)簽的掩碼圖,影像中藍色到紅色分別表示是像素識別為水體的概率從低到高,對比第一、第二行的影像可發(fā)現(xiàn)本文提出的RFA-LinkNet模型,借助于RFB模塊與通道注意力機制更能凸顯水體語義特征,抑制無關(guān)背景特征.第三、第四行影像清楚顯示了提出的RFA-LinkNet模型對于多尺度水體提取有顯著優(yōu)勢,同時能有效改善水體邊界.
結(jié)合表1水體識別的定量精度指標(biāo)和圖6展示的典型地物下水體提取熱力圖,可知在LinkNet模型的基礎(chǔ)上,結(jié)合高階特征提取RFB模塊和通道注意力機制構(gòu)建的RFA-LinkNet模型極大提高了水體提取精度.
2.4 對比實驗
本文進一步將提出的RFA-LinkNet模型與當(dāng)前主流的語義分割CNN算法模型進行了比較,包括編碼-解碼結(jié)構(gòu)的UNet[19]、SegNet[20]、LinkNet[13]、多尺度的PSPNet[21]、DeepLabv3+[22]、注意力機制的DANet[23].其中,DeepLabv3+模型利用Xception[24]網(wǎng)絡(luò)結(jié)構(gòu)進行下采樣特征提取,受限于輸入影像大小,PSPNet和DANet模型中用ResNet34替換了ResNet50-Dilated網(wǎng)絡(luò)進行下采樣,雙線性插值上采樣.在測試集上水體提取的定量精度如表2所示.
從表2可看出本文提出的RFA-LinkNet模型,在OA、mIoU和F1-Score三個精度評價指標(biāo)上分別達到了96.27%、91.30%和93.42%,遠高于其他CNN模型.從CE指標(biāo)來看,RFA-LinkNet模型的錯分誤差最低,僅為9.34%,遠低于其余6種對比模型.RFA-LinkNet和DANet模型中都使用了通道注意力機制,因此,生成水體特征通道注意力時,破壞了
特征圖的空間結(jié)構(gòu),造成部分空間信息的丟失,所以在測試集上的OE指標(biāo)分別為3.64%和4.16%,高于其余5種無注意力機制的全卷積CNN模型.
圖7展示了部分測試影像的水體提取效果.在圖7的第一、第二行的測試影像中水體與道路、植被相互交錯,經(jīng)過RFA-LinkNet模型識別的水體與掩碼標(biāo)簽最為接近,特別是在#1、#2和#3區(qū)域;從第三行影像整體以及#4和#5區(qū)域的細節(jié),可以明顯看出RFA-LinkNet模型的水體提取精度更高;
比較
第四、第五行的影像,可清晰看出在有人工建筑物、斑狀和細長的多尺度水體分布的影像中,RFA-LinkNet模型的水體提取效果顯著.特別是在區(qū)域#6、#7、#8中,對于水體邊界的保留,效果更顯著.
為了更全面地分析本文RFA-LinkNet模型的計算效能,從訓(xùn)練、測試時間以及模型參數(shù)三方面進行了比較,如表3所示.從表3中可以發(fā)現(xiàn)RFA-LinkNet模型單個訓(xùn)練周期時間為15 min,完成全部測試影像水體提取用時66.8 s,相對于水體提取精度次優(yōu)的UNet模型分別降低了14 min和40.1 s;相比于時間次優(yōu)的DeepLabv3+仍然分別減小了9 min和27.8 s.在模型的整體參數(shù)量方面,RFA-LinkNet模型只有23.19 MB,與UNet、DANet相比分別降低了7.84 MB和2.53 MB,表明本文方法具有很高的計算效能.
3 結(jié)語
本文基于LinkNet網(wǎng)絡(luò)模型提出了一種結(jié)合RFB模塊和通道注意力機制的RFA-LinkNet高分遙感影像水體提取模型.所提模型對高分辨率的谷歌影像的數(shù)據(jù)集進行了水體提取實驗,實驗結(jié)果表明:RFA-LinkNet模型相較于SegNet、DANet、PSPNet、DeepLabv3+、Unet以及LinkNet,不僅在OA、mIoU以及F1-Score三個精度評價指標(biāo)上分別取得了96.27%、91.30%、93.42%的精度,在CE指標(biāo)上最低,僅為9.34%,而且具有高的計算效能.RFA-LinkNet模型在人工建筑、光譜變化、多尺度水體以及自然植被分布復(fù)雜背景地物的影像中對于水體精確的提取以及邊界細節(jié)的保留具有明顯優(yōu)勢.
參考文獻
References
[1] Liu H,Zheng L,Jiang L,et al.Forty-year water body changes in Poyang Lake and the ecological impacts based on Landsat and HJ-1 A/B observations[J].Journal of Hydrology,2020,589:125161
[2] Li L W,Yan Z,Shen Q,et al.Water body extraction from very high spatial resolution remote sensing data based on fully convolutional networks[J].Remote Sensing,2019,11(10):1162
[3] McFeeters S K.The use of the normalized difference water index (NDWI) in the delineation of open water features[J].International Journal of Remote Sensing,1996,17(7):1425-1432
[4] 徐涵秋.利用改進的歸一化差異水體指數(shù)(MNDWI)提取水體信息的研究[J].遙感學(xué)報,2005,9(5):589-595
XU Hanqiu.A study on information extraction of water body with the modified normalized difference water index (MNDWI)[J].Journal of Remote Sensing,2005,9(5):589-595
[5] Elmi O,Tourian M J,Sneeuw N.Dynamic river masks from multi-temporal satellite imagery:an automatic algorithm using graph cuts optimization[J].Remote Sensing,2016,8(12):1005
[6] 李文萍,王偉,高星,等.融合面向?qū)ο蠛头炙畮X算法的山地湖泊提取方法[J].地球信息科學(xué)學(xué)報,2021,23(7):1272-1285
LI Wenping,WANG Wei,GAO Xing,et al.A lake extraction method in mountainous regions based on the integration of object-oriented approach and watershed algorithm[J].Journal of Geo-Information Science,2021,23(7):1272-1285
[7] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554
[8] Shelhamer E,Long J,Darrell T.Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651
[9] 何海清,杜敬,陳婷,等.結(jié)合水體指數(shù)與卷積神經(jīng)網(wǎng)絡(luò)的遙感水體提?。跩].遙感信息,2017,32(5):82-86
HE Haiqing,DU Jing,CHEN Ting,et al.Remote sensing image water body extraction combing NDWI with convolutional neural network[J].Remote Sensing Information,2017,32(5):82-86
[10] Isikdogan F,Bovik A C,Passalacqua P.Surface water mapping by deep learning[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2017,10(11):4909-4918
[11] 王雪,隋立春,鐘棉卿,等.全卷積神經(jīng)網(wǎng)絡(luò)用于遙感影像水體提?。跩].測繪通報,2018(6):41-45
WANG Xue,SUI Lichun,ZHONG Mianqing,et al.Fully convolution neural networks for water extraction of remote sensing images[J].Bulletin of Surveying and Mapping,2018(6):41-45
[12] 何紅術(shù),黃曉霞,李紅旮,等.基于改進U-Net網(wǎng)絡(luò)的高分遙感影像水體提?。跩].地球信息科學(xué)學(xué)報,2020,22(10):2010-2022
HE Hongshu,HUANG Xiaoxia,LI Hongga,et al.Water body extraction of high resolution remote sensing image based on improved U-net network[J].Journal of Geo-Information Science,2020,22(10):2010-2022
[13] Chaurasia A,Culurciello E.LinkNet:exploiting encoder representations for efficient semantic segmentation[C]//2017 IEEE Visual Communications and Image Processing.December 10-13,2017,St.Petersburg,F(xiàn)L,USA.IEEE,2017:1-4
[14] He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778
[15] Wang P Q,Chen P F,Yuan Y,et al.Understanding convolution for semantic segmentation[C]//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision.Washington D.C.,USA:IEEE Press,2018:1451-1460
[16] Liu S T,Huang D,Wang Y H.Receptive field block net for accurate and fast object detection[C]//2018 Proceedings of the European Conference on Computer Vision,2018:404-419
[17] Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848
[18] Yang M K,Yu K,Zhang C,et al.DenseASPP for semantic segmentation in street scenes[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:3684-3692
[19] Ronneberger O,F(xiàn)ischer P,Brox T.U-net:convolutional networks for biomedical image segmentation[C]//2015 Proceedings of the Medical Image Computing and Computer Assisted Intervention,2015:234-241
[20] Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495
[21] Zhao H S,Shi J P,Qi X J,et al.Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017:6230-6239
[22] Chen L C,Zhu Y K,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//2018 Proceedings of the European Conference on Computer Vision,2018:833-851
[23] Fu J,Liu J,Tian H J,et al.Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:3141-3149
[24] Chollet F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1800-1807
RFA-LinkNet:a novel deep learning network for water body extraction
from high-resolution remote sensing images
KANG Jian1 GUAN Haiyan1 YU Yongtao2 JING Zhuangwei3 LIU Chao2 GAO Junyong2
1School of Remote Sensing & Geomatics Engineering,Nanjing University of Information Science & Technology,Nanjing 210044
2School of Computer and Software Engineering,Huaiyin Institute of Technology,Huaiyin 223003
3Shanghai Aerospace Electronics Research Institute,Shanghai 201109
Abstract
The Convolutional Neural Network (CNN) has unsatisfactory performance in water body extraction from high-resolution optical remote sensing images with complex background,which is low in accuracy,unable to capture multi-scale features,and complex in model structure.Here,we propose an RFA-LinkNet (Receptive Field Attention LinkNet) approach combining Receptive Field Block (RFB) and Channel Attention Block (CAB),from which the high-level water body semantic information and multi-scale feature map can be obtained by RFB,then the CAB is used to realize the weighted fusion of encoding and decoding features,to suppress background features as well as enhance water body semantics.Compared with state-of-the-art CNN models,the proposed RFA-LinkNet can extract water body information from high-resolution optical remote sensing images more efficiently and robustly with high precision.
Key words remote-sensing image;water body extraction;multi-scale feature;attention mechanism