摘 要:遙感圖像變化檢測(cè)是為了識(shí)別出雙時(shí)相圖像之間的顯著變化。給定2 個(gè)在不同時(shí)間拍攝的配準(zhǔn)圖像,光照變化和錯(cuò)配誤差會(huì)掩蓋真實(shí)物體的變化,探索不同時(shí)空像素之間的關(guān)系可以提高遙感圖像變化檢測(cè)方法的性能。在SpatialTemporal Attention Neural Network (STANet) 中,提出了一種基于孿生的時(shí)空注意力神經(jīng)網(wǎng)絡(luò)。在其基礎(chǔ)上進(jìn)行改進(jìn):① 對(duì)距離度量模塊由于線性插值導(dǎo)致的變化特征間隙模糊問題,設(shè)計(jì)了對(duì)距離特征的上采樣模塊,使得變化區(qū)域間隙更加明顯,虛警率更低;② 針對(duì)STANet 的Pyramid Spatial Temporal Attention Module (PAM) 模塊計(jì)算開銷大的問題,引用了新的Coordinate Attention (CA) 模塊,在降低運(yùn)算開銷的基礎(chǔ)上,更好地識(shí)別了不同空間、通道的特征;③ 針對(duì)STANet 對(duì)Residual Network (ResNet) 提取出的特征圖利用不充分的問題,加入了深監(jiān)督模塊,利用中間層的特征計(jì)算一個(gè)權(quán)重衰減的loss,起到正則化的作用。實(shí)驗(yàn)表明,改進(jìn)之后的網(wǎng)絡(luò)將基線模型的F1 得分從81. 6 提高到86. 1。在公共遙感圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,改進(jìn)的方法優(yōu)于其他幾種先進(jìn)的方法。
關(guān)鍵詞:遙感圖像;STANet;深監(jiān)督;CA
中圖分類號(hào):TP391. 4 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)05-1226-10
0 引言
遙感變化檢測(cè)是識(shí)別多時(shí)相遙感圖像之間顯著差異的過程,顯著差異通常取決于特定的應(yīng)用,如城市化監(jiān)測(cè)[1-2]、災(zāi)害評(píng)估[3]和環(huán)境監(jiān)測(cè)[4]。近年來,自動(dòng)化變化檢測(cè)技術(shù)促進(jìn)了遙感應(yīng)用的發(fā)展,受到了廣泛的關(guān)注。
隨著深度學(xué)習(xí)的發(fā)展,許多變化檢測(cè)的網(wǎng)絡(luò)模型被提出,而針對(duì)遙感圖像的變化檢測(cè)模型也層出不窮。深度學(xué)習(xí)由于其端到端的網(wǎng)絡(luò)結(jié)構(gòu),輸入的雙時(shí)相圖片經(jīng)過特征提取后在輸出端直接輸出相應(yīng)的特征圖,不但簡(jiǎn)化了對(duì)變化檢測(cè)任務(wù)研究的復(fù)雜程度,還大大提高了檢測(cè)的精確度。
通常,最流行的變化檢測(cè)解決方案是使用來自相同傳感器的雙時(shí)間遙感圖像[5],利用孿生神經(jīng)網(wǎng)絡(luò)對(duì)雙時(shí)相遙感圖像分別進(jìn)行處理并提取出對(duì)應(yīng)的特征,再根據(jù)提取出的特征進(jìn)行差別檢測(cè)。孿生結(jié)構(gòu)使用不同的網(wǎng)絡(luò)分支來實(shí)現(xiàn)差異化特征提取,以獲得更有針對(duì)性的特征。在所有深度神經(jīng)網(wǎng)絡(luò)架構(gòu)中,62% 的神經(jīng)網(wǎng)絡(luò)架構(gòu)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[5]。在檢測(cè)差異時(shí),大部分檢測(cè)方法以識(shí)別二進(jìn)制變化為主,區(qū)分變化的存在與否[6]。在整個(gè)檢測(cè)過程中,研究者以不同的角度進(jìn)行深入探索,得出了多種有效的檢測(cè)方法。
Daudt 等[7]引入全卷積孿生網(wǎng)絡(luò),為遙感圖像變化檢測(cè)任務(wù)帶來了一種新的方法。全卷積意味著網(wǎng)絡(luò)的所有層都是卷積層,不包含全連接層,這使得網(wǎng)絡(luò)可以接受不同尺寸的輸入圖像。而孿生網(wǎng)絡(luò)是一種特殊的網(wǎng)絡(luò)結(jié)構(gòu),其中有2 個(gè)相同結(jié)構(gòu)的分支,分別接受2 幅輸入圖像,然后通過比較這2 個(gè)分支的特征來判斷圖像是否發(fā)生變化。設(shè)計(jì)了適用于孿生網(wǎng)絡(luò)的損失函數(shù),用于比較2 個(gè)分支提取的特征。損失函數(shù)的設(shè)計(jì)使得網(wǎng)絡(luò)在訓(xùn)練過程中能夠?qū)W習(xí)到有效的特征表示,以便更好地判斷圖像是否發(fā)生變化。實(shí)驗(yàn)結(jié)果表明,該方法在變化檢測(cè)任務(wù)中具有較好的性能,相比傳統(tǒng)方法具有更高的準(zhǔn)確性和魯棒性。
從網(wǎng)絡(luò)架構(gòu)的角度,Bandara 等[8]提出的Change-Former 利用編-解碼結(jié)構(gòu)搭建網(wǎng)絡(luò),提出的方法統(tǒng)一了分層結(jié)構(gòu)的變換器、編碼器與多層感知解碼器,在孿生網(wǎng)絡(luò)架構(gòu)中高效地提取精確檢測(cè)所需的多尺度長(zhǎng)程細(xì)節(jié),降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度和深度,實(shí)驗(yàn)結(jié)果表明該方法有良好的檢測(cè)效果。
從多級(jí)特征有效利用的角度,Li 等[9]提出一種名為AR-CDNet 的新型變化檢測(cè)網(wǎng)絡(luò),將在線不確定性估計(jì)分支提取的不確定性感知特征與多級(jí)時(shí)間差異特征聚合起來,并且從可靠性的角度,構(gòu)建了一個(gè)在線不確定性估計(jì)分支來模擬像素級(jí)的不確定性。實(shí)驗(yàn)表明,訓(xùn)練完成后,AR-CDNet 能夠在沒有地面真值的情況下提供準(zhǔn)確的變化圖和評(píng)估像素級(jí)的不確定性。
從上下文差異信息的角度,Chen 等[10]提出的BIT 網(wǎng)絡(luò)是一種基于Transformer 的方法,基于Transformer 的網(wǎng)絡(luò)可以通過利用卷積和變換器的強(qiáng)度來有效地對(duì)上下文信息進(jìn)行建模[5]。該方法使用Transformer 編碼器-解碼器網(wǎng)絡(luò)通過語義標(biāo)記增強(qiáng)ConvNet 特征的上下文信息,然后進(jìn)行特征差分得到變化圖。
從網(wǎng)絡(luò)連接的角度,Fang 等[11]提出了一種SNUNet-CD 的方法,即密集連接孿生網(wǎng)絡(luò)變化檢測(cè)方法。通過堆疊多個(gè)密集塊(Dense Block)來提取特征。每個(gè)密集塊由多個(gè)卷積層組成,通過密集連接將前面的層與后面的層連接起來。由于高分辨率圖像通常具有更多的細(xì)節(jié)和信息,SNUNet-CD 的密集連接結(jié)構(gòu)可以更好地捕獲圖像的特征,提高變化檢測(cè)的準(zhǔn)確性,從而提高網(wǎng)絡(luò)的特征提取能力和重用性。
從對(duì)提取出的特征進(jìn)行處理的角度,Chen 等[12]提出了一種新網(wǎng)絡(luò)———SARAS-Net。在特征相減之前使用關(guān)系感知模塊,在相減之后使用比例感知模塊和交叉變壓器模塊。最后,交叉Transformer 模塊融合了多層次的特征,更加注重空間信息,容易分離前景和背景,從而減少誤報(bào)。實(shí)驗(yàn)表明,SARAS-Net 在不同數(shù)據(jù)集上均取得了良好的效果。
從數(shù)據(jù)集的角度,盡管深度學(xué)習(xí)算法可以從原始遙感圖像中學(xué)習(xí)高度抽象的特征表示,但檢測(cè)和識(shí)別是否成功取決于大量的訓(xùn)練樣本[6]。然而,由于收集標(biāo)記的高分辨率圖像具有挑戰(zhàn)性,因此經(jīng)常缺乏高質(zhì)量的訓(xùn)練。在這些條件下,如何用較少的適當(dāng)訓(xùn)練樣本,來保持深度學(xué)習(xí)算法的學(xué)習(xí)性能,仍然是一個(gè)重要的問題。因此,文獻(xiàn)[13-14]提出了一種單時(shí)間監(jiān)督學(xué)習(xí)(Single Temporal Supervised Learning,STAR)的模型,利用未配對(duì)標(biāo)記的圖像來訓(xùn)練高精度變化檢測(cè)器,并將其推廣到現(xiàn)實(shí)世界的雙時(shí)態(tài)圖像。STAR 使用單個(gè)時(shí)間點(diǎn)的監(jiān)督數(shù)據(jù)來訓(xùn)練模型,避免了獲取多個(gè)時(shí)間點(diǎn)標(biāo)注數(shù)據(jù)的難題,提高了數(shù)據(jù)獲取的效率。相對(duì)于多時(shí)相圖像變化檢測(cè),單時(shí)間點(diǎn)監(jiān)督學(xué)習(xí)簡(jiǎn)化了問題,減少了模型訓(xùn)練和推斷的復(fù)雜性。綜合實(shí)驗(yàn)結(jié)果表明,ChangeStar 在單時(shí)間監(jiān)督下以較大的優(yōu)勢(shì)優(yōu)于基線,在雙時(shí)間監(jiān)督下實(shí)現(xiàn)了優(yōu)異的性能。
從雙時(shí)相特征差異度量標(biāo)準(zhǔn)的角度,Chen 等[15]提出的Spatial Temporal Attention Neural Network(STANet)網(wǎng)絡(luò)集成了一種新的變化檢測(cè)自注意模塊,在時(shí)間和空間尺度上對(duì)特征圖進(jìn)行處理,計(jì)算不同區(qū)域的注意力權(quán)重,對(duì)2 個(gè)特征圖做距離計(jì)算來評(píng)估差異性的大小,最終取得了良好的效果。但是,在最后對(duì)特征圖的處理上,STANet 是對(duì)雙時(shí)間距離特征圖取歐氏距離再做線性插值,會(huì)導(dǎo)致圖像上的變化區(qū)域間隙模糊、虛警率高,雖然識(shí)別到了變化像素的位置,但丟失了檢測(cè)的精度。Pyramid SpatialTemporal Attention Module(PAM)的設(shè)計(jì)雖然對(duì)圖像不同區(qū)域計(jì)算了注意力權(quán)重,然而計(jì)算開銷大。在PAM 之前的特征圖沒有得到更好的利用。
針對(duì)上述問題,本文設(shè)計(jì)了一種基于STANet 的改進(jìn)方法,引入了分層上采樣模塊對(duì)特征圖進(jìn)行處理,提高檢測(cè)精度。使用Coordinate Attention(CA)[16]模塊替換Basic Spatial Temporal AttentionModule(BAM)模塊,在不降低檢測(cè)精度的前提下,大大降低了計(jì)算開銷。在特征圖進(jìn)入PAM 之前,加入了深監(jiān)督,使注意力能夠在更加明顯的特征上計(jì)算注意力權(quán)重。
1 算法框架介紹
1. 1 改進(jìn)的STANet 網(wǎng)絡(luò)結(jié)構(gòu)
STANet 主干網(wǎng)絡(luò)為ResNet,利用ResNet 提取出雙時(shí)相遙感圖像的距離特征。為了解決神經(jīng)網(wǎng)絡(luò)對(duì)雙時(shí)相遙感圖像特征不同時(shí)間、空間特征依賴性的檢測(cè)缺失,STANet 集成了BAM 模塊,用來捕捉任意2 個(gè)位置之間的時(shí)空依賴關(guān)系(注意權(quán)重)。之后將它嵌入到金字塔模型中,達(dá)到聚合多尺度的注意力特征的效果,獲取圖像更精細(xì)的細(xì)節(jié),充分利用了不同位置和時(shí)間單個(gè)圖像之間的時(shí)空相關(guān)性,有效地在時(shí)間和空間上提取了長(zhǎng)期的變化特征。從中得到的雙時(shí)相距離特征輸入到度量模塊,計(jì)算雙時(shí)相特征的歐氏距離,再經(jīng)過閾值分割器判斷出變化區(qū)域的位置,然后,經(jīng)過線性插值得到變化圖。因此,距離特征圖的計(jì)算將會(huì)直接影響到最終的變化圖。STANet 基于此設(shè)計(jì)了度量距離與標(biāo)簽差距的批量平衡對(duì)比損失函數(shù)(Batch-balanced ContrastiveLoss,BCL),通過批量的距離特征圖中的距離值和標(biāo)簽中的變化與未變化區(qū)域像素來計(jì)算監(jiān)督損失函數(shù)。
本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,在STANet 原有的基礎(chǔ)上進(jìn)行了改進(jìn)。
BAM 雖然可以有效提取時(shí)空特征,但是計(jì)算開銷大,并且卷積沒有辦法獲取圖像特征中不同維度之間長(zhǎng)期的關(guān)聯(lián)特征,只能提取出局部性特征。CA通過將特征圖中的空間信息融合到通道特征中,進(jìn)而提取出不同維度的長(zhǎng)期依賴關(guān)系,同時(shí)大大降低了計(jì)算開銷。因此本文引入CA 替換BAM 用來在降低計(jì)算開銷的同時(shí)提高檢測(cè)的精度。
由于變化區(qū)域相隔較近,線性插值將會(huì)導(dǎo)致檢測(cè)出的變化圖中變化區(qū)域之間間隙模糊甚至重疊,并且檢測(cè)的精度不夠,變化區(qū)域不能很好地符合真實(shí)標(biāo)簽。因此,本文移除了STANet 中的距離度量模塊,在注意力檢測(cè)后加入分層上采樣模塊。
在STANet 網(wǎng)絡(luò)中,注意力機(jī)制的引入是為了更好地捕獲從ResNet 中提取出來的距離特征。從這一點(diǎn)看來,ResNet 提取的特征也應(yīng)該符合網(wǎng)絡(luò)終端輸出的特征圖。因此,為了使距離特征更加明顯,也為了使注意力模塊能夠從更明顯的特征圖中捕獲注意力信息,引入了深監(jiān)督機(jī)制。將ResNet 的特征圖提前輸入到上采樣模塊,再計(jì)算相應(yīng)的損失函數(shù),這樣就可以使特征更加明顯。
1. 2 時(shí)空注意力模塊
1. 2. 1 CA 機(jī)制
Hou 等[16]提出了一種新型且高效的注意力機(jī)制,通過將特征圖中的空間信息融合到通道特征中,進(jìn)而提取出不同維度的長(zhǎng)期依賴關(guān)系,同時(shí)大大降低了計(jì)算開銷。由于2D 的全局池化層通常會(huì)造成圖像特征中的空間信息丟失,CA 機(jī)制將圖像特征通過2 個(gè)一維網(wǎng)絡(luò)進(jìn)行編碼,生成X 和Y 兩部分一維特征,從而有效地通過圖像的空間特征生成相應(yīng)的注意力特征。
具體地說,如圖2 所示,CA 通過2 個(gè)一維的全局池化層,將圖像的特征圖按照垂直和水平方向提?。?個(gè)具有方向特征的特征圖。之后,利用這2 個(gè)具有方向性的圖像特征,通過一個(gè)卷積層分別進(jìn)行編碼,進(jìn)而得到2 個(gè)不同方向的注意力特征,這2 個(gè)注意力特征分別是對(duì)圖像特征沿2 個(gè)方向的長(zhǎng)期依賴進(jìn)行捕獲而生成的注意力特征圖。
因此,圖像特征中的空間信息可以被有效地保留在生成的注意力特征圖中。然后,通過和原圖相乘,得到注意力分?jǐn)?shù)加權(quán)的圖像特征。其中,注意力分?jǐn)?shù)也表示了對(duì)圖像特征中感興趣部分的強(qiáng)調(diào)。CA 對(duì)圖像特征的處理具體對(duì)2 個(gè)方向的坐標(biāo)注意力進(jìn)行捕獲,因此也叫作坐標(biāo)注意力。
可以看到,注意力在垂直方向和水平方向都對(duì)輸入的特征產(chǎn)生了作用,2 個(gè)方向的注意力特征張量的每個(gè)特征元素都可以在2 個(gè)方向上有效感知輸入特征中感興趣的對(duì)象元素,從而使整個(gè)模型更有效地進(jìn)行識(shí)別。
總體上看,CA 不僅可以在通道維度上跨通道捕獲有效特征,還可以在不同的方向上感知并捕獲空間坐標(biāo)特征,有效地提取輸入特征中感興趣的對(duì)象。同時(shí)CA 計(jì)算開銷小、復(fù)雜度低,可以高效地為不同的模型增強(qiáng)特征。因此,本文引入CA 來代替BAM 用以捕獲特征圖中的注意力信息。
1. 2. 2 金字塔坐標(biāo)注意力模塊
與STANet 相同,為了聚合多尺度時(shí)空注意上下文來增強(qiáng)細(xì)節(jié)的識(shí)別能力,引入CA 機(jī)制后,在原有的PAM 基礎(chǔ)上替換了BAM,組成了金字塔坐標(biāo)注意力(Pyramid Coordinate Attention,PCA )模塊。PCA 模塊結(jié)合不同尺度的時(shí)空注意語境,生成多尺度注意特征。PCA 模塊有4 個(gè)分支,每個(gè)分支將特征圖平均劃分為一定尺度的幾個(gè)子區(qū)域。在每個(gè)分支中,PCA 模塊將CA 應(yīng)用于每個(gè)子區(qū)域的像素,以獲得該尺度下的局部注意力表示。然后,通過聚合4 個(gè)分支的輸出特征,生成多尺度的注意力表示。因?yàn)閳D像空間中的每個(gè)像素都涉及不同尺度子區(qū)域的自注意機(jī)制,這些子區(qū)域是由小到大排列的,就像金字塔的結(jié)構(gòu)一樣,所以稱這種架構(gòu)為金字塔注意力模塊。
圖1 中給出了PCA 模塊的架構(gòu)。給定雙時(shí)間特征圖X(1)、X(2)∈RC×H×W ,在輸入PCA 模塊前對(duì)特征圖做差值生成X(3)∈RC×H×W ,之后將3 個(gè)特征圖堆疊成一個(gè)特征張量X∈RC×H×W×3 。然后有4 個(gè)平行的分支,每個(gè)分支將特征張量平均劃分為s×s 個(gè)子區(qū)域,其中s∈S,S∈{1,2,4,8},定義了4 個(gè)金字塔尺度。在尺度s 的分支中,每個(gè)區(qū)域定義為Rs,i,j ∈RC×W/s×W/s×3 ,1 ≤ i,j≤ s,對(duì)這4 個(gè)分支分別使用4 個(gè)CA。在每個(gè)金字塔分支中,分別對(duì)所有子區(qū)域Rs,i,j應(yīng)用CA,生成更新的殘差特征張量Ys ∈RC×H×W×3 。然后,將這些特征張量Ys(s∈S)堆疊起來并輸入卷積層,生成最終的特征張量Y∈RC×H×W×3 。最后,將Y 與X 相加,得到新的張量Z∈RC×H×W×3 。
1. 3 分層上采樣模塊
在STANet 中,對(duì)時(shí)空注意力模塊生成的雙時(shí)間特征圖取歐式距離得到最終的距離特征,然后根據(jù)選取的閾值將特征圖每個(gè)像素區(qū)分為變化像素和未變化像素,再將得到的檢測(cè)圖線性插值,最終得到與輸入圖像大小相同的變化檢測(cè)圖。
然而,由于線性插值的影響,變化區(qū)域之間的間隙會(huì)變得模糊,變化區(qū)域的形狀不夠明顯,并且容易放大錯(cuò)誤檢測(cè)的像素值,造成虛警率上升。因此,本文設(shè)計(jì)了一種上采樣模塊,用來對(duì)PCA 模塊提取出的距離特征進(jìn)行判別,經(jīng)過多層上采樣對(duì)特征圖的處理,可以生成更接近真實(shí)標(biāo)簽的特征圖。
分層上采樣模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。每個(gè)卷積塊中包含2 個(gè)卷積層,其中Covi,i∈(1,3,5)是2 個(gè)卷積核為3×3、步幅為1、填充為1 的卷積層,再經(jīng)過批量規(guī)范化(BatchNorm2d)和ReLU 激活函數(shù)。特征圖經(jīng)過Covi,i∈(1,3,5)后會(huì)和輸入的特征圖相加,再輸入下一個(gè)Covi,i ∈ (2,4,5),它代表了一個(gè)卷積核為1×1、步幅為1、填充為1 的卷積層,緊接著經(jīng)過BatchNorm2d 和ReLU 激活函數(shù)。3 個(gè)卷積塊分別提取不同尺度、通道的距離特征圖,再將它們堆疊起來輸入到Cov7 中,Cov7 是一個(gè)卷積核為1×1、步幅為1 的卷積層。最終,經(jīng)過上采樣模塊會(huì)輸出一個(gè)和輸入圖像大小相同的距離特征圖。1. 4 深監(jiān)督機(jī)制
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)由于端到端的學(xué)習(xí)架構(gòu),會(huì)出現(xiàn)隱藏層的特征透明度不高以及辨別力不高的問題,繼而會(huì)導(dǎo)致整個(gè)訓(xùn)練過程十分困難,過度依賴大量數(shù)據(jù)的訓(xùn)練以及大量參數(shù)的調(diào)試。在STANet 中,引入PAM 的目的是捕獲雙時(shí)間特征圖時(shí)空上的長(zhǎng)期依賴,從而獲取到更好的注意力特征。然而,整個(gè)網(wǎng)絡(luò)在訓(xùn)練中,輸入PAM 之前的特征圖如果并不符合變化檢測(cè)需要的特征,PAM 的作用將會(huì)被降低,從而導(dǎo)致訓(xùn)練時(shí)間久、損失函數(shù)波動(dòng)較大。
為了解決深度神經(jīng)網(wǎng)絡(luò)中收斂速度慢和梯度消失等問題,深監(jiān)督采用了在深度神經(jīng)網(wǎng)絡(luò)的隱藏層加入分支的策略來對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行監(jiān)督,并起到正則化的作用。具體而言,針對(duì)中間隱藏層特征透明度不高、深層網(wǎng)絡(luò)中淺層以及中間網(wǎng)絡(luò)難以訓(xùn)練的問題,對(duì)隱藏層再進(jìn)行監(jiān)督(損失函數(shù)),同時(shí)用最后輸出特征的監(jiān)督以及中間隱藏層的監(jiān)督(伴隨損失函數(shù))對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以促進(jìn)網(wǎng)絡(luò)更好更快地收斂。
因此,為了解決STANet 訓(xùn)練困難的問題,在ResNet 網(wǎng)絡(luò)提取出特征后除了輸入主干網(wǎng)絡(luò)外引入第2 個(gè)分支,即將特征圖直接輸入到上采樣模塊進(jìn)行解碼,然后用解碼出來的特征圖計(jì)算損失函數(shù)loss_1,最終的損失函數(shù)計(jì)算loss 為loss_1 與主干網(wǎng)絡(luò)損失函數(shù)loss_2 的求和。同時(shí)為了保證主干網(wǎng)絡(luò)loss_2 不受過多影響,對(duì)loss_1 加上一個(gè)隨迭代次數(shù)epoch 衰減的權(quán)重:
loss = loss_1 + α(1 - epoch / n_epoch)× loss_2, (1)式中:epoch 為當(dāng)前已到達(dá)的迭代次數(shù),n_epoch 為訓(xùn)練的迭代總數(shù),α 為超參數(shù),loss_1 和loss_2 的計(jì)算都采用STANet 中的BCL。
2 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證改進(jìn)的STANet 網(wǎng)絡(luò)各模塊的有效性,本文進(jìn)行了消融實(shí)驗(yàn)。另外,使用不同的算法在2 個(gè)公開數(shù)據(jù)集(LEVIRCD 和WHUCD)做對(duì)比實(shí)驗(yàn),以驗(yàn)證所提算法的優(yōu)越性和泛化能力。
2. 1 評(píng)價(jià)指標(biāo)
為了有效客觀地評(píng)估模型的性能,本文選取精確率(Precision,Pr)、召回率(Recall,Re)和F1 作為評(píng)價(jià)指標(biāo)。在圖像變換檢測(cè)中,對(duì)樣本的檢測(cè)情況分別為:把正類預(yù)測(cè)為正類(True Positive,TP)、把負(fù)類預(yù)測(cè)為正類(False Positive,FP)、把正類預(yù)測(cè)為負(fù)類(False Negative,FN)、把負(fù)類預(yù)測(cè)為負(fù)類(TrueNegative,TN)。以上指標(biāo)的計(jì)算如下:
2. 2 數(shù)據(jù)集介紹
LEVIRCD[15]是一個(gè)包含1 024 pixel×1 024 pixel的遙感圖像對(duì)的變化檢測(cè)數(shù)據(jù)集。從這些圖像中,本文將每張圖像隨機(jī)裁剪為5 張256 pixel ×256 pixel 的圖像,并將其中的70% 用于訓(xùn)練,10%用于驗(yàn)證,20% 用于測(cè)試。
WHU[17]由2012 年和2016 年在20. 5 km2 面積上獲得的2 張航空?qǐng)D像組成,其中分別包含12 796、16 077 個(gè)建筑實(shí)例。每張圖像的空間大小為15 354 pixel× 32 507 pixel,空間分辨率為0. 2 m。由于2011 年2 月的6. 3 級(jí)地震,該地區(qū)有大量重建建筑物和新建筑。本文將每張圖像隨機(jī)裁剪為256 pixel×256 pixel 大小的圖像用于訓(xùn)練。
2. 3 實(shí)驗(yàn)參數(shù)
實(shí)驗(yàn)環(huán)境為Ubuntu 18. 04. 6 LTS 系統(tǒng),處理器為Intel(R)Xeon(R)CPU E5-2686 v4 @ 2. 30 GHz,GPU 為NVDIA GeForce RTX3090,軟件環(huán)境為CU-DA11. 1. 1,深度學(xué)習(xí)框架為torch1. 12. 1。
訓(xùn)練中使用的超參數(shù)α = 1,預(yù)訓(xùn)練模型采用STANet 中的ResNet-18,初始學(xué)習(xí)率為0. 001。按照文獻(xiàn)[18],在前100 個(gè)epoch 中保持相同的學(xué)習(xí)率,并在剩余的100 個(gè)epoch 中線性衰減到0。使用Adam 優(yōu)化器[19],批量大小為4,β1 為0. 5,β2 為0. 99。模型應(yīng)用隨機(jī)翻轉(zhuǎn)和隨機(jī)旋轉(zhuǎn)(-15° ~ 15°)進(jìn)行數(shù)據(jù)增強(qiáng)。
2. 4 對(duì)比試驗(yàn)
為了驗(yàn)證模型的泛化性能,將改進(jìn)的模型同時(shí)應(yīng)用在LEVIR-CD 和WHU 數(shù)據(jù)集上,并同其他經(jīng)典的遙感圖像變化檢測(cè)方法進(jìn)行比較。
所對(duì)比方法包括經(jīng)典的純粹基于卷積的方法(FC-EF[7]、FC-SiamDi[7]、FC-Siam-Conc[7])、利用了密集網(wǎng)絡(luò)和深監(jiān)督機(jī)制的方法(SNUNet[11])、目前檢測(cè)效果比較出色的方法(BIT)[10]。
(1)3 種經(jīng)典的純粹基于卷積的方法。由于這3 種方法的網(wǎng)絡(luò)架構(gòu)所有層都是卷積層,不包含全連接層,因此比較適合與其他神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比,以此來校驗(yàn)不同模塊的有效性,簡(jiǎn)要介紹如下。
① FC-EF:連接雙時(shí)間圖像,通過ConvNet 進(jìn)行處理,檢測(cè)變化。
② FC-Siam-Di:是一種特征-差異方法,從Siamese ConvNet 中提取雙時(shí)間圖像的多層次特征,并用它們的差異來檢測(cè)變化。
③ FC-SiamConc:是一種特征拼接方法,從Sia-mese ConvNet 中提取雙時(shí)間圖像的多層次特征,通過特征拼接來檢測(cè)變化。
(2)最近幾年較新的網(wǎng)絡(luò)架構(gòu)。SNUNet 與本文思路相似,采用多尺度特征進(jìn)行分析,并利用深監(jiān)督提升對(duì)中間特征的識(shí)別能力。
SNUNet:多尺度特征拼接方法,結(jié)合Siamese 網(wǎng)絡(luò)和NestedUNet[20]提取高分辨率高級(jí)特征。信道注意應(yīng)用于解碼器的每個(gè)級(jí)別的特征。采用深度監(jiān)督的方法,提高了中間特征的識(shí)別能力。
(3)BIT 是較為新穎的根據(jù)語義標(biāo)記來對(duì)圖像特征進(jìn)行處理,該網(wǎng)絡(luò)取得了非常好的識(shí)別結(jié)果,簡(jiǎn)要介紹如下。
BIT:一種基于Transformer 的方法,該方法使用Transformer 編碼器-解碼器網(wǎng)絡(luò)通過語義標(biāo)記增強(qiáng)ConvNet 特征的上下文信息,然后進(jìn)行特征差分得到變化圖。
以上方法在2022—2023 年的文獻(xiàn)[8 -10,12]中均有對(duì)比,其網(wǎng)絡(luò)架構(gòu)多有創(chuàng)新和可取之處。在實(shí)驗(yàn)中,對(duì)比方法與本文方法均在同樣環(huán)境下進(jìn)行試驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示。
從表1 可以看出,本文對(duì)STANet 的改進(jìn)有效提升了F1 分?jǐn)?shù),均領(lǐng)先于其他算法,并且在準(zhǔn)確率和回召率上也取得了良好的效果。從圖4 可以看到,本文算法在檢測(cè)的特征圖上更接近真實(shí)標(biāo)簽,并且檢測(cè)的特征區(qū)域細(xì)節(jié)上更加明顯,區(qū)域之間的間隙更加分明,而其他算法都較為模糊。
2. 5 消融實(shí)驗(yàn)
為了驗(yàn)證改進(jìn)的STANet 網(wǎng)絡(luò)各個(gè)模塊的有效性,本文在LEVIR-CD 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),分別是以下7 組:
① 基線(STANet):Res(ResNet-18)+ PAM + M(Metric Module);
② 加入上采樣:Res + PAM + UP(UPSample);
③ 加入深監(jiān)督:Res + PAM + M + S
④ 加入上采樣、CA 模塊:Res + CA + UP;
⑤ 加入上采樣、PCA 模塊:Res + PCA + UP;
⑥ 加入上采樣、CA 模塊、深監(jiān)督:Res + CA +UP + S(Deep Supervision);
⑦ 加入上采樣、PCA 模塊、深監(jiān)督:Res + PCA +UP + S(Deep Supervision)。
以上所有實(shí)驗(yàn)使用同樣的超參數(shù),每組實(shí)驗(yàn)將訓(xùn)練好的模型應(yīng)用在測(cè)試集上,實(shí)驗(yàn)結(jié)果如表2 所示。
從表2 可以看出:
① 根據(jù)實(shí)驗(yàn)一和二可以發(fā)現(xiàn)上采樣模塊將模型的F1 提升了3% ,準(zhǔn)確率提升了1% ,召回率提升了4. 9% 。
② 從實(shí)驗(yàn)一和三、實(shí)驗(yàn)四和六以及實(shí)驗(yàn)五和七可以看出,深監(jiān)督機(jī)制的加入總會(huì)使模型的F1 提升0. 4% ~ 0. 7% ,在計(jì)算開銷可接受的情況下,深監(jiān)督對(duì)模型的特征提取效果總會(huì)有所提升。
③ 從實(shí)驗(yàn)二和四效果來看,CA 注意力機(jī)制的引入使F1 提升了0. 6% ,而從實(shí)驗(yàn)四和五、實(shí)驗(yàn)六和七來看,PCA 機(jī)制的引入會(huì)使F1 繼續(xù)提升0. 2% 。并且,實(shí)驗(yàn)七訓(xùn)練過程中每個(gè)epoch 耗時(shí)約1 min,而實(shí)驗(yàn)三每個(gè)epoch 耗時(shí)約1 min 40 s。因此,CA機(jī)制的引入可以大大降低計(jì)算開銷,并且對(duì)模型的檢測(cè)效果也有所提升。
④ 從實(shí)驗(yàn)一和七可以看出,改進(jìn)之后的網(wǎng)絡(luò)與原網(wǎng)絡(luò)相比,準(zhǔn)確率提升了2% ,召回率提升了6. 8% ,F1 提升了4. 5% ,改善效果十分明顯。
從圖5 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):
① 上采樣的加入十分有效地解決了變化區(qū)域間隙模糊的問題。檢測(cè)出的變化結(jié)果圖間距明顯,與真實(shí)標(biāo)簽之間差距更小,變化區(qū)域形狀更加鮮明。
② 金字塔機(jī)制和CA 的引入也基本上會(huì)使檢測(cè)結(jié)果在細(xì)節(jié)上更加出色,有效降低漏檢率和虛警率。
③ 深監(jiān)督機(jī)制可以幫助模型在特征的檢測(cè)上處理得更好,每個(gè)變化區(qū)域的形狀都會(huì)有所提升。
④ 改進(jìn)之后的網(wǎng)絡(luò)相比STANet,檢測(cè)出的變化圖特征更加接近真實(shí)標(biāo)簽,變化區(qū)域間距和形狀更加明顯,尤其是大大降低了虛警率和漏檢率,改進(jìn)效果顯著。
2. 6 數(shù)據(jù)集不同的處理方式對(duì)實(shí)驗(yàn)結(jié)果的影響
在文獻(xiàn)[15]中,STANet 的F1 分?jǐn)?shù)為87. 3,而本文所得結(jié)果為81. 6,與原文有所區(qū)別。這是由于原論文對(duì)LEVIR-CD 數(shù)據(jù)集的處理是將一張1 024 pixel×1 024 pixel 的圖片裁剪為16 張256 pixel×256 pixel的圖片進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試,與本文裁剪為5 張有所區(qū)別。為了對(duì)這一情況進(jìn)行驗(yàn)證,本文將圖像裁剪為16 張進(jìn)行對(duì)照實(shí)驗(yàn)如表3 所示。
從表3 的實(shí)驗(yàn)結(jié)果可知,在同樣的數(shù)據(jù)集處理方式下,本文的算法仍要優(yōu)于STANet。準(zhǔn)確率提高了0. 6% ,召回率提高了5. 7% ,F1 分?jǐn)?shù)提高了3. 3% ,改進(jìn)效果明顯。從2 種數(shù)據(jù)集的處理可以看出,裁剪5 張的情況下數(shù)據(jù)集大小顯著降低,STANet在小數(shù)據(jù)集的情況下效果大幅下降,而本文改進(jìn)的算法即使數(shù)據(jù)集規(guī)模小也可以取得良好的效果。
3 結(jié)束語
本文在STANet 上進(jìn)行改進(jìn):設(shè)計(jì)了對(duì)距離特征的上采樣模塊,使得變化區(qū)域間隙更加明顯,虛警率更低;引用了新的CA 模塊,在降低運(yùn)算開銷的基礎(chǔ)上,更好地識(shí)別了不同空間、通道的特征。為了使訓(xùn)練收斂更快,更好地利用隱藏層的特征,加入了深監(jiān)督模塊,起到了正則化的作用。在LEVIR-CD 數(shù)據(jù)集上進(jìn)行的消融實(shí)驗(yàn)驗(yàn)證了每個(gè)模塊的有效性;在LEVIR-CD 和WHU-CD 數(shù)據(jù)集上對(duì)不同算法進(jìn)行比較,驗(yàn)證了改進(jìn)算法的泛化性能。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法相比其他算法具有一定的優(yōu)越性。
參考文獻(xiàn)
[1] HAFNER S,BAN Y F,NASCETTI A. Urban ChangeDetection Using a Dualtask Siamese Network and Semisupervised Learning[C]∥IGARSS 2022-2022 IEEE International Geoscience and Remote Sensing Symposium.Kuala Lumpur:IEEE,2022:1071-1074.
[2] 陳璐,管霜霜. 基于深度學(xué)習(xí)的城市高分遙感圖像變化檢測(cè)方法的研究[J]. 計(jì)算機(jī)應(yīng)用研究,2020,37(增刊1):320-323.
[3] CHAN H P,CHANG C P,LIN T H,et al. The Potential ofSatellite Remote Sensing for Monitoring the Onset of Volcanic Activity on Taipeis Doorstep[J]. International Journal of Remote Sensing,2020,41(4):1372-1388.
[4] CHEN C F,SON N T,CHANG N B,et al. MultidecadalMangrove Forest Change Detection and Prediction in Honduras,Central America,with Landsat Imagery and aMarkov Chain Model[J]. Remote Sensing,2013,5(12):6408-6426.
[5] JIANG H W,PENG M,ZHONG Y J,et al. A Survey onDeep Learningbased Change Detection from Highresolution Remote Sensing Images[J]. Remote Sensing,2022,14(7):1552.
[6] SHAFIQUE A,CAO G,KHAN Z,et al. Deep Learningbased Change Detection in Remote Sensing Images:AReview[J]. Remote Sensing,2022,14(4):871.
[7] DAUDT R C,SAUX B L,BOULCH A. Fully ConvolutionalSiamese Networks for Change Detection[C]∥2018 25thIEEE International Conference on Image Processing(ICIP). Athens:IEEE,2018:4063-4067.
[8] BANDARA W G C,PATEL V M. A Transformerbased Siamese Network for Change Detection[C]∥IGARSS 2022-2022 IEEE International Geoscience and Remote SensingSymposium. Kuala Lumpur:IEEE,2022:207-210.
[9] LI Z L,TANG C,LI X J,et al. Towards Accurate and Reliable Change Detection of Remote Sensing Images viaKnowledge Review and Online Uncertainty Estimation[EB / OL]. (2023 - 05 - 31)[2023 - 09 - 02]. https:∥arxiv. org / abs / 2305. 19513.
[10] CHEN H,QI Z P,SHI Z W. Remote Sensing Image ChangeDetection with Transformers [J]. IEEE Transactions onGeoscience and Remote Sensing,2021,60:1-14.
[11] FANG S,LI K Y,SHAO J Y,et al. SNUNetCD:ADensely Connected Siamese Network for Change Detectionof VHR Images [J ]. IEEE Geoscience and RemoteSensing Letters,2021,19:1-5.
[12] CHEN C P,HSIEH J W,CHEN P Y,et al. SARASNet:Scale and Relation Aware Siamese Network for ChangeDetection[C]∥ Proceedings of the AAAI Conference onArtificial Intelligence. Washington D. C. :AAAI Press,2023:14187-14195.
[13] ZHENG Z,MA A L,ZHANG L P,et al. Change Is Everywhere:Singletemporal Supervised Object Change Detectionin Remote Sensing Imagery [C ]∥ Proceedings of theIEEE / CVF International Conference on Computer Vision.Montreal:IEEE,2021:15173-15182.
[14] ZHENG Z,ZHONG Y F,WANG J J,et al. Foregroundaware Relation Network for Geospatial Object Segmentationin High Spatial Resolution Remote Sensing Imagery[C]∥Proceedings of the IEEE / CVF Conference on ComputerVision and Pattern Recognition. Seattle:IEEE,2020:4095-4104.
[15] CHEN H,SHI Z W. A SpatialTemporal AttentionbasedMethod and a New Dataset for Remote Sensing ImageChange Detection[J]. Remote Sensing,2020,12(10):1662.
[16] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attention forEfficient Mobile Network Design[C]∥Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Nashville:IEEE,2021:13708-13717.
[17] JI S P,WEI S Q,LU M. Fully Convolutional Networks forMultisource Building Extraction from an Open Aerial andSatellite Imagery Data Set[J]. IEEE Transactions on Geoscience and Remote Sensing,2018,57(1):574-586.
[18] ZHU J Y,PARK T,ISOLA P,et al. Unpaired ImagetoImageTranslation Using Cycleconsistent Adversarial Networks[C]∥ Proceedings of the IEEE International Conferenceon Computer Vision. Venice:IEEE,2017:2242-2251.
[19] KINGMA D P,BA J. Adam:A Method for Stochastic Optimization[EB / OL]. (2024 - 12 - 22)[2023 - 09 - 02 ].https:∥arxiv. org / abs / 1412. 6980.
[20] ZHOU Z W,SIDDIQUEE M M R,TAJBAKHSH N,et al.Unet++:A Nested UNet Architecture for Medical ImageSegmentation [C ]∥ Deep Learning in Medical ImageAnalysis and Multimodal Learning for Clinical DecisionSupport(DLMIA). Granada:Springer,2018:3-11.
作者簡(jiǎn)介
王文韜 男,(1999—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺、圖像處理。
(*通信作者)何小海 男,(1964—),博士,教授,博士生導(dǎo)師。主要研究方向:圖像處理與網(wǎng)絡(luò)通信、機(jī)器視覺與智能系統(tǒng)。
張?jiān)?男,(1986—)。主要研究方向:智能控制、圖像處理及應(yīng)用。
王正勇 女,(1994—),博士,副教授,碩士生導(dǎo)師。主要研究方向:圖像處理與模式識(shí)別、計(jì)算機(jī)視覺與智能系統(tǒng)。
滕奇志 女,(1961—),博士,教授,博士生導(dǎo)師。主要研究方向:圖像處理與模式識(shí)別。
基金項(xiàng)目:國(guó)家自然科學(xué)基金(62271336,62211530110)