金 興,唐 娉,趙理君
(1.中國科學院空天信息創(chuàng)新研究院,北京 100094;2.中國科學院大學 電子電氣與通信工程學院,北京 100049)
隨著遙感數(shù)據的快速增長,遙感圖像時間序列分析漸成趨勢,但因衛(wèi)星成像特點,高空間分辨率遙感圖像難以獲得不同區(qū)域時相間隔一致的遙感圖像序列,因此,如何用圖像處理的方法補全所需時相圖像,以便用統(tǒng)一的方法分析遙感圖像時間序列成為亟待解決的問題。
當所需時相缺失時,2種思路最為直接,一種是將別的時相的數(shù)據直接轉換為所需時相,對應的方法也被稱為色彩遷移的方法;另一種是用一組時相序列預測的方法。這2種思路各有優(yōu)缺點,色彩遷移方法需要的條件比較簡單,只需要2個時相的數(shù)據去學習映射的關系,但該方法假設了2個時相之間沒有地物發(fā)生變化,只有光譜的變化,這與實際情況不完全符合。而時序預測的方法則需要多個時相的數(shù)據才可執(zhí)行,但它可以對地物的變化進行建模與預測,缺點是數(shù)據條件要求較高。
基于影像色彩遷移的典型方法是生成對抗網絡(GAN)中用于進行影像雙向變換的CycleGAN,它是一種無監(jiān)督學習的生成對抗網絡方法,該網絡中通過計算變換后影像(源域A到目標域B的變換)與重建影像(目標域B到源域A的變換)的循環(huán)一致性損失來約束影像的變換[1]。該方法主要用于2個不同時相影像的變換,如文物圖像的修復與保護[2]、不同時段、季節(jié)、光照條件下拍攝照片的藝術風格轉換[3]、地物信息提取[4]以及室內火焰圖像場景的遷移[5]。
基于時相序列進行遙感影像預測的典型方法是循環(huán)神經網絡(RNN)中用于處理時序影像數(shù)據的ConvLSTM,該方法通過其過去狀態(tài)和當前的輸入狀態(tài)來確定網格中某個單元的未來狀態(tài)。在輸入到狀態(tài)和狀態(tài)到狀態(tài)轉換中使用卷積運算符來輕松實現(xiàn)。該方法主要用于時間序列預測,如歸一化植被指數(shù)(NDVI)預測[6]和雷達回波圖像的短期降雨預測[7]。
本文以影像色彩遷移及時序預測的角度為出發(fā)點,使用CycleGAN及ConvLSTM網絡對遙感影像進行預測,通過比較CycleGAN及ConvLSTM網絡預測結果并分析網絡適用性,為補全衛(wèi)星遙感觀測所需時相的數(shù)據尋找一種合適的技術途徑。本文實驗表明,2種網絡產生的預測結果與參考影像能夠保持一致的空間及光譜特征。2種網絡預測結果的結構相似度(SSIM)均達到0.99,均方根誤差(RMSE)分別小于4個像素和2個像素。
本文的主要創(chuàng)新點如下:① 以2種不同的角度(色彩遷移、時序預測)為出發(fā)點,將CycleGAN及ConvLSTM網絡首次應用到遙感影像預測領域;② 在不同區(qū)域無人機(UAV)數(shù)據集上對比了CycleGAN與ConvLSTM網絡預測的結果,2種網絡的預測結果都能與相應的參考影像保持較好的空間及光譜特征;③ 提供了一種新的彌補遙感衛(wèi)星觀測數(shù)據缺失的技術途徑。CycleGAN網絡受單時序影像缺失的程度較小,適用于時序影像缺失程度較大時的遙感影像預測。ConvLSTM網絡能夠利用多個時序影像的狀態(tài)信息,但受單時序影像缺失程度較大,適用于時序影像缺失程度較小時的遙感影像預測。
CycleGAN的目的是實現(xiàn)源域A(影像X)和目標域B(影像Y)之間的相互轉換[8]。CycleGAN包含2個生成器G和F、2個對應的對抗判別器DY和DX及2個循環(huán)一致?lián)p失(前向循環(huán)一致?lián)p失及反向循環(huán)一致?lián)p失)。
(a) CycleGAN的映射
根據CycleGAN結構示意圖,CycleGAN網絡包含前向對抗目標、反向對抗目標和循環(huán)一致性損失3部分。前向對抗目標及反向對抗目標如式(1)和式(2)所示,循環(huán)一致性損失如式(3)所示,CycleGAN目標函數(shù)如式(4)所示:
LGAN(G,DY,X,Y)=EY~Pdata(Y)[lbDY(Y)]+
EX~Pdata(X)[lb(1-DY(G(X)))],
(1)
LGAN(F,DX,Y,X)=EX~Pdata(X)[lbDX(X)]+
EY~Pdata(Y)[lb(1-DX(F(Y)))],
(2)
(3)
LGAN(F,DX,Y,X))},
(4)
式中,X為源域A真實影像數(shù)據;Y為目標域B真實影像數(shù)據;~表示服從關系;Pdata(Y)和Pdata(X)分別為目標域影像及源域影像數(shù)據的分布;G(X)和F(Y)為預測后影像;E表示數(shù)學期望函數(shù);μ1及μ2分別表示循環(huán)一致?lián)p失及對抗目標比例超參數(shù)。
此網絡目的如下:① 學習生成器G從源域A(影像X)到目標域B(影像Y)的映射關系(G:A→B);② 學習生成器F從目標域B(影像Y)到源域A(影像X)的映射關系(F:B→A)。
長短時記憶網絡(LSTM)屬于循環(huán)神經網絡(RNN),主要作用是能夠利用影像的時序信息進行預測的一種方法[9-10]。其主要創(chuàng)新是細胞狀態(tài)ct(網絡信息傳送帶)充當狀態(tài)信息的累加器,并通過幾個自參數(shù)化控制門訪問、寫入和清除單元。每當有新輸入xt時,如果輸入門it(決定ct需要添加哪些信息)it被激活,它的信息將被累積到單元格。此外,如果忘記門ft(決定ct需要丟棄哪些信息)打開,則在此過程中可能“遺忘”過去的細胞狀態(tài)ct-1ct-1。輸出門ot(判斷ct輸出哪些狀態(tài)特征)控制最新的細胞狀態(tài)ct是否傳播到最終隱狀態(tài)ht(最終輸出的狀態(tài)特征),其結構如圖2所示,忘記門ft、輸入門itit、輸出門ot、細胞狀態(tài)ct及最終隱狀態(tài)ht為:
ft=σ(Wf·[xt,ht-1]+bf),
(5)
it=σ(Wi·[xt,ht-1]+bi),
(6)
ot=σ(Wo·[xt,ht-1]+bo),
(7)
ct=ft*ct-1+it*tanh(Wc·[xt,ht-1]+bc),
(8)
ht=ot*tanh(ct),
(9)
式中,ct-1和ht-1表示過去的細胞狀態(tài)及最終隱狀態(tài);Wf和bf表示忘記門的權重及偏向;Wi和bi表示輸入門的權重及偏向;Wo及bo表示輸出門的權重及偏向;Wc和bc表示細胞狀態(tài)的權重及偏向;σ表示sigmoid激活函數(shù)。
圖2 長短時記憶網絡結構圖Fig.2 Structure diagram of LSTM
ConvLSTM的一個顯著特點是所有輸入狀態(tài)x1-xt,細胞狀態(tài)c1-ct,隱狀態(tài)h1-ht為3D張量,其最后2個維度是空間維度(行和列)[11-12]。為了更好地了解輸入和狀態(tài),可以將它們想象為站在空間網格上的向量。ConvLSTM通過其過去狀態(tài)和當前輸入狀態(tài)來確定網格中某個單元的未來狀態(tài)。這可以通過在狀態(tài)到狀態(tài)和輸入到狀態(tài)轉換中使用卷積運算符來輕松實現(xiàn)[13]。該網絡目的是學習不同狀態(tài)信息層下時序影像之間的映射關系。其結構示意圖如圖3所示。
圖3 卷積長短時記憶網絡結構示意Fig.3 Structure diagram of ConvLSTM
1.3.1 均方根誤差
RMSE是一種基于像素點的統(tǒng)計方法[14],表示預測后影像與參考影像之間的像元誤差,單位是pixel。在影像質量評價中,反映了預測后影像與參考影像之間像元的接近程度,值越小表明像元的接近程度越好,即:
(10)
式中,X(I,J)為預測后影像;Y(I,J)為參考影像,I,J表示影像像素行列的位置;M,N分別表示影像的寬度和高度。
1.3.2 結構相似度
Wang等人提出了SSIM評價方法。認為客觀評價方法不能依賴于像素點間的簡單統(tǒng)計,而應基于人類視覺特點來進行研究[15]。在影像質量評價中,用于衡量處理影像前后的相似度,值越大表明影像相似度越高。
SSIM由亮度信息L(X,Y)、對比度信息C(X,Y)和結構退化信息S(X,Y)組成。其中,X(I,J),Y(I,J)分別表示預測后影像和參考影像。為了增加結構相似度計算結果的穩(wěn)定性,同時避免分式中分子或分母為零的情況,對亮度信息L(X,Y)、對比度信息C(X,Y)和結構退化信息S(X,Y)的公式增添參數(shù)C1,C2和C3,即:
(11)
(12)
(13)
SSIM(X,Y)=[L(X,Y)]α[C(X,Y)]β[S(X,Y)]γ,
(14)
式中,μX,σX分別為預測后影像X(I,J)的均值及標準差;μY,σY分別為參考影像Y(I,J)的均值及標準差;σXY為預測后影像X(I,J)與參考影像Y(I,J)之間的相關系數(shù);α,β和γ控制L(X,Y),C(X,Y)和S(X,Y)的重要程度,取值為α=β=γ=1。C1,C2及C3取值為C1=(0.01L)2,C2=(0.03L)2,C3=(0.03L)2/2,L為影像像素的最大值,L=255。
實驗數(shù)據采用無人機(UAV)影像,無人機影像位置如圖4所示。
圖4 無人機影像的位置(1,2,4波段合成)Fig.4 Location of UAV image (1,2 and 4 band composition)
無人機影像位于圣米歇爾山上游的庫斯農河平原(法國西部,北緯48.52°,西經1.53°)。庫斯農河平原是一片面積達1.74 km2的水淹大草原[16]。影像投影類型為蘭伯特投影,影像空間分辨率為0.02 m,影像波段數(shù)4個(綠色、紅色、紅邊和近紅外),影像尺寸為3 072 pixel×5 632 pixel。
2.2.1 CycleGAN網絡訓練與測試
實驗主要分為3組,每組實驗包含二景訓練影像和一景測試影像,實驗目的是驗證不同月份下CycleGAN網絡的有效性及在相鄰月份影像上的泛化能力。通過一對訓練樣本訓練色彩轉換模型,然后用到一景測試樣本上。第1組進行2019年4—6月的色彩遷移模型實驗,第2組進行2019年4—7月的色彩遷移模型實驗,第3組進行2019年4—8月的色彩遷移模型實驗。3組實驗影像的名稱及日期如表1所示。3組實驗影像的視覺效果如圖5所示。
(a) 第一組實驗訓練及測試對象
表1 CycleGAN實驗影像的名稱和日期
2.2.2 ConvLSTM網絡訓練與測試
ConvLSTM網絡主要分為單元組預測和多元組預測2種方式。
單元組預測實驗同CycleGAN網絡訓練與測試。多元組預測實驗主要分為3組,每組實驗包含一組訓練影像和一組測試影像。第1組進行2019年6月影像預測實驗,第2組進行2019年7月影像預測實驗,第3組進行2019年8月影像預測實驗。3組實驗的目的是驗證不同月份下ConvLSTM網絡的有效性及在相鄰月份影像上的泛化能力。3組實驗影像的名稱及日期如表2所示。3組實驗影像的視覺效果如圖6所示。
表2 ConvLSTM在多元組預測方式下實驗影像的 名稱和日期
2.3.1 影像分塊
由于影像尺寸的限制,輸入整景影像(影像尺寸為3 072 pixel×5 632 pixel)將導致計算內存不足。為了解決這個問題,在實驗訓練及測試過程中需要對影像進行分塊處理,本文中訓練影像及測試影像被劃分為264個塊(影像塊的尺寸為256 pixel×256 pixel),這樣可以覆蓋整景影像信息并減輕內存壓力。
2.3.2 超參數(shù)選擇
利用深度學習框架(Tensorflow)運行CycleGAN及ConvLSTM網絡。為了提高網絡計算效率,網絡中的每層均在通用計算架構(CUDA)下運行[17]。在CycleGAN網絡中,循環(huán)一致?lián)p失比例超參數(shù)μ1=350,對抗目標損失比例超參數(shù)μ2=1/32,網絡優(yōu)化器使用Adam,學習率設置為1e-4,網絡循環(huán)次數(shù)(epoch)設置為200。在ConvLSTM網絡中,網絡使用3層堆疊的ConvLSTM卷積層,損失函數(shù)使用均方誤差,網絡優(yōu)化器使用RMSProp,學習率設置為10-3,網絡循環(huán)次數(shù)(epoch)設置為100。
通過對影像進行分塊及GPU上的加速[18-19],本文合理設置CycleGAN及ConvLSTM網絡訓練超參數(shù),并在不同月份及循環(huán)次數(shù)下進行了3組實驗。
為了驗證CycleGAN及ConvLSTM網絡在影像預測中的有效性及相鄰序列月份影像上的泛化能力。94%的訓練樣本塊(250塊)用于網絡模型的訓練,6%的訓練樣本塊(14塊)用于網絡模型的驗證,相鄰序列中的同月影像用于網絡模型的測試。最終不同月份及循環(huán)次數(shù)下的CycleGAN及ConvLSTM網絡驗證結果及測試結果如圖7和圖8所示。
(a) 6月生成結果,epoch=100 (b) 7月生成結果,epoch=100 (c) 8月生成結果,epoch=100
(a) 6月生成結果,epoch=100 (b) 7月生成結果,epoch=100 (c) 8月生成結果,epoch=100
從圖7可以看出,CycleGAN網絡在不同月份及循環(huán)次數(shù)下的驗證結果與相應的參考影像之間存在細微的邊緣分塊效應(紅色線框),ConvLSTM網絡在不同月份及循環(huán)次數(shù)下的驗證結果與相應的參考影像之間能夠保持較好的空間及光譜特征(綠色線框)。從圖8可以看出,CycleGAN及ConvLSTM網絡在不同月份及循環(huán)次數(shù)下的測試結果與相應的參考影像之間能夠保持較好的空間及光譜特征。
CycleGAN及ConvLSTM網絡預測結果的定量評價基于以下3個方面:① 像素誤差圖評價;② 定量指標表評價;③ 不同點位光譜曲線評價。
2.5.1 像素誤差圖評價
像素誤差圖主要衡量預測結果與參考影像之間的像素點在整體上的視覺接近程度。通過計算預測結果與參考影像的差值影像,在差值影像上以不同顏色體現(xiàn)像素點不同水平的誤差。最終不同月份及循環(huán)次數(shù)下的CycleGAN及ConvLSTM網絡驗證結果及測試結果像素誤差圖如圖9和圖10所示。
(a) 6月像素誤差圖,epoch=100 (b) 7月生成結果,epoch=100 (c) 8月生成結果,epoch=100
(a) 6月像素誤差圖,epoch=100 (b) 7月生成結果,epoch=100 (c) 8月生成結果,epoch=100
從圖9和圖10可以看出,CycleGAN網絡在不同月份及循環(huán)次數(shù)下的網絡生成結果與相應的參考影像的像素誤差圖的整體像素誤差范圍為1~5個像素;ConvLSTM網絡在不同月份及循環(huán)次數(shù)下的網絡生成結果與相應的參考影像的像素誤差圖的整體像素誤差范圍為1~3個像素。
2.5.2 定量指標表
下面比較不同月份及循環(huán)次數(shù)下CycleGAN及ConvLSTM網絡驗證結果及測試結果的定量指標。最終CycleGAN及ConvLSTM網絡驗證結果及測試結果的定量指標如表3和表4所示。
從表3和表4可以看出,CycleGAN網絡在不同月份及循環(huán)次數(shù)為200次時的網絡生成結果與相應的參考影像之間的RMSE達到1~4個像素,SSIM達到99.5%;ConvLSTM網絡在不同月份及循環(huán)次數(shù)為100次時的網絡生成結果與相應的參考影像之間的RMSE達到1~2個像素,SSIM達到99.9%。
表3 CycleGAN及ConvLSTM網絡驗證結果的評價指標
表4 CycleGAN及ConvLSTM網絡測試結果的評價指標
2.5.3 不同點位光譜曲線評價
下面比較2類網絡在不同月份及最優(yōu)的網絡循環(huán)次數(shù)(CycleGAN:epoch=200,ConvLSTM:epoch=100)下的網絡預測結果(CycleGAN:綠線,ConvLSTM:藍線)與參考影像(紅線)在植被點(1 713,666)、溝渠點(821,4 212)及湖泊點(2 106,4 387)的光譜特征。最終CycleGAN及ConvLSTM網絡測試結果的點位光譜曲線如圖11~圖13所示。
不同點位的光譜曲線說明,CycleGAN及ConvLSTM網絡預測結果能夠與參考影像之間保持較好的空間及光譜特征。2種網絡預測結果的RMSE分別小于4個像素和2個像素,2種網絡預測結果的SSIM均達到0.99。ConvLSTM網絡的整體性能優(yōu)于CycleGAN網絡,原因為ConvLSTM利用多個時序影像的狀態(tài)信息。
圖11 CycleGAN及ConvLSTM網絡測試結果在 6月份的點位光譜曲線Fig.11 Point spectral curves of testing result in June of CycleGAN and ConvLSTM
圖12 CycleGAN及ConvLSTM網絡測試結果在 7月份的點位光譜曲線Fig.12 Point spectral curves of testing result in July of CycleGAN and ConvLSTM
圖13 CycleGAN及ConvLSTM網絡測試結果在 8月份的點位光譜曲線Fig.13 Point spectral curves of testing result in August of CycleGAN and ConvLSTM
采用CycleGAN色彩遷移方法及ConvLSTM網絡遙感影像預測方法對生成所需時相的遙感圖像能力進行了實驗和驗證,得出結論如下:
① CycleGAN網絡的色彩遷移結果在視覺上與參考影像之間保持了較好的空間及光譜特征,局部存在細微邊緣分塊效應;ConvLSTM網絡的預測結果在視覺上與參考影像之間保持較好的空間及光譜特征。
② CycleGAN網絡可實現(xiàn)兩景影像之間的雙向自由轉換,該網絡受時序影像缺失的影響程度較小;ConvLSTM網絡在預測時考慮了時序影像的狀態(tài)信息,該網絡受時序影像缺失的影響程度較大。
基于本文實驗結果,在進行所需時相遙感影像預測時,需要根據時序影像缺失的程度進行不同網絡的選擇。當時序影像缺失程度大時,可選擇CycleGAN網絡進行色彩轉換獲得所需時相影像;當時序影像缺失程度小時,可選擇ConvLSTM網絡進行影像預測。當然,根據時序影像缺失的程度進行網絡的選擇并不是遙感影像預測唯一考慮的因素。因此,在未來的工作中對影響CycleGAN及ConvLSTM網絡預測的因素做進一步的研究和分析。