靳淇文,馬泳,2,樊凡,2,黃珺,2,李皞,梅曉光,2
1.武漢大學(xué) 電子信息學(xué)院,武漢 430072;
2.武漢大學(xué) 宇航科學(xué)與技術(shù)研究院,武漢 430079;
3.武漢輕工大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,武漢 430023
由于高光譜成像儀自身空間分辨率的不足、大氣混合效應(yīng)、地物種類的復(fù)雜多樣性等原因,使得每個像元可能同時包含了多個基本地物的光譜信息。該像元被稱為混合像元(童慶禧 等,2016;韓竹 等,2020;Jin 等,2019a)。大量混合像元的存在給高光譜圖像像元級的精確解譯、亞像元級的弱小目標(biāo)探測與識別帶來了很大的困難(Bioucas-Dias 等,2012;Jin 等,2019b;Ma 等,2019,2021;Mei 等,2018)。因此解混對于提升高光譜遙感應(yīng)用的精度、拓展其應(yīng)用的廣度和深度的具有關(guān)鍵性的意義。
線性光譜解混模型(LMM)以其簡單高效、物理意義明確等優(yōu)點是目前解混領(lǐng)域中研究的重點。LMM 假設(shè)的是高光譜圖像中每個像素點是由若干個端元的譜線與其各自的豐度系數(shù)線性組合而成。其中基于幾何以及統(tǒng)計的模型是傳統(tǒng)解混的兩大主流方法。基于幾何的方法是將圖像中的像元投影到若干子空間中,并將單形體的頂點看做為圖像端元。頂點分量分析VCA(Vertex Component Analysis),N-FINDR 即為屬于這一類的代表方法。這類方法簡便快捷,但是需要光譜數(shù)據(jù)滿足純端元的假設(shè)。對于空間分辨率相對較低的高光譜數(shù)據(jù),該類純端元假設(shè)可能不成立。基于統(tǒng)計的解混模型框架不需滿足圖像中的純端元假設(shè),因此也為傳統(tǒng)方法的另一大主流模型。例如基于統(tǒng)計的貝葉斯方法可以通過利用統(tǒng)計假設(shè)和施加先驗約束構(gòu)造端元和豐度的最大后驗概率同時實現(xiàn)端元的提取和豐度的反演的功能。作為傳統(tǒng)框架的主流方法,在解混的本質(zhì)上是一個種迭代的優(yōu)化問題,因此所面臨的主要挑戰(zhàn)來自于混合像元數(shù)量、噪聲以及異常值的魯棒性的問題。這些因素都在很大程度上影響著模型收斂方向是否接近最優(yōu)解以及收斂速度的快慢(Jin等,2021)。
近年來,隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的解混框架逐漸在高光譜解混中受到了廣泛的關(guān)注。例如,Palsson 等(2021)提出的基于空間光譜相似性的卷積神經(jīng)網(wǎng)絡(luò)框架CNNAEU 以及Borsoi等(2020)所提出的基于變分編碼器VAE的生成網(wǎng)絡(luò)框架。受益為網(wǎng)絡(luò)訓(xùn)練本身優(yōu)秀的學(xué)習(xí)能力以及泛化性能,這些方法都較傳統(tǒng)的解混方法在精度上有了很大的提升。近期基于深度學(xué)習(xí)中自編碼器(AE)的方法在無監(jiān)督的高光譜解混任務(wù)中逐漸成為了熱點問題,由于該網(wǎng)絡(luò)框架的訓(xùn)練過程可以簡單地描述為通過最小化重構(gòu)誤差來學(xué)習(xí)圖像的低維表示(即豐度系數(shù)),并用其對應(yīng)的權(quán)重(端元)進(jìn)行組合來減少重構(gòu)誤差。因此十分適合運用于非監(jiān)督的解混任務(wù)中,以同時獲得高光譜圖像的端元和豐度。然而,這些基于學(xué)習(xí)的方法的一個顯著缺點是訓(xùn)練過程更接近于一個黑盒機(jī)制,這導(dǎo)致該類方法很難像傳統(tǒng)學(xué)習(xí)的方法一樣將端元及豐度的先驗知識融入進(jìn)網(wǎng)絡(luò)框架中進(jìn)行訓(xùn)練。這樣的缺點也往往導(dǎo)致網(wǎng)絡(luò)的泛化和精度嚴(yán)重依賴于訓(xùn)練樣本的數(shù)量和質(zhì)量。對于現(xiàn)有的基于自動編碼器的方法,網(wǎng)絡(luò)的先驗知識往往只是在滿足豐度的物理意義(ANC 和ASC)的前提下,通過基于端到端重建誤差準(zhǔn)則去找到網(wǎng)絡(luò)誤差最小的解。由于高光譜數(shù)據(jù)本身訓(xùn)練樣本數(shù)量的限制,網(wǎng)絡(luò)魯棒性較差而且往往會產(chǎn)生異常且無意義的解混結(jié)果,模型也大多會出現(xiàn)過擬合現(xiàn)象。為了解決上述問題,現(xiàn)有的一些方法DAEN(Su 等,2019),uDAS(Ying,2019)均采用基于純像素端元提取算法VCA 來直接初始化網(wǎng)絡(luò)解碼器的權(quán)值,即將提取得到的端元先驗知識并入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。然而,由于端元提取的不穩(wěn)定性,網(wǎng)絡(luò)對于噪聲和初始條件的設(shè)置將極大地影響其解混性能。而生成性對抗網(wǎng)絡(luò)(GANs)在一定程度上可以看作是一種增強(qiáng)模型(Goodfellow 等,2014)。與傳統(tǒng)的非對抗模型相比,判決器相當(dāng)于提供了一個自適應(yīng)不同任務(wù)和數(shù)據(jù)集的損失項,可以有效提升網(wǎng)絡(luò)對異常值和噪聲的魯棒性。
因此,本文將在傳統(tǒng)自動編碼器的基礎(chǔ)上,設(shè)計了一種全新的對抗自編碼器(AAENet),通過在判決器中加入豐度的先驗知識,將生成器的隱藏層(豐度)與初始化的豐度進(jìn)行對抗訓(xùn)練而進(jìn)一步提高整個網(wǎng)絡(luò)解混性能。同時也避免了采用網(wǎng)絡(luò)權(quán)重中直接進(jìn)行端元初始化帶來的次優(yōu)化問題。
基于傳統(tǒng)自編碼器網(wǎng)絡(luò)框架圖如圖1 所示。Y∈RN×B代表輸入的高光譜圖像(N表示像元的數(shù)量,B表示圖像的維度),代表由解碼器重建的高光譜圖像。根據(jù)LMM 模型假設(shè)可知,光譜的混合方式可以描述為:Y=AM+Nnoise。這里Nnoise代表高斯噪聲,A表示為圖像的豐度,M表示為端元矩陣。因此對應(yīng)圖1的自編碼器模型,我們可知編碼器隱藏層的輸出A即為圖像的預(yù)估豐度,所求端元矩陣即為網(wǎng)絡(luò)中解碼器的權(quán)重矩陣。本文所設(shè)計的基于對抗自編碼器網(wǎng)絡(luò)AAENet 框架流程圖如圖2 所示。其中圖2 中LeakyReLU,Linear,ReLU均代表網(wǎng)絡(luò)框架中所使用的激活函數(shù)。
圖1 基于自編碼器的網(wǎng)絡(luò)框架圖Fig.1 Architecture of the autoencoder-based network
圖2 AAENet網(wǎng)絡(luò)框架圖Fig.2 Architecture of the proposed AAENet
AAENet 框架中編碼器各神經(jīng)元具體細(xì)節(jié)如表1 所示。其中R表示為圖像中端元的維度數(shù)。由上表可以看出前1—4 層神經(jīng)元主要用于高光譜圖像的降維(維度數(shù)由9R至R),其轉(zhuǎn)換形式可由以下函數(shù)表示:
表1 生成器網(wǎng)絡(luò)層架構(gòu)及激活函數(shù)Table 1 The layer type and activation function used in the generator
式中,a(l)表示為隱藏層的輸出,a(l-1)表示為前一隱藏層的輸入,W(l)即為該層的權(quán)重矩陣。第5 層神經(jīng)元表示為批標(biāo)準(zhǔn)化層(BN 層),主要為解決網(wǎng)絡(luò)訓(xùn)練收斂速度過慢或“梯度爆炸”等問題且由γ及β兩個參數(shù)控制,這里文本假設(shè)1,…,m)為前一層神經(jīng)元的輸入,則BN 層的功能函數(shù)可以表述為以下形式:
式中,γ,β為網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù),如式(3)所示:
第6層神經(jīng)元為動態(tài)閾值層,考慮到豐度圖像的稀疏性,這里本文使用動態(tài)閾值α置于每一層的末端單元處作為可學(xué)習(xí)參數(shù)來實現(xiàn)豐度的稀疏性約束。其功能函數(shù)可以表示為以下形式:
式中,α(6)表示前一層神經(jīng)元輸入,α為R×1 向量。后續(xù)實驗表明,采用一個可學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)α作為動態(tài)閾值來控制豐度圖的稀疏性限制比在目標(biāo)函數(shù)中加入l1及l(fā)21正則項具有更高的解混精度。
由于LeakyReLU 函數(shù)本身具有的非負(fù)特性,為保證隱藏層所輸出豐度的具有物理意義,我們只需在編碼器的第7層神經(jīng)元輸出加入一個ASC限制,其功能函數(shù)可以表示為因此AAENet 的隱含層中所得到的輸入將會自動滿足豐度和為一的物理意義。
對于解碼器部分,由于本文主要考慮高光譜的線性組合模型(LMM),即觀測到的光譜應(yīng)為端元和其各自的豐度系數(shù)線性組合。因此本文使用Linear 作為解碼器的激活函數(shù)以滿足LMM 模型框架的假設(shè)。而由于偏置單元在網(wǎng)絡(luò)的訓(xùn)練中往往會產(chǎn)生很大負(fù)值導(dǎo)致收斂性的問題,在本文的網(wǎng)絡(luò)中所有的偏置單元均置為初始0值。
生成對抗網(wǎng)絡(luò)(GANs)的概念是由Goodfellow等人提出(Goodfellow 等,2014)。GANs 的訓(xùn)練過程可以看作為尋找判決器D與生成器G兩個網(wǎng)絡(luò)層之間的極小極大的博弈最優(yōu)點。判決器D 的訓(xùn)練誤差為判定輸入樣本的真?zhèn)螕p失,生成器G 的訓(xùn)練誤差則為生成足夠逼真的樣本欺騙判決器。整個網(wǎng)絡(luò)的訓(xùn)練損失可以描述為以下形式:
式中,pdata(x)為判決器中接收的真實樣本數(shù)據(jù),輸入x則為從真實的數(shù)據(jù)分布pdata(x)中獲取,p(z)則為生成器所對應(yīng)生成的樣本數(shù)據(jù)。
如圖1 中所示,AAENet 網(wǎng)絡(luò)中生成器G 由自編碼器的編碼器層構(gòu)成,編碼器層的輸出(隱含層A)即為生成器中產(chǎn)生的樣本。判決器D 由3 個全連接的網(wǎng)絡(luò)層構(gòu)成,其目的是被訓(xùn)練用來最大限度區(qū)分樣本是來自隱含層A 的生成樣本或是包含豐度先驗信息的VCA-FCLS(Heinz 和Chein-IChang,2001)初始化真實樣本,而生成器G 則需生成相似的樣本最大限度地欺騙判決器。假設(shè)K為網(wǎng)絡(luò)訓(xùn)練的批量大小,則生成器G 以高光譜圖像中采樣的K個樣本y(ii∈ 1,…,K)作為輸入,其輸出結(jié)果需要盡量模仿并生成與初始化豐度圖相似的樣本數(shù)據(jù)。兩個網(wǎng)絡(luò)在相互對抗中不斷調(diào)整參數(shù),最終使得網(wǎng)絡(luò)可以充分學(xué)習(xí)豐度的先驗知識并生成包含物理意義且使重構(gòu)誤差最小的豐度數(shù)據(jù)。
AAENet 框架中判決器各神經(jīng)元具體細(xì)節(jié)如表2 所示,所用的判決器LossD和生成器LossG的損失熵函數(shù)可以依次表示為以下形式:
表2 判決器網(wǎng)絡(luò)層架構(gòu)及激活函數(shù)Table 2 The layer type and activation function used in the discminator
式中,yi表示為輸入像元值,表示經(jīng)由自編碼器的重構(gòu)像元值。同時,在自編碼器的重構(gòu)誤差上,本文以光譜角距離(SAD)來作為損失函數(shù)進(jìn)行度量。其他基于自動編碼器的方法也有采用均方根誤差(RMSE)作為重構(gòu)誤差。然而實驗中我們發(fā)現(xiàn),RMSE 對數(shù)據(jù)幅值的大小變化較為敏感,當(dāng)訓(xùn)練數(shù)據(jù)發(fā)生僅基于其絕對大小進(jìn)行縮放時,采用RMSE 進(jìn)行訓(xùn)練可能導(dǎo)致更高的重建誤差。而將具有尺度縮放不變性的SAD 作為目標(biāo)函數(shù)可以提供更好的解混性能。值得注意的是盡管這種尺度不變的特性可能會導(dǎo)致估計的端元在幅值的比例上產(chǎn)生變化,但是只要在網(wǎng)絡(luò)框架中加入了豐度的ASC 和ANC 物理限制,最終獲得端元的相對尺度就不會受到影響。此外,為了使自編碼器可以更快地收斂,本文在損失函數(shù)中對解碼器的權(quán)重矩陣(端元)加入了一項正則化項。自編碼器的損失函數(shù)可以表示為
式中,xi,xj分別表示為度量的兩個向量樣本。由于整個框架的損失可以看做為自編碼器的重構(gòu)誤差的基礎(chǔ)上加入了生成器和判決器的對抗損失項,因此整個AAENet 框架的損失函數(shù)可以表述為以下形式:
式中,LossAE,LossD以及LossG分別由式(8),(6)及(7)所示。
在本文中,我們分別在基于傳統(tǒng)算法以及深度網(wǎng)絡(luò)算法中挑選了近期最新提出的解混方法進(jìn)行比較,分別為:SCM(Spatial Compositional Model)(Zhou 等,2016),F(xiàn)CLS(Fully Constrained Least Squares)(Heinz 和Chein-I-Chang,2001),NCM(Normal Compositional Model)(Eches 等,2010),DAEN(Su 等,2019)以及uDAS(Ying,2019)。其中SCM 通過充分挖掘圖像的局部空間信息,在豐度中加入平滑和稀疏先驗約束,進(jìn)而提升解混的精度。FCLS 為傳統(tǒng)基于最小二乘的算法。NCM代表對端元變異進(jìn)行建模的概率模型算法,DAEN和uDAS為近期提出的基于AE的方法。
在以下實驗的實施細(xì)節(jié)上,AAENet 在判決器中采用了VCA-FCLS算法所求得的豐度圖作為網(wǎng)絡(luò)的先驗知識進(jìn)行初始化,并將其作為網(wǎng)絡(luò)的真實輸入進(jìn)行對抗訓(xùn)練。由于網(wǎng)絡(luò)的損失函數(shù)中已經(jīng)加入了對解碼器的權(quán)重矩陣(端元)的正則化項,為防止網(wǎng)絡(luò)的過擬合的問題,生成器及解碼器的權(quán)重則均采用了隨機(jī)初始值的方法進(jìn)行初始化。值得注意的是,為了保證各算法的公平比較,以下其他對比算法也均采用了同樣的VCA-FCLS算法結(jié)果進(jìn)行豐度及端元初始化(除NCM作為監(jiān)督算法,需要將整個端元庫作為已知輸入對端元變異的概率模型進(jìn)行建模采用)。在豐度誤差的定量比較中本文選用了RMSE算法,其數(shù)學(xué)形式可以表述為
根據(jù)文獻(xiàn)(Zhou 等,2018),本文從ASTER光譜庫中選擇5 個光譜范圍為0.4—14 μm 的端元合成了一副大小為60×60 模擬數(shù)據(jù)集。其端元及RGB圖像如圖3所示。其中該實驗中對于端元的正則化項λ參數(shù)設(shè)定為0.5。
圖3 模擬數(shù)據(jù)集RGB圖像及端元光譜Fig.3 The color images and endmembers of the synthetic dataset
圖4表示了在該模擬數(shù)據(jù)集在SNR=20 dB時的各算法豐度對比圖。其中AAENet 與其他對比算法中豐度圖占優(yōu)的部分在圖中由紅色方框標(biāo)注,可以明顯對比看出標(biāo)注范圍內(nèi)AAENet 的豐度圖更加貼近于真實豐度的分布。各算法端元結(jié)果SNR=20 dB時的對比如圖5中所示??梢院苊黠@的看出在豐度以及端元的解混結(jié)果中,AAENet 算法都更加接近模擬數(shù)據(jù)集的真實數(shù)據(jù)。
圖4 模擬數(shù)據(jù)集中各算法豐度對比Fig.4 Abundance map comparisons for the synthetic dataset
圖5 模擬數(shù)據(jù)集中各算法端元對比Fig.5 The endmember estimation results for the synthetic dataset
為了驗證該方法相對于傳統(tǒng)的自動編碼器框架的優(yōu)越性和有效性,在本模擬數(shù)據(jù)集實驗中,我們在去除網(wǎng)絡(luò)的判決器后,即不采用初始化豐度圖進(jìn)行對抗訓(xùn)練框架時測試了AAENet 的解混性能。最終得到的豐度圖的如圖4 最后1 列所示(AAENet 非對抗)。對比AAENet 的性能,我們可以清楚地發(fā)現(xiàn)在asphalt 及l(fā)imestone 材料的豐度圖中出現(xiàn)了許多離散點和孤立點。由于在初始化實驗設(shè)置中,所有算法都采用了相同的VCA-FLCS初始化設(shè)置,因此我們可以將同樣在該初始化條件下傳統(tǒng)的自動編碼器框架(DAEN,uDAS 及AAENet 非對抗)的解混性能進(jìn)行對比分析,其不同噪聲水平下的豐度及端元的解混定量結(jié)果如表3中所示,AANet解混精度均有較為明顯的提升。因此,可以證明,將豐度圖的初始化值作為豐富的先驗知識來通過網(wǎng)絡(luò)進(jìn)行對抗訓(xùn)練,可以有效提高網(wǎng)絡(luò)的性能。
表3 模擬數(shù)據(jù)集的解混精度對比Table 3 Unmixing evaluation on synthetic dataset
結(jié)合表3中信噪比由SNR10 dB至30 dB時的不同算法的豐度及端元的定量誤差結(jié)果,我們可以分析比較算法在不同噪聲下的解混魯棒性。從表3中可以看出所有的算法當(dāng)噪聲水平相對較高時(SNR=10 dB,20 dB),解混精度都有所下降。這種不穩(wěn)定性的結(jié)果主要與VCA 初始化在不同噪聲水平下不穩(wěn)定有關(guān)。由于NCM 需要將整個端元庫作為已知輸入對端元變異的概率模型進(jìn)行建模,因此NCM 在不同噪聲水平下的性能相對穩(wěn)定,且作為一種監(jiān)督算法在進(jìn)預(yù)估端元的對比時未將其考慮其中。對于DAEN算法,觀察到其在低噪聲水平(SNR=30 dB)下性能相當(dāng)好。然而,當(dāng)噪聲設(shè)置得相對較高時,解混精度下降的較為明顯。對于uDAS 算法,由于在網(wǎng)絡(luò)的構(gòu)造中加入了去噪約束,因此當(dāng)信噪比為SNR=30 dB 時,解混精度較高。然而,其整體表現(xiàn)相對較差。AAENet 在各SNR 下豐度估計和端元估計方面都表現(xiàn)出了更高的解混精度及對噪聲的魯棒性,同時也證明了該算法的有效性。
本文選取的真實數(shù)據(jù)集為大小100×100,光譜范圍為0.4—2.5 μm,光譜波段數(shù)為198 的jasper 數(shù)據(jù)集。該數(shù)據(jù)集由AVIRIS 傳感器獲取,且包含4種端元(Road,Soil,Water,Tree),其真實豐度圖及立體高光譜圖如圖6所示。其中該實驗中對于端元的正則化項λ 參數(shù)設(shè)定為0.1。此外由于該jasper 數(shù)據(jù)中缺少真實的豐度及端元的信息進(jìn)行定量比較,我們與以上對比算法一樣,采用(Zhu,2014)中上傳的數(shù)據(jù)作為真實豐度及端元進(jìn)行定量分析。圖7 表示了各算法在jasper 數(shù)據(jù)集的豐度對比圖,其中AAENet 與其他對比算法中豐度圖占優(yōu)的部分在圖中由紅色方框標(biāo)注,可以明顯對比看出無論是從豐度圖的大小形狀以及雜亂點分布的情況來比對,AAENet 算法都更加貼切與豐度圖真實數(shù)據(jù),該數(shù)據(jù)集RMSE 定量解混精度值在表4中所示。所有的數(shù)據(jù)都表明在提出的AAENet 網(wǎng)絡(luò)框架中,通過在自編碼器中引入對抗損失,將初始化豐度作為先驗知識,能有效地處理現(xiàn)存AE 框架中對噪聲和初始化條件不魯棒的問題,充分發(fā)揮深度學(xué)習(xí)的網(wǎng)絡(luò)優(yōu)勢從而進(jìn)一步提高豐度的解混精度。
表4 Jasper數(shù)據(jù)集的解混精度對比Table 4 Unmixing evaluation on jasper dataset
圖6 Jasper數(shù)據(jù)集3D立方圖及端元光譜Fig.6 3D cube image and endmembers of the jasper dataset
圖7 Jasper數(shù)據(jù)集中各對比算法豐度圖Fig.7 Abundance map comparisons for the jasper dataset
圖8 Jasper數(shù)據(jù)集中各算法端元對比圖Fig.8 Abundance map comparisons for the jasper dataset
值得注意的是由于本文為避免網(wǎng)絡(luò)過擬合而導(dǎo)致的不魯棒問題,框架的編碼層及解碼層都采用是的隨機(jī)值進(jìn)行初始化。而生成對抗自編碼器本身作為一種增強(qiáng)模型其判決器雖相當(dāng)于提供了一個自適應(yīng)不同任務(wù)和數(shù)據(jù)集的損失項,但在實際訓(xùn)練過程中收斂速度相對較慢,作者實驗發(fā)現(xiàn)通過加入端元正則化項可以在一定程度上加快網(wǎng)絡(luò)的收斂速度。在具體實驗中,本文的端元正則化項系數(shù)可以在[0,1]的區(qū)間內(nèi)進(jìn)行取值,由于端元的正則化項采用的是基于純像素端元提取算法VCA 來提取圖像端元,在噪聲或混合端元相對較多的圖像中,VCA 端元提取方法本身的不穩(wěn)定性可能會導(dǎo)致端元提取精度較差,應(yīng)降低該正則化項對網(wǎng)絡(luò)訓(xùn)練的懲罰,推薦選擇較小的端元正則化系數(shù)([0,0.5])會得到更好的實驗結(jié)果。對于圖像中存在較多純凈端元且信噪比也較高的圖像中,在[0.5,1]區(qū)間之間進(jìn)行取值可以得到更穩(wěn)定的實驗結(jié)果。
本文提出了一種新的基于對抗式自動編碼器(AAENet)的高光譜解混方法,可以有效的同時獲取圖像的端元特征及其豐度分?jǐn)?shù)。AAENet 主要有兩部分構(gòu)成。第一部分為端到端基于重構(gòu)誤差的解混框架,第二部分是采用對抗性訓(xùn)練的方法,將初始化豐度作為先驗知識,生成器和判決器的對抗損失項可以充分學(xué)習(xí)豐度的先驗并加速網(wǎng)絡(luò)的收斂。在模擬及真實高光譜數(shù)據(jù)上的實驗表明,AAENet 與現(xiàn)有方法相比,該算法具有更好的解混性能與精度。