路燕,任月,崔賓閣
山東科技大學 計算機科學與工程學院,山東 青島 266590
高光譜傳感器以數(shù)十至數(shù)百個連續(xù)且細分的光譜波段對目標區(qū)域同時成像,形成了包含數(shù)十至數(shù)百個波段的高光譜圖像(HSI Hyperspectral Image)(張良培和李家藝,2016)。由于包含豐富的光譜和空間信息,高光譜圖像被廣泛應用于各種任務,如復雜環(huán)境下的地物精細分類(Thenkabail和Lyon,2011;崔賓閣 等,2019)、目標檢測(Nasrabadi,2014;Zhu 等,2019) 和植被面積估計(Lees,2020)等。高維度的光譜數(shù)據(jù)在為圖像處理提供更多光譜信息的同時,也帶來了維數(shù)災難、信息冗余、計算復雜度高和存儲成本巨大等問題(Fauvel 等,2013)。因此,維度約減已成為高光譜圖像處理的一個重要環(huán)節(jié)(Zhao和Du,2016)。
高光譜圖像降維方法通??梢苑譃閮深悾禾卣魈崛『筒ǘ芜x擇(Cui 等,2020)。特征提取是根據(jù)某種準則將高維數(shù)據(jù)映射到一個特定的低維特征空間中,并提取新的特征值來表示原始高維數(shù)據(jù)(Sun 等,2014;Dópido 等,2012)。典型的特征提取方法包括主成分分析PCA (Principal Component Analysis)(Chang 等,1999)、獨立成分分析ICA(Independent Component Algorithm)(Wang和Chang,2006)、線性判別分析LDA (Linear Discriminant Analysis)(Bandos 等, 2009; Zhai等,2019)和局部線性嵌入LLE(Locally Linear Embedding)(Li 等,2012)等。經(jīng)過上述的空間變換,原始高光譜圖像波段的物理含義發(fā)生了變化,并且丟失了一些關鍵信息(Yang 等,2012)。與特征提取方法不同,波段選擇是從高光譜圖像中選擇出信息量較大、相關性較弱、類別可分性較好的波段組合,因而基本保留了地物的固有物理屬性(Wang等,2018)。常用的波段選擇方法有基于排名、基于搜索、基于聚類、基于稀疏性、基于嵌入學習和基于混合方案等(Sun和Du,2019)。
基于聚類的波段選擇方法是高光譜圖像降維的重要方法(Sun 和Du,2019)。該方法首先通過聚類將原始波段分組,然后從每組中選擇一個代表性波段。最早的高光譜圖像波段聚類方法是基于Ward 鏈接的分層聚類(Martínez?Usómartinez?Uso 等,2007)。之后,基于聚類的各種高光譜圖像波段選擇方法陸續(xù)被提出,如Rodriguez 和Laio(2014)提出基于密度峰值的快速聚類算法FDPC(Fast Density?Peak?based Clustering),該算法通過計算每個樣本的局部密度和組內距離來識別聚類中心;Jia 等(2016)對FDPC 算法進行了改進,提出了增強的快速聚類算法E?FDPC(Enhanced?FDPC),該算法通過加權歸一化的局部密度和組內距離來計算每個波段的排名得分;Yuan 等(2016)提出了一種基于上下文分析和雙聚類的高光譜圖像波段選擇方法;Wang 等(2018)提出了一種用于高光譜波段選擇的最佳聚類框架,該框架通過動態(tài)編程將高光譜波段劃分為多個組,并在每個組中選擇一個代表性波段;趙亮等(2019)提出了一種基于平均相關性和最佳指數(shù)等指標的高光譜圖像子空間波段選擇方法;Wang 等(2019)提出了一種用于波段子空間劃分的自適應分區(qū)框架,通過最大化組間距離與組內距離之比將光譜空間中有序的高光譜數(shù)據(jù)劃分為多個子空間,可以有效避免選擇具有高相關性的波段子集。
上述基于聚類的高光譜圖像波段選擇方法主要考慮了波段的信息量和相關性,忽視了波段的噪聲問題。然而受瑞利散射、水和二氧化碳吸收等大氣噪聲及傳感器自身噪聲的影響,真實的高光譜圖像通常在某些波段有嚴重的噪聲。這些噪聲會對波段信息量估計和波段間相似度計算產(chǎn)生不利影響,甚至導致選擇的波段子集中包含多個噪聲波段的情況。現(xiàn)有的波段選擇方法為避免這種情況,通常會將特定傳感器中的水吸收波段等受噪聲影響嚴重的波段去除,但在高光譜圖像的成像過程中產(chǎn)生噪聲波段的因素眾多,去除特定水吸收波段后的數(shù)據(jù)集中仍然存在其它的噪聲波段(劉雪松等,2012),因此在波段選擇過程中考慮噪聲問題是非常有必要的(Wang 等,2019)。本文提出一種噪聲魯棒的高光譜圖像子空間劃分與波段搜索方法,即基于皮爾遜相關系數(shù)、信息熵和 噪 聲 水 平PIENL (Pearson correlation coefficient,Information Entropy and Noise Level)的波段選擇方法。PIENL方法首先采用抗噪聲干擾能力較強的皮爾遜相關系數(shù)計算波段間相似度,然后基于波段相似度自適應地將高光譜圖像劃分成有序的子空間,最后綜合考慮波段的信息熵和噪聲水平,在各個子空間中挑選出信息量大且噪聲水平低的代表性波段。
本文方法首先依據(jù)波段間皮爾遜相關系數(shù)對高光譜圖像進行自適應子空間劃分,得到相關性較弱的多個波段子空間;然后使用結合波段信息熵和噪聲水平兩個指標的信息量度量準則在各個子空間中進行搜索,選擇最具代表性的波段子集。
2.1.1 劃分依據(jù)
高光譜遙感數(shù)據(jù)具有光譜劃分精細的特點,同一地物在相鄰波段的光譜反射率相近(趙亮等,2019)。為了將相似波段劃分到同一子空間,需要衡量各個波段之間的光譜差異(Wang 等,2019)。目前波段間光譜差異的度量方法主要有距離度量(Wang 等,2019) 和相關性度量(趙春暉 等,2017;趙亮等,2019)。圖1 展示了歐氏距離和皮爾遜相關系數(shù)在Indian Pines 數(shù)據(jù)集與Salinas 數(shù)據(jù)集上的可視化矩陣。
圖1(a)和圖1(c)分別展示了歐氏距離在Indian Pines 數(shù)據(jù)集與Salinas 數(shù)據(jù)集上的可視化矩陣。根據(jù)右側圖例,越靠近深藍色區(qū)域歐氏距離越小,代表波段間的光譜差異越小;越靠近深紅色區(qū)域歐氏距離越大,代表波段間的光譜差異越大;可以看出,噪聲波段與其他正常波段間的歐氏距離較大,但噪聲波段間的歐氏距離較小,例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段,Salinas數(shù)據(jù)集中108—112波段和154—167波段。
皮爾遜相關系數(shù)可視化矩陣如圖1(b)與圖1(d)所示。皮爾遜相關系數(shù)的絕對值越大,代表波段之間的相關性越強。根據(jù)右側圖例,深藍色區(qū)域代表波段間呈現(xiàn)負相關,暗紅色區(qū)域代表波段間呈現(xiàn)正強相關,黃色區(qū)域代表波段間相關性較弱,青色及淺藍色區(qū)域代表波段間基本不相關;可以看出,相關性較強的區(qū)域主要集中在主對角線附近,說明相鄰波段間的相關性更強(趙亮等,2019),但噪聲波段間基本不相關或弱相關,例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段,Salinas 數(shù)據(jù)集中108—112 波段和154—167波段。
圖1 歐氏距離與皮爾遜相關系數(shù)的可視化矩陣Fig.1 Visual matrix of Euclidean distance and Pearson correlation coefficient
依據(jù)歐氏距離度量波段間差異時,噪聲波段與非噪聲波段間的距離較大,但噪聲波段之間的距離較小(例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段)。因此,在采用歐氏距離劃分子空間時,可能出現(xiàn)同一子空間中所有波段都是噪聲波段的情況,致使下一階段所選的最具代表性波段子集中必然存在噪聲波段。圖2 展示了在未去除噪聲波段的Indian Pines 數(shù)據(jù)集上分別采用歐氏距離與皮爾遜相關系數(shù)的子空間劃分情況,其中噪聲波段區(qū)域使用黑白紋理標注??梢钥闯?,采用歐氏距離的分區(qū)方法將噪聲波段148—165、218—220 單獨分成同一子空間。與歐氏距離不同,皮爾遜相關系數(shù)基于波段間的協(xié)方差和波段標準差計算兩個波段的相似度(Algina 和Olejnik,2003),噪聲波段間皮爾遜相關系數(shù)較?。ɡ鏢alinas 數(shù)據(jù)集中108—112 波段和154—167 波段),甚至接近于0 (例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段),因此基于皮爾遜相關系數(shù)的子空間劃分方法有助于避免將噪聲波段單獨分成同一子空間。據(jù)此本文選用皮爾遜相關系數(shù)作為高光譜圖像子空間的劃分依據(jù)。
圖2 在Indian Pines數(shù)據(jù)集上的分區(qū)情況Fig.2 Partition on the Indian Pines dataset
假設高光譜數(shù)據(jù)集X=[x1,x2,…,xL],其中L代表高光譜圖像的波段數(shù)。波段間皮爾遜相關系數(shù)的計算如式(1)所示:
式中,cov(xi,xj)是第i個波段xi與第j個波段xj的協(xié)方差,σxi和σxj分別是xi與xj的標準差。ci,j表示第i個波段xi與第j個波段xj的皮爾遜相關系數(shù)。ci,j的絕對值越大,代表xi和xj之間的相關性越強(Zhang 等,2018)。所有波段的皮爾遜相關系數(shù)矩陣A可以表示如下
2.1.2 基于皮爾遜相關系數(shù)的自適應子空間劃分
式中,Bk代表劃分后的第k個子空間,|Bk|為第k個子空間的波段數(shù)。參照Wang 等(2019)提出的子空間劃分方法,定義子空間劃分的優(yōu)化問題如下:
然而,當高光譜圖像中存在噪聲波段時,式(5)傾向于將連續(xù)噪聲波段單獨劃分成一組。這是因為噪聲波段組與其他波段組光譜相關性較弱,如果選擇分割點tk使得所有噪聲波段分為一組,則式(5)中的分子項會取得最小值,而分母項數(shù)值近似等于非噪聲波段組相關性的大小,因此這種劃分方法容易導致代表性波段子集中出現(xiàn)噪聲波段。
為解決式(5)傾向于將連續(xù)噪聲波段單獨劃分成一組的問題,本文提出使用乘積運算取代式(5)分子式中分母項的求和運算。這是因為噪聲波段組內部相關性較小,相比求和運算,乘積運算會大幅降低分母項數(shù)值的大小,從而避免在噪聲波段組劃分為一個子空間、非噪聲波段組劃分為一個子空間的情況下分子式取得最小值。改寫后的優(yōu)化問題目標函數(shù)可表達如下:
結合式(3)與式(4),式(6)可以寫成:
在式(7)中,第2 個分子式計算子空間Bk與Bk+1波段數(shù)量分別減1后的乘積,目標函數(shù)的優(yōu)化過程將使得這兩個子空間中的波段數(shù)量差別較大。這是因為當總波段數(shù)量一定時,兩個子空間波段數(shù)相差越大,第2 個分子式的值越小。假設總共有10 個波段,當Bk= 2、Bk+1= 8 時,第2 個分子式的值為1.75;當Bk= 5、Bk+1= 5 時,第2 個分子式的值為4,顯然最小化優(yōu)化問題的目標函數(shù)將傾向于選擇前一種劃分策略。為了解決這一問題,依據(jù)Geoffrion(1974)和Guignard(2003)關于最小化問題的松弛定義,對式(7)中的優(yōu)化問題進行了松弛處理,如式(8)所示:
通過對優(yōu)化問題(7)的松弛處理,可以有效緩解各子空間波段數(shù)目不均衡的問題。據(jù)此,本文通過求解式(8)的最優(yōu)化問題,得到第k個子空間與第k+ 1個子空間之間的最佳分割點。
波段搜索準則旨在從子空間中選出高光譜圖像信息量大、類別可分性較好的波段組合。波段方差、信息熵和噪聲水平等是常用的波段評價依據(jù)(谷延鋒和張曄,2003;蔣金豹 等,2016;Zhang 等,2016;Wang 等,2019)。當高光譜圖像中包含噪聲時,噪聲波段會對圖像質量產(chǎn)生較大影響,增加圖像分類任務的不確定性。
為了選擇子空間中信息量大、且噪聲水平低的波段作為該子空間的代表性波段,本文提出的波段搜索準則將通過組合信息熵和噪聲水平兩個指標來評估各個波段的信息量。選擇子空間Bk中代表性波段yk的優(yōu)化任務可以定義如下:
式中,E(xi)和N(xi)分別代表波段xi的信息熵和噪聲水平,λN(xi)為懲罰項,λ為懲罰系數(shù),可以通過實驗選取使波段選擇結果最優(yōu)的λ值。波段的噪聲水平計算采用Coakley 和Bretherton(1982)給出的方法。依據(jù)式(9)計算劃分到子空間Bk中所有波段的信息量,將具有最高信息量的波段選為該子空間的代表性波段。子空間劃分與波段搜索方法(PIENL)的實現(xiàn)過程為
輸入:高光譜數(shù)據(jù)集X=[x1,x2,…,xL],代表性波段數(shù)K。
本文使用3個公開常用的高光譜數(shù)據(jù)集來驗證所提出方法的有效性。
(1)Indian Pines 數(shù)據(jù)集:通過AVIRIS 傳感器采集,由145像素×145像素和220個波段組成,波長范圍在0.4—2.5 μm 之間,空間分辨率為20 m,包含16 種地物類型;其中,信噪比較低的波段有1—3、103—112、148—165 和217—220 等35 個波段(Zhang 等,2018)。去掉水和二氧化碳吸收嚴重噪聲波段(104—108、150—163和220)后的修正數(shù)據(jù)集共200個波段,Indian Pines數(shù)據(jù)集假彩色圖像及其真值圖如圖3所示。
圖3 Indian Pines數(shù)據(jù)集Fig.3 Indian Pines dataset
(2)Washington DC 數(shù)據(jù)集:通過HYDICE 傳感器拍攝,由280×307 像素和191 個波段組成,波長范圍在0.4—2.4 μm 之間,空間分辨率為1.5 m,包含6 種地物類型。由于航拍數(shù)據(jù)噪聲水平較低,本文人為地對波段61—80和141—150等30個波段添加10%的高斯噪聲以檢驗不同波段選擇算法的抗噪能力,將人為添加噪聲后的圖像作為未去除噪聲波段的數(shù)據(jù)集;Washington DC 數(shù)據(jù)集假彩色圖像及其真值圖如圖4所示。
圖4 Washington DC數(shù)據(jù)集Fig.4 Washington DC dataset
(3)Salinas 數(shù)據(jù)集:通過AVIRIS 傳感器采集,由512像素×217像素和224個波段組成,空間分辨率為3.7m,包含16 種地物類型。受大氣影響較大和信噪比較低的波段有108—112、154—167和224 等20 個波段,去除噪聲嚴重波段后的修正數(shù)據(jù)集共204個波段;Salinas數(shù)據(jù)集假彩色圖像及其真值圖如圖5所示。
圖5 Salinas數(shù)據(jù)集Fig.5 Salinas dataset
本文通過波段平均相關性與分類精度兩種指標來驗證所提出方法的有效性,并分析各種波段選擇方法的噪聲魯棒性。
(1)分類精度:總體精度(OA)、平均精度(AA)和Kappa 系數(shù)用于量化分類效果。在實驗中使用SVM 分類器對高光譜圖像進行分類,并采用徑向基函數(shù)作為核函數(shù)。通過交叉驗證方法估計最優(yōu)方差參數(shù)和懲罰因子。每次實驗隨機選擇10%的樣本進行訓練,其余樣本用于測試。分類精度采用10次獨立運行實驗精度的平均值和標準差。
(2)波段相關性:本文使用波段平均相關系數(shù)(ACC)評估所選的代表性波段的相關性,ACC的絕對值越大,波段平均相關性越強,冗余度越高。
(3)噪聲魯棒性:以Indian Pines和Salinas數(shù)據(jù)集為例,對不同方法所選擇的代表性波段進行分析和比較,評價各種波段選擇方法對噪聲的魯棒性。
在計算波段噪聲水平時,需要事先將每個波段圖像劃分為M×M像素大小的小塊(Coakley 和Bretherton,1982)。Wang 等(2019)詳細分析了塊大小對不同數(shù)據(jù)集的影響。參考Wang等(2019)論文中的實驗結果數(shù)據(jù),本文在Indian Pines 數(shù)據(jù)集上取M= 3,在Washington DC數(shù)據(jù)集上取M= 5,在Salinas數(shù)據(jù)集上取M= 10。
在式(9)的目標函數(shù)中,參數(shù)λ的最優(yōu)值通過實驗確定。圖6給出了在3個數(shù)據(jù)集上選取10個代表性波段時,隨著λ值逐步增加,分類精度的變化情況。本文在Indian Pines 和Washington DC 數(shù)據(jù)集上取λ= 100,在Salinas數(shù)據(jù)集上取λ= 125。
圖6 在3個數(shù)據(jù)集上選取10個代表性波段的分類精度隨λ值的變化曲線Fig.6 Classification accuracy of 10 representative bands selected from three datasets varies with the value of λ
實驗環(huán)境為Intel Core i7?6700四核處理器,主頻3.40 GHz,有效內存32 GB,開發(fā)環(huán)境為Matlab R2017b。本文將PIENL方法與Chang等(1999)提出的最大方差主成分分析方法MVPCA(Maximum?Variance PCA),Chang 和Wang (2006)提出的基于線性約束最小方差的波段相關最小化方法LCMVBCM (Linearly Constrained Minimum Variance based Band Correlation Minimization), Martínez?Usómartinez?Uso 等(2007)提出的沃德發(fā)散聯(lián)動策略(WaluDI),Rodriguez 和Laio(2014)提出的基于快速密度峰的聚類算法(FDPC)和Wang 等(2019) 提出的自適應子空間噪聲最小化方法(ASPS_MN)等波段選擇方法進行了對比實驗。其中,ASPS_MN 方法在波段搜索階段同樣考慮了噪聲的影響,該方法將Coakley 和Bretherton(1982)提出的噪聲水平計算方法作為波段搜索準則。為了充分驗證本文提出方法的優(yōu)越性,在去除噪聲嚴重波段的修正數(shù)據(jù)集與未去除噪聲波段的數(shù)據(jù)集上均進行了對比實驗。
3.4.1 基于皮爾遜相關系數(shù)的自適應子空間劃分有效性驗證
(1)子空間劃分的目標函數(shù)有效性驗證。以Indian Pines 高光譜圖像的148—197 波段(共50 個連續(xù)波段,其中148—165 為噪聲波段,166—197為非噪聲波段)為實驗數(shù)據(jù)集,驗證式(8)中目標函數(shù)的有效性,實驗結果如圖7 所示。由圖7 可以看出,在所有可能劃分情況下,式(5)中的目標函數(shù)在將連續(xù)噪聲波段148—165 劃分為一個子空間、非噪聲波段166—197 劃分為另一個子空間時取得最小值;式(6)和(7)中的目標函數(shù)在分割點為194時取得最小值,避免了將連續(xù)噪聲波段148—165 劃分為一個子空間的情況,然而兩個子空間中的波段數(shù)量分別為47 和3,相差極大;式(8)中的目標函數(shù)在分割點為179 時取得最小值,既避免了相鄰子空間Bk與Bk+1中波段數(shù)量不均衡的問題,也避免了將連續(xù)噪聲波段單獨劃分為一個子空間的情況。因此,選用式(8)作為自適應子空間劃分優(yōu)化問題的目標函數(shù)是有效的。
圖7 不同目標函數(shù)對最佳分割點選擇的影響(紅圈代表最佳分割點)Fig.7 Adjacent subspace partition points of different objective functions(the red circle represents the best partition point)
(2)與其他子空間劃分方法的對比實驗。為了驗證本文提出的基于皮爾遜相關系數(shù)的子空間劃分方法的有效性,本文將PIENL 方法與其他子空間劃分方法及波段均分方法進行了對比。其中,增強的快速聚類算法E?FDPC(Jia 等,2016)和波段均分方法(根據(jù)所選代表性波段的數(shù)量將高光譜數(shù)據(jù)集平均劃分) 為非自適應劃分方法,ASPS_MN 和PIENL 為自適應子空間劃分方法。表1展示了在3個數(shù)據(jù)集上選取20個代表性波段時的分類精度。為了消除子空間波段搜索方法差異的影響,對比方法在波段搜索過程中均使用本文提出的子空間波段搜索方法,在表1中使用*標注。從表2 中可以看出,PIENL 方法在去除噪聲嚴重波段的修正數(shù)據(jù)集上總體精度比ASPS_MN 方法提高了大約1%,比E?FDPC 方法及波段均分方法提高了大約1%—2%,Kappa 系數(shù)在3 個修正數(shù)據(jù)集上提高了1%—5%左右。PIENL 方法在未去除噪聲波段數(shù)據(jù)集上總體精度比ASPS_MN 方法提高了大約1%—3%,比E?FDPC 方法及波段均分方法提高了大約1%—2%,Kappa 系數(shù)提高了大約1%—5%。在幾種對比方法中,PIENL的分類精度最高,證實了本文提出的基于皮爾遜相關系數(shù)的子空間劃分方法的有效性。
表1 在3個數(shù)據(jù)集上分別選取20個代表性波段用于驗證子空間劃分方法的有效性Table 1 Select 20 bands to verify the effectiveness of the subspace partition method on three hyperspectral datasets/%
3.4.2 提出的波段信息量度量方法有效性驗證
為了驗證本文提出的波段信息量度量方法的有效性,本文在3個未去除噪聲波段的數(shù)據(jù)集上采用相同的子空間劃分方法驗證不同度量方法選取代表性波段的類別可分性。圖8 展示了在3 個未去除噪聲波段數(shù)據(jù)集上,使用不同度量方法選取不同數(shù)量代表性波段時的OA 曲線。從圖8 中可以看出,采用本文提出的信息量度量方法選取的代表性波段的OA 明顯高于使用方差、信息熵和噪聲水平作為波段搜索準則的方法,這也證實了采用本文在波段搜索階段改進的信息熵與噪聲水平相結合的信息量度量方法可以選出子空間中信息量大且噪聲水平低的代表性波段,具有較好的類別可分性。
圖8 在3個數(shù)據(jù)集上使用不同信息量度量方法選取波段的OA曲線Fig.8 OA for using different information measurement methods to select bands on three datasets
3.4.3 修正數(shù)據(jù)集上的結果與分析
(1)類別可分性。圖9展示了幾種波段選擇方法在3個去除噪聲嚴重波段的修正數(shù)據(jù)集上選取不同數(shù)量代表性波段的OA 變化曲線。從總體變化趨勢上看,大部分方法的分類精度隨所選代表性波段數(shù)量的增加而增加。當所選波段達到30 個以上時,各種方法的精度基本趨于穩(wěn)定。圖9中水平虛線為使用全波段分類的結果。PIENL 方法在3 個修正數(shù)據(jù)集上選擇20—30 個代表性波段時,精度達到或超過使用全波段分類的結果。從圖9(a)可以看出,當PIENL 方法在Indian Pines 數(shù)據(jù)集上選擇代表性波段的數(shù)量超過15個時,其分類精度明顯高于其他方法。各種波段選擇方法在Washington DC 和Salinas 數(shù)據(jù)集上的分類精度變化曲線分別由圖9(b)和圖9(c)給出。與Indian Pines 數(shù)據(jù)集相比,PIENL 方法在Washington DC 和Salinas 數(shù)據(jù)集上的優(yōu)勢并不明顯,這是由于Indian Pines 數(shù)據(jù)集是由星載傳感器拍攝,受大氣噪聲影響較為嚴重,波段的噪聲水平較高,而Washington DC 和Salinas 數(shù)據(jù)集是由機載傳感器拍攝,空間分辨率較高,波段的噪聲水平較低。
圖9 在去除噪聲嚴重波段的修正數(shù)據(jù)集上選取不同數(shù)量波段的OA曲線Fig.9 OA for selecting different numbers of bands on the dataset with high?noise bands removed
表2給出了在3個修正數(shù)據(jù)集上分別選取10個代表性波段的總體精度(OA)、平均精度(AA)和Kappa系數(shù)。當選取10個代表性波段時,PIENL方法與ASPS_MN 方法在去除噪聲嚴重波段的Indian Pines 數(shù)據(jù)集上明顯優(yōu)于其它方法,可以說明在去除噪聲嚴重波段后的數(shù)據(jù)集上考慮噪聲影響也是十分必要的。從表2中可以看出,本文提出的PIENL 方法在各個數(shù)據(jù)集上都取得了較好的結果。PIENL 方法在的Indian Pines 數(shù)據(jù)集上總體精度相比其它方法提高了3%—13%,分類精度已經(jīng)非常接近使用所有波段分類的結果,在Washington DC 數(shù)據(jù)集上總體精度相比其它方法提高了1.5%—6.0%,在Salinas 數(shù)據(jù)集上總體精度相比其它方法提高了1%—6%。
表2 在3種修正數(shù)據(jù)集上選取10個代表性波段的分類精度Table 2 Classification accuracy of 10 representative bands selected on three datasets with high-noise bands removed/%
PIENL方法在去除噪聲嚴重波段后的修正數(shù)據(jù)集上效果仍然優(yōu)異的原因如下:一是提出的基于皮爾遜相關系數(shù)的子空間劃分方法能夠降低代表性波段間的相關性,從而減少所選波段之間的冗余信息;二是修正數(shù)據(jù)集中仍包含部分信噪比較低的波段,噪聲增加了高光譜圖像分類任務的不確定性,在波段搜索過程中提出改進的波段信息量度量方法能夠同時兼顧信息熵和噪聲水平,選出子空間中信息量大且噪聲水平低的波段。在3個數(shù)據(jù)集上選取10 個代表性波段的分類圖由圖10、圖11和圖12給出。
圖10 不同方法的Indian Pines圖像分類結果Fig.10 Indian Pines image classification results obtained by different methods
圖11 不同方法的Washington DC圖像分類結果Fig.11 Washington DC image classification results obtained by different methods
圖12 不同方法的Salinas圖像分類結果Fig.12 Salinas image classification results obtained by different methods
(2)相關性分析。表4 展示了在3 個數(shù)據(jù)集上分別選取10 個代表性波段的平均相關系數(shù)。對于高光譜數(shù)據(jù),代表性波段的平均相關性越小,波段子集冗余度越低。平均相關系數(shù)ACC 的取值范圍為[?1,1]:|ACC|<0.2 為極弱相關或不相關;0.2≤|ACC|<0.4 為弱相關;0.4≤|ACC|<0.6 為中等程度相關;0.6≤|ACC|<0.8 為強相關;0.8≤|ACC|≤1 為極強相關(Acito 等,2011)。在Indian Pines 數(shù)據(jù)集上,PIENL 及ASPS_MN 方法選取波段子集的ACC 相比其它方法是較低的,其值都小于0.4,即它們選擇的代表性波段之間為弱相關,而其他方法選擇的代表性波段之間為中等程度相關甚至強相關。在Washington DC 和Salinas 數(shù)據(jù)集上,PIENL方法較其他方法的ACC 是最低的。在Salinas 數(shù)據(jù)集上,PIENL 方法所選波段子集的ACC 只有0.2 左右,說明代表性波段的冗余度非常低。
表4 3個數(shù)據(jù)集上選取10個代表性波段的平均相關系數(shù)Table 4 Average correlation coefficient of 10 representative bands selected on three datasets
3.4.4 未去除噪聲波段數(shù)據(jù)集上的結果與分析
(1)類別可分性。圖13 展示了幾種波段選擇方法在3 個未去除噪聲波段的高光譜數(shù)據(jù)集上的OA 變化曲線。從總體變化趨勢上看,大部分方法的分類精度隨所選代表性波段數(shù)量的增加而增加。圖13 中水平虛線代表使用全波段分類的結果,與圖9中水平虛線相比,使用未去除噪聲波段的全波段進行分類時,分類精度明顯降低。從圖13 中可以看出,當僅選擇10 個代表性波段時,PIENL 方法的精度便達到或高于使用全波段進行分類的精度。ASPS_MN 等波段選擇方法受噪聲影響較大,而PIENL 方法在3個未去除噪聲波段的數(shù)據(jù)集上均有良好表現(xiàn),證實了PIENL 方法對噪聲具有較強的魯棒性。
圖13 在未去除噪聲波段的數(shù)據(jù)集上選取不同數(shù)量波段的OA曲線Fig.13 OA for selecting different numbers of bands on datasets containing noise bands
表5 給出了在3 個未去除噪聲波段的數(shù)據(jù)集上分別選取10 個代表性波段的總體精度(OA)、平均精度(AA)和Kappa 系數(shù),從中可以看出,本文提出的PIENL 方法在各個數(shù)據(jù)集上都取得了較好的結果。在未去除噪聲波段的Indian Pines 和Washington DC 數(shù)據(jù)集上選取10 個波段的分類結果高于使用所有波段及其它方法的分類精度。從表5 中可以看出,PIENL 方法在3 個未去除噪聲波段的數(shù)據(jù)集上的分類精度高于其它所有方法,在未去除噪聲波段的Indian Pines 數(shù)據(jù)集上相比其它方法總體精度提高了6%—11%,在Washington DC數(shù)據(jù)集上總體精度提高了2%—8%,在Salinas 數(shù)據(jù)集上總體精度提高了3%—7%,證實了PIENL方法在未去除噪聲波段的數(shù)據(jù)集上表現(xiàn)更加優(yōu)異。
表5 在未去除噪聲波段的數(shù)據(jù)集上選取10個代表性波段的分類精度Table 5 Classification accuracy of 10 representative bands selected on datasets containing noise bands/%
(2)噪聲魯棒性分析。表6 和表7 展示了不同波段選擇方法在未去除噪聲波段的Indian Pines 和Salinas 數(shù)據(jù)集上所選的10 個代表性波段的序號,并對其中的噪聲波段進行了顏色加深標記。在未經(jīng)噪聲波段去除的Indian Pines 數(shù)據(jù)集上,LCMVBCM 和WaluDI 方法所選的10 個代表性波段中包含3 個噪聲波段,F(xiàn)DPC 和ASPS_MN 方法包含了2個噪聲波段。在未去除噪聲波段的Salinas數(shù)據(jù)集上,LCMVBCM 和ASPS_MN 方法選擇了2 個噪聲波段,F(xiàn)DPC 和WaluDI 方法選擇了1 個噪聲波段。MVPCA 和PIENL 方法在兩個數(shù)據(jù)集上都沒有選擇噪聲波段作為代表性波段。然而從表6 和表7中可以看出,MVPCA 方法選擇的大多數(shù)代表性波段序號都是相鄰的,波段子集的信息冗余度非常高,多樣性無法保證,因而相比其他方法,該方法的分類精度是最低的。PIENL方法能有效避開噪聲波段,且其選擇的代表性波段之間相關性較弱,因而分類精度是所有方法中最高的,這表明PIENL方法具有噪聲魯棒性。
表6 不同方法在Indian Pines數(shù)據(jù)集上選取的10個波段時噪聲波段包含情況Table 6 Noise bands in 10 bands selected by different methods on the Indian Pines dataset
表7 不同方法在Salinas數(shù)據(jù)集上選取的10個波段時噪聲波段包含情況Table 7 Noise bands in 10 bands selected by different methods on the Salinas dataset
3.4.5 計算時間分析
表8 展示了在Indian Pines 數(shù)據(jù)集上使用不同波段選擇方法分別選取10、20、30、40、50 和60 個代表性波段(k)的計算時間。可以看出,PIENL 方法的計算時間僅次于MVPCA 方法,優(yōu)于ASPS_MN等其他波段選擇方法。但MVPCA方法所選的代表性波段分類精度較低(圖9、表3、圖13和表5),而PIENL 方法所選的代表性波段在各種波段選擇方法中分類精度最高。
表8 在Indian Pines數(shù)據(jù)集上使用不同波段選擇方法的計算時間Table 8 Computing times of different band selection methods used on the Indian Pines dataset
3.4.6 消融實驗
PIENL方法在Wang等(2019)提出的ASPS_MN方法的基礎上做了兩點改進:一是提出基于皮爾遜相關系數(shù)的自適應子空間劃分方法;二是提出基于信息熵與噪聲水平的波段搜索準則。表9 在3 個數(shù)據(jù)集上分別展示了本文提出的自適應子空間劃分方法及波段搜索準則的有效性。從表9中的可以看出,ASPS_MN 方法在去除噪聲嚴重波段的修正Indian Pines 數(shù)據(jù)集上,采用本文提出的子空間劃分方法的總體精度提高了2%左右,在未去除噪聲的波段Indian Pines數(shù)據(jù)集上提高了3%左右,這是由于本文提出的子空間劃分方法能夠避免將連續(xù)的噪聲波段單獨劃分成一個子空間,在Salinas和Washington DC 數(shù)據(jù)集上也取得了不同程度的提升,證實了本文提出的子空間劃分方法的有效性和必要性。ASPS_MN 方法在未去除噪聲波段的3 個數(shù)據(jù)集上使用本文提出的波段搜索準則,其總體精度提高了2%左右,證實了本文提出的使用信息熵與噪聲水平相結合的波段搜索準則優(yōu)于單獨使用噪聲水平的波段搜索準則。將基于皮爾遜相關系數(shù)的子空間劃分方法及波段搜索準則相結合時,PIENL方法在未去除噪聲波段的Indian Pines數(shù)據(jù)集上總體精度提高了6%以上。在Salinas和Washington DC數(shù)據(jù)集上的實驗也可以得到類似結論。
本文針對高光譜圖像波段選擇結果受噪聲影響較大的問題,提出了一種噪聲魯棒的高光譜圖像自適應子空間劃分與波段搜索方法PIENL,該方法在子空間劃分和波段搜索過程中都考慮了噪聲對波段選擇的影響。在子空間劃分階段,使用皮爾遜相關系數(shù)度量含有噪聲的高光譜圖像波段間的相關性;在波段搜索階段,提出了引入噪聲水平作為懲罰項,即挑選出信息量大且噪聲水平低的波段作為代表性波段。在Indian Pines、Washington DC 和Salinas 這3 個高光譜公共數(shù)據(jù)集上的實驗結果表明:
(1)采用歐氏距離劃分子空間時可能出現(xiàn)同一子空間中所有波段都是噪聲波段的情況,導致下一階段所選的最具代表性波段子集中必然存在噪聲波段;而基于皮爾遜相關系數(shù)的子空間劃分方法則有助于避免將噪聲波段單獨分成同一子空間,因此,皮爾遜相關系數(shù)更適合于度量含有噪聲的高光譜圖像波段之間的光譜差異;
(2)綜合考慮信息熵和噪聲水平兩個指標度量波段信息量,有助于選出高光譜圖像中信息量大且噪聲水平低的代表性波段;
(3)PIENL方法選擇的代表性波段具有更好的類別可分性。相比ASPS_MN 等先進的波段選擇方法,PIENL 方法在3 個修正數(shù)據(jù)集上的總體精度分別提高了3%—13%、1.5%—6.0%和1%—6%;在3 個未去除噪聲波段的數(shù)據(jù)集上總體精度分別提高了6%—11%、2%—8% 和3%—7%。這也表明PIENL方法在未去除噪聲波段的數(shù)據(jù)集上表現(xiàn)更加優(yōu)異。
下一步工作主要考慮PIENL 方法在子空間劃分過程中自適應確定子空間的數(shù)量,避免代表性波段數(shù)量選擇不當造成高光譜圖像重要光譜特征缺失或波段信息冗余等問題。