唐?廠,王?俊
基于近鄰子空間劃分的高光譜影像波段選擇方法
唐?廠,王?俊
(中國地質(zhì)大學(xué)(武漢)計算機學(xué)院,武漢 430074)
在降低高光譜遙感影像數(shù)據(jù)的冗余度方面,波段選擇一直是一種有效的方法.近年來,提出了許多用于高光譜波段選擇的聚類算法,但大多數(shù)算法只有在選擇足夠多的聚類中心時才能夠表現(xiàn)出良好的性能.在選擇少量波段時,往往效果很不理想,不能滿足實際使用的目的.而且,隨著聚類中心數(shù)量的增加,大多數(shù)波段選擇算法的精度存在不同程度的下降趨勢.針對當(dāng)前基于聚類的波段選擇方法存在對聚類中心數(shù)的強敏感性和選擇的特征波段子集高相關(guān)性的問題,提出了一種基于近鄰子空間劃分的波段選擇方法(SEASP).該方法主要包括近鄰子空間劃分和特征波段選取兩個步驟.考慮到高光譜波段之間的有序性,SEASP首先計算出相鄰波段之間的相關(guān)系數(shù),得到相關(guān)系數(shù)向量.若兩個波段之間的相關(guān)性在某個區(qū)間內(nèi)最小,即相關(guān)系數(shù)的變化率在該區(qū)間內(nèi)最大,說明這兩個波段在很大概率上不屬于同一組,為兩個相鄰分組之間的分割點.因此,在相關(guān)系數(shù)向量的基礎(chǔ)上,計算出其對應(yīng)的若干個極小值,通過極小值的選取來確定最終劃分的子空間.最后以信息熵為度量標(biāo)準(zhǔn)從劃分的子空間中選出特征波段子集.在3個公開數(shù)據(jù)集的實驗結(jié)果表明,提出的SEASP算法與其他算法相比,不僅原理簡單,而且在精度和計算效率方面,均表現(xiàn)出了更好的效果.
高光譜波段選擇;相關(guān)系數(shù);近鄰子空間劃分;聚類
相比于傳統(tǒng)的RGB圖像,高光譜影像具有信息量豐富、波段數(shù)目多、分辨率高等特點,因此它被廣泛應(yīng)用于目標(biāo)檢測[1]、環(huán)境監(jiān)測[2]、礦物勘探[3]、農(nóng)業(yè)資源調(diào)查[4]和海洋研究[5]等方面.由于其包含大量的波段信息,且相鄰波段之間的特征相似度較高,這在一定程度上增加了高光譜影像分類的計算復(fù)雜度,并且還會影響分類器最終的分類精度.所以需要對高光譜影像進(jìn)行降維處理,從而解決維度災(zāi)難問題.
特征提取[6]和特征選擇[7]一直是數(shù)據(jù)降維領(lǐng)域的研究熱點,這兩種方法也通常作為高光譜影像降維的有效方式.在高光譜影像中,特征選擇也可以稱為波段選擇.在無監(jiān)督的波段選擇方法中,基于聚類的方法都取得了較好的結(jié)果,然而文獻(xiàn)[8]在聚類的過程中,只在單個波段或者成對波段的基礎(chǔ)上進(jìn)行判斷選取,忽略了所選波段子集內(nèi)部之間的關(guān)系.進(jìn)一步來說,就是只考慮到劃分時波段之間的相關(guān)性,忽略了最后選取的波段之間的關(guān)聯(lián).一般地,應(yīng)將最后選取的波段視為一個整體而非每個單獨存在的個體.在選取的波段子集中,既要保證特征波段之間差異性最大,也要保證信息量最多.文獻(xiàn)[9]主要是采用K-MEANS算法不斷計算所有樣本點與當(dāng)前候選中心的距離來確定最終的聚類中心,然后通過遍歷所有的簇來選取特征波段.然而由于K-MEANS聚類對初始聚類中心的選取非常敏感,通常需要采用不同的初始化方法來最終確定一個較好的解決辦法.另外只有當(dāng)數(shù)據(jù)集樣本數(shù)量較少時,該方法才能夠表現(xiàn)出良好的性能.對于樣本數(shù)量較多的數(shù)據(jù)集,其多次迭代往往需要花費大量的時間,效率較低.為了解決K-MEANS聚類算法對初始條件敏感性的問題,文獻(xiàn)[10]提出了一種基于樣本的AP聚類算法.它考量各個波段之間的相關(guān)性,然后通過最大化目標(biāo)函數(shù)來獲得特征波段子集.盡管它的聚類結(jié)果表現(xiàn)得比較穩(wěn)定,然而對于包含波段數(shù)目較多的數(shù)據(jù)集,其往往具有較高的時間復(fù)雜度.
目前來看,大多數(shù)基于聚類的波段選擇算法都存在對聚類中心數(shù)的強敏感性問題.具體表現(xiàn)在,當(dāng)選取的聚類中心數(shù)較少時,精度較低;當(dāng)選取的聚類中心數(shù)超過一定數(shù)量時,精度反而會隨著聚類中心數(shù)的增加呈現(xiàn)出一種下降的趨勢.這兩種情況顯然不滿足實際需要.基于波段之間是有序排列,并且距離較遠(yuǎn)的波段之間相關(guān)性較低的思想,筆者認(rèn)為按照有序波段進(jìn)行劃分不僅可以降低波段子空間之間的相關(guān)性,同時也能避免最后選取的特征波段之間相關(guān)性較高的問題.因此,提出了基于近鄰子空間劃分的波段選擇算法(SEASP).SEASP采用了聚類和排序相結(jié)合的方式來解決當(dāng)聚類中心數(shù)較少時精度較低的問題.本文主要工作如下:①首先計算相鄰波段之間的相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)的曲率變化情況找到分組臨界點,然后以臨界點數(shù)目作為最終確定的聚類簇個數(shù);②以信息熵作為波段選取的評價指標(biāo),在對每個聚類簇進(jìn)行波段選取時,將信息熵作為權(quán)重對每個波段排序,然后選擇信息熵最大的波段作為特征波段,這樣可以確保最終選取的波段包含相對完整的信息.
基于相鄰波段之間的相關(guān)性比非相鄰波段之間的相關(guān)性高這一特點,筆者認(rèn)為在一定范圍之內(nèi)的連續(xù)波段有著極大的概率被劃分為同一簇.因此與傳統(tǒng)的基于聚類的波段選擇算法不同的是,在SEASP中,只計算相鄰波段之間的相關(guān)性,這在一定程度上減小了計算量,從而更加快速地實現(xiàn)高光譜影像子空間的劃分.
在聚類算法的思想中,衡量劃分的標(biāo)準(zhǔn)通常是使得類內(nèi)相關(guān)度最高,類間相關(guān)度最低.基于此,在SEASP中,主要是根據(jù)相關(guān)系數(shù)的變化率來確定分組之間的相關(guān)性大?。唧w來說,若兩個波段之間的相關(guān)性在某個區(qū)間內(nèi)最小,即相關(guān)系數(shù)的變化率在該區(qū)間內(nèi)最大,說明這兩個波段在很大概率上不屬于同一組,為兩個相鄰分組之間的分割點.考慮到波段之間的有序性和非近鄰空間的弱相關(guān)性,筆者只計算相鄰波段的相關(guān)系數(shù),因此聚類劃分問題便轉(zhuǎn)化為在有序數(shù)據(jù)集中尋找分組之間的間斷點問題.根據(jù)相關(guān)系數(shù)尋找極值點的計算公式為
通過極小值點的選取來確定有序波段之間的間斷點,從而得到劃分的波段子空間.具體流程示例如圖1所示.
圖1?近鄰子空間劃分示例
信息熵用來衡量圖像中包含的平均信息量的大小,一個圖像的信息熵越大,那么該圖像所包含的信息也就越豐富.基于此觀點,筆者將信息熵作為衡量波段重要性程度的一個度量指標(biāo).在一個波段子空間中,將其包含的所有波段按照信息熵的大小進(jìn)行排序,然后從中選取信息熵最大的波段作為特征波段.信息熵的計算公式為
圖2?Indian Pines信息熵
關(guān)于SEASP算法的更多細(xì)節(jié),筆者在SEASP算法流程和圖3中進(jìn)行了總結(jié).
算法1:SEASP.
輸出:特征波段子集.
步驟4 根據(jù)式(7)計算每個波段的信息熵.
圖3?SEASP算法示例
在本節(jié)中,筆者進(jìn)行了大量的實驗來驗證所提出的SEASP算法在高光譜波段選擇上的有效性.首先,介紹常用的3種高光譜影像數(shù)據(jù)集,然后簡要概括所比較算法的原理和流程.接著便是對此次實驗的設(shè)置條件進(jìn)行了描述,其中包括分類器及其參數(shù)的選取、波段數(shù)目范圍的選取以及精度度量標(biāo)準(zhǔn)的選取.最后對這幾種方法在實驗數(shù)據(jù)集和分類器上表現(xiàn)出的性能進(jìn)行詳細(xì)的分析,從而驗證SEASP方法的有效性和可行性.SEASP的實現(xiàn)代碼已上傳至https://github.com/WangJun2023/SEASP.
為了驗證所提出算法的有效性,筆者選取了幾種比較先進(jìn)的算法作為競爭對手.下面將對這幾種算法做一個簡要的介紹.
ASPS_MN、ASPS_IE[11]:該算法首先將高光譜影像立方體根據(jù)設(shè)置的選擇波段數(shù)目進(jìn)行等寬劃分,然后采用最大化類間距離和類內(nèi)距離之比進(jìn)一步確定分組之間的分割點,最后分別從每個分組中按照最小噪音值和最大信息熵的量度標(biāo)準(zhǔn)選取目標(biāo)波段子集.針對ASPS_MN算法,在實驗中筆者采用原論文的參數(shù)設(shè)置,隨機選取塊的比例為10%,并設(shè)置每塊的大小為10×10像素.
TOF[12]:該算法主要是采用動態(tài)規(guī)劃的思想將高光譜影像立方體劃分為若干個子立方體,然后利用E-FDPC[13]方法計算出來的分?jǐn)?shù)從該若干個子立方體中選擇特征波段子集.
UBS[14]:該算法根據(jù)設(shè)置的選擇波段數(shù)目將高光譜影像立方體分割為等寬的子立方體,然后將分割點作為最后選擇的特征波段.
FNGBS[15]:該算法主要是采用基于鄰域波段分組思想對高光譜影像立方體劃分,然后從中選取局部密度與信息熵乘積最大的波段作為特征波段.
波段數(shù)目范圍選取:對于3個公共的高光譜影像數(shù)據(jù)集,由于目前其最佳選擇的波段數(shù)目未知,所以在本次實驗中,選取波段數(shù)目的范圍為5~50.為了充分展示波段數(shù)目設(shè)置的隨機性,實驗選取的波段數(shù)目一共有12個,分別為5、7、10、15、26、30、36、39、42、44、47、49.
精度標(biāo)準(zhǔn)選?。罕敬螌嶒灢捎昧?種度量標(biāo)準(zhǔn)來對分類的結(jié)果進(jìn)行分析,分別為總體精度(OA),平均總體精度(AOA)以及Kappa系數(shù)(Kappa).
為了驗證所提出的算法的有效性,筆者將分別對這幾種算法在3個數(shù)據(jù)集上表現(xiàn)出的性能進(jìn)行一個詳細(xì)分析,最后再從運行時間的角度上驗證其可行性.此外在算法的性能比較方面,還考慮了所有波段作為特征波段.在本次實驗中,所有比較方法均在Matlab 2016a上運行,CPU為i7-5500U,2.40GHz,內(nèi)存8Gb.
表1展示了競爭算法在3個公共數(shù)據(jù)集上所表現(xiàn)出的AOA和Kappa.其中,在進(jìn)行測試比較時,3個數(shù)據(jù)集選取的波段數(shù)目分別為36、5和5,AOA為10次運行結(jié)果的范圍.下面則是對這幾種算法在3個數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行一個詳細(xì)的分析.
表1?AOA和Kappa結(jié)果展示
Tab.1?Results of AOA and Kappa %
Botswana數(shù)據(jù)集:從圖4可以看出,筆者所提出的算法在一些特定的波段數(shù)目上所表現(xiàn)出來的性能優(yōu)于其他算法.特別是當(dāng)選擇的波段數(shù)目大于25時,SEASP與其他算法相比具有明顯的優(yōu)勢,并且始終保持一個穩(wěn)定性,而其他算法則處于上下波動狀態(tài).此外,從所有分類器的結(jié)果可以看出,當(dāng)選擇的波段數(shù)目較少時,ASPS_MN的結(jié)果不如其他算法,這也反映出其對選擇波段數(shù)目的強敏感性.
只有當(dāng)選擇的波段數(shù)目達(dá)到一定數(shù)量時,其才能夠表現(xiàn)出一個更好的性能.從整體來看,隨著選擇波段數(shù)目的不斷增加,SEASP所表現(xiàn)出的結(jié)果變化幅度并沒有其他算法那么大,這也側(cè)面驗證了其對選擇波段數(shù)目的敏感性是較小的,同時說明了其在少量選擇的波段數(shù)目上也能夠表現(xiàn)出不錯的性能.
圖4?Botswana數(shù)據(jù)集精度
Salinas數(shù)據(jù)集:從表1和圖5可以看出所提出的算法與其他算法相比也能夠表現(xiàn)出不錯的結(jié)果,其中在某些點上,是完全優(yōu)于其他所有算法.從3個分類器的表現(xiàn)結(jié)果看,雖然提出的算法優(yōu)勢不是很明顯,但是隨著選擇波段數(shù)目的增加,SEASP基本上是處于穩(wěn)定上升的狀態(tài),沒有出現(xiàn)明顯的反彈現(xiàn)象.而其他算法則不太穩(wěn)定,當(dāng)選擇的波段數(shù)目變多時,相反結(jié)果還會出現(xiàn)下降的趨勢.在圖5(c)中,當(dāng)選擇波段數(shù)目小于35時,SEASP明顯優(yōu)于其他所有算法.值得注意的是,在圖5(a)和圖5(b)中,當(dāng)選擇波段數(shù)目從5增加到49時,所提出的算法結(jié)果變化幅度僅為2%和3%左右,而其他算法的變動均超過了3%,有的算法甚至超過了5%.這再次驗證了SEASP對選擇波段數(shù)目的弱敏感性,即對于選擇波段數(shù)目較少的情況,也能夠表現(xiàn)出優(yōu)越的性能.
圖5?Salinas數(shù)據(jù)集精度
Indian Pines數(shù)據(jù)集:從表1和圖6中可以看出,所提出的算法與其他算法相比也具有可比性.特別是當(dāng)選取的波段數(shù)目為5時,在KNN分類器的表現(xiàn)上,SEASP與FNGBS算法具有一定的可比性,但明顯地高于其他所有算法.從算法的魯棒性來看,在3個分類器上,SEASP均表現(xiàn)出了穩(wěn)定上升的趨勢,而其他算法都存在下降的現(xiàn)象,并且有的算法波動幅度較大,比如圖6(a)中的UBS和TOF.這反映了隨著選取波段數(shù)目的增加,這些算法都不可避免地選取了一些冗余波段,這就導(dǎo)致了分類精度的下降.而筆者所提出的算法則不會出現(xiàn)這個明顯的現(xiàn)象,也說明了在選取波段時,SEASP充分考慮到最后選擇的目標(biāo)波段之間強相關(guān)性的問題,從而改正了大多數(shù)基于聚類的波段選擇算法的不足.
為了進(jìn)一步驗證所提出方法的可行性,筆者在3個數(shù)據(jù)集的波段選擇上還計算了所有競爭算法的時間.其中,在3個數(shù)據(jù)集的波段選取數(shù)目上面,筆者分別設(shè)置為10、15、20,呈現(xiàn)出一種遞增的趨勢.表2給出了不同算法在不同數(shù)據(jù)集上選擇同樣數(shù)目波段所耗費的時間.從表2結(jié)果中可以看出,UBS算法的計算成本與其他算法相比少得多,這主要是因為其僅僅是一個簡單的劃分操作.它將整個數(shù)據(jù)集劃分為等寬的子立方體,然后選取劃分點作為特征波段.除UBS算法外,與其他算法相比,筆者提出的算法所花費的計算時間處于一個適中的范圍.除在Botswana數(shù)據(jù)集上表現(xiàn)的計算時間不是很理想之外,其他數(shù)據(jù)集上的計算時間均表現(xiàn)良好.其中,Botswana數(shù)據(jù)集所花費時間較長的原因是其包含的波段之間相關(guān)性變化趨勢過于頻繁,這導(dǎo)致了SEASP在確定波段子空間之間的分割點時所需要的計算成本較大,間接性地提高了運行時間.但是通過這個計算過程,其顯著地提高了在這個數(shù)據(jù)集上的分類精度,具體結(jié)果如表1和圖4所示.同時與其他算法所耗費的時間來?看,差距不是很大,故筆者認(rèn)為這個耗費成本是可以接受的.
綜上可知,所提出的算法不僅原理簡單,而且在3個公共數(shù)據(jù)集的分類性能上與其他算法具有一定的可比性,甚至優(yōu)于其他算法,另外其執(zhí)行速度也是較快的,從而驗證了該算法的有效性和可行性.
表2?不同波段選擇算法的計算時間對比
Tab.2 Contrast in the computational time of the different methods on three hyperspectral datasets s
考慮到目前大多數(shù)基于聚類的波段選擇算法存在對聚類中心數(shù)的強敏感性和選擇的特征波段子集高相關(guān)性問題,筆者提出了SEASP.基于高光譜波段之間的有序性和非相鄰波段之間的弱相關(guān)性,SEASP首先計算相鄰波段之間的相關(guān)性,根據(jù)相關(guān)系數(shù)的曲率變化情況找到顯著性的分組臨界點,然后以臨界點數(shù)目作為最終確定的聚類簇個數(shù).最后在對每個聚類簇進(jìn)行波段選取時,將信息熵作為權(quán)重,這樣可以確保最終選取的波段包含相對完整的信息.在3個公開的數(shù)據(jù)集上的實驗證明,所提出的算法不僅原理簡單,而且與其他算法相比具有更好的魯棒性和有效性.在未來的研究工作中,筆者將進(jìn)一步研究如何更加快速準(zhǔn)確地確定聚類簇之間的分界點,而不僅僅是依據(jù)波段之間的相關(guān)系數(shù).
[1] Liang Jie,Zhou Jun,Tong Lei,et al. Material based salient object detection from hyperspectral images[J]. Pattern Recognition,2018,76:476-490.
[2] Gao B,Lu A,Pan Y,et al. Additional sampling layout otimization method for environmental quality grade classi-fications of farmland soil[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2017,10(12):5350-5358.
[3] Zadeh M H,Tangestani M H,Roldan F V,et al. Mineral exploration and alteration zone mapping using mixture tuned matched filtering approach on ASTER data at the central part of Dehaj-Sarduiyeh copper belt,SE Iran[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2014,7(1):284-289.
[4] Lu B,Dao P D,Liu J,et al. Recent advances of hyperspectral imaging technology and applications in agriculture[J]. Remote Sensing,2020,12(16):2659-1-2659-40.
[5] Kobryn H T,Wouters K,Beckley L E,et al. Ningaloo reef:Shallow marine habitats mapped using a hyperspec-tral sensor[J]. PloS One,2013,8(7):e70105-1-e70105-22.
[6] Jiang J,Ma J,Chen C,et al. SuperPCA:A superpix-elwise PCA approach for unsupervised feature extraction of hyperspectral imagery[J]. IEEE Transactions on Geo-science and Remote Sensing,2018,56(8):4581-4593.
[7] 顧翔元,郭繼昌,田煜衡,等. 基于條件互信息的空域隱寫檢測特征選擇算法[J]. 天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版),2017,50(9):961-966.
Gu Xiangyuan,Guo Jichang,Tian Yuheng,et al. Spa-tial steganographic detection feature selection algorithm based on conditional mutual information[J]. Journal of Tianjin University(Science and Technology),2017,50(9):961-966(in Chinese).
[8] Ahmad M,Haq D I U,Mushtaq Q,et al. A new statisti cal approach for band clustering and band selection using K-means clustering[J]. Int J Eng Technol,2011,3(6):606-614.
[9] Xie F,Li F,Lei C,et al. Representative band selection for hyperspectral image classification[J]. ISPRS International Journal of Geo-Information,2018,7(9):338.
[10] Qian Y,Yao F,Jia S. Band selection for hyperspectral imagery using affinity propagation[J]. IET Computer Vi-sion,2009,3(4):213-222.
[11] Wang Q,Li Q,Li X. Hyperspectral band selection via adaptive subspace partition strategy[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Re-mote Sensing,2019,12(12):4940-4950.
[12] Wang Q,Zhang F,Li X. Optimal clustering framework for hyperspectral band selection[J]. IEEE Transactions on Geoscience and Remote Sensing,2018,56(10):5910-5922.
[13] Jia S,Tang G,Zhu J,et al. A novel ranking-based clus tering approach for hyperspectral band selection[J]. IEEE Transactions on Geoscience and Remote Sensing,2016,54(1):88-102.
[14] Chang C I,Wang S. Constrained band selection for hy perspectral imagery[J]. IEEE Transactions on Geoscience and Remote Sensing,2006,44(6):1575-1585.
[15] Wang Q,Li Q,Li X. A fast neighborhood grouping method for hyperspectral band selection[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,59(6):5028-5039.
A Hyperspectral Band Selection Method via Adjacent Subspace Partition
Tang Chang,Wang Jun
(School of Computer Science,China University of Geosciences,Wuhan 430074,China)
Band selection is regarded as an effective method for reducing the redundancy of hyperspectral remote sensing images. In recent years,many clustering algorithms have been proposed for the selection of hyperspectral bands,but most of them perform well only when enough clustering centers are selected. When selecting a small number of bands,the results of these algorithms are often not ideal and are unsuitable for practical usage. Furthermore,the accuracy of most band selection methods tends to decrease when the number of selected bands increases. To address the high correlation of selected feature band subsets and the sensitivity to the number of cluster centers in the current clustering-based band selection methods,this study proposes a simple yet effective hyperspectral band selection method via adjacent subspace partition(SEASP). The proposed algorithm comprises two parts:the partition of subspace and selection of feature bands. By considering the order between adjacent hyperspectral bands,the SEASP calculates the correlation of the adjacent bands to first obtain the correlation coefficient matrix. If the degree of the correlation between two bands is the smallest within an interval,i.e.,the rate of change of the correlation coefficient is the largest within that interval,these two bands should not belong to the same group in a large probability,indicating a segmentation point of two adjacent groups. Thus,the corresponding minimum values via the correlation coefficient matrix are obtained,and the final subspace is then determined through the selection of the minimum values. Finally,the subset of feature bands is selected from the subspace based on the information entropy. Extensive experiments on three public datasets show that the proposed SEASP not only has a simple form in principle but also shows better results in terms of accuracy and computational efficiency than other state-of-the-art algorithms.
hyperspectral band selection;correlation coefficient;adjacent subspace partition;clustering
TP751
A
0493-2137(2022)03-0255-08
10.11784/tdxbz202012004
2020-12-02;
2021-01-04.
唐?廠(1987—??),男,博士,教授,tangchang@cug.edu.cn.
王?俊,wang_jun@cug.edu.cn.
國家自然科學(xué)基金資助項目(61701451,62076228);南京理工大學(xué)社會安全信息感知與系統(tǒng)工業(yè)和信息化部重點實驗室創(chuàng)新基金資助項目(202007).
Supported by the National Natural Science Foundation of China(No. 61701451,No. 62076228),the Key Laboratory of Information Perception and Systems for Public Security of MIIT(Nanjing University of Science and Technology)(No. 202007).
(責(zé)任編輯:王曉燕)