趙玉英 任明武
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
波段選擇是指根據(jù)一定的準(zhǔn)則或者搜索策略,從高光譜圖像的眾多波段中選擇最具代表性的波段,不加處理地組成波段子集,在保留原始特性的前提下對(duì)數(shù)據(jù)進(jìn)行了降維處理[1~2],因此波段選擇也常被用于高光譜圖像分類領(lǐng)域的數(shù)據(jù)預(yù)處理階段。
本文提出的一種基于稀疏非負(fù)矩陣分解(Sparse Non-negative Matrix Factorization,SNMF)聚類[3~4]與類間可分性因子的高光譜圖像波段選擇方法,該方法先采用SNMF聚類算法對(duì)波段進(jìn)行聚類,然后計(jì)算出每個(gè)波段的類間可分性因子,并以此為參考進(jìn)一步從各類簇中選取波段,所有被選中的波段構(gòu)成最終的波段子集。最后利用真實(shí)場景中采集的高光譜地表結(jié)構(gòu)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,采用波段子集的平均信息熵、平均相關(guān)系數(shù)和平均相對(duì)熵三項(xiàng)指標(biāo)進(jìn)行評(píng)價(jià)[5],并使用SVM分類器進(jìn)行分類驗(yàn)證。
非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)[6-7]的理念自誕生以來就被廣泛應(yīng)用于圖像分析等多個(gè)領(lǐng)域,其分解的目標(biāo)概括起來就是通過不斷的迭代優(yōu)化步驟來求解出基矩陣W和系數(shù)矩陣H。對(duì)于非負(fù)矩陣的分解,可以近似表示為
式中,待分解矩陣V∈Rm×n,基矩陣W∈Rm×r,系數(shù)矩陣H是由系數(shù)向量ht組成的非負(fù)矩陣,H∈Rr×n,r的選取根據(jù)實(shí)際情況設(shè)置,一般要求r<<min{m,n},圖1形象地表示了這個(gè)問題。
圖1 非負(fù)矩陣分解表示
稀疏非負(fù)矩陣分解(Sparse Non-negative Matrix Factorization,SNMF)是對(duì)基本NMF增加了稀疏度的約束,將其應(yīng)用于波段聚類時(shí),首先要將高光譜波段矩陣分解為基矩陣W和系數(shù)矩陣H,而該波段的聚類則由稀疏系數(shù)矩陣中的對(duì)應(yīng)系數(shù)權(quán)重確定,因此需對(duì)系數(shù)矩陣H做稀疏約束。此外,基于高光譜圖像的非高斯分布特性,本文選用基于K-L散度的目標(biāo)函數(shù)[8]。
基于K-L散度與系數(shù)矩陣的L1范數(shù)稀疏約束[9]可得SNMF的目標(biāo)函數(shù)如下:
更新迭代規(guī)則[10~11]如下:
基于K-L散度與系數(shù)矩陣的范數(shù)稀疏約束的SNMF迭代算法具體步驟如下。
Step 1輸入待分解矩陣V∈Rm×n,參數(shù)r,采用NNDSVD的 方 法[12]初 始 化W∈Rm×r和H∈Rr×n,設(shè)置迭代次數(shù)K;
Step 2對(duì)k=1:r,根據(jù)式(3)和式(4)進(jìn)行迭代更新;
Step 3輸出迭代結(jié)束后的矩陣分解結(jié)果W和H。
類間可分性因子[13-14]的計(jì)算公式如下:
式中Dk表示第k個(gè)波段的類間可分性因子,其值與對(duì)應(yīng)波段的類間可分性強(qiáng)度正相關(guān),Dmin和Dmax分別表示在第k個(gè)波段上任意兩類地物目標(biāo)光譜絕對(duì)值的最大值和最小值。Xik和Xjk分別為第k個(gè)波段上第i類目標(biāo)和第j類目標(biāo)的光譜反射率值,且i,j∈N,i≠j,N為目標(biāo)總類別。
本文所提波段選擇算法流程如圖2所示。
圖2 基于SNMF聚類與類間可分性因子的波段選擇算法流程
算法首先進(jìn)行數(shù)據(jù)預(yù)處理,然后使用SNMF算法,根據(jù)式(3)和(4)計(jì)算得到基矩陣W和稀疏稀疏矩陣H,并進(jìn)行波段數(shù)為k的聚類計(jì)算,最后從各類簇中選出類間可分性因子最大的波段。
2019年8月~9月期間采用車載CGT-SI2B高光譜成像探測系統(tǒng)采集路表高光譜數(shù)據(jù),選取工作波長408nm~1050nm之間共130個(gè)波段作為研究,每幅圖像大小為1920*1000。采集的數(shù)據(jù)集圖像中主要包含四種地表類型:柏油路、土路、水泥路、植被。由于是車載高光譜成像系統(tǒng),很少有一幅圖像中會(huì)存在多種地表結(jié)構(gòu),因此本文進(jìn)行波段選擇時(shí)所使用的高光譜圖像是由四類不同地表結(jié)構(gòu)的圖像拼接而成,并對(duì)圖像的光譜值差異進(jìn)行了校正,然后縮放為960*500,形成一幅涵蓋四類地表結(jié)構(gòu)的高光譜圖像(如圖3所示),以便適用于當(dāng)前的波段選擇方法。
圖3 高光譜圖像三維立方體
實(shí)驗(yàn)時(shí)首先在如圖3所示的高光譜圖像上選取柏油路、土路、水泥路、植被共四類地物樣本,再根據(jù)圖4計(jì)算各波段的類間可分性因子。實(shí)驗(yàn)中,波段數(shù)的選擇區(qū)間為5~30,步長為5。為了驗(yàn)證本文方法的有效性,參照文獻(xiàn)[15~16],實(shí)驗(yàn)采用平均信息熵(Average Information Entropy,AIE)、平均相對(duì)熵(Average Relativate Entropy,ARE)和平均相關(guān)系數(shù)(Average Correlation Coefficient,ACC)來定量評(píng)價(jià),評(píng)價(jià)結(jié)果如表1所示。
圖4 地物樣本的均值波譜
表1 波段選擇定量評(píng)價(jià)
從表1的定量評(píng)價(jià)結(jié)果可以看出,聚類區(qū)間5~30范圍內(nèi)(步長為5),當(dāng)選擇的波段數(shù)為25時(shí),對(duì)應(yīng)的波段號(hào)為2、5~9、15、18、19、21、25、56、66、71、74、76、84、85、94、97、98、105、108、117、118,此時(shí)ACC最小,ARE最高,說明選出的波段相關(guān)性最小,類別可分性最高。當(dāng)波段數(shù)為30時(shí),波段間的相關(guān)性增加,類間可分性減小??傮w表現(xiàn)來看,波段數(shù)為25時(shí),效果較優(yōu)。下面通過在不同波段數(shù)量下的SVM分類結(jié)果對(duì)比,進(jìn)一步驗(yàn)證所選波段的有效性。
使用本文方法對(duì)不同聚類數(shù)目下選擇波段組成的圖像進(jìn)行實(shí)驗(yàn),從四種地物中分別抽取30%的樣本進(jìn)行訓(xùn)練,其余都用于測試。分類器采用RBF核的SVM,記錄不同波段數(shù)量下分類結(jié)果的OA、AA、Kappa系數(shù),實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 不同波段數(shù)量下的SVM分類精度
從圖5可以看出,使用本文方法選出的波段具有良好的類別可分性,并且分類結(jié)果隨不同波段數(shù)量的變化趨勢(shì)相對(duì)穩(wěn)定。其中波段數(shù)量為25時(shí)分類精度最高,OA達(dá)到95.22%,AA達(dá)到95.88%,Kappa系數(shù)達(dá)到93.48%。圖6是不同波段數(shù)量下的SVM分類效果圖,主要有少量水泥路和土路出現(xiàn)了錯(cuò)分現(xiàn)象。土路被錯(cuò)分成水泥路的像素點(diǎn)可能是因?yàn)橐巴猸h(huán)境下經(jīng)過車子碾壓過的土路存在較多的混合像元,而水泥路被錯(cuò)分成土路的像素點(diǎn)主要集中在草叢和水泥路的邊緣交界處,可能是因?yàn)檫吔缣幍牡孛嬗幸恍┝闵⒌母煽萑~子作為干擾,而實(shí)驗(yàn)中選取的植被都是綠色植被??傮w來看,波段數(shù)為25時(shí)四種地表結(jié)構(gòu)的分類效果都比較好。
圖6 SVM分類效果圖
本文提出一種基于SNMF和類間可分性因子的高光譜波段選擇方法,并將其應(yīng)用于高光譜圖像分類過程中波段選擇的相關(guān)研究。該方法首先利用稀疏約束的非負(fù)矩陣分解進(jìn)行聚類,然后根據(jù)類簇內(nèi)每個(gè)波段類間可分性因子的大小來選取最終的波段。利用采集的高光譜地表分類數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,采用平均信息熵(AIE)、平均相關(guān)系數(shù)(ACC)、平均相對(duì)熵(ARE)進(jìn)行定量分析比較,又進(jìn)一步選用SVM分類器驗(yàn)證了所選波段的有效性和實(shí)用性。今后的工作中將研究深度學(xué)習(xí)領(lǐng)域的分類模型,結(jié)合高光譜圖像的光譜信息和空間信息設(shè)計(jì)合適的網(wǎng)絡(luò)模型用于高光譜圖像分類。