周 敏 ,陸 奎 ,王詩兵
(1.安徽理工大學 計算機科學與工程學院,安徽 淮南 232001;2.阜陽師范大學 計算機與信息工程學院,安徽 阜陽 236037)
高光譜圖像分類在精準農業(yè)、地質勘測等領域具有重要作用。隨著成像光譜儀技術的發(fā)展,高光譜圖像的光譜分辨率越來越高,數據維度也隨之增長,直接使用高光譜數據進行分類容易出現“維數災難”問題[1]。因此,對高光譜數據進行特征提取是高光譜圖像分類的重要步驟。主成分分析(principle component analysis,PCA)方法使降維后數據間的方差達到最大,是對圖像的全局信息進行提取[2-3]。局部保持投影(locality preserving projection,LPP)算法能夠揭示高維數據中的低維流形結構,挖掘高光譜圖像中的局部信息[4]。綜合考慮PCA、LPP算法的全局、局部結構保持特性,在各領域的應用中都取得了不錯的效果[5-7]。
研究表明,聯(lián)合使用高光譜圖像的光譜特征和空間特征進行特征提取能夠獲得較好的分類效果[8-11]。Huang等提出基于空-譜距離度量準則的KNN算法進行高光譜圖像分類[12]。Hou等在線性判別分析(linear discriminant analysis,LDA)算法的目標函數中引入空間信息參數因子,保留了局部判別信息和圖像的空間結構信息,獲得了較高的分類精度[13]。因此,本文提出一種空-譜聯(lián)合的PCA-LPP特征提取算法(spatial-spectral combined pca-lpp feature extraction algorithm,SSPCA-LPP)以提取高光譜圖像的鑒別特征。
PCA和LPP都是經典的特征提取算法[14]。設原始高維數據集X=[x1,x2,...,xn]∈RK,經投影矩陣W∈RK×k映射后所得的低維數據集Y=WTX,Y=[y1,y2,...,yn]∈Rk(k<K),k表示選取的主成分個數。
PCA算法通過線性變換去除數據相關性,以投影后的方差最大為優(yōu)化目標[15],優(yōu)化函數
LPP算法通過構造近鄰圖G來記錄像元的局部信息,并使這種近鄰關系在投影之后仍得以保持[16]。圖G中頂點表示像元,若兩像元之間存在近鄰關系,則用邊將兩頂點進行連接,否則,不連接。對圖G中任意兩點xi,xj之間邊的權重
其中,參數δ等于總體樣本方差。
LPP算法以最小化近鄰像元之間的距離為優(yōu)化目標[17],優(yōu)化函數
式中,D是對角矩陣,對角元素Dii=∑jAij,L=D-A是Laplacian矩陣。
空間一致性原理具有明確的物理解釋,即在真實地物圖像中,同類地物往往具有聚集性,距離越近,屬于同類地物的概率越大[18]。設高光譜圖像X∈RM×N×B,M×N表示空間大小,B表示光譜維度,像元xij的近鄰空間表示為:
Ω(xij)={xpq|p∈[i-a,i+a],q∈[j-a,j+a]},其中,xpq表示近鄰空間中的任一像元,a=(ω-1)/2,ω是空間因子,表示近鄰空間的大小,通常取奇數,近鄰點個數s=ω2-1。
式中,ωpq=表示近鄰空間中任一像元xpq到中心像元xij的權重大小,t是光譜因子,表征不同像元間的影響程度。
重構后的圖像中,像元,之間的空-譜距離=‖-。
對重構后的高光譜圖像數據集使用PCA算法提取全局特征,SSPCA-LPP算法的全局函數
引入光譜信息散度[19]分析近鄰像元的相關性,像元越相似,構造近鄰圖時權值越大。近鄰像元、之間的光譜信息散度
其中
基于空-譜距離度量準則構造局部近鄰圖,將近鄰像元的光譜信息散度作為光譜因子,邊的權重計算公式改進
因此,SSPCA-LPP算法的局部目標函數為
由于約束條件WTXDXTW=I,則上式可轉變?yōu)榍笕∽畲笾祮栴}。
基于最大邊緣準則[20],構建SSPCA-LPP的目標函數
式中,=C+T,β是平滑參數,用于控制局部信息在特征提取過程中的占比。
使用拉格朗日乘子法,將式(8)轉化為求解特征值問題。
上式對W進行求導并置0,進一步化簡可得
選取前k個特征值所對應的特征向量作為主成分分量構成投影矩陣W,得到低維數據。
SSPCA-LPP算法的步驟如下:
輸入:高光譜圖像數據集X,空間因子ω,平滑參數β,特征維度k。
輸出:投影矩陣W,低維數據Y。
Step 1:對原始數據集X進行空譜重構,計算近鄰像元的空-譜距離;
Step 3:根據式(8)構造目標函數并計算特征值和特征向量;
Step 4:選取前k個特征向量構成投影矩陣W,得到低維數據Y。
在Indian Pines公開數據集上,分別使用PCA、LDA、LPP、PCA-LPP、SSPCA-LPP 算法對高光譜圖像數據進行特征提取,然后使用SVM算法進行分類。評價指標采用總體精度(overall accuracy,OA)、平均精度(average accuracy,AA)和 kappa系數。
實驗中,訓練樣本和測試樣本按比例隨機選取,不同算法的影響參數均調整到最佳值,各算法統(tǒng)一提取30維特征,LDA算法提取c-1維(c是地物類別數)[21]。為保證算法的客觀性,以下實驗數據均為10次實驗結果的平均數。
影響SSPCA-LPP算法的主要參數是ω和β。從數據集中隨機選取5%的樣本作為訓練集進行實驗。當檢驗ω對分類精度的影響時,β的值設置為0.3;當檢驗β對分類精度的影響時,ω設置為7。圖1是ω和β對分類精度的影響。
圖1 Indian Pines數據集上ω和β對分類精度的影響
分類精度在ω=7,β=0.3處取得最高。當ω<7時,ω越大意味著近鄰區(qū)域包括的像元越多,從而能夠更好地利用像元的空間信息;當ω>7時,近鄰區(qū)域中包含異類像元,導致分類精度下降。同樣,β越大表明可利用的局部信息越多,突出了局部信息在分類中的貢獻率,但當大于最佳值時,局部信息過于突出,反而忽略了全局信息。
從每類中隨機選取5%、10%、15%和20%的樣本作為訓練集(樣本數不足100的類別統(tǒng)一選取10個樣本作為訓練集),剩余d的為測試集。使用不同算法對高光譜圖像進行特征提取并分類,不同算法的分類結果如表1。
表1 不同算法在Indian Pines數據集上的分類結果(總體精度±標準差(kappa系數))
從表1可以看出,訓練樣本越多,各算法的分類精度越高。訓練樣本的增加,意味著包含的類別信息越豐富,提取的特征能更好地表征不同地物之間的差異性,從而提高分類精度。在相同訓練樣本數下,SSPCA-LPP的OA和kappa系數均是最高,這是因為SSPCA-LPP兼顧全局和局部信息構造投影矩陣,并在提取局部特征時,對原始數據進行空譜重構,減小像元的信息冗余和噪聲干擾,從自信息量的角度引入光譜信息散度,使同類像元之間的權值增大,從而在特征提取的過程中能夠保持原有局部結構。
為研究各算法在不同地物上的分類效果,隨機選取6%的樣本作為訓練集,表2是不同算法在不同地物上的分類精度,除“Corn”和“Grass/Pasture-mowed”兩類地物,SSPCA-LPP算法在各類地物上的分類精度均是最高,在“Alfalfa”、“Oats”等6類地物上的分類精度達到100%。圖2是在6%的樣本數下,不同算法在Indian Pines數據集上的分類效果。易知,SSPCA-LPP算法分類后圖像的“麻點”明顯減少,錯分現象比其他算法明顯降低。
表2 不同算法在Indian Pines數據集上對各類地物的分類結果/%
圖2 不同算法在Indian Pines數據集上的分類效果
針對高光譜圖像分類中易出現“維數災難”問題,提出了一種空譜聯(lián)合的PCA-LPP特征提取算法,利用空間一致性原理對高光譜圖像進行重構,減小噪聲干擾,增強像元的光譜特性,然后對重構后的像元基于空-譜距離度量準則構造局部近鄰圖,并引入光譜信息散度計算近鄰像元的相似性,增大同類像元在近鄰圖中的權值,使近鄰像元在投影之后仍能保持近鄰關系,聯(lián)合PCA、LPP算法構造投影矩陣,在提取全局信息的同時能夠保持局部結構。實驗結果表明,本文算法的分類效果比傳統(tǒng)方法更好。