晁拴社,楚恒
(1.重慶郵電大學(xué),重慶 400065; 2.重慶市勘測院,重慶 400020)
基于稀疏MK-LSSVM的高光譜圖像不平衡分類
晁拴社1,2?,楚恒1,2
(1.重慶郵電大學(xué),重慶 400065; 2.重慶市勘測院,重慶 400020)
針對高光譜圖像分類中沒有考慮高光譜數(shù)據(jù)地物種類復(fù)雜、數(shù)據(jù)規(guī)模較大以及樣本分布不規(guī)則而導(dǎo)致的少數(shù)類分類精度較低,分類器魯棒性差的問題,提出一種基于稀疏多核最小二乘支持向量機(jī)(Multiple Kernel Least Squares Support Vector Machine,MK-LSSVM)的高光譜圖像不平衡分類方法。該方法先用k均值聚類將多數(shù)類的訓(xùn)練樣本分為k類,然后利用采樣技術(shù)對每一群組中的樣本進(jìn)行處理與少數(shù)類樣本均衡,最后建立最MK-LSSVM分類器。該方法對于MK-LSSVM不稀疏的問題,引入了壓縮感知理論對其進(jìn)行稀疏求解。實(shí)驗(yàn)表明本文提出的分類方法提高了少數(shù)地物的分類精度,同時(shí)減少了標(biāo)準(zhǔn)支持向量機(jī)訓(xùn)練樣本時(shí)間消耗大的問題。
高光譜圖像;不平衡分類;稀疏MK-LSSVM;壓縮感知
高光譜圖像(Hyperspectral Image,HSI)數(shù)據(jù)有著豐富的光譜信息,可以對地物進(jìn)行精細(xì)的光譜分類,所以近年來被應(yīng)用在軍事勘察、礦業(yè)勘測、醫(yī)學(xué)檢測等多個(gè)領(lǐng)域[1]。由于傳統(tǒng)的高光譜圖像分類方法沒有考慮不平衡分類問題,即沒有考慮少數(shù)類(像素點(diǎn)少的地物類別)與多數(shù)類(像素點(diǎn)多的地物類別)在分類上的不同,從而導(dǎo)致少數(shù)類分類精度不高的問題[2]。目前針對不同地物類別中像素點(diǎn)數(shù)差距較大即數(shù)據(jù)不平衡的分類問題主要有兩種方法:一種是利用合適的采樣技術(shù)對訓(xùn)練樣本進(jìn)行預(yù)處理。采樣技術(shù)分為欠采樣和過采樣技術(shù),欠采樣技術(shù)主要是隨機(jī)欠采樣方法,過采樣技術(shù)主要運(yùn)用的是少數(shù)類樣本合成過采樣技術(shù)(Synthetic Minority Over Sampling Teachnique,SMOTE);另一種就是設(shè)計(jì)新的分類方法來解決數(shù)據(jù)的不平衡分類問題。支持向量機(jī)(Support Vector Machine,SVM)是目前解決Hughes現(xiàn)象最有效的分類方法[3],而且在解決高維、小樣本分類問題上有很好的分類性能。LSSVM[4]是1999年Suykens提出的一種新的支持向量機(jī),將最小二乘線性系統(tǒng)引入到支持向量機(jī)中代替?zhèn)鹘y(tǒng)的支持向量機(jī)直接采用二次規(guī)劃方法解決分類與函數(shù)估計(jì)問題[5],簡化了標(biāo)準(zhǔn)支持向量機(jī)的計(jì)算復(fù)雜性,適合于處理較大規(guī)模的學(xué)習(xí)問題。但也丟失了標(biāo)準(zhǔn)SVM的稀疏性,使得LSSVM分類平面上的支持向量個(gè)數(shù)增多,計(jì)算復(fù)雜度變大。2010年,Jie Yang,Abdesselam Bouzerdoum等[6]提出將壓縮感知理論來解決最小二乘支持向量機(jī)的欠稀疏性問題。
本文結(jié)合采樣技術(shù)和MK-LSSVM來解決高光譜圖像的不平衡分類問題。先用k均值聚類將多數(shù)類的訓(xùn)練樣本分為k個(gè)群組,對聚類后的k個(gè)群組與少數(shù)類樣本數(shù)作比較,對聚類后樣本數(shù)多的群組采用隨機(jī)欠采樣技術(shù),對聚類后樣本數(shù)少的群組采用SMOTE過采樣,然后訓(xùn)練分類器進(jìn)行高光譜圖像的分類。針對高光譜數(shù)據(jù)分類中的不平衡問題,提出基于稀疏MLLSSVM分類模型,不僅節(jié)省了訓(xùn)練樣本時(shí)間、提高了少數(shù)類地物分類精度,而且也使得部分多數(shù)類地物的分類精度有所提高。
SVM集成了結(jié)構(gòu)風(fēng)險(xiǎn)最小化、凸二次規(guī)劃和核函數(shù)映射等幾項(xiàng)技術(shù),有效解決了在經(jīng)典機(jī)器學(xué)習(xí)中出現(xiàn)的“維數(shù)災(zāi)難”,但同時(shí)SVM計(jì)算復(fù)雜度高的缺點(diǎn)。LS-SVM采用最小二乘線性系統(tǒng)作為損失函數(shù),簡化了標(biāo)準(zhǔn)支持向量機(jī)的計(jì)算復(fù)雜性,適合于處理較大規(guī)模的學(xué)習(xí)問題.最小二乘支持向量機(jī)高光譜分類模型可表示為:
(1)
? 收稿日期:2015—12—04
作者簡介:晁拴社(1989—),男,碩士研究生,主要研究方向:高光譜圖像的分類、機(jī)器學(xué)習(xí)。
基金項(xiàng)目:重慶市博士后科研項(xiàng)目(Rc201336)
其中K(xi,xj)=φ(xi)φ(xj),α?i,b?為(3)式中α 和b的最優(yōu)解。
本文考慮到高光譜圖像數(shù)據(jù)中多數(shù)類與少數(shù)類的訓(xùn)練樣本數(shù)差距過大,在進(jìn)行訓(xùn)練之前先對訓(xùn)練樣本進(jìn)行預(yù)處理。利用SMOTE技術(shù)對少數(shù)類樣本進(jìn)行過采樣,然后對預(yù)處理后的樣本訓(xùn)練ML-LSSVM分類器,再利用奇異值分解設(shè)計(jì)一種新的觀測矩陣并對原稀疏的ML-LSSVM分類模型進(jìn)行改進(jìn),最后利用改進(jìn)的稀疏的ML-LSSVM分類模型對測試樣本進(jìn)行分類。
3.1 預(yù)處理訓(xùn)練樣本
傳統(tǒng)的高光譜分類方法沒有考慮少數(shù)類與多數(shù)類在分類上的不同,以LS-SVM為例,為了減少訓(xùn)練誤差和增強(qiáng)LS-SVM的泛化能力一般就需要合理的設(shè)置式(1)中的C值(懲罰系數(shù))使得在訓(xùn)練誤差合理的范圍內(nèi)獲取最大的分類間隔(即泛化能力)。但是因?yàn)楦吖庾V數(shù)據(jù)存在不平衡分類問題,使得C值的設(shè)置失去意思,所以本文首先將訓(xùn)練樣本中的多數(shù)類k均值聚類分為m個(gè)群,第二部分是對聚類后的k個(gè)群組與少數(shù)類樣本數(shù)作比較,對聚類后樣本數(shù)多的群組采用隨機(jī)欠采樣技術(shù),對聚類后樣本數(shù)少的群組采用SMOTE技術(shù)。SMOTE方法主要思想是在距離較近的少數(shù)類樣本之間進(jìn)行插值,產(chǎn)生新的少數(shù)類樣本,增加少數(shù)類樣本的數(shù)目[7],從而提高少數(shù)類樣本的分類精度,這里的少數(shù)類特指多數(shù)類聚類后樣本少的群組。設(shè)xi為少數(shù)類的樣本,選擇其近鄰的k個(gè)樣本,按照式(4)合成新的少數(shù)類樣本點(diǎn)yi。
random(0,1)表示區(qū)間(0,1)之間的任意數(shù),將新合成的樣本添加到原有的少數(shù)樣本中以均衡訓(xùn)練樣本集,然后建立稀疏MK-LSSVM分類模型。
3.2 稀疏MK-LSSVM分類器
為了避免SVM模型中的凸優(yōu)化問題,本文采用了LSSVM分類方法,但同時(shí)也失去了SVM稀疏性特點(diǎn),使得計(jì)算復(fù)雜度增加。所以本文提出稀疏MK-LSSVM分類模型進(jìn)行高光譜圖像分類。由上文可知最小支持向量機(jī)模型的分類函數(shù)中只需要求出α和b便可,已知對w,b求偏微分并令它們等于0,得到約束條件:
帶入式(2)也可求出ξi值,所以可以將式(2)寫為線性矩陣的形式:
結(jié)合上文可知,稀疏LS-SVM分類模型問題轉(zhuǎn)化為利用壓縮感知來重構(gòu)信號的問題。信號的重構(gòu)是壓縮感知理論的核心,E.cande等證明了信號重構(gòu)問題可以通過求解最小l0范數(shù)問題加以解決[9,10]。在信號X稀疏或者可壓縮的前提下,求解欠定方程組y=ΦX的問題轉(zhuǎn)換為最小0范數(shù)問題[8]。如式(11)所示:
如果直接用貪婪算法對式(11)求解時(shí),因?yàn)镹太大,計(jì)算過于復(fù)雜,這時(shí)可由壓縮感知的第二部分觀測矩陣的設(shè)計(jì)來減少計(jì)算量,通過保證采樣得到M個(gè)觀測值,并保證從中能重構(gòu)出長度為N的信號??梢越o左右兩邊同時(shí)乘以采樣矩陣(觀測矩陣)Φ。觀測矩陣Φ∈RM×N(M<<N)是用來對N維的原信號進(jìn)行觀測得到M維的觀測向量y,然后可以利用最優(yōu)化方法從觀測值y中高概率重構(gòu)X。對比式(4)可將其化為:
分類中效果較好的徑向基核。LSSVM的分類性能受核函數(shù)的選擇、參數(shù)的設(shè)置的影響,對樣本分布不均衡的高光譜圖像分類問題表現(xiàn)一般,特別是對少數(shù)類地物的分類效果很差,而且分類模型的魯棒性較差導(dǎo)致有時(shí)部分多數(shù)類分類精度也會很低,所以本文利用MK-LSSVM來代替單核LSSVM以解決高光譜圖像的地物種類復(fù)雜、數(shù)據(jù)規(guī)模較大以及樣本分布不規(guī)則的而導(dǎo)致的少數(shù)類分類精度較差。利用MK-LSSVM來代替單核LSSVM以解決高光譜圖像的地物種類復(fù)雜、數(shù)據(jù)規(guī)模較大以及樣本分布不規(guī)則的而導(dǎo)致的少數(shù)類分類精度較差,分類器魯棒性差的問題。與第1部分式(1)的化簡過程相同引入拉格朗日乘子,對其求偏微分計(jì)算出新的約束條件,最終化簡為對偶的形式:
利用LSSVM分類模型中求出α值并固定,則J (d)對dm的微分為:
利用梯度下降算法對多核系數(shù)進(jìn)行最優(yōu)求解。γt為更新步長,可通過一維線性搜索計(jì)算得到,Dt為梯度下降方向。通過迭代求出最優(yōu)dm。
然后將其在帶入到式(7)通過貪婪算法比如正交匹配追蹤算法(Orthogonal Matching Pursuit,OMP)對式(7)求解[6]。
3.3 設(shè)計(jì)新的觀測矩陣
由上文可知稀疏MK-LSSVM分類模型,但是對于稀疏基和觀測基沒有做討論。已知稀疏基,設(shè)計(jì)新的合適的觀測矩陣對分類模型至關(guān)重要。
如果稀疏基和觀測基不相關(guān),則很大程度上保證了RIP性[9]。CandeS和Tao等證明:獨(dú)立同分布的高斯隨機(jī)測量矩陣可以成為普適的壓縮感知測量矩陣(即觀測矩陣)。同時(shí)當(dāng)觀測矩陣Φ與稀疏基矩陣Ψ相干性越小,則所需的訓(xùn)練樣本數(shù)越少。一般選取隨機(jī)高斯矩陣為觀測矩陣[10~12],受主成分分析啟發(fā)本文對稀疏基矩陣Ψ進(jìn)行奇異值分解(Singular Value Decomposition,SVD)Ψ=UΛV,選取前P個(gè)奇異值(按大小排列),計(jì)算求得對應(yīng)的UP,轉(zhuǎn)置得到,令作為觀測矩陣Φ,由稀疏基矩陣Ψ推出的觀測矩陣Φ與其必不相關(guān)。令B=Φ?Ψ,計(jì)算均方根誤差(IN-BTB的F范數(shù)),有實(shí)驗(yàn)已表明采用作為測量矩陣的均方根誤差比隨機(jī)高斯矩陣的均方根誤差(即F范數(shù))更小,所以將作為觀測矩陣。與之前的隨機(jī)高斯矩陣相比,結(jié)合稀疏基矩陣Ψ與新的觀測矩陣使用相同的訓(xùn)練樣本的稀疏MK-LSSVM具有更好的泛化能力,使得高光譜圖像的分類精度更高。
本文提出稀疏ML-LSSVM分類器來解決高光譜圖像的分類問題,并且通過稀疏基來設(shè)計(jì)新的觀測矩陣,用于在解決高光譜圖像的地物種類復(fù)雜、數(shù)據(jù)規(guī)模較大以及樣本分布不規(guī)則的而導(dǎo)致的少數(shù)類分類精度較差,分類器魯棒性差的問題。
4.1 實(shí)驗(yàn)
本文實(shí)驗(yàn)采用1992年AVIRIS采集印第安納州西北部的 Indian pines高光譜數(shù)據(jù),數(shù)據(jù)大小、220個(gè)波段,去除由于噪聲和水汽吸收的20個(gè)光譜波段,一般有16種地物覆蓋類型。將每一類的10%作為標(biāo)記樣本用作訓(xùn)練共有 1 043個(gè),剩下的90%用作測試。如表1所示,苜蓿、收割牧地、燕麥地的訓(xùn)練樣本只有幾個(gè),而大豆略耕地的訓(xùn)練樣本有幾百個(gè),出現(xiàn)不平衡分類問題。多核SVM分類的參數(shù)主要包括懲罰系數(shù)C、高斯核參數(shù)σ從此以及多核權(quán)系數(shù)dm。在分類時(shí)需要預(yù)先設(shè)置,在本文的實(shí)驗(yàn)中,權(quán)系數(shù)的初始值設(shè)置為1/M,M為基核函數(shù)個(gè)數(shù),C的取值范圍設(shè)置為{10-4,10-3…,104},利用簡單多核學(xué)習(xí)工具箱SimpleMKLtoolbox通過梯度下降法選擇最優(yōu)dm相對應(yīng)的核參,C值可通過訓(xùn)練樣本的交叉驗(yàn)證獲得,最優(yōu)值為100,權(quán)系數(shù)的初始值設(shè)置為1/M,M為基核函數(shù)個(gè)數(shù)即不同核函數(shù)對應(yīng)核參數(shù)個(gè)數(shù)總和。本文主要比較LSSVM 和ML-LSSVM以及本文提出的稀疏ML-LSSVM 3種方法的分類精度、總體分類精度(Over Accurary,OA)以及各方法的訓(xùn)練時(shí)間、Kappa系數(shù)等。
每一類別地物的訓(xùn)練樣本個(gè)數(shù) 表1
3種分類方法分類精度、訓(xùn)練樣本時(shí)間 表2
續(xù)表2
因?yàn)楸疚奶岢龅姆椒ū葌鹘y(tǒng)的高光譜圖像分類方法考慮了不平衡分類問題以及高光譜圖像的地物種類復(fù)雜、數(shù)據(jù)規(guī)模較大以及樣本分布不規(guī)則等問題。所以本文首先對多數(shù)類預(yù)處理,k均值聚類然后對每個(gè)類進(jìn)行采樣使其與少數(shù)類均衡,然后訓(xùn)練分類器,并且利用稀疏化MK-LSSVM對高光譜圖像進(jìn)行分類。由實(shí)驗(yàn)結(jié)果可知LSSVM,MK-LSSVM和本文方法對于少數(shù)類苜蓿的分類精度分別為36.84,82.86和87.50;收割牧地的分類精度為68.33,80.00和86.05;燕麥地的分類精度為52.75,81.04和86.16,而且如圖1黑框/黑橢圓所示本文方法很明顯地提高了少數(shù)類分類精度。部分多數(shù)類地物的精度也有部分提高如表2黑色標(biāo)注所示,訓(xùn)練樣本時(shí)間本文方法較LSSVM和MKLSSVM分類方法分別減少171.21(s),291.68(s)。Kappa系數(shù)本文提出的分類方法達(dá)到0.885高于LSSVM分類的0.736和MK-LSSVM分類的0.807。通過迭代5次,分析聚類個(gè)數(shù)k對高光譜圖像不平衡分類的影響當(dāng)聚類個(gè)數(shù)8時(shí)總體分類精度趨于穩(wěn)定。實(shí)驗(yàn)結(jié)果表明本文提出的分類方法提高了少數(shù)類地物的分類精度,同時(shí)也提高了部分多數(shù)類地物的分類精度以及減少了支持向量機(jī)訓(xùn)練樣本時(shí)間消耗大的問題。
圖1 Indian Pines的真實(shí)地物圖和各分類方法的分類結(jié)果
本文提出新的稀疏MK-LSSVM分類方法解決高光譜數(shù)據(jù)的不平衡分類問題,先將多數(shù)類k均值聚類,然后待聚類結(jié)束后比較少數(shù)類與k個(gè)多數(shù)類群組的樣本數(shù),對樣本數(shù)多于少數(shù)類的群組進(jìn)行欠采樣,反之進(jìn)行過采樣,最后由處理后的樣本訓(xùn)練MK-LSSVM模型并且對其進(jìn)行稀疏。實(shí)驗(yàn)表明本文提出的分類方法提高了少數(shù)類地物的分類精度,同時(shí)解決了支持向量機(jī)計(jì)算復(fù)雜運(yùn)算速度慢的缺點(diǎn)。盡管不平衡高光譜分類問題可以提高少數(shù)類的分類精度,但是也會使一些多數(shù)類分類精度有所降低,在接下來的研究中可以聯(lián)合光譜和空間信息進(jìn)行高光譜數(shù)據(jù)的分類。
[1]杜培軍,譚琨,夏俊士.高光譜遙感影像分類與支持向量機(jī)應(yīng)用研究[M].北京:科學(xué)出版社,2012.
[2]Japkowicz N,Stephen S.The class imbalance problem:A systematic study[J].Intelligent data analysis,2002,6(5):429~449.
[3]Melgani F,Bruzzone L.Classification of hyperspectral remote sensing images with support vector machines[J].Geoscience and Remote Sensing,IEEE Transactions on,2004,42(8):1778~1790.
[4]Suykens J A K,Vandewalle J.Least squares support vector machine classifiers[J].Neural processing letters,1999,9 (3):293~300.
[5]Wu L,F(xiàn)eng Q,Zhang K.Classification of remote sensing image using improved LS-SVM[C].Proc 4th IEEE Conf Photonics and Optoelectronics(SOPO).ShangHai:IEEE Press,2012:1~4.
[6]Yang J,Bouzerdoum A,Phung S L.A training algorithm for sparse LS-SVM using compressive sampling[C].Proc 35th IEEE Conf Acoustics Speech and Signal Processing(ICASSP).Texas:IEEE Press,2010:2054~2057.
[7]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of artificial intelligence research,2002:321~357.
[8]石光明,劉丹華,高大化等.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1070~1081.
[9]CANDES E,TAO T.Never optimal signal recovery from ran-dom projections:Universal encoding strategies[J].IEEE Transaction on Information Theory,2006,52(12):5406~5425.
[10]瞿廣財(cái),張淑芬,呂衛(wèi)等.基于圖像分塊的Toeplitz結(jié)構(gòu)測量矩陣設(shè)計(jì)[J].計(jì)算機(jī)工程,2012,38(16):212~ 214.
[11]史久根,吳文婷,劉勝等.基于壓縮感知的圖像重構(gòu)算法[J].計(jì)算機(jī)工程,2014,40(2):229~232.
[12]鄒偉,李元祥,楊俊杰等.基于壓縮感知的人臉識別方法[J].計(jì)算機(jī)工程,2012,38(24):133~135.
The Imbalanced Hyperspectral Image Classification Based on Sparse MK-LSSVM
Chao Shuanshe1,2,Chu Heng1,2
(1.Chongqing University of Post and Telecommunication,Chongqing 400065,China;2.Chongqing Survey Institute,Chongqing 400020,China)
Aiming at the problem that the low classification accuracy of minority classes in classification of complex hyperspectral imagery data,this paper proposed an imbalanced classification method based MK-LSSVM.Firstly,to keep the same size between the minority class and the majority class,this method partitions the majority class into different groups with k-means clustering.After clustering,the proposed method apply sampling techniques to balance every group and minority classes.At last,build MK-LSSVM classifiers and Hyperspectral Image Classification.For the MK-LSSVM model is not sparse,the compressive sensing theory can be introduced to solve this problem.Experimental result on real HIS dataset show that our method can effectively improve the classification accuracy for the minority classes in the imbalance dataset and reduce the consumption time when training model.
hyperspectral Image;imbalance classification;sparse MK-LSSVM;compression sensing
1672-8262(2016)02-69-05中圖分類號:TP751.1
A