秦進(jìn)春,余旭初,譚 熊,余岸竹,付瓊瑩
(信息工程大學(xué)地理空間信息學(xué)院,河南鄭州450052)
由于高光譜影像所包含的數(shù)據(jù)量大,波段間相關(guān)性很高,使用傳統(tǒng)的遙感影像分類方法對(duì)其進(jìn)行分類時(shí),會(huì)產(chǎn)生“維數(shù)災(zāi)難”現(xiàn)象,因此針對(duì)高光譜影像的分類方法亟待研究。經(jīng)過國內(nèi)外學(xué)者的不斷探索,大量的高光譜影響分類方法被提出并成功應(yīng)用,其中基于核函數(shù)的支持向量機(jī)(support vector machine,SVM)[1]最先被提出,目前已在高光譜影像分類中取得了很好的應(yīng)用效果[2]。
SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)算法,通過核函數(shù)將輸入空間數(shù)據(jù)轉(zhuǎn)換到高維特征空間中去,進(jìn)而能夠很好地表達(dá)數(shù)據(jù)之間的非線性關(guān)系,對(duì)解決非線性可分問題有很好的效果[3]。在SVM中,常使用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)等。不同的核函數(shù)具有不同的適應(yīng)性,所以,在使用SVM對(duì)高光譜影像進(jìn)行分類時(shí),必須根據(jù)數(shù)據(jù)特點(diǎn)選擇合適的核函數(shù)和核參數(shù)。基于此,本文對(duì)SVM常用的4種核函數(shù)分別應(yīng)用于高光譜影像分類,并利用交叉驗(yàn)證的方法來尋找的最優(yōu)核函數(shù)參數(shù),交叉驗(yàn)證的思想是測(cè)試不同組的參數(shù),具有最高交叉精度的就是最佳參數(shù)。得到最佳核參數(shù)后通過試驗(yàn)對(duì)比選擇出最適于待處理影像分類的核函數(shù)。核分類方法是目前流行的高光譜影像分類方法,本文將具有最優(yōu)核函數(shù)的SVM與核Fisher判別分析(kernel fisher discriminant analysis,KFDA)[4]和核主成分分析(kernel principal component analysis,KPCA)[5]進(jìn)行了比較。通過試驗(yàn)研究可以發(fā)現(xiàn)SVM分類方法具有較高的分類精度和可靠性,為實(shí)際應(yīng)用提供了參考。
支持向量機(jī)是通過構(gòu)造具有低VC維的最優(yōu)分類超平面作為判決面,使得線性可分的兩類數(shù)據(jù)到該平面的距離最小,通常稱該平面為最優(yōu)分離超平面。對(duì)于特征空間非線性可分的情況,則通過核函數(shù)映射解決。
最優(yōu)分類超平面的權(quán)系數(shù) w0是由滿足的支持向量的線性組合。
最優(yōu)分類超平面是假設(shè)樣本線性可分的前提下討論的,在線性不可分的情況下,也就是當(dāng)某些樣本不滿足優(yōu)化約束條件時(shí),引入松弛變量ξi≥0及懲罰因子C解求廣義的最優(yōu)分類面的問題可以表示為
其中C為某個(gè)指定的參數(shù),它實(shí)際上起到了控制對(duì)錯(cuò)分樣本懲罰程度的作用,是在錯(cuò)分樣本的比例與算法復(fù)雜度之間的折中。
根據(jù)式(1)和(2)的約束條件,可以利用凸二次規(guī)劃尋優(yōu)技術(shù)來解決上述最優(yōu)分類超平面問題[6]。
式中,αi為對(duì)應(yīng)的Lagrange乘子,這是一個(gè)二次函數(shù)最優(yōu)化問題。若為最優(yōu)解,則有
對(duì)于非線性分類問題,SVM的解決思路是利用滿足Mercer條件的核函數(shù),通過非線性變換將原始空間中的線性不可分?jǐn)?shù)據(jù)映射到高維特征空間中進(jìn)行分類。由泛函的理論可知,只要核函數(shù)滿足Mercer條件,它就對(duì)應(yīng)于一個(gè)變換空間中的內(nèi)積。因此,在最優(yōu)分類面中采用合適的內(nèi)積函數(shù)K(xi,xj)就可以實(shí)現(xiàn)某一非線性變換后的線性分類。此時(shí)的最優(yōu)目標(biāo)函數(shù)可以表示為
常用的滿足Mercer條件的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)。由于不同核函數(shù)具有不同的適應(yīng)性,因此選用不同的核函數(shù)可以構(gòu)造不同的支持向量機(jī)。幾種核函數(shù)的表達(dá)形式如下[7]。
線性核函數(shù)
多項(xiàng)式核函數(shù)
徑向基核函數(shù)
Sigmoid核函數(shù)
當(dāng)且僅當(dāng)v和a的取值適當(dāng)時(shí),才滿足Mercer條件,可能的情況是v=2,a=1。
核Fisher判別分析(Kernel FDA)。KFDA的思想是將低維空間中的非線性問題,轉(zhuǎn)化為高維空間中的線性問題求解。在線性問題中,F(xiàn)isher判別旨在找到一種線性投影使類別可分,即使類間距離最大化,類內(nèi)距離最小化,從而實(shí)現(xiàn)相對(duì)于輸入空間的非線性判別分析。
由于H空間的維數(shù)通常很高,因此式(10)的直接求解就變得很困難。采用核函數(shù)來隱含地進(jìn)行運(yùn)算,得到核矩陣K,其中是矩陣(i=1,2),是所有樣本分別與第i類樣本內(nèi)積的核矩陣。由再生核理論可知,H空間的任何解wφ都是H空間中的訓(xùn)練樣本的線性組
用核矩陣表示的Fisher判別分析問題轉(zhuǎn)化為
該判別函數(shù)隱式地對(duì)應(yīng)原空間的一個(gè)非線性判別函數(shù),因此,它是一種非線性分類方法。對(duì)于任一測(cè)試樣本x,KFDA的決策函數(shù)為
1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理(本文利用PCA方法進(jìn)行降維)。
2)將通過目視判讀選取的數(shù)據(jù)樣本隨機(jī)分成兩部分,一部分是測(cè)試樣本,另一部分是訓(xùn)練樣本。
3)利用交叉驗(yàn)證與網(wǎng)格組合法確定核函數(shù)參數(shù)進(jìn)行尋優(yōu)計(jì)算。
4)利用最優(yōu)化參數(shù)后的核函數(shù)對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練,然后對(duì)高光譜影像進(jìn)行分類測(cè)試。
5)利用混淆矩陣進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果包括總體分類精度和Kappa系數(shù)。
本文試驗(yàn)數(shù)據(jù)選擇的是NASA的成像光譜儀AVIRIS在1996年獲取的佛羅里達(dá)州肯尼迪空間中心附近的高光譜遙感影像。該數(shù)據(jù)從海拔20 km左右航空飛行獲得,地面分辨率為18 m,影像寬614像元、高512像元。本文試驗(yàn)在提供的155個(gè)波段影像基礎(chǔ)上,進(jìn)一步去除大氣水分吸收及低信噪比波段,選用下載數(shù)據(jù)的第5-97、105-131波段,共計(jì)120波段進(jìn)行試驗(yàn)。總共采集了5211個(gè)樣本,其中2746個(gè)訓(xùn)練樣本,2465個(gè)測(cè)試樣本。數(shù)據(jù)樣本分布如圖1所示。
本文試驗(yàn)首先利用給出的4種支持向量機(jī)核函數(shù)對(duì)所選數(shù)據(jù)進(jìn)行分類,將分類結(jié)果進(jìn)行精度評(píng)價(jià),表中的總體分類精度是3次試驗(yàn)的平均值。然后再利用KFDA和KPCA兩種核分類方法對(duì)待處理的KSC高光譜遙感影像進(jìn)行分類處理,將分類精度與SVM進(jìn)行對(duì)比。試驗(yàn)結(jié)果如表1所示。
圖1 AVIRISKSC數(shù)據(jù)樣本分布
表1 AVIRIS高光譜影像分類結(jié)果
通過試驗(yàn)結(jié)果的分析比較,可以看到對(duì)待處理像數(shù)據(jù)進(jìn)行分類時(shí),使用RBF核函數(shù)的SVM分類器具有較好的分類精度。使用徑向基核函數(shù)的SVM與核Fisher法和核主成分分析法相比較,具有更高的穩(wěn)定性,分類精度及kappa系數(shù)都優(yōu)于核Fisher法。從試驗(yàn)結(jié)果還可以看出,SVM分類器的運(yùn)算速度相對(duì)較慢,雖然試驗(yàn)所用數(shù)據(jù)及計(jì)算機(jī)會(huì)使計(jì)算速度有一定差異,但對(duì)于算法而言,仍需要作進(jìn)一步改進(jìn)。
本文對(duì)SVM使用不同的核函數(shù)進(jìn)行高光譜影像分類的性能作了比較評(píng)價(jià),發(fā)現(xiàn)對(duì)于本文給定的數(shù)據(jù),SVM使用徑向基核函數(shù)進(jìn)行分類具有較高的精度。隨后將SVM與當(dāng)下流行的兩種核分類方法KFDA和KPCA分別進(jìn)行高光譜影像分類,通過試驗(yàn)結(jié)果可以看出利用SVM分類的精度更高穩(wěn)定性更好。但必須認(rèn)識(shí)到,SVM選擇不同的和函數(shù)的分類性能是不一樣的,選擇不同的核參數(shù)也會(huì)對(duì)分類結(jié)果產(chǎn)生很大的影響,但如何選取最優(yōu)的核函數(shù)及其參數(shù)是一個(gè)很難解決的問題。通過試驗(yàn)可以發(fā)現(xiàn),KFDA和KPCA這兩種核分類方法仍然具有很多可以改進(jìn)的地方,能夠進(jìn)一步提高分類精度。下一步工作是對(duì)這3種核分類方法進(jìn)行優(yōu)化,降低分類復(fù)雜度以及分類運(yùn)行時(shí)間等。
[1]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:95-130.
[2]杜培軍,林卉,孫敦新.基于支持向量機(jī)的高光譜遙感分類進(jìn)展[J].測(cè)繪通報(bào),2007(12):37-40.
[3]SCH?LKOPF B,SMOLA A.Learning With Kernels—Support Vector Machines,Regularization,Optimization and Beyond[M].Cambridge:MIT Press,2001.
[4]GUALTIERIJA,CROMPR F.Support Vector Machines for Hyperspectral Remote Sensing Classification[C]∥Proceedings of the 27th AIPR Workshop:Advances in Computer-Assisted Recognition.[S.l.]:SPIE,1998.
[5]MIKA S,WESTON J,MüLLER K R.Invariant Feature Extraction and Classification in Kernel Spaces,in Advances in Neural Information Processing Systems[M].Cambridge:MIT Press,1999.
[6]譚琨,杜培軍,王小美.基于支持向量機(jī)和多變量分析的高光譜要敢數(shù)據(jù)分類[J].測(cè)繪通報(bào),2009(11):37-40.
[7]DUNDAR M M.A Cost-effective Semisupervised Classifier Approach with Kernels[J],IEEE Transactions on Geoscience and Remote Sensing,2004,42(1):264-270.