林 超,楊敏華
(中南大學(xué) 信息物理工程學(xué)院,湖南 長沙 410083)
基于球結(jié)構(gòu)支持向量機(jī)的QuickBird影像分類分析
林 超,楊敏華
(中南大學(xué) 信息物理工程學(xué)院,湖南 長沙 410083)
在支持向量機(jī)多類識(shí)別基礎(chǔ)上探討以球結(jié)構(gòu)替代傳統(tǒng)超平面支持向量機(jī)對QuickBird影像進(jìn)行分類的可行性,對重疊區(qū)域的數(shù)據(jù)分類采用新規(guī)則,提高球結(jié)構(gòu)支持向量機(jī)算法的泛化性能,并將分類結(jié)果與最小距離法、最大似然法分類結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明該算法有效可行,降低了二次規(guī)劃的復(fù)雜度,縮短了樣本訓(xùn)練時(shí)間。
支持向量機(jī);核函數(shù);超球;多類分類;重疊區(qū)數(shù)據(jù)
近代遙感起源于20世紀(jì)60年代,到80年代高光譜遙感技術(shù)興起,遙感分類是人們獲取信息的一種重要的手段[1]。光譜遙感影像分類一般分為監(jiān)督分類和非監(jiān)督分類,最常用的監(jiān)督分類法是統(tǒng)計(jì)分類法,包括最大似然法、最小距離法和平行六面體法。其中最大似然法的分類精度和穩(wěn)定性為最佳,但是該方法的缺點(diǎn)在于:①假定每類的特征向量在特征空間中服從正態(tài)分布;②為了準(zhǔn)確地估計(jì)分布參數(shù),需要大量樣本,而且隨著波段數(shù)的增加,樣本數(shù)也要求迅速增加。
為了解決有限樣本的學(xué)習(xí)問題,Vapnik等在20世紀(jì)70年代建立了統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory,SL T)的基本體系,該理論第一次強(qiáng)調(diào)了小樣本統(tǒng)計(jì)學(xué)習(xí)的重要性[2]。
支持向量機(jī)(Support Vector Machines,SVM)是基于統(tǒng)計(jì)學(xué)理論發(fā)展起來的,核心思想是把樣本非線性映射到高維特征空間(甚至是無窮維空間),以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為歸納原則,在高維空間中構(gòu)造具有低VC維的最優(yōu)分類超平面作為判決面,使分類風(fēng)險(xiǎn)上界最小,從而使學(xué)習(xí)機(jī)器具有最優(yōu)的推廣能力[3]。
SVM的基本理論本身是用來解決兩類問題,不能直接用于多類分類,當(dāng)前有許多算法將SVM應(yīng)用到多類問題,這些算法統(tǒng)稱為“多類支持向量機(jī)”(M ulti-Category SVM,M-SVM)。這些算法各有優(yōu)缺點(diǎn),但都沒有脫離最優(yōu)超平面思想,將他們應(yīng)用于遙感影像分類問題上并不甚理想,總體來講,都面臨如下問題:①處理數(shù)據(jù)規(guī)模有限;②算法復(fù)雜性高;③不易于擴(kuò)充[4-5]。
球面支持向量機(jī)是將超平面用球面替代,試找到一個(gè)能包含某類全部(幾乎全部)樣本的支持向量所構(gòu)建的超球面,對于單類數(shù)據(jù)要求這個(gè)球面將球內(nèi)外樣本盡可能正確分開,并且超球的半徑盡可能的小[6-7];在解決多類問題上文獻(xiàn)[8]提出一個(gè)球結(jié)構(gòu)的支持向量機(jī),該算法的二次規(guī)劃計(jì)算量小,容易推廣和擴(kuò)充[9]。
目前,針對遙感影像數(shù)據(jù)進(jìn)行分類還是僅局限于傳統(tǒng)的分類方法,在高光譜影像分類時(shí)更是運(yùn)算速度慢、分類精度低,而且出現(xiàn)了嚴(yán)重的 huges現(xiàn)象。本文分析了球結(jié)構(gòu)SVM在QuickBird多光譜影像分類中的應(yīng)用,建立球結(jié)構(gòu)分類模型,實(shí)驗(yàn)驗(yàn)證該分類器用于QuickBird影像分類有效可行,處理數(shù)據(jù)容量大大增強(qiáng),算法復(fù)雜性較小,但分類精度有待進(jìn)一步提高。
假定現(xiàn)有N個(gè)m維空間的元素集合:Ak,k=1,2,…,N,每個(gè) Ak包含lk個(gè)點(diǎn) xik,i=1,2,…,l;這些點(diǎn)屬于同一分類,對于每個(gè) Ak,尋找一個(gè)球(ak,Rk),其中,ak表示球心,Rk定義為球的半徑的平方,使得在 Rk盡可能的達(dá)到最小的情況下球(ak,Rk)包含所有(或者幾乎所有)樣本點(diǎn) xik,引入松弛變量ξk,得到約束條件
由 minξk,min Rk得到目標(biāo)函數(shù) F(Rk,ak,ξk)=Rk+Ck∑iξk。其中 C為懲罰因子,用于控制對錯(cuò)分樣本懲罰的程度,實(shí)現(xiàn)球的大小和錯(cuò)分樣本之間的折衷。由 K-K-T條件,得到拉格朗日函數(shù)
其中 ,γki≥0,ξk≥0,為 Lagrange乘子。
通常情況下,即使排除了偏遠(yuǎn)的樣本點(diǎn),數(shù)據(jù)依然不會(huì)呈現(xiàn)球狀分布。為了使算法適用于更廣泛的領(lǐng)域,采用同常規(guī)SVM方法類似的核函數(shù)方法,把樣本變換到更高維的特征空間,在變換空間中求最優(yōu)超球面[10]。理論已經(jīng)證明,只要核函數(shù) k(x,y)滿足Mercer定理,核函數(shù)就可以表示為高維空間中的2個(gè)向量的內(nèi)積。通常采用高斯徑向基核函數(shù)(RBF)。
由式(2)將問題轉(zhuǎn)換為對偶問題,并用核函數(shù)K(x,y)代替高維空間中的2個(gè)向量的內(nèi)積,這樣求最小球的二次規(guī)劃問題即為
對每一個(gè)分類都求解如上所述的二次規(guī)劃問題,產(chǎn)生 N個(gè)球,每個(gè)球代表一類,而球面上的點(diǎn)就是所對應(yīng)的支持向量(稱為球支持向量)。這樣對于給定一個(gè)樣本點(diǎn) x,計(jì)算這一點(diǎn)到球心的距離的平方,根據(jù)就近原則判定樣本點(diǎn)分屬類別,得到如下決策函數(shù):
找出最小的 ft(x),則 x屬于第t類樣本點(diǎn)集合[5]。
3.1 QuickBird影像數(shù)據(jù)
實(shí)驗(yàn)采用4個(gè)波段的QuickBird影像作為分類對象,遙感影像數(shù)據(jù)由DigitalGlobe公司于2006年采集,位于烏海市境內(nèi),影像大小為815×828(見圖1);參考影像選取分辨率較高的同一位置全色波段遙感影像,大小為3 260×3 312(見圖2)。分類區(qū)域處于城郊結(jié)合處,有影像可以看出左面為大面積的荒地,植被覆蓋較少,多為容易生長的灌木林,右面為部分城區(qū)影像,建筑密度較高,帶狀公路由城區(qū)通往郊外。現(xiàn)結(jié)合實(shí)際情況將該區(qū)土地利用粗分為道路(A)、居民建筑(B)、荒地(C)、灌木林(D)和綠化植被(E)5大類,選取各類訓(xùn)練樣本各150個(gè),選取道路測試樣本602個(gè),居民建筑測試樣本618個(gè),荒地測試樣本627個(gè),灌木林測試樣本400個(gè),綠化植被測試樣本350個(gè);借助于 ENV I軟件的相應(yīng)功能模塊,對球結(jié)構(gòu)支持向量機(jī)進(jìn)行遙感影像分類的可行性進(jìn)行驗(yàn)證,分析分類效果。
圖1 多波段遙感影像圖(RGB:3,2,and 1)
3.2 分類結(jié)果及精度分析
圖2 全色波段遙感影像圖
實(shí)驗(yàn)分別采用最大似然法、最小距離法、球結(jié)構(gòu)支持向量機(jī)對影像進(jìn)行分類,將球SVM與經(jīng)典監(jiān)督分類算法(M inimum Distance,Maximum L ikelihood)做比較分析。
1)ENV I軟件下的classificationsupervisedM-inimum Distance和M aximum Likelihood對影像分類,分類結(jié)果如圖3、4所示;
2)基于球結(jié)構(gòu)SVM的QuickBird影像分類算法。主要過程為:特征選擇和提取,數(shù)據(jù)處理,確定懲罰因子C=1 000,RBF核函數(shù)參數(shù)σ=1.50,選擇RO I,分類處理。對球結(jié)構(gòu)SVM算法來說,理想情況下任意兩個(gè)超球都相互確定,那么所有樣本都能正確分類,但影像中可以看出,不同的類別可能具有相似的光譜特征,會(huì)導(dǎo)致部分樣本類別之間差異不明顯,出現(xiàn)兩個(gè)或者多個(gè)超球重疊的情況,預(yù)測點(diǎn)分類歸屬不確定,導(dǎo)致整個(gè)分類精度下降。為解決這個(gè)問題,利用一個(gè)簡單有效的重疊區(qū)歸屬判別方法:由常規(guī)SVM分類方法可以得知,在點(diǎn) x到2個(gè)分類球的距離相等的情況下,這個(gè)點(diǎn)更有可能屬于大球所屬的類別,分類球的大小對分類具有較大的影響[11-12],具體算法如下:
3.3 分類結(jié)果評價(jià)
實(shí)驗(yàn)用總體精度(OA)、kappa系數(shù)(見表1)作為精度評價(jià)指標(biāo),由分類結(jié)果可以看出,最大似然法的分類精度最高,城區(qū)的道路及居民建筑的大致走向可以清晰識(shí)別;最小距離法分類精度三者中最低,利用球結(jié)構(gòu)SVM進(jìn)行遙感分類是可行的,其分類精度比最大似然法略低,居民建筑和道路、灌木林和綠化植被混淆的情況較嚴(yán)重,分析原因在于:①訓(xùn)練樣本的選取不夠有效;②分類時(shí)出現(xiàn)較多的重疊相交區(qū)域,在運(yùn)算時(shí)重疊區(qū)域的樣本點(diǎn)的分類策略將影響算法的分類精度,對預(yù)測點(diǎn)的歸屬判別出現(xiàn)錯(cuò)分情況;③算法仍然存在不足之處需要改進(jìn)。另外,球結(jié)構(gòu)SVM二次規(guī)劃計(jì)算量較小,能處理大容量數(shù)據(jù)且算法復(fù)雜性較小,訓(xùn)練時(shí)間縮短,有很好的擴(kuò)充空間。
表1 不同分類方法的精度值與kappa系數(shù)
對超球重疊區(qū)域的數(shù)據(jù)正確分類對球結(jié)構(gòu)支持向量機(jī)的分類性能至關(guān)重要,實(shí)驗(yàn)驗(yàn)證了球結(jié)構(gòu)的支持向量機(jī)進(jìn)行多光譜遙感影像分類的可行性,降低了算法的二次規(guī)劃的復(fù)雜性,訓(xùn)練時(shí)間縮短,但分類的精度相較于一些經(jīng)典算法并沒有提高,利用球結(jié)構(gòu)SVM處理遙感影像數(shù)據(jù)在以下方面還有待進(jìn)一步深入研究:
1)進(jìn)一步縮短分類時(shí)間,如果預(yù)測樣本在球結(jié)構(gòu)中出現(xiàn)頻繁相交的情況,那么分類的時(shí)間將延長很多,精度降低,尋找一種改進(jìn)的算法對重疊區(qū)域的樣本進(jìn)行分類,有利于分類精度提高和速度提升;
2)球內(nèi)部的支持向量實(shí)際上對球分類器的構(gòu)造沒有實(shí)際意義,但仍然參與運(yùn)算,降低了運(yùn)算速度;
3)采用RBF核函數(shù)是以犧牲訓(xùn)練時(shí)間為代價(jià),要進(jìn)一步提高參數(shù)選取的速率;
4)研究改進(jìn)球結(jié)構(gòu)支持向量機(jī),現(xiàn)在國內(nèi)外很多文獻(xiàn)討論了球結(jié)構(gòu)支持向量機(jī)的改進(jìn)算法,提高算法的適應(yīng)性,尋求最優(yōu)方法解決遙感影像多類分類的精度問題值得深入研究;
5)本次實(shí)驗(yàn)只是進(jìn)行一般的粗分類,還不具備實(shí)用的條件,下一階段進(jìn)一步實(shí)驗(yàn)將球結(jié)構(gòu)支持向量機(jī)運(yùn)用于高光譜遙感影像分類,探討其可行性及精度評價(jià)。
[1]浦瑞良,宮鵬.高光譜遙感及其應(yīng)用[M].北京:高等教育出版社,2000.
[2]劉志剛.支撐向量機(jī)在光譜遙感影像分類中的若干問題研究[D].武漢:武漢大學(xué),2004.
[3]許磊.支持向量機(jī)和模糊理論在遙感圖像分類中的應(yīng)用[D].無錫:江南大學(xué),2006.
[4]李斌.基于多組合分類器的高光譜遙感圖像識(shí)別技術(shù)研究[D].北京:中國地質(zhì)大學(xué),2008.
[5]郭雪松,袁治平,劉波.半模糊超球支持向量機(jī)多類分類方法研究[J].中國管理科學(xué),2008,16(2):140-144.
[6]TAX D.,DU IN R.,Support vector domain descrip tion.Pattern Recognition Letters,1999.
[7]TAX D.,DU IN R.,Data domain descrip tion by suppo rt vectors.In Proceedings of ESANN99,ed.M Verleysen,D.Facto Press,Brussels,Baldonado,M.,Chang,1999:251-256.
[8]朱美琳,劉向東,陳世福.用球結(jié)構(gòu)的支持向量機(jī)解決多類分類[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2003,39(2):153-158.
[9]劉爽,史國友.基于加權(quán)超球支持向量機(jī)算法的超文本分類研究[J].大連海事大學(xué)學(xué)報(bào),2009,35(1):71-74.
[10]吳強(qiáng),賈傳熒,張愛鋒,等.球結(jié)構(gòu)支持向量機(jī)的改進(jìn)算法及仿真研究[J].系統(tǒng)仿真學(xué)報(bào),2008,20(2):345-348.
[11]袁勝發(fā),褚福磊.球結(jié)構(gòu)支持向量機(jī)在轉(zhuǎn)軸碰摩位置識(shí)別中的應(yīng)用[J].振動(dòng)與沖擊,2009,28(8):70-73.
[12]徐圖,何大可.超球體多類支持向量機(jī)理論[J].控制理論與應(yīng)用,2009,26(11):1293-1297.
QuickBird image classification analysis based on sphere support vector machine
L IN Chao,YANGM in-Hua
(Institute of Information Engineering Physics,Central South University,Changsha 410083,China)
After summarization of SVM for multi-class recognition,it analyzes a method of sphere support vecto r machine w hich takes p lace of traditional SVM for QuickBird remote sensing image classification;p resents a new classification fo r intersection data w hich lesds to a better generalization accuracy and compares it w ith M inim um Distance classification,maxim um likelihood classification methods.Experimental results show the method is feasible,and reduce the comp lexity of quadratic p rogramm ing and sho rten the training time.
support vectormachine;kernel function;hypersphere;multi-class classification;intersection data
TP751.1
A
1006-7949(2011)03-0046-04
2010-10-28
林 超(1985-),女,碩士研究生.
[責(zé)任編輯劉文霞]