鐘蕭俊,秦夢(mèng)謠
(蘭州大學(xué),甘肅 蘭州 730000)
遙感傳感器的空間分辨率和光譜分辨率不斷提高,尤其是高光譜分辨率的提高,使高光譜遙感成為遙感最重要的研究方向之一[1]。杜培軍等認(rèn)為高光譜遙感影像分類要繼續(xù)引入模式識(shí)別與機(jī)器學(xué)習(xí)領(lǐng)域的新理論、新模型,發(fā)展更先進(jìn)、更有效的高光譜影像分類方法[2]。劉大偉等針對(duì)高分辨率影像應(yīng)用DBN 對(duì)高分辨率影像進(jìn)行了基于光譜-紋理特征的分類,并與其他算法做了對(duì)比[3]。李朝奎等應(yīng)用不同算法基于面向?qū)ο蠛鸵?guī)則進(jìn)行了分類研究[4]。張寅丹等基于實(shí)驗(yàn)得出了監(jiān)督方法更適合分析高分辨率遙感影像的特定目標(biāo)地物提取的結(jié)論[5]。因此,本文基于對(duì)象針對(duì)監(jiān)督分類算法,對(duì)比數(shù)據(jù)挖掘中的KNN、J48、SMO 三種方法,建立了靖遠(yuǎn)縣地區(qū)的土地覆被。
KNN 分類算法是一種簡(jiǎn)單有效的高光譜影像的分類方法,是數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典算法。其思路是找到距離樣本特征空間最近樣本,如果這K 個(gè)樣本大多數(shù)都屬于同一個(gè)類別,則該樣本也屬于這個(gè)類別。該方法在面對(duì)高空間分辨率和高光譜分辨率時(shí)會(huì)面臨維度災(zāi)難、運(yùn)算時(shí)間長(zhǎng)的問(wèn)題。因此,陸海霞等做了基于對(duì)象的KNN 算法的研究,認(rèn)為基于對(duì)象的KNN 算法能顯著降低運(yùn)算時(shí)間[6]。王小美等基于測(cè)定距離對(duì)KNN 算法進(jìn)行改進(jìn),得到適用于高光譜遙感數(shù)據(jù)的分類方法[7]。王佃來(lái)等基于BP改進(jìn)的KNN 算法進(jìn)行了土地覆蓋分類的研究,提高了KNN 算法的精度[8]。趙理君等認(rèn)為KNN 算法受參數(shù)的影像程度更弱[9]。
J48 算法是決策樹算法的一種,是C4.5 算法的一個(gè)版本,ID3 算法是其核心,ID3 算法的核心是“信息熵”[10]。J48算法在同類算法中不僅分類準(zhǔn)確率高,而且速度快[11]。楊雪峰等針對(duì)多種決策樹算法進(jìn)行研究,得出了近紅外數(shù)據(jù)集的分類效果優(yōu)于紅光數(shù)據(jù)[12],本文也選取了近紅外波段。孫宇翼等對(duì)比了J48 決策樹、最大似然法和基于試錯(cuò)性規(guī)則集的面向?qū)ο蠓椒ǎJ(rèn)為J48 算法分類精度明顯優(yōu)于兩者[13]。
支持向量機(jī)最初用來(lái)對(duì)數(shù)據(jù)進(jìn)行二值分類,原理是尋找一個(gè)滿足分類要求的最優(yōu)分割超平面,即不僅能分開兩者,并且使兩者的分類空隙最大。其區(qū)別于傳統(tǒng)的降維方法,SVM 通過(guò)提升數(shù)據(jù)維度將非線性分類問(wèn)題轉(zhuǎn)變成了線性分類問(wèn)題,解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測(cè)試集誤差仍較大的問(wèn)題[14]。即SVM 本身是解決二分類問(wèn)題的,針對(duì)遙感影像的多分類特點(diǎn),有兩種解決方法:一種是集成許多二分類問(wèn)題,另一種是將多個(gè)分類面的參數(shù)求解合并到一個(gè)優(yōu)化問(wèn)題中[15]。SMO 算法由John C.Platt 于1998 年提出,其優(yōu)點(diǎn)在于將求解子問(wèn)題的耗費(fèi)轉(zhuǎn)移到迭代上,然后在迭代上尋求快速算法[16]。張艷等提出了SDBSMO 算法[17]。張召針對(duì)SMO 算法只用一個(gè)閾值參數(shù)引起的問(wèn)題進(jìn)行了實(shí)驗(yàn)[18]。黎超等提出了P-SMO 算法,以冗余維的去除提高了SMO 算法的性能[19]。胡懋智等做了不同類型支持向量機(jī)算法的對(duì)比,認(rèn)為SMO 算法在線性核的表現(xiàn)優(yōu)于非線性核[20]。胡自申等通過(guò)逐步減少訓(xùn)練數(shù)據(jù),證明了SVM 算法具有很好的泛化性能[21]。段秋亞等基于高分一號(hào)數(shù)據(jù)水體信息提取,對(duì)比了多種方法,得出了SVM 算法提取精度最高的結(jié)論[22]。張友靜等對(duì)比了多種傳統(tǒng)方法與SVM 決策支持樹對(duì)城市植被的分類研究,證明了SVM 的優(yōu)越性能[23]。薛夢(mèng)姣等基于資源三號(hào)衛(wèi)星對(duì)比了基于對(duì)象的多種機(jī)器學(xué)習(xí)方法的分類結(jié)果,得出了面向?qū)ο蟮腟VM 分類方法遠(yuǎn)高于面向?qū)ο蟮腒NN 算法[24]。
靖遠(yuǎn)縣,隸屬甘肅省白銀市,位于黃河上游,甘肅省中東部,白銀市腹地,白銀市平川區(qū)從中析置。靖遠(yuǎn)縣土地類型復(fù)雜多樣,農(nóng)、林、牧、副、漁潛力較大;水資源低于國(guó)內(nèi)平均水平;為溫帶大陸性氣候,降水集中在6-8 月份,雨熱同期,光能充足,溫差較大,地形復(fù)雜,可滿足農(nóng)作物生長(zhǎng)條件。在6 月份,農(nóng)作物長(zhǎng)勢(shì)良好。靖遠(yuǎn)縣下轄13 個(gè)鎮(zhèn)、5 個(gè)鄉(xiāng)。2017 年,靖遠(yuǎn)縣常住人口為46.18 萬(wàn)人,實(shí)現(xiàn)地區(qū)生產(chǎn)總值(GDP)70.68 億元。其中:第一產(chǎn)業(yè)增加值24.41 億元,第二產(chǎn)業(yè)增加值17.43 億元,第三產(chǎn)業(yè)增加值28.84 億元,三次產(chǎn)業(yè)結(jié)構(gòu)比例為34.5:24.7:40.8,人均生產(chǎn)總值達(dá)到15 356 元。研究區(qū)的典型地物有農(nóng)田、城鎮(zhèn)居民地、鄉(xiāng)村居民地、水系、道路、裸露山地等,如圖1 所示。
圖1 矯正后研究區(qū)圖像
本報(bào)告選用的傳感器為L(zhǎng)andsat-8 衛(wèi)星OLI 數(shù)據(jù),條代號(hào)是130,行編號(hào)是035,傳感器一共9 個(gè)波段,分別是:海岸氣溶膠波段、藍(lán)波段、綠波段、紅波段、近紅外波段、2 個(gè)短波紅外波段、全色波段、卷云波段、2 個(gè)熱紅外波段。除全色波段空間分辨率為15 m、2 個(gè)熱紅外波段空間分辨率為100 m 外,其余波段空間分辨率都為30 m;數(shù)據(jù)產(chǎn)品為L(zhǎng)1T,記錄格式為BSQ,用TIF 格式存儲(chǔ)。影像獲取時(shí)間為2019 年1 月22 日,其中心時(shí)間為03:37:46;中心經(jīng)度為104.536 6°,中心緯度為36.054 7°;坐標(biāo)系為WGS_1984_UTM_Zone_48N;太陽(yáng)方位角為112.721 146°,太陽(yáng)高度角為64.210 290°。利用Landsat-8 OLI 數(shù)據(jù),經(jīng)過(guò)校正后,將多光譜30 m 空間分辨率和全色波段15 m 空間分辨率的波段,進(jìn)行影像融合。融合后的影像波段信息如表1 所示。
表1 傳感器參數(shù)與波段介紹
在易康中,利用多尺度分割算法,以9.0 的分割版本;圖層權(quán)重為1,1,1,1,2,1,1;尺度參數(shù)為50;形狀因子為0.1,緊致性因子為0.5。分割結(jié)果如圖2 所示。
圖2 分割結(jié)果圖
選擇特征,并導(dǎo)出。特征表如表2 所示。
表2 幾何信息的分類特征
根據(jù)區(qū)域特點(diǎn),將該地區(qū)分為7 種土地覆被,分別是:塑料大棚、山地、農(nóng)田、綠地、裸地、居民地、河流。
基于WEKA 平臺(tái)選擇監(jiān)督分類中的J48 分類算法、IBK 算法、SMO 算法,進(jìn)行模型訓(xùn)練、分類和驗(yàn)證。結(jié)果如圖3 所示。
圖3 分類結(jié)果圖
精度評(píng)價(jià)如表3、表4 所示。
表3 精度評(píng)價(jià)表
表4 混淆矩陣
從實(shí)驗(yàn)結(jié)果可以看出,在30 m 分辨率下,分類效果一般。一方面是研究區(qū)的情況比較復(fù)雜,樣本點(diǎn)的選取數(shù)量偏少;另一方面是在樣本的選取過(guò)程中,有些區(qū)域很難辨認(rèn),導(dǎo)致樣本選取不夠精確。同時(shí),裸地、山地、無(wú)植被覆蓋的耕地很難區(qū)分,植被和有作物覆蓋的耕地很難區(qū)分,導(dǎo)致可分性不高。從統(tǒng)計(jì)結(jié)果看,SMO 分類算法的正確率和Kappa 系數(shù)高于KNN 分類算法,KNN 分類算法高于J48 分類算法。
從山地的分類結(jié)果看,J48 的分類結(jié)果更符合實(shí)際,而KNN 和SMO 將小的破碎點(diǎn)(綠地和裸地)都分為了山地。從居民地的分類結(jié)果看,KNN 的分類效果最差,J48分類效果最好。從塑料大棚的分類效果來(lái)看,KNN 的算法最優(yōu),J48 最差。
從統(tǒng)計(jì)結(jié)果來(lái)看,針對(duì)本區(qū)域SMO 的分類精度最高,效果最好,KNN 次之,J48 最差。