馬明等
摘要:以云南省文山壯族苗族自治州麻栗坡縣2005年TM影像為試驗數(shù)據(jù),利用最大似然分類(MLC)、支持向量機(SVM)以及隨機森林(RF)3種分類方法進行了土地覆蓋遙感分類研究。從分類精度、樣本數(shù)量對分類器的影響、模型復雜度、分類速度等幾個方面進行了比較分析。結果表明:隨機森林分類法最優(yōu),而經(jīng)典方法之一的最大似然分類法最穩(wěn)定。所得出的結論對在類似的應用中如何選擇合適的分類方法具有一定的參考價值。
關鍵詞:TM影像;土地覆蓋;最大似然;支持向量機;隨機森林
1引言
全球變化研究的深入開展引發(fā)了區(qū)域土地利用變化這一熱點問題[1,2],人類活動對環(huán)境的影響也受到各國科學家的廣泛關注,尤其是人類為了生存和發(fā)展進行的土地開發(fā)利用以及由此引起的土地覆蓋變化[3,4]。遙感技術是獲取土地覆蓋及其變化的最重要途徑,利用影像圖進行調(diào)查研究由來已久。美國NASA的陸地衛(wèi)星 (Landsat) 計劃[5] (1975年前稱為地球資源技術衛(wèi)星~ERTS),所獲取的多波段掃描影像具較高空間分辨率、波譜分辨率、極為豐富的信息量和較高定位精度,已經(jīng)成為世界各國廣泛應用的重要的地球資源與環(huán)境遙感數(shù)據(jù)源。
本文研究內(nèi)容來源于亞太森林網(wǎng)絡(APFNET)資助的國際合作項目“大湄公河次區(qū)域森林覆蓋與碳儲量遙感制圖”的部分研究內(nèi)容。大湄公河次區(qū)域是指湄公河流域的6個國家共7個地區(qū),包括柬埔寨、越南、老撾、緬甸、泰國和我國的云南省及廣西壯族自治區(qū)。本文的研究內(nèi)容源于該項目中我國云南省森林覆蓋遙感制圖的重要研究內(nèi)容,其中麻栗坡縣是云南項目區(qū)中一個試驗區(qū)。
云南省文山壯族苗族自治州麻栗坡縣,地理坐標為東經(jīng)104°33′~105°18′,北緯22°48′~23°33′,總面積為2395hm2,境內(nèi)屬亞熱帶季風氣候,地表因受盤龍河、疇陽河、八布河的強烈切割,形成了西北~東南向的山地與峽谷相間的地形,且土地覆蓋變化差異明顯[6],使得該地適合用作實驗區(qū)域。
傳統(tǒng)的數(shù)據(jù)分類方法是根據(jù)數(shù)據(jù)的統(tǒng)計特征與訓練樣本數(shù)據(jù)之間的關系來進行分類的,其分類精度往往很不理想。近年來在采用支持向量機(Support Vector Machine,SVM)和隨機森林 (Random Forests,RF) 等新方法進行研究的過程中,取得了很大的進展[7]。最大似然分類 (Maximum Likelihood Classification,MLC) 是基于統(tǒng)計模型分類的最常用且精度較高的監(jiān)督分類法,但感數(shù)據(jù)的統(tǒng)計分布具有高度的復雜性和隨機性,分類結果不可避免地存在誤分、漏分的情況[8],且分類精度很大程度上依賴于分割尺度的大小[9]。支持向量機分類(SVM)是近年來在統(tǒng)計學理論基礎上發(fā)展起來的一種新型算法。實驗表明SVM不但能獲得比較高的分類精度,而且在學習速度、自適應能力、特征空間維數(shù)不限制、可表達性等方面具有優(yōu)勢,更適合于復雜、高維的數(shù)據(jù)分析處理[10],但是SVM用于解優(yōu)化問題的逼近算法會影響泛化能力。隨機森林分類 (RF) 是由Breiman[11]提出的基于決策樹分類器的融合算法,其優(yōu)點在于對于很多種資料,它可以產(chǎn)生高準確度的分類器,應用處理大量的輸入變量時能夠保證其高效性。但對于有不同級別的屬性數(shù)據(jù),級別劃分較多會對隨機森林產(chǎn)生更大的影響。
本文以TM影像為試驗數(shù)據(jù),應用以上3種圖像分類方法進行土地覆蓋分類試驗,從分類精度、樣本數(shù)量對分類器的影響、模型復雜度、分類速度等幾個方面進行了比較分析,以尋求整個湄公河區(qū)域土地覆蓋遙感分類的最優(yōu)技術方案。
2數(shù)據(jù)源及預處理
21數(shù)據(jù)源及預處理
遙感數(shù)據(jù)采用美國 Landsat衛(wèi)星所獲取的多波段掃描影像產(chǎn)品。成像時間為2005年5月25日,圖像軌道號:p128r43、p127r43、p128r44和p127r44。圖1為4景影像數(shù)據(jù)經(jīng)過裁剪拼接后按5(R),4(G),3(B)合成得到的研究區(qū)遙感影像圖。
22土地覆蓋分類系統(tǒng)和訓練樣本數(shù)據(jù)
分類系統(tǒng)建立主要基于國土資源部《土地利用現(xiàn)狀分類》一級分類系統(tǒng),并考慮到整個大湄公河次區(qū)域地區(qū)土地覆蓋/土地利用分類系統(tǒng)的一致性、遙感數(shù)據(jù)的可分性等因素后最終確定將研究區(qū)的土地覆蓋/土地利用劃分建筑用地、農(nóng)地、水域、針葉林地、闊葉林地、灌木林地和裸地7種地類。
23分類數(shù)據(jù)特征選取
多光譜遙感數(shù)據(jù)的最佳波段選取是遙感圖像增強處理的關鍵部分,直接影響到目視解譯[13]和研究對象的信息提取。TM的7個波段中TM1~TM5、TM7這6個波段波長范圍為045~235μm,空間分辨率為30m,時間分辨率為16d,而TM6為遠紅外波段,波長為104~125μm,空間分辨率為120m,數(shù)據(jù)量最小,一般不用于波段組合。3不同分類方法試驗
31最大似然分類法 (MLC)
最大似然方法 (MLC) 是又叫貝葉斯 (Bayes) 判別分類,根據(jù)貝葉斯理論在使錯誤分類概率最小的約束條件下進行,是遙感影像監(jiān)督分類最常用的統(tǒng)計方法之一[14,15]。
32支持向量機分類 (SVM)
SVM分類器使用高維特征空間,在高維特征空間中構造的線性決策邊界可對應于輸入空間的非線性決策邊界,通過使用具有很多個基函數(shù)的線性估計量,使在高維空間控制逼近函數(shù)的復雜性提供很好的推廣能力,利用線性函數(shù)的對偶核,解決數(shù)值優(yōu)化的二次規(guī)劃求解問題[16,17]。
SVM 分類器在參數(shù)選擇上,將實際問題轉(zhuǎn)換到高維空間,采用一種基于交叉驗證的網(wǎng)格搜尋[18]的方法來尋找最優(yōu)分類面,用參數(shù)選擇模型Gridpy來搜索C和 γ 的取值[19]。33隨機森林分類(RF)
隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林中的任意兩棵決策樹是相對獨立的。對于新來的測試樣本,通過每棵決策樹都對它進行分類決策,最后的分類結果由投票法得出。雖然決策樹不是很強的分類器,但是通過組合起來的隨機森林,卻是一種強分類器。
4分類方法比較
41分類精度評價
根據(jù)二類調(diào)查小班數(shù)據(jù)選取測試樣本點,像元個數(shù)分別為:水體338、建筑530、裸地670、農(nóng)地663、灌木林地589、針葉林地739、闊葉林地721,總的測試樣本數(shù)為4250像元,利用混淆矩陣對分類結果進行客觀評價,對本次精度進行評價。參照二類調(diào)查小班數(shù)據(jù)及中國森林資源圖集等評定出隨機點的實際類別,得到誤差矩陣。
為了對比訓練樣本數(shù)量對不同分類器的影響,減少部分樣本的數(shù)量進行試驗
樣本3減少了所有地類數(shù)量,分類結果三種分類器均有影響,但MLC和SVM影響較小,RF影響較大。不同訓練樣本數(shù)的分類對比表明:MLC處理的樣本量需滿足最大似然法近似高斯分布,樣本量的增加對MLC分類精度提高不顯著。MLC是此3種分類法中最穩(wěn)定的方法;SVM在處理少量訓練樣本數(shù)量時,分類精度優(yōu)于較高,但速度較慢;RF在有大量樣本的情況下不管是在速度還是精度都能達到令人滿意的結果,但對樣本的依賴性較強(表4)。
表4各種分類方法綜合對比
分類法精度樣本量影響模型復雜度速度推廣MLC一般小較高很快一般SVM較高中高慢較高RF較高大高較快高
43分類結果
選取最優(yōu)分類器RF完成麻栗坡縣土地覆蓋類型遙感分類,表5為分類結果的面積統(tǒng)計,將此統(tǒng)計結果與二類調(diào)查小班統(tǒng)計數(shù)據(jù)對比,每種土地覆蓋類型誤差都在±5%之內(nèi) 。表明基于隨機森林的分類方法取得了較好的效果。
5結語
先后運用3種典型分類方法對TM影像的土地覆蓋分類進行試驗,經(jīng)過比較與分析,總體得出以下結論。
(1)土地利用類型反射率差異大,易受擾動,SVM最優(yōu)指數(shù)的選擇,是改善其土地利用分類的精度的重要因素。
(2)綜合比較各分類器的性能,最大似然分類法 (MC) 最為簡便,且最穩(wěn)定,但精度低;支持向量機 (SVM)在少量的樣本條件下分類精度也能達到令人滿意的結果;隨即森林 (RF) 在速度和精度上都具有優(yōu)勢,但對樣本的依賴較高。
(3) 從研究區(qū)數(shù)據(jù)來看,隨機森林 (RF) 分類方法可信度較高。其分類結果對比二類調(diào)查數(shù)據(jù)較為理想。
研究結果可為亞太森林網(wǎng)絡(APFNET)資助的國際合作項目“大湄公河次區(qū)域森林覆蓋與碳儲量遙感制圖”的研究,探索大尺度的森林分類和遙感制圖方法,為大尺度的森林制圖和變化監(jiān)測提供有效的技術手段,對于探索森林覆蓋與碳儲量增長及衰退的情況,林業(yè)技術、項目、貿(mào)易間的合作與交流等提供技術支持。
參考文獻:
[1] 陳志,胡勇,劉成武咸寧市土地利用結構時空演變及其驅(qū)動力分析[J]安徽農(nóng)業(yè)科學,2007,35(26):8299~8301
[2] 祁元,王一謀,王建華,等寧夏土地利用時、空變化及其驅(qū)動機制[J]冰川凍土,2005,27(6):899~904
[3] 徐霞,王靜愛,朱玉潔,等內(nèi)蒙古中部地區(qū)土地利用變化區(qū)域差異分析[J]北京師范大學學報:自然科學版,2006,42(3):310~313
[4] 俞文政,常慶瑞,寇建村青海湖流域草地類型變化及其生態(tài)服務價值研究[J]草業(yè)科學,2005,22(9):14~17
[5] 周勝利美國的遙感計劃與政策[J]國際太空,2003(10):17
[6] 明慶忠,武友德,李宏云南森林生態(tài)旅游資源與可持續(xù)利用對策研究[J]熱帶地理,2000(4):321~325
[7] 蔡崇超文本分類新方法的研究與應用[D]江南大學,2008
[8] 郭健,張繼賢,張永宏,等多時相MODIS影像土地覆蓋分類比較研究[J]測繪學報,2009(1):88
[9] 喬婷,張懷清,陳永富,等基于NDVI分割與面向?qū)ο蟮臇|洞庭湖濕地植被信息提取技術[J]西北林學院學報,2013,28(4):170~175
[10] 駱劍承,周成虎,梁怡,等支撐向量機及其遙感影像空間特征提取和分類的應用研究[J]遙感學報,2002,6(1):50~55
[11] Breiman LRandom forest[J]Maching Learning,2001,45(1):5~32
[12] 肖興威中國森林資源圖集[M]北京:中國林業(yè)出版社,2005(9)
[13] 孫德福,王世紅利用TM影像圖進行林業(yè)調(diào)查應注意的問題[J]林業(yè)勘查設計,2002(2):65~67
[14] Richardsja,JiaxRemote Sensing Digital I mage Analysis:An Introduction[M]Berlin:Springer,1999
[15] 劉勇洪,牛錚,徐永明,等多種分類器在華北地區(qū)土地覆蓋遙感分類中的性能評價[J]中國科學院研究生報,2005,22(6):724~732
[16] Martin Brown,Hugh GLewis and Steve RGunn,Support Vector Machines For Spectral Unmixing[J]IGRASS99,1999(2):1363~1365
[17] Lothar Hermes,Dieter Frieauff,Jan Puzicha and Joachim MBushman,Support Vector Machines for Land Usage Classification in Landsat TM Imagery[J]Procof the IEEE International Geoscience and Remote Sensing Symposium,1999(1):348~350
[18] 王健峰,張磊,陳國興,等基于改進的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J]應用科技,2012,39(3):29
[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I~418
[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/
Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications
Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology
[18] 王健峰,張磊,陳國興,等基于改進的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J]應用科技,2012,39(3):29
[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I~418
[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/
Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications
Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology
[18] 王健峰,張磊,陳國興,等基于改進的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J]應用科技,2012,39(3):29
[19] Boardman J W,Kruse F AAutomated spectral analysis:a geological example using AVIRIS data,north Grapevine Mountains[C]Nevada:In Proceeding,ERIM Tenth The~matic Conference on Geologic Remote Sensing,Environmental Research Institute of Michigan,Ann Arbor,MI1994,I~407~I~418
[20] BenjaminJakimowEarth Observation Center EOC of DLR[ED/OL][2012-11-12]http://induscafdlrde/forum/
Abstract: This article usesMaximum Likelihood Classification (MLC),Support Vector Machine (SVM) and Random Forest (RF) to study the land cover classification based on the Thematic Mapper (TM) images of 2005 in Malipo County,Wenshan Zhuang Prefecture in Yunnan ProvinceAnd then it carries out a comparative analysis of the classification results of three classifiers from the aspects of classification accuracy,model complexity,and time efficiencyThe results show that RF is the best and MLC is more stable than other two methodsTherefore,the conclusions in this study are valuable for how to select classifiers in the similar applications
Key words: TM images;land cover;maximum likelihood classification;support vector machine;random forest2014年3月Journal of Green Science and Technology