高文杰,王金亮,劉廣杰
(云南師范大學(xué) 旅游與地理科學(xué)學(xué)院,云南 昆明 650500)
?
訓(xùn)練樣本對(duì)遙感影像分類精度影響研究
高文杰,王金亮*,劉廣杰
(云南師范大學(xué) 旅游與地理科學(xué)學(xué)院,云南 昆明 650500)
以大理SPOT-5 HRG影像和Landsat TM影像作為數(shù)據(jù)源,在構(gòu)建標(biāo)準(zhǔn)訓(xùn)練樣本數(shù)據(jù)集的基礎(chǔ)上,探索訓(xùn)練樣本對(duì)遙感影像分類的影響。選取不同訓(xùn)練樣本數(shù)量組合,分別對(duì)監(jiān)督分類中的平行六面體、最小距離、馬氏距離、最大似然法、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)6種分類方法進(jìn)行多次實(shí)驗(yàn),并采用Kappa系數(shù)和總體分類精度對(duì)實(shí)驗(yàn)分類結(jié)果的精度進(jìn)行評(píng)價(jià)。結(jié)果表明:以多次分類結(jié)果的平均值作為最終的分類結(jié)果能減小隨機(jī)誤差;增加訓(xùn)練樣本數(shù)量可以減小單次分類引起的隨機(jī)誤差;在不同的訓(xùn)練樣本量下,支持向量機(jī)的分類精度最高。
訓(xùn)練樣本;遙感分類;分類精度;大理
監(jiān)督分類是遙感數(shù)據(jù)提取信息的最常用的一種方法。在監(jiān)督分類中,首先選擇一定數(shù)量的不同類別地物的訓(xùn)練樣本,通過(guò)對(duì)訓(xùn)練樣本數(shù)據(jù)像元值的統(tǒng)計(jì)分析,得出每一類別的統(tǒng)計(jì)特征量;然后根據(jù)統(tǒng)計(jì)特征量,利用不同的分類算法得出相應(yīng)的分類模型;最后,利用所得到的分類模型對(duì)整個(gè)遙感數(shù)據(jù)的所有像元進(jìn)行分類[1]。因此,訓(xùn)練樣本的選擇對(duì)分類結(jié)果有很大的影響,不同的訓(xùn)練樣本所得到的分類結(jié)果也會(huì)有很大的差異。為保證分類結(jié)果有較高精度,從理論上說(shuō),選擇的樣本像元應(yīng)滿足兩個(gè)條件[2]:一是每個(gè)類別地物的所有訓(xùn)練樣本中每個(gè)像元所代表的實(shí)際地物類別應(yīng)與該類實(shí)際地物類別相一致,即所有訓(xùn)練樣本中像元的地物類型應(yīng)為單純的同一種地物類型。二是選擇的樣本像元應(yīng)具有代表性,即訓(xùn)練樣本的統(tǒng)計(jì)特征量與該類型總體統(tǒng)計(jì)特征相接近。陶秋香等[3]研究了植被高光譜分類中訓(xùn)練樣本的選擇方法,薄樹(shù)奎等[4]研究了面對(duì)對(duì)象方法的訓(xùn)練樣本數(shù)量選擇問(wèn)題。李文慶等[5]參考Google Earth提供的高分辨率遙感圖像,利用ETM 解譯生成訓(xùn)練樣本,然后采用最大似然監(jiān)督分類算法進(jìn)行ETM 圖像分類。趙慧等[6]探討了訓(xùn)練樣本、輔助數(shù)據(jù)以及分類技術(shù)對(duì)土地利用/覆蓋分類精度的影響。任廣波等[7]以直推式支持向量機(jī)分類為例,發(fā)展了一種基于半監(jiān)督學(xué)習(xí)的遙感影像訓(xùn)練樣本時(shí)空拓展方法。薄樹(shù)奎、李向等[8]基于興趣類別提出一種基于白化變換的單類分類方法。本文參考SPOT-5 HRG影像數(shù)據(jù),對(duì)Landsat TM影像數(shù)據(jù)進(jìn)行遙感分類,旨在研究訓(xùn)練樣本數(shù)量組合對(duì)遙感分類的影響,為遙感影像分類提供一定的實(shí)驗(yàn)依據(jù)。
1.1 研究區(qū)概況
云南省大理白族自治州位于中國(guó)西南的云貴高原與橫斷山脈的過(guò)渡地帶,其西面與云嶺山脈相連,東面與滇中高原相接,地勢(shì)總體上呈東南低西北高的特點(diǎn)。大理白族自治州地處云南省中部偏西,東鄰楚雄州,南靠普洱市、臨滄市,西與保山市、怒江州相連,北接麗江市。地跨98°52′E~101°03′E,24°41′N~26°42′N。大理白族自治州地貌復(fù)雜多樣,其面積為29 459 km2。其中,山區(qū)面積占總面積近90%,壩區(qū)面積僅占10%左右。點(diǎn)蒼山位于大理地區(qū)中部,其西部為高山峽谷區(qū)。在點(diǎn)蒼山以東至祥云以西的地區(qū),總體上來(lái)看為中心陡坡地形[9]。
本文選取大理市祥云縣清澗美水庫(kù)附近(圖1)作為研究區(qū)。
圖1 研究區(qū)位置圖Fig.1 Location of the study area
1.2 數(shù)據(jù)及預(yù)處理
以SPOT-5 HRG和Landsat TM遙感數(shù)據(jù)為數(shù)據(jù)源。SPOT-5 HRG影像獲取時(shí)間為2008年10月20日,空間分辨率為10 m。Landsat TM影像獲取時(shí)間為2008年12月16日,軌道號(hào)/行號(hào):131/42,共7個(gè)波段,空間分辨率為30 m(TM6的空間分辨率為60 m)。
分類之前,對(duì)TM和HRG影像進(jìn)行預(yù)處理。包括圖像裁剪、輻射校正、幾何校正及圖像配準(zhǔn)等。影像校正后保證誤差在3個(gè)像元之內(nèi),投影類型轉(zhuǎn)換為UTM WGS 84。
2.1 標(biāo)準(zhǔn)樣本數(shù)據(jù)集的提取
參考SPOT-5 HRG遙感影像,從TM遙感影像上提取標(biāo)準(zhǔn)樣本集。具體步驟如下:
(1)經(jīng)過(guò)觀察和分析,將研究區(qū)主要地物類型定為:林地、水體、耕地、居民用地和其他。采用最大似然法分別對(duì)SPOT-5 HRG和TM遙感影像進(jìn)行分類。相關(guān)研究表明,為保證分類精度,訓(xùn)練樣本量要大于一定數(shù)量。一般要求每個(gè)類別的訓(xùn)練樣本量至少為遙感數(shù)據(jù)波段數(shù)的10~30倍,才能基本保證分類精度[10]。因此,研究分別選用了各類別超過(guò)波段數(shù)30倍的訓(xùn)練樣本量進(jìn)行分類研究。
(2)將10 m分辨率SPOT-5 HRG影像的最大似然法分類結(jié)果合并為30 m分辨率的分類結(jié)果。
(3)基于TM影像的分類結(jié)果和SPOT-5 HRG影像分類的30 m分辨率合成結(jié)果,其交集則為標(biāo)準(zhǔn)樣本數(shù)據(jù)。如對(duì)于某一塊地物類型,TM影像的分類結(jié)果為林地,SPOT-5 HRG影像分類的30 m分辨率合成結(jié)果也為林地,則這塊地物類型就為林地。
(4)對(duì)標(biāo)準(zhǔn)樣本數(shù)據(jù)進(jìn)行多次目視糾正,最終得到標(biāo)準(zhǔn)樣本數(shù)據(jù)區(qū)圖像。
統(tǒng)計(jì)各地物訓(xùn)練樣本在各波段的均值和方差(表1),訓(xùn)練樣本J-M距離(表2),訓(xùn)練樣本轉(zhuǎn)換分離度(表3)。分析認(rèn)為訓(xùn)練樣本的分離度很高,J-M距離大于1.8,轉(zhuǎn)換分離度大于1.9,表示統(tǒng)計(jì)可分性強(qiáng),完全滿足實(shí)驗(yàn)的分類要求。
表1 訓(xùn)練樣本統(tǒng)計(jì)特征表Tab.1 Statistical characteristics of the training sample
表2 訓(xùn)練樣本J-M距離表Tab.2 J-M distance of the training sample
表3 訓(xùn)練樣本轉(zhuǎn)換分離表Tab.3 Separation conversion of the training sample
2.2 研究步驟
由于研究區(qū)內(nèi)不同地物類型的面積存在很大差異,為了保證面積小的地物類型也能獲得足夠多的訓(xùn)練樣本,以標(biāo)準(zhǔn)樣本數(shù)據(jù)集為基礎(chǔ),采用分層隨機(jī)抽樣方法抽取了不同數(shù)量(1%、5%、10%、20%、30%、40%)的訓(xùn)練樣本,同時(shí)利用監(jiān)督分類中的平行六面體、最小距離、馬氏距離、最大似然法、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)6種分類方法,對(duì)研究區(qū)的TM遙感影像進(jìn)行分類,地物類型包括林地、水體、耕地、居民用地和其他5種。為研究隨機(jī)誤差對(duì)分類精度的影響,對(duì)每個(gè)樣本量下的6種分類方法均作了3次實(shí)驗(yàn)。
3.1 精度評(píng)價(jià)指標(biāo)
采用總體分類精度和Kappa系數(shù)來(lái)對(duì)上面的分類結(jié)果進(jìn)行精度評(píng)價(jià)。(1)總體分類精度:正確分類像元數(shù)與研究區(qū)總像元數(shù)的比值。(2)Kappa 系數(shù):通過(guò)把所有地表真實(shí)分類中的像元總數(shù)乘以混淆矩陣對(duì)角線的和,再減去某一類中地表真實(shí)像元總數(shù)與該類中被分類像元總數(shù)之積對(duì)所有類別求和的結(jié)果,再除以總像元數(shù)的平方差減去某一類中地表真實(shí)像元總數(shù)與該類中被分類像元總數(shù)之積對(duì)所有類別求和的結(jié)果所得到的。
Kappa系數(shù)法是一種離散型的多元的綜合分析方法,不受像元數(shù)的影響,能夠完整地利用混淆矩陣得到的結(jié)果,具有其他精度評(píng)價(jià)方法不具備的優(yōu)勢(shì)。其公式[11]為:
式中:r是混淆矩陣中的總列數(shù);xii是混淆矩陣中第i行、第i列上像元數(shù)量(即正確分類的數(shù)目);xi+和x+i分別是第i行和第i列總像元數(shù)量;N是總觀察值,也就是混淆矩陣中用于精度評(píng)估的所有像元數(shù)量之和。
3.2 結(jié)果分析
圖2~圖7為在不同訓(xùn)練樣本量下6種不同分類方法的總體分類精度和Kappa系數(shù)隨訓(xùn)練樣本量的增加而發(fā)生變化的曲線。
圖2 平行六面體分類精度與訓(xùn)練樣本數(shù)量的關(guān)系Fig.2 The relationship between parallelepiped classification accuracy and the number of training samples
圖3 馬氏距離分類精度與訓(xùn)練樣本數(shù)量的關(guān)系Fig.3 The relationship between Mahalanobis distance classification accuracy and the number of training samples
圖4 最小距離分類精度與訓(xùn)練樣本數(shù)量的關(guān)系Fig.4 The relationship between minimum distance classification accuracy and the number of training samples
圖5 最大似然法分類精度與訓(xùn)練樣本數(shù)量的關(guān)系Fig.5 The relationship between maximum likelihood classification accuracy and the number of training samples
圖6 神經(jīng)網(wǎng)絡(luò)分類精度與訓(xùn)練樣本數(shù)量的關(guān)系Fig.6 The relationship between neural network classification accuracy and the number of training samples
圖7 支持向量機(jī)分類精度與訓(xùn)練樣本數(shù)量的關(guān)系Fig.7 The relationship between SVM classification accuracy and the number of training samples
由圖2~圖7可得出以下結(jié)論:
(1)對(duì)于相同的分類方法
當(dāng)訓(xùn)練樣本量呈現(xiàn)出增加的態(tài)勢(shì)時(shí),分類精度的波動(dòng)范圍隨之逐漸減小。
(2)對(duì)于不同的分類方法
①如果在相同訓(xùn)練樣本量的情況下,不同分類方法的Kappa系數(shù)和總體分類精度差異較大,由圖2~圖7可以看出,支持向量機(jī)的分類精度最高(Kappa系數(shù)在0.8以上,總體分類精度在84.5%以上),由高到低依次為神經(jīng)網(wǎng)絡(luò)、最大似然、最小距離和馬氏距離,而分類精度最低的是平行六面體(Kappa系數(shù)僅為0.59~0.68,總體分類精度僅為69%~78.5%)。主要是因?yàn)槠叫辛骟w分類的空間尺度的大小需要使用者根據(jù)實(shí)際經(jīng)驗(yàn)和計(jì)算,選擇合適的標(biāo)準(zhǔn)差閾值充當(dāng)。分類時(shí),根據(jù)像元相似性落在空間內(nèi)的歸屬為同一種類地物,落在空間外的不進(jìn)行地物類型聚類分析[12]。
②當(dāng)訓(xùn)練樣本量在增加時(shí),支持向量機(jī)的分類精度的Kappa系數(shù)和總體分類精度均會(huì)表現(xiàn)出增加的趨勢(shì),而其他幾種方法的分類精度則表現(xiàn)為先期隨著訓(xùn)練樣本量的增加而增加,但當(dāng)訓(xùn)練樣本量接近某一數(shù)量時(shí),其Kappa系數(shù)和總體分類精度逐漸趨于穩(wěn)定。因?yàn)橹С窒蛄繖C(jī)和基于一般統(tǒng)計(jì)的分類方法對(duì)訓(xùn)練樣本的要求是區(qū)別的。對(duì)于傳統(tǒng)的基于統(tǒng)計(jì)的分類方法來(lái)說(shuō),當(dāng)訓(xùn)練樣本達(dá)到接近某一數(shù)量并可以準(zhǔn)確描述全部像元的分布規(guī)律時(shí),增加訓(xùn)練樣本量對(duì)提高分類精度的影響是不明顯的。但對(duì)于支持向量機(jī)分類方法來(lái)說(shuō),支持向量的那部分像元對(duì)分類精度起著至關(guān)重要的作用[13]。隨著訓(xùn)練樣本量的不斷增加,支持向量機(jī)的那部分像元也隨其增加,因此,支持向量機(jī)分類方法的Kappa系數(shù)和總體分類精度均隨訓(xùn)練樣本量的增加而逐漸增加。
4.1 結(jié)論
參考SPOT-5 HRG遙感影像,在構(gòu)建標(biāo)準(zhǔn)訓(xùn)練樣本數(shù)據(jù)集的基礎(chǔ)上,提取不同的訓(xùn)練樣本量,有目的的分別對(duì)監(jiān)督分類中的平行六面體、最小距離、馬氏距離、最大似然法、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)六種分類方法對(duì)TM遙感影像進(jìn)行多次分類實(shí)驗(yàn),利用Kappa系數(shù)和總體分類精度對(duì)6種分類方法的分類結(jié)果精度進(jìn)行了評(píng)價(jià)和對(duì)比分析,認(rèn)為:
(1)在實(shí)際工作中單用某次分類結(jié)果作為最終分類結(jié)果,必然會(huì)存在一定的誤差,增加訓(xùn)練樣本數(shù)量可以減小單次分類引起的誤差。
(2)隨著訓(xùn)練樣本量的增加,當(dāng)訓(xùn)練樣本量足以描述像元的分布規(guī)律時(shí),增加訓(xùn)練樣本量對(duì)于傳統(tǒng)分類方法來(lái)說(shuō),對(duì)其分類精度的影響是不明顯的。但對(duì)于支持向量機(jī)分類方法來(lái)說(shuō),隨著訓(xùn)練樣本量的增加,支持向量機(jī)分類的Kappa系數(shù)和總體分類精度會(huì)出現(xiàn)隨訓(xùn)練樣本量的增加而逐漸增加的現(xiàn)象。
通過(guò)以上分析,在不同的訓(xùn)練樣本量下,分類精度最高的是支持向量機(jī),且支持向量機(jī)的分類精度會(huì)出現(xiàn)隨訓(xùn)練樣本量的增加而提高的現(xiàn)象。所以,在實(shí)際分類中,應(yīng)該優(yōu)先考慮支持向量機(jī)。
4.2 討論
本研究選取大理某一區(qū)域進(jìn)行分類實(shí)驗(yàn)研究,分類系統(tǒng)及訓(xùn)練樣本的選取具有一定的主觀性。SPOT HRG影像的獲取時(shí)間為10月份,而Landsat TM影像的獲取時(shí)間為12月份,影像獲取的時(shí)間不同,對(duì)分類可能造成一定的影響。在以后的研究中,在影像的選取上盡可能選擇同一時(shí)間,分類系統(tǒng)和訓(xùn)練樣本的選取盡可能客觀。
本研究?jī)H對(duì)每種分類方法做了3次實(shí)驗(yàn),在以后的研究中應(yīng)對(duì)每種分類方法進(jìn)行多次實(shí)驗(yàn),使結(jié)果更具代表性和客觀性。本研究只對(duì)監(jiān)督分類中的6種分類方法進(jìn)行了對(duì)比研究,在以后的研究中可以加入決策樹(shù)等分類方法進(jìn)行對(duì)比研究。
[1]梅安新,彭望琭,秦其明,等.遙感導(dǎo)論[M].北京:高等教育出版社,2001:198-199.
[2]吳健平,楊星衛(wèi).遙感數(shù)據(jù)監(jiān)督分類中訓(xùn)練樣本的純化[J].國(guó)土資源遙感,1996,1(27):36-40.
[3]陶秋香,張連蓬,李紅梅.植被高光譜遙感分類中訓(xùn)練樣本的選擇方法[J].國(guó)土資源遙感,2005,2(64):33-45.
[4]薄樹(shù)奎,丁琳.訓(xùn)練樣本數(shù)目選擇對(duì)面向?qū)ο笥跋穹诸惙椒ň鹊挠绊慬J].中國(guó)圖象圖形學(xué)報(bào),2010,15(7):1106-1111.
[5]李文慶,姜琦剛,邢宇,等.基于Google Earth的ETM+遙感圖像自動(dòng)分類方法[J].江西農(nóng)業(yè)學(xué)報(bào),2012,24(12):158-163.
[6]趙慧,汪云甲.影響ETM影像土地利用/覆蓋分類精度因素的研究[J].遙感技術(shù)與應(yīng)用,2012,27(4):600-608.
[7]任廣波,張杰,馬毅,等.基于半監(jiān)督學(xué)習(xí)的遙感影像分類訓(xùn)練樣本時(shí)空拓展方法[J].國(guó)土資源遙感,2013,25(2):87-94.
[8]薄樹(shù)奎,李向,李玲玲.遙感影像單類分類的白化變換法[J].測(cè)繪學(xué)報(bào),2015,44(2):190-197.
[9]黎春梅.云南大理白族自治州土地利用結(jié)構(gòu)研究[D].武漢:華中師范大學(xué),2011.
[10]Foody G M,Mathur A.The use of small training sets containing mixed pixels for accurate hard image classification:Training on mixed spectral responses for classification by a SVM[J].Remote Sensing of Environment,2006,103(2):179-189.
[11]劉禮,于強(qiáng).分層分類與監(jiān)督分類相結(jié)合的遙感分類法研究[J].林業(yè)調(diào)查規(guī)劃,2007,32(4):37-39.
[12]朱秀芳,潘耀忠,張錦水,等.訓(xùn)練樣本對(duì)TM尺度小麥種植面積測(cè)量精度影響研究-訓(xùn)練樣本與分類方法間分類精度響應(yīng)關(guān)系研究[J].遙感學(xué)報(bào),2007,11(6):826-837.
[13]張華.遙感數(shù)據(jù)可靠性分類方法研究[D].徐州:中國(guó)礦業(yè)大學(xué),2012.
STUDY ON THE EFFECT OF TRAINING SAMPLE ON CLASSIFICATION ACCURACY OF REMOTE SENSING IMAGE
GAO Wen-jie,WANG Jin-liang,LIU Guang-jie
(CollegeofTourismandGeographicScience,YunnanNormalUniversity,Kunming650500,Yunnan,China)
SPOT-5 HRG image and Landsat TM image as a data source in Dali,on the basis of building standards on the training sample data set to explore the impact of training samples to remote sensing image classification.Selecting the different combinations of training samples,respectively,supervised the six classification of parallelepiped,minimum distance,Mahalanobis distance,maximum likelihood,neural networks and support vector machine(SVM).Using Kappa coefficient and the overall classification precision of the experimental accuracy of the classification results of the evaluation.The experimental results show that the outcome should be the average of multiple classification as the final classification results can reduce the random error;increased training samples can reduce the number of samples of random errors caused by single classification;SVM is the highest classification accuracy under the different training samples.
training sample;remote sensing classification;classification accuracy;Dali
2015-03-07;
2015-04-01.
*通信作者:王金亮(1963-),男,云南省武定人,教授,博士,主要從事遙感與地理信息系統(tǒng)應(yīng)用研究.
P237
A
1001-7852(2015)02-0031-06