王懷警,譚炳香,房秀鳳,李世明,李太興
(1.中國(guó)林業(yè)科學(xué)研究院 資源信息研究所遙感室,北京100091;2.吉林省白河林業(yè)局,吉林 延邊 133613)
遙感技術(shù)具有覆蓋范圍大、重訪周期短、應(yīng)用成本低等優(yōu)勢(shì),能及時(shí)準(zhǔn)確地掌握森林類(lèi)型、分布、面積、結(jié)構(gòu)、質(zhì)量、現(xiàn)狀及動(dòng)態(tài)變化情況,在森林區(qū)劃、森林資源調(diào)查、森林類(lèi)型精細(xì)識(shí)別、植被制圖[1]、動(dòng)態(tài)變化監(jiān)測(cè)等方面具有巨大的應(yīng)用潛力。利用遙感影像開(kāi)展土地利用類(lèi)型分類(lèi)和森林類(lèi)型識(shí)別已有較多研究,主要集中在非參數(shù)化智能化分類(lèi)、多源遙感數(shù)據(jù)與輔助信息綜合分類(lèi)[2-3]、知識(shí)挖掘和專(zhuān)家系統(tǒng)、 多時(shí)相復(fù)合分類(lèi)[4]、 面向?qū)ο螅?]、 新方法引入與分類(lèi)策略[6]、 多分類(lèi)器組合[7-9]等方面, 并且在植被分類(lèi)、林地信息提取、森林類(lèi)型精細(xì)識(shí)別[10-12]、樹(shù)種(組)分類(lèi)、動(dòng)態(tài)變化監(jiān)測(cè)等方面獲得廣泛的應(yīng)用。當(dāng)前,針對(duì)高光譜影像的分類(lèi)方法,如光譜角匹配方法、最大似然法、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)等,多為基于像元光譜信息來(lái)賦予像元不同的地物類(lèi)型,比較成熟和穩(wěn)定。但此類(lèi)方法往往忽視空間信息,或者對(duì)空間信息利用不充分,在沒(méi)有輔助數(shù)據(jù)或者輔助數(shù)據(jù)較少的情況下,如何利用有限的已知樣本點(diǎn)所提供的空間位置信息或其他來(lái)源的輔助信息提高分類(lèi)精度值得深究。C5.0決策樹(shù)算法是一種以信息熵為核心思想的數(shù)據(jù)挖掘算法,可以快速尋找現(xiàn)象之間未知的關(guān)系和關(guān)聯(lián)。前人對(duì)該算法的應(yīng)用多集中在土地利用信息自動(dòng)提?。?3]、 土地覆蓋分類(lèi)[14-15]、 植被分類(lèi)[16]、森林變化檢測(cè)[17]等方面;另外,還探究不同特征對(duì)分類(lèi)的影響及不同方法的比較。然而,鮮有應(yīng)用C5.0決策樹(shù)算法探究高光譜數(shù)據(jù)森林類(lèi)型分類(lèi)。本研究以吉林省白河林業(yè)局為中心研究區(qū),充分利用影像多元特征和輔助信息,開(kāi)展基于C5.0決策樹(shù)算法的森林類(lèi)型識(shí)別方法研究,探究針對(duì)主要森林類(lèi)型或樹(shù)種(組)C5.0決策樹(shù)分類(lèi)方法的適用性和可行性。
研究區(qū)中心區(qū)域位于吉林省延邊朝鮮族自治州白河林業(yè)局境內(nèi),地理坐標(biāo)為41°41′49″~42°51′18″N,127°42′55″~128°16′48″E。 研究區(qū)覆蓋面積約為 4.05 萬(wàn) hm2,屬溫帶大陸性山地氣候, 南臨長(zhǎng)白山保護(hù)區(qū),森林覆蓋率約85%。森林植被組成和樹(shù)種成分較為復(fù)雜,屬闊葉混交、針葉混交和針闊混交林帶,基本特點(diǎn)為次生林,萌生起源為主,兼有實(shí)生林及實(shí)生樹(shù)木。研究區(qū)主要樹(shù)種及森林類(lèi)型為美人松Pinus syluestriformis林,落葉松Larix gmelinii林,樟子松Pinus sylvestrisvar.mongolica林,楊樹(shù)Populus bonatii林,白樺Betula platyphylla林,柞樹(shù)Quercus mongolica林以及闊葉混交林、針葉混交林、針闊混交林、灌木林。
研究獲取2015年7月9日Hyperion影像一景,覆蓋范圍為41.93°~42.98°N,127.97°~128.23°E,影像幅寬7.7 km×185 km,光譜范圍355~2 500 nm,共有242個(gè)波段,光譜分辨率為10 nm,空間分辨率為30 m。此外,輔助數(shù)據(jù)包括研究區(qū)行政界線(xiàn)矢量數(shù)據(jù)、先進(jìn)星載熱發(fā)射和反射輻射儀全球數(shù)字高程模型(advanced spaceborne thermal emission and reflection radiometer global digital elevation model,ASTER GDEM)30 m分辨率數(shù)字高程模型(digital elevation model,DEM)數(shù)據(jù)、研究區(qū)部分二類(lèi)調(diào)查數(shù)據(jù)(圖1),矢量數(shù)據(jù)用于研究區(qū)影像數(shù)據(jù)裁剪;DEM數(shù)據(jù)作為特征因子參與分類(lèi);二類(lèi)調(diào)查數(shù)據(jù)作為精度驗(yàn)證的輔助數(shù)據(jù)。
Hyperion影像的預(yù)處理包括壞波段剔除、壞線(xiàn)修復(fù)、Smile效應(yīng)校正、輻射校正、大氣校正、幾何校正、研究區(qū)裁剪,利用DEM數(shù)據(jù)和野外采集的全球定位系統(tǒng)(GPS)坐標(biāo)點(diǎn)對(duì)影像進(jìn)行正射校正。此外,為消除噪聲帶來(lái)的影響, 還對(duì)數(shù)據(jù)進(jìn)行了光譜平滑處理,為方便起見(jiàn),反射率數(shù)值放大1.0萬(wàn)倍。剔除質(zhì)量較差的波段,最終保留148個(gè)波段用于研究,表1列出了保留的波段及對(duì)應(yīng)的波長(zhǎng)區(qū)間(表1和圖 2)。
表1 保留的Hyperion影像波段Table 1 Reserved bands of Hyperion image
2016年9月3-9日,以Hyperion影像覆蓋范圍為主要調(diào)查區(qū)域進(jìn)行外業(yè)調(diào)查。樣地為直徑45 m的圓形樣地,在樣地中心采用GPS手持機(jī)(Trimble Geo Explorer 6000)記錄樣地中心位置坐標(biāo),同時(shí)對(duì)樣地進(jìn)行多角度拍攝,記錄森林類(lèi)型、樹(shù)種組成、優(yōu)勢(shì)樹(shù)種(組)、郁閉度、林齡、林下灌木種類(lèi),海拔、坡度、坡向、經(jīng)營(yíng)活動(dòng)等主要調(diào)查因子,詳實(shí)反映樣地及其周?chē)址种脖簧L(zhǎng)狀況,使樣地的紋理、屬性和位置信息一一對(duì)應(yīng)。野外調(diào)查共采集Hyperion影像條帶覆蓋區(qū)域?qū)崪y(cè)樣地81個(gè)。樣地在Hyperion影像條帶上的空間分布如圖2所示,實(shí)測(cè)樣地類(lèi)型及樣地?cái)?shù)見(jiàn)表2。由于樣地可達(dá)性限制,部分不能抵達(dá)觀測(cè)的樣地在圖紙和記錄表中分別記錄其相對(duì)位置和相關(guān)屬性,可用于輔助精度驗(yàn)證。
圖1 研究區(qū)部分森林類(lèi)型分布圖Figure 1 Distribution of some forest types in the study area
圖2 研究區(qū)Hyperion影像及樣地分布圖Figure 2 Hyperion image and plot distribution map of the study area
表2 實(shí)測(cè)樣地類(lèi)型及樣地?cái)?shù)Table 2 Measured sample types and number
參考《森林資源數(shù)據(jù)采集技術(shù)規(guī)范第1部分:森林資源連續(xù)清查》[18]中地類(lèi)劃分標(biāo)準(zhǔn)與《森林資源規(guī)劃設(shè)計(jì)調(diào)查技術(shù)規(guī)程》[19]中林地分類(lèi)系統(tǒng),根據(jù)研究區(qū)地表覆蓋狀況和應(yīng)用需求,結(jié)合遙感影像特點(diǎn)、森林類(lèi)型及樹(shù)種(組)精細(xì)識(shí)別能力,綜合考慮類(lèi)別科學(xué)、系統(tǒng)性及層次性,將研究區(qū)主要森林類(lèi)型劃分為美人松林、落葉松林、樟子松林、楊樹(shù)林、白樺林、柞樹(shù)林、闊葉混交林、針葉混交林、針闊混交林、灌木林地、無(wú)立木林地及濕地共12類(lèi)。而非森林并非研究重點(diǎn),故只分為耕地、園地、水域、未利用地及建設(shè)用地5類(lèi),不再進(jìn)一步細(xì)分。構(gòu)建的5級(jí)分類(lèi)系統(tǒng)見(jiàn)表3。其中,闊葉混交林主要為慢生闊葉混交林,主要包括水曲柳Fraxinus mandschurica, 胡桃楸Juglans mandshurica, 椴樹(shù)Tilia tuan szyszy,榆樹(shù)Ulmus pumila,色木Acer mono,楓樺Betula costata等硬闊類(lèi)樹(shù)種;針葉混交林主要由人工落葉松、云杉Picea asperata,紅松Pinus koraiensis和臭松Abies holophylla組成;無(wú)立木林地主要指火燒跡地;灌木林地是指附著有灌木樹(shù)種,或因生境惡化矮化成灌木型的喬木樹(shù)種;濕地類(lèi)型主要包括天然或人工的、永久或暫時(shí)的沼澤地、泥炭地、水域地帶、濕草甸、湖泊、灘涂、水庫(kù)、池塘等;園地主要有人參Panaxginseng,天麻Gastrodiaelata,靈芝Ganoderma lucidum,藍(lán)莓Vacciniumspp.等;未利用地主要指裸地;建設(shè)用地主要指建筑物及道路。
表3 分類(lèi)系統(tǒng)Table 3 Classification system
由于樣地可達(dá)性及工作量等因素限制,野外調(diào)查的樣地?cái)?shù)據(jù)比較有限,不足以進(jìn)行分類(lèi),因此需對(duì)樣本量進(jìn)行適量擴(kuò)充。具體做法如下:根據(jù)地物在空間分布具有連續(xù)性的特點(diǎn),綜合已測(cè)樣地位置、紋理、影像中光譜曲線(xiàn)及記錄表中相關(guān)信息,充分利用高光譜影像的精細(xì)光譜特征,重點(diǎn)針對(duì)森林類(lèi)型,圍繞樣地周邊像元進(jìn)行拓展,當(dāng)拓展樣本與已測(cè)樣地的光譜、紋理及記錄表中相關(guān)信息相匹配時(shí),即可判定該拓展樣本的類(lèi)別,樣本選擇結(jié)果見(jiàn)表4。
根據(jù)影像中地物光譜反射差異,選擇特征波段,先區(qū)分出易于區(qū)分的地類(lèi),將已區(qū)分的類(lèi)別進(jìn)行掩膜處理,可大大減少其對(duì)后期分類(lèi)工作的干擾,利于提高分類(lèi)精度。利用不同地物的特征波段提取某一地類(lèi)或某幾類(lèi)地物,即對(duì)地物進(jìn)行分層,隨后在層次間對(duì)地類(lèi)進(jìn)一步細(xì)分,針對(duì)層次間光譜特征較為相似的地類(lèi),綜合利用紋理信息和地形因子,構(gòu)建基于C5.0算法的決策樹(shù)模型并進(jìn)行分類(lèi)。最后對(duì)分類(lèi)結(jié)果進(jìn)行決策級(jí)融合,得到最終分類(lèi)結(jié)果。
表4 地類(lèi)列表及樣本數(shù)量Table 4 List of land types and sample number
高光譜數(shù)據(jù)波段多,波段間相關(guān)性較高,在進(jìn)行分類(lèi)研究時(shí),通常需進(jìn)行特征提取或特征選擇,以達(dá)到降維或波段優(yōu)選的目的。常通過(guò)微分變換的導(dǎo)數(shù)譜、對(duì)數(shù)變換、微分對(duì)數(shù)變換相結(jié)合、主成分分析(PCA)[20-21]等進(jìn)行高維數(shù)據(jù)的壓縮。經(jīng)試驗(yàn)對(duì)比,選用PCA法進(jìn)行降維,選取PCA的前4個(gè)分量(信息量達(dá)99%以上)參與分類(lèi)。
對(duì)于光譜特征相似的地物,往往通過(guò)其紋理差異加以區(qū)分[22-23]。根據(jù)研究區(qū)地類(lèi)特征和影像紋理特征差異,經(jīng)反復(fù)測(cè)試,分別計(jì)算PCA前3個(gè)分量各自對(duì)應(yīng)的8個(gè)紋理特征[24]參與分類(lèi),選取的紋理特征如表5所示。
表5 灰度共生矩陣計(jì)算的紋理因子Table 5 The texture factor of gray level co-occurrence matrix
研究區(qū)主要森林類(lèi)型及優(yōu)勢(shì)樹(shù)種(組)的生態(tài)學(xué)特性(如喜光、喜陰),樹(shù)種群落特征和生態(tài)適應(yīng)范圍(如柞樹(shù)多生長(zhǎng)在向陽(yáng)的山坡上),垂直向分布特征等較為明顯,因此將數(shù)字高程模型(DEM),坡度(aspect),坡向(slope)作為樹(shù)種分類(lèi)的有效特征和輔助信息,以期進(jìn)一步提高森林類(lèi)型識(shí)別精度。
C5.0決策樹(shù)算法最早的原型是由QUINLAN于1979年提出的ID3算法,后經(jīng)不斷改進(jìn)形成C4.5算法,C5.0算法是基于C4.5的進(jìn)一步改進(jìn)。C5.0增加了Boosting算法以提高分類(lèi)精度。該算法以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量和最佳分割點(diǎn),其核心概念是信息熵。信息熵又稱(chēng)為先驗(yàn)熵,是信息發(fā)送前信息量的數(shù)學(xué)期望值[25]。C5.0以信息熵的下降速度作為選取最佳分支變量和分割閾值的依據(jù),信息熵的下降意味著不確定性下降。
信息 ui(i=1, 2, …, r)的發(fā)生概率 P(ui)組成信源數(shù)學(xué)模型,信息量和信息熵的計(jì)算公式如下:
信息熵H(U)為0時(shí)表示只存在唯一的可能性,不存在不確定性;如果信源的k個(gè)信號(hào)有相同的發(fā)出概率, 即所有的 ui有 P(ui)=1/k, H(U)達(dá)到最大, 不確定性最大, P(ui)差別越小, H(U)就越大。 設(shè) S是1個(gè)樣本集合,目標(biāo)變量C有K個(gè)分類(lèi),freq(Ci,S)表示屬于Ci類(lèi)的樣本數(shù),|S|表示樣本集合S的樣本數(shù),則集合S的信息熵定義為:
如果某屬性變量T,有m個(gè)分類(lèi),則屬性變量T引入后的條件熵定義為:
屬性變量T帶來(lái)的信息增益為:
C5.0算法使用十折交叉驗(yàn)證的方法,分類(lèi)過(guò)程中及時(shí)反饋訓(xùn)練樣本的質(zhì)量,及時(shí)修改模型,避免出現(xiàn) “過(guò)度擬合”現(xiàn)象,保證較高的分類(lèi)精度。C5.0采用后剪枝 (post-pruning)策略自葉節(jié)點(diǎn)向上逐層剪枝,使用統(tǒng)計(jì)置信區(qū)間的誤差估計(jì)方式,直接在訓(xùn)練數(shù)據(jù)中估計(jì)誤差,若待剪子樹(shù)中葉節(jié)點(diǎn)誤差大于父節(jié)點(diǎn)的誤差,則予以剪去。C5.0在選擇最佳分組變量時(shí),通常會(huì)將帶有缺失值的樣本當(dāng)作臨時(shí)樣本剔除,并進(jìn)行權(quán)數(shù)調(diào)整處理,使得算法對(duì)樣本具有一定的容錯(cuò)能力。
針對(duì)不易區(qū)分的幾種地類(lèi),C5.0決策樹(shù)算法首先計(jì)算輸入樣本集的熵和不同特征波段加入后的信息增益,根據(jù)信息增益最大的字段拆分樣本,第1次拆分確定的屬性作為樹(shù)的根節(jié)點(diǎn),隨后根據(jù)其他屬性再次拆分,后建立的決策樹(shù)重點(diǎn)考慮之前被錯(cuò)分和漏分的數(shù)據(jù),直到樣本子集不能再被拆分;而屬性閾值的分割則是以信息熵下降最快為準(zhǔn)。如此建立一株完整的決策樹(shù)。最后根據(jù)樣本集對(duì)生成的決策樹(shù)進(jìn)行剪枝,剪枝的標(biāo)準(zhǔn)是葉子節(jié)點(diǎn)的錯(cuò)誤率小于父節(jié)點(diǎn)。為提升決策樹(shù)的性能,采用交叉驗(yàn)證技術(shù),對(duì)選出的屬性進(jìn)行投票。根據(jù)構(gòu)建的決策樹(shù)模型進(jìn)行細(xì)分,直至所有類(lèi)別均被區(qū)分。對(duì)分類(lèi)結(jié)果進(jìn)行決策級(jí)融合并進(jìn)行重編碼,得到所有地類(lèi)的分類(lèi)結(jié)果。對(duì)分類(lèi)結(jié)果進(jìn)行分類(lèi)后處理,合并分類(lèi)結(jié)果中碎小的細(xì)部。為了體現(xiàn)本研究方法的優(yōu)勢(shì),在相同的分類(lèi)策略下,選用性能穩(wěn)健優(yōu)異的SVM分類(lèi)器進(jìn)行分類(lèi),采用網(wǎng)格參數(shù)尋優(yōu)法尋找不同層次分類(lèi)的最優(yōu)參數(shù),確保分類(lèi)結(jié)果較好。
根據(jù)樣本對(duì)影像進(jìn)行分類(lèi)統(tǒng)計(jì),求取各波段反射率均值,得到各類(lèi)別的光譜曲線(xiàn)。圖3為獲取的各類(lèi)別反射率曲線(xiàn),可用于分析各類(lèi)別的光譜差異及確定地物分層方案。
由光譜曲線(xiàn)可見(jiàn),建設(shè)用地在藍(lán)光到紅光區(qū)間反射率呈上升趨勢(shì),不同于其他地類(lèi);水體在整個(gè)光譜區(qū)間內(nèi)反射率較低;植被在447 nm處有明顯的吸收谷,綠光區(qū)間有綠峰,紅光區(qū)間有吸收谷,近紅外區(qū)間有明顯的反射峰;柞木林和灌木林在近紅外到短波紅外區(qū)間反射率較其他植被高很多;園地在藍(lán)光到綠光區(qū)間內(nèi),反射率先快速上升而后趨于平穩(wěn),在447 nm處的吸收谷消失,近紅外區(qū)間的反射峰值低于其他植被;耕地在中紅外區(qū)間表現(xiàn)出較強(qiáng)的反射特性,在1 659 nm處達(dá)到峰值,在大于2 000 nm的波長(zhǎng)區(qū)間,反射率較其他地類(lèi)高許多。樟子松林、美人松林、濕地、無(wú)立木林地等4類(lèi)的光譜曲線(xiàn)較為相近,由于部分水體與植被相鄰,為綜合多種屬性提高分類(lèi)精度,將此4類(lèi)分為同一層;白樺林、楊樹(shù)林、落葉松林、闊葉混交林、針葉混交林、針闊混交林、建設(shè)用地等7種地類(lèi)光譜曲線(xiàn)差異不明顯,不易區(qū)分,需輔以其他信息方能加以區(qū)分。
根據(jù)地物光譜曲線(xiàn)差異選擇特征波段,對(duì)研究區(qū)地類(lèi)進(jìn)行分層,特征波段選擇和分層策略見(jiàn)圖4,分別在第4層和第7層中應(yīng)用C5.0決策樹(shù)算法構(gòu)建決策樹(shù)模型,對(duì)同一層中較難區(qū)分的地類(lèi)進(jìn)行細(xì)分。
圖3 典型地物光譜曲線(xiàn)Figure 3 Spectral curves of typical objects
為驗(yàn)證方法的適用性和森林類(lèi)型精細(xì)識(shí)別的精度,采用分層隨機(jī)抽樣產(chǎn)生獨(dú)立驗(yàn)證樣本。檢驗(yàn)樣本數(shù)與訓(xùn)練樣本數(shù)比例約為1∶3,參考野外采集樣本、高分辨率影像(Google Earth)和研究區(qū)部分二類(lèi)調(diào)查數(shù)據(jù),對(duì)森林類(lèi)型進(jìn)行精度驗(yàn)證。為驗(yàn)證森林類(lèi)型分類(lèi)精度,將非森林類(lèi)型合并為其他類(lèi),選取總體精度、Kappa系數(shù)、用戶(hù)精度和生產(chǎn)精度作為評(píng)價(jià)指標(biāo)。C5.0決策樹(shù)算法森林類(lèi)型總體分類(lèi)精度為81.9%,Kappa系數(shù)為0.709 8,SVM分類(lèi)器森林類(lèi)型總體分類(lèi)精度為84.2%,Kappa系數(shù)為0.717 8,2種方法的分類(lèi)結(jié)果和分類(lèi)精度評(píng)價(jià)分別見(jiàn)圖5和表6。
圖4 地物分層分級(jí)方案及閾值Figure 4 Hierarchical classification scheme and threshold
C5.0算法決策樹(shù)模型構(gòu)建過(guò)程中特征變量使用的頻率可作為衡量各變量對(duì)分類(lèi)貢獻(xiàn)大小的依據(jù),該算法區(qū)分第4和第7層地物使用的特征變量不同。經(jīng)優(yōu)化后的第4層和第7層地物分類(lèi)決策樹(shù)模型見(jiàn)圖6。
圖5 C5.0決策樹(shù)分類(lèi)法(A)與SVM法(B)森林類(lèi)型分類(lèi)圖Figure 5 Classification Result of C5.0 Decision tree Classifier(A) and SVM Classifier(B)
為了進(jìn)一步印證C5.0選擇特征波段的有效性,對(duì)各類(lèi)別相應(yīng)的特征波段進(jìn)行統(tǒng)計(jì)分析,選取各類(lèi)型特征波段均值繪制如圖7所示的離散直方圖,從圖7可以清晰的看出各類(lèi)別不同特征間存在明顯差異,相比光譜特征具有更好的區(qū)分性,從側(cè)面證實(shí)了C5.0決策樹(shù)算法構(gòu)建的決策樹(shù)模型的正確性。
圖6 第4層(A)和第7層(B)地物分類(lèi)決策樹(shù)模型Figure 6 Classification decision tree model of the fourth layer(A) and the seventh layer(B) terrain
圖 7 第4層(A)和第7層(B)森林類(lèi)型分類(lèi)所選特征波段均值的離散直方圖Figure 7 Discrete histograms of selected characteristic bands for fourth (A)and seventh (B)forest types
由表6可見(jiàn):2種分類(lèi)方法結(jié)果較一致,其中落葉松林、樟子松林、白樺林、楊樹(shù)林、闊葉混交林分類(lèi)精度相對(duì)較低;闊葉混交林、針葉混交林和針闊混交林間混分現(xiàn)象較明顯;美人松林、柞木林、針葉混交林、針闊混交林分類(lèi)精度相對(duì)較高。C5.0算法對(duì)落葉松林、樟子松林、楊樹(shù)林、針葉混交林和針闊混交林分類(lèi)精度優(yōu)于SVM法,SVM分類(lèi)器對(duì)白樺林、柞木林和闊葉混交林區(qū)分較好,其他類(lèi)別兩者分類(lèi)度相差不大。
對(duì)比C5.0決策樹(shù)法和SVM法,2種方法總體分類(lèi)精度均較高,SVM法總體分類(lèi)精度高于C5.0決策樹(shù)算法,但SVM法在內(nèi)存占用、耗時(shí)等方面遠(yuǎn)高于C5.0決策樹(shù)法,SVM分類(lèi)器存在最優(yōu)參數(shù)選擇的問(wèn)題,而C5.0決策樹(shù)算法則參數(shù)較少。2種方法對(duì)植被的識(shí)別能力均弱于其他地物,但相比而言,C5.0決策樹(shù)算法對(duì)綠色植被識(shí)別能力優(yōu)于SVM法;2種方法對(duì)不同地物的識(shí)別能力不同,存在優(yōu)勢(shì)互補(bǔ)的可能。
訓(xùn)練樣本選擇準(zhǔn)確對(duì)分類(lèi)至關(guān)重要。野外調(diào)查時(shí)間與影像成像時(shí)間相隔約1 a,研究中忽略了此間變化產(chǎn)生的影響。研究區(qū)地物類(lèi)型豐富,不同地類(lèi)混雜較嚴(yán)重,導(dǎo)致分類(lèi)結(jié)果較為破碎。研究區(qū)森林覆蓋度較高,針葉混交林、針闊混交林和闊葉混交林混雜嚴(yán)重,加之三者特征相近,故較難區(qū)分。由于不同地類(lèi)訓(xùn)練樣本數(shù)量不同,訓(xùn)練樣本數(shù)較少,可能導(dǎo)致其分類(lèi)精度較低??梢?jiàn),紋理信息有助于提高某些地物分類(lèi)精度,但限于影像空間分辨率,導(dǎo)致紋理信息不足以精細(xì)地描述不同森林類(lèi)型的差異;地物尺寸較大時(shí)紋理信息對(duì)分類(lèi)精度提升明顯,例如流線(xiàn)狀的河流和道路。紋理因子對(duì)分類(lèi)的貢獻(xiàn)率與影像分辨率間的關(guān)系,有待進(jìn)一步探究。
表6 C5.0決策樹(shù)算法與SVM法森林類(lèi)型分類(lèi)精度評(píng)價(jià)Table 6 Forest land type classification accuracy evaluation result of C5.0 decision tree algorithm and SVM
結(jié)合以上實(shí)驗(yàn)分析,總結(jié)如下:①針對(duì)土地覆蓋類(lèi)型復(fù)雜的區(qū)域,采用分層分類(lèi)的策略可提高總體的分類(lèi)精度,且分層數(shù)不宜過(guò)多;②建立的決策樹(shù)模型深度越深,其精度越小,故決策樹(shù)的深度不宜過(guò)深;③C5.0決策樹(shù)算法對(duì)綠色植被的識(shí)別能力弱于其他類(lèi)別;④分層分類(lèi)策略結(jié)合C5.0決策樹(shù)算法應(yīng)用于高光譜森林類(lèi)型分類(lèi),易與其他輔助數(shù)據(jù)結(jié)合,森林類(lèi)型識(shí)別可達(dá)到優(yōu)勢(shì)樹(shù)種(組)級(jí)別,可行性好,可應(yīng)用于實(shí)際生產(chǎn);⑤綜合遙感影像的光譜、紋理和地形信息的分層信息提取方法,森林類(lèi)型識(shí)別更為精細(xì),能滿(mǎn)足復(fù)雜地形條件下星載高光譜影像森林類(lèi)型精細(xì)識(shí)別的應(yīng)用需求,對(duì)中國(guó)GF-5號(hào)高光譜遙感數(shù)據(jù)林業(yè)應(yīng)用具有參考價(jià)值。
研究表明:①該算法對(duì)綠色植被的識(shí)別能力弱于其他類(lèi)別;②該算法在訓(xùn)練樣本數(shù)較少時(shí)依然表現(xiàn)較好,可充分利用影像的光譜、紋理及其他輔助信息,不會(huì)或較少出現(xiàn)局部收斂現(xiàn)象;③地形較復(fù)雜區(qū)域進(jìn)行分類(lèi)時(shí),地形因子對(duì)分類(lèi)貢獻(xiàn)度較高;④C5.0決策樹(shù)算法,計(jì)算速度快,占用內(nèi)存小,自動(dòng)選擇特征變量和分割閾值,且生成的決策樹(shù)規(guī)則易于理解,總體分類(lèi)精度較高;⑤該算法在利用紋理因子參與分類(lèi)時(shí),均值、方差、一致性、相異性4個(gè)變量對(duì)分類(lèi)貢獻(xiàn)較高。
研究采用的數(shù)據(jù)空間分辨率較低,混合像元現(xiàn)象嚴(yán)重,以后可考慮從混合像元分解入手改進(jìn)分類(lèi)策略和算法。C5.0決策樹(shù)算法存在與其他分類(lèi)器(如SVM)優(yōu)勢(shì)互補(bǔ)的潛力,今后可考慮多分類(lèi)器融合或組合策略,以提高森林類(lèi)型分類(lèi)精度。
[1] 張志明,張征凱,郭銀明,等.高原山區(qū)遙感植被制圖研究綜述[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,35(3):416-427.ZHANG Zhiming,ZHANG Zhengkai,GUO Yinming,et al.Mountain vegetation mapping using remote sensing [J].J Yunnan Univ, 2013,35(3):416 - 427.
[2] VOISIN A, KRYLOV V A, MOSER G,et al.Supervised classification of multisensory and multiresolution remote sensing images with a hierarchical copula-based approach[J].IEEE Trans Geosci Remote Sens,2014,52(6):3346 -3358.
[3] 任沖,鞠洪波,張懷清,等.多源數(shù)據(jù)林地類(lèi)型的精細(xì)分類(lèi)方法[J].林業(yè)科學(xué),2016,52(6):54-65.REN Chong,JU Hongbo,ZHANG Huaiqing,et al.Multi-source data for forest land type precise classification [J].Sci Silv Sin,2016,52(6):54 - 65.
[4] 競(jìng)霞,王錦地,王紀(jì)華,等.基于分區(qū)和多時(shí)相遙感數(shù)據(jù)的山區(qū)植被分類(lèi)研究[J].遙感技術(shù)與應(yīng)用,2008,23(4):394 - 397.JING Xia, WANG Jindi, WANG Jihua,et al.Classifying forest vegetation using sub-region classification based on multi-temporal remote sensing images [J].Remote Sens Technol Appl, 2008,23(4):394 - 397.
[5] 溫一博, 范文義.多時(shí)相遙感數(shù)據(jù)森林類(lèi)型識(shí)別技術(shù)研究[J].森林工程,2013,29(2):14-20.WEN Yibo, FAN Wenyi.Remote sensing image recognition for multi-temporal forest classification [J].For Eng,2013,29(2):14 - 20.
[6] BENZ U C, HOFMANN P, WILLHAUCK G,et al.Multi-resolution, object-oriented fuzzy analysis of remote sensing data for GIS-ready information [J].ISPRS J Photogramm Remote Sens,2004,58(3/4):239 - 258.
[7] FOODY G M,BOYD D S,SANCHEZ-HERNANDEZ C.Mapping a specific class with an ensemble of classifiers [J].Int J Remote Sens,2007,28(8):1733 - 1746.
[8] KITTLER J.Combining classifiers:a theoretical framework [J].Pattern Anal Appl,1998,1(1):18 - 27.
[9] FREUND Y,SCHAPIRE R E.Experiments with a new boosting algorithm[C]//ICML96Proceesings of the Thirteenth International Conference on International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc,1996:148- 156.
[10] MELVILLE P,MOONEY R J.Creating diversity in ensembles using artificial data [J].Inf Fusion,2005,6(1):99 -111.
[11] HELMER E H, RUZYCKI T S, BENNER J,et al.Detailed maps of tropical forest types are within reach:forest tree communities for Trinidad and Tobago mapped with multi-season Landsat and multi-season fine-resolution imagery [J].For Ecol Manage, 2012, 279(6):147 - 166.
[12] 董心玉,范文義,田甜.基于面向?qū)ο蟮馁Y源3號(hào)遙感影像森林分類(lèi)研究[J].浙江農(nóng)林大學(xué)學(xué)報(bào),2016,33(5):816-825.DONG Xinyu,FAN Wenyi,TIAN Tian.Object-based forest type classification with ZY-3 remote sensing data [J].J Zhejiang A&F Univ,2016,33(5):816 - 825.
[13] 李明詩(shī),彭世揆,周林,等.基于ASTER數(shù)據(jù)的決策樹(shù)自動(dòng)構(gòu)建及分類(lèi)研究[J].國(guó)土資源遙感,2006,18(3):33-36,42.LI Mingshi,PENG Shikui,ZHOU Lin,et al.A study of automated construction and classification of decision tree classifiers based on ASTER remotely sensed datasets [J].Remote Sens Land Resour, 2006,18(3):33 - 36,42.
[14] 齊紅超,祁元,徐瑱.基于C5.0決策樹(shù)算法的西北干旱區(qū)土地覆蓋分類(lèi)研究:以甘肅省武威市為例[J].遙感技術(shù)與應(yīng)用,2009,24(5):648 - 653.QI Hongchao,QI Yuan,XU Zhen,et al.The study of the northwest arid zone land-cover classification based on C5.0 decision tree algorithm at Wuwei City,Gansu Province [J].J Remote Sens Technol Appl,2009,24(5):648 - 653.
[15] 高玉蓉,許紅衛(wèi),丁曉東.基于C5.0的錢(qián)塘江流域地區(qū)土地利用/覆被信息提取研究[J].生態(tài)科學(xué),2012,31(5):481 - 487.GAO Yurong,XU Hongwei,DING Xiaodong.Extraction of land use/cover information based on C5.0 algorithm in Qiantang River drainage area [J].Ecol Sci,2012,31(5):481 - 487.
[16] 李夢(mèng)瑩,胡勇,王征禹.基于C5.0決策樹(shù)和時(shí)序HJ-1A/B CCD數(shù)據(jù)的神農(nóng)架林區(qū)植被分類(lèi)[J].長(zhǎng)江流域資源與環(huán)境,2016,25(7):1070 - 1077.LI Menying,HU Yong,WANG Zhengyu.Study on vegetation classification in Shennongjia forest district based on decision tree and HJ-1 A/B data [J].Resour Environ Yangtze Basin,2016,25(7):1070 - 1077.
[17] KEMPENEERS P,SEDANO F, SEEBACH L,et al.Data fusion of different spatial resolution remote sensing images applied to forest-type mapping [J].IEEE Trans Geosci Remote Sens,2012,49(12):4977 - 4986.
[18] 侯瑞萍,黃國(guó)勝,李應(yīng)國(guó),等, LY/T 2188.1-2013森林資源數(shù)據(jù)采集技術(shù)規(guī)范 第1部分:森林資源連續(xù)清查[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2014.
[19] 唐小平,陳雪峰,翁國(guó)慶,等.GB/T 26424-2010森林資源規(guī)劃設(shè)計(jì)調(diào)查技術(shù)規(guī)程[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2011.
[20] 王志慧,李世明,張藝偉.基于C5.0算法的森林資源變化檢測(cè)方法研究:以山東省徂徠山林區(qū)為例[J].西北林學(xué)院學(xué)報(bào),2011,26(5):185 - 191.WANG Zhihui,LI Shiming,ZHANG Yiwei.Methodological study on the detection of the variations of forest resources based on C5.0 algorithm:a case of Culai Forest in Shandong [J].J Northwest For Univ,2011,26(5):185 - 191.
[21] 崔賓閣,馬秀丹,謝小云.小樣本的高光譜圖像降噪與分類(lèi)[J].遙感學(xué)報(bào),2017,21(5):728-738.CUI Binge,MA Xiudan,XIE Xiaoyun.Hyperspectral image de-noising and classification with small training samples[J].J Remote Sens,2017,21(5):728 - 738.
[22] 張曉羽,李鳳日,甄貞,等.基于隨機(jī)森林模型的陸地衛(wèi)星-8遙感影像森林植被分類(lèi)[J].東北林業(yè)大學(xué)學(xué)報(bào),2016,44(6):53 - 57.ZHANG Xiaoyu,LI Fengri,ZHEN Zhen,et al.Forest vegetation classification of Landsat-8 remote sensing images based on random forests model[J].J Northeast For Univ,2016,44(6):53 - 57.
[23] 董連英,邢立新,潘軍,等.高光譜圖像植被類(lèi)型的CART決策樹(shù)分類(lèi)[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2013,31(1):83 - 89.DONG Lianying,XING Lixin,PAN Jun,et al.Vegetation classification in hyperspectral image with CART decision tree [J].J Jilin Univ Inf Sci Ed,2013,31(1):83 - 89.
[24] 趙英時(shí).遙感應(yīng)用分析與方法[M].北京:科學(xué)出版社,2003:156-158.
[25] HARALICK R M.Statistical and structural approaches to texture [J].Proc IEEE,1979,67(5):786 - 804.