曹 爽,潘鎖艷,管海燕
(1. 南京信息工程大學(xué)遙感與測繪工程學(xué)院,江蘇 南京 210044; 2. 南京信息工程大學(xué)地理科學(xué)學(xué)院,江蘇 南京 210044)
機(jī)載LiDAR技術(shù)可以迅速地獲取地面目標(biāo)物體的三維空間坐標(biāo)信息及激光反射強(qiáng)度信息,但由于硬件條件和數(shù)據(jù)獲取方式的限制,其掃描覆蓋范圍有限,無法提供目標(biāo)對象的光譜信息[1]。文獻(xiàn)[2]提出將機(jī)載激光LiDAR數(shù)據(jù)與多光譜遙感影像融合,同時結(jié)合各種植被指數(shù)及光譜特征和紋理特征,從而實現(xiàn)對地物的識別和分類,但是LiDAR數(shù)據(jù)與影像數(shù)據(jù)融合使用存在一定的數(shù)據(jù)配準(zhǔn)問題。目前的多光譜LiDAR系統(tǒng)可以在同一時刻獲得多個波段下的獨立激光點云數(shù)據(jù),不僅提供了LiDAR的幾何信息,而且提供了多個波段的強(qiáng)度信息。因此,探討多光譜LiDAR數(shù)據(jù)的智能解譯與目標(biāo)識別具有重要的應(yīng)用價值。
國內(nèi)外已經(jīng)對LiDAR數(shù)據(jù)的地物分類方法進(jìn)行了各種研究,比如決策樹法[3]、貝葉斯網(wǎng)絡(luò)法[4]、支持向量機(jī)法[5](SVM)、ISODATA[6]等各種分類方法。但是傳統(tǒng)的分類模型容易出現(xiàn)過擬合問題而且分類效果也不理想,文獻(xiàn)[7]將多個分類模型組合起來以提高分類精度。
文獻(xiàn)[8]在2001年提出了一種全新的集成學(xué)習(xí)技術(shù)—隨機(jī)森林算法(random forest,RF)。國內(nèi)外很多學(xué)者利用隨機(jī)森林算法對多種遙感數(shù)據(jù)進(jìn)行了地物分類研究。文獻(xiàn)[9]利用隨機(jī)森林對Landsat數(shù)據(jù)和其他輔助地理數(shù)據(jù)組合成的多源數(shù)據(jù)影像進(jìn)行土地覆蓋分類研究。文獻(xiàn)[10]也討論了隨機(jī)森林在LiDAR數(shù)據(jù)與多光譜影像融合的地物覆蓋研究,并分析了隨機(jī)森林變量的重要性。文獻(xiàn)[11]以Landsat ETM+多光譜影像數(shù)據(jù)作為研究對象,討論了隨機(jī)森林、Boosting、Bagging和CART幾種分類方法在精度上的差異,試驗結(jié)果表明隨機(jī)森林的分類精度與CART相比有明顯的提高,與Boosting和Bagging分類精度相當(dāng)。大量的理論與試驗證明:隨機(jī)森林算法在各種數(shù)據(jù)源影像的分類處理問題中均有著優(yōu)良的表現(xiàn),分類精度較高。因此,本文提出基于隨機(jī)森林算法的多光譜LiDAR數(shù)據(jù)地物分類研究。
本文試驗數(shù)據(jù)是由加拿大Optech公司的多光譜LiDAR系統(tǒng)Optech Titan提供。該系統(tǒng)包括3個波段的激光脈沖通道(分別為:532 nm波段(GREEN)、1064 nm波段(NIR)和1550 nm波段(MIR)),能夠提供地面目標(biāo)物體的激光反射強(qiáng)度信息和高程信息。試驗數(shù)據(jù)包括該系統(tǒng)提供的3個獨立的激光點云,每個波段的平均點密度近似為3.6點/m2。本文研究區(qū)域是加拿大安大略省惠特徹奇-史托維爾的一個小鎮(zhèn),圖1為該區(qū)域的Google高空間分辨率遙感影像, 研究區(qū)域面積約為1990 m×1603 m,主要有建筑物、草地、樹木、道路、水體和裸地6類地物。
首先采用文獻(xiàn)[12]中的方法將3個獨立點云數(shù)據(jù)集合并成單一點云數(shù)據(jù),其中每個激光點包含這3個波段的地物反射信息。為了提高融合后點云數(shù)據(jù)的處理效率,按照距離加權(quán)平均插值法對離散多光譜LiDAR點云數(shù)據(jù)進(jìn)行插值處理[13],將包含3個波段信息和高程信息的多光譜LiDAR點云分別內(nèi)插為3個單獨波段的強(qiáng)度影像、高程影像和多光譜影像,如圖2所示。根據(jù)每個波段平均點密度3.6點/m2,二維影像的分辨率設(shè)置為0.5 m。本文根據(jù)內(nèi)插的二維多光譜影像和高程影像進(jìn)行地物分類研究。
隨機(jī)森林算法(random forest,RF)包括大量的決策樹、分類樹和回歸樹,既能夠應(yīng)用于分類研究,也能夠處理回歸分析問題。隨機(jī)森林算法實現(xiàn)過程如下:①從原始的樣本數(shù)據(jù)集中隨機(jī)選取n個bootstrap樣本作為訓(xùn)練數(shù)據(jù),未被抽到的樣本集作為測試數(shù)據(jù)。②建立每一個bootstrap隨機(jī)樣本的決策樹模型。在每棵決策樹的節(jié)點處隨機(jī)地從總特征中選取mtry個特征(mtry≤n,其中n為特征變量總數(shù))。③每棵決策樹都會產(chǎn)生一個預(yù)測結(jié)果,將所有決策樹的預(yù)測綜合再通過多數(shù)投票表決的方法得到最終的分類結(jié)果。一般來說,在構(gòu)建隨機(jī)森林模型時,2/3的訓(xùn)練數(shù)據(jù)(稱為袋內(nèi)(in bag)數(shù)據(jù))被用于構(gòu)造決策樹,其余1/3的訓(xùn)練數(shù)據(jù)(稱為袋外(out of bag,OOB)數(shù)據(jù))用于測試決策樹,以便對其分類性能進(jìn)行評估,稱為OOB誤差估計。隨機(jī)森林模型中的每一棵決策樹都會產(chǎn)生一個OOB誤差,綜合所有決策樹的預(yù)測得到的平均錯誤分類稱為袋外誤差。文獻(xiàn)[8]通過大量的研究和試驗證明了利用袋外誤差預(yù)測隨機(jī)森林模型的內(nèi)部性能時是無偏的,因此不需要再使用單獨的測試數(shù)據(jù)集驗證模型的泛化誤差。
特征提取就是選擇可以參與分類運算的多個特征,它對分類結(jié)果的精度和可靠性影響很大。本文使用多光譜LiDAR的強(qiáng)度影像和高程影像作為數(shù)據(jù)源,提取其光譜特征、紋理特征和植被指數(shù)一共39個特征來進(jìn)行隨機(jī)森林分類分析。
根據(jù)本文研究區(qū)域的6類主要地物類型,以與研究區(qū)域?qū)?yīng)的Google高分辨率遙感影像(如圖1所示)作為參照,結(jié)合提取的特征,人工直接從融合的多光譜影像上選取一定數(shù)量的樣本。隨機(jī)森林算法對訓(xùn)練樣本的數(shù)量很敏感,為了研究樣本數(shù)量對分類結(jié)果精度的影響,對每個地物類型選取了3組不同數(shù)量的訓(xùn)練樣本,分別記為sample1(1000個像元)、sample2(500個像元)、sample3(200個像元),每個地物類別的樣本數(shù)量逐漸減少。
本文利用R語言編程對多光譜LiDAR數(shù)據(jù)進(jìn)行隨機(jī)森林分類。分為3個試驗:①為了研究樣本大小對分類結(jié)果的影響,對所選取的3組樣本sample1、sample2、sample3分別進(jìn)行隨機(jī)森林分類,根據(jù)分類精度分析隨機(jī)森林分類器的分類性能。②為了選擇分類性能最佳的特征,通過后向特征選擇消除不重要的特征再重新分類,迭代直到模型誤差最小,然后通過分類精度分析隨機(jī)森林的特征選擇性能。以sample1的隨機(jī)森林分類為例,根據(jù)OOB誤差計算分類結(jié)果的特征貢獻(xiàn)度。③為了分析隨機(jī)森林在多光譜LiDAR數(shù)據(jù)地物分類中的性能,與支持向量機(jī)分類方法進(jìn)行對比試驗。
構(gòu)建隨機(jī)森林模型時需要人為地設(shè)置兩個重要參數(shù)的取值:①森林中的樹數(shù)ntree(number of trees),該值與隨機(jī)森林模型的收斂性及運行時間成正比,由于隨機(jī)森林算法計算速度快且不會出現(xiàn)過擬合問題,因此ntree的值應(yīng)該盡可能的大,但是由于計算機(jī)的內(nèi)存限制,ntree的值通常設(shè)置為幾百,本文ntree的值設(shè)定為100。②決策樹中每個節(jié)點處使用的特征變量個數(shù)為mtry,該值大小與隨機(jī)森林模型中每棵決策樹的強(qiáng)度以及決策樹之間的相關(guān)系數(shù)成正比。經(jīng)過大量的試驗證明,當(dāng)mtry值設(shè)定為總特征數(shù)的平方根時分類效果最好,本文共使用39個特征,mtry值應(yīng)設(shè)為6。按以上設(shè)置的參數(shù)對3組樣本數(shù)據(jù)sample1、sample2、sample3分別進(jìn)行隨機(jī)森林地物分類試驗,試驗結(jié)果如圖3所示。為了定量地分析隨機(jī)森林分類精度,以sample1的分類結(jié)果為例,分類混淆矩陣見表1。由表1可知,樹木類幾乎完全被正確分類,分類的精度非常高。而容易與建筑物產(chǎn)生分類混淆的地物類別主要是草地、裸地和道路,容易與草地產(chǎn)生分類混淆的地物類別主要是建筑物和道路,容易與道路產(chǎn)生分類混淆的地物類別主要是水體和建筑物,容易與水體產(chǎn)生分類混淆的地物類別主要是草地和裸地,容易與裸地產(chǎn)生分類混淆的地物類別主要是建筑物和道路。
像元
表2為利用混淆矩陣分別計算sample1、sample2、sample3的隨機(jī)森林地物分類精度。由表2可知,隨著訓(xùn)練樣本數(shù)量的減少,隨機(jī)森林分類的精度也隨之降低,表明隨機(jī)森林算法更適用于大樣本分類的情況,但是隨著訓(xùn)練樣本數(shù)量的增多,雖然分類精度有所提高,但相應(yīng)的運行時間也會增加。因此,分類時選擇合適的樣本大小對分類精度的影響很大,需要根據(jù)精度要求和數(shù)據(jù)特點選取適當(dāng)?shù)臉颖緮?shù)量。
表2 不同訓(xùn)練樣本下的隨機(jī)森林分類精度
分類特征數(shù)量與分類結(jié)果精度和分類模型的結(jié)構(gòu)復(fù)雜度一般成正比。但是,當(dāng)分類特征數(shù)量過多時,不僅使得分類器的結(jié)構(gòu)復(fù)雜,難以實現(xiàn),分類精度也可能不理想。因此,有必要確定分類特征的類型和數(shù)量。隨機(jī)森林算法可以計算特征變量對分類結(jié)果包括分類模型和每個樣本類別的重要性,還可以根據(jù)OOB誤差計算特征變量對一般分類模型的影響程度。依據(jù)OOB進(jìn)行誤差估計后可知,對分類結(jié)果貢獻(xiàn)比較大的前6個特征變量分別為高程(Elevation)、532 nm波段(GREEN)均值(mean_GREEN)、高程均值(mean_ele)、1550 nm波段(MIR)均值(mean_MIR)、高程自相關(guān)(correlation_ele)和1064 nm波段(NIR)均值(mean_NIR)特征。
為了選擇分類性能最佳和不相關(guān)的特征以獲得較高的分類精度,采用后向特征選擇方法[14]通過迭代逐個消除不必要的或部分相關(guān)的特征。首先根據(jù)OOB誤差計算特征重要性并按數(shù)值大小從高到低進(jìn)行特征變量排序,對最不重要的特征變量進(jìn)行迭代消除。每次迭代,消除后20%的特征變量。然后利用消除后的新特征變量重新進(jìn)行隨機(jī)森林分類,根據(jù)OOB誤差計算新特征變量對分類結(jié)果的重要性并進(jìn)行排序。該迭代過程一直執(zhí)行到獲得最高分類精度的特征集為止。本文一共進(jìn)行5次迭代, 第1次和第5次迭代的隨機(jī)森林分類結(jié)果如圖4所示。表3為利用后向特征選擇的隨機(jī)森林分類結(jié)果的總體精度和Kappa系數(shù),由表3可知,隨著特征數(shù)量的減少,隨機(jī)森林分類結(jié)果的總體精度和Kappa系數(shù)均有所提升,直到分類特征數(shù)量為16時,分類精度達(dá)到最高。但是當(dāng)特征數(shù)量減少到13時,總體精度和Kappa系數(shù)開始減小,說明過多地去除特征會使精度下降。經(jīng)過5次迭代,分類特征數(shù)量逐漸從39減少到13,同樣根據(jù)OOB誤差計算13個特征變量對最終分類結(jié)果的貢獻(xiàn)度可知,對分類地物目標(biāo)貢獻(xiàn)度比較大的幾個特征分別為:均值、高程和自相關(guān)特征,這與利用后向特征選擇之前的特征貢獻(xiàn)度排序結(jié)果類似。試驗表明,本文采用的后向特征選擇法比較可靠,即利用后向迭代消除的特征確實是不重要或部分相關(guān)冗余特征。
表3 隨機(jī)森林分類總體精度和Kappa系數(shù)
為了進(jìn)一步證明隨機(jī)森林分類方法在多光譜LiDAR數(shù)據(jù)地物分類中的適用性,將它與支持向量機(jī)(SVM)分類進(jìn)行對比試驗。利用3組訓(xùn)練樣本sample1、sample2、sample3分別進(jìn)行支持向量機(jī)多光譜LiDAR地物分類,分類結(jié)果如圖5所示。分別計算三組訓(xùn)練樣本支持向量機(jī)下的分類精度,見表4。比較表4與表2可知,隨機(jī)森林分類方法相比于支持向量機(jī)分類方法,在總體精度和Kappa系數(shù)上均有不同程度的提高,只是在某些類別上,隨機(jī)森林的生產(chǎn)者精度和用戶精度不如支持向量機(jī)方法。同時也可以看出,當(dāng)樣本數(shù)量逐漸減少時,支持向量機(jī)分類的精度反而呈上升趨勢,這表明支持向量機(jī)在小樣本分類上具有優(yōu)勢。因此,當(dāng)樣本數(shù)量較少時,應(yīng)該綜合多種因素,選擇合適的分類方法處理多光譜LiDAR數(shù)據(jù),以獲得最佳地物分類結(jié)果。
類別Sample1Sample2Sample3用戶精度/(%)生產(chǎn)者精度/(%)用戶精度/(%)生產(chǎn)者精度/(%)用戶精度/(%)生產(chǎn)者精度/(%)建筑物82.4377.2976.5871.6070.8085.92樹木98.6397.2094.8995.2598.0797.60草地83.0588.4696.6689.0489.5994.74道路93.3285.9171.6881.8570.8382.93水體82.9694.6590.9982.5193.3097.66裸地87.1585.4075.7782.6898.4856.03總體精度/(%)87.8883.8985.32Kappa系數(shù)0.85450.80670.8241
本文提出了基于隨機(jī)森林的多光譜LiDAR地物分類方法,利用加拿大Optech公司的Titan多光譜LiDAR系統(tǒng)提供的數(shù)據(jù),將研究區(qū)域內(nèi)的地物分為建筑物、樹木、草地、道路、水體和裸地6類。研究發(fā)現(xiàn):①隨機(jī)森林算法對樣本數(shù)量很敏感,且隨著樣本數(shù)量的減少分類精度呈下降趨勢。這說明隨機(jī)森林算法適用于大樣本分類,但隨著樣本數(shù)量的增加,相應(yīng)的運行時間會增長,在實際分類工作中,應(yīng)該根據(jù)需要選擇適當(dāng)?shù)挠?xùn)練樣本數(shù)量。②利用隨機(jī)森林算法特征貢獻(xiàn)度特性,本文采用后向特征消除方法可在一定程度上消除部分冗余和相關(guān)性大的特征,從而可以有效地提高分類精度。③通過與支持向量機(jī)分類法對比,隨機(jī)森林對多光譜LiDAR數(shù)據(jù)地物分類的精度更高,且進(jìn)一步驗證了隨機(jī)森林方法進(jìn)行特征選擇的有效性。后續(xù)工作將進(jìn)一步研究如何根據(jù)研究區(qū)域和精度目標(biāo)選擇適當(dāng)?shù)臎Q策樹個數(shù)、節(jié)點的特征變量數(shù)和最小分裂條件等隨機(jī)森林模型參數(shù),提高隨機(jī)森林在多光譜LiDAR數(shù)據(jù)的解譯精度和效率。