摘 要:伴隨遙感技術(shù)的發(fā)展,高分辨率遙感開始得到普遍應(yīng)用,數(shù)據(jù)豐富,遙感檢測對象目標(biāo)細化,高分辨率遙感圖像開始成為遙感變化檢測的主要數(shù)據(jù)來源。高分辨率遙感圖像擁有著龐大的信息量,這些龐大的信息也會導(dǎo)致繁雜的背景和復(fù)雜的內(nèi)部結(jié)構(gòu),這對目標(biāo)檢測提出了新的挑戰(zhàn)。針對這一挑戰(zhàn)問題,近年來涌現(xiàn)出了很多不同的新方法,而這其中就有作為一種叫做隨機森林的新興機器學(xué)習(xí)方法,有著準(zhǔn)確、方便、快速并能分析數(shù)據(jù)特點等方面的諸多優(yōu)點,能對目標(biāo)檢測提供新的思路。
關(guān)鍵詞:隨機森林;高分辨率;遙感;沿海地貌
沿海地貌有許多種類,如沙灘,灰色沙丘,白色沙丘、沿海植被、森林等,這些依次分布在沿海。而在遙感圖像上很多情況他們幾乎沒有區(qū)別,在圖像上沙丘和植被可以比較清晰的區(qū)分,但是沙丘和沙灘之間的混亂則是完全存在的。此外,白色沙丘和灰色沙丘之間的邊界也很難進行區(qū)分。同時其他因素也影響了分類,如濕砂。我們希望能精確地檢測到沿海地貌,即劃定海灘和沙丘之間的邊界。普通邊界的劃分我們可以通過監(jiān)督分類過程來檢測。對于復(fù)雜的環(huán)境,如沿海地貌,傳統(tǒng)方法生產(chǎn)可能不能勝任,我們提出隨機森林的方法來解決這個分類問題,以實現(xiàn)的沿海區(qū)域分類檢測。
隨機森林(Random Forests,RF)算法是美國科學(xué)院院士 Leo Breiman等人提出的一種基于分類與回歸決策樹(Classification And Regression Tree,CART)的集成算法。隨機森林中的每一棵決策樹相當(dāng)于一個分類器,而這個森林則是所有分類器的集成。每一個決策樹都是一個獨立存在,不受外界干擾,而我們將它們捏合在一起,使得單獨存在變成集合存在,將偶然變成必然。這讓隨機森林有需要人工干預(yù)少、分類表現(xiàn)優(yōu)異、能對數(shù)據(jù)提供額外的刻畫以及運算非??斓仍S多優(yōu)點。正是這些特點,隨機森林在沿海地貌檢測中得到了良好的效果。
1 數(shù)據(jù)獲取
采用SPOT5高分辨率圖像和實地采樣檢測相結(jié)合的方法。對SPOT5遙感圖像進行處理的同時,利用GPS在實地對沙灘與沙丘,沙丘與森林、植被,白色沙丘與灰色沙丘的分界線進行打點定位,在實地得到不同地物的分類情況和界線。
2 隨機森林算法
沿海地區(qū)分類的方法是基于高分辨率多光譜圖像隨機森林監(jiān)督分類的方法。隨機森林的兩個主要參數(shù)為m和T,m是在在判定決策樹節(jié)點隨機分割選擇輸入變量的數(shù)量(默認,其中p是屬性的數(shù)量),T是在隨機森林中決策樹樹木的數(shù)量。在本研究中,M = 2,因為它使用四個屬性,分別是四個光譜波段(R,G,B,NIR)。此外,隨機森林需要的預(yù)測能力可以從袋外數(shù)據(jù)(Out-Of-Bag)進行誤差估計。袋外數(shù)據(jù)樣品是一組沒有被用于當(dāng)前決策樹約37%的訓(xùn)練數(shù)據(jù)。該樣品用于預(yù)測估計誤差,并評估操作變量的重要性。
隨機森林算法:
輸入:S——訓(xùn)練集; T——在森林決策樹的數(shù)量;m——在隨機分割選擇輸入變量的數(shù)量。
輸出:所有樹木組成的隨機森林
(1)從1到T進行循環(huán)處理。
(2)隨機從訓(xùn)練集S中選取部分數(shù)據(jù)Si 來建立樹木。
(3)只有根節(jié)點的樹木,也就是空樹,作為森林的第一棵樹。
(4)通過參數(shù)Si,m,從樹木的根節(jié)點開始建立每一棵樹木。
(5)將樹木添加森林,組成森林。
(6)回到森林。
(7)通過計算袋外數(shù)據(jù)和混淆矩陣得到誤差。
3 數(shù)據(jù)分析
采樣數(shù)據(jù)被分為五類:沙灘、白色沙丘、灰色沙丘、灌木和森林(如下表所示)??梢钥吹讲蓸訑?shù)據(jù)分布并不均勻,森林的采樣點數(shù)量較其他類別多,所以在之后的數(shù)據(jù)處理中盡量要避免類別不平衡而導(dǎo)致分類誤差過大。
數(shù)據(jù)集被分為兩部分:訓(xùn)練集和測試集,訓(xùn)練集大小設(shè)定為數(shù)據(jù)的75%,測試集大小設(shè)定為基準(zhǔn)數(shù)據(jù)的25%(如下表所示)。
4 檢測結(jié)果
我們設(shè)置不同的隨機森林參數(shù)來對沿海地貌測試分類。以下列出的所有結(jié)果都來源于平均超過10次的計算。
決策樹的數(shù)量從1,25,101,251到501依次變化測試,并通過混淆矩陣評價每一組誤差的情況。以此分析,分類精度隨著決策樹樹木數(shù)量的提高而增加。 在25樹木的情況下,袋外數(shù)據(jù)預(yù)測誤差為23.83%和對測試樣本的誤差為23.03%(±10%)。使用501樹木,袋外數(shù)據(jù)誤差減小到20.24%,而在試驗樣品的誤差為13.43%(±4%)。
袋外數(shù)據(jù)和測試集的混淆矩陣(如上表所示)的行是實際的類和列是預(yù)測的類??梢宰⒁獾?,大部分類都有較低的錯誤率,低于20%。然而灌木位于邊界,是海灘和沙丘的部分界限,數(shù)量較少,所以分類誤差較大。而白色沙丘和灰色沙丘因為性質(zhì)相似,所以分類上也存在一定困難。
5 結(jié)論
機器學(xué)習(xí)是遙感影像智能處理的一個核心問題和熱點問題,而Leo Breiman 等人提出的隨機森林是一種新興的機器學(xué)習(xí)方法,具有堅實的理論基礎(chǔ),方便、準(zhǔn)確、快速并具有分析數(shù)據(jù)特點等優(yōu)點。這個方法在沿海地貌這個數(shù)據(jù)量大,較為復(fù)雜的地區(qū)有著良好的表現(xiàn),計算速度、精度遠超過傳統(tǒng)方法,是一個值得談到和研究的機器學(xué)習(xí)方法。
參考文獻:
[1]Breiman L.(2001). Random Forests. Machine Learning, 45:5-32.
[2]Guo L., Boukir S.(2011), Une nouvelle méthode délagage densemble de classifieurs basée sur le concept de marge, Traitement du signal, 6:491-514.
[3]Guo L.(2011), Classifieurs multiples intégrant la marge densemble. Application aux données de télédétection, thèse de Doctorat, université de Bordeaux 3.
作者簡介:張作淳(1986-),男, 浙江杭州人 ,碩士研究生,助教,研究方向:遙感研究。endprint