基于改進AdaBoost的梯田提取方法研究

2023-11-02 13:05:42楊江濤張宏鳴

計算機應(yīng)用與軟件 2023年10期

康洋任潔全凱楊江濤張宏鳴*

1(西北農(nóng)林科技大學(xué)信息工程學(xué)院陜西楊凌 712100)

2(西北農(nóng)林科技大學(xué)水利與建筑工程學(xué)院陜西楊凌 712100)

0 引言

梯田是一種沿等高線方向修建的臺階式田地,在提高糧食產(chǎn)量、治理水土流失等方面具有重要作用[1]。因此,如何快速準(zhǔn)確地對區(qū)域內(nèi)梯田分布信息進行提取,對區(qū)域生態(tài)規(guī)劃以及自然災(zāi)害的預(yù)防具有重要的作用與意義。長期以來,采用人工統(tǒng)計的方法來提取梯田分布信息效率低并且精度不高[2]。隨著無人機遙感影像的發(fā)展,結(jié)合高分辨率遙感影像進行地物分布信息提取,逐漸成為當(dāng)前研究熱點話題之一?？偨Y(jié)目前梯田提取的研究進展,主要分為基于窗口與基于對象兩種方法。

基于窗口的提取方法,利用影像的紋理特征以及灰度特征,以像素窗口為最小單元進行梯田分布信息提取。Sofia等[3]采用改進的直線線段檢測算法結(jié)合數(shù)字高程模型(Digital Elevation Model,DEM)對梯田信息進行提取。Crommelinck等[4]將梯田影像分割為若干個不重疊區(qū)域,進行邊緣檢測以及邊緣連接,進行梯田提取。Zhang等[5]通過對高分辨率梯田遙感影像的邊緣檢測生成二值圖像,再采用模板匹配法來對梯田區(qū)域進行提取,但模板尺寸固定,未能對梯田研究區(qū)域取得一個較好的結(jié)果。

基于對象的提取方法,通過多尺度分割將梯田影像轉(zhuǎn)化為多個樣本對象,結(jié)合紋理特征、光譜特征、形狀特征等,充分利用相關(guān)地形信息來進行梯田分布提取。Capolupo等[6]基于DEM以及多光譜數(shù)據(jù),采用坡度、地形位置指數(shù)與最小差異指數(shù)作為分類特征對梯田進行提取,由于研究區(qū)域有較多的植被覆蓋,提取結(jié)果受到一定的影響。Eckert等[7]將高光譜數(shù)據(jù)與數(shù)字地表模型(Digital Surface Model,DSM)相結(jié)合,采用SVM算法來進行提取。薛牡丹等[8]將地形因子與無人機獲取的高分辨率遙感影像融合后進行梯田提取,結(jié)果表明遙感影像與地形因子結(jié)合后,提取效果有了較大的提升。楊亞男等[9]將無人機正射影像與坡度數(shù)據(jù)進行融合,對梯田進行粗邊緣與精細邊緣提取,結(jié)果表明加入坡度數(shù)據(jù)后,梯田粗細邊緣的提取效果都有了較大的提升。

基于窗口的提取方法在提取時考慮到了梯田的紋理以及灰度特征,利用了較少的地形信息,未結(jié)合更多含有豐富地形信息的地形因子來進行梯田提取。基于對象的提取方法利用了地形因子來進行提取,提取效果有了較大的提升,但目前對于復(fù)雜區(qū)域的提取未能取得較好的結(jié)果。

針對當(dāng)前梯田提取算法在復(fù)雜地形區(qū)域提取時,算法適用性較差導(dǎo)致效果差異大的問題,本文采用改進AdaBoost算法,通過集成多個分類器共同決策,有效地提高了算法的適用性,對復(fù)雜地形區(qū)域取得了較好的提取結(jié)果。首先將無人機獲取的高分辨率正射影像與DEM衍生的地形因子進行融合,利用多尺度分割算法獲得三塊不同地形特征的樣本數(shù)據(jù)集。然后為保證數(shù)據(jù)特征的有效性,通過過濾式特征選擇算法去除冗余特征。同時考慮到梯田和非梯田數(shù)量有著較大的差異,為降低不均衡數(shù)據(jù)對梯田提取結(jié)果的影響,對樣本進行均衡化處理。最后利用改進AdaBoost提取方法對復(fù)雜的區(qū)域進行梯田提取。為了評價改進AdaBoost算法的梯田提取效果,本文將結(jié)合AdaBoost算法、SVM、KNN、CART進行對比驗證。

1 研究區(qū)域與數(shù)據(jù)基礎(chǔ)

1.1 研究區(qū)域與數(shù)據(jù)獲取

1.1.1研究區(qū)域

研究區(qū)域為甘肅省榆中縣龍泉鄉(xiāng),地理上的坐標(biāo)范圍為東經(jīng)104°10′58″至104°19′51″,北緯35°34′4″至35°40′56″,本文選取了三塊不同特征的區(qū)域進行研究。區(qū)域1中有部分山脊以及道路,梯田田塊主要呈條狀,具有細、窄的特點,數(shù)量較多,為密集條形區(qū)梯田。區(qū)域2中有部分道路以及少量建筑物,形狀不規(guī)則,為不規(guī)則區(qū)梯田。區(qū)域3中有部分建筑物以及山脊,主要呈塊狀,并且邊緣曲線光滑,數(shù)量較少,為稀疏塊狀區(qū)梯田。

1.1.2數(shù)據(jù)獲取

為降低天氣因素的影響,于2016年3月對研究區(qū)域利用無人機搭載相機來進行數(shù)據(jù)采集,所拍攝的單幅影像的采集面積約為340 m×500 m,影像分辨率為0.5 m,采集時長約24小時。為了保證采集過程中精度符合要求,對梯田邊緣以及道路的交叉處設(shè)立地面的控制點,并實時進行空間運算和精度檢測。通過Agisoft PhotoScan軟件對所獲得的影像數(shù)據(jù)進行處理,對整個研究區(qū)域進行劃分,并進行點云提取和立體模型的構(gòu)建,合并后進行紋理提取,獲取數(shù)字表面模型DSM,通過所獲得的點云數(shù)據(jù),得到地面點的DEM數(shù)據(jù),分辨率為0.5 m。

1.2 數(shù)據(jù)預(yù)處理

本文首先對研究區(qū)域圖像進行了去霧處理,然后將去冗余后地形因子與正射影像進行融合,得到富含地形信息的遙感影像,利用多尺度分割技術(shù)進行影像分割,獲得用于梯田提取的樣本數(shù)據(jù)集,最后對樣本集進行特征選擇、樣本均衡化,降低冗余數(shù)據(jù)和不均衡數(shù)據(jù)對梯田提取結(jié)果的影響。

1.2.1圖像去霧

物體的反射光線在大氣中傳播的時候會受到顆粒物等的影響,導(dǎo)致光線的傳播方向被改變,向各個方向散射,最終所得到的圖像會變得模糊,因此需要進行圖像去霧[10]。目前主要采用暗通道去霧算法來進行圖像去霧[11],暗通道去霧算法首先計算大氣散射模型,得到透射率以及全局大氣,然后根據(jù)暗原色先驗理論在RGB三通道以及周圍的局部區(qū)域取最小值,計算得到圖像的透射率并估算全局大氣,最終得到無霧圖像[12]。

基于暗通道的去霧步驟如下：

(1) 計算大氣散射模型,計算方法如式(1)所示。

I(x)=J(x)t(x)+A(1-t(x))

(1)

式中：I(x)為有霧圖;J(x)為無霧圖像;t(x)為透射率;A為全局大氣,經(jīng)變換可得式(2)。

(2)

(2) 暗原色先驗理論如式(3)所示。

(3)

式中：Jdark(x)表示暗原色;y∈Ω(x)是以x為中心的領(lǐng)域區(qū)域。

(3) 得到圖像透射率如式(4)所示。

(4)

估算全局大氣A,代入式(2)得到無霧圖像。

將去霧前的圖像與去霧后的圖像進行比較,去霧后的圖像地物間的紋理差異更為顯著,提升了圖像的清晰度,可觀察到更多的地物細節(jié)如圖2所示。

本文對三塊區(qū)域的原圖以及去霧后圖像的灰度直方圖進行了分析如圖3所示,可以看到原圖直方圖的能量分布較為集中,并未充分分布到整個顏色空間,經(jīng)過去霧處理,能量分布較原圖更加均勻,去霧后的圖像可以提供更加有效的圖像信息。

1.2.2基于相關(guān)性的地形因子降維

地形因子是指為有效研究與表達地貌形態(tài)特征所設(shè)定的具有一定意義的參數(shù)或指標(biāo)[14]。

坡度S、粗糙度TR、高程變異系數(shù)CVE、正負地形因子PN、山體陰影HS、坡度的坡度SOS均為常見地形因子,本文采用上述地形因子來進行計算,計算方法如下所示。

(1) 坡度S。反映坡面的傾斜程度,如式(5)所示。

(5)

式中：ΔH為高程差;L為水平距離。

(2) 粗糙度TR。刻畫地表地勢的起伏變化,如式(6)所示。

(6)

式中：α為投影角度;SAB為表面積;SAC為投影面積。

(3) 高程變異系數(shù)CVE。表示地表高程變化,如式(7)所示。

(7)

式中：SD為標(biāo)準(zhǔn)差;Hmean為平均高程。

(4) 正負地形因子PN。描述基本的地貌形態(tài),如式(8)所示。

PN=Hmax-Hmean

(8)

式中：Hmax為最大高程值;Hmean為平均高程值。

(5) 山體陰影HS。模擬光源在某方向和太陽高度下的灰度圖,如式(9)所示。

HS=255×cos(zenithrad)×cos(sloperad)+

sin(zenithrad))×sin(sloperad)×

cos(azimuthrad-aspectrad)

(9)

式中：sloperad為坡度弧度數(shù);azimuthrad為光線方向角的弧度數(shù);aspectrad為坡向弧度值;zenithrad為太陽天頂角的弧度數(shù)。

(6) 坡度的坡度SOS。為坡度的坡面傾斜度,如式(10)所示。

(10)

式中：SΔH表示高程差;SL為水平距離。

計算最終得到6個地形因子如圖4所示。

考慮到地形因子間數(shù)據(jù)冗余對梯田提取的影響,本文通過PCA得到地形因子間的相關(guān)系數(shù),通過設(shè)立閾值來進行相關(guān)性強弱判斷,去除冗余地形因子,方法的步驟如下：

(1) 計算地形因子。通過DEM數(shù)據(jù)計算衍生的6個地形因子。

(2) 基于PCA的地形因子相關(guān)系數(shù)估算。通過PCA將數(shù)據(jù)用線性無關(guān)的形式來進行表示,得到數(shù)據(jù)中相關(guān)性較低的分量[13]。本文通過PCA中地形因子的相關(guān)系數(shù)矩陣來進行后續(xù)的降維。

(3) 設(shè)置相關(guān)系數(shù)閾值。采用皮爾遜相關(guān)系數(shù)來進行相關(guān)系數(shù)的計算,設(shè)置相關(guān)系數(shù)閾值來進行地形因子相關(guān)性強弱的判斷。

(4) 基于閾值的地形因子選擇。對比分析相關(guān)系數(shù),結(jié)合閾值確定獲得用于梯田提取的地形因子。

表1-表3分別為三塊研究區(qū)域經(jīng)過PCA后的地形因子相關(guān)系數(shù)矩陣,矩陣中的值表示兩個地形因子的相關(guān)系數(shù),當(dāng)相關(guān)系數(shù)的絕對值越接近于1或-1時,表明地形因子間的相關(guān)性越強。本文采用皮爾遜相關(guān)系數(shù)來進行相關(guān)系數(shù)計算,皮爾遜相關(guān)系數(shù)是一種常見的相關(guān)系數(shù)計算方法,當(dāng)相關(guān)系數(shù)的絕對值大于0.8時,表明地形因子間具有強相關(guān)性。通過對三塊研究區(qū)域地形因子相關(guān)系數(shù)判斷,最終得到用于梯田提取的地形因子為S、TR、HS、SOS。

表1 區(qū)域1 PCA相關(guān)系數(shù)矩陣

表2 區(qū)域2 PCA相關(guān)系數(shù)矩陣

1.2.3多尺度分割

為了獲取樣本數(shù)據(jù)集,需要對研究區(qū)域影像進行分割得到多個分割區(qū)域,并且滿足區(qū)域內(nèi)相似性高,而區(qū)域間相似性低的要求[15]。多尺度分割是一種常見的分割方法,采用自下而上的策略,單獨的像元在最小異質(zhì)性準(zhǔn)則之下與相鄰的像元逐漸進行合并,通過控制分割尺度、形狀異質(zhì)性、光譜異質(zhì)性來確定分割中所生成對象的形狀與數(shù)量。分割尺度過小會造成欠分割現(xiàn)象,會將完整的對象分割得支離破碎,尺度過大會造成過分割現(xiàn)象。將不同的對象劃分為一個整體[16],形狀異質(zhì)性通過緊致度因子和光滑度因子來進行表示,最終實現(xiàn)在分割尺度閾值下達到平均異質(zhì)性最小。異質(zhì)性的度量如下：

(1) 總體異質(zhì)性度量,如式(11)所示。

f=α·hshape+(1-α)hcolor

(11)

式中：f為影像對象總體異質(zhì)性;hshape為光譜異質(zhì)性;hcolor為形狀異質(zhì)性,α為形狀異質(zhì)性所占權(quán)重,范圍為[0,1]。

(2) 形狀異質(zhì)性度量,如式(12)-式(16)所示。

(12)

(13)

式中：hsmooth為光滑度因子,表示對象輪廓的光滑程度;hcompact為緊致度因子,表示對象的緊致程度;c表示區(qū)域的周長;l表示最小外接矩形的周長;s表示面積。

將相鄰兩個區(qū)域進行合并,c、l以及s分別為c1、c2、l1、l2、s1、s2,合并后光滑度因子和緊致度因子計算如下：

(14)

(15)

最終形狀異質(zhì)性表示為：

(16)

式中：hshape為形狀異質(zhì)性;α為光滑度因子權(quán)重值,范圍為[0,1]。

(3) 光譜異質(zhì)性度量,如式(17)所示。

(17)

式中：hcolor為光譜異質(zhì)性;c為波段數(shù);ωc為層的權(quán)重;σc為波段的方差。

將相鄰兩個區(qū)域進行合并,面積和方差分別為s1、s2、σc1、σc2,合并之后區(qū)域的面積和方差為smerge、σcmerge,則合并后的光譜異質(zhì)性為：

(18)

為了解決目前多尺度最優(yōu)分割尺度人為操作的問題,本文采用ESP2方法來進行多尺度分割,通過評價不同尺度下分割結(jié)果的最大異質(zhì)性[17],并根據(jù)影像分割結(jié)果局部方差(LV)及ROC曲線來對分割的最優(yōu)尺度進行評估,利用ROC的峰值來反映最大異質(zhì)性[18]。由于影像所含地物復(fù)雜,通過ESP2計算可得到多個最優(yōu)尺度,ROC的計算如式(19)所示。

(19)

式中：LVL分割尺度為L時分割結(jié)果的局部方差均值;LVL-1為分割尺度為L-1時分割結(jié)果的局部方差均值。

首先將原始正射影像融合4波段地形因子影像,形成7波段遙感影像,然后設(shè)置ESP2的分割參數(shù),利用控制變量法選擇出分割效果較好的形狀異質(zhì)性權(quán)重和緊致度因子,權(quán)重的參數(shù)組合為(0.2,0.5)。通過ESP2方法對區(qū)域1進行多尺度分割,ROC曲線會出現(xiàn)多個峰值如圖5所示,其中黑色為局部方差,呈上升趨勢,灰色為ROC曲線,隨著尺度變化上下波動。

將所有峰值對應(yīng)的尺度用于分割,對比選擇出梯田的最優(yōu)分割尺度。通過對比分析,確定區(qū)域1的最優(yōu)分割尺度為70,與其他尺度的分割結(jié)果進行對比,在最優(yōu)分割尺度時梯田提取效果較好,如圖6所示,黑框為其他尺度存在欠分割與過分割的區(qū)域。

使用上述方法依次對區(qū)域2、區(qū)域3的分割尺度進行計算,最終得到最優(yōu)分割尺度分別為65、76。通過多尺度分割獲取樣本數(shù)據(jù)集,經(jīng)過專家標(biāo)注,得到研究區(qū)域中梯田與非梯田的數(shù)量,如表4所示。

表4 研究區(qū)域樣本數(shù)量

1.2.4特征選擇

特征提取的優(yōu)劣對最終的結(jié)果有著很大的影響[19]。本文從光譜、紋理、形狀三個方面來對特征進行提取。光譜特征主要是對影像的相關(guān)灰度信息進行描述,選取均值和標(biāo)準(zhǔn)差作為梯田的提取特征。紋理特征通過圖像的灰度變化來對粗糙度、方向性等性質(zhì)利用灰度共生矩陣(Grey Level Co-occurrence Matrix,GLCM)來進行描述[20],選取同質(zhì)性、對比度、非相似性等7個特征作為提取特征。形狀特征通過幾何參數(shù)來進行表達,選取形狀指數(shù)和長寬比作為提取特征,如表5所示。

表5 特征描述

為降低冗余特征的干擾,采用CfsSubsetEval評估器,結(jié)合Best-First搜索方法來進行特征選擇。首先Best-First搜索方法從空的子集開始進行前向搜索來添加特征,當(dāng)連續(xù)添加多個特征時,性能仍然沒有改進就結(jié)束對屬性子集空間的搜索?；谙嚓P(guān)性,采用CfsSubsetEval評估器對特征子集進行評價,通過各個特征的預(yù)測能力以及特征之間的相關(guān)性,建立特征評價器作為最優(yōu)特征子集的選擇標(biāo)準(zhǔn)。

區(qū)域1中最優(yōu)特征子集包含12個特征,分別為Mean(R、G、B、S、SOS)、Sd(R、S)、Entropy(HS、SOS)、Correlation R、Angular 2nd moment SOS、Homogeneity HS。區(qū)域2中最優(yōu)特征子集包含10個特征,分別為Mean(G、S)、Sd(B、S)、Correlation B、Dissimilarity TR、Entropy TR、Angular 2nd moment(G、TR)、Homogeneity R。區(qū)域3中最優(yōu)特征子集包含9個特征,分別為Mean(G、SOS、TR)、Sd R、Correlation R、Entropy(HS、SOS)、Homogeneity(R、B)。

以區(qū)域1為例,采用箱線圖對最優(yōu)特征子集進行分析。箱線圖是一種常用的數(shù)理統(tǒng)計方法,從宏觀上展示數(shù)據(jù)的大概分布[21]。圖7為最優(yōu)特征子集中的特征在梯田與非梯田上的分布情況,結(jié)果顯示兩者的分布重疊部分較少,梯田與非梯田有明顯的區(qū)分效果,將這些特征進行結(jié)合,有利于更好地對梯田進行提取。

1.2.5樣本均衡化

考慮到本文的數(shù)據(jù)集為不均衡數(shù)據(jù)集,為了降低不均衡數(shù)據(jù)對提取效果的影響,要進行均衡化采樣處理。目前針對不均衡數(shù)據(jù)的采樣處理主要分為欠采樣與過采樣,欠采樣通過減少多數(shù)類的樣本數(shù)量來達到樣本均衡的樣本,但對總體的樣本數(shù)據(jù)未能充分利用。過采樣通過增加少數(shù)類樣本的數(shù)量來達到樣本均衡,可以充分利用所有的樣本數(shù)據(jù)。SMOTE算法是一種常見的過采樣算法,利用人工方式合成樣本量較少的類,擴大樣本量,保證不同類別的樣本量達到均衡水平。SMOTE算法步驟如下：

(1) 對于樣本總數(shù)為n的少數(shù)類,采用歐氏距離計算每個樣本ai(i=1,2,…,n)距離最近的M個樣本。

(2) 根據(jù)樣本的不平衡率設(shè)置樣本合成的倍率N,在M個樣本中隨機選取N個樣本,對于每個被選取的樣本與原來的少數(shù)類進行樣本合成,如式(20)所示。

anew=a+rand(0,1)×(ai-a)

(20)

式中：anew為合成的少數(shù)類樣本;rand(0,1)為在區(qū)間(0,1)之內(nèi)隨機生成數(shù)。

2 實驗方法

2.1 AdaBoost算法

在目前的梯田提取中,不同的分類算法易受研究區(qū)域地形特征的影響,對于不同的研究區(qū)域未能全部取得一個較好的提取結(jié)果。AdaBoost算法是一種常用的集成學(xué)習(xí)算法,根據(jù)樣本的權(quán)值變化不斷更新基分類器的權(quán)重,最終得到一個性能較好的分類模型。首先對每個樣本賦予相同的權(quán)值,然后選取當(dāng)前誤差率最小的基分類器計算其權(quán)值以及更新樣本權(quán)值,分錯樣本會被賦予更大的權(quán)值,對這些樣本著重進行訓(xùn)練,通過不斷迭代直至滿足迭代條件,得到最終分類模型。算法的步驟如下：

(1) 賦予每個樣本初始權(quán)值相等,如式(21)所示。

(21)

式中：D1(i)表示在第1次迭代下第i個樣本的權(quán)值;N為樣本總數(shù);i=1,2,…,N。

(2) 比較各基分類器的誤差率,選擇誤差率最小的基分類器F用于此次迭代,如式(22)所示。

(22)

式中：t為迭代輪數(shù);et為誤差率;Ft(xi)為預(yù)測標(biāo)簽;yi為實際標(biāo)簽,取值范圍為{-1,1}。

(3) 計算基分類器F所占的權(quán)值,如式(23)所示。

(23)

式中：αt表示F的權(quán)值。

(4) 對訓(xùn)練樣本的權(quán)值進行更新,如式(24)所示。

(24)

式中：當(dāng)樣本分對時,yiFt(xi)=1,反之樣本分錯時,yiFt(xi)=-1。樣本權(quán)值更新如下：

(25)

(26)

式中：Dt+1(i)+表示正確分類樣本的權(quán)值;Dt+1(i)-表示錯誤分類樣本的權(quán)值。

(5) 設(shè)置所采用的基分類器數(shù)量為迭代閾值T,對步驟(2)-步驟(4)進行迭代。

(6) 得到最終分類模型,如式(27)所示。

(27)

式中：Ffinal為最終模型,值為預(yù)測的分類結(jié)果。

AdaBoost算法通過不斷的迭代進行訓(xùn)練,當(dāng)某些樣本被多次錯誤分類后,會導(dǎo)致這些樣本的權(quán)值過大,分對樣本會被賦予較小的權(quán)值。權(quán)值過大的樣本會對后面的基分類器權(quán)值影響較大,導(dǎo)致基分類器過于關(guān)注這些異常樣本,對最終模型的性能有所影響。

因此,為抑制分錯樣本的權(quán)值過快增長,將樣本的分錯次數(shù)引入權(quán)值的計算公式中,防止不同樣本權(quán)值差異過大,從而提高模型的性能。

本文對AdaBoost算法中的分錯樣本的權(quán)值迭代,進行了改進,改進如式(28)所示。

(28)

式中：Dt+1(i)-′表示改進后的分錯樣本權(quán)值迭代;m為常數(shù),通常大于樣本迭代次數(shù);n為樣本分錯次數(shù)。

由于權(quán)值的范圍為(0,1),為了使更新后的權(quán)值小于之前的權(quán)值,需要滿足權(quán)值逐漸增長,并且隨著分錯次數(shù)的增加,權(quán)值的抑制作用愈加明顯。通過對權(quán)值增長的抑制,使得算法在訓(xùn)練過程中對分錯樣本權(quán)重的增長變得緩慢,算法的結(jié)果需要關(guān)注全局?jǐn)?shù)據(jù)上的優(yōu)化,避免了因為少數(shù)樣本的正確率,導(dǎo)致全局的正確率下降。

2.2 精度評價指標(biāo)

精度評價是指對于實際中的真值數(shù)據(jù)與分類后的結(jié)果進行對比,來確定分類的準(zhǔn)確程度[22]。本文通過總體分類精度OA(Overcall Accuracy)以及Kappa系數(shù)來進行精度評價?？傮w分類精度通過總的樣本數(shù)與分類正確的樣本數(shù)的比值來表示。Kappa系數(shù)通過總的樣本數(shù)量與混淆矩陣來進行相關(guān)計算,綜合考慮了混淆矩陣中精確率、召回率等因素,能夠全面地對分類精度進行反映[23],如式(29)、式(30)所示。

(29)

(30)

式中：N代表總的樣本數(shù);n代表分類的所有的類別數(shù);hik表示混淆矩陣中元素。

3 結(jié)果與討論

3.1 最優(yōu)基分類器數(shù)量選擇

為了探究基分類器數(shù)量對分類精度的影響,本文采用不同基分類器數(shù)量進行實驗,測試了基分類器數(shù)量從20到500共13組下的三塊區(qū)域的分類精度和Kappa系數(shù)值,實驗結(jié)果如圖8-圖9所示,可以看出三塊區(qū)域的分類精度以及Kappa系數(shù)隨基分類器數(shù)量增長上下波動,而且三塊區(qū)域分類精度以及Kappa系數(shù)最高時對應(yīng)的基分類器數(shù)量不同,表明了不同類別區(qū)域的數(shù)據(jù)特征不同。

本文以決策樹為基分類器,通過不斷改變基分類器數(shù)量觀察精度的變化趨勢,當(dāng)三塊研究區(qū)域的基分類器數(shù)量分別為80、360、200時,總精度與Kappa系數(shù)均達到最大,總精度分別為95.19%、93.67%、90.54%,Kappa系數(shù)分別為0.879 4、0.846 8、0.777 3。

3.2 SMOTE均衡化結(jié)果

為驗證樣本均衡化對梯田提取效果的影響,本文對三塊研究區(qū)域分別進行實驗,在未均衡化處理前,三塊研究區(qū)域的不平衡率分別為2.96、2.12、2.91。均衡化前后的精度以及Kappa系數(shù)如圖10所示,結(jié)果表明,經(jīng)過樣本均衡化后,各個模型性能均有所提升,并且改進的AdaBoost算法提取效果最好。

(a) 區(qū)域1原圖 (b) 區(qū)域2原圖 (c) 區(qū)域3原圖

(a) 區(qū)域1原圖 (b) 區(qū)域1去霧后

(a) S(b) TR (c) CVE(d) PN (e) HS (f) SOS圖4 研究區(qū)域的地形因子

圖5 區(qū)域1 ESP2結(jié)果圖

圖6 區(qū)域1多尺度分割結(jié)果對比

圖8 不同基分類器數(shù)量下的總精度

圖9 不同基分類器數(shù)量下的Kappa系數(shù)

(a) 區(qū)域1總精度對比 (b) 區(qū)域1 Kappa系數(shù)對比

3.3 梯田提取結(jié)果

為了驗證本文方法的有效性,與AdaBoost算法以及KNN、SVM、CART進行對比實驗。對密集條形區(qū)、不規(guī)則區(qū)、稀疏塊狀區(qū)區(qū)域進行梯田提取。為了對比不同算法的提取效果,結(jié)果中用灰色表示梯田區(qū)域,白色表示非梯田區(qū)域,黑色表示提取錯誤的區(qū)域。

區(qū)域1為密集條形區(qū)梯田,梯田區(qū)域多為條狀,并且具有細窄的特點。不同算法的提取效果如圖11所示。在三種常用的分類算法KNN、SVM、CART中,CART在寬短類型梯田區(qū)域提取效果較差。KNN的提取效果優(yōu)于CART,但對于細長類型的區(qū)域如道路等提取效果較差。SVM的提取效果優(yōu)于前兩種方法,但對于臨近道路的復(fù)雜地物區(qū)域提取效果差,相比而言,AdaBoost算法對于寬短類型、細長類型以及臨近道路的復(fù)雜地物區(qū)域的提取效果優(yōu)于以上三種方法。改進的AdaBoost算法的提取效果優(yōu)于AdaBoost算法,對于地勢較高的區(qū)域提取效果更好,同時避免了其他方法對小面積非梯田區(qū)域的錯誤提取。

(a) 真值圖 (b) 改進AdaBoost (c) AdaBoost

區(qū)域2為不規(guī)則的梯田區(qū)域,梯田形狀不規(guī)則。不同算法的提取效果如圖12所示。KNN、SVM、CART三種方法的提取效果的差異較小,對于小面積區(qū)域以及連通梯田的非梯田區(qū)域提取效果較差。AdaBoost算法對于細窄區(qū)域的提取效果較差。

(a) 原圖 (b) 改進AdaBoost (c) AdaBoost

區(qū)域3為稀疏塊狀梯田區(qū)域,邊緣光滑,數(shù)量相對較少,梯田面積較大,部分區(qū)域由于積雪的覆蓋,導(dǎo)致梯田紋理顏色等發(fā)生變化不能較好地進行提取,并且田坎對提取也會產(chǎn)生影響。不同算法的提取效果如圖13所示。KNN、SVM、CART三種算法對于積雪覆蓋的區(qū)域均不能取得較好的提取效果,改進的AdaBoost算法以及AdaBoost算法在積雪覆蓋區(qū)域與上述三種方法相比,提取效果較好。但AdaBoost算法相對于改進的AdaBoost算法,對于含有建筑物的區(qū)域提取效果較差。

(a) 真值圖 (b) 改進AdaBoost (c) AdaBoost

從以上實驗結(jié)果可以看出,改進的AdaBoost算法以及AdaBoost算法較KNN、SVM、CART三種方法具有更好的提取效果,而改進的AdaBoost算法對于較難提取的區(qū)域較AdaBoost算法具有更好的提取效果。

本文測試的五種方法在三塊梯田區(qū)域上提取結(jié)果的總精度以及Kappa系數(shù)如表6-表7所示。改進的AdaBoost算法以及AdaBoost算法的總精度以及Kappa系數(shù)均高于KNN、SVM、CART三種算法,改進的AdaBoost算法的平均總精度以及平均Kappa系數(shù)相比于AdaBoost算法分別提高了1.62百分點以及0.04,表明改進的AdaBoost算法具有良好的提取效果。

表6 研究區(qū)域梯田總精度提取結(jié)果(%)

表7 研究區(qū)域梯田Kappa系數(shù)提取結(jié)果

4 結(jié) 語

本文改進的AdaBoost算法結(jié)合SMOTE均衡化,對三塊不同地形特征區(qū)域進行梯田提取。首先對高分辨率遙感影像與地形因子進行融合與分割,得到樣本數(shù)據(jù)集;然后通過特征選擇對冗余特征進行去除,提高了特征的有效性;針對研究區(qū)域梯田與非梯田樣本不均衡問題采用SMOTE均衡化,結(jié)果表明,樣本均衡化對梯田提取有一定影響;最后對五種方法的提取結(jié)果進行分析,表明改進的AdaBoost算法對復(fù)雜區(qū)域的梯田提取有較好的效果。

在下一步的研究中,將采用不同類型的算法作為AdaBoost算法的基分類器進行研究,以及與深度學(xué)習(xí)進行結(jié)合來探索更為精確的梯田提取方法。