梁志國 隋傲 于穎 趙戈榕 謝秋 劉代超
(東北林業(yè)大學,哈爾濱,150040) (中國科學院空天信息創(chuàng)新研究院)
在土地利用信息獲取中,遙感影像的分類技術作為一種重要的手段被廣泛利用,也是遙感研究領域中的熱點。“同譜異物”與“同物異譜”現(xiàn)象一直是遙感分類研究需要克服的難題。由于遙感影像的數(shù)據(jù)量龐大,因此,依靠傳統(tǒng)的分類很難挖掘出遙感圖像中蘊含的復雜信息。隨著計算機技術的發(fā)展,基于機器的深度學習方法被廣泛用于遙感分類。郭燕等[1]利用高分二號數(shù)據(jù),借助支持向量機、人工神經(jīng)網(wǎng)絡、最大似然法等對小麥進行快速識別。決策樹算法由于其普適性良好、邏輯性強等優(yōu)點成為常用的遙感圖像監(jiān)督分類方法。CART算法有很強的利用空間輔助信息的能力,可以深度挖掘訓練樣本的特征信息,是一種良好的基于決策樹的分類算法。王凱等[2]使用高分一號數(shù)據(jù),利用決策樹方法與像元分解模型對冬小麥種植面積進行快速監(jiān)測;胡茂瑩等[3]使用高分二號數(shù)據(jù),基于面向對象的方法和CART決策樹算法提取了城市房屋的信息。然而,傳統(tǒng)的遙感數(shù)據(jù)由于波段數(shù)較少,導致訓練樣本的可挖掘性不夠深,而在可見光波段與紅外波段中加入紅邊、黃邊、紫邊波段,是當前高分辨率衛(wèi)星傳感器的研究熱點。劉佳等[4]研究表明,在RapidEye衛(wèi)星數(shù)據(jù)中引入紅邊波段有效的提高了對農作物面積提取的精度。因此,本文運用我國農業(yè)衛(wèi)星“高分六號”的遙感數(shù)據(jù),以本溪地區(qū)有林地為研究對象,建立有林地快速識別系統(tǒng),并與傳統(tǒng)高分數(shù)據(jù)識別有林地對比分析,探究國產GF-6新衛(wèi)星在有林地快速識別上的優(yōu)勢,為國產GF-6衛(wèi)星的應用提供參考。
本溪位于遼寧省東南部地區(qū),地處E123°34′~125°46′,N40°49′~41°35′。本溪市林業(yè)用地6 666.67 km2。共有木本植物47科100屬251種,珍貴樹種有紅松(PinuskoraiensisSieb. et Zucc.)、油松(PinustabulaeformisCarr.)、落葉松(LarixoigensisA. Herry.)等,林木蓄積量4 860萬m3,林地覆蓋率74%。
高分六號是國家高分辨率重大專項衛(wèi)星,又稱為“高分陸地應急監(jiān)測衛(wèi)星”,服務于農業(yè)農村、自然資源、應急管理、生態(tài)環(huán)境等行業(yè)。GF-6具有高分辨率、寬覆蓋、高質量成像、高效能成像、國產化率高等特點。配置一臺2 m全色/8 m多光譜高分辨率相機和一臺16 m多光譜中分辨率寬幅相機,2 m全色/8 m多光譜相機觀測幅寬90 km, 16 m多光譜相機觀測幅寬800 km。增加了兩個能夠有效反映作物特有光譜特性的“紅邊”波段,可以為植被應用提供更加詳細的光譜信息。高分六號衛(wèi)星與高分一號衛(wèi)星的分辨率設置基本相同,在譜段上增加了紫譜段(0.40~0.45 μm)、黃譜段(0.59~0.63 μm)、紅邊譜段1(0.69~0.73 μm)和紅邊譜段2(0.73~0.77 μm)。
首先,對本溪GF-6數(shù)據(jù)進行輻射定標、幾何精校正和鑲嵌預處理;其次,選擇差值植被指數(shù)(DVI)、歸一化植被指數(shù)(NDVI)以及遙感圖像的紋理等因子作為決策樹分類的特征變量。然后,使用傳統(tǒng)人工決策樹和基于CART算法的自適應特征和閾值決策樹方法進行分類,比較分類精度。最后,對分類結果進行比較。分類方案見表1。
表1 分類方案
分類系統(tǒng)是遙感分類的基礎和目標,是地表覆蓋類型從粗到細以信息樹表示的分級結構的分類形式,表示各類別等級的詳細程度。根據(jù)我國《土地利用現(xiàn)狀分類》標準,土地一級類型包括耕地、園地、林地、草地、商服用地、工礦倉儲用地、住宅用地、公共管理與公共服務用地、特殊用地、交通運輸用地、水域及水利設施用地以及其他用地。
本次研究的目的是實現(xiàn)研究地區(qū)有林地的快速分類。目視解譯結合Google地圖發(fā)現(xiàn)研究地區(qū)地物類型包括林地、農田、草地、建筑、道路、水等;其中建筑、道路、水等非植被可以和林地、農田、草地等植被區(qū)分開;而農田、草地等非林地和林地可區(qū)分開。林地包括有林地、疏林地、灌木林地、未成林地、苗圃地、無立木林地、宜林地和林業(yè)輔助生產用地。本研究只區(qū)分有林地,分類系統(tǒng)第一層分為植被和非植被,第二層將植被分為有林地和其他。
決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。這種分類方式是通過條件得到規(guī)則。決策樹一般分為分類樹和回歸樹,離散變量需要使用分類樹,連續(xù)變量使用回歸樹。決策樹是根據(jù)數(shù)據(jù)的本質特征將數(shù)據(jù)集分類的過程。本研究基于GF6數(shù)據(jù),利用ENVI5.3平臺,對本溪地區(qū)進行人工決策樹分類,并使用無新增波段的高光譜數(shù)據(jù)進行對比。
CART算法對于特征屬性時進行二元分裂。樣本滿足條件則分裂給左子樹,否則分裂到右子樹。所以,這種方法生成的決策樹為簡單的二叉樹。此方法基于基尼指數(shù)[5-6]選擇最優(yōu)特征,并決定特征的最優(yōu)切分點。
二分類問題是對給定樣品集合D以及特征A,樣本集合D會被分裂成D1和D2兩部分,則有特征A下的集合D的基尼指數(shù)(Gn)為:Gn(D,A)=(D1/D)·Gn(D1)+ (D2/D)·Gn(D2) ?;嶂笖?shù)表示集合的不確定性,基尼指數(shù)越大,樣本集合的不確定性越大。
在決策樹的構造的過程中,由于數(shù)據(jù)存在噪聲等不確定因素,造成了數(shù)據(jù)過度擬合,導致分類精度降低,因此,算法加入了剪枝過程,以提高決策樹的精度。剪枝技術有預剪枝和后剪枝的方法。CART算法一般使用后剪枝的方法,也就是說通過刪除節(jié)點的分支來剪去樹的節(jié)點,則最底層的節(jié)點成為樹葉部分。
本研究使用同一套ROI并使用CART算法,對原始GF6數(shù)據(jù)的8個波段和紋理特征[7-8]及植被指數(shù)進行自適應濾波的計算,得出的自適應特征及閾值構建決策樹。為了體現(xiàn)新波段帶來的優(yōu)勢再加入一組對比實驗,對原GF6圖像的B1(藍光波段)、B2(綠光波段),B3(紅光波段)、B4(近紅外波段)[9-11]和紋理特征及植被指數(shù)進行CART自適應濾波的計算,得出的自適應特征及閾值構建決策樹。
在決策樹的構建中,僅使用地物的輻射亮度均值以及植被指數(shù)很難將植被之中的有林地與其他類型地物高精度分開。因此,使用紋理來區(qū)分其他類型地物(人為的、具有規(guī)則形狀的農田),通過灰度共生矩陣提取紋理特征是遙感常用的提取方法。本文采用二階概率統(tǒng)計的方法,利用協(xié)同性、平均值、方差、熵等8類濾波,用一個灰色空間相關性矩陣計算紋理值,顯示一個像元和它特定鄰域之間關系的發(fā)生數(shù)。
隨機選取研究區(qū)域有林地與其他類型地物各500個左右作為檢驗樣本,以Kappa系數(shù)[12]和總體分類精度為標準對比分析分類精度??傮w分類精度指正確分類的類別像元數(shù)與總的類別個數(shù)的比值。Kappa系數(shù)表示分類與完全隨機的分類產生錯誤減少的比例,計算公式k=(p0-pe)/(1-pe),p0為實際一致率,pe為理論一致率。若每一類的真實樣本個數(shù)分別為a1、a2、…、ac,而預測出來的每一類樣本的個數(shù)分別為b1、b2、…、bc,總樣本個數(shù)為n,pe=(a1×b1+a2×b2+…+ac×bc)/(n×n)。
3.1.1 GF數(shù)據(jù)原始波段對有林地識別精度
研究選取歸一化植被指數(shù)(NDVI)[13]、差值植被指數(shù)(DVI)以及影像的紋理信息這一系列特征構建決策樹,并通過選取特定的波段再一次放大影像的信息量。首先,選取的植被與非植被ROI(感興趣區(qū))來統(tǒng)計輻射亮度均值,以此選擇出植被指數(shù)所需要的具有明顯特征的波段來分類的第一層[14](植被與非植被)。植被的B4波段的輻射亮度均值高于非植被,是植被非植被的主要區(qū)分波段。在植被中,B4波段要明顯高于B3波段,而非植被中B4波段和B3波段相差不大可以利用B4波段和B3波段區(qū)分植被/非植被。統(tǒng)計植被、非植被訓練樣本ROI在B4波段和B3波段組成的歸一化植被指數(shù)的概率密度曲線(見圖1)。
從圖1中可以看出植被/非植被歸一化植被指數(shù)中,非植被的指數(shù)范圍為(-0.335 656,0.390 545),植被的指數(shù)范圍為(0.369 73,0.589 868);在(0.369 73,0.589 868)范圍內兩種地類沒有交叉,即為植被/非植被分類閾值,可引入決策樹快速分類第一層中作為分類規(guī)則。
利用選取的有林地/其他類型地物的ROI,確定第二層決策樹分類所需要的特征波段,發(fā)現(xiàn)有林地/其他類型地物在B4(近紅外)波段上輻射亮度均值都是最大的,利用差值植被指數(shù)(近紅外波段-紅光波段)作為有林地與其他類型地物的分類規(guī)則,統(tǒng)計差值植被指數(shù)概率密度曲線(見圖2)。
從圖2中可以得到,有林地在差值植被指數(shù)的閾值(3.179 785,8.099 041),其他類型地物的閾值是(3.987 723,7.762 255);有林地與其他類型地物在(6.530 532,8.099 041)上有部分混淆,但在(3.199 152,6.355 997)上可以區(qū)分開,因此,將(3.199 152,6.355 997)作為有林地分類閾值。將歸一化植被指數(shù)和差值植被指數(shù)輸入決策樹中,得到?jīng)Q策樹規(guī)則(見圖3)和分類結果(見圖4)。
3.1.2 GF6新增波段對有林地識別精度
為了分析GF6新增特殊波段對于快速識別有林地特征的優(yōu)勢,增加了GF6新增特殊波段(紫光、紅邊1、紅邊2和黃邊)建立規(guī)則,制作人工決策樹進行對比。為了更客觀的評價,分類對比實驗使用同一套植被/非植被ROI,有林地/其他類型地物ROI。植被/非植被的分類仍然沿用NDVI作為分類規(guī)則,統(tǒng)計有林地/其他類型地物的訓練樣本在GF6各個波段上的輻射亮度均值,可以發(fā)現(xiàn)其他類型地物在B4(近紅外)波段上輻射亮度均值均高于有林地,所以可以利用B4波段分別與其他波段做差,得到植被/非植被差異性相對較大的波段組合,經(jīng)計算可知,近紅外與紅邊1的差值在有林地/其他類型地物差異相對較高,因此,利用這兩個波段的差作為差值植被指數(shù),并統(tǒng)計有林地/其他類型地物的概率密度曲線(見圖5)。
由圖5可知,其他類型地物的DVI閾值為(3.583 323,7.697 885),有林地DVI閾值為(3.219 367,7.182 94)為有林地;DVI在(3.654 583,6.001 639)范圍內有林地/其他類型地物混淆相對較少,可作為有林地/其他類型地物DVI分類閾值。
將DVI加入植被/非植被分類中,得到?jīng)Q策樹分類規(guī)則(見圖6)和分類結果(見圖7)。
3.2.1 GF數(shù)據(jù)原始波段對有林地識別的精度
研究對遼寧本溪市2018年7月22日的高分六號影像的傳統(tǒng)四個波段基于CART算法選取自適應特征及閾值構造決策樹。自適應特征選擇的變量為GF數(shù)據(jù)傳統(tǒng)波段、NDVI、DVI、8種紋理信息(平均值、方差、二階矩、同質性、對比度、熵、相關性、相異性)??傮w分類精度為94.31%,Kappa系數(shù)達到0.87,分類結果見圖8。
3.2.2 GF6新增波段對有林地識別精度
為了進一步比較GF6數(shù)據(jù)新增波段在有林地識別上的優(yōu)越性,研究基于CART自適應特征與閾值算法,加入新增4個波段(紫光、紅邊1、紅邊2和黃邊)構建決策樹。自適應特征選擇的變量為GF數(shù)據(jù)新增波段、傳統(tǒng)波段、NDVI、DVI、7種紋理信息(平均值、方差、二階矩、同質性、對比度、熵、相關性)。總體分類精度為97.67%,Kappa系數(shù)達到0.95,分類結果見圖9。
本研究構造了有無新增特殊波段、人工決策樹與CART自適應特征自適應閾值的4組決策樹。從分類結果中可以發(fā)現(xiàn)沒有新增波段的人工決策樹分類結果椒鹽現(xiàn)象及錯分現(xiàn)象最為嚴重;有新增波段的人工決策樹分類結果較上一種稍好一些,但椒鹽現(xiàn)象及錯分現(xiàn)象依然嚴重;使用CART算法構造的無新增波段的決策樹解決了椒鹽現(xiàn)象但依然存在錯分現(xiàn)象;具有新增波段并使用CART算法構造的決策樹從分類結果來看效果最好,說明高分六號的特殊波段對于林地有很強的辨識能力。
波段選擇的目的是更加有效的識別地物類型,通過上述方法,分別組合了有無新增特殊波段的有林地與其他類型地物的可分性測度。無新增特殊波段對可分性測度[15]為1.32,有新增特殊波段對可分性測度為1.88,因此,具有特殊波段的高分六號遙感圖像的有林地識別能力更高,可分離程度更高。
由表2可知,人工4波段的總體分類精度和Kappa系數(shù)均小于人工8波段;CART 4波段的總體分類精度和Kappa系數(shù)均小于CART 8波段。通過對比發(fā)現(xiàn)無論是從可分離性測度、生成的結果圖像或是精度檢驗結果,都可以表明具有特殊波段的高分六號數(shù)據(jù)對有林地具有很強的識別能力。
表2 有無新增特殊波段的有林地識別總體分類精度比較
本文基于高分六號的數(shù)據(jù),通過人工和CART算法構建決策樹,對遼寧本溪地區(qū)進行有林地的快速識別。結果如下:通過比較有無新增特殊波段的高分六號圖像樣本點可分離度發(fā)現(xiàn),具有特殊波段的樣本點可分離性明顯高于無特殊波段的樣本點,可分離性由1.32提高到1.88;使用人工和CART算法構造決策樹,通過兩種圖像對比,在沒有特殊波段的圖像分類結果中有更多的錯分現(xiàn)象,其中多數(shù)錯分為農田與有林地的混淆;加入了特殊波段的高分六號數(shù)據(jù)對于有林地有更強的識別能力,圖像分類總精度比無特殊波段的圖像高出3%以上。且使用CART算法能更好的挖掘出圖像本身的特征及自適應閾值達到快速分類的效果。
因此,增加了特殊波段的高分六號數(shù)據(jù)具有更好的有林地識別能力,相比于一般的衛(wèi)星傳感器,高分六號的傳感器更有利于有林地的識別以及分類。另外,在使用CART算法構建決策樹時存在過度擬合的問題,在以后的研究中應優(yōu)化剪枝程序或更新算法,提高分類的實際精度。