霍軒琳, 牛振國, 張波, 劉林崧, 李霞
1. 長安大學 地球科學與資源學院, 西安 710054;2. 中國科學院空天信息創(chuàng)新研究院 遙感科學國家重點實驗室, 北京 100094;3. 長安大學 土地工程學院, 西安 710054
濕地具有調(diào)節(jié)氣候、保護生物多樣性、蓄洪抗旱、改善環(huán)境等功能,同時為動植物提供了良好的生存條件(Moor 等,2015),是地球上最重要的生態(tài)系統(tǒng)(森林、海洋、濕地)之一(何菊紅等,2015)。青藏高原高寒濕地是青藏高原乃至西部地區(qū)最重要的生態(tài)系統(tǒng),近年來受到自然和人為因素干擾,高寒濕地面積已銳減了10%,且水量和濕地的面積減少速度還在加快(王根緒 等,2007;徐新良 等,2008)。因此,及時獲知高寒濕地面積、分布區(qū)域等對青藏高原高寒濕地管理與保護乃至生態(tài)系統(tǒng)的可持續(xù)發(fā)展至關重要。
遙感分類特征的選擇是目前對濕地進行準確分類與制圖的眾多挑戰(zhàn)之一。分類特征需要考慮到以下兩方面,其一,濕地是陸地生態(tài)系統(tǒng)和水域生態(tài)系統(tǒng)的交界地帶,具有較高的景觀異質(zhì)性,僅靠一種特征變量可能無法很好地進行濕地的準確提?。黄涠?,若使用過多的特征變量參與其中將影響分類精度和效率??梢?,多特征變量提取與優(yōu)化以及進行有效組合將是今后濕地信息智能化提取的重點難點(張磊 等,2019)。特征選擇(Feature Selection)通常情況下是將特征按照相關性準則排序,去掉冗余和不相關的特征(Guyon 和Elisseeff,2003),按評價標準不同,特征選擇算法可分為過濾式(Filter)、封裝式(Wrapper)和嵌入式 (Embedded) 3 種(Dash 和Liu,1997;Dash 等,2002;Saeys 等,2007;Kira 和Rendell,1992)。其中,F(xiàn)ilter方法利用特征本身內(nèi)在特性給出特征評價,特征評價越高表示該特征區(qū)分能力越強。這也是該方法最主要的特點:特征選擇獨立于分類學習算法。它不依賴某種分類器,因此簡單,速度快,效率高。Yu和Liu(2003)以特征間的相關性為指導,用Filter 方法進行特征選擇,證實了該方法進行特征選擇的有效性;Wrapper 方法是將特定學習算法性能作為篩選子集的評估準則,每次篩選出的特征子集都需調(diào)用特定分類器進行精度驗證。John 等(1994)提出當滿足一定條件時,將獲得具有較高分類性能的識別模型。該方法準確率較高,利于關鍵特征的識別,在算法速度上比Filter 方法慢,時間復雜度較高;Embedded 方法是一種基本的歸納方法,可以說是Wrapper 方法的延伸。Embedded 方法將特征選擇過程嵌入到分類器的建造過程中,主要的例子是套索回歸的問題以及決策樹如 Breiman (2001)的 CART 算法。該方法計算效率高,但是特征中可能存在無關特征降低分類精度,在本次研究中未涉及。
針對已有的特征選擇方法,有一些學者就其在濕地遙感分類方面進行了探索。如Mahdianpari等(2019)利用JM 距離定量地確定不同類型濕地的可分性,結(jié)合隨機森林進行分類總體精度達到88.37%;孫艷麗等(2015) 利用光譜角距離(SAD)和歐氏距離(ED)雙重判定提取不變特征點,提出了一種基于光譜角—歐氏距離的輻射歸一化方法;郝玉峰等(2021)利用Relief-F 算法計算了52 個特征變量的權(quán)重,選出前20 個特征變量構(gòu)成最優(yōu)特征集參與濕地信息提?。籋an等(2012)利用Z 檢驗方法測定區(qū)分兩種植被類型的最佳紋理波段。以上提到的這些方法均屬于Filter 方法;解淑毓等(2021)采用Wrapper 方法中典型的RFE 算法進行沼澤濕地分類中的變量優(yōu)選,顯著減少了數(shù)據(jù)冗余。Phan 等(2020)在其研究中指出GEE 提供的像元級重組規(guī)則主要包括最大值、最小值、平均值、中位數(shù)和百分位數(shù)等。
總體而言,目前濕地分類特征優(yōu)選的研究多集中于通過多特征變量參與、單一特征優(yōu)選方法來甄選最優(yōu)特征集。不同特征的統(tǒng)計方式和不同特征優(yōu)選方法對分類的影響尚未見相關研究報道,同時不同分類特征對高寒濕地類別分類的適用性也未見相關研究。鑒于此,本文基于Sentinel-2 影像數(shù)據(jù),以首曲高寒濕地保護區(qū)為研究區(qū)域,利用隨機森林分類算法,探討數(shù)理統(tǒng)計特征和特征優(yōu)選方法對優(yōu)選的各種影響,并分析不同特征對高寒濕地類型分類的適用性。該研究將對提高高寒濕地遙感制圖具有重要的參考價值。
甘肅黃河首曲國家級自然保護區(qū)(33°20′01″N—33°56′31″N,101°54′12″E—102°28′45″E)位于甘南藏族自治州瑪曲縣境內(nèi),屬于內(nèi)陸濕地和水域生態(tài)系統(tǒng)類型的自然保護區(qū),是青藏高原典型的面積較大的高寒濕地(薛鵬飛 等,2021),也是全球保存狀態(tài)最為完整和原始的濕地。首曲高寒濕地屬于高原大陸性氣候,年均氣溫1.1 ℃,年平均降水量615.5 mm,全年降雨150 d 左右(高斌斌,2008),給黃河貢獻了黃河源區(qū)總徑流量58.7%的水量,被稱為“蓄水池”和“高原水塔”。
2.2.1 數(shù)據(jù)源及預處理
近年來隨著遙感技術(shù)的迅猛發(fā)展,越來越多的多源傳感器涌現(xiàn),其空間分辨率、時間分辨率、波段數(shù)量得到了巨大提升(鄭陽 等,2017),為濕地的遙感分類提供了更多的選擇。綜合考慮影像分辨率、波段、可獲得性等多因素,研究采用Sentinel-2影像。Sentinel-2屬于中高空間分辨率遙感影像,攜帶高分辨率多光譜傳感器MSI,可提供可見光、近紅外到短波紅外的13 個波段,是目前唯一在植被光譜的紅邊區(qū)域(670—760 m)設置3 個波段的衛(wèi)星。紅邊波段數(shù)據(jù)及其衍生指數(shù)可區(qū)分C3、C4植被(Shoko和Mutanga,2017;Korhonen等,2017;常文濤 等,2020),極大促進了對植被生長信息及其健康狀況的有效監(jiān)測(張磊 等,2019)。本研究使用的Sentinel-2數(shù)據(jù)是用GEE平臺“COPERNICUS/S2_SR”數(shù)據(jù)集中2020 年1 月1 日至2020年12月31日的影像數(shù)據(jù),采用已經(jīng)過輻射定標和幾何校正的 Level-1C 產(chǎn)品,去除云覆蓋率大于10% 的影像后得到34 景Sentinel-2 的無云影像。
2.2.2 樣本數(shù)據(jù)
本研究以Global Lakes and Wetlands Database、Wetland Dataset of CAS 濕地制圖產(chǎn)品公開數(shù)據(jù)集為參考數(shù)據(jù)集,在Google Earth 軟件上開展樣本集目視解譯工作。最終取得樣本點共480個,每個地類(分類體系見表1)各80個(圖1)。
圖1 黃河首曲國家級自然保護區(qū)樣本點分布圖Fig.1 Distribution map of sample points in the Yellow River Shouqu National Nature Reserve
White 等(2020)指出,草甸沼澤對水位變化特別敏感,下墊面含水量一定程度上決定了濕地植被構(gòu)成。本次不直接以濕地所在地域或濕地中細分植被為分類標準而是優(yōu)先考慮造成濕地植被生長的起因——下墊面土壤含水量。隨著土壤水分的增減,草原地區(qū)的草甸可能會發(fā)生演變,當水分增加時,可轉(zhuǎn)變?yōu)檎訚?;當水分減少時可轉(zhuǎn)變?yōu)椴菰?,沼澤化草甸是草甸與沼澤之間的過渡類型。沼澤、沼澤化草甸、草甸區(qū)域及邊界的變化是監(jiān)測濕地變化的重要指標,其變化可反映出當?shù)氐淖匀粴夂颍鷳B(tài)環(huán)境的變化。因此本文土地覆被分類方案如表1所示。
表1 黃河首曲自然保護區(qū)土地覆被分類方案及影像示例Table 1 Land cover classification scheme and wetland corresponding image of Yellow River Shouqu Nature Reserve
本文的技術(shù)路線圖如下圖2 所示。首先對Sentinel-2 影像數(shù)據(jù)進行預處理。基于樣本計算32 種特征指數(shù)(3.2 節(jié)部分)的統(tǒng)計特征(均值、標準差、中值、最大值、最小值)后,分別利用JM 距 離、ED 距 離、SAD 距 離、RF-RFE 算 法、Relief-F 算法進行遴選,獲取不同特征優(yōu)選方法下的最優(yōu)特征集。基于不同優(yōu)選特征集利用隨機森林進行濕地分類,依據(jù)特征優(yōu)選方法及隨機森林分類結(jié)果評價不同特征優(yōu)選方案。
圖2 特征優(yōu)選技術(shù)流程圖Fig.2 Feature selection technology flow chart
本文選擇了能夠表征濕地植被、水文和土壤特征的指數(shù)進行分析,共選取了32 種特征集,包括光譜特征、植被指數(shù)、水體指數(shù)、紅邊指數(shù)(表2)。
表2 Sentinel-2特征集概述Table 2 Sentinel-2 feature sets list
續(xù)表
本文選擇包括JM 距離、ED 距離、SAD 距離、Relief-F 算法、Z 檢驗在內(nèi)的5 種Filter 方法,以及Wrapper方法的RFE算法進行本次實驗。
3.3.1 Jeffries-Matusita距離
Jeffries-Matusita(JM)距離基于數(shù)據(jù)正態(tài)分布的假設得到不同類別的分離度,在模式識別和特征選擇領域中較為廣泛的使用(Dabboor 等,2014)。對訓練樣本集C(i,j= 1,2,…,C,i≠j)中兩個待分地類wi和wj之間的JM 可分性準則定義如下
式中,dij是兩個待分地類wi和wj之間的Bhattacharyya距離,定義為
式中,P(x/wi)和P(x/wj)是地類wi和wj的隨機變量x的條件概率密度函數(shù),通常假設多元正態(tài)分布,Bhattacharyya距離公式表達為
式中,mi和mj分別表示均值;Σi和Σj分別表示wi和wj的協(xié)方差矩陣,上標T表示矩陣的轉(zhuǎn)置。
3.3.2 歐氏距離
歐氏距離ED(Euclidian Distance)是常見的相似性度量方法,其實質(zhì)是通過一定的準則函數(shù),求兩個不同地類的像元對應的光譜向量之間的距離,此距離代表兩像元的差異程度。兩種地類的歐氏距離越大,代表兩種待分地類間的可分性越強,反之,則表示可分性越弱(Carvalho Júnior等,2011)。由于歐氏距離算法默認每一個維度是相同權(quán)重,因此如果不同維度取值范圍差別較大時需要先對其進行歸一化,ED值計算公式為
式中,i表示波段,N表示波段總數(shù),Xi和Yi分別表示兩種待分地類樣本集所對應的像元亮度值。
3.3.3 光譜角距離
光譜角距離SAD(Spectral Angle Distance)是常用的光譜分類方法。在光譜空間中,每個像元對應一個多維光譜向量,將兩個向量之間的夾角定義為光譜角。光譜角越小,兩光譜越相似,屬于同類地物的可能性越大。由于光譜角距離不受光照、陰影等條件的影響,因此可以突出目標光譜形狀特征。兩種待分地類光譜的相似度越高,SAD 值越大,最大取值為1(Kruse 等,1993)。計算公式為
式中,i表示波段,N表示波段總數(shù),Xi和Yi分別表示兩種待分地類樣本集所對應的像元亮度值。
3.3.4 Z檢驗方法
Z檢驗方法能夠用來測定兩種地物類型在不同特征變量間統(tǒng)計顯著性差異。具體步驟為首先將特征變量分為植被指數(shù)、水體指數(shù)、紅邊指數(shù)3 組,再分別計算兩種濕地類型在不同變量的Z值。Z統(tǒng)計表達式如下(Han等, 2012):
式中,u1和u2指的是兩種待分地類的平均像素值;n1和n2指兩種待分地類樣本個數(shù);s1和s2指兩種待分地類像素值的標準差。Z值越大,待分地類在此特征上的差異就越顯著。
以上4 種方法均用于判別兩地類之間的可分性,為直觀地表達指數(shù)對所有地類區(qū)分的能力,進行以下步驟:根據(jù)在樣本解譯時發(fā)現(xiàn)的沼澤、沼澤化草甸、草甸、草原4種類型越相鄰越難區(qū)分的認識,采用加權(quán)(表3)對類型組合對應的JM值等進行處理,緊密相鄰的兩類權(quán)重賦4,次相鄰的兩類權(quán)重賦3,以此類推。在本次實驗中同時采用了平均方法做補充。
表3 各類型組合權(quán)重分配Table 3 Weight distribution of various types of combinations
3.3.5 Relief-F算法
Relief-F 算法是基于分析鄰近樣本對類別的區(qū)分能力繼而確定特征的權(quán)重,核心思想是一個優(yōu)秀的特征應該使得同類的樣本更加靠近,而使得不同類的樣本更加分散,它是Relief 算法的拓展(劉吉超和王鋒,2021)。其原理為假設數(shù)據(jù)集D中有N個類別的樣本,對屬于第n類中樣本R,首先在同類即第n類的樣本中尋找R的k個最近鄰樣本H,作為猜中近鄰;在第n類之外的每個類中均找到R的k個最近鄰樣本M作為猜錯近鄰,最后定義的權(quán)重為
式中,diff(A,R1,R2)表示樣本R1和樣本R2在特征A上的差,其計算公式Mj( )C表示類別C中的第j個最近鄰樣本,p(C)為該類別的比例。
3.3.6 遞歸特征消除法
相比遞歸特征消除法RFE(Recursive feature elimination)(Elavarasan 等,2020),隨機森林和RFE 相結(jié)合形成RF-RFE,其能夠更加合理的決定最終特征子集的大小,避免了人為因素造成的影響。RF-RFE 算法用于特征選擇(Wu 等,2017),是采用隨機森林算法得到的重要性排序進行后向迭代刪除特征重要度最小的特征,再將其余特征用隨機森林算法重新評估后得到新的特征重要性排序,重復步驟,每次刪掉特征重要性小的特征,最終得到分類的最優(yōu)特征集。
隨機森林算法是由Breiman(2001)提出的一種統(tǒng)計學習理論,研究表明隨機森林算法具有速度快,準確度高,穩(wěn)定性好的優(yōu)勢。因此論文采用隨機森林分類方法進行濕地信息分類。
混淆矩陣是一種特定的矩陣用來呈現(xiàn)算法性能的可視化效果,主要通過比較分類結(jié)果與實際測量值之間的混淆程度進行精度評價。本文利用混淆矩陣,分別計算總體精度OA (Overall Accuracy)、Kappa系數(shù)、生產(chǎn)者精度PA(Producer’s Accuracy)、用戶精度UA(User’s Accuracy)。其中總體精度和Kappa系數(shù)作為評價總體分類精度的指標,生產(chǎn)者精度和用戶精度作為衡量各類的漏分和錯分誤差的指標。
為了方便敘述,論文用到的特征提取方法、數(shù)理統(tǒng)計方法和數(shù)據(jù)處理方式分別按表4編碼進行論述。
表4 編號對照表Table 4 Number comparison table
根據(jù)JM 距離、SAD 距離、ED 距離、Relief-F算法和RF-RFE算法計算結(jié)果,逐一得出在水體指數(shù)、植被指數(shù)、紅邊指數(shù)中表現(xiàn)較好的指數(shù)。
4.1.1 JM距離
JM 距離取值范圍為[0,2],JM 距離大于1.8表示樣本間可分性較好,據(jù)此選出每類組合中JM值大于1.8 的指數(shù),并對這些指數(shù)進行頻次統(tǒng)計(圖3(a))。植被指數(shù)在頻次上大于水體指數(shù)和紅邊指數(shù),其中最突出的是NDVI、VIgreen這兩個指數(shù);水體指數(shù)中頻次數(shù)在前兩位的指數(shù)為NDWI_B、NDWI;紅邊指數(shù)中NDVIre1、NDre1、NDre2指數(shù)出現(xiàn)頻次較多。
圖3 JM距離、ED距離、SAD距離指數(shù)頻次統(tǒng)計Fig.3 Frequency statistics of JM distance, ED distance and SAD distance index
采取加權(quán)和平均兩種計算方式對數(shù)據(jù)進行處理,按重要性從大到小排序后,根據(jù)前12位指數(shù)。發(fā)現(xiàn)加權(quán)方式優(yōu)選的指數(shù)TVI、DVI、SAVI 和以平均方式優(yōu)選指數(shù)RDVI、SAVI,不論在哪一個數(shù)理統(tǒng)計特征中都有。當將兩種方式所選的指數(shù)放在一起統(tǒng)計,優(yōu)選至少出現(xiàn)5 次的指數(shù)作為JM 距離方法所選最優(yōu)指數(shù)集,包括:SAVI、RDVI、TVI、DVI、MSR、EWI、NDWI、RNDWI、SWI、EVI、NDVI、gNDVI、RVI。基本包含了JM 距離大于1.8所選頻次較高的植被指數(shù)和水體指數(shù),但是紅邊特征指數(shù)沒能入選。
4.1.2 ED距離
ED 值越大說明光譜距離越大,地類可分性越強。ED 值大于4 表示樣本間可分性好,依此標準對優(yōu)選的指數(shù)進行頻次統(tǒng)計,指數(shù)出現(xiàn)頻次如圖3(b)所示。紅邊指數(shù)NDre1 出現(xiàn)次數(shù)最多。另外在紅邊指數(shù)中MCARI2、NDre2、NDVIre1 均表現(xiàn)出較好的區(qū)分能力。植被指數(shù)VIgreen、MSR、EVI 指數(shù)出現(xiàn)21 次,其余指數(shù)與之相比相差不大,植被指數(shù)在分類中指數(shù)數(shù)量最多。水體指數(shù)MNDWI、NDWI、EWI表現(xiàn)優(yōu)異。
同樣對15種類型組合的ED值進行加權(quán)與平均兩種方式計算,得出加權(quán)方式優(yōu)選的指數(shù)出現(xiàn)4次以上的有:EVI、RVI、SAVI、GCVI、RDVI;平均方式優(yōu)選的指數(shù)出現(xiàn)4 次以上的是 GCVI、RDVI、 NDVI、 SAVI、 EVI、 MSR、 NDre1、NDre2、NDVIre1。綜合兩種方式所選的指數(shù),同樣以出現(xiàn)5 次以上的指數(shù)作為ED 距離方法優(yōu)選指數(shù) 集,包 括GCVI、EVI、RDVI、SAVI、MSR、NDre1、NDre2、NDVIre1、gNDVI、RVI、NDVI、NDWI。所選水體指數(shù)只有NDWI一個。
4.1.3 SAD距離
光譜角檢測是比較兩類數(shù)據(jù)相似程度的光譜對比方法,當SAD 值越趨近于1,兩類的光譜就越相似。以SAD 值小于0.6 的指數(shù)出現(xiàn)的頻次進行統(tǒng)計,其指數(shù)出現(xiàn)頻次統(tǒng)計如圖3(c)所示,指數(shù)頻次顯示出較大差距,植被指數(shù)MCARI、TCARI不同于其他方法所選指數(shù)。進一步研究發(fā)現(xiàn),TCARI 值是MCARI 值的3 倍,相比其他植被指數(shù),對葉綠素濃度的變化十分敏感;紅邊指數(shù)REP 出現(xiàn)最多,其次是MTCI 指數(shù)。REP 指數(shù)可定量表征植物的葉綠素含量,而MTCI 指數(shù)同樣對葉綠素含量敏感。SAD 距離所選植被指數(shù)和紅邊指數(shù)均對植物葉片含的葉綠素有較好的表征。水體指數(shù)僅選出SWI,該指數(shù)能較好區(qū)分水體和陰影。
對SAD 值分別進行加權(quán)和平均處理后發(fā)現(xiàn),加權(quán)方式優(yōu)選指數(shù)中出現(xiàn)4 次以上的指數(shù)為:TCARI、MCARI、MCARI2、IRECI、EWI、GCVI、NDWI、MNDWI;平均方式優(yōu)選指數(shù)出現(xiàn)次數(shù)4 次以 上 的 為:TCARI、MCARI、MCARI2、IRECI、CIre、RVI、GCVI、LSWI、EVI。將兩種方式所選指數(shù)共同考慮得到SAD 距離方法優(yōu)選的指數(shù)集為TCARI、MCARI、MCARI2、IRECI、CIre、RVI、GCVI、EWI、MNDWI、EVI、LSWI、NDWI。
4.1.4 RF-RFE特征重要性排序
利用RF-RFE 算法優(yōu)選得到的前12 位指數(shù)按重要性排序(表5),不同的數(shù)理統(tǒng)計特征出現(xiàn)很多重復的指數(shù),一定程度上說明這些指數(shù)在重要性排序中表現(xiàn)較好。
表5 RF-RFE算法特征重要性前12位特征指數(shù)集排序Table 5 RF-RFE algorithm feature importance top twelve feature index set
其中,植被指數(shù)有RDVI、DVI、GI、VIgreen、TVI,水 體 指 數(shù) 有NDWI_B、MNDWI、RNDWI、EWI,紅邊指數(shù)有CIre。
4.1.5 Relief-F特征重要性排序
依據(jù)Relief-F 算法優(yōu)選的指數(shù)按重要性排序(表6),其中,中值、平均值和標準差特征除了指數(shù)重要性排序不同外,選擇的指數(shù)均相同,并且部分指數(shù)也出現(xiàn)在最大值和最小值特征中。指數(shù)特征中表現(xiàn)優(yōu)異的指數(shù)分別為:水體指數(shù)中的RNDWI、MNDWI、EWI,植 被 指 數(shù) 有VIgreen、GI、 MSR、 GCVI、 RVI, 紅 邊 指 數(shù) 為NDre1、NDVIre1、NDre2,反映出這些指數(shù)對于區(qū)分地類較為重要。另外還發(fā)現(xiàn)重要性排序第一位的總是水體指數(shù)。
表6 Relief-F算法特征重要性前12位特征指數(shù)集排序Table 6 Relief-F algorithm feature importance top twelve feature index set
樣本的空間分布具有隨機性特征,雖然在濕地分類中通常采用平均值的方式對樣本進行處理,但哪一種統(tǒng)計特征更能代表樣本的屬性特征,目前為止沒有相關的研究。為此本文研究分別根據(jù)平均值、中值、最大值、最小值和標準差進行各類特征的計算,在此基礎上評價對屬性特征優(yōu)選的影響。
4.2.1 JM距離
對表5 基于JM 距離優(yōu)選的指數(shù)集分別采用隨機森林分類器進行分類,得出中值和平均值特征總體精度和Kappa系數(shù)最高,均為86.70%、0.840,標準差特征的最低。依據(jù)JM 距離計算結(jié)果,指數(shù)數(shù)理統(tǒng)計特征的可分性能力可排序為平均值特征=中值特征>最小值特征>最大值特征>標準差特征。
4.2.2 ED距離
對ED 距離優(yōu)選得到的指數(shù)集進行隨機森林分類,分類精度結(jié)果如表7。
表7 ED算法分類精度統(tǒng)計Table 7 ED algorithm classification accuracy statistics
中值特征的總體精度與Kappa系數(shù)最高,達到87.40%、0.849;標準差特征的最?。黄骄蹬c最小值特征的相同。從ED 方法看,數(shù)理特征的可分性能力排序為:中值特征>平均值特征=最小值特征> 最大值特征>標準差特征。
4.2.3 SAD距離
對SAD 距離計算得到的指數(shù)集逐一進行隨機森林分類,得出分類精度結(jié)果。將SAD 距離方法優(yōu)選的指數(shù)組合利用隨機森林分類方法,比較其精度后發(fā)現(xiàn),雖然所選出的指數(shù)與前兩種方法選出的指數(shù)有較大不同,但是平均值特征的總體精度依然能達到87.40%,Kappa 系數(shù)達0.848,SAD距離結(jié)果顯示不同統(tǒng)計特征可分性能力大小排序為:中值特征>平均值特征>最大值特征=最小值特征>標準差特征。
4.2.4 RF-RFE特征重要性排序
根據(jù)RF-RFE 特征重要性排序選出指數(shù)集(表5)的對應分類結(jié)果:平均值特征的總體精度與Kappa 系數(shù)最高,達87.40%、0.848,而標準差特征的最低,中值和最小值的相同。依據(jù)總體精度和Kappa 系數(shù)的大小,可將其排序為平均值特征>中值特征=最小值特征>最大值特征>標準差特征。
4.2.5 Relief-F特征重要性排序
對Relief-F算法計算結(jié)果取前12位指數(shù)(表6)進行隨機森林分類得到結(jié)果見表8。
表8 Relief-F算法分類精度統(tǒng)計Table 8 Relief-F algorithm classification accuracy statistics
中值和平均值特征的總體精度和Kappa系數(shù)均為87.40%、0.849,最大值特征的最低,比中值和平均值低了4.90%、0.059。以數(shù)理統(tǒng)計特征的維度,依據(jù)總體特征和Kappa系數(shù)的大小,可將其排序為中值特征=平均值特征>最小值特征>標準差特征>最大值特征。
總體而言,濕地信息提取最適合的數(shù)理統(tǒng)計特征為中值和平均值。
本文將沼澤、沼澤化草甸、草甸、河流、草原和裸地等土地覆被類型分別兩兩組合分析其可分性,共有15組類型組合。
4.3.1 河流、裸地
河流與裸地因其截然不同的形狀特征、下墊面環(huán)境,是所有類別中分類精度最高的,其制圖精度和用戶精度可達到100%。另外能用于區(qū)分河流或裸地與其他類別的指數(shù)數(shù)目很多。
4.3.2 沼澤、沼澤化草甸、草甸、草原
草原的制圖精度和用戶精度的中位數(shù)是88.5%,沼澤化草甸與草甸的制圖與用戶精度主要集中在72%,相比較低。沼澤相比于沼澤化草甸與草甸兩類濕地過渡類型來說,制圖精度和用戶精度均要高,大部分情況集中在83.3%。沼澤化草甸與沼澤、草原與草甸、草甸與沼澤化草甸這3種類型組合難以區(qū)分,因此,結(jié)合JM 距離、ED 距離、SAD 距離計算結(jié)果,嘗試找出易于區(qū)分這3種組合類型的指數(shù)。具體做法如下:依據(jù)JM 距離、ED 距離、SAD 距離指數(shù)的中值特征計算結(jié)果,選出沼澤化草甸與沼澤、草原與草甸、草甸與沼澤化草甸類型組合前10%的指數(shù),共計25 個,根據(jù)指數(shù)出現(xiàn)的頻次排序,選出前10%的指數(shù)為:MCARI2、 NDWI、 DVI、 EVI、 EWI、 IRECI、MCARI、TCARI、UGWI。
由于每種方法優(yōu)選的指數(shù)不完全一致,為確定對于濕地分類最優(yōu)的特征,我們分別取Filter 方法(JM 距離、ED 距離、SAD 距離、Relief-F 算法)和Wrapper方法(RF-RFE算法)計算結(jié)果中精度最高的指數(shù)集合,然后以這5個指數(shù)集合為基礎,統(tǒng)計各個指數(shù)在5個集合中出現(xiàn)的次數(shù),以眾數(shù)為指標作為最終優(yōu)選的指數(shù),結(jié)果包括了11個指數(shù)。分別為 植 被 指 數(shù)RDVI、NDVI、MSR、RVI、VIgreen,水體指數(shù)RNDWI、NDWI、NDWI_B、MNDWI、EWI和紅邊指數(shù)CIre。
對優(yōu)選出的11 個指數(shù),分別對5 個統(tǒng)計特征進行隨機森林分類,得到的總體精度和Kappa系數(shù)如表9。
表9 不同數(shù)理統(tǒng)計特征下分類精度統(tǒng)計Table 9 Classification accuracy statistics under different mathematical statistics characteristics
可以看出,中值特征的總體精度和Kappa系數(shù)均是最高的,其次是平均值特征,和不同方法分別進行評價的結(jié)果一致(4.2 節(jié)部分)。說明基于樣本的中值或平均值可以代表樣本的屬性。
由于中值特征的精度以及分類的效果最好,因此用中值特征計算的精度及混淆矩陣來比較5種特優(yōu)選的方法??梢园l(fā)現(xiàn)Filter方法的Relief-F算法與ED距離算法的總體精度和Kappa系數(shù)均為87.40%、0.849,JM 距離與SAD 距離得到的總體精度和用戶精度均為86.70%、0.840,Wrapper 方法的RFE-RF算法的總體精度和用戶精度為86.00%、0.832,由此可知,F(xiàn)ilter 方法的Relief-F 與ED 距離算法在本次高寒濕地分類指數(shù)特征研究中略勝一籌。
為了能夠更好地查看水體指數(shù)特征、植被指數(shù)特征與紅邊指數(shù)特征對濕地分類的貢獻,利用Filter 方法的Z檢驗方法對樣本點的指數(shù)特征進行定量分析。依據(jù)5.2 節(jié)的結(jié)果,最終選擇指數(shù)的中值特征進行計算。
圖4表明了不同類型的指數(shù)特征對濕地的可分離度,Z值越大,兩種濕地類型在此指數(shù)上的差異度越明顯。通過觀察決定以Z值大于37 為界限進行統(tǒng)計,可得水體指數(shù)特征Z值最大為60.3,大于37 的類型組合有8 個;植被指數(shù)特征Z值最大為51.9,大于37 的類型組合有5 個;紅邊指數(shù)特征Z值最大為39.8,大于37 的類型組合有3 個。由此可知,不同指數(shù)特征的特征重要性程度排序為:水體指數(shù)特征>植被指數(shù)特征>紅邊指數(shù)特征。
圖4 兩兩類之間的植被指數(shù)、水體指數(shù)和紅邊指數(shù)的顯著性差異(0-草原、1-草甸、2-沼澤化草甸、3-沼澤、4-河流、5-裸地)Fig.4 Significant differences in vegetation index, water body index and red edge index between the two classes(0-grassland, 1-meadow, 2-swamped meadow, 3-swamp, 4-river, 5-bare land)
沼澤化草甸與沼澤、草甸與沼澤化草甸、草原與草甸這3 種類型組合的可分性較差,而這3 類組合的分類情況決定著濕地分類結(jié)果的好壞。從類型角度來看,草原、草甸、沼澤化草甸、沼澤鄰近兩類型無論在植被長勢還是下墊面水分含量都存在漸變的過程,鄰近兩類型之間沒有明顯的地緣間隙。因此,在用到的分類特征時是易混淆的。JM 距離、ED 距離、SAD 距離計算結(jié)果也證明了這一點,后續(xù)需要深入研究上述類型的分類技術(shù)。
此外,SAD 距離方法所得指數(shù)集的隨機森林分類精度與JM 距離方法一樣能達到86.70%,但是兩種方法所選指數(shù)集卻大相徑庭,接下來可以從指數(shù)的物理機理、波段組合方式方面進一步研究。
本文基于Sentinel-2 遙感影像,以首曲高寒濕地為研究區(qū),通過Filter 方法(JM 距離、ED 距離、SAD 距離、Relief-F 算法)、Wrapper 方法(RFRFE 算法)共同對植被指數(shù)特征、水體指數(shù)特征、紅邊指數(shù)特征進行分析,并借助隨機森林分類方法計算了所選指數(shù)集的精度和混淆矩陣,最后利用了Z 檢驗方法對3 種指數(shù)特征進行了定量比較,主要得到以下結(jié)論:
(1)特征優(yōu)選方法:在所選的Filter和Wrapper方法中,F(xiàn)ilter 方法的ED 距離與Relief-F 算法得出的指數(shù)集其分類精度高于其他方法,精度最大相差1.4%。說明 ED 距離與Relief-F 算法在本次濕地分類研究中具有最好結(jié)果。其原因是Wrapper方法在特征選擇中過分依賴聚類參數(shù),缺乏合適的評價準則評估不同特征子空間的特征子集,所以采用Filter方法相對取得了較好的結(jié)果。
(2) 濕地分類優(yōu)選指數(shù):植被指數(shù)RDVI、NDVI、MSR、RVI、VIgreen,水體指數(shù)RNDWI、NDWI、NDWI_B、MNDWI、EWI,紅邊指數(shù)CIre。具體來說,水體指數(shù)在濕地分類中占重要地位,尤其是NDWI、MNDWI、NDWI_B,植被指數(shù)在所選總指數(shù)中所占數(shù)量最多,其中NDVI 指數(shù)尤為重要,紅邊指數(shù)雖沒有前兩類指數(shù)表現(xiàn)突出但是也不可或缺,表現(xiàn)好的指數(shù)有NDVIre1、NDre1、NDre2、CIre。通過Z檢驗對指數(shù)特征的定量分析,可得出水體指數(shù)特征的重要性程度大于植被指數(shù)特征,也大于紅邊指數(shù)特征。
(3)統(tǒng)計特征評價結(jié)果:基于中值的總體精度最高,達到88.10%。
(4)最易區(qū)分的是河流與裸地,其次為沼澤與草原,沼澤化草甸與草甸較為難分。沼澤化草甸與沼澤、草原與草甸、草甸與沼澤化草甸這3種類型組合較難區(qū)分,可嘗試如下指數(shù)進行分類:MCARI2、NDWI、DVI、EVI、EWI、IRECI、MCARI、TCARI、UGWI。