任江龍 李昺星
(中水北方勘測(cè)設(shè)計(jì)研究有限責(zé)任公司,天津 300222)
棉花是一種重要的經(jīng)濟(jì)作物,提供了世界上約79%的天然纖維,其種植面積及產(chǎn)量影響人類日常生產(chǎn)生活。及時(shí)準(zhǔn)確地獲取棉花空間分布信息,為棉花產(chǎn)量估算、農(nóng)業(yè)生產(chǎn)管理和決策提供依據(jù)。自Landsat 發(fā)射以來(lái),中高等空間分辨率圖像已被廣泛用于作物監(jiān)測(cè),但仍不能滿足精細(xì)化農(nóng)業(yè)信息提取的需求。隨著Sentinel 系列衛(wèi)星的成功發(fā)射,其高空間和時(shí)間分辨率的優(yōu)勢(shì)在作物監(jiān)測(cè)中得到廣泛應(yīng)用。合成孔徑雷達(dá)(SAR)不受云層和太陽(yáng)光照的影響,避免了光學(xué)遙感的限制,適用于大尺度高分辨率農(nóng)作物專題信息提取。不同的光學(xué)和SAR 數(shù)據(jù)特征意味著提供的表面信息是不同的。光學(xué)數(shù)據(jù)提供了研究區(qū)地物的光譜特征,而SAR 數(shù)據(jù)提供了有關(guān)植被地表結(jié)構(gòu)和土壤的信息。因此,結(jié)合光學(xué)和SAR 數(shù)據(jù)可以更準(zhǔn)確、更有效地提取作物。
基于光學(xué)和SAR 數(shù)據(jù)提取棉花種植信息的研究相對(duì)較少,現(xiàn)有的分類方法中多采用多分類,未能實(shí)現(xiàn)單一作物分類提取。因此該文基于Google earth engine(GEE)云平臺(tái),利用Sentinel-1 和Sentinel-2 數(shù)據(jù)探究單一分類支持向量機(jī)在棉花種植信息的適用性,為棉花提取提供新的方法思路。
石河子市位于中國(guó)新疆北部,地理位置范圍為北緯44°24′23″~44°41′12″,東經(jīng)85°44′19″~86°20′19″E,面積約1500 km(如圖1 所示)。該地區(qū)屬典型的溫帶大陸性干旱氣候,夏熱冬冷,晝夜溫差大。該地區(qū)主要農(nóng)作物有棉花、小麥和玉米,其中棉花種植面積占比最大,種植時(shí)間為4 月中旬至10 月中旬。
圖1 研究區(qū)位置
該文主要采用2020 年Sentinel-1(S1)和Sentinel-2(S2)數(shù)據(jù),2 種數(shù)據(jù)集均由GEE 平臺(tái)加載獲得,為了分析最合適的棉花提取時(shí)間影像,選擇5 月~9 月影像進(jìn)行處理,遙感數(shù)據(jù)基本信息及所需影像數(shù)量見表1。S1 數(shù)據(jù)集由Sentinel-1A 和Sentinel-1B 這2 顆C 波段SAR 衛(wèi)星組成,其空間分辨率為10 m,單顆衛(wèi)星重訪周期為12 天。由于2020 年石河子市Sentinel-1B 數(shù)據(jù)缺失較多,因此該文主要采用干涉寬幅(IW)模式Sentinel-1A GRD 產(chǎn)品數(shù)據(jù)。GEE 平臺(tái)中S1 數(shù)據(jù)均已經(jīng)過(guò)Sentinel-1 工具箱(S1TBX)預(yù)處理,預(yù)處理過(guò)程主要包括軌道校正、熱噪聲去除、地形校正和輻射校正。為了減少Sentinel-1 數(shù)據(jù)噪聲對(duì)分類結(jié)果的影響,采用窗口大小為7×7 的Refined Lee 濾波對(duì)S1時(shí)序數(shù)據(jù)進(jìn)行散斑濾波處理。
表1 Sentinel-1 和Sentinel-2 數(shù)據(jù)
Sentinel-2A 和Sentinel-2B 衛(wèi)星由歐洲航天局(ESA)發(fā)射,其影像空間分辨率為10 m~60 m,雙星重返周期為5天,共擁有13 個(gè)光譜波段。該文中S2 數(shù)據(jù)主要采用Level-2A 地表反射率(SR)產(chǎn)品數(shù)據(jù),該數(shù)據(jù)集均經(jīng)過(guò)地形校正、輻射校正和大氣校正等預(yù)處理。GEE 云平臺(tái)中Sentinel-2包括云量覆蓋信息,因此為了減少云及云陰影對(duì)棉花提取結(jié)果的影響,該文采用filterMetadata 函數(shù)篩選出云量小于20%的影像,并利用位與運(yùn)算bitwiseAnd 函數(shù)判斷影像中云像素,進(jìn)而進(jìn)行掩膜處理,生成無(wú)云影像數(shù)據(jù)集。為了分析最佳棉花提取影像時(shí)間,分別對(duì)S1 和S2 數(shù)據(jù)集以月為單位進(jìn)行中值合成,同時(shí)將S2 所有波段重采樣為10 m分辨率。由于部分地區(qū)受天氣影響,無(wú)法獲得S2 無(wú)云影像,因此采用線性插值方法對(duì)空缺S2 影像數(shù)據(jù)進(jìn)行填補(bǔ)。
研究區(qū)棉花生長(zhǎng)共4 個(gè)階段,分別是苗期(5 月初~6月下旬)、萌芽期(6 月下旬~7 月中旬)、開花結(jié)鈴期(7月中旬~8 月中旬)和吐絮期(8 月中旬~10 月初)。為了進(jìn)一步了解棉花生長(zhǎng)特征,筆者于2020 年8 月前往研究區(qū)進(jìn)行野外考察,共獲得棉花樣本213 個(gè),非棉花樣本147個(gè),將野外考察所獲得的樣本導(dǎo)入GEE 平臺(tái)中,其中70%作物訓(xùn)練樣本,30%作物驗(yàn)證樣本。
特征提取是棉花提取中最重要的一步,為了提高棉花與其他農(nóng)作物的區(qū)分度,該文基于S1 和S2 數(shù)據(jù)集共構(gòu)建22 個(gè)特征數(shù)據(jù)集。其中基于S1 數(shù)據(jù)構(gòu)建了VV 極化、VH極化和歸一化差極化指數(shù)(NDPI)特征,基于S2 數(shù)據(jù)構(gòu)建了10 個(gè)S2 光譜波段特征和9 個(gè)植被指數(shù)特征,其中植被指數(shù)特征分別為歸一化植被指數(shù)(NDVI)、增強(qiáng)植被指數(shù)(EVI)、修正型歸一化植被指數(shù)(MNDVI)、地表水指數(shù)(LSWI)、歸一化水體指數(shù)(NDWI)、紅邊位置指數(shù)(REP)、裸土指數(shù)(BSI)、綠色葉綠素植被指數(shù)(GCVI)和植被衰老反射指數(shù)(PSRI)。
各特征間存在一定相似性,因此存在一定冗余信息,易導(dǎo)致降低分類精度,選擇合適的特征組合對(duì)分類結(jié)果至關(guān)重要。該文利用遞歸特征消除算法(RFE)對(duì)特征數(shù)據(jù)集進(jìn)行特征優(yōu)選計(jì)算,其主要原理是利用全部特征進(jìn)行初始特征計(jì)算,利用分類器計(jì)算出不同特征的權(quán)重大小,并按照不同特征權(quán)重結(jié)果進(jìn)行排序,依次剔除特征權(quán)重最小的特征,并計(jì)算剔除后的總體精度,以此類推直到總體精度達(dá)到最高,即可獲得最佳特征組合。具體過(guò)程如下:首先,基于GEE 平臺(tái)以石河子地區(qū)8 月影像為例分別計(jì)算各特征數(shù)據(jù),構(gòu)建特征數(shù)據(jù)集;其次,利用訓(xùn)練樣本點(diǎn)提取各特征指標(biāo)值;最后,將各點(diǎn)提取的值生成Excel 文件,利用Python 實(shí)現(xiàn)遞歸特征消除計(jì)算。
分類器的選擇是影響棉花提取的另一個(gè)重要因素,該文采用OCSVM 代替?zhèn)鹘y(tǒng)的多類分類方法,其基本原理就是根據(jù)目標(biāo)樣本在特征集中具有較好的相似性。作為支持向量機(jī)(SVM)的一個(gè)分支,OCSVM的基本原理是在特征空間中構(gòu)造一個(gè)最優(yōu)超平面,以最大化目標(biāo)類與其他類之間的邊距。與傳統(tǒng)的多類分類器不同,OCSVM 可以減少資源需求,因?yàn)橹恍枰繕?biāo)類的訓(xùn)練數(shù)據(jù)。此外,先前的研究表明,OCSVM在農(nóng)作物種植信息提取中獲得了較高的分類精度。
要使用OCSVM 分類器,需要選擇內(nèi)核類型和相應(yīng)的參數(shù)。關(guān)于核類型,該文選擇徑向基函數(shù)(RBF)。以RBF作為內(nèi)核類型,需要設(shè)置2 個(gè)參數(shù)“gamma”和“nu”?;谇叭搜芯砍晒x擇最佳的“gamma”和“nu”,分別為0.1 和0.1。
為了驗(yàn)證棉花提取結(jié)果,該文利用棉花和非棉花樣本構(gòu)建驗(yàn)證樣本,基于驗(yàn)證樣本對(duì)提取結(jié)果進(jìn)行精度評(píng)價(jià)。采用混淆矩陣方法,分別計(jì)算生產(chǎn)者精度(PA)、用戶者精度(UA)、總體精度(OA)和Kappa 系數(shù)。
為了獲得最佳特征組合以提高棉花提取精度及效率,該文共選擇22 個(gè)特征變量進(jìn)行遞歸特征消除方法計(jì)算,結(jié)果如圖2 所示。從圖中可以看出,當(dāng)特征變量為1 時(shí),總體分類精度僅為63.21%。而特征數(shù)量從1 到2 時(shí),其分類精度上升速率最大。特征數(shù)量大于2 后,其分類精度提升明顯放緩,當(dāng)特征數(shù)量達(dá)到5 時(shí),總體精度增速進(jìn)一步放緩。而后分類精度緩慢增大,直到特征數(shù)量達(dá)到15 個(gè)時(shí),分類精度達(dá)到最大(總體精度為92.3%)。而當(dāng)特征數(shù)量大于15 個(gè)后,其分類精度呈現(xiàn)緩慢下降趨勢(shì),說(shuō)明當(dāng)特征數(shù)量大于15 后其特征冗余信息對(duì)分類結(jié)果產(chǎn)生負(fù)面的影響。因此,該文選擇排名前15 個(gè)特征構(gòu)建特征組合進(jìn)行棉花提取,分別為Band6、NDVI、EVI、Band5、Band2、Band3、Band7、Band4、Band8、MNDVI、VV、Band12、VH、REP、Band11。
圖2 特征遞歸消除結(jié)果
從特征優(yōu)選的結(jié)果可以看出,光學(xué)波段特征占最優(yōu)特征組合總數(shù)的60%,說(shuō)明光學(xué)光譜波段特征對(duì)棉花提取至關(guān)重要,其中Band6 對(duì)棉花提取的貢獻(xiàn)率最大,說(shuō)明Band6 對(duì)棉花提取的識(shí)別效果較好。植被指數(shù)特征中NDVI和EVI 對(duì)棉花提取的貢獻(xiàn)率較高,與現(xiàn)有的研究結(jié)果較為一致,其中MNDVI 和REP 兩種指數(shù)也有一定的貢獻(xiàn)率。Sentinel-1 極化數(shù)據(jù)及衍生極化指數(shù)對(duì)棉花提取也存在一定的貢獻(xiàn),主要表現(xiàn)為VV 和VH 共2 種極化信息,而極化衍生產(chǎn)品則貢獻(xiàn)率較低。其中微波信號(hào)能夠識(shí)別棉花信息,主要是因?yàn)槊藁ㄉL(zhǎng)周期中,在萌芽期和結(jié)鈴期,棉花葉片密度不斷增大,微波信號(hào)逐漸無(wú)法穿透植被冠層,此時(shí)為表散射或體散射。而到開鈴期后,棉花植株葉片不斷掉落腐爛,此時(shí)微波信號(hào)可以穿透植被冠層,發(fā)生回波散射。
在作物生長(zhǎng)季節(jié)的關(guān)鍵時(shí)期,由于經(jīng)常受到云量的影響,遙感數(shù)據(jù)難以獲取,因此該文通過(guò)對(duì)不同月份影像進(jìn)行合成,探究棉花提取最佳月份,進(jìn)而實(shí)現(xiàn)棉花高精度提取,減少棉花物候特征分析過(guò)程。利用GEE 平臺(tái)分別對(duì)5 月~9 月進(jìn)行月度影像的中值合成,采用4.1 節(jié)中遞歸特征消除方法得到最優(yōu)特征組合,分別構(gòu)建了5 月~9 月逐月影像特征組合,并利用OCSVM 進(jìn)行棉花種植信息提取,對(duì)不同月份提取精度進(jìn)行精度評(píng)價(jià),精度結(jié)果見表2。從表2 中可以看出,8 月份合成影像棉花提取精度最高,總體精度和kappa 系數(shù)最高,分別為91.69%和0.83。這主要是因?yàn)? 月中下旬棉花由于處于吐鈴期,棉花光譜特征發(fā)生較大的變化,與其他作物有較大差異,能較好地與其他作物進(jìn)行區(qū)分。因此,該時(shí)期棉花提取精度中生產(chǎn)者精度和用戶精度均達(dá)到最大,說(shuō)明誤分和漏分情況較少。其中5 月份棉花提取精度最低,總體精度和Kappa 系數(shù)分別為82.23%和0.67,與8 月提取結(jié)果相差較大。這主要是因?yàn)樵摃r(shí)期棉花正處于苗期,與玉米等同一生長(zhǎng)期的其他作物的光譜特性相似,因此難以通過(guò)光譜信息與其他作物進(jìn)行區(qū)分。6 月合成影像和7 月合成影像棉花提取結(jié)果具有較大的相似性,其棉花提取總體精度僅相差0.15%,總體精度均大于90%,說(shuō)明6 月和7 月對(duì)棉花提取也有較大的優(yōu)勢(shì),在棉花吐絮前均能獲得較好的棉花提取精度。9 月份棉花進(jìn)入成熟階段,其他農(nóng)作物也逐漸成熟,該階段植被光學(xué)特征較為相似,但是Sentinel-1 的2 種極化信號(hào)能很好地捕捉到棉花信息,因此9 月份棉花提取精度依舊大于89%。整體來(lái)看,在今后的棉花提取中,應(yīng)重點(diǎn)考慮8 月份影像,其次可以考慮6 月或7 月影像,最后考慮9 月份影像。該文基于特征優(yōu)選后的特征組合,采用OCSVM 分類器實(shí)現(xiàn)了2020 年石河子市棉花種植信息提取。棉花提取結(jié)果如圖3 所示,從圖3 可以看出,石河子市棉花主要集中分布在西部地區(qū),其空間分布較為聚集。經(jīng)過(guò)統(tǒng)計(jì)計(jì)算得出2020 年石河子市棉花種植面積為194.85 km,占研究區(qū)總面積的42.35%。
表2 不同時(shí)期影像棉花提取精度
圖3 棉花提取結(jié)果
該文基于GEE 云平臺(tái)中Sentinel-1 和Sentinel-2 數(shù)據(jù),采用OCSVM 分類器實(shí)現(xiàn)2020 年石河子市棉花提取。結(jié)果表明,Sentinel-2 光譜特征對(duì)棉花提取結(jié)果貢獻(xiàn)率最大,Sentinel-1 的2 種極化特征對(duì)棉花提取也存在較大的貢獻(xiàn)率。棉花最佳識(shí)別月份為8 月份,其總體精度達(dá)到91.67%,Kappa 系數(shù)為0.83。整體來(lái)說(shuō)OCSVM 在棉花提取的適用性較好,能有效實(shí)現(xiàn)單一作物分類。
雖然該文基于GEE 平臺(tái)在棉花提取中實(shí)現(xiàn)了光學(xué)和雷達(dá)數(shù)據(jù)的有效結(jié)合,但仍存在一定的局限性,未利用多源遙感時(shí)序數(shù)據(jù)進(jìn)一步挖掘棉花物候特征。同時(shí)該文在精度評(píng)價(jià)中僅采用野外考察數(shù)據(jù)進(jìn)行精度驗(yàn)證,并未考慮其他分類器在棉花提取中的適用性。因此,在今后的研究中還將深入挖掘棉花物候信息,并探究不同分類器下棉花提取結(jié)果的差異性。