朱永基, 殷飛箋, 王 晗, 陶新宇, 李新偉*, 劉吉凱
(1. 安徽科技學院 資源與環(huán)境學院,安徽 鳳陽 233100; 2. 山東省氣候中心,山東 濟南 250031)
遙感技術的高速發(fā)展促使農業(yè)生產管理從傳統(tǒng)粗放式管理階段進入精細化、定量化和智能化階段[1-2],如何實現作物類別的準確分類已經成為當前農業(yè)遙感的熱點問題之一。
在作物遙感識別方面,常規(guī)的方法多是基于影像的光譜特征,但由于“同物異譜、異物同譜”的存在,對于生育期相似的作物識別效果較差[3]。植被指數可以在不同程度上擴大反射波段間的差距,增加作物與其易混淆地物間的可分離性,同時能有效抑制背景信息,成為作物識別研究不可或缺的重要特征,被廣泛應用于各級農情遙感監(jiān)測的業(yè)務化系統(tǒng)中。此外,研究表明紋理特征可以兼顧作物的宏觀特征和微觀細節(jié),具有較強的穩(wěn)定性,能夠彌補基于影像光譜特征和植被指數分類的缺陷,可以有效地區(qū)分作物類別及其耕作方式(如行播)[4]。
近年來,機器學習分類方法在農作物類別提取中廣受關注[5]。在眾多機器學習算法中,隨機森林方法具有訓練速度快、實現簡單、精度高、易實現并行化、抗噪聲能力強的優(yōu)點,目前在國內外各領域中得到了廣泛的應用[6]。李長春等[7]利用多源多生育期Sentinel遙感數據,構建光譜特征、植被特征和極化特征的多模態(tài)特征數據集,采用隨機森林算法對縣域冬小麥種植面積進行提取,發(fā)現單生育期的光學影像和融合影像在成熟期的識別精度最高。劉杰等[6]利用多時相Landsat8 OLI數據,融合光譜、紋理和植被指數等多維特征信息,采用隨機森林方法實現了多種作物類型的精細識別。雖然多時相光學遙感數據在作物信息識別研究取得了大量的研究成果[3],但光學遙感數據易受云雨霧等天氣因素的影響,在區(qū)域應用時難以獲得作物生長季節(jié)的完整數據。另外,考慮到多時相數據運算時的成本開銷,對作物關鍵生育期遙感影像信息的深度挖掘顯得尤為重要。因此,本文以安徽省冬小麥主產縣——懷遠縣為研究區(qū),利用冬小麥關鍵生育期(2018年4月17日)的Sentinel-2A MSI數據,基于研究區(qū)冬小麥的光譜反射率、植被指數和紋理特征,采用隨機森林算法實現多種特征支持下的冬小麥識別分析,以期為冬小麥精準識別的進一步研究提供參考。
懷遠縣(116°45′-117°09′E,32°43′-33°19′N)位于淮北平原和江淮丘陵的交接地帶,地形以平原為主,地勢西北高,東南低,自然坡降約為萬分之一,部分地區(qū)分布有少量的丘陵和臺地;屬亞熱帶季風氣候,年平均溫度15.4 ℃,年降雨量900 mm。懷遠縣資源豐富,是全國產糧百強縣。全縣常用耕地面積220萬畝,常年小麥種植面積180萬畝,糧食總產在糧食主產縣中居全國前20位,全省前5位。研究區(qū)主要種植作物為冬小麥、玉米和油菜等,其中冬小麥一般10月中下旬播種,11月出苗,次年3月返青,4月上旬孕穗,4月中下旬抽穗,5月上旬灌漿,5月下旬乳熟,6月上旬收割。
4月中旬,研究區(qū)內冬小麥長勢旺盛,與其他作物農事歷區(qū)別明顯,本研究選擇2018年4月17日的Sentinel-2A MSI數據,L1C級別,下載自ESA SciHub(https://scihub.copernicus.eu/dhus/#/home)。Sentinel-2AMSI數據覆蓋13個光譜波段,幅寬達290 km,地面分辨率分別為10、20和60 m,重訪周期為10 d,其中含有3個紅邊波段(表1)[8],可以敏銳地感應作物波譜特征,目前已成為開展農作物分類研究的主要數據源之一[9]。
表1 Sentinel-2A衛(wèi)星波段信息
L1C級數據是經過正射校正的產品,本文僅對其進行輻射定標和大氣校正,其中大氣校正采用ENVI軟件的FLAASH模塊,FLAASH模塊參數設置均參考相關文獻[10-14]。因原始數據具有3種空間分辨率,為統(tǒng)一分辨率,降低分辨率不一致帶來的誤差,本文采用雙線性內插法統(tǒng)一空間分辨率為20 m。對重采樣后的影像進行主成分分析,利用第一主成分采用灰度共生矩陣(Gray-level Co-occurrence Matrix, GLCM)的方法提取紋理特征。
本研究以經地理配準后的4米高分辨率16級Google Earth影像為基礎,根據前期調查資料和歷史文獻數據,通過目視解譯方式確定4月中旬研究區(qū)的5種典型地物:冬小麥、休耕地(已播種未出苗和尚未播種地)、草地、灌木林地、裸地、建筑物。因休耕地和裸地地塊光譜特征相似,為減少誤差,將二者統(tǒng)一為裸地。共獲取樣本地塊93塊,3 672像元,其中冬小麥地塊29塊,像元數1 357。獲取初始樣本后,利用J-M距離(Jeffreys-Matusita距離)評價樣本的可分離性,保留可分離性大于1.8的樣本。為了測試隨機森林方法的普適性,將獲取的樣本數據按照3∶7分為訓練集和驗證集。
光譜反射率是地物對某一波段光譜反射量與入射量的比值,不同地物對光譜的反射性能不同,構成了識別地物的物理基礎。植被指數(Vegetable Indices,VIs)是當前作物分類識別研究中的重要特征之一[15]。本研究選取在作物識別中常用14種植被指數(表2)。近年來,紋理特征被廣泛應用于作物識別研究中,具有光譜特征無法比擬的優(yōu)點。通過GLCM提取第一主成分的8個紋理特征[16],如表3所示。綜合特征集是包含上述3種特征的融合數據集。
表2 植被指數
表3 紋理特征
RF是由美國科學家Breiman提出的新型分類算法,能夠高效處理多維特征的數據集,通過樣本特征的交叉驗證尋求類別歸屬的最優(yōu)解,具有訓練速度快、對樣本量不敏感、分類精度高和抗噪聲能力強的優(yōu)點,是廣泛應用于農業(yè)遙感大數據智能學習的機器算法之一[17-18]。本研究中的RF算法在EnMAP-Box (Https://www.enmap.org/news/2021-10-29)工具箱中實現。
本研究使用到的精度評價指標為:總體精度(Overall Accuracy,OA)、Kappa系數、生產者精度(Producer’s Accuracy,PA)和用戶精度(User’s Accuracy,UA)。總體精度指所有類別正確分類的像元數占總類別像元數的百分比。Kappa系數是表示分類結果比隨機分類好多少的指標。生產者精度是某類別正確分類的像元數占真實類別像元數的百分比。用戶精度是某類別正確分類的像元數占該類別分類像元數的百分比[14]。
構建研究區(qū)的4種分類特征數據集:光譜反射率、植被指數、紋理特征和綜合特征集[19-20]。首先利用30%的訓練集進行多次隨機森林分類以確定RF的最佳參數設置:樹數量為100,節(jié)點分裂的特征變量數為所有特征數量的平方根。然后利用調參后的隨機森林方法對4種分類特征集執(zhí)行分類,得到研究區(qū)的主要地物分類結果(圖1)。最后,利用70%的驗證樣本建立分類地物的混淆矩陣,計算4種精度評價指標(表4)。
圖1 基于4種分類特征集的隨機森林方法分類結果
表4 基于4種分類特征集的隨機森林分類精度評價
根據圖1和表4可知,基于綜合特征集的總體精度和Kappa系數最高,為89.34%和0.852 1,比精度最低的光譜反射率分別高了6.24%和0.083 9?;诩y理特征的隨機森林分類效果僅次于綜合特征集,總體精度和Kappa系數分別為87.84%和0.831 1?;诠庾V反射率和植被指數的分類總體精度差異不明顯,總體精度分別為83.10%和83.48%,Kappa系數分別為0.768 2和0.772 7。
對于冬小麥識別,用戶精度最高的是綜合特征集,為98.93%;最低的是植被指數,為71.60%。生產者精度最高的是紋理特征,為88.93%;最低的是光譜反射率,僅為64.16%。
利用綜合特征集可以有效區(qū)分植被與其他地物,但對于植被內部類別的區(qū)分效果不佳,易將冬小麥與草地混淆?;诩y理特征集的冬小麥識別效果最佳,用戶精度和生產者精度都大于75%,可以有效區(qū)分冬小麥與草地,因為二者的紋理差異較為明顯。植被指數的整體分類精度略高于光譜反射率。
綜上所述,基于植被指數與光譜反射率的隨機森林方法對冬小麥的分類精度大致相同,但加入紋理特征后,冬小麥的分類精度顯著地升高。
通過隨機森林方法可以根據特征重要性實現對所有參與分類的特征的性能評價[21-22],重要性排序結果如表5所示。對分類貢獻度最大的光譜波段、紋理特征、植被指數分別是B1(Deep Blue)、Variance和PSRI;貢獻度最小的光譜特征、紋理特征、植被指數分別是B8(NIR)、Correlation和RVI[23-25]。
表5 不同分類特征對RF分類的貢獻度
本研究利用蚌埠市懷遠縣冬小麥關鍵生育期的Sentinel-2A MSI影像,對比分析了4種分類特征集支持下的隨機森林算法對冬小麥的分類效果,得到了以下主要結論:
(1) 對于地物識別綜合所有分類特征集的識別效果最好,其次是紋理特征,基于光譜反射率的識別效果最差。對于冬小麥識別,生產者精度最高的是紋理特征,最低的是光譜反射率;用戶精度最高的是綜合特征集,最低的是植被指數。基于光譜反射率和植被指數的分類精度差異較小。
(2)所有參與分類的特征中,對分類貢獻度最大的光譜波段、紋理特征、植被指數分別是B1(Deep Blue)、Variance和PSRI;貢獻度最小的光譜特征、紋理特征、植被指數分別是B8(NIR)、Correlation和RVI。
本研究基于關鍵生育期的單時相Sentinel-2A多光譜數據識別冬小麥信息,取得了較好的效果,雖然識別精度不如李長春等[7]以相同數據源與相似空間尺度的研究結果,但后者使用了時序數據,覆蓋冬小麥生長的整個生育時期,在數據處理量、處理難度和運算效率上難以與本文相比。闞志毅等[15]基于2017年關鍵生育期的Landsat8 OLI數據利用神經網絡模型獲取了懷遠縣的冬小麥分布信息,取得了較高的識別精度,但文中使用了融合后的遙感數據,空間分辨率高于本文數據的分辨率。綜合考慮數據獲取成本、處理效率和精度需求,研究認為A/B星組網后具有5天重返周期的Sentinel-2衛(wèi)星數據可以作為中等尺度區(qū)域作物信息識別的優(yōu)異數據源之一,在未來作物信息識別中發(fā)揮重要的作用。