• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學(xué)習(xí)和哨兵2號遙感影像的棉花種植空間分布信息提取

      2024-12-31 00:00:00白淑英傅志強謝濤張雪紅
      江蘇農(nóng)業(yè)科學(xué) 2024年20期
      關(guān)鍵詞:遙感機器學(xué)習(xí)

      doi:10.15889/j.issn.1002-1302.2024.20.012

      摘要:為快速、準(zhǔn)確、高效地獲取棉花種植空間分布信息,提高棉花信息提取精度,基于機器學(xué)習(xí)的遙感圖像識別方法,是有效解決問題的途徑。以新疆維吾爾自治區(qū)烏蘇市為研究區(qū),利用哨兵2號遙感數(shù)據(jù),選取6種常用植被指數(shù)、3種紅邊植被指數(shù),基于遙感植被指數(shù)變化曲線進行棉花特征時段選擇,并分別采用梯度提升決策樹、隨機森林、支持向量機算法,通過RF特征優(yōu)選,進行棉花種植區(qū)空間分布信息提取,并對提取結(jié)果精度驗證。結(jié)果表明,機器學(xué)習(xí)方法(GBDT、RF、SVM)的總體分類精度分別為0.92、0.91、0.88,Kappa系數(shù)分別為0.91、0.89、0.85;經(jīng)RF特征優(yōu)選后的機器學(xué)習(xí)算法(RF-GBDT、RF-RF、RF-SVM)的總體分類精度分別為0.94、0.94、0.91,Kappa系數(shù)分別為0.93、0.92、0.88;經(jīng)RF特征優(yōu)選后的3種機器學(xué)習(xí)算法(RF-GBDT、RF-RF、RF-SVM)的總體精度分別比RF特征優(yōu)選前(GBDT、RF、SVM)的總體精度分別提高了0.02、0.03、0.03,Kappa系數(shù)分別提高了0.02、0.03、0.03。GBDT作為一種集成的機器學(xué)習(xí)算法,在地物分類與棉花提取方面有著較好的應(yīng)用效果,且經(jīng)過特征優(yōu)選的RF-GBDT算法精度更高。這表明在進行機器學(xué)習(xí)分類前,通過算法對輸入特征進行重要性篩選,可有效避免因特征冗余造成的分類精度下降,可實現(xiàn)更高精度的棉花種植區(qū)域提取。

      關(guān)鍵詞:棉花提??;哨兵2號;機器學(xué)習(xí);特征優(yōu)選;遙感;GBDT

      中圖分類號:S127;TP79" 文獻標(biāo)志碼:A

      文章編號:1002-1302(2024)20-0092-12

      收稿日期:2024-01-10

      基金項目:北京空間機電研究所航天進入減速與著陸技術(shù)實驗室開放基金(編號:EDL19092304)。

      作者簡介:白淑英(1973—),女,內(nèi)蒙古寧城人,博士,教授,從事遙感與地理信息系統(tǒng)在生態(tài)環(huán)境中的應(yīng)用研究。E-mail:001462@nuist.edu.cn。

      棉花作為全球重要的經(jīng)濟作物,其種植區(qū)域的空間分布信息對于棉花產(chǎn)量估算和農(nóng)業(yè)經(jīng)濟產(chǎn)值預(yù)測具有至關(guān)重要的影響。在這一背景下,遙感技術(shù)憑借其廣泛的覆蓋范圍、強大的時效性和短周期的特點,成為了快速識別棉花種植區(qū)域的有效工具,有效地彌補了傳統(tǒng)統(tǒng)計數(shù)據(jù)的滯后性。機器學(xué)習(xí)方法,由于其操作便捷和高精度的特性,在提取棉花種植區(qū)空間分布信息方面展現(xiàn)出了巨大的潛力。結(jié)合遙感數(shù)據(jù),這些方法能夠迅速、準(zhǔn)確、高效地捕獲棉花生產(chǎn)管理、面積統(tǒng)計與產(chǎn)量估算等關(guān)鍵信息。

      目前,遙感植被指數(shù)法是提取棉花種植信息的常用方法。該方法主要利用時間序列植被指數(shù)數(shù)據(jù),通過分析棉花在盛鈴期的植被指數(shù)和光譜特征的獨特性,實現(xiàn)與其他地物的有效區(qū)分。在這一領(lǐng)域,已有眾多學(xué)者取得了顯著的研究成果。如呂紹倫等運用遙感云計算平臺和哨兵2號影像,利用光譜和不同物候周期作物的植被指數(shù)變化構(gòu)建了高精度的棉花提取模型[1]。魏瑞琪等使用TIMESAT進行棉花像元的時間序列數(shù)據(jù)分析,獲得了棉花生長曲線,并提取了種植區(qū)域[2]。王文靜等利用多時相的哨兵2號數(shù)據(jù)、NDVI(歸一化植被指數(shù))、反射率及紋理等,經(jīng)特征優(yōu)選后,對石河子市的棉花種植區(qū)域進行了提取研究[3]。劉傳跡等以MODISEVI數(shù)據(jù)為基礎(chǔ),應(yīng)用Double-Logistic濾波對棉花生長曲線進行重構(gòu),得到棉花生長閾值,由此提取了棉花種植區(qū)域[4]。Ren等基于GEE和Sentinel-2(哨兵2號)數(shù)據(jù),結(jié)合興趣面積指數(shù)、S-G濾波等,建立時間序列表型分析方法,篩選棉花提取關(guān)鍵時相數(shù)據(jù),將面向?qū)ο蟮男畔⑻崛》椒ㄅc光譜特征和紋理特征相結(jié)合,對棉花分布信息進行提?。?]。此外,有學(xué)者自行提出或選用了其它的提取指標(biāo)。如Wang等基于棉花開鈴期獨特的冠層特征,提出了一種新的白鈴指數(shù)(WBI)進行棉花種植區(qū)域提取研究[6]。He等基于Sentinel-2,利用MERRA-2的逐時氣象數(shù)據(jù)、棉花初級生產(chǎn)總值(GPP)和葉面積指數(shù)(LAI)等提取了棉花信息,并估算了棉花產(chǎn)量[7]。

      由于機器學(xué)習(xí)在處理地理大數(shù)據(jù)和復(fù)雜特征分類方面具有明顯的優(yōu)勢,因此使用機器學(xué)習(xí)算法對遙感影像進行土地利用分類及作物信息提取,已成為研究熱點。機器學(xué)習(xí)法主要包括決策樹、隨機森林(RF)、支持向量機(SVM)、k平均算法(k-means)等,其中在棉花提取方面用得較多的是決策樹、隨機森林2種方法。Li等利用CBERS01和HJ1B衛(wèi)星圖像,使用決策樹算法計算棉花種植區(qū)域面積,并分析了棉花種植區(qū)域的時空變化規(guī)律[8]。田野等采用支持向量機和專家知識決策樹分類法,基于不同時期的衛(wèi)星數(shù)據(jù)提取了棉花種植面積等信息[9]。荀蘭提出了基于多光譜和合成孔徑雷達影像的集成學(xué)習(xí)算法,通過各種分類器和特征,成功識別了棉花種植區(qū)域[10]。Fei等提出了基于光譜、植被指數(shù)、紋理等多特征選擇的隨機森林特征選擇算法和基于不同分類器的縣尺度棉花提取方法,評價了分類時間、特征重要性和分類器對棉花提取精度的影響[11]。王匯涵等采用隨機森林(RF)、支持向量機(SVM)、決策樹(CART)進行棉花種植區(qū)域提取,利用順序向前選擇(SFS)和偏最小二乘算法(PLSR)成功預(yù)測了棉花產(chǎn)量[12]。美合日阿依·莫一丁等利用哨兵2號數(shù)據(jù),構(gòu)建NDVI和紅邊歸一化植被指數(shù)(RENDVI783)時序數(shù)據(jù),采用S-G濾波法與袋外誤差法對物候特征進行特征優(yōu)選;并利用RF進行分類和棉花提?。?3]。Rodriguez-Sanchez等通過使用從正交圖中提取的單個地塊圖像,訓(xùn)練具有4個選定特征的SVM分類器來識別每個地塊圖像中的棉花像素,對分類后的棉花像素進行形態(tài)學(xué)圖像處理,并進行聚類及預(yù)測[14]。Hong等基于Sentinel-2,利用光譜特征、植被指數(shù)特征和紋理特征創(chuàng)建了7種分類并生成SVM分類器,實現(xiàn)了高精度的棉花提?。?5]。王利民等基于5 m空間分辨率的Rapideye影像,采用紅邊、近紅外波段反射率之和構(gòu)建了棉花提取指數(shù)(CEI),結(jié)合同期水體、裸地(含城鎮(zhèn)建筑)掩模處理,分別采用最大似然分類方法和隨機森林分類方法對影像進行分類和精度驗證,實現(xiàn)了棉花類型的識別[16]。

      在使用機器學(xué)習(xí)算法時,須確保所選模型具備良好的泛化能力,這關(guān)乎模型在不同數(shù)據(jù)環(huán)境下的穩(wěn)定性和準(zhǔn)確性。為防止模型過度擬合,選擇合適的樣本數(shù)據(jù)集并進行適當(dāng)?shù)膮?shù)調(diào)整是十分必要的?;诖?,本研究首先運用遙感植被指數(shù)法來獲取棉花最佳研究時期的遙感影像數(shù)據(jù)。接著,選取樣本點,并以植被指數(shù)、紅邊植被指數(shù)、地形等作為輸入因子。然后采用梯度提升決策樹(GBDT)、隨機森林(RF)和支持向量機(SVM)3種算法,通過RF算法進行特征選擇,并進行因子相關(guān)性分析,旨在篩選出與棉花提取最為相關(guān)的因子,以期實現(xiàn)更高精度的棉花種植區(qū)域提取。

      1" 數(shù)據(jù)源及數(shù)據(jù)預(yù)處理

      1.1" 研究區(qū)概況

      研究區(qū)在新疆維吾爾自治區(qū)塔城地區(qū)烏蘇市,位于新疆維吾爾自治區(qū)西北部(如圖1所示),地處43°34′~45°17′N、83°24′~85°06′E,全市總面積2.07萬km2。烏蘇市地處北溫帶干旱地區(qū),年均氣溫7.3 ℃,實際日照時數(shù)可達2 600~2 800 h,年均降水量為158 mm。烏蘇市年溫差較大,光照時間長,降水量小,適宜棉花的生長。由于特殊的氣候環(huán)境,烏蘇市不僅是全國優(yōu)質(zhì)棉生產(chǎn)基地、還是重要的糧食和水果產(chǎn)地。

      1.2" 數(shù)據(jù)源

      本研究使用的遙感數(shù)據(jù)是哨兵2號(Sentinel-2)高分辨率多光譜成像衛(wèi)星的L2A級數(shù)據(jù),地面分辨率有10、20、60 m。選用12個波段作為棉花提取的特征因子,輸入機器學(xué)習(xí)算法中進行棉花信息提?。ū?)。

      本研究使用谷歌地球引擎(GEE),獲取研究區(qū)3—10月可用的哨兵2號遙感影像共14幅(表2),分別計算不同生長時期棉花的NDVI與近紅外(NIR)等植被指數(shù)。發(fā)現(xiàn)當(dāng)棉花處于盛鈴期(7—9月)時,NDVI、NIR的像元亮度(DN)值高于其他地物,易與其他地類進行區(qū)分,此時是提取棉花信息的最佳時期。

      1.3" 數(shù)據(jù)預(yù)處理

      GEE是由Google云基建提供的云平臺,用于獲取和處理遙感數(shù)據(jù)。它可以處理大規(guī)模的地球科學(xué)數(shù)據(jù)集,特別是遙感影像數(shù)據(jù),而且支持全球尺度的在線處理、分析和可視化[17]。GEE提供了Python API和JavaScript API 2種語言接口[18]。與傳統(tǒng)的遙感數(shù)據(jù)處理工具相比, GEE在遙感數(shù)據(jù)處理方面具有許多優(yōu)勢。

      首先利用GEE平臺進行遙感影像的下載、鑲嵌、樣本點的選取等,然后上傳研究區(qū)范圍矢量數(shù)據(jù),利用maskS2clouds函數(shù)進行去云。選擇哨兵2號數(shù)據(jù)集“COPERNICUS/S2_SR”,篩選日期與云量,并利用研究區(qū)感興趣區(qū)域(ROI)進行裁剪操作,即可得到相應(yīng)時間的遙感影像。

      2" 訓(xùn)練樣本及特征選取

      2.1" 訓(xùn)練樣本選取

      模型訓(xùn)練所用的數(shù)據(jù)集也稱為訓(xùn)練樣本,是整個分類算法的基礎(chǔ)。訓(xùn)練樣本的質(zhì)量直接決定了分類的結(jié)果與精度。通過遙感影像目視解譯,結(jié)合研究區(qū)的實際情況,利用GEE平臺選擇了6類訓(xùn)練樣本,包括水體、建筑、裸地、棉花、林地和耕地(圖2),各類訓(xùn)練樣本的數(shù)量見表3。

      為了量化各類樣本間的可分離性,本研究采用了轉(zhuǎn)換分離性和JM距離作為關(guān)鍵指標(biāo)。轉(zhuǎn)換分離性是基于馬氏距離概念的統(tǒng)計度量,用于評估多變量分布之間的差異,特別適用于模式識別和圖像處理領(lǐng)域。而JM距離是用于度量2個概率分布之間差異的統(tǒng)計量,廣泛應(yīng)用于模式識別和遙感影像分類。這2個參數(shù)的值在0~2之間[19],大于1.9則樣本之間的可分離性較好;小于1.8則可分離性較差,需重新選取。在本研究中,所選訓(xùn)練樣本的可分離性見表4。經(jīng)分析,各樣本類別間的JM距離均大于1.8,這表明所選樣本在特征空間中具有較好的區(qū)分度。這一結(jié)果為后續(xù)的遙感影像分類提供了堅實的基礎(chǔ),確保了分類過程的有效性和準(zhǔn)確性。

      2.2" 特征因子選取

      特征因子中,植被指數(shù)包括:歸一化植被指數(shù)(NDVI)、比值植被指數(shù)(RVI)、差值植被指數(shù)(DVI)、增強型植被指數(shù)(EVI)、歸一化水體指數(shù)(NDWI)、土壤調(diào)節(jié)植被指數(shù)(SAVI)6種。Sentinel-2的優(yōu)勢在于其擁有3個紅邊波段,使其在識別植被信息方面非常有效,因此,本研究選取了紅邊植被指數(shù)(REP)、地面葉綠素指數(shù)(MTCI)、歸一化差值紅邊指數(shù)(NDRE1)3種紅邊植被指數(shù)。

      紋理特征包括7類:均值、協(xié)同性、對比度、相異性、熵、角二階距和相關(guān)性。采用灰度共生矩陣(GLCM)方法提取紋理特征,它通過描述像元對之間的空間結(jié)構(gòu)特征及其相關(guān)性來定量描述遙感影像[20],是應(yīng)用最廣泛的一種紋理特征提取方法。通過主成分分析方法,選取前2個主分量的7種紋理特征(共14個)作為紋理因子。選取了坡度、坡向、海拔3個地形因子。

      本研究共選取了哨兵2號的12個波段、6種植被指數(shù)、3種紅邊植被指數(shù)、前2個主成分的7個紋理因子,以及3個地形因子,共38個特征因子作為機器學(xué)習(xí)算法的輸入?yún)?shù)(表5)。

      3" 研究方法

      3.1" 技術(shù)路線

      由圖3可知,首先,從GEE平臺獲取哨兵2號遙感數(shù)據(jù),選取訓(xùn)練樣本點和特征因子;其次,根據(jù)棉花夏季在NDVI、NIR上的特殊光譜曲線特征,進行棉花特征時段選擇;隨后,將所有特征因子輸入,分別利用GBDT、RF、SVM 機器學(xué)習(xí)算法,進行棉花信息提??;然后,利用RF進行特征優(yōu)選,并將經(jīng)優(yōu)選的所有特征因子,再次輸入3種機器學(xué)習(xí)算法,進行棉花提?。蛔詈?,比較幾種方法的提取結(jié)果和精度,評價RF特征優(yōu)選對于棉花提取效果和分類精度的影響。

      3.2" 棉花信息提取方法

      3.2.1" 基于遙感植被指數(shù)變化曲線的棉花特征時段選擇

      由圖4可知,棉花的生長周期主要包括5個階段,分別是出苗期、苗期、蕾期、盛鈴期和吐絮期。當(dāng)棉花處于盛鈴期時,NIR的DN值會大幅上升,此時棉花NIR的DN值會明顯高于其他農(nóng)作物與森林、灌木等植被。所以,NIR可有效地將棉花與各類作物、植被進行區(qū)分。因此,可通過NDVI與NIR結(jié)合設(shè)定光譜閾值的方法,獲取棉花的特征時段。

      3.2.2" 基于梯度提升決策樹的棉花信息提取方法

      1999年Freiman提出了梯度提升決策樹(GBDT),該算法是一種迭代的決策樹算法,主要是由多棵CART樹組成[21]。GBDT的主要思想是,每次建立的新模型均以上一個模型損失函數(shù)的負梯度為基礎(chǔ),通過多個弱學(xué)習(xí)器合成為強學(xué)習(xí)器[22]。GBDT屬于Boosting算法家族,核心在于迭代地訓(xùn)練決策樹,以便每一棵樹都能修正前一棵樹的錯誤,從而逐漸減少模型在訓(xùn)練集上的損失,GBDT不僅可用于分類,還可用于回歸[23]。GBDT算法的流程如下。

      對弱分類器進行初始化:

      f0(x)=argminγ∑Ni=1L(yi,γ)。

      式中:L表示損失函數(shù);γ表示使損失函數(shù)最小化的值,為常數(shù)。

      對每次迭代m=1,2,…,M。計算第i個樣本第m輪的殘差:

      γim=-L[yi,f(xi)]f(xi)f(x)=fm-1(x)。

      利用(xi,rim),對CART回歸樹進行擬合,其葉子節(jié)點將空間劃分為獨立區(qū)域。該回歸樹的葉子區(qū)域為Rjm,j=1,2,…,J(節(jié)點個數(shù))。

      對于j=1,2,…,J。計算最佳擬合值:

      γjm=argminm∑x∈RjmL[yi-fm-1(x)+γ]。

      持續(xù)更新強學(xué)習(xí)器:

      fm(x)=fm-1+∑Jj=1γjmI。

      根據(jù)上述流程得最終的強分類器為

      f(x)=f0+∑Mm=1∑Jj=1γjmI。

      式中:j表示葉子區(qū)域;J為葉子節(jié)點個數(shù);若公式為真則I是1,為假則I為0。

      3.2.3" 基于隨機森林的棉花信息提取方法

      隨機森林(RF)是由Breiman提出的一種基于決策樹組合的方法,是一種在樣本空間、特征空間同時進行的集成學(xué)習(xí)算法。RF中的每棵決策樹都依賴于由訓(xùn)練確定的參數(shù)組成的隨機向量,每棵樹在特征集中選擇部分特征,進行決策樹的構(gòu)造并貢獻一票,隨后通過Bagging算法形成獨立分布的訓(xùn)練樣本集進行訓(xùn)練,通過投票的方式獲得最終的分類或預(yù)測結(jié)果[24]。RF分類的原理見圖5。

      RF是一種非參數(shù)化的機器學(xué)習(xí)算法,它具有精確度高、不需要降維、訓(xùn)練速度快、無需剪枝、較少出現(xiàn)過擬合現(xiàn)象、能容忍一定的干擾和異常值,且能處理具有高維特性的輸入樣本的優(yōu)點[25]。因此,隨機森林可用于各種數(shù)據(jù)類型的分類,并在性能上超越了傳統(tǒng)統(tǒng)計方法及許多機器學(xué)習(xí)算法[26]。

      3.2.4" 基于支持向量機的棉花信息提取方法

      支持向量機(SVM)是Vapnik團隊基于統(tǒng)計學(xué)VC維理論和結(jié)構(gòu)風(fēng)險最小化原理,開發(fā)的一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)算法[27]。SVM的特點是同時最小化經(jīng)驗誤差和最大化分類間隔,其具有強大的非線性和高維數(shù)據(jù)處理能力,特別適用于小樣本、非線性和高維模式識別問題[28],同時也有效解決了“維數(shù)災(zāi)難”和“過度學(xué)習(xí)”等問題。

      SVM常采用的核函數(shù)有3種:線性核函數(shù)、多項式核函數(shù)以及徑向基核函數(shù),其表達式見表6。本研究選用線性核函數(shù)作為SVM的核函數(shù)。

      表6" 3種核函數(shù)的表達式

      核函數(shù)名稱表達式

      線性核函數(shù)K(xi,xj)=xTi xj

      多項式核函數(shù)K(xi,xj)=(gxTixj+γ)2,ggt;0

      徑向基核函數(shù)K(xi,xj)=e-‖xi-xj ‖2σ2

      式中:xi,xj表示輸入空間的向量;g表示常數(shù);e為自然常數(shù);σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。

      此外,SVM中可以設(shè)置懲罰系數(shù)C,其默認值為1。C的取值影響了對分錯樣本的懲罰程度,較大的C值會導(dǎo)致在訓(xùn)練樣本中獲得更高的準(zhǔn)確率,但可能會降低對測試數(shù)據(jù)的分類準(zhǔn)確率,泛化能力較低。相反,減小C允許訓(xùn)練樣本中存在一些誤分類的樣本,但可以提高模型的泛化能力。

      3.2.5" 基于RF特征優(yōu)選的棉花信息提取方法

      一般情況下,一份數(shù)據(jù)集有幾十上百種特征,由于各特征的重要性不同,所以為了保證訓(xùn)練模型的精確度,應(yīng)盡量降低復(fù)雜程度,篩選出最優(yōu)特征以進行進一步研究。常見的特征優(yōu)選方法有主成分分析、LASSO、RF等。

      隨機森林(RF)用袋外數(shù)據(jù)(OOB)做預(yù)測。在訓(xùn)練過程中,約1/3的樣本不被抽取,在每次重抽樣建立決策樹時,都會有一些樣本未被選中,則可用這些樣本進行交叉驗證,這也是用RF進行特征優(yōu)選的優(yōu)點之一[29]。這些袋外數(shù)據(jù)可用于計算特征重要性指標(biāo),進而進行特征選擇。該方法無需做交叉驗證,直接用oob score對模型性能進行評估。其基本原理為:

      (1)每棵決策樹的袋外數(shù)據(jù)誤差,記為errOOB1;

      (2)然后隨機對OOB所有樣本的特征i加入噪聲干擾,再次計算袋外數(shù)據(jù)誤差,記為errOOB2;

      (3)特征i的重要性為 SUM(errOOB2-errOOB1)N(N為樹的棵數(shù));若加入隨機噪聲后,袋外數(shù)據(jù)準(zhǔn)確率大幅下降,則說明這個特征對預(yù)測結(jié)果有很大的影響,進而說明其重要程度比較高。

      本研究將所有特征(38個)輸入GBDT、RF、SVM算法后,使用RF進行特征重要性的排序選擇,再將經(jīng)特征優(yōu)選后的特征再次輸入3種機器學(xué)習(xí)算法中,以探究RF特征優(yōu)選前后,3種機器學(xué)習(xí)算法的分類結(jié)果及精度變化。

      3.3" 精度評價方法

      遙感影像分類結(jié)果的精度評價至關(guān)重要,本研究將70%的樣本作為訓(xùn)練集,30%的樣本作為測試集,并采用混淆矩陣進行精度評估;混淆矩陣的列為參考數(shù)據(jù),行為遙感數(shù)據(jù)的分類結(jié)果[30]。評估分類效果的指標(biāo)包括用戶精度(UA)和生產(chǎn)者精度(PA),評價分類效果的指標(biāo)包括總體分類精度(OA)和Kappa系數(shù)[31]。這些精度指標(biāo)從不同角度反映了分類的準(zhǔn)確性。

      4" 提取結(jié)果與分析

      4.1" 烏蘇市棉花特征時段提取結(jié)果

      在GEE平臺中,通過選取適量各類典型地物的樣本點進行NDVI、NIR時序分析,并結(jié)合棉花生長時序,可得到在棉花生長期內(nèi)(3月17日至10月13日)各類典型地物的NDVI、NIR時序光譜曲線圖。如圖6、圖7所示,在5月中旬(出苗期),棉花的NDVI值從0.1大幅上升,且NIR值也開始逐漸上升;在7月中旬至9月中旬(盛鈴期),棉花的NDVI、NIR值均在0.6左右,遠高于其他地物。這也說明,7月中旬至9月中旬的盛鈴期,是觀測棉花生長、獲取棉田信息的最佳時期,也是進行棉花種植區(qū)域提取的最佳時期。

      4.2" 特征重要性排序結(jié)果

      將38個特征因子,通過RF算法進行特征排序后發(fā)現(xiàn),當(dāng)特征數(shù)量達到12時,分類精度達到最高,大于12后呈下降趨勢。因此,選擇排名前12個特征構(gòu)建訓(xùn)練模型的輸入因子。這12個特征的重要性排名見圖8,B8、B12、NDVI位列前三。

      4.3" GBDT、RF、SVM 3種方法及特征優(yōu)選分類結(jié)果比較

      將特征優(yōu)選前的38個因子,以及特征優(yōu)選后的12個因子(圖8),分別利用3類機器學(xué)習(xí)算法,對棉花種植區(qū)域進行提取,即可得到各方法的棉花種植區(qū)域提取結(jié)果(圖9),以及各分類方法的精度(表7、表8)。

      由表7、表8可知,上述幾種機器學(xué)習(xí)算法中,盡管部分地類的分類精度略低,但棉花的UA、PA始終在0.90以上,上述機器學(xué)習(xí)方法的棉花提取精度均達到優(yōu)良水平。

      RF-GBDT和RF-RF方法的棉花提取精度較高,總體精度達到了0.94。GBDT的優(yōu)勢在于它通過每一次的殘差計算增加了分錯樣本的權(quán)重,從而提高了泛化性能。然而,GBDT對異常值較為敏感,而且由于分類器之間存在依賴關(guān)系,難以實現(xiàn)并行計算。但總體而言,GBDT算法通常在一些方面優(yōu)于RF算法。

      使用RF分類器需要設(shè)置訓(xùn)練棵數(shù)。RF特征優(yōu)選前,棵數(shù)為80~90時(圖10),精度最高。隨著棵數(shù)的不斷增加,總體精度出現(xiàn)波動,當(dāng)棵數(shù)為100時精度開始保持穩(wěn)定。RF特征優(yōu)選后,棵數(shù)為50時,精度達到最大。隨著棵數(shù)的不斷增加,總體精度也出現(xiàn)波動,且總體呈下降趨勢,當(dāng)棵數(shù)為140時

      精度開始保持穩(wěn)定。由圖10可知,經(jīng)RF特征優(yōu)選的提取精度始終高于未經(jīng)RF特征優(yōu)選的提取精度。

      此外,使用SVM設(shè)置懲罰參數(shù)C。RF特征優(yōu)選前,C為20時精度最高。隨著C的不斷增加,總體精度總體呈下降趨勢,并最終穩(wěn)定在0.8左右。RF特征優(yōu)選后,C為15時,精度最高,隨后總體精度總體呈下降趨勢,并最終也穩(wěn)定在0.8左右(圖11)。

      在經(jīng)過特征優(yōu)選之后,3種機器學(xué)習(xí)算法(GBDT、RF、SVM)的分類精度均得到了提升,且在提取棉花種植區(qū)域方面表現(xiàn)出更高的準(zhǔn)確性,極少出現(xiàn)漏提取現(xiàn)象。然而,在使用相同的遙感影像和訓(xùn)練樣本的情況下,RF-SVM方法在某些情況下將田間道路誤識別為棉田,同時在部分區(qū)域出現(xiàn)了較為明顯的“椒鹽現(xiàn)象”(圖12),這導(dǎo)致其分類精度

      相較于其他2種算法略有下降。

      RF特征優(yōu)化的主要目標(biāo)是剔除冗余或不相關(guān)的特征,這不僅有效減少了特征的數(shù)量,而且提高了模型的精確度。特別是在處理如細窄田間道路等復(fù)雜地物特征時,結(jié)合RF特征優(yōu)選和GBDT算法能夠有效減少將道路誤識別為棉田的情況。這不僅提高了分類精度,也增強了模型在處理復(fù)雜地表特征時的魯棒性。

      在使用RF進行特征分析及通過特征重要性排序篩選和模型優(yōu)化之后,分類精度提高了2~3百分點。RF特征優(yōu)化的主要目的是剔除多余或不相關(guān)的特征,這不僅減少了特征數(shù)量,而且還提升了模型的精確度。盡管特征優(yōu)選能夠在一定程度上減少像素級別的分類錯誤,從而視覺上緩解了“椒鹽現(xiàn)象”,但這并不代表可完全消除“椒鹽現(xiàn)象”(圖13)。影響分類結(jié)果的因素不僅局限于特征選擇,還包括模型參數(shù)的配置、訓(xùn)練樣本的選擇,以及影像數(shù)據(jù)本身的質(zhì)量和特性等,這些因素共同作用,最終決定了分類結(jié)果的準(zhǔn)確性和可靠性。

      5" 結(jié)論與討論

      本研究將遙感和機器學(xué)習(xí)方法相結(jié)合,基于哨兵2號影像,利用GEE、python、ENVI、ArcGIS等軟件平臺,對研究區(qū)的棉花種植區(qū)域進行了提取研究,并將幾種方法的分類結(jié)果進行了對比。結(jié)果表明,RF-GBDT、RF-RF在烏蘇市的棉花信息提取中取得了較好的效果,GBDT、RF次之,RF-SVM與SVM的精度較低。研究結(jié)果表明:(1)根據(jù)研究區(qū)內(nèi)典型地物的遙感植被指數(shù)變化曲線可知,7—8月棉花的NDVI、NIR值遠高于其他地物,此時是提取棉花信息的最佳時期。(2)通過算法發(fā)現(xiàn),B8、B12、NDVI等波段與棉花的相關(guān)性最高,說明這些波段特征對于棉花提取、估產(chǎn)等有重要意義。(3)經(jīng)RF特征優(yōu)選后的3種機器學(xué)習(xí)算法(RF-GBDT、RF-RF、RF-SVM)的總體精度分別比RF特征優(yōu)選前(GBDT、RF、SVM)的總體精度分別提高了0.02、0.03、0.03,Kappa系數(shù)分別提高了0.02、0.03、0.03。由此可見,在進行機器學(xué)習(xí)分類前,通過算法對輸入特征進行重要性篩選,可有效避免因特征冗余造成的分類精度下降,可實現(xiàn)更高精度的棉花種植區(qū)域提取。(4)使用多種機器學(xué)習(xí)方法對棉花種植區(qū)域進行提取,均取得了較好的分類效果。其中,RF-GBDT算法的分類精度最高,其Kappa系數(shù)比RF-RF方法還提高了0.01;由此可見,GBDT算法作為一種集成的機器學(xué)習(xí)算法,在地物分類與棉花提取方面有著較好的應(yīng)用效果。

      本研究選取新疆烏蘇市作為研究區(qū)域,運用RF算法對各類特征進行重要性排序,并最終篩選出前12個關(guān)鍵特征,輸入至3種機器學(xué)習(xí)算法中,以提高分類精度并減少特征冗余。此外,本研究首次嘗試將GBDT算法應(yīng)用于棉花種植區(qū)域的提取,并取得了顯著的成效。GBDT在分類精度上高于RF和SVM的主要原因,在于其采用了增強學(xué)習(xí)策略,通過迭代構(gòu)建決策樹并逐步減少殘差,從而提升模型的準(zhǔn)確性。相較之下,RF采用多個決策樹的平均或多數(shù)投票機制進行預(yù)測,而SVM則在特征空間中尋找最優(yōu)分割面以區(qū)分不同類別。GBDT專注于每輪迭代中減少分類誤差,因此在某些情況下能夠提供更精確的分類結(jié)果。然而,GBDT的逐步優(yōu)化策略也可能導(dǎo)致其在處理大規(guī)模數(shù)據(jù)或高維特征時出現(xiàn)過擬合的風(fēng)險。

      盡管本研究在提取精度上取得了一定成果,但仍存在提升空間。主要原因包括:(1)遙感圖像獲取條件的復(fù)雜性,包括光照變化、大氣條件和傳感器角度等,這些都將影響遙感影像的質(zhì)量,從而影響分類結(jié)果;(2)訓(xùn)練樣本選取中混合像元的存在,導(dǎo)致建筑、水體、裸地等區(qū)域與棉花種植區(qū)域無法完全分離,影響分類精度;(3)盡管機器學(xué)習(xí)算法在遙感圖像分類中表現(xiàn)出色,但它們在處理大規(guī)模數(shù)據(jù)或高維特征時,無法避免地會存在過擬合或泛化能力不足的問題。此外,本研究方法的選取部分基于前人在其他研究區(qū)的成果和文獻經(jīng)驗,與前人所選訓(xùn)練樣本的差異可能導(dǎo)致試驗結(jié)果的誤差。后續(xù)研究將致力于提高訓(xùn)練樣本的準(zhǔn)確性,結(jié)合遙感和野外實地考察選取棉花樣本,避免因樣本選取誤差導(dǎo)致的精度下降,并嘗試應(yīng)用更多機器學(xué)習(xí)算法及神經(jīng)網(wǎng)絡(luò)(如U-Net)算法,以進一步優(yōu)化提取結(jié)果,提升精度。

      本研究表明,通過使用GEE平臺獲取高分辨率遙感影像,選取訓(xùn)練樣本,并應(yīng)用機器學(xué)習(xí)方法提取棉花種植區(qū)域,能夠有效提升提取精度。這為棉花種植區(qū)域的提取提供了新的解決方案和技術(shù)路徑,為棉花面積估算研究提供了重要參考。

      參考文獻:

      [1]呂紹倫,趙" 陽,陳萬基,等. 基于遙感云計算的阿拉爾市棉花種植面積提?。跩]. 棉花科學(xué),2022,44(4):19-25.

      [2]魏瑞琪,李林峰,仙" 巍,等. 利用TIMESAT軟件和時間序列衛(wèi)星影像提取新疆石河子棉花種植區(qū)域[J]. 湖北農(nóng)業(yè)科學(xué),2018,57(4):105-112.

      [3]王文靜,張" 霞,趙銀娣,等. 綜合多特征的Landsat 8時序遙感圖像棉花分類方法[J]. 遙感學(xué)報,2017,21(1):115-124.

      [4]劉傳跡,金曉斌,徐偉義,等. 2000—2020年南疆地區(qū)棉花種植空間格局及其變化特征分析[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(16):223-232.

      [5]Ren B Y,Zhou H Z,Shen H,et al. Research on cotton information extraction based on Sentinel-2 time series analysis[C]//2019 8th International Conference on Agro-Geoinformatics (Agro-Geoinformatics).Turkey:IEEE,2019:1-6.

      [6]Wang N,Zhai Y G,Zhang L F.Automatic cotton mapping using time series of Sentinel-2 images[J]. Remote Sensing,2021,13(7):1355.

      [7]He L M,Mostovoy G. Cotton yield estimate using Sentinel-2 data and an ecosystem model over the southern US[J]. Remote Sensing,2019,11(17):2000.

      [8]Li M,Zhao G X,Qin Y W. Extraction and monitoring of cotton area and growth information using remote sensing at small scale:a case study in dingzhuang town of Guangrao County,China[C]//2011 International Conference on Computer Distributed Control and Intelligent Environmental Monitoring.Changsha:IEEE,2011:816-823.

      [9]田" 野,張" 清,李希燦,等. 基于多時相影像的棉花種植信息提取方法研究[J]. 干旱區(qū)研究,2017,34(2):423-430.

      [10]荀" 蘭. 基于Sentinel-1/2衛(wèi)星影像的棉花種植區(qū)識別方法研究[D]. 北京:中國科學(xué)院大學(xué)(中國科學(xué)院空天信息創(chuàng)新研究院),2022.

      [11]Fei H,F(xiàn)an Z H,Wang C K,et al. Cotton classification method at the county scale based on multi-features and random forest feature selection algorithm and classifier[J]. Remote Sensing,2022,14(4):829.

      [12]王匯涵,張" 澤,康孝巖,等. 基于Sentinel-2A的棉花種植面積提取及產(chǎn)量預(yù)測[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(9):205-214.

      [13]美合日阿依·莫一丁,買買提·沙吾提,李金朝. 基于Sentinel-2時間序列數(shù)據(jù)及物候特征的棉花種植區(qū)提?。跩]. 干旱區(qū)地理,2022,45(6):1847-1859.

      [14]Rodriguez-Sanchez J,Li C Y,Paterson A H. Cotton yield estimation from aerial imagery using machine learning approaches[J]. Frontiers in Plant Science,2022,13:870181.

      [15]Hong Y,Li D R,Wang M,et al. Cotton cultivated area extraction based on multi-feature combination and CSSDI under spatial constraint[J]. Remote Sensing,2022,14(6):1392.

      [16]王利民,劉" 佳,姚保民,等. 基于Rapideye數(shù)據(jù)的棉花特征光譜指數(shù)構(gòu)建及類型識別[J]. 中國農(nóng)業(yè)信息,2019,31(5):25-37.

      [17]Gorelick N,Hancher M,Dixon M,et al. Google Earth Engine:Planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment,2017,202:18-27.

      [18]郝斌飛,韓旭軍,馬明國,等. Google Earth Engine在地球科學(xué)與環(huán)境科學(xué)中的應(yīng)用研究進展[J]. 遙感技術(shù)與應(yīng)用,2018,33(4):600-611.

      [19]Bruzzone L,Roli F,Serpico S B. An extension of the Jeffreys-Matusita distance to multiclass cases for feature selection[J]. IEEE Transactions on Geoscience and Remote Sensing,1995,33(6):1318-1321.

      [20]Iqbal N,Mumtaz R,Shafi U,et al. Gray level co-occurrence matrix (GLCM) texture based crop classification using low altitude remote sensing platforms[J]. PeerJ Computer Science,2021,7:e536.

      [21]Friedman J H.Stochastic gradient boosting[J]. Computational Statistics amp; Data Analysis,2002,38(4):367-378.

      [22]張海洋,張" 瑤,田澤眾,等. 基于GBDT和Google Earth Engine的冬小麥種植結(jié)構(gòu)提?。跩]. 光譜學(xué)與光譜分析,2023,43(2):597-607.

      [23]卓" 越,嚴海軍. 基于梯度提升樹算法的玉米施肥模型構(gòu)建[J]. 水資源與水工程學(xué)報,2020,31(4):223-228,237.

      [24]林志堅,姚俊萌,蘇校平,等. 基于MODIS指數(shù)和隨機森林的江西省早稻種植信息提?。跩]. 農(nóng)業(yè)工程學(xué)報,2022,38(11):197-205.

      [25]李旭青,劉世盟,李" 龍,等. 基于RF算法優(yōu)選多時相特征的冬小麥空間分布自動解譯[J]. 農(nóng)業(yè)機械學(xué)報,2019,50(6):218-225.

      [26]Belgiu M,Draˇgu L. Random forest in remote sensing:a review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2016,114:24-31.

      [27]肖博林. 基于支持向量機的高光譜遙感影像分類[J]. 科技創(chuàng)新與應(yīng)用,2020,10(4):22-24.

      [28]費" 浩. 綜合多特征的縣域尺度棉花種植面積遙感提取方法[D]. 阿拉爾:塔里木大學(xué),2021:29-30.

      [29]劉浩然,劉秀清,王春樂. 基于隨機森林和超像素的極化SAR圖像分類[J]. 國外電子測量技術(shù),2021,40(9):29-35.

      [30]黃鵬程,張明明,王新宇,等. 基于Landsat-8 OLI的西安市土地利用類型遙感分類研究[J]. 測繪與空間地理信息,2020,43(1):85-88,92.

      [31]張" 群. 基于高分遙感的黑方臺滑坡識別[D]. 西安:長安大學(xué),2017:28-30.

      猜你喜歡
      遙感機器學(xué)習(xí)
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      皮山縣綠洲
      商(2016年25期)2016-07-29 20:50:14
      基于最大似然法的南京市土地利用類型分類研究
      商(2016年22期)2016-07-08 14:32:30
      基于GIS的東川地區(qū)植被指數(shù)季節(jié)變化研究
      商(2016年22期)2016-07-08 14:05:14
      機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      中國“遙感”衛(wèi)星今年首秀引關(guān)注
      涟源市| 怀来县| 武宣县| 苍山县| 滨海县| 苍梧县| 蓬莱市| 久治县| 油尖旺区| 黑龙江省| 城口县| 荔浦县| 根河市| 芒康县| 昌都县| 潞城市| 富阳市| 博客| 拜泉县| 尉犁县| 宜都市| 阿瓦提县| 英德市| 筠连县| 连城县| 镶黄旗| 宜川县| 云林县| 淳安县| 巍山| 廉江市| 长岛县| 民县| 利川市| 上杭县| 青州市| 云梦县| 昆山市| 明光市| 承德县| 徐闻县|