包珺瑋,于利峰,烏蘭吐雅,許洪滔,烏云德吉,于偉卓
(內(nèi)蒙古自治區(qū)農(nóng)牧業(yè)科學(xué)院,內(nèi)蒙古 呼和浩特 010031)
農(nóng)作物面積提取和分類(lèi)是農(nóng)情遙感研究的基礎(chǔ),對(duì)指導(dǎo)農(nóng)業(yè)生產(chǎn)、鄉(xiāng)村振興戰(zhàn)略實(shí)施具有重大意義。早期受到影像數(shù)據(jù)源單一限制,在土地類(lèi)型分類(lèi)、農(nóng)作物識(shí)別研究領(lǐng)域,中等分辨率影像作為主要數(shù)據(jù)源,被國(guó)內(nèi)外學(xué)者大量使用。然而,對(duì)于種植結(jié)構(gòu)復(fù)雜、農(nóng)作物光譜特征復(fù)雜地區(qū),農(nóng)作物分類(lèi)結(jié)果常表現(xiàn)出分類(lèi)精度低、誤差大等缺點(diǎn)[1]。自2015年6月歐空局(European Space Agency)成功發(fā)射Sentinel_2A 以來(lái),因其影像覆蓋范圍大、分辨率高、光譜信息豐富等優(yōu)點(diǎn)為遙感農(nóng)作物識(shí)別、面積提取等研究領(lǐng)域提供了有力數(shù)據(jù)支撐[2]。朱琳[3]利用Sentinel_2A 多源遙感數(shù)據(jù)在農(nóng)作物分類(lèi)和面積提取的研究中發(fā)現(xiàn),分類(lèi)精度及Kappa 系數(shù)都比光學(xué)遙感分類(lèi)結(jié)果好;王蓉等[4]利用Sentinel_2A影像結(jié)合DEM 高程模型提取雨養(yǎng)區(qū)和灌溉區(qū)的冬小麥種植面積,認(rèn)為Sentinel_2A 影像對(duì)冬小麥提取效果明顯。農(nóng)作物面積提取是農(nóng)作物估產(chǎn)、長(zhǎng)勢(shì)等農(nóng)情信息分析的基礎(chǔ),提高分類(lèi)精度對(duì)于農(nóng)情遙感監(jiān)測(cè)尤為重要。
隨機(jī)森林法作為一種集成學(xué)習(xí)方法,具有高效、靈活等特點(diǎn),被廣泛應(yīng)用于中高分辨率影像的分類(lèi)研究中。黃雙燕等[5]基于Sentinel_2A 數(shù)據(jù),采用機(jī)器學(xué)習(xí)方法以地塊基元為基本單元,提取農(nóng)作物分類(lèi)信息,有效解決了“椒鹽”效應(yīng)問(wèn)題,提高了農(nóng)作物的分類(lèi)精度。雷小雨等[6]利用隨機(jī)森林方法結(jié)合構(gòu)建差值特征對(duì)南方水稻種植面積進(jìn)行提取,改善了水稻面積提取的精度。王娜等[7]利用單變量特征和隨機(jī)森林方法進(jìn)行蘇北地區(qū)主要農(nóng)作物的識(shí)別和提取,有效降低了數(shù)據(jù)冗余,提高了農(nóng)作物的分類(lèi)精度。因此,選擇適合的遙感數(shù)據(jù)源、特征變量及算法模型已成為農(nóng)作物分類(lèi)研究的重要內(nèi)容。
本研究通過(guò)挖掘遙感數(shù)據(jù)的光譜特征、參數(shù)特征和紋理特征等信息,構(gòu)建基于機(jī)器學(xué)習(xí)的作物提取模型,旨在為未來(lái)大尺度提取農(nóng)作物面積提供借鑒。
阿榮旗地處內(nèi)蒙古呼倫貝爾市東南部,全旗總面積1.36 萬(wàn)km2,境內(nèi)有耕地面積471.6 萬(wàn)km2,種植作物種類(lèi)豐富,主要作物有玉米、馬鈴薯、大豆、水稻、雜糧等,常年糧食生產(chǎn)能力30 億kg,是全國(guó)441個(gè)優(yōu)質(zhì)商品糧基地、內(nèi)蒙古自治區(qū)5 個(gè)大豆主產(chǎn)區(qū)之一,阿榮旗部分區(qū)域遙感影像見(jiàn)圖1。
Sentinel_2A 衛(wèi)星是具有13 個(gè)光譜波段并攜帶多光譜儀的全球環(huán)境衛(wèi)星。包括10 m 分辨率的紅、綠、藍(lán)波段及1 個(gè)近紅外波段,4 個(gè)20 m 分辨率植被紅邊波段、2 個(gè)短波紅外線(xiàn)波段,60 m 分辨率水蒸氣、卷云、沿海氣溶膠數(shù)據(jù)(表1)。
根據(jù)研究區(qū)農(nóng)作物生長(zhǎng)的物候期,選用2018年7月影像,數(shù)據(jù)經(jīng)過(guò)大氣校正、重采樣,ENVI 軟件轉(zhuǎn)換為標(biāo)準(zhǔn)格式后得到10 m 分辨率影像。利用與Rapid eye 影像相近的紅邊波段及短波近紅外波段顯著放大農(nóng)作物之間的光譜差異,達(dá)到提高農(nóng)作物識(shí)別準(zhǔn)確度的目的[8]。
表1 Sentinel_2A 光譜范圍
地面調(diào)查數(shù)據(jù)包括解譯點(diǎn)坐標(biāo)信息、驗(yàn)證點(diǎn)坐標(biāo)信息、照片等內(nèi)容。利用手持差分GPS 設(shè)備沿著省級(jí)、市級(jí)、縣級(jí)等主要道路,選擇農(nóng)作物種植類(lèi)型豐富且集中連片區(qū)域,按照每5 km 1 個(gè)解譯點(diǎn)的標(biāo)準(zhǔn)采集。地面調(diào)查共采集解譯標(biāo)志394 個(gè),驗(yàn)證點(diǎn)100 個(gè),采集作物包括玉米、高粱、大豆、甜菜,研究區(qū)解譯點(diǎn)分布見(jiàn)圖2。
本研究選取2014—2015年快鳥(niǎo)影像、Word view影像為底圖解譯出已經(jīng)確定耕地面積范圍并去除了線(xiàn)狀地物信息的2 m 分辨率的呼倫貝爾市耕地底圖為輔助數(shù)據(jù),用于剔除分類(lèi)結(jié)果中的草地、林地、沙地等非耕地圖斑,減少冗余數(shù)據(jù)對(duì)分類(lèi)結(jié)果精度的影響。
農(nóng)作物面積提取主要以計(jì)算機(jī)解譯為主,充分利用Sentinel_2A 影像豐富的光譜信息,結(jié)合研究區(qū)種植結(jié)構(gòu)制定技術(shù)路線(xiàn)(圖3)。
基于像元的分類(lèi)方法受到同物異譜及同譜異物的影響,出現(xiàn)“椒鹽”現(xiàn)象嚴(yán)重,使得地塊整體結(jié)構(gòu)遭到破壞。因此,本研究擬從光譜特征、參數(shù)特征與紋理特征入手,選擇農(nóng)作物識(shí)別關(guān)鍵期,探索農(nóng)作物分類(lèi)的方法。
3.2.1 光譜特征分析 采用均值漂移的算法改善影像分割精度和準(zhǔn)確度。均值漂移(mean shift,MS)算法是一種通用的聚類(lèi)算法,其特點(diǎn)是不受數(shù)據(jù)分布特征及形態(tài)影響,適用于多種分布特征的影像數(shù)據(jù)[9]。該算法最初由FUKUNAGA 等[10]于1975年提出,之后針對(duì)采樣點(diǎn)對(duì)周?chē)鷺颖镜闹匾潭?,提出了一組核函數(shù),將均值漂移算法的使用范圍進(jìn)行了發(fā)展,其基本數(shù)學(xué)表達(dá)式為:
其中,Sh 是一個(gè)半徑為h 的高維球區(qū)域,k 表示n 個(gè)樣本點(diǎn)有k 個(gè)點(diǎn)落入Sh 中。對(duì)于所有采樣點(diǎn),每個(gè)樣本點(diǎn)的重要性應(yīng)該是不同的,離中心點(diǎn)越遠(yuǎn),其權(quán)值應(yīng)該越小。故引入核函數(shù)和權(quán)重系數(shù)來(lái)提高跟蹤算法的濾波性并增加搜索跟蹤能力。在一個(gè)d 維的歐式空間中,x 表示該空間中的一個(gè)點(diǎn),用一列向量表示,存在標(biāo)準(zhǔn)化常量c,d 使得核函數(shù)k(x):
式(2)應(yīng)滿(mǎn)足k 是非負(fù)的、非增的、連續(xù)的。平均的偏移量會(huì)指向樣本點(diǎn)最密的方向,也就是概率密度函數(shù)的梯度方向,引入核函數(shù)和權(quán)重的系數(shù)后得到式(3):
式(4)是一個(gè)單位核函數(shù),H 是一個(gè)正定d×d 的對(duì)稱(chēng)矩陣,ω(xi)是采樣點(diǎn)x(i)的權(quán)重[11]。蘇騰飛等[12]利用改進(jìn)型MS 濾波算法對(duì)高分辨率影像分割,其結(jié)果明顯改善了農(nóng)田邊界平滑效果,優(yōu)化了影像分割精度。
由圖4 可以看出,經(jīng)過(guò)MS 處理后的影像,在紋理特征、作物邊界、平滑度等特征上都有很好地改善。
3.2.2 參數(shù)特征分析 遙感的參數(shù)特征是指采用了比值運(yùn)算和歸一化處理得到的一系列指數(shù)。通過(guò)比值運(yùn)算,以幾何級(jí)數(shù)進(jìn)一步擴(kuò)大反射率之間的差距,農(nóng)作物在指數(shù)影像上得到最大的亮度增強(qiáng),達(dá)到農(nóng)田特征區(qū)分的目的。
歸一化植被指數(shù)(normalized difference vegetation index,NDVI)表達(dá)式為:
NDVI 通常是用衛(wèi)星遙感數(shù)據(jù)計(jì)算,以評(píng)估目標(biāo)地區(qū)綠色植被的生長(zhǎng)狀況。計(jì)算方式是利用紅光與近紅外光的反射,能顯示出植物生長(zhǎng)、生態(tài)系的活力與生產(chǎn)力等信息。數(shù)值愈大表示植物生長(zhǎng)愈多。
土壤調(diào)節(jié)植被指數(shù)(soil adjusted vegetation Index,SAVI)通過(guò)引入了土壤調(diào)節(jié)因子L,使無(wú)論是在深色還是在淺色土壤背景中求得的植被指數(shù)都完全相等,從而消除了土壤背景的干擾,表達(dá)式為:
SAVI=[(NIR-RED)(1+L)]/(NIR+RED+L)(6)
式(6)中,L 即為土壤調(diào)節(jié)因子,其值介于0~1?!?”和“1”分別代表植被覆蓋率極高和極低的兩種極端情況[13]。通常選擇0.5 可以較好地減弱土壤的背景差異,清除土壤的噪聲影響。
增強(qiáng)植被指數(shù)(enhanced vegetation index,EVI)表達(dá)式為:
式(7)中,EVI 通過(guò)加入藍(lán)色波段以增強(qiáng)植被信號(hào)[14],矯正土壤背景和氣溶膠散射的影響。
3.2.3 紋理特征分析 紋理是地物的物理形態(tài)所表達(dá)出的灰度空間相關(guān)特性,紋理特征的核心問(wèn)題是紋理區(qū)域的一致性和相鄰區(qū)域邊界的準(zhǔn)確性[15]。高分辨率數(shù)據(jù)下,由于不同種農(nóng)作物之間的生理形態(tài)與疏密情況的差異,不同農(nóng)作物之間也存在紋理區(qū)別(圖5),可以有效區(qū)分農(nóng)作物類(lèi)型。
灰度共生矩陣是利用圖像中兩個(gè)像素灰度級(jí)聯(lián)合分布的統(tǒng)計(jì)形式,反應(yīng)紋理灰度級(jí)相關(guān)性規(guī)律的常用分析方法[16]。通過(guò)反復(fù)測(cè)試,選擇3×3 窗口,在ENVI 軟件中對(duì)其均值(Mean)、方差(Variance)、一致性(Homogeneity)、熵(Entripy)、灰度(Contrast)5個(gè)統(tǒng)計(jì)量進(jìn)行提取:
式中,n 為灰度值的階數(shù),p(i,j)是n×n 的歸一化共生矩陣,u 為p(i,j)的均值。鑒于紅邊波段對(duì)作物識(shí)別比較敏感,因而使用紅邊波段作為紋理特征的提取波段。
機(jī)器學(xué)習(xí)是在數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法[17]。隨機(jī)森林法(random forest,RF)作為機(jī)器學(xué)習(xí)的重要方法擁有廣泛的應(yīng)用前景。其實(shí)質(zhì)就是利用多種分類(lèi)器投票決定分類(lèi)結(jié)果,對(duì)于一個(gè)輸入樣本,N 棵樹(shù)會(huì)有N個(gè)分類(lèi)結(jié)果。而隨機(jī)森林法可以集成所有的分類(lèi)投票結(jié)果,將投票次數(shù)最多的類(lèi)別指定為最終的輸出[18]。在遙感領(lǐng)域其優(yōu)點(diǎn)是幾乎不需要設(shè)置參數(shù)就可以得到比較好的提取結(jié)果,而且能夠有效地運(yùn)行在大數(shù)據(jù)集上,能夠滿(mǎn)足未來(lái)大尺度范圍提取的要求。
在耕地底圖范圍內(nèi),基于2018年Sentinel_2A影像數(shù)據(jù),利用隨機(jī)森林算法得到阿榮旗主要農(nóng)作物空間分布情況(圖6)。
分類(lèi)精度是影像像元被正確分類(lèi)程度的評(píng)價(jià)指標(biāo),本研究采用混淆矩陣精度分類(lèi),確定分類(lèi)結(jié)果的精度和可靠性。混淆矩陣的分類(lèi)評(píng)價(jià)指標(biāo)包括:總體分類(lèi)精度、Kappa 系數(shù)、漏分誤差、錯(cuò)分誤差、制圖精度、用戶(hù)精度,而總體精度和Kappa 系數(shù)指標(biāo)直接影響和決定分類(lèi)結(jié)果的準(zhǔn)確性。在精度評(píng)價(jià)過(guò)程中,將野外采集的100 個(gè)地面驗(yàn)證點(diǎn),采用定性和定量的方式對(duì)農(nóng)作物品種判別準(zhǔn)確度和農(nóng)作物面積提取的精確度進(jìn)行驗(yàn)證見(jiàn)圖7,并建立了混淆矩陣評(píng)價(jià)指標(biāo)見(jiàn)表2。
由表2 可以看出,隨機(jī)森林法對(duì)農(nóng)作物分類(lèi)的總體精度能到達(dá)到80%以上,Kappa 系數(shù)為0.727 7,表示總體分類(lèi)精度較好。尤其是大豆和玉米的制圖精度可以達(dá)到90%以上,但甜菜和高粱的出現(xiàn)錯(cuò)分現(xiàn)象比較明顯,其主要原因是甜菜和高粱在8月份的光譜特征相似;大豆的分類(lèi)結(jié)果理想,基本沒(méi)有造成錯(cuò)分;甜菜的分類(lèi)效果相對(duì)較差,錯(cuò)分為高粱和玉米的數(shù)量較多。由分類(lèi)結(jié)果可知,采用均值漂移法可以有效改善作物混淆像元問(wèn)題及地塊內(nèi)部異質(zhì)現(xiàn)象,但是對(duì)于光譜特征相似的作物,分類(lèi)結(jié)果不理想。
基于前人研究成果,本研究以Sentinel-2A 影像為數(shù)據(jù)源,利用機(jī)器學(xué)習(xí)算法從影像光譜特征、數(shù)據(jù)提取方法和模型選擇方面進(jìn)行農(nóng)作物遙感識(shí)別研究,分類(lèi)精度較高,但仍存在許多不足之處。首先,數(shù)據(jù)選取時(shí)相受多因素影響,是否存在與最佳提取時(shí)期不匹配的問(wèn)題還需進(jìn)一步研究;其次,通過(guò)提取、挖掘遙感影像信息,較高精度地識(shí)別了農(nóng)作物分布,但一定程度上也造成了數(shù)據(jù)量冗余;最后,對(duì)于存在農(nóng)作物種類(lèi)豐富、光譜特征復(fù)雜、農(nóng)作物邊界不清晰等問(wèn)題的區(qū)域,在數(shù)據(jù)選取與模型改進(jìn)方面仍需進(jìn)一步研究。
表2 隨機(jī)森林法農(nóng)作物分類(lèi)結(jié)果混淆矩陣