文 銅, 柳小妮*, 紀(jì) 童, 楊冬陽(yáng), 喬歡歡, 姜佳昌, 潘冬榮
(1. 甘肅農(nóng)業(yè)大學(xué)草業(yè)學(xué)院, 甘肅 蘭州 730070; 2. 甘肅省草原技術(shù)推廣總站, 甘肅 蘭州 730000)
三江源區(qū)位于青藏高原腹地,是我國(guó)重要的天然草場(chǎng),素有“中華水塔”之稱,具有重要的經(jīng)濟(jì)價(jià)值和生態(tài)功能[1]。自三江源自然保護(hù)區(qū)的建立以來(lái),越來(lái)越多的科研工作者對(duì)該地區(qū)進(jìn)行著生態(tài)健康檢測(cè)與保護(hù)工作。隨著實(shí)踐工作的開展以及研究問(wèn)題的深入,傳統(tǒng)的植物分類手段不能完全滿足當(dāng)前研究的需要[2],因此研究快速分類識(shí)別草地植物方法具有重要的意義[3]。
遙感技術(shù)的出現(xiàn)很大程度上彌補(bǔ)了傳統(tǒng)植物多樣性調(diào)查方法的不足[4]。高光譜遙感數(shù)據(jù)包含豐富的光譜信息并且能夠?qū)χ脖贿M(jìn)行大面積檢測(cè),具有分析簡(jiǎn)便快速、靈敏度高、大尺度、非破壞性等優(yōu)勢(shì)[8-10],在植物分類方面具有很大潛力[6-7]。但高光譜數(shù)據(jù)存在冗余現(xiàn)象[9],因此直接利用原始高光譜全波段數(shù)據(jù)進(jìn)行植物分類,難以達(dá)到理想的分類效果[11-12]。而植被指數(shù)一直是研究植物檢測(cè)與分類最簡(jiǎn)單、最常用的手段[15-16],該手段一般選擇對(duì)綠色健康植物強(qiáng)吸收的可見光波段和高反射的近紅外波段,隨著植物葉冠結(jié)構(gòu)和生化組分等變化,這兩個(gè)范圍波段作為植物類型的敏感波段會(huì)對(duì)植物物理現(xiàn)象的光譜響應(yīng)產(chǎn)生反差[13],因此可以增強(qiáng)隱含的植物光譜信息減少光譜數(shù)據(jù)的冗余[11]。
在探索遙感數(shù)據(jù)的物種識(shí)別方法中,越來(lái)越多的研究結(jié)合高光譜遙感和機(jī)器學(xué)習(xí)算法進(jìn)行植物分類,有效提高了識(shí)別與分類的精度,分類精度總體較高[17]。其中Rollet等[18]基于徑向基函數(shù)(Radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)并結(jié)合K鄰近算法(K-nearest neighbors method,KNN)的圖像分類算法,對(duì)加拿大薩斯喀徹溫省的4種植物光譜數(shù)據(jù)進(jìn)行了分類識(shí)別,比傳統(tǒng)圖像分類方法有更高的分類精度;李嬋等[19]提取了農(nóng)業(yè)區(qū)域8種植物的63種光譜特征變量,利用K鄰近算法、支持向量機(jī)(Support vector machines,SVM)分類模型和隨機(jī)森林(Random forest,RF)分類模型3種機(jī)器學(xué)習(xí)方法進(jìn)行植物的分類識(shí)別,發(fā)現(xiàn)SVM分類準(zhǔn)確度要優(yōu)于KNN與RF;而劉鵬[7]在城市綠化檢測(cè)和大田及經(jīng)濟(jì)作物檢測(cè)中,利用提取的特征波段,基于KNN和RF開展植物分類識(shí)別模型的研究,其研究結(jié)果表明,RF算法比KNN算法準(zhǔn)確度高。由此說(shuō)明,SVM,RF,KNN這3種分類識(shí)別模型由于對(duì)分類問(wèn)題的適用性較高以及可操作性較易,被廣泛應(yīng)用于遙感分類中[3]。同時(shí)不同的研究對(duì)象、研究地點(diǎn)植物的分類識(shí)別效果不同,因此選擇合適的分類模型可以提高結(jié)果的精度。
本研究利用ASD(ASD FieldSpec?4 Hi-Res NG,USA)地物光譜儀采集野外光譜數(shù)據(jù),對(duì)三江源地區(qū)的36種常見的高寒草地植物進(jìn)行光譜特征分析,并篩選利用常用的高光譜植被指數(shù),來(lái)建立植物的SVM,RF,KNN的分類識(shí)別模型,根據(jù)分類結(jié)果挑選研究區(qū)最適分類模型,為高寒草地高光譜植物分類技術(shù)提供理論基礎(chǔ)。
以三江源地區(qū)高寒草地36種常見植物(表1)為研究對(duì)象,植物名錄引用自中國(guó)植物志[20]。選用ASD(ASD FieldSpec?4 Hi-Res NG,USA)地物光譜儀手槍式把手配件,于2021年8月中旬盛草期,進(jìn)行高寒草地植物冠層原始光譜數(shù)據(jù)采集。
為避免光譜測(cè)量時(shí)的干擾因素,測(cè)試期間光源充足,無(wú)云、無(wú)大風(fēng)條件最好。每日工作時(shí)間限制在10:00至14:00,雨天或云層較厚時(shí)不進(jìn)行測(cè)試。冠層光譜測(cè)量時(shí),保持儀器探頭向下垂直視場(chǎng)角為25°,并保證視場(chǎng)角寬度為目標(biāo)植物和前視場(chǎng)角鏡頭之間直徑距離的一半,對(duì)每個(gè)目標(biāo)植物進(jìn)行10次光譜采集確保數(shù)據(jù)的充分。
表1 植物名錄Table 1 Plant list
研究表明[21-23],在400~790 nm可見光波段范圍,不同植被的綠度對(duì)光譜特征影響極大,在760 nm附近反射率急劇上升,形成植物特有的紅邊現(xiàn)象,光譜區(qū)別明顯,因此選取480~760 nm范圍內(nèi)對(duì)植物自身綠度特征敏感的光譜指數(shù)GI,CI,RGI,MCARI,TCARI,CIred edge和CRI;此外,光譜測(cè)定過(guò)程中易受外界環(huán)境,如大氣溶膠、土壤背景、植被冠層等因素干擾,導(dǎo)致結(jié)果出現(xiàn)誤差,而EVI,RVI,VARI以及SAVI可以有效矯正大氣溶膠影響,消除部分輻射誤差;NDVI670,NDVI750,mNDVI705和MSR705對(duì)植被的冠層結(jié)構(gòu)非常敏感,PSRI可用于植被健康的監(jiān)測(cè)與檢測(cè)?;诖?,共選取出了16種與植物生長(zhǎng)狀態(tài)和特征的植被指數(shù)(表2),探究它們對(duì)本研究36種植物的分類潛力。
表2 植被指數(shù)Table 2 Vegetation index
支持向量機(jī)[24](SVM)主要是通過(guò)找到最大間隔的劃分超平面,使得不同類別之間的間隔最大化,在處理小樣本、非線性及高維數(shù)據(jù)等問(wèn)題中具有一定的優(yōu)勢(shì)。其中g(shù)amma主要是對(duì)低維的樣本進(jìn)行高度映射,gamma值越大映射的維度越高,訓(xùn)練的結(jié)果越好,但是越容易引起過(guò)擬合;cost值是懲罰系數(shù),表征的是模型對(duì)誤差的容忍度,值越大表示模型對(duì)誤差越寬容。
隨機(jī)森林算法[25](RF)是以K個(gè)決策樹為基本分類器,進(jìn)行集成學(xué)習(xí)后得到的一個(gè)組合分類器。當(dāng)輸入待分類樣本時(shí),隨機(jī)森林輸出的分類結(jié)果由每個(gè)決策樹的分類結(jié)果簡(jiǎn)單投票決定。其中ntree指定隨機(jī)森林所包含的決策樹數(shù)目,表示隨機(jī)森林的總體規(guī)模;mtry指定節(jié)點(diǎn)中用于二叉樹的變量個(gè)數(shù),一般分類模型為數(shù)據(jù)集變量個(gè)數(shù)的二次方根。
K鄰近算法[26](KNN)是通過(guò)計(jì)算訓(xùn)練集中的每個(gè)樣本與測(cè)試集樣本的距離,通過(guò)對(duì)距離的排序,取距離最近的k個(gè)點(diǎn),這k個(gè)樣本中具有最多的那個(gè)類別就是測(cè)試集樣本的類別。KNN算法中k值的設(shè)定影響著模型的分類精確度,k值選擇過(guò)大或過(guò)小,都會(huì)降低分類準(zhǔn)確度,同時(shí)也會(huì)造成噪聲增加,因此k值在選擇時(shí)一般遵從低于訓(xùn)練樣本數(shù)的平方根的原則。
運(yùn)用View Spec Pro數(shù)據(jù)處理軟件進(jìn)行初期數(shù)據(jù)預(yù)處理及數(shù)據(jù)格式轉(zhuǎn)化,再將數(shù)據(jù)導(dǎo)入到Microsoft Office Excel 2019 中進(jìn)行保存。對(duì)不同植物的相同波段原始光譜取樣計(jì)算,利用SPSS 19.0方差分析采用最小顯著差數(shù)法(LSD)和顯著性進(jìn)行檢驗(yàn)。
36種植物冠層反射光譜(圖1)比較表明,各個(gè)植物光譜反射均符合綠色植物特征,但不同植物相同波段間存在差異。在可見光波段350至550 nm范圍內(nèi),植物均出現(xiàn)了第一個(gè)明顯吸收峰,光譜反射率最小的是鵝觀草,最大是火絨草。藍(lán)紫光350至450 nm波段,相比其他綠色植物,川青黃芪、密花翠雀與甘肅馬先蒿出現(xiàn)了小的反射峰,其中川青黃芪反射率最大且在440 nm處達(dá)到最高值;綠色波段450至560 nm范圍,除川青黃芪差異性較大(P<0.05)且在560 nm出現(xiàn)“綠谷”現(xiàn)象,其余植物均出現(xiàn)不同程度的“綠峰”現(xiàn)象,此時(shí)火絨草反射率最大,高山韭反射率最小。
圖1 不同植物的原始光譜反射率Fig.1 Original spectral reflectance of different plants
在680 nm附近,反射率迅速上升,形成了植物特有的“紅邊”現(xiàn)象,除乳白香青、火絨草和密花翠雀紅邊斜率較低外,其余植物均無(wú)明顯差異,但甘肅馬先蒿在紅光波段末端出現(xiàn)了小的吸收峰。
在760 nm至1 100 nm近紅外波段,36種高寒草地植物的反射率在1 070 nm處達(dá)到最大值,且該波段內(nèi)不同植物有差異,其中反射率最大為火絨草,最小為短穗兔耳草。在1 450 nm水分敏感波段,火絨草的反射率最大為0.399 8,短穗兔耳草的反射率最小為0.116 0。
2.2.1支持向量機(jī)SVM 表3為SVM的gamma與cost不同參數(shù)設(shè)置錯(cuò)誤率。
根據(jù)表3可以看出,當(dāng)gamma取1e-01、cost取10時(shí)誤差最小,因此作為SVM分類的模型參數(shù)。此時(shí),SVM的準(zhǔn)確度為0.93,kappa系數(shù)為0.93(表4),從而說(shuō)明SVM模型較好,能夠較好的區(qū)分36種植物。
表3 “Gamma”與“cost”設(shè)置Table 3 “Gamma” and “cost” parameter settings
表4 SVM分類模型參數(shù)表Table 4 SVM classification model parameter table
由SVM模型混淆矩陣氣泡圖(圖2)可知,SVM分類方法識(shí)別36種植物時(shí),在SVM預(yù)測(cè)集混淆矩陣中,除無(wú)法區(qū)分雪白委陵菜與羽葉點(diǎn)地梅(誤差率為100%)外,其余植物均被很好的區(qū)分,未出現(xiàn)誤差。
圖2 SVM模型混淆矩陣氣泡圖Fig.2 SVM model obfuscation matrix diagram注:圖中對(duì)角線以外的氣泡代表誤判,氣泡大小代表判斷數(shù)量,樣本數(shù)量越大氣泡越大Note:In the figure,Bubbles outside the diagonal line represent misjudgments,and bubble size represents the number of judgments. The larger the sample size,the larger the bubbles
2.2.2隨機(jī)森林算法RF 由RF不同決策樹數(shù)量植物分類誤差圖(圖3)可知當(dāng)ntree=50 時(shí)模型內(nèi)草種誤差基本穩(wěn)定,即ntree取值50。
圖3 隨機(jī)森林n_tree誤差圖Fig.3 Random forest n_tree error graph注:圖形橫坐標(biāo)為決策樹選擇數(shù)量,縱坐標(biāo)為不同植物分類的誤差值Note:The abscissa of the graph is the selection number of the decision tree,and the ordinate is the error value of the classification of different grass species
圖4表明,RF分類模型準(zhǔn)確度為99.4%,袋外誤差為2.86%,說(shuō)明用RF模型來(lái)識(shí)別這36種植物效果較好。在預(yù)測(cè)集中單子麻黃、短穗兔耳草誤差較大(誤差率均為20%),高山風(fēng)毛菊較小(誤差率為5%),其余33植物誤差率均為0。
由圖5A可知,RGI為RF識(shí)別模型平均下降準(zhǔn)確度(Mean decrease accuracy)最大變量,由圖5B可知SAVI為平均下降基尼系數(shù)(Mean decrease gini)中數(shù)值最小的變量。
由表5可知,當(dāng)K=2時(shí)KNN模型準(zhǔn)確度達(dá)到高值(88.0%),kappa系數(shù)為0.87。且可知此時(shí)是設(shè)置K值中的拐點(diǎn),隨著K值的增加模型準(zhǔn)確度不再上升,因此設(shè)K=2作為KNN分類模型的參數(shù)。
圖4 隨機(jī)森林模型混淆矩陣圖Fig.4 Random forest model obfuscation matrix diagram
圖5 隨機(jī)森林分類模型變量重要性圖Fig.5 Random forest classification model variable importance map注:A為精確度系數(shù)圖,圖中變量值越大說(shuō)明變量的重要性越強(qiáng),B為基尼系數(shù)圖,圖中系數(shù)越低,分類切割越好Note:A is the accuracy coefficient map, the larger the value of the variable in the figure,the stronger the importance of the variable. B is the Gini coefficient map. The higher the coefficient in the figure,the better the classification and cutting
表5 K值設(shè)置Table 5 K parameter settings
圖6可知KNN分類結(jié)果中,披針葉黃華誤判為高山風(fēng)毛菊(40%)、多刺綠絨蒿誤判為阿爾泰葶藶(66.7%)、火絨草誤判為高山風(fēng)毛菊(100%),其余植物分類未出現(xiàn)誤差。
本研究表明,36種植物的原始光譜均符合綠色植物特征,但不同植物在相同波段間具有差異性。如在藍(lán)紫波段,由于密花翠雀、川青黃芪與甘肅馬先蒿在光譜采集時(shí)均已開花,花色分別為淡紫色、淡灰藍(lán)色和紫紅色,因此它們的藍(lán)紫光反射率較高;在綠光波段,火絨草與乳白香青出現(xiàn)反射峰主要原因是葉片上的白色絨毛產(chǎn)生了漫反射;在紅光波段的末端,只有花呈暗紫紅色的甘肅馬先蒿反射率出現(xiàn)小幅降低。由此可見,植物的形態(tài)特征不同,光譜差異主要集中在可見光波段。
圖6 KNN混淆矩陣氣泡圖Fig.6 K-nearest neighbor model obfuscation matrix diagram
分類模型結(jié)果表明,雖然3種模型分類精度較高,依次為RF(99.4%)>SVM(93.2%)>KNN(88.0%),模型的精確度都大于85%,均可適用于該研究區(qū)域[3],但都出現(xiàn)了特殊的誤判情況。如雪白委陵菜與羽葉點(diǎn)地梅由于葉片形狀相似且葉柄均有白色絨毛,16種植被指數(shù)數(shù)值相近,導(dǎo)致SVM模型無(wú)法區(qū)別;而單子麻黃與短穗兔耳草的植被指數(shù)除NDVI670外均相同,RF對(duì)該2種植物的識(shí)別效果較差。由此可知,SVM與RF分類模型算法對(duì)特征相似度較高的植物分類效果較差。另外,KNN誤判火絨草為高山風(fēng)毛菊,這就暴露了KNN本身的算法缺點(diǎn),即樣本數(shù)量不平衡時(shí),會(huì)將樣本數(shù)較少的植物(火絨草樣本數(shù)僅為5)優(yōu)先識(shí)別為樣本數(shù)較多的植物(高山風(fēng)毛菊樣本數(shù)為15)。因此,在利用KNN模型時(shí)可控制樣本數(shù)量的平衡避免該問(wèn)題的出現(xiàn)。
雖然模型的精度并不能簡(jiǎn)單的說(shuō)明分類算法本身的優(yōu)劣[25],但對(duì)三江源區(qū)高寒草地植物而言,RF不僅模型精度高,且額外具有能對(duì)所構(gòu)建模型參數(shù)進(jìn)行重要性分析的功能。RF參數(shù)評(píng)估結(jié)果表明,RGI紅綠比值指數(shù)與SAVI土壤調(diào)節(jié)指數(shù)是提高RF分類識(shí)別模型精度的重要參數(shù)。這是由于植物的不同花色和葉片被白色絨毛等獨(dú)特的現(xiàn)象導(dǎo)致不同植物在相同波段間的原始光譜有差異,從而也導(dǎo)致植物間的RGI紅綠比值指數(shù)產(chǎn)生顯著差異(P<0.05),如乳白香青、火絨草(葉片被白色絨毛)和密花翠雀(花色獨(dú)特);另外,因密花翠雀、乳白香青和火絨草分別為極度退化、重度退化和輕度退化的優(yōu)勢(shì)種[28],而草地退化后植被蓋度減少,土壤裸斑面積增加[29],能反映土壤背景的SAVI土壤調(diào)節(jié)指數(shù)對(duì)此較為敏感。
綜上所述,RF相較于SVM和KNN,無(wú)論是模型的適用性還是功能性,均為本研究中的最佳植物分類識(shí)別模型。