申洋洋,陳志超,胡 昊,盛 莉,周洪奎,婁衛(wèi)東,沈阿林
(1.河南理工大學(xué)測(cè)繪與國土信息工程學(xué)院,河南焦作 454000;2.浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021;3.浙江省農(nóng)業(yè)科學(xué)院環(huán)境資源與土壤肥料研究所,浙江杭州 310021)
冬小麥為我國的主要糧食作物之一[1],其播種面積占我國糧食播種面積的1/5[2],因而冬小麥?zhǔn)寝r(nóng)作物研究的主要對(duì)象[3]。作物的產(chǎn)量關(guān)乎人民的生活水平和國家的糧食安全,收獲前及時(shí)、準(zhǔn)確地監(jiān)測(cè)預(yù)報(bào)作物產(chǎn)量對(duì)于后期田間作物管理、糧食安全、災(zāi)害評(píng)估等具有重要意義[4-6]。實(shí)地統(tǒng)計(jì)調(diào)查是傳統(tǒng)預(yù)測(cè)農(nóng)作物產(chǎn)量的主要方法[7-8],不僅工作量大、效率低,且對(duì)作物破壞性大,難以滿足大范圍作物產(chǎn)量預(yù)測(cè)的需求[9]。遙感技術(shù)以其覆蓋面積大、受地面條件限制少、非破壞性、信息量豐富等優(yōu)點(diǎn),在農(nóng)作物監(jiān)測(cè)方面得到廣泛應(yīng)用[10]。目前,遙感估產(chǎn)的方法主要是基于經(jīng)驗(yàn)?zāi)P?、物理模型和半?jīng)驗(yàn)?zāi)P蚚11-14]。與衛(wèi)星和地面遙感相比,無人機(jī)遙感可以獲得更高空間分辨率、時(shí)間分辨率和光譜分辨率的影像[15-17],在農(nóng)作物監(jiān)測(cè)方面得到迅速發(fā)展,已成為農(nóng)業(yè)遙感數(shù)據(jù)獲取的重要途徑[18]。
近年來,國內(nèi)外學(xué)者利用遙感技術(shù)對(duì)多種農(nóng)作物產(chǎn)量估測(cè)開展了研究[19-23]。隨著研究的不斷深入,越來越多的統(tǒng)計(jì)分析方法和機(jī)器學(xué)習(xí)算法被用于估測(cè)作物產(chǎn)量[24-27]。王愷寧等[28]選取灌漿期的衛(wèi)星遙感數(shù)據(jù)計(jì)算4種植被指數(shù),并建立植被指數(shù)與小麥產(chǎn)量的線性及非線性回歸模型,其中非線性回歸模型精度較高,以非線性支持向量機(jī)(SVM)模型精度最好(R2=0.79)。陶惠林等[29]采集冬小麥拔節(jié)期、挑旗期、開花期無人機(jī)高光譜影像,用三種方法回歸建模,其中用偏最小二乘法(PLSR)建立的回歸模型估產(chǎn)最準(zhǔn)確(R2=0.77)。Han等[30]結(jié)合無人機(jī)影像和四種機(jī)器學(xué)習(xí)算法(多元線性回歸、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林)估測(cè)玉米生物量,其隨機(jī)森林算法模型具有較高的精度和較低的誤差(R2=0.94,RMSE=0.50)。劉昌華等[31]以無人機(jī)多光譜影像為基礎(chǔ),提取冬小麥返青期、拔節(jié)期、孕穗期、揚(yáng)花期冠層多光譜數(shù)據(jù)并建立產(chǎn)量估算模型,其中返青期估算效果較差,拔節(jié)期、孕穗期、揚(yáng)花期估算效果相近且較好(R2分別為 0.93、0.96、0.94)。趙鑫[32]基于小麥揚(yáng)花期、灌漿期、成熟期冠層影像提取15種植被指數(shù)和3種顏色特征,使用6種機(jī)器學(xué)習(xí)算法建立產(chǎn)量估測(cè)模型,其中隨機(jī)森林算法模型精度最高(R2=0.74),灌漿期產(chǎn)量反演模型精度最高。Fu等[33]使用多旋翼無人機(jī)采集江蘇省三個(gè)地區(qū)的影像數(shù)據(jù),使用5種線性和非線性方法構(gòu)建小麥產(chǎn)量估算模型,其中在拔節(jié)期、抽穗期、開花期和灌漿期,用歸一化植被指數(shù)(NDVI)構(gòu)建的隨機(jī)森林算法模型表現(xiàn)最佳(R2為0.78,RMSE為0.10)。由以上研究結(jié)果可知,不同研究得出的小麥最優(yōu)估產(chǎn)模型不同,因而利用無人機(jī)光譜影像進(jìn)行小麥估產(chǎn)研究需要進(jìn)一步的深入。本研究以冬小麥拔節(jié)期、孕穗期、抽穗期、灌漿期、成熟期的無人機(jī)多光譜影像為數(shù)據(jù)源,并基于植被指數(shù)采用統(tǒng)計(jì)分析方法(逐步多元線性回歸、偏最小二乘回歸)和機(jī)器學(xué)習(xí)算法(BP神經(jīng)網(wǎng)絡(luò)算法、隨機(jī)森林算法、支持向量機(jī)算法)對(duì)不同時(shí)期的產(chǎn)量估算模型進(jìn)行構(gòu)建和效果評(píng)價(jià),以確定最優(yōu)模型,以期為冬小麥高效、快速的產(chǎn)量估算提供技術(shù)和方法。
試驗(yàn)地點(diǎn)位于浙江省寧波市寧??h茶院鄉(xiāng)(29°18′N,121°34′E),屬于亞熱帶季風(fēng)性濕潤氣候,地勢(shì)西北高東南低。全年的平均氣溫約 16 ℃,年平均降雨量1 000~1 600 mm,年日照約1 900 h,平均相對(duì)濕度78%,氣候溫暖濕潤,四季分明。
供試小麥品種為金運(yùn)麥1號(hào)和揚(yáng)麥20。試驗(yàn)設(shè)置0 kg·hm-2、90 kg·hm-2、180 kg·hm-2、270 kg·hm-24個(gè)施氮水平。各處理隨機(jī)區(qū)組排列,共48個(gè)小區(qū),每個(gè)小區(qū)面積40 m2。氮肥為尿素,磷肥為過磷酸鈣,鉀肥為氯化鉀。其中,氮肥分兩次施用,基施40%,拔節(jié)期追施60%。磷肥和鉀肥作為基肥一次性施用,磷肥和鉀肥施用量分別為75 kg P2O5·hm-2和120 kg K2O·hm-2。
本研究采用深圳市大疆創(chuàng)新科技有限公司的四旋翼精靈4無人機(jī)為數(shù)據(jù)采集平臺(tái),該無人機(jī)搭載多光譜成像系統(tǒng),主要參數(shù)見表1。多光譜相機(jī)有6個(gè)影像傳感器,其中1個(gè)彩色傳感器用于可見光(RGB)成像,5個(gè)單色傳感器用于包含藍(lán)(B 450±16 nm)、綠(G 560±16 nm)、紅(R 650±16 nm)、紅邊(RE 730±16 nm)和近紅外(NIR 840±26 nm)波段的多光譜成像。試驗(yàn)安排在2020年冬小麥生長(zhǎng)季,在拔節(jié)期(2020年3月16日)、孕穗期(2020年3月26日)、抽穗期(2020年4月2日)、灌漿期(2020年4月24日)和成熟期(2020年5月12日)通過無人機(jī)飛行獲取田間多光譜遙感數(shù)據(jù)。數(shù)據(jù)采集當(dāng)日天空晴朗無云、太陽光照穩(wěn)定。試驗(yàn)設(shè)置無人機(jī)航線6條,相對(duì)航高30 m,航向重疊率80%,旁向重疊率70%,地面分辨率為1.5 cm,作業(yè)過程中可同步獲取研究區(qū)RGB和多光譜影像。
表1 無人機(jī)和多光譜傳感器的主要參數(shù)Table 1 Key parameters for UAV and multi-spectral sensors
將獲取的多光譜影像檢查無誤后進(jìn)行處理。使用大疆智圖(DJI Terra)進(jìn)行建圖航拍,將采集的照片數(shù)據(jù)導(dǎo)入DJI Terra,選擇農(nóng)田場(chǎng)景進(jìn)行二維重建,得到基于單個(gè)波段的正射影像。將拼接完成的單個(gè)波段影像導(dǎo)入ENVI 5.3,進(jìn)行波段合并,得到5個(gè)生育時(shí)期的多光譜影像。灌漿期的多光譜影像如圖1所示。基于Python 3.6 提取每個(gè)小區(qū)1 m×1 m樣方的平均光譜值并計(jì)算72個(gè)植被指數(shù)。
圖1 無人機(jī)多光譜影像圖Fig.1 UAV multi-spectral image
小麥成熟期選取每個(gè)小區(qū)均勻且有代表性的1 m2區(qū)域進(jìn)行采樣,樣品帶回實(shí)驗(yàn)室脫粒,籽粒曬至恒定重量后測(cè)定水分含量并稱重,獲得各個(gè)小區(qū)冬小麥產(chǎn)量。
依據(jù)多光譜相機(jī)五個(gè)特征波段數(shù)據(jù)計(jì)算利用72個(gè)植被指數(shù)值(計(jì)算方法等信息主要來源于文獻(xiàn)[34]),分別基于逐步多元線性回歸(stepwise multiple linear regression,SMLR)、偏最小二乘回歸(partial least squares regression,PLSR)、BP神經(jīng)網(wǎng)絡(luò)(back-propagation neural network,BPNN)、隨機(jī)森林(random forest,RF)和支持向量機(jī)(support vector machine,SVM)五種方法建立小麥估產(chǎn)模型[35-38]。首先,對(duì)72個(gè)植被指數(shù)與冬小麥產(chǎn)量間及這些植被指數(shù)之間分別進(jìn)行Pearson相關(guān)分析和偏相關(guān)分析,然后根據(jù)植被指數(shù)與產(chǎn)量間以及植被指數(shù)間的相關(guān)性,對(duì)植被指數(shù)進(jìn)行排序。將排序的72個(gè)植被指數(shù)作為輸入因子依次減少植被指數(shù)的個(gè)數(shù)進(jìn)行向后逐步回歸分析,最后建立產(chǎn)量多元線性回歸估測(cè)模型。偏最小回歸二乘模型構(gòu)建時(shí)使用的是逐步多元線性回歸篩選出來的植被指數(shù)?;跈C(jī)器學(xué)習(xí)算法建立模型前,從72個(gè)植被指數(shù)中剔除與產(chǎn)量相關(guān)性較低(未達(dá)0.05顯著水平)、與其他植被指數(shù)間相關(guān)性較高的植被指數(shù),將剩余的植被指數(shù)作為機(jī)器學(xué)習(xí)算法輸入因子(20個(gè)左右),建立產(chǎn)量估測(cè)模型。
相關(guān)性分析使用軟件IBM SPSS Statistics 21,統(tǒng)計(jì)分析使用The Unscrambler X和SPSS,機(jī)器學(xué)習(xí)算法在Matlab環(huán)境中實(shí)現(xiàn)。隨機(jī)選擇五個(gè)生育時(shí)期的67%數(shù)據(jù)作為建模集,剩余數(shù)據(jù)作為驗(yàn)證集。采用交叉驗(yàn)證方法建立實(shí)測(cè)產(chǎn)量與預(yù)測(cè)產(chǎn)量之間的關(guān)系,依據(jù)決定系數(shù)(R2)、均方根誤差(RMSE)和相對(duì)誤差(RE)對(duì)估算模型的預(yù)測(cè)能力進(jìn)行評(píng)價(jià)。
(1)
(2)
(3)
從建模效果(表2和表3)看,從拔節(jié)期到灌漿期,SMLR和PLSR模型的擬合精度均較高,以抽穗期最佳,R2、RMSE、RE分別為0.86、0.46 kg·hm-2、11%和0.86、0.49 kg·hm-2、13%;成熟期的擬合精度較差。經(jīng)獨(dú)立數(shù)據(jù)驗(yàn)證,兩類模型的預(yù)測(cè)精度在不同時(shí)期也均表現(xiàn)不同(圖2和表3)。拔節(jié)期和成熟期的預(yù)測(cè)精度均較差,其他時(shí)期的預(yù)測(cè)精度均較高,均以灌漿期表現(xiàn)最優(yōu),R2、RMSE和RE分別為0.85、0.91 kg·hm-2、23%和0.83、0.97 kg·hm-2、19%。
表3 基于偏最小二乘回歸的冬小麥不同生育時(shí)期產(chǎn)量模型與模型驗(yàn)證Table 3 Models and model validation of yield estimation at different wheat growth stages based on partial least squares regression
圖2 基于逐步多元線性回歸的冬小麥實(shí)測(cè)值與預(yù)測(cè)值的關(guān)系Fig.2 Relationship between measured and predicted winter wheat values based on stepwise multiple linear regression
表2 不同生育時(shí)期植被指數(shù)與小麥產(chǎn)量的逐步多元線性回歸模型Table 2 Stepwise multiple linear regression model of vegetation indices and wheat yield at different growth stages
基于BP神經(jīng)網(wǎng)絡(luò)算法、RF算法、SVM算法三種機(jī)器學(xué)習(xí)算法建立的模型對(duì)于不同生育時(shí)期反演精度表現(xiàn)為RF算法>BP神經(jīng)網(wǎng)絡(luò)算法>SVM算法(表4)。經(jīng)驗(yàn)證,不同算法模型的預(yù)測(cè)精度在不同時(shí)期表現(xiàn)不盡相同(表5)。孕穗期、抽穗期、灌漿期和成熟期,RF算法預(yù)測(cè)精度最高,BP神經(jīng)網(wǎng)絡(luò)算法次之,SVM算法預(yù)測(cè)精度最低。拔節(jié)期RF算法預(yù)測(cè)精度最高,BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)精度最低。三種算法建立的模型成熟期預(yù)測(cè)精度最差,拔節(jié)期略高(R2>0.63),孕穗期、抽穗期和灌漿期預(yù)測(cè)效果接近,且有較好的預(yù)測(cè)能力。基于BP神經(jīng)網(wǎng)絡(luò)算法的模型預(yù)測(cè)精度在孕穗期表現(xiàn)最優(yōu)(R2、RMSE和RE分別為0.84、0.68 kg·hm-2、28%),基于RF算法和SVM算法的模型預(yù)測(cè)精度在抽穗期表現(xiàn)最優(yōu),R2、RMSE和RE分別為0.91、 0.35 kg·hm-2、15%;0.79、0.59 kg·hm-2、 15%。
表4 基于機(jī)器學(xué)習(xí)算法的冬小麥不同生育時(shí)期產(chǎn)量回歸模型Table 4 Regression model of yield at different wheat growth stages based on machine learning algorithm
表5 基于機(jī)器學(xué)習(xí)算法的冬小麥不同生育時(shí)期產(chǎn)量模型驗(yàn)證Table 5 Verification of yield at different wheat growth stages based on machine learning algorithm
對(duì)比兩種統(tǒng)計(jì)分析方法和三種機(jī)器學(xué)習(xí)算法,綜合考慮建模精度和驗(yàn)證精度以及模型的均方根誤差和相對(duì)誤差,五種方法中用RF算法建立的模型精度最高,驗(yàn)證效果總體最優(yōu)。從RF模型的預(yù)測(cè)值與實(shí)測(cè)值的關(guān)系(圖3)看,抽穗期估算效果最好,拔節(jié)期、孕穗期和灌漿期估算效果接近,成熟期的估算效果相對(duì)較差。
圖3 基于隨機(jī)森林算法的冬小麥產(chǎn)量實(shí)測(cè)值與預(yù)測(cè)值的關(guān)系Fig.3 Relationship between measured and predicted winter wheat yield based on random forest algorithm
無人機(jī)作為遙感數(shù)據(jù)獲取的新平臺(tái),具有更高的分辨率,在監(jiān)測(cè)作物長(zhǎng)勢(shì)、產(chǎn)量預(yù)測(cè)等精準(zhǔn)農(nóng)業(yè)研究中發(fā)揮了重要作用。無人機(jī)多光譜數(shù)據(jù)一般含有紅、綠、紅邊和近紅外等遙感所需的重要波段,而且影像處理相對(duì)簡(jiǎn)單,在農(nóng)業(yè)遙感的應(yīng)用上占據(jù)一定的優(yōu)勢(shì)。除了數(shù)據(jù)源,建模算法的選擇對(duì)農(nóng)作物參數(shù)的估測(cè)精度也有一定的影響,定量評(píng)價(jià)不同算法建立的預(yù)測(cè)模型精度以及選出最優(yōu)的建模方法對(duì)農(nóng)業(yè)遙感監(jiān)測(cè)具有重要意義。本研究利用無人機(jī)多光譜數(shù)據(jù)結(jié)合統(tǒng)計(jì)回歸和機(jī)器學(xué)習(xí)算法估算冬小麥產(chǎn)量。
對(duì)不同生育時(shí)期的植被指數(shù)進(jìn)行相關(guān)性分析后,采用兩種統(tǒng)計(jì)分析方法建立植被指數(shù)與產(chǎn)量的回歸模型。本研究通過向后逐步多元線性回歸,以72個(gè)植被指數(shù)為變量,每建立一個(gè)模型就刪除一個(gè)對(duì)模型沒有貢獻(xiàn)的變量,直至篩選出最優(yōu)參數(shù)建立模型,該方法保留了對(duì)模型有顯著貢獻(xiàn)的變量,降低了模型的復(fù)雜性。偏最小二乘回歸分析的數(shù)學(xué)基礎(chǔ)是主成分分析,是一種集典型相關(guān)分析、多元線性回歸分析和主成分分析于一體的方法。該方法能最大限度地利用所有有效數(shù)據(jù)構(gòu)建回歸模型,且計(jì)算量小。兩種統(tǒng)計(jì)分析方法的優(yōu)勢(shì)是在自變量存在多重相關(guān)性等問題時(shí)能建立有效回歸模型,且建立的產(chǎn)量估算模型擬合效果較好,預(yù)測(cè)效果不相上下。但因其只能建立數(shù)據(jù)之間的線性關(guān)系,估算精度不高。因此,本研究選擇對(duì)非線性類型問題有較好解釋能力的機(jī)器學(xué)習(xí)算法進(jìn)一步研究。
在BP神經(jīng)網(wǎng)絡(luò)、RF、SVM三種機(jī)器學(xué)習(xí)算法中,BP神經(jīng)網(wǎng)絡(luò)有非線性映射能力強(qiáng)、自學(xué)習(xí)和自適應(yīng)能力強(qiáng)等特點(diǎn),是處理復(fù)雜非線性問題的有效手段;SVM算法具有完備的統(tǒng)計(jì)學(xué)理論基礎(chǔ),基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,在解決小樣本、非線性及高維模式識(shí)別等問題中有獨(dú)特的優(yōu)勢(shì);RF算法是一種結(jié)合大量回歸樹的嵌入學(xué)習(xí)算法,具有快速運(yùn)算、較強(qiáng)的抗噪聲和不易出現(xiàn)過擬合等優(yōu)點(diǎn)。本研究中,用BP神經(jīng)網(wǎng)絡(luò)、RF算法建立的模型估算效果優(yōu)于統(tǒng)計(jì)回歸模型,用SVM算法建立的模型估算效果與統(tǒng)計(jì)回歸建立的模型估算效果接近。而在模型驗(yàn)證時(shí),只有RF模型的估算能力始終優(yōu)于SMLR、PLSR和SVM模型。造成這種結(jié)果的原因可能是用機(jī)器學(xué)習(xí)算法建模時(shí)會(huì)出現(xiàn)過擬合現(xiàn)象,而RF算法的魯棒性和泛化能力強(qiáng)于BP神經(jīng)網(wǎng)絡(luò)[34]。用RF算法建立的產(chǎn)量估算模型效果最優(yōu),與Han等[30]和Fu等[33]的研究結(jié)果一致。用RF算法建立的估算模型中,抽穗期估產(chǎn)效果最好,成熟期估產(chǎn)效果最差,這與劉昌華等[31]得出的無法確定估產(chǎn)關(guān)鍵生育時(shí)期的結(jié)論不一致,與朱婉雪等[39]研究結(jié)果一致。雖然應(yīng)用機(jī)器學(xué)習(xí)算法可更好地利用遙感數(shù)據(jù)估算作物產(chǎn)量,但需要進(jìn)行更多的研究進(jìn)行以便將遙感數(shù)據(jù)和其他相關(guān)的土壤、天氣和管理信息結(jié)合起來,用于精確估算作物產(chǎn)量。