摘要:【目的】探討新疆阿拉爾墾區(qū)密植條件下不同模型對棉花株高的預測效果?!痉椒ā恳灾晷筒町愝^大的新陸中81號和塔河2號為試驗材料,在阿拉爾墾區(qū)16 000株·hm-2密植條件下開展大田試驗,用Python語言建立株高生長的邏輯斯諦(logistic)、岡珀茨(Gompertz)、理查德(Richards)方程和決策樹機器學習預測模型,并對模型的預測精度進行分析。【結(jié)果】Logistic、Gompertz和Richards模型中,新陸中81號株高的均方根誤差(root mean square error, RMSE)分別為8.38%、7.49%和7.52%,平均絕對誤差(mean absolute error, MAE)分別為6.80%、5.79%和5.82%;塔河2號株高的RMSE分別為6.09%、4.77%和4.85%,MAE分別為4.52%、3.34%和3.36%。決策樹機器學習方法中,新陸中81號與塔河2號株高的RMSE分別為6.91%和3.27%,MAE分別為5.04%和2.16%。Logistic、Gompertz和Richards生長方程以及決策樹機器學習方法均能較好地預測密植條件下棉花株高的生長,但在預測精度上決策樹機器學習方法總體上優(yōu)于生長方程?!窘Y(jié)論】基于決策樹的機器學習方法不需要用數(shù)理統(tǒng)計知識解釋模型,訓練模型需要的數(shù)據(jù)量也較少,模擬精度更高,在模擬棉花株高方面有一定優(yōu)勢,是對傳統(tǒng)生長方程的有益補充。
Abstract: [Objective] This study aims to explore the prediction effects of different models on cotton plant height under high dense planting conditions in the Aral Reclamation Area, Xinjiang. [Methods]" Xinluzhong 81 and Tahe 2, which are different in plant type, were used as experimental materials for field experiment under the high dense planting condition of 16 000·hm-2 in Aral Reclamation Area. Prediction models for plant height growth were established using logistic, Gompertz, Richards growth equations, and decision tree machine learning methods using Python language. In addition, the prediction accuracy of the models was analyzed. [Results] For the logistic, Gompertz, and Richards models, the root mean square error (RMSE) of Xinluzhong 81 was 8.38%, 7.49%, and 7.52%, respectively, and the mean absolute error(MAE) was 6.80%, 5.79%, and 5.82%, respectively; the RMSE of Tahe 2 was 6.09%, 4.77%, and 4.85%, while the MAE was 4.52%, 3.34%, and 3.36%, respectively. The RMSE of Xinluzhong 81 and Tahe 2 by using decision tree machine learning method were 6.91% and 3.27%, respectively, and the MAE were 5.04% and 2.16%, respectively. The results indicated that logistic, Gompertz, and Richards growth equations and decision tree machine learning methods can effectively reflect the growth of cotton plant height under high dense planting condition. However, in terms of prediction accuracy, decision tree machine learning methods was generally superior to the three growth equations. [Conclusion] The machine learning method based on decision tree does not require mathematical and statistical knowledge to explain the model, training the model requires less data, and can achieve higher simulation accuracy. It has certain advantages in simulating cotton plant height, and is a beneficial supplement to the traditional growth equations.
Keywords: cotton; plant height; growth equation; decision tree; machine learning
新疆阿拉爾墾區(qū)位于塔克拉瑪干沙漠北緣,阿克蘇河、和田河、葉爾羌河三河交匯之處的塔里木河上游,面積6 180 km2,日平均氣溫≥10℃年有效積溫4 000 ℃以上,無霜期220 d,4-10月日平均日照時間9.5 h,年日照時間超過2 900 h[1]。得天獨厚的自然條件使阿拉爾墾區(qū)成為新疆南疆地區(qū)重要的棉花生產(chǎn)基地。
1 材料與方法
1.1 供試材料
新陸中81號早期長勢一般,但后期生長強勁,生育期137 d,株型較松散,株高70.3 cm左右[27]。塔河2號全生育期生長穩(wěn)健,整齊度好,生育期136 d,植株呈塔形,株高75 cm左右[28]。新陸中81號和塔河2號是阿拉爾墾區(qū)當前主要的種植品種,且長勢差異較大,因此以這2個品種為供試材料。
1.2 試驗設計
試驗地位于塔里木大學東區(qū)試驗田(81°31′E,40°54′N)。土壤以砂壤土為主,透氣性較好,平均容重1.58 g·cm-3,田間持水量約為23.8%,土壤電導率為1 953 μs·cm-1。
每個品種種植2個小區(qū),每個小區(qū)的面積為450 m2(30 m×15 m),2個小區(qū)分別在2022年4月21日和5月1日播種。采用膜下滴灌技術,滴灌帶布置方式為1膜2帶6行。采用(60+10)cm 行距,株距為10 cm,播種深度3~4 cm,以密植機播方式播種,種植密度為16 000株·hm-2。氣象數(shù)據(jù)來自田間氣象站,主要包括2022年棉花生育期內(nèi)(4-10月)逐日最高氣溫和最低氣溫。通過氣象數(shù)據(jù)、土壤狀況和棉花生長狀況計算所需灌水量,按照4 200 m3·hm-2的灌溉定額,生育期內(nèi)共滴水14次。滴灌施入氮磷鉀肥,肥料用量按照當?shù)爻R?guī)棉田,N、P2O5、K2O用量分別為250 kg·hm-2、100 kg·hm-2、50 kg·hm-2。在播種后第83天,累計有效積溫(growing degree-days, GDD)為956.5 ℃時進行人工打頂。
1.3 研究方法
1.3.1 株高測定。棉花出苗后4 d,每小區(qū)選取具有代表性的5株棉花掛牌標記,每隔5 d測量其株高,取5株平均值,直至棉花主莖打頂。棉花苗期(2葉期至5葉期)株高為地平線至生長點的高度,5葉期過后株高為子葉節(jié)至生長點的高度。
1.3.2 數(shù)據(jù)歸一化處理。根據(jù)逐日最高氣溫和最低氣溫計算GDD,如公式(1)。
將新陸中81號和塔河2號生長過程中的株高與GDD做皮爾遜(Pearson)相關分析,得到相關系數(shù)分別為0.952 6(P<0.01)和0.973 6(P<0.01),說明株高和GDD呈極顯著正相關關系。因此以棉花生育期內(nèi)的GDD來度量棉花的株高變化。為精確說明棉花株高的變化特征,將株高和GDD進行歸一化處理,如公式(2)所示。
1.3.3 模型構建。使用Python語言分別采用傳統(tǒng)的Richards、logistic和Gompertz方程以及回歸決策樹機器學習方法構建棉花株高預測模型。其中,基于決策樹機器學習的棉花株高預測模型構建方法如下:
設訓練集為:D={(x1, y1), (x2, y2), …, (xn, yn)},其中,xi為輸入向量x的分量,yi為輸出向量y的分量。以損失函數(shù)J(H)度量預測結(jié)果H,如公式(3)所示。
遍歷所有可能的閾值t對應的J值,取J為最小值時的閾值作為本次二元切分的最終閾值,依據(jù)公式(4)計算左子樹和右子樹的輸出結(jié)果作為預測值。然后將被劃分后的左子樹和右子樹遞歸上述步驟,直到不能繼續(xù)劃分為止。依據(jù)上述思路在Windows 10操作系統(tǒng)平臺上使用Python 3.7.4構建該決策樹,同時導入針對多維數(shù)組的科學計算模塊numpy并命名為np,主要代碼如附表1所示。
1.3.4 模型精度檢驗。采用均方根誤差(root mean square error, RMSE)和平均絕對誤差(mean absolute error, MAE)衡量模擬值與實測值的差異,如公式(6)和(7)所示。
2 結(jié)果與分析
2.1 基于傳統(tǒng)生長方程的株高預測模型
單因素方差分析結(jié)果表明,新陸中81號2個小區(qū)的株高無顯著差異(P=0.883 0),塔河2號2個小區(qū)的株高也無顯著差異(P=0.839 3)。因此用第2個小區(qū)的實測株高檢驗logistic、Gompertz和Richards這3種模型的預測效果。歸一化的新陸中81號和塔河2號的株高實測值與預測值如圖1所示。
2.2 基于決策樹的株高預測模型
3 討論
4 結(jié)論
附表1 決策樹模型的主要代碼
Table S1 The main code of the decision tree model
