基于決策樹算法的氣象因子對油茶產(chǎn)量影響研究

2020-12-16 08:36:10廖玉芳蔣元華彭嘉棟

湖北農(nóng)業(yè)科學 2020年21期

黃超，廖玉芳，蔣元華，彭嘉棟

（1.湖南省氣候中心，長沙 410008；2.湖南省氣象科學研究所，長沙 410008；3.氣象防災減災湖南省重點實驗室，長沙 410008）

油茶（Camellia oleiferaAbel.）是中國特有的木本食用油料樹種。在中國，油茶、大豆、油菜和花生是主要的油料生產(chǎn)源，具有重要的經(jīng)濟效益。湖南省油茶種植面積位居全國第一，油茶是湖南省的重要經(jīng)濟作物之一，同時也是農(nóng)村脫貧的重要特色產(chǎn)業(yè)。同所有露天生產(chǎn)的農(nóng)作物一樣，氣象因素對油茶產(chǎn)量影響較大，開展基于氣象因子的油茶產(chǎn)量研究對提升油茶產(chǎn)業(yè)鏈效益極具現(xiàn)實意義。

目前基于氣象因子對作物產(chǎn)量的影響研究，主要采用統(tǒng)計方法［1］，早期的統(tǒng)計方法以線性模型為主，將氣象因子與產(chǎn)量的非線性關系簡化成線性關系進行產(chǎn)量預估，多元線性回歸模型和逐步回歸方法［2，3］被廣泛運用。而氣象因子與產(chǎn)量之間存在著復雜的非線性關系，線性統(tǒng)計方法在處理簡單因子時能夠滿足業(yè)務需求，但在面對大量數(shù)據(jù)的復雜關系時誤差相對較大，因此越來越多的研究開始采用非線性統(tǒng)計方法來提高預測準確率，如聚類分析、神經(jīng)網(wǎng)絡、支持向量機等［4-6］方法都取得了一定的效果。氣象因子對油茶產(chǎn)量影響的研究目前主要采用以多元回歸方法為代表的線性統(tǒng)計方法，近年來主成分分析、神經(jīng)網(wǎng)絡等［7，8］方法也有應用。

一般的統(tǒng)計方法需要研究者憑主觀認識選取氣象因子進行建模，即使使用逐步回歸方法也很難挑選到最優(yōu)的氣象因子對產(chǎn)量進行分析［9，10］，而決策樹算法在一定程度上能解決這種問題。決策樹算法是數(shù)據(jù)挖掘中的一種分類算法，屬于非線性統(tǒng)計方法，能從大量數(shù)據(jù)中識別有用的規(guī)律，具備自動挑選關鍵因子的優(yōu)勢，從而客觀地反映氣象因子與產(chǎn)量的相關關系。因此，本研究采用分類與回歸樹（Classification and regression tree，CART）和卡方自動交叉檢驗（Chi-Square automatic interaction detection，CHAID）兩種決策樹算法分別建立預測模型開展油茶產(chǎn)量預測。

1 數(shù)據(jù)與方法

1.1 資料來源與加工處理

1.1.1 資料來源油茶鮮果產(chǎn)量數(shù)據(jù)來源于湖南省林業(yè)科學院的24個樣地實地測產(chǎn)（表1）。氣象資料來自湖南省97個地面氣象觀測站1961—2010年的觀測資料。

1.1.2 資料處理對于基礎氣象數(shù)據(jù)，將其分為47項氣象指標（表2），并采用1961—2010年的均值和標準差進行標準化處理。對于油茶測產(chǎn)數(shù)據(jù)，因無明顯趨勢變化，所以直接進行標準化處理。

表1 測產(chǎn)點數(shù)據(jù)信息

油茶物候期主要包括春梢萌動期、春梢生長期、花芽分化前期、花芽現(xiàn)形期、夏梢生長期、花芽成熟期、開花期、果實第一次膨大期、果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期共11個時期，此外根據(jù)油茶生育期跨年的特點，將整個生育期和結(jié)果年數(shù)據(jù)單獨進行分析，并綜合所有物候期數(shù)據(jù)，將物候期劃分為13個（表3）。

表2 氣象指標名稱

表3 物候期劃分

1.2 決策樹基本原理

決策樹算法是數(shù)據(jù)挖掘算法中的一種白箱分類方法，擅長處理非線性問題，主要包含C4.5、分類回歸樹（CART）、卡方自動交叉檢驗（CHAID）等經(jīng)典算法［11，12］。C4.5算法只能處理離散數(shù) 據(jù)，CART、CHAID算法可以處理連續(xù)數(shù)據(jù)，因此本研究選取CART和CHAID兩種算法對油茶產(chǎn)量和氣象數(shù)據(jù)進行分析。

決策樹算法以遞歸的形式不斷對節(jié)點進行分割，并且通過預先定義的分離規(guī)則和分類優(yōu)度來確定分割的閾值，直至達到終止條件并形成決策樹［13，14］。CART算法是通過計算分割過程中節(jié)點N包含樣本的預測變量y的冗余平方和來實現(xiàn)的，具體公式如下：

式中，μ=，n為節(jié)點N所包含的樣本數(shù)。

CHAID算法是通過卡方值來確定最佳分割點的［15］，并且屬于多變量分析。CHAID根據(jù)卡方值的大小順序進行分類。它以因變量為根結(jié)點，計算分類的卡方值χ2，對每個自變量進行分類，具體公式如下：

式中，A i為i水平的觀察頻數(shù)，E i為i水平的期望頻數(shù)，n為總頻數(shù)，p i為i水平的期望頻率，E i=n p i，k為單元格數(shù)。當n較大時，χ2統(tǒng)計量近似服從k-1個自由度的卡方分布。

1.3 油茶預測模型質(zhì)量評價方法

對于建立的油茶產(chǎn)量預測模型，采用平均相對誤差、趨勢準確率以及產(chǎn)量偏多（少）三成和五成準確率指標評價其質(zhì)量優(yōu)劣。具體定義如下。

1）平均相對誤差：

式中，r表示平均相對誤差，n為樣本數(shù)，x i為模擬產(chǎn)量，x'i為實際產(chǎn)量。

2）趨勢準確率：

式中，n為樣本數(shù)，m i=x i為模擬產(chǎn)量，x'i為實際產(chǎn)量為平均產(chǎn)量。

3）產(chǎn)量偏多（少）三成、五成準確率：

式中，i為樣本數(shù)，x i為模擬產(chǎn)量，x'i為實際產(chǎn)量，為平均產(chǎn)量。當計算產(chǎn)量偏多（少）三成和五成準確率時，C分別取0.3和0.5。

2 結(jié)果與分析

首先對產(chǎn)量數(shù)據(jù)和氣象因子進行標準化處理，對標準化處理后的氣象因子和產(chǎn)量數(shù)據(jù)進行相關分析，篩選出通過0.05置信水平檢驗的氣象因子；然后將篩選后的氣象因子數(shù)據(jù)代入模型中進行計算，得到總的預測結(jié)果，最后將數(shù)據(jù)劃分為13個物候期，并分別使用模型進行計算，得到各個物候期的擬合產(chǎn)量。建模流程如圖1所示。

圖1 建模流程

2.1 區(qū)域產(chǎn)量模型

將2010—2016年的24個測產(chǎn)點數(shù)據(jù)合并為一個數(shù)據(jù)序列，基于所有的氣象指標進行油茶產(chǎn)量模擬。為了防止過擬合，在參數(shù)設置時需要保證每個葉節(jié)點的樣本總量不小于總樣本數(shù)的5%，同時對決策樹采取后剪枝策略來減少樹的分支［16］。

基于24個測產(chǎn)點標準化后數(shù)據(jù)建立的最優(yōu)CART決策樹模型見圖2，以節(jié)點1為例來解釋，N表示節(jié)點中的樣本數(shù)，cumt051 and 0_9＞0.050表示判斷條件（開花期5℃以上活動積溫的標準化后數(shù)據(jù)大于0.050），如果滿足該條件就進入節(jié)點3繼續(xù)判斷，不滿足則進入節(jié)點2，以此類推，達到?jīng)Q策樹終止條件后停止分類，將樣本平均值作為模擬值輸出，形成判斷油茶產(chǎn)量的規(guī)則。同時，決策樹算法是從眾多氣象因子中選取關鍵因子組成決策樹，且越排在樹的上層重要性越高。由圖2可見，開花期5℃以上活動積溫（cumt051 and 0_9）、春梢萌動期25 mm以上降水日數(shù)（rda0251 and 0_3）、果實成熟期無日照天數(shù)（sunnod2 and 0_13）、開花期平均最高氣溫（tmmean2 and 0_9）、果實第一次膨大期小于等于0℃的低溫日數(shù)（tnd0002 and 0_10）、春梢萌動期累積降水日數(shù)（rdaccu2 and 0_3）、果實第一次膨大期氣溫日較差（ranget2 and 0_10）是影響油茶產(chǎn)量的關鍵氣象因子。

圖2 基于區(qū)域產(chǎn)量標準化數(shù)據(jù)建立的CART最優(yōu)決策樹模型

分別使用CART和CHAID算法進行建模，最優(yōu)模型的相對誤差分別為36.00%、38.30%，趨勢準確率分別為81.20%、85.10%，結(jié)果表明，直接對所有站點數(shù)據(jù)建模相對誤差較大，準確率不高，這是由于湖南省各地區(qū)地形、氣候條件、油茶品種差異較大，具有區(qū)域種植的特點，單一數(shù)學模型無法準確對各地區(qū)產(chǎn)量與氣象因子關系進行識別，因此需要分站點、分區(qū)域進行建模，從而提高準確率。

2.2 測產(chǎn)點產(chǎn)量模型

由于測產(chǎn)數(shù)據(jù)樣本偏少，為保證樣本數(shù)據(jù)足夠多，采取合并相似站點數(shù)據(jù)的方法來合并區(qū)域產(chǎn)量數(shù)據(jù)集，即對某一單站與其他23站的油茶產(chǎn)量序列進行相關性分析，取相關系數(shù)大小前6位的測站點數(shù)據(jù)合并成新的數(shù)據(jù)集。將2010—2015年的24個測站點的油茶產(chǎn)量數(shù)據(jù)采取上述操作進行區(qū)域合并，作為模型的訓練集，將2016年的油茶產(chǎn)量數(shù)據(jù)作為驗證集對模型進行驗證。

分別對24個測產(chǎn)點數(shù)據(jù)進行建模，根據(jù)相對誤差從15個模型中選取最優(yōu)模型后計算各項評價指標，得到兩種決策樹方法的最優(yōu)模型質(zhì)量結(jié)果（表4）。由表4可見，CART和CHAID的相對誤差分別為8.80%、14.30%，趨勢準確率分別為97.40%、92.20%，均優(yōu)于基于逐步回歸方法的26.00%的相對誤差和87.30%的趨勢準確率。

表4 兩種決策樹方法的最優(yōu)模型質(zhì)量結(jié)果（單位：%）

使用兩種決策樹算法對不同物候期數(shù)據(jù)建模，得到不同時段模型的相對誤差和準確率。由圖3和圖4可見，兩種算法在各個物候期的準確率分布較為一致，基于11個物候期產(chǎn)量數(shù)據(jù)建模的模型平均相對誤差較小，趨勢準確率較高，說明在數(shù)據(jù)充足的條件下，決策樹算法能夠更好地識別氣象指標與產(chǎn)量的關系。開花期、春梢萌動期相對誤差同樣較低，表明該物候期氣象條件對油茶產(chǎn)量有較大影響，而春梢生長期、花芽分化前期、花芽現(xiàn)形期、夏梢生長期相對誤差較大，趨勢準確率較低，說明這4個物候期的氣象條件對油茶產(chǎn)量影響較小。

圖3 各物候期模擬產(chǎn)量相對誤差

圖4 各物候期模擬產(chǎn)量趨勢準確率

由圖5可知，24個測產(chǎn)點中，兩種算法中最優(yōu)模型的最大平均相對誤差為17.70%，最小平均相對誤差為0.50%，其中CART算法有16個站點相對誤差小于10.00%，CHAID算法模擬性能相對較差，僅5個站點相對誤差小于10.00%。為了分析兩種決策樹算法相對誤差在各個區(qū)域的分布情況，圖5給出了兩種算法的相對誤差的分布，可以看出兩種算法均在湘中東部地區(qū)有相對誤差的低值區(qū)，而湘南地區(qū)相對誤差較大。

選取2016年油茶產(chǎn)量數(shù)據(jù)對模型進行驗證，由圖6可知，CART和CHAID兩種算法的最優(yōu)模型的最小相對誤差分別為0.40%、0.03%。24個區(qū)域站點中，CART算法有15個站點相對誤差在10.00%以內(nèi)，2個測產(chǎn)點相對誤差較大。CHAID算法有11個站點相對誤差在10.00%以內(nèi)，3個測產(chǎn)點相對誤差偏大。此外，從各站點的相對誤差分布來看，CART算法在湘中一帶有較高的準確率，CHAID在湘南有較高的準確率。

在建模過程中，決策樹算法選取對產(chǎn)量產(chǎn)生主要影響的氣象因子，對模型選取的氣象指標頻率進行排序，得到影響油茶產(chǎn)量的關鍵氣象指標。綜合兩種方法各物候期的模擬準確率并結(jié)合蔣元華等［17］的研究，開花期、果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期是油茶生長的3個關鍵物候期。關鍵物候期中決策樹算法挑選頻率排名前五的氣象因子見圖7，由圖7可知，溫度類指標在油茶生長關鍵期起著最重要的作用。開花期0℃以上積溫和平均最高氣溫的入選頻率最高；在果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期，兩種決策樹算法挑選的因子比較接近，氣溫日較差、平均最低氣溫和高溫日數(shù)分別排在各自物候期的前列。

圖5 最優(yōu)模型相對誤差分布

圖6 2016年驗證產(chǎn)量數(shù)據(jù)最小相對誤差分布

圖7 關鍵物候期中頻率前五位的氣象因子

3 小結(jié)與討論

CART和CHAID兩種決策樹算法對歷史產(chǎn)量數(shù)據(jù)模擬的平均相對誤差分別為8.80%、14.30%，趨勢準確率分別為97.40%、92.20%，均優(yōu)于逐步回歸方法。對2016年油茶產(chǎn)量進行驗證，24個區(qū)域站點中CART算法有15個站點相對誤差在10.00%以內(nèi)，CHAID算法有11個站點相對誤差在10.00%以內(nèi)。湘中東部地區(qū)平原地帶氣象臺站分布密集，氣象數(shù)據(jù)能真實反映測產(chǎn)點情況，整體準確率較高，高海拔地區(qū)氣象站點往往離測產(chǎn)點距離較遠，誤差偏大。

決策樹挑選的重要氣象因子中，溫度類指標在油茶生長關鍵期起著最重要的作用，開花期0℃以上積溫和平均最高氣溫對產(chǎn)量影響程度最高，主要原因是低溫天氣花粉開裂受到抑制，溫度會影響昆蟲進行授粉，果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期的重要氣象因子分別為氣溫日較差、平均最低氣溫和高溫日數(shù)，主要與高溫不利于果實增長和油脂積累有關。