黃 超,廖玉芳,蔣元華,彭嘉棟
(1.湖南省氣候中心,長沙 410008;2.湖南省氣象科學研究所,長沙 410008;3.氣象防災減災湖南省重點實驗室,長沙 410008)
油茶(Camellia oleiferaAbel.)是中國特有的木本食用油料樹種。在中國,油茶、大豆、油菜和花生是主要的油料生產(chǎn)源,具有重要的經(jīng)濟效益。湖南省油茶種植面積位居全國第一,油茶是湖南省的重要經(jīng)濟作物之一,同時也是農(nóng)村脫貧的重要特色產(chǎn)業(yè)。同所有露天生產(chǎn)的農(nóng)作物一樣,氣象因素對油茶產(chǎn)量影響較大,開展基于氣象因子的油茶產(chǎn)量研究對提升油茶產(chǎn)業(yè)鏈效益極具現(xiàn)實意義。
目前基于氣象因子對作物產(chǎn)量的影響研究,主要采用統(tǒng)計方法[1],早期的統(tǒng)計方法以線性模型為主,將氣象因子與產(chǎn)量的非線性關系簡化成線性關系進行產(chǎn)量預估,多元線性回歸模型和逐步回歸方法[2,3]被廣泛運用。而氣象因子與產(chǎn)量之間存在著復雜的非線性關系,線性統(tǒng)計方法在處理簡單因子時能夠滿足業(yè)務需求,但在面對大量數(shù)據(jù)的復雜關系時誤差相對較大,因此越來越多的研究開始采用非線性統(tǒng)計方法來提高預測準確率,如聚類分析、神經(jīng)網(wǎng)絡、支持向量機等[4-6]方法都取得了一定的效果。氣象因子對油茶產(chǎn)量影響的研究目前主要采用以多元回歸方法為代表的線性統(tǒng)計方法,近年來主成分分析、神經(jīng)網(wǎng)絡等[7,8]方法也有應用。
一般的統(tǒng)計方法需要研究者憑主觀認識選取氣象因子進行建模,即使使用逐步回歸方法也很難挑選到最優(yōu)的氣象因子對產(chǎn)量進行分析[9,10],而決策樹算法在一定程度上能解決這種問題。決策樹算法是數(shù)據(jù)挖掘中的一種分類算法,屬于非線性統(tǒng)計方法,能從大量數(shù)據(jù)中識別有用的規(guī)律,具備自動挑選關鍵因子的優(yōu)勢,從而客觀地反映氣象因子與產(chǎn)量的相關關系。因此,本研究采用分類與回歸樹(Classification and regression tree,CART)和卡方自動交叉檢驗(Chi-Square automatic interaction detection,CHAID)兩種決策樹算法分別建立預測模型開展油茶產(chǎn)量預測。
1.1.1 資料來源 油茶鮮果產(chǎn)量數(shù)據(jù)來源于湖南省林業(yè)科學院的24個樣地實地測產(chǎn)(表1)。氣象資料來自湖南省97個地面氣象觀測站1961—2010年的觀測資料。
1.1.2 資料處理 對于基礎氣象數(shù)據(jù),將其分為47項氣象指標(表2),并采用1961—2010年的均值和標準差進行標準化處理。對于油茶測產(chǎn)數(shù)據(jù),因無明顯趨勢變化,所以直接進行標準化處理。
表1 測產(chǎn)點數(shù)據(jù)信息
油茶物候期主要包括春梢萌動期、春梢生長期、花芽分化前期、花芽現(xiàn)形期、夏梢生長期、花芽成熟期、開花期、果實第一次膨大期、果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期共11個時期,此外根據(jù)油茶生育期跨年的特點,將整個生育期和結(jié)果年數(shù)據(jù)單獨進行分析,并綜合所有物候期數(shù)據(jù),將物候期劃分為13個(表3)。
表2 氣象指標名稱
表3 物候期劃分
決策樹算法是數(shù)據(jù)挖掘算法中的一種白箱分類方法,擅長處理非線性問題,主要包含C4.5、分類回歸樹(CART)、卡方自動交叉檢驗(CHAID)等經(jīng)典算法[11,12]。C4.5算 法 只 能 處 理 離 散 數(shù) 據(jù),CART、CHAID算法可以處理連續(xù)數(shù)據(jù),因此本研究選取CART和CHAID兩種算法對油茶產(chǎn)量和氣象數(shù)據(jù)進行分析。
決策樹算法以遞歸的形式不斷對節(jié)點進行分割,并且通過預先定義的分離規(guī)則和分類優(yōu)度來確定分割的閾值,直至達到終止條件并形成決策樹[13,14]。CART算法是通過計算分割過程中節(jié)點N包含樣本的預測變量y的冗余平方和來實現(xiàn)的,具體公式如下:
式中,μ=,n為節(jié)點N所包含的樣本數(shù)。
CHAID算法是通過卡方值來確定最佳分割點的[15],并且屬于多變量分析。CHAID根據(jù)卡方值的大小順序進行分類。它以因變量為根結(jié)點,計算分類的卡方值χ2,對每個自變量進行分類,具體公式如下:
式中,A i為i水平的觀察頻數(shù),E i為i水平的期望頻數(shù),n為總頻數(shù),p i為i水平的期望頻率,E i=n p i,k為單元格數(shù)。當n較大時,χ2統(tǒng)計量近似服從k-1個自由度的卡方分布。
對于建立的油茶產(chǎn)量預測模型,采用平均相對誤差、趨勢準確率以及產(chǎn)量偏多(少)三成和五成準確率指標評價其質(zhì)量優(yōu)劣。具體定義如下。
1)平均相對誤差:
式中,r表示平均相對誤差,n為樣本數(shù),x i為模擬產(chǎn)量,x'i為實際產(chǎn)量。
2)趨勢準確率:
式中,n為樣本數(shù),m i=x i為模擬產(chǎn)量,x'i為實際產(chǎn)量為平均產(chǎn)量。
3)產(chǎn)量偏多(少)三成、五成準確率:
式中,i為樣本數(shù),x i為模擬產(chǎn)量,x'i為實際產(chǎn)量,為平均產(chǎn)量。當計算產(chǎn)量偏多(少)三成和五成準確率時,C分別取0.3和0.5。
首先對產(chǎn)量數(shù)據(jù)和氣象因子進行標準化處理,對標準化處理后的氣象因子和產(chǎn)量數(shù)據(jù)進行相關分析,篩選出通過0.05置信水平檢驗的氣象因子;然后將篩選后的氣象因子數(shù)據(jù)代入模型中進行計算,得到總的預測結(jié)果,最后將數(shù)據(jù)劃分為13個物候期,并分別使用模型進行計算,得到各個物候期的擬合產(chǎn)量。建模流程如圖1所示。
圖1 建模流程
將2010—2016年的24個測產(chǎn)點數(shù)據(jù)合并為一個數(shù)據(jù)序列,基于所有的氣象指標進行油茶產(chǎn)量模擬。為了防止過擬合,在參數(shù)設置時需要保證每個葉節(jié)點的樣本總量不小于總樣本數(shù)的5%,同時對決策樹采取后剪枝策略來減少樹的分支[16]。
基于24個測產(chǎn)點標準化后數(shù)據(jù)建立的最優(yōu)CART決策樹模型見圖2,以節(jié)點1為例來解釋,N表示節(jié)點中的樣本數(shù),cumt051 and 0_9>0.050表示判斷條件(開花期5℃以上活動積溫的標準化后數(shù)據(jù)大于0.050),如果滿足該條件就進入節(jié)點3繼續(xù)判斷,不滿足則進入節(jié)點2,以此類推,達到?jīng)Q策樹終止條件后停止分類,將樣本平均值作為模擬值輸出,形成判斷油茶產(chǎn)量的規(guī)則。同時,決策樹算法是從眾多氣象因子中選取關鍵因子組成決策樹,且越排在樹的上層重要性越高。由圖2可見,開花期5℃以上活動積溫(cumt051 and 0_9)、春梢萌動期25 mm以上降水日數(shù)(rda0251 and 0_3)、果實成熟期無日照天數(shù)(sunnod2 and 0_13)、開花期平均最高氣溫(tmmean2 and 0_9)、果實第一次膨大期小于等于0℃的低溫日數(shù)(tnd0002 and 0_10)、春梢萌動期累積降水日數(shù)(rdaccu2 and 0_3)、果實第一次膨大期氣溫日較差(ranget2 and 0_10)是影響油茶產(chǎn)量的關鍵氣象因子。
圖2 基于區(qū)域產(chǎn)量標準化數(shù)據(jù)建立的CART最優(yōu)決策樹模型
分別使用CART和CHAID算法進行建模,最優(yōu)模型的相對誤差分別為36.00%、38.30%,趨勢準確率分別為81.20%、85.10%,結(jié)果表明,直接對所有站點數(shù)據(jù)建模相對誤差較大,準確率不高,這是由于湖南省各地區(qū)地形、氣候條件、油茶品種差異較大,具有區(qū)域種植的特點,單一數(shù)學模型無法準確對各地區(qū)產(chǎn)量與氣象因子關系進行識別,因此需要分站點、分區(qū)域進行建模,從而提高準確率。
由于測產(chǎn)數(shù)據(jù)樣本偏少,為保證樣本數(shù)據(jù)足夠多,采取合并相似站點數(shù)據(jù)的方法來合并區(qū)域產(chǎn)量數(shù)據(jù)集,即對某一單站與其他23站的油茶產(chǎn)量序列進行相關性分析,取相關系數(shù)大小前6位的測站點數(shù)據(jù)合并成新的數(shù)據(jù)集。將2010—2015年的24個測站點的油茶產(chǎn)量數(shù)據(jù)采取上述操作進行區(qū)域合并,作為模型的訓練集,將2016年的油茶產(chǎn)量數(shù)據(jù)作為驗證集對模型進行驗證。
分別對24個測產(chǎn)點數(shù)據(jù)進行建模,根據(jù)相對誤差從15個模型中選取最優(yōu)模型后計算各項評價指標,得到兩種決策樹方法的最優(yōu)模型質(zhì)量結(jié)果(表4)。由表4可見,CART和CHAID的相對誤差分別為8.80%、14.30%,趨勢準確率分別為97.40%、92.20%,均優(yōu)于基于逐步回歸方法的26.00%的相對誤差和87.30%的趨勢準確率。
表4 兩種決策樹方法的最優(yōu)模型質(zhì)量結(jié)果(單位:%)
使用兩種決策樹算法對不同物候期數(shù)據(jù)建模,得到不同時段模型的相對誤差和準確率。由圖3和圖4可見,兩種算法在各個物候期的準確率分布較為一致,基于11個物候期產(chǎn)量數(shù)據(jù)建模的模型平均相對誤差較小,趨勢準確率較高,說明在數(shù)據(jù)充足的條件下,決策樹算法能夠更好地識別氣象指標與產(chǎn)量的關系。開花期、春梢萌動期相對誤差同樣較低,表明該物候期氣象條件對油茶產(chǎn)量有較大影響,而春梢生長期、花芽分化前期、花芽現(xiàn)形期、夏梢生長期相對誤差較大,趨勢準確率較低,說明這4個物候期的氣象條件對油茶產(chǎn)量影響較小。
圖3 各物候期模擬產(chǎn)量相對誤差
圖4 各物候期模擬產(chǎn)量趨勢準確率
由圖5可知,24個測產(chǎn)點中,兩種算法中最優(yōu)模型的最大平均相對誤差為17.70%,最小平均相對誤差為0.50%,其中CART算法有16個站點相對誤差小于10.00%,CHAID算法模擬性能相對較差,僅5個站點相對誤差小于10.00%。為了分析兩種決策樹算法相對誤差在各個區(qū)域的分布情況,圖5給出了兩種算法的相對誤差的分布,可以看出兩種算法均在湘中東部地區(qū)有相對誤差的低值區(qū),而湘南地區(qū)相對誤差較大。
選取2016年油茶產(chǎn)量數(shù)據(jù)對模型進行驗證,由圖6可知,CART和CHAID兩種算法的最優(yōu)模型的最小相對誤差分別為0.40%、0.03%。24個區(qū)域站點中,CART算法有15個站點相對誤差在10.00%以內(nèi),2個測產(chǎn)點相對誤差較大。CHAID算法有11個站點相對誤差在10.00%以內(nèi),3個測產(chǎn)點相對誤差偏大。此外,從各站點的相對誤差分布來看,CART算法在湘中一帶有較高的準確率,CHAID在湘南有較高的準確率。
在建模過程中,決策樹算法選取對產(chǎn)量產(chǎn)生主要影響的氣象因子,對模型選取的氣象指標頻率進行排序,得到影響油茶產(chǎn)量的關鍵氣象指標。綜合兩種方法各物候期的模擬準確率并結(jié)合蔣元華等[17]的研究,開花期、果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期是油茶生長的3個關鍵物候期。關鍵物候期中決策樹算法挑選頻率排名前五的氣象因子見圖7,由圖7可知,溫度類指標在油茶生長關鍵期起著最重要的作用。開花期0℃以上積溫和平均最高氣溫的入選頻率最高;在果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期,兩種決策樹算法挑選的因子比較接近,氣溫日較差、平均最低氣溫和高溫日數(shù)分別排在各自物候期的前列。
圖5 最優(yōu)模型相對誤差分布
圖6 2016年驗證產(chǎn)量數(shù)據(jù)最小相對誤差分布
圖7 關鍵物候期中頻率前五位的氣象因子
CART和CHAID兩種決策樹算法對歷史產(chǎn)量數(shù)據(jù)模擬的平均相對誤差分別為8.80%、14.30%,趨勢準確率分別為97.40%、92.20%,均優(yōu)于逐步回歸方法。對2016年油茶產(chǎn)量進行驗證,24個區(qū)域站點中CART算法有15個站點相對誤差在10.00%以內(nèi),CHAID算法有11個站點相對誤差在10.00%以內(nèi)。湘中東部地區(qū)平原地帶氣象臺站分布密集,氣象數(shù)據(jù)能真實反映測產(chǎn)點情況,整體準確率較高,高海拔地區(qū)氣象站點往往離測產(chǎn)點距離較遠,誤差偏大。
決策樹挑選的重要氣象因子中,溫度類指標在油茶生長關鍵期起著最重要的作用,開花期0℃以上積溫和平均最高氣溫對產(chǎn)量影響程度最高,主要原因是低溫天氣花粉開裂受到抑制,溫度會影響昆蟲進行授粉,果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期的重要氣象因子分別為氣溫日較差、平均最低氣溫和高溫日數(shù),主要與高溫不利于果實增長和油脂積累有關。