• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于決策樹算法的氣象因子對油茶產(chǎn)量影響研究

      2020-12-16 08:36:10廖玉芳蔣元華彭嘉棟
      湖北農(nóng)業(yè)科學 2020年21期
      關鍵詞:物候決策樹油茶

      黃 超,廖玉芳,蔣元華,彭嘉棟

      (1.湖南省氣候中心,長沙 410008;2.湖南省氣象科學研究所,長沙 410008;3.氣象防災減災湖南省重點實驗室,長沙 410008)

      油茶(Camellia oleiferaAbel.)是中國特有的木本食用油料樹種。在中國,油茶、大豆、油菜和花生是主要的油料生產(chǎn)源,具有重要的經(jīng)濟效益。湖南省油茶種植面積位居全國第一,油茶是湖南省的重要經(jīng)濟作物之一,同時也是農(nóng)村脫貧的重要特色產(chǎn)業(yè)。同所有露天生產(chǎn)的農(nóng)作物一樣,氣象因素對油茶產(chǎn)量影響較大,開展基于氣象因子的油茶產(chǎn)量研究對提升油茶產(chǎn)業(yè)鏈效益極具現(xiàn)實意義。

      目前基于氣象因子對作物產(chǎn)量的影響研究,主要采用統(tǒng)計方法[1],早期的統(tǒng)計方法以線性模型為主,將氣象因子與產(chǎn)量的非線性關系簡化成線性關系進行產(chǎn)量預估,多元線性回歸模型和逐步回歸方法[2,3]被廣泛運用。而氣象因子與產(chǎn)量之間存在著復雜的非線性關系,線性統(tǒng)計方法在處理簡單因子時能夠滿足業(yè)務需求,但在面對大量數(shù)據(jù)的復雜關系時誤差相對較大,因此越來越多的研究開始采用非線性統(tǒng)計方法來提高預測準確率,如聚類分析、神經(jīng)網(wǎng)絡、支持向量機等[4-6]方法都取得了一定的效果。氣象因子對油茶產(chǎn)量影響的研究目前主要采用以多元回歸方法為代表的線性統(tǒng)計方法,近年來主成分分析、神經(jīng)網(wǎng)絡等[7,8]方法也有應用。

      一般的統(tǒng)計方法需要研究者憑主觀認識選取氣象因子進行建模,即使使用逐步回歸方法也很難挑選到最優(yōu)的氣象因子對產(chǎn)量進行分析[9,10],而決策樹算法在一定程度上能解決這種問題。決策樹算法是數(shù)據(jù)挖掘中的一種分類算法,屬于非線性統(tǒng)計方法,能從大量數(shù)據(jù)中識別有用的規(guī)律,具備自動挑選關鍵因子的優(yōu)勢,從而客觀地反映氣象因子與產(chǎn)量的相關關系。因此,本研究采用分類與回歸樹(Classification and regression tree,CART)和卡方自動交叉檢驗(Chi-Square automatic interaction detection,CHAID)兩種決策樹算法分別建立預測模型開展油茶產(chǎn)量預測。

      1 數(shù)據(jù)與方法

      1.1 資料來源與加工處理

      1.1.1 資料來源 油茶鮮果產(chǎn)量數(shù)據(jù)來源于湖南省林業(yè)科學院的24個樣地實地測產(chǎn)(表1)。氣象資料來自湖南省97個地面氣象觀測站1961—2010年的觀測資料。

      1.1.2 資料處理 對于基礎氣象數(shù)據(jù),將其分為47項氣象指標(表2),并采用1961—2010年的均值和標準差進行標準化處理。對于油茶測產(chǎn)數(shù)據(jù),因無明顯趨勢變化,所以直接進行標準化處理。

      表1 測產(chǎn)點數(shù)據(jù)信息

      油茶物候期主要包括春梢萌動期、春梢生長期、花芽分化前期、花芽現(xiàn)形期、夏梢生長期、花芽成熟期、開花期、果實第一次膨大期、果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期共11個時期,此外根據(jù)油茶生育期跨年的特點,將整個生育期和結(jié)果年數(shù)據(jù)單獨進行分析,并綜合所有物候期數(shù)據(jù),將物候期劃分為13個(表3)。

      表2 氣象指標名稱

      表3 物候期劃分

      1.2 決策樹基本原理

      決策樹算法是數(shù)據(jù)挖掘算法中的一種白箱分類方法,擅長處理非線性問題,主要包含C4.5、分類回歸樹(CART)、卡方自動交叉檢驗(CHAID)等經(jīng)典算法[11,12]。C4.5算 法 只 能 處 理 離 散 數(shù) 據(jù),CART、CHAID算法可以處理連續(xù)數(shù)據(jù),因此本研究選取CART和CHAID兩種算法對油茶產(chǎn)量和氣象數(shù)據(jù)進行分析。

      決策樹算法以遞歸的形式不斷對節(jié)點進行分割,并且通過預先定義的分離規(guī)則和分類優(yōu)度來確定分割的閾值,直至達到終止條件并形成決策樹[13,14]。CART算法是通過計算分割過程中節(jié)點N包含樣本的預測變量y的冗余平方和來實現(xiàn)的,具體公式如下:

      式中,μ=,n為節(jié)點N所包含的樣本數(shù)。

      CHAID算法是通過卡方值來確定最佳分割點的[15],并且屬于多變量分析。CHAID根據(jù)卡方值的大小順序進行分類。它以因變量為根結(jié)點,計算分類的卡方值χ2,對每個自變量進行分類,具體公式如下:

      式中,A i為i水平的觀察頻數(shù),E i為i水平的期望頻數(shù),n為總頻數(shù),p i為i水平的期望頻率,E i=n p i,k為單元格數(shù)。當n較大時,χ2統(tǒng)計量近似服從k-1個自由度的卡方分布。

      1.3 油茶預測模型質(zhì)量評價方法

      對于建立的油茶產(chǎn)量預測模型,采用平均相對誤差、趨勢準確率以及產(chǎn)量偏多(少)三成和五成準確率指標評價其質(zhì)量優(yōu)劣。具體定義如下。

      1)平均相對誤差:

      式中,r表示平均相對誤差,n為樣本數(shù),x i為模擬產(chǎn)量,x'i為實際產(chǎn)量。

      2)趨勢準確率:

      式中,n為樣本數(shù),m i=x i為模擬產(chǎn)量,x'i為實際產(chǎn)量為平均產(chǎn)量。

      3)產(chǎn)量偏多(少)三成、五成準確率:

      式中,i為樣本數(shù),x i為模擬產(chǎn)量,x'i為實際產(chǎn)量,為平均產(chǎn)量。當計算產(chǎn)量偏多(少)三成和五成準確率時,C分別取0.3和0.5。

      2 結(jié)果與分析

      首先對產(chǎn)量數(shù)據(jù)和氣象因子進行標準化處理,對標準化處理后的氣象因子和產(chǎn)量數(shù)據(jù)進行相關分析,篩選出通過0.05置信水平檢驗的氣象因子;然后將篩選后的氣象因子數(shù)據(jù)代入模型中進行計算,得到總的預測結(jié)果,最后將數(shù)據(jù)劃分為13個物候期,并分別使用模型進行計算,得到各個物候期的擬合產(chǎn)量。建模流程如圖1所示。

      圖1 建模流程

      2.1 區(qū)域產(chǎn)量模型

      將2010—2016年的24個測產(chǎn)點數(shù)據(jù)合并為一個數(shù)據(jù)序列,基于所有的氣象指標進行油茶產(chǎn)量模擬。為了防止過擬合,在參數(shù)設置時需要保證每個葉節(jié)點的樣本總量不小于總樣本數(shù)的5%,同時對決策樹采取后剪枝策略來減少樹的分支[16]。

      基于24個測產(chǎn)點標準化后數(shù)據(jù)建立的最優(yōu)CART決策樹模型見圖2,以節(jié)點1為例來解釋,N表示節(jié)點中的樣本數(shù),cumt051 and 0_9>0.050表示判斷條件(開花期5℃以上活動積溫的標準化后數(shù)據(jù)大于0.050),如果滿足該條件就進入節(jié)點3繼續(xù)判斷,不滿足則進入節(jié)點2,以此類推,達到?jīng)Q策樹終止條件后停止分類,將樣本平均值作為模擬值輸出,形成判斷油茶產(chǎn)量的規(guī)則。同時,決策樹算法是從眾多氣象因子中選取關鍵因子組成決策樹,且越排在樹的上層重要性越高。由圖2可見,開花期5℃以上活動積溫(cumt051 and 0_9)、春梢萌動期25 mm以上降水日數(shù)(rda0251 and 0_3)、果實成熟期無日照天數(shù)(sunnod2 and 0_13)、開花期平均最高氣溫(tmmean2 and 0_9)、果實第一次膨大期小于等于0℃的低溫日數(shù)(tnd0002 and 0_10)、春梢萌動期累積降水日數(shù)(rdaccu2 and 0_3)、果實第一次膨大期氣溫日較差(ranget2 and 0_10)是影響油茶產(chǎn)量的關鍵氣象因子。

      圖2 基于區(qū)域產(chǎn)量標準化數(shù)據(jù)建立的CART最優(yōu)決策樹模型

      分別使用CART和CHAID算法進行建模,最優(yōu)模型的相對誤差分別為36.00%、38.30%,趨勢準確率分別為81.20%、85.10%,結(jié)果表明,直接對所有站點數(shù)據(jù)建模相對誤差較大,準確率不高,這是由于湖南省各地區(qū)地形、氣候條件、油茶品種差異較大,具有區(qū)域種植的特點,單一數(shù)學模型無法準確對各地區(qū)產(chǎn)量與氣象因子關系進行識別,因此需要分站點、分區(qū)域進行建模,從而提高準確率。

      2.2 測產(chǎn)點產(chǎn)量模型

      由于測產(chǎn)數(shù)據(jù)樣本偏少,為保證樣本數(shù)據(jù)足夠多,采取合并相似站點數(shù)據(jù)的方法來合并區(qū)域產(chǎn)量數(shù)據(jù)集,即對某一單站與其他23站的油茶產(chǎn)量序列進行相關性分析,取相關系數(shù)大小前6位的測站點數(shù)據(jù)合并成新的數(shù)據(jù)集。將2010—2015年的24個測站點的油茶產(chǎn)量數(shù)據(jù)采取上述操作進行區(qū)域合并,作為模型的訓練集,將2016年的油茶產(chǎn)量數(shù)據(jù)作為驗證集對模型進行驗證。

      分別對24個測產(chǎn)點數(shù)據(jù)進行建模,根據(jù)相對誤差從15個模型中選取最優(yōu)模型后計算各項評價指標,得到兩種決策樹方法的最優(yōu)模型質(zhì)量結(jié)果(表4)。由表4可見,CART和CHAID的相對誤差分別為8.80%、14.30%,趨勢準確率分別為97.40%、92.20%,均優(yōu)于基于逐步回歸方法的26.00%的相對誤差和87.30%的趨勢準確率。

      表4 兩種決策樹方法的最優(yōu)模型質(zhì)量結(jié)果(單位:%)

      使用兩種決策樹算法對不同物候期數(shù)據(jù)建模,得到不同時段模型的相對誤差和準確率。由圖3和圖4可見,兩種算法在各個物候期的準確率分布較為一致,基于11個物候期產(chǎn)量數(shù)據(jù)建模的模型平均相對誤差較小,趨勢準確率較高,說明在數(shù)據(jù)充足的條件下,決策樹算法能夠更好地識別氣象指標與產(chǎn)量的關系。開花期、春梢萌動期相對誤差同樣較低,表明該物候期氣象條件對油茶產(chǎn)量有較大影響,而春梢生長期、花芽分化前期、花芽現(xiàn)形期、夏梢生長期相對誤差較大,趨勢準確率較低,說明這4個物候期的氣象條件對油茶產(chǎn)量影響較小。

      圖3 各物候期模擬產(chǎn)量相對誤差

      圖4 各物候期模擬產(chǎn)量趨勢準確率

      由圖5可知,24個測產(chǎn)點中,兩種算法中最優(yōu)模型的最大平均相對誤差為17.70%,最小平均相對誤差為0.50%,其中CART算法有16個站點相對誤差小于10.00%,CHAID算法模擬性能相對較差,僅5個站點相對誤差小于10.00%。為了分析兩種決策樹算法相對誤差在各個區(qū)域的分布情況,圖5給出了兩種算法的相對誤差的分布,可以看出兩種算法均在湘中東部地區(qū)有相對誤差的低值區(qū),而湘南地區(qū)相對誤差較大。

      選取2016年油茶產(chǎn)量數(shù)據(jù)對模型進行驗證,由圖6可知,CART和CHAID兩種算法的最優(yōu)模型的最小相對誤差分別為0.40%、0.03%。24個區(qū)域站點中,CART算法有15個站點相對誤差在10.00%以內(nèi),2個測產(chǎn)點相對誤差較大。CHAID算法有11個站點相對誤差在10.00%以內(nèi),3個測產(chǎn)點相對誤差偏大。此外,從各站點的相對誤差分布來看,CART算法在湘中一帶有較高的準確率,CHAID在湘南有較高的準確率。

      在建模過程中,決策樹算法選取對產(chǎn)量產(chǎn)生主要影響的氣象因子,對模型選取的氣象指標頻率進行排序,得到影響油茶產(chǎn)量的關鍵氣象指標。綜合兩種方法各物候期的模擬準確率并結(jié)合蔣元華等[17]的研究,開花期、果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期是油茶生長的3個關鍵物候期。關鍵物候期中決策樹算法挑選頻率排名前五的氣象因子見圖7,由圖7可知,溫度類指標在油茶生長關鍵期起著最重要的作用。開花期0℃以上積溫和平均最高氣溫的入選頻率最高;在果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期,兩種決策樹算法挑選的因子比較接近,氣溫日較差、平均最低氣溫和高溫日數(shù)分別排在各自物候期的前列。

      圖5 最優(yōu)模型相對誤差分布

      圖6 2016年驗證產(chǎn)量數(shù)據(jù)最小相對誤差分布

      圖7 關鍵物候期中頻率前五位的氣象因子

      3 小結(jié)與討論

      CART和CHAID兩種決策樹算法對歷史產(chǎn)量數(shù)據(jù)模擬的平均相對誤差分別為8.80%、14.30%,趨勢準確率分別為97.40%、92.20%,均優(yōu)于逐步回歸方法。對2016年油茶產(chǎn)量進行驗證,24個區(qū)域站點中CART算法有15個站點相對誤差在10.00%以內(nèi),CHAID算法有11個站點相對誤差在10.00%以內(nèi)。湘中東部地區(qū)平原地帶氣象臺站分布密集,氣象數(shù)據(jù)能真實反映測產(chǎn)點情況,整體準確率較高,高海拔地區(qū)氣象站點往往離測產(chǎn)點距離較遠,誤差偏大。

      決策樹挑選的重要氣象因子中,溫度類指標在油茶生長關鍵期起著最重要的作用,開花期0℃以上積溫和平均最高氣溫對產(chǎn)量影響程度最高,主要原因是低溫天氣花粉開裂受到抑制,溫度會影響昆蟲進行授粉,果實第一次膨大期、油脂轉(zhuǎn)化和積累高峰期的重要氣象因子分別為氣溫日較差、平均最低氣溫和高溫日數(shù),主要與高溫不利于果實增長和油脂積累有關。

      猜你喜歡
      物候決策樹油茶
      海南橡膠林生態(tài)系統(tǒng)凈碳交換物候特征
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      油茶芽苗嫁接育苗技術
      高產(chǎn)油茶的整形修剪技術
      ‘灰棗’及其芽變品系的物候和生育特性研究
      永勝油茶的深情厚意
      中國西部(2017年4期)2017-04-26 03:49:43
      “四化”舉措做大做強油茶產(chǎn)業(yè)
      5種忍冬科植物物候期觀察和比較
      基于決策樹的出租車乘客出行目的識別
      南开区| 石泉县| 五寨县| 河津市| 黄平县| 郓城县| 广东省| 阳春市| 库尔勒市| 南平市| 新邵县| 长宁区| 卢湾区| 双城市| 西城区| 响水县| 蒙自县| 崇义县| 梓潼县| 鲁甸县| 安新县| 克东县| 济阳县| 封丘县| 马鞍山市| 彰武县| 筠连县| 平果县| 北宁市| 普兰县| 阿合奇县| 杭锦后旗| 临沂市| 和田市| 三门县| 紫阳县| 南和县| 陕西省| 文水县| 宣化县| 涿鹿县|