吉莉, 劉曉冉, 武強, 李強
1.重慶市北碚區(qū)氣象局, 重慶 400700; 2.重慶市氣象科學(xué)研究所, 重慶 401147
蠟梅為蠟梅科蠟梅屬植物, 是珍貴的天然香料植物[1]. 重慶市北碚區(qū)蠟梅種植面積占全市蠟梅總面積的85%, 有500多年種植歷史, 與河南鄢陵、 湖北??挡⒎Q為“中國三大蠟梅基地”, 每年吸引了大量的游客來此地觀賞蠟梅. 科學(xué)、 準(zhǔn)確地開展蠟梅花期預(yù)報可指導(dǎo)人們合理安排時間觀賞蠟梅, 促進當(dāng)?shù)厣鷳B(tài)旅游發(fā)展.
關(guān)于植物花期與氣候變化規(guī)律, 以及花期預(yù)測技術(shù)國內(nèi)外均有大量的研究[2-6]. Gonsamo等[7]模擬加拿大19種植物的始花期變化; 劉流等[8]對桂林桃花開花期與氣象要素的關(guān)系進行研究, 發(fā)現(xiàn)桃花開花期與當(dāng)年1月下旬到2月下旬氣溫和上年冬季降水量有顯著的相關(guān)性; 張志薇等[9]基于1986-2016年油菜花物候觀測資料, 分析了盛花期的物候特征及與溫度因子的關(guān)系; 孫明等[10]基于1990-2020年懸鈴木花的物候資料, 明確了關(guān)鍵氣象因子對始花期的定量影響, 并建立預(yù)測模型; 岳高峰等[11]以牡丹花花期為預(yù)報主體, 選取氣溫、 積溫、 日照和空氣濕度氣象因子進行主成分分析和逐步回歸分析, 建立多元回歸預(yù)測模型, 為牡丹文化節(jié)組委會提供決策依據(jù). 相對而言, 由于蠟梅種植面積少, 種植范圍不廣, 對蠟梅花期研究較少, 目前國內(nèi)外關(guān)于蠟梅的研究報道主要集中在栽培技術(shù)[12-17]、 化學(xué)成分、 品種等方面.
近年來, 機器學(xué)習(xí)作為人工智能領(lǐng)域的重要分支, 國內(nèi)外越來越多的學(xué)者將機器學(xué)習(xí)技術(shù)應(yīng)用于各個領(lǐng)域, 其中在作物預(yù)測方面的研究取得了較好的成績[18-20]. 這些分析方法能夠從多水平、 多因素著手, 綜合分析各指標(biāo)的整體效應(yīng), 使篩選出的結(jié)果更具科學(xué)性. 本研究以重慶市北碚區(qū)靜觀素心蠟梅早熟品種的初花期為研究對象, 統(tǒng)計分析2007-2021年初花期變化特征, 基于PCA主成分分析法, 通過BP神經(jīng)網(wǎng)絡(luò)算法及逐步回歸算法, 對蠟梅初花期預(yù)測進行預(yù)測試驗, 以期為科學(xué)有效開展蠟梅初花期氣象服務(wù)提供理論依據(jù)和技術(shù)支持.
1.1.1 資料來源
素心蠟梅初花期是指蠟梅樹枝開花率為20%左右的時間, 素心蠟梅早熟品種初花期2007-2013年資料為課題組對北碚區(qū)靜觀鎮(zhèn)、 柳蔭鎮(zhèn)等地實地走訪調(diào)查所得, 2014-2021年數(shù)據(jù)來源于靜觀蠟梅氣象服務(wù)站觀測數(shù)據(jù). 氣象資料是北碚區(qū)國家氣象觀測站2007-2021年逐日資料, 包括平均氣溫、 最低氣溫、 最高氣溫、 降水量、 日照時數(shù)等, 氣溫、 降水量、 日照時數(shù)的日氣象資料統(tǒng)計為旬資料, 雨日數(shù)為日降水量L≥0.1 mm的日數(shù).
蠟梅初花期轉(zhuǎn)換為年日序值, 即1月1日為1, 1月2日為2, 以此類推.
1.1.2 氣象因子
影響蠟梅花開花的過程主要是受氣溫、 降水、 日照的影響. 光、 溫、 水條件的匹配程度影響初花期的早晚時間, 因此為篩選出對蠟梅花初花期有影響的氣象因子, 本研究將氣溫、 降水、 日照作為預(yù)測初花期的初選因子. 蠟梅一般在10月進入長枝期, 11月進入定型期, 花芽逐漸生出, 早熟初花期一般在12月11日左右, 因此本研究主要選取11月的18類氣象因子(表1).
表1 影響蠟梅初花期的氣象因子
1.2.1 PCA
主成分分析(PCA)[21-22]是通過對協(xié)方差矩陣進行特征分析, 在減少數(shù)據(jù)維數(shù)的同時, 保持?jǐn)?shù)據(jù)集對方差貢獻最大的目的. 利用數(shù)據(jù)降維的思想, 在損失較少數(shù)據(jù)信息的前提下, 把多個指標(biāo)轉(zhuǎn)化成幾個為數(shù)較少的綜合指標(biāo)的多元分析方法, 各個主成分是原始變量的線性組合, 彼此之間互不相關(guān). 主成分分析以方差作為信息量的測度, 取累計貢獻率大的幾個成分作為主成分.
1.2.2 BP神經(jīng)網(wǎng)絡(luò)預(yù)報方法
BP神經(jīng)網(wǎng)絡(luò)算法是目前應(yīng)用最廣泛的預(yù)測方法, 其基本思想是工作信號正向傳遞和誤差信號反向傳遞兩個子過程, 學(xué)習(xí)規(guī)則和目標(biāo)是使用最速下降法, 通過反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值使全局誤差系數(shù)最小, 學(xué)習(xí)本質(zhì)是對連接權(quán)值的動態(tài)調(diào)整. 基本結(jié)構(gòu)由輸入層、隱層和輸出層構(gòu)成[23].
1.2.3 逐步回歸預(yù)報方法
采用回歸方法是根據(jù)自變量的取值來預(yù)測因變量的取值[24-25], 以變量對目標(biāo)的影響程度大小, 從大到小逐個引入回歸方程, 再對回歸方程所含的變量進行檢驗, 顯著則引入方程, 不顯著則剔除, 直到?jīng)]有顯著因素可以引入, 或不顯著變量需剔除為止. 本文主要選取主成分作為初花期預(yù)測因子, 采用SPSS軟件, 利用“步進法”建立蠟梅花初花期預(yù)測模型.
1.2.4 數(shù)據(jù)評估方法
偏度系數(shù)是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量, 用于衡量數(shù)據(jù)的對稱性的特征數(shù); 峰度系數(shù)是表征概率密度分布曲線在平均值處峰值高低的特征數(shù). 本研究主要采用SPSS軟件對蠟梅花序日進行正態(tài)分布性檢驗[23].
1.2.5 數(shù)據(jù)預(yù)處理
通常使用的機器學(xué)習(xí)算法將數(shù)據(jù)樣本分為訓(xùn)練集與測試集, 通過訓(xùn)練集數(shù)據(jù)建立模型, 測試數(shù)據(jù)則用于檢驗?zāi)P偷姆夯芰Γ?因此在確定建立模型前, 為消除指標(biāo)之間的量綱影響, 需對數(shù)據(jù)進行歸一化處理. 通過對數(shù)據(jù)進行分段建模的方式擬合, 本研究以2007-2017年有效初花期數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù), 再選取高影響氣象因子, 以初花期日序為輸入目標(biāo), 利用SPPS Modeler軟件構(gòu)建BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型和逐步回歸預(yù)測模型, 然后利用boosting 集成學(xué)習(xí)思想, 為每一個訓(xùn)練樣本賦一個權(quán)重, 在每一輪提升過程結(jié)束時自動調(diào)整權(quán)重, 提高預(yù)測模型的泛化能力, 防止模型過度擬合. 最后為進一步驗證該模型的準(zhǔn)確性, 對2018-2021的數(shù)據(jù)進行預(yù)測效果檢驗.
由圖1蠟梅花初花期可知, 2007-2021年, 蠟梅初花期主要集中在12月, 平均初花期在12月11日左右, 接近入冬初日. 其中年份較晚的初花期出現(xiàn)在12月18日(2010年), 最早的初花期出現(xiàn)在12月5日(2009年), 最早和最晚的日期相差13 d. 采用偏度和峰度檢驗法, 對蠟梅花序日進行正態(tài)分布性檢驗[23], 計算出花序日時間序列的偏度、 偏度標(biāo)準(zhǔn)差、 峰度、 峰度標(biāo)準(zhǔn)差, 其值分別為-0.134,0.580,-0.055,1.121, 發(fā)現(xiàn)偏度和峰度均在±1.96之間, 說明靜觀蠟梅初花期資料符合正態(tài)分布的特征, 可以通過建立回歸模型進行預(yù)報.
根據(jù)氣象學(xué)定義, 入冬日為當(dāng)年滑動平均氣溫序列連續(xù)5天小于10 ℃, 則以其對應(yīng)的常年氣溫序列中第一個小于10 ℃的日期作為入冬初日, 由圖1可見入冬日在2007年后略有提前, 2007-2021年蠟梅初花期多數(shù)晚于入冬初期, 相差不超過5 d, 其中入冬初日最早出現(xiàn)日期為2019年11月30日, 蠟梅初花期則為12月14日, 入冬初日最晚出現(xiàn)日期為2007年12月28日, 但是當(dāng)年蠟梅初花期并未延后, 接近平均初花期.
圖1 2007-2021年蠟梅花初花期及入冬日變化圖
對2007-2021年蠟梅花開花前期氣溫趨勢圖(圖2)分析發(fā)現(xiàn), 近16 a的時間段內(nèi), 11月平均氣溫為13.9 ℃, 11月中旬平均氣溫為14.0 ℃, 11月下旬平均氣溫為12.0 ℃, 其中下旬氣溫除2009年為9.8 ℃, 2011年為16.6 ℃外, 氣溫主要集中在10 ℃~14 ℃之間, 其中花日序與11月下旬平均氣溫相關(guān)系數(shù)最高(0.444), 這與前人研究結(jié)論基本一致[24], 即蠟梅開花時的適宜溫度在10 ℃左右, 溫度越低, 花蕾比例越高, 且隨著溫度的升高, 花蕾開花數(shù)量隨之增加. 由圖2可知,t≥10 ℃活動積溫趨勢與11月中旬平均氣溫趨勢基本一致,t≥10 ℃活動積溫主要集中在221 ℃~432 ℃之間, 其中2015年積溫最大, 為431.2 ℃, 其次是2011年, 為379.1 ℃, 最小值出現(xiàn)在2009年. 花日序與t≥10 ℃活動積溫呈正相關(guān)性, 相關(guān)系數(shù)為0.486, 說明花期與t≥10 ℃活動積溫的關(guān)系較為密切.
圖2 蠟梅初花期前期氣溫趨勢圖
本研究利用SPSS軟件將表1中的18個氣象因子作為原始輸入變量, 以降維方式提取主成分, 提取出的主成分是原始變量的綜合考量, 簡化數(shù)據(jù)的復(fù)雜度. 采用PCA算法分別對18項影響因素進行特征值和特征向量計算, 從表2中可知, 前6個主成分均大于1, 累積貢獻率為85.239%, 對比旋轉(zhuǎn)載荷平方和的結(jié)果, 發(fā)現(xiàn)兩者累計貢獻率一致, 基本上可以反映氣象因子的大部分信息.
表2 2007-2021年氣象資料主成分特征值和方差貢獻率
表3是2007-2021年氣象因子主成分特征向量值, 由表3可知, 在第1主成分的特征向量中, 特征值大于0.8的因子是t≥10℃活動積溫、 11月中旬極端最低氣溫、 11月中旬平均氣溫, 說明第1主成分中初花期與11月中旬的氣溫有著緊密的相關(guān)性; 在第2主成分的特征向量中, 特征值絕對值大于0.8的因子是11月上旬日照、 11月上旬極端最高氣溫、 11月雨日, 其中正值最大的是11月上旬日照(0.862), 負(fù)值最小的是11月雨日(-0.862), 說明第2主成分中初花期與光照和雨水關(guān)系較大; 第3主成分的特征向量中, 最大的正值是11月中旬日照, 而最小的負(fù)值是11月下旬日照, 說明在第3主成分中初花期主要受日照的影響; 同理, 第4主成分中初花期受11月上旬氣溫的影響較大, 第5主成分中初花期受11月上旬降水和11月下旬最高氣溫的影響較大, 第6主成分中初花期受11月中旬降水的影響較大. 根據(jù)主成分的特征向量, 獲得6個主成分與氣象因子間的線性方程, 即第1主成分(F1)為各氣象因子與主成分系數(shù)的積相加的總和:
(1)
表3 2007-2021年氣象資料主成分特征向量
2.3.1 模型構(gòu)建
以主成分分析法得到的影響蠟梅花初花期的6個主成分作為預(yù)測模型的影響因子, 以蠟梅花初花期年日序為目標(biāo), 構(gòu)建BP網(wǎng)絡(luò)神經(jīng)預(yù)測模型, 在建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型過程中, 基于Boosting 集成學(xué)習(xí)思想, 模型的擬合高達(dá)99%, 其中預(yù)測值與實際值的相關(guān)性為0.99, 通過了α=0.01的檢驗, 標(biāo)準(zhǔn)差為0.171, 均方根誤差為0.17.
以6個主成分作為自變量, 蠟梅花初花期日序為因變量, 利用SPSS軟件, 運用逐步回歸算法建模, 得到預(yù)報模型:
Y=278.196+0.019F2
(2)
從模型中可看出, 主成分2是影響蠟梅花初花期的關(guān)鍵氣象因子, 結(jié)合表3可知, 11月上旬的光照、 氣溫及雨水日數(shù)是影響初花期主要氣象因子. 利用逐步回歸預(yù)報模型對2007-2017年的初花期日序進行擬合, 模型預(yù)測值與實際值的相關(guān)性為0.77, 通過了α=0.01的檢驗, 標(biāo)準(zhǔn)差為2.212, 均方根誤差為2.10.
繪制模型預(yù)測值與實際值對比發(fā)現(xiàn)(圖3), BP模型預(yù)測值與實際值的趨勢, 除2008年外, 其余年份的趨勢基本重合, 其中誤差最大年份是2008年, 誤差為1 d; 基于逐步回歸算法的預(yù)測值與實測值的誤差較BP神經(jīng)網(wǎng)絡(luò)的模型較大, 平均誤差有1.7 d, 最小誤差出現(xiàn)在2011年, 與實測值基本一致; 最大誤差出現(xiàn)在2010年(5 d), 其余年份與實測值基本相差1 d左右.
圖3 模型預(yù)測值與實際值對比圖
2.3.2 預(yù)測模型回代檢驗
將2018-2021的數(shù)據(jù)代入該模型進行進一步預(yù)測效果檢驗, 繪制檢驗結(jié)果對比圖(圖4), 從圖中可知, 基于逐步回歸算法的預(yù)測模型較基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型的誤差較?。?基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型回代檢驗平均誤差為3.3 d, 其中2019年預(yù)測值與實測值誤差最大(提前了5 d), 誤差值最小值出現(xiàn)2021年, 與實測值基本一致, 2018年和2020年均延后了4 d; 基于逐步回歸算法的預(yù)測模型的平均誤差為2.1 d, 誤差值最大的年份同樣出現(xiàn)在2019年, 延后了3 d, 誤差值最小的年份出現(xiàn)在2021年, 與實測值基本一致. 造成誤差的原因是由于構(gòu)建預(yù)報模型時出于預(yù)報時效性考慮, 選擇11月的氣象要素作為主要因子, 若蠟梅受前期氣象要素的影響, 導(dǎo)致生長期的變化, 花期也易相應(yīng)得到改變; 同時若臨近預(yù)測期的天氣情況有較大的關(guān)系, 若常年初花期前出現(xiàn)持續(xù)晴好天氣或者陰雨天氣, 易提前或推遲花期. 因此在實際應(yīng)用過程中, 需根據(jù)蠟梅生育期情況, 結(jié)合實際氣候趨勢, 進行訂正.
圖4 模型檢驗對比
對比2種建模方法發(fā)現(xiàn)(表4), 在2007-2017年訓(xùn)練集中, 2種預(yù)測模型的效果都較好, 其中基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型效果最好, 其預(yù)測值的獨立樣本更接近實測值, 標(biāo)準(zhǔn)差低于基于逐步回歸算法的預(yù)測, 線性相關(guān)性也較強.
表4 各模型預(yù)測模型的預(yù)測值與實測值統(tǒng)計分析
選取2018-2021年的有效數(shù)據(jù)作為檢驗樣本, 由表4中可知, 2種預(yù)測模型的預(yù)測效果較訓(xùn)練時有所下降, 從檢驗樣本來看, 基于逐步回歸算法的預(yù)測模型獨立樣本值, 即最大值、 最小值都較基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測值更接近實測值; 從標(biāo)準(zhǔn)差和平均絕對誤差來看, 同樣基于逐步回歸算法的預(yù)測模型表現(xiàn)要優(yōu)于另外一種預(yù)測模型. 同時從線性相關(guān)性來看, 基于逐步回歸算法的預(yù)測模型在建模和回代檢驗的過程中, 線性相關(guān)性都較穩(wěn)定, 均在0.78左右. 總體來說, 從預(yù)報檢驗結(jié)果來看, 基于逐步回歸算法的預(yù)測模型在檢驗過程中更優(yōu)于基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型.
繪制2007-2017年模型預(yù)報初花期日序箱線圖(圖5a), 從箱線上下邊緣可見, 基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型較基于逐步回歸算法的模型更接近實測值; 從箱體來看基于逐步回歸算法的模型的預(yù)測值較為集中, 箱體主要在343.3~345.6之間, 中位數(shù)344; 基于BP神經(jīng)網(wǎng)絡(luò)算法的模型的箱體則在343.2~346.1之間, 中位數(shù)343; 實測值的箱體則在343.25~346之間, 中位數(shù)344. 綜上所述, 基于BP神經(jīng)網(wǎng)絡(luò)算法的模型較接近實測值.
繪制2018-2021年模型預(yù)報初花期日序箱線圖(圖5b), 從圖中可知, 2018-2021年實測值整體較為集中, 上邊緣349, 下邊緣345, 上四分位348, 下四分位346, 中位數(shù)347; 基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測值的上邊緣和上四分位基本接近, 分別是349.34和349.19, 下邊緣342.54, 下四分位343.19, 中位數(shù)346.28; 基于逐步回歸算法的模型的上邊緣348, 下邊緣341.85, 上四分位347.59, 下四分位343.52, 中位數(shù)345.6; 兩個模型對比可見, 基于逐步回歸算法的預(yù)報模型較基于BP神經(jīng)網(wǎng)絡(luò)算法的模型的最大值與實測值基本一致, 最小值基于BP神經(jīng)網(wǎng)絡(luò)算法更接近實測值, 但從整個箱體來看, 基于逐步回歸算法的模型較BP神經(jīng)網(wǎng)絡(luò)算法更穩(wěn)定.
圖5 2007-2021年模型預(yù)報初花期日序箱線圖
為探索蠟梅花早熟品種的初花期的預(yù)測, 本研究基于PCA通過BP神經(jīng)網(wǎng)絡(luò)算法及逐步回歸算法, 構(gòu)建了2007-2021年初花期預(yù)測模型, 并對2種預(yù)測模型的預(yù)報效果進行對比檢驗, 篩選最優(yōu)預(yù)測模型. 結(jié)果表明, 基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型在訓(xùn)練中的預(yù)報擬合率高達(dá)99%, 與實測值的相關(guān)性超過了0.9, 擬合度較高, 在回代檢驗中擬合率低于訓(xùn)練時; 基于逐步回歸算法的預(yù)測模型在訓(xùn)練中與實測值誤差大于基于BP神經(jīng)網(wǎng)絡(luò)算法, 平均誤差為1.7 d, 在回代檢驗中效果明顯優(yōu)于基于BP神經(jīng)網(wǎng)絡(luò)算法, 且線性相關(guān)性也較穩(wěn)定; 同時在回代模型中基于逐步回歸算法的預(yù)測模型的獨立樣本值、 標(biāo)準(zhǔn)差和平均絕對誤差也同樣優(yōu)于基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型. 總體來說, 基于逐步回歸算法的預(yù)測模型更優(yōu)于基于BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測模型.
花期預(yù)測模型的基礎(chǔ)就是預(yù)報因子的篩選, 主成分分析法(PCA)是機器學(xué)習(xí)方法中對多指標(biāo)綜合分析方法, 這種分析方法能夠從多水平、 多因素著手, 綜合分析各指標(biāo)的整體效應(yīng), 使篩選出的結(jié)果更具有科學(xué)性. 但是蠟梅花開花的生育期, 不僅僅受氣象要素的影響, 還與田間管理、 肥料、 品種等多方面有著密切的關(guān)聯(lián), 因此通過機器學(xué)習(xí)建立預(yù)測模型, 還存在一定的偏差. 同時, 本研究蠟梅花的生育期觀測資料還較少, 預(yù)測模型還有較大的不確定性, 因此在后續(xù)研究中, 需進行持續(xù)觀測, 收集更多的蠟梅花花期樣本資料, 不斷地調(diào)試模型, 提高預(yù)測精度.