李晨彤
(國家海洋環(huán)境預(yù)報中心,北京 100081)
厄爾尼諾-南方濤動(ElNi?o-Southern Oscillation,ENSO)預(yù)測模型目前大體可分為動力模式和統(tǒng)計模式兩種[1-4]。動力模式(確定論)利用了物理規(guī)律,沒有利用或沒有充分利用已有的大量實況歷史資料;統(tǒng)計模式(概率論)利用了積累的大量實況資料,卻沒有利用或沒有充分利用我們掌握的物理規(guī)律。動力模式在短期預(yù)測上是成功的,但對長期預(yù)測而言,單純的動力學(xué)方法難以奏效。統(tǒng)計模式基于歷史資料進(jìn)行統(tǒng)計分析,無法區(qū)分現(xiàn)有資料中哪些聯(lián)系是本質(zhì)的,哪些是偶然的。實踐表明,動力方法和統(tǒng)計方法都有一定的準(zhǔn)確率,兩者都能反映大氣運動的部分規(guī)律[5-7]。
目前,ENSO 預(yù)測模式的預(yù)測能力仍然表現(xiàn)出不穩(wěn)定性[8-9]。研究顯示,采用統(tǒng)計方法對模式預(yù)測結(jié)果進(jìn)行集合訂正,可以減小模式誤差對預(yù)報的影響[10-11]。多模式集合訂正是提升ENSO 預(yù)報技巧和預(yù)測能力的有效方法[12-17]。機(jī)器學(xué)習(xí)作為一項新的技術(shù),它的優(yōu)勢之一是對機(jī)制尚未清楚的問題進(jìn)行分析、聯(lián)想、記憶、學(xué)習(xí)和推斷[18]。機(jī)器學(xué)習(xí)方法的引入使得氣象預(yù)報和氣候預(yù)測的運算量減小、運算速度加快、運算精度提高,但也存在過擬合和泛化效果差等問題[19-25]。因此,需要尋找合適的機(jī)器學(xué)習(xí)方法對ENSO 多模式預(yù)測結(jié)果進(jìn)行集合訂正,提高ENSO 預(yù)測的準(zhǔn)確率,更好地應(yīng)對ENSO 事件產(chǎn)生的影響。
近年來,國內(nèi)外研究人員基于各種機(jī)器學(xué)習(xí)方法開展海表面溫度(Sea Surface Temperature,SST)、海表面溫度異常(Sea Surface Temperature Anomaly,SSTA)和Ni?o3.4 指數(shù)的預(yù)測研究工作。Ham 等[26]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行了18 M 超前預(yù)報時效的SSTA 和Ni?o3.4指數(shù)預(yù)測。1984—2017年的預(yù)報結(jié)果表明,CNN 模型的Ni?o3.4 指數(shù)預(yù)報技巧遠(yuǎn)高于目前最先進(jìn)的動力模式,同時,該模型也能更好地預(yù)測海面溫度的詳細(xì)區(qū)域分布,克服了動態(tài)預(yù)測模型的弱點。Zhang 等[27]使用長短時記憶模型(Long Short-Term Memory,LSTM)對渤海SST進(jìn)行預(yù)測,較傳統(tǒng)方法的預(yù)報準(zhǔn)確度有所提升,均方根誤差(Root Mean Squard Error,RMSE)減小。Aguilar-Martinez等[28-29]分別使用貝葉斯神經(jīng)網(wǎng)絡(luò)、支持向量回歸和線性回歸建立熱帶太平洋區(qū)域SSTA 預(yù)測模型對ENSO 進(jìn)行預(yù)測,可信度較高,超前預(yù)報時效較傳統(tǒng)模型可提升至12 M,且非線性預(yù)報模型優(yōu)于線性預(yù)報模型。Nooteboom[30]等結(jié)合自回歸整體滑動平均方 法(Autoregressive Integrated Moving Average Model,ARIMA)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)建立了一種Ni?o3.4 指數(shù)預(yù)報模型,并根據(jù)Zebiak-Cane(ZC)模式的測試結(jié)果進(jìn)行特征選擇,針對不同超前預(yù)報時效選取不同輸入因子。該模型在6 M以內(nèi)超前時效上的技巧評估優(yōu)于氣候預(yù)測系統(tǒng)版本2(Climate Forecast System version 2,CF Sv2)集成。此外,2010 年1 月起報的預(yù)測結(jié)果優(yōu)于CFSv2集合的所有成員。許柏寧等[31]使用序列到序列模型預(yù)測Ni?o3.4 指數(shù),可以較好地預(yù)測出SSTA 變化趨勢,但在峰值處表現(xiàn)較差。其結(jié)果與傳統(tǒng)的動力學(xué)ENSO 預(yù)報模型相比,在中長期(提前7 M以上)預(yù)測上的RMSE表現(xiàn)更好。何丹丹等[32]搭建了基于Attention機(jī)制的序列到序列預(yù)報模型進(jìn)行Ni?o3.4 區(qū)SST 預(yù)測,在短期預(yù)測上其預(yù)測結(jié)果與其他方法相當(dāng),長期預(yù)測中RMSE 比其他方法下降了0.3~0.4。蔣國榮等[33]使用后向傳播(Back Propagation,BP)算法進(jìn)行ENSO 預(yù)報,可以較好地預(yù)測ENSO 事件(關(guān)鍵區(qū)海溫的變化趨勢)。但預(yù)報技巧評估依賴于預(yù)報時效,當(dāng)預(yù)報時效較短時,預(yù)報技巧評估較好,反之,則較差。結(jié)果還表明,增加隱含層神經(jīng)元個數(shù)對預(yù)報技巧評估改進(jìn)不大。以上研究說明,搭建機(jī)器學(xué)習(xí)模型進(jìn)行ENSO預(yù)測,在短期預(yù)測和長期預(yù)測上預(yù)報技巧評估都相當(dāng)或優(yōu)于傳統(tǒng)的動力模式和統(tǒng)計模式[34]。跟傳統(tǒng)方法一樣,也存在隨著預(yù)報時效增加,預(yù)報技巧評估變差的現(xiàn)象。
本研究基于預(yù)測會商工作的思想,利用可解釋機(jī)器學(xué)習(xí)方法——決策樹算法建立了多模式ENSO預(yù)測結(jié)果智能會商系統(tǒng),模擬會商工作的流程,并給出預(yù)測結(jié)論及預(yù)測依據(jù)。在建模過程的可解釋方面,該智能會商系統(tǒng)給出了各模式預(yù)測結(jié)果的特征重要性。不同的決策樹模型表現(xiàn)出較為一致的偏好,超前預(yù)報時效較短時偏重于動力模式,較長時偏重于統(tǒng)計模式。這與在不同超前預(yù)報時效上,動力模式和統(tǒng)計模式預(yù)報技巧的高低相吻合。黑盒模型無法給出該解釋,只能給出預(yù)測結(jié)果。
特征值:從美國哥倫比亞大學(xué)氣候預(yù)測國際研究所(International Research Institute for Climate and Society, IRI)官網(wǎng)(網(wǎng)址:https://iri.columbia.edu/~forecast/ensofcst/Data/)下載多個模式的季節(jié)性(3 M滑動平均)Ni?o3.4指數(shù)預(yù)測結(jié)果。目前,IRI官網(wǎng)收錄的模式數(shù)達(dá)十余個,基于特征數(shù)據(jù)集的連續(xù)性和完整性考慮,篩選出預(yù)測結(jié)果時間序列較長和缺失值較少的模型預(yù)測結(jié)果作為訂正對象,輸入智能會商系統(tǒng)。動力模式來自歐洲中期天氣預(yù)報中心(European Centre for Medium-Range Weather Forecasts,ECMWF)、日本氣象廳(Japan Meteorological Agency,JMA)、美國國家航空航天局(National Aeronautics and Space Administration,NASA)、美國國家環(huán)境預(yù)報中心(National Centers for Environmental Prediction,NCEP)、美國哥倫比亞大學(xué)拉蒙地球觀測中心(Lamont-Doherty Earth Observatory,LDEO)、韓國氣象局和首爾國立大學(xué)(Korean Meteorological Adminstration and Seoul National University,KMA SNU);統(tǒng)計模式有美國氣候預(yù)測中心馬爾可夫(Climate Prediction Center MRKOV),美國氣候預(yù)測中心模擬構(gòu)建(Climate Prediction Center Constructed Analog,CPC CA)、美國科羅拉多州立大學(xué)氣候預(yù)測(Colorado State University CLImate PRediction,CSU CLIPR)。
標(biāo)簽值:從美國國家環(huán)境預(yù)報中心(網(wǎng)址:https://www.cpc.ncep.noaa.gov/data/indices/)下載ERSST v5 季節(jié)性(3M 滑動平均)Ni?o3.4 指數(shù)數(shù)據(jù),作為監(jiān)督學(xué)習(xí)的標(biāo)簽值。
缺失值處理:對各模式預(yù)測結(jié)果的缺失值進(jìn)行插值處理。
依據(jù)訓(xùn)練集(2002—2017 年數(shù)據(jù))和測試集(2018—2020 年數(shù)據(jù))的劃分,分別構(gòu)造多模式超前1~9 個季節(jié)性滑動平均月(下文中分別簡稱超前1~9 M)預(yù)報時效預(yù)測結(jié)果的數(shù)據(jù)集。
皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)r:衡量預(yù)測值同觀測值之間相關(guān)程度的量。
均方根誤差(Root Mean-Square Error,RMSE):衡量預(yù)測值同觀測值之間離散程度的量。
平均絕對誤差(Mean Absolute Error,MAE):衡量預(yù)測值同觀測值之間偏差大小的量。
式中,fi為預(yù)測值;yi為觀測值;ei為預(yù)測值與觀測值之間的誤差。
決策樹(Decision Trees)是一種用來分類或者回歸的監(jiān)督學(xué)習(xí)方法[35-36],相較其他機(jī)器學(xué)習(xí)方法,決策樹模型具有所需訓(xùn)練數(shù)據(jù)少、準(zhǔn)確性高和可解釋性等方面的優(yōu)勢。因此,本研究選用可解釋的決策樹模型進(jìn)行機(jī)器學(xué)習(xí)建模。
單棵決策樹容易出現(xiàn)過擬合的問題,泛化能力有限。通過某種集合策略將多顆決策樹組合起來的決策樹算法——集成學(xué)習(xí)(Ensemble Learning),能夠構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),泛化能力得到提升。根據(jù)個體學(xué)習(xí)器的生成方式,集成學(xué)習(xí)方法大致可以分為提升法(Boosting)和套袋法(Bagging)[37]。
Boosting 是一簇可將弱學(xué)習(xí)器提升為強學(xué)習(xí)器的算法?;贐oosting 的方法主要有:梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)[38]、極端梯度提升(eXtreme Gradient Boosting,XGBoost)[39]和輕量梯度提升機(jī)(light Gradient Boosting Machine,lightGBM)[40]。
Bagging 基于自助采樣法(bootstrap sampling),也叫有放回重采樣法?;贐agging 的方法主要為隨機(jī)森林(Random Forest,RF)[41]。
機(jī)器學(xué)習(xí)算法中的調(diào)優(yōu)參數(shù)(Tuning Parameters)需要人為設(shè)定,稱為超參數(shù)(Hyper Parameter)。在算法中,它們作為參數(shù)傳遞給估計器類的構(gòu)造函數(shù)。用于搜索超參數(shù)最佳配置的策略包括:網(wǎng)格搜索交叉驗證(Grid Search with Cross-Validation,Grid Search CV)和隨機(jī)搜索交叉驗證(Randomized Search with Cross-Validation,Randomized Search CV)等。本文結(jié)合兩種方法的優(yōu)勢,揚長避短,先通過Grid Search CV 尋找出超參數(shù)最佳配置的大致范圍,然后利用Randomized Search CV在該范圍內(nèi)搜索出超參數(shù)的最佳配置。
在預(yù)報預(yù)測產(chǎn)品發(fā)布前,通常需要一個必不可少的會商過程來綜合匯總各預(yù)報結(jié)果,博采眾長,以有效降低或避免因主觀性和經(jīng)驗性導(dǎo)致的空報、錯報甚至漏報,提高預(yù)報準(zhǔn)確率。會商通常包括收集整理、分析處理和可視化等步驟,并作出最終的預(yù)報結(jié)論及依據(jù)。在此過程中,存在著大量重復(fù)性工作。因此,本實驗借鑒會商工作的思想,借助機(jī)器學(xué)習(xí)方法在快速完成繁瑣工作方面的優(yōu)勢,模擬ENSO 預(yù)測會商過程,建立一個多模式的ENSO 預(yù)測結(jié)果智能會商系統(tǒng),實現(xiàn)流程的智能化和智慧決策。該智能會商系統(tǒng)可以實現(xiàn)讀取各模式預(yù)測結(jié)果、智能調(diào)參、給出Ni?o3.4 指數(shù)預(yù)測結(jié)論及預(yù)測依據(jù)和可視化預(yù)測結(jié)果等一系列流程的自動化。
基于GBDT 的訂正模型中各模式結(jié)果特征重要性方面(見表1),超前1~5 M 和超前7 M 的動力模式預(yù)測結(jié)果平均特征重要性高于統(tǒng)計模式,超前6 M和超前8~9 M的統(tǒng)計模式高于動力模式。
表1 GBDT訂正模型的模式預(yù)測結(jié)果特征重要性及訂正結(jié)果評估Tab.1 Feature importance of the prediction results of GBDT revised model and evaluation of the revised results of GBDTrevised model
從GBDT 模型的訂正結(jié)果時間序列圖可以看出(見圖1),超前1~3 M 的相位和強度與標(biāo)簽值基本一致;超前4~5 M 的相位和強度與標(biāo)簽值偏差較小,存在過擬合問題;超前6~9 M的相位和強度與標(biāo)簽值偏差較大,較標(biāo)簽值幅度逐漸變小。總體而言,隨著預(yù)報時效的增加,相位滯后程度逐漸加大,強度偏差也越來越大。
圖1 基于GBDT算法的集合訂正結(jié)果Fig.1 Correction results based on GBDT algorithm
GBDT 模型的訂正結(jié)果評估如表1 所示。超前1~3 M的r在0.9 左右,超前4~5 M在0.8左右,超前6~7 和超前9 M 為0.550~0.581;超前1 M 的RMSE為0.205,超前2~3 M在0.3左右,超前4 M為0.454,超前5~9 M 為0.5~0.6;超前1~3 M 的MAE 在0.2左右,超前4~9 M在0.4左右。
基于XGBoost 的訂正模型中各模式結(jié)果特征重要性方面(見表2):超前1~2 M 的動力模式預(yù)測結(jié)果平均特征重要性高于統(tǒng)計模式,超前3~9 M 的統(tǒng)計模式高于動力模式。
從XGBoost 模型的訂正結(jié)果時間序列圖可以看出(見圖2),超前1~3 M 的相位和強度與標(biāo)簽值基本一致;超前4~5 M 的相位和強度與標(biāo)簽值偏差較小,存在過擬合問題;超前6~9 M 的相位和強度與標(biāo)簽值偏差較大,較標(biāo)簽值幅度逐漸變小。總體而言,隨著預(yù)報時效的增加,相位滯后程度逐漸加大,強度的偏差也越來越大。
圖2 基于XGBoost的集合訂正結(jié)果Fig.2 Correction results based on XGBoost algorithm
XGBoost 模型的訂正結(jié)果評估如表2 所示。超前1~3 M 的r在0.9 左右,超前4~5 M 在0.8 左右,超前6~7 M 達(dá)0.6 以上,超前8~9 M 在0.547 以上;超前1 M的RMSE為0.248,超前3~5 M為0.3~0.4,超前5~9 M為0.5~0.6;超前1~4 M的MAE在0.2~0.3,超前4 M為0.308,超前5~9 M為0.408~0.451。
表2 XGBoost訂正模型的模式預(yù)測結(jié)果特征重要性及訂正結(jié)果評估Tab.2 Feature importance of the prediction results of XGBoost revised model and evaluation of the revised results of XGBoost revised model
基于lightGBM 的訂正模型中各模式結(jié)果特征重要性方面(見表3):超前1~2 M 和超前6 M 的動力模式預(yù)測結(jié)果平均特征重要性高于統(tǒng)計模式,超前3~5 M和超前7~9 M的統(tǒng)計模式高于動力模式。
表3 lightGBM訂正模型的模式預(yù)測結(jié)果特征重要性及訂正結(jié)果評估Tab.3 Feature importance of the prediction model results of lightGBM revised model and evaluation of the revised results of lightGBM revised model
從lightGBM 模型的訂正結(jié)果時間序列圖可以看出(見圖3),超前1~3 M 的相位和強度與標(biāo)簽值基本一致;超前4~7 M的相位和強度與標(biāo)簽值偏差較小,存在過擬合問題;超前8~9 M 的相位和強度與標(biāo)簽值偏差較大,較標(biāo)簽值幅度逐漸變小且趨平??傮w而言,隨著預(yù)報時效的增加,相位滯后程度逐漸加大,強度偏差也越來越大。
圖3 基于lightGBM的集合訂正結(jié)果Fig.3 Correction results based on lightGBM algorithm
lightGBM模型的訂正結(jié)果評估如表3所示。超前1~3 M 的r在0.9 左右,超前4 M 達(dá)到0.8,超前5~7 M為0.6~0.7,超前8~9 M為0.5左右;超前1~3 M的RMSE的r在0.2~0.3,超前4 M為0.441,超前5~9 M為0.5~0.6;超前1~3 M的MAE 在0.2 左右,超前4 M為0.369,超前5~9 M為0.4~0.5。
基于RF 的訂正模型中各模式結(jié)果特征重要性方面:超前1~5 M 和超前7 M 的動力模式預(yù)測結(jié)果平均特征重要性高于統(tǒng)計模式,超前6 M和超前8~9 M的統(tǒng)計模式高于動力模式。具體而言,超前1~3 M 動力模式明顯高于統(tǒng)計模式;超前4~7 M 動力模式和統(tǒng)計模式基本相當(dāng);超前8~9 M動力模式明顯低于統(tǒng)計模式。
從RF 模型的訂正結(jié)果時間序列圖可以看出(見圖4),超前1~3 M 的相位和強度與標(biāo)簽值基本一致;超前4~7 M 的相位和強度與標(biāo)簽值偏差較小,存在過擬合問題;超前8~9 M 的相位和強度與標(biāo)簽值偏差較大,相較標(biāo)簽值幅度逐漸變小??傮w而言,隨著預(yù)報時效的增加,相位滯后程度逐漸加大,強度的偏差也越來越大。
圖4 基于RF的集合訂正結(jié)果Fig.4 Correction results based on RF algorithm
RF 模型的訂正結(jié)果評估如表4 所示。超前1~3 M 的r在0.9 左右,超前4~5 M 在0.8 左右,超前6 M 和超前8~9 M 基本達(dá)到或超過0.6;超前1~3 M的RMSE為0.2~0.3,超前4~6 M和超前8~9 M在0.55 以下;超前1~3 M 的MAE 在0.2 左右,超前4~6 M和超前8~9 M在0.46以下。
表4 RF訂正模型的模式預(yù)測結(jié)果特征重要性及訂正結(jié)果評估Tab.4 Feature importance of the prediction model results of RF revised model and evaluation of the revised results of RF revised model
4 種決策樹算法訂正結(jié)果的時序趨勢隨著預(yù)報時效的增加而趨平,這與輸入訂正模型的模式預(yù)測結(jié)果有關(guān)。特別地,隨著超前預(yù)報時效的增加,起報時間逐漸提前,輸入特征的極值范圍不斷縮小。對于2015年冬季發(fā)生的超強厄爾尼諾事件,起始時段的訂正結(jié)果時間序列呈直線狀,且強度明顯偏弱。這跟機(jī)器學(xué)習(xí)模型的預(yù)測效果依賴于訓(xùn)練集的豐富程度密切相關(guān)。
4 種決策樹算法在不同超前預(yù)報時效上的預(yù)報技巧表現(xiàn)不一,這可能與4 種算法在數(shù)學(xué)方法上選用的目標(biāo)函數(shù)和損失函數(shù)不同,以及在工程實現(xiàn)方面采用的技術(shù)手段不同有關(guān)。XGBoost對異常點敏感;GBDT精度更高且靈活性更強,但運算過程消耗內(nèi)存過大;lightGBM所需內(nèi)存更小且運算速度更快;RF綜合表現(xiàn)良好,相對于其他算法有較大的優(yōu)勢。
隨著超前預(yù)報時效的增加,預(yù)報技巧整體呈下降趨勢。但是,4 種決策樹模型在超前6~9 M 預(yù)報時效上的預(yù)報技巧存在著不同程度的起伏,并不嚴(yán)格隨預(yù)報時效的增加而降低,這可能與決策樹算法的不穩(wěn)定性有關(guān)。
本研究主要得到以下結(jié)論:
(1)在建模特征重要性方面,不同的決策樹模型表現(xiàn)出不同的偏好。整體而言,超前預(yù)報時效較短時,偏重于動力模式,較長時,偏重于統(tǒng)計模式。這與在不同超前預(yù)報時效上,動力模式和統(tǒng)計模式預(yù)報技巧的高低相吻合。
(2)決策樹模型同傳統(tǒng)的動力模式和統(tǒng)計模式一樣,隨著預(yù)報時效的增加,相位滯后程度逐漸加大,強度的偏差也越來越大,甚至有時間序列趨于平緩的趨勢,同時還存在過擬合的問題。不同決策樹模型在不同超前預(yù)報時效上的預(yù)報技巧表現(xiàn)不一,這與機(jī)器學(xué)習(xí)算法的特性有關(guān)。
(3)基于4 種可解釋機(jī)器學(xué)習(xí)算法建立的多模式ENSO 預(yù)測結(jié)果智能會商系統(tǒng),對多模式結(jié)果進(jìn)行集合訂正,預(yù)報技巧達(dá)到或優(yōu)于傳統(tǒng)的動力模式和統(tǒng)計模式水平。這說明使用機(jī)器學(xué)習(xí)算法進(jìn)行多模式集合訂正具有優(yōu)勢,同Ren 等[42]的調(diào)研結(jié)果相一致。
此外,由于機(jī)器學(xué)習(xí)算法本身存在一定的缺陷,機(jī)器學(xué)習(xí)回歸預(yù)測模型的預(yù)報技巧依賴于訓(xùn)練數(shù)據(jù)的豐富程度,對于未經(jīng)訓(xùn)練的極值,無法給出有效預(yù)測結(jié)果。例如,對于2015—2016 年發(fā)生的超強厄爾尼諾事件,該智能會商系統(tǒng)的預(yù)測能力有限。