蔣 薇 劉蕓蕓 陳 鵬 張志薇
1.江蘇省氣候中心,南京,210041 2.國家氣候中心,中國氣象局氣候研究開放實驗室,北京,100081 3.江蘇省氣象信息中心,南京,210041 4.江蘇省氣象科學(xué)研究所,南京,210041
中國東部地區(qū)受東亞季風(fēng)活動影響,是洪澇災(zāi)害較為嚴(yán)重的地區(qū)之一(黃榮輝等,2003;Ding,et al,2021)。因此,針對東部地區(qū)夏季降水預(yù)測的研究一直是氣候研究的重要課題之一(丁一匯等,1997;Fan,et al,2008;魏鳳英等,2010)。準(zhǔn)確的降水預(yù)測是洪澇防治和防災(zāi)、減災(zāi)的關(guān)鍵(馮強等,2001)。
影響中國東部夏季旱澇的物理過程和影響因子眾多,諸如東亞季風(fēng)、西北太平洋副熱帶高壓、中高緯度大氣模態(tài)、ENSO循環(huán)、西太平洋熱力狀況等(高輝等,2003;張慶云等,2007;梁萍等,2008;朱蒙等,2014;李秀真等,2018;劉蕓蕓等,2009,2020)。此外,由于預(yù)測因子之間存在復(fù)雜的相互聯(lián)系,使得夏季降水預(yù)測面臨巨大的挑戰(zhàn)(彭京備等,2006;楊杰等,2012;杜良敏等,2016)。近年來中國夏季降水預(yù)測準(zhǔn)確率為60%—70%,而長江流域只有50%左右(李維京等,2013)。江蘇省地處中國東部地區(qū),位于長江、淮河下游,河湖縱橫,水網(wǎng)密布,洪澇災(zāi)害不容忽視,例如1991年夏季江淮流域暴雨、1998年長江全流域特大洪水、2003和2007年淮河流域洪澇災(zāi)害、2016年長江中下游地區(qū)區(qū)域性暴雨等事件,都造成了人員傷亡和巨大經(jīng)濟損失。因此,提高對江蘇夏季旱澇的預(yù)測能力意義重大。
進(jìn)入21世紀(jì)以來,機器學(xué)習(xí)方法在諸多領(lǐng)域得到了越來越多的應(yīng)用,涌現(xiàn)出了大量研究成果(Gers,et al,2000;Ranzato,et al,2007;LeCun,et al,2015)。其中,由多層感知機基礎(chǔ)上發(fā)展而來的人工神經(jīng)網(wǎng)絡(luò)(ANN)成為機器學(xué)習(xí)領(lǐng)域發(fā)展最快的一個分支,在此基礎(chǔ)上發(fā)展出了遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和深度神經(jīng)網(wǎng)絡(luò)(DNN)等適應(yīng)于不同應(yīng)用場景的神經(jīng)網(wǎng)絡(luò)方法。與傳統(tǒng)的統(tǒng)計方法相比,神經(jīng)網(wǎng)絡(luò)模型由于結(jié)構(gòu)復(fù)雜,訓(xùn)練數(shù)據(jù)量大,往往能夠通過機器學(xué)習(xí)獲取更加復(fù)雜的時間、空間甚至是物理特征,因此被廣泛應(yīng)用于政府決策、工業(yè)生產(chǎn)、金融預(yù)測、科學(xué)研究等領(lǐng)域,且取得了不錯的效果(Tompson,et al,2014;Yan,et al,2018)。
數(shù)據(jù)和算法是氣象預(yù)報、預(yù)測的核心。隨著觀測手段及預(yù)報、預(yù)測業(yè)務(wù)的發(fā)展,氣象數(shù)據(jù)的覆蓋范圍廣、時間頻次高,為利用機器學(xué)習(xí)算法提升氣象預(yù)報、預(yù)測水平提供了有力的數(shù)據(jù)基礎(chǔ)和技術(shù)支撐。另外,天氣、氣候系統(tǒng)是典型的非線性復(fù)雜系統(tǒng),預(yù)報、預(yù)測涉及的要素多,關(guān)系復(fù)雜。傳統(tǒng)的預(yù)測方法存在一定的局限性,其中天氣學(xué)方法主要依賴于預(yù)報員的主觀經(jīng)驗,而統(tǒng)計學(xué)方法則沒有充分利用已知的物理規(guī)律,二者都很難實現(xiàn)真正意義上的非線性預(yù)報(任宏利等,2007)。20世紀(jì)90年代,已有相關(guān)研究工作(孫照渤等,1998)嘗試將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于夏季降水預(yù)報中。近十幾年來,機器學(xué)習(xí)技術(shù)在氣象預(yù)報領(lǐng)域得到了越來越多地應(yīng)用,已有一些學(xué)者(孫軍波等,2010;孫照渤等,2013;孔令 彬 等,2014;李 文 娟 等,2018;Kamani,et al,2018;Haberlie,et al,2019;孫全德等,2019;任萍等,2020;周康輝等,2021)將機器學(xué)習(xí)應(yīng)用于短時臨近預(yù)報和天氣模式的預(yù)報訂正中,研究表明利用機器學(xué)習(xí)方法和觀測、預(yù)測數(shù)據(jù)可以實現(xiàn)有效信息的提取,實現(xiàn)更準(zhǔn)確的天氣預(yù)報。也有一些研究(李智才等,2006;Kisi,et al,2012;Ho,et al,2014;苗春生等,2017;Reichstein,et al,2019;沈皓俊等,2020)在極端氣候事件、環(huán)流異常、全球溫度變化等方面進(jìn)行了探討?;跈C器學(xué)習(xí)方法,利用多因子建模開展對中國汛期區(qū)域降水的預(yù)測,近年來也已取得了一些突破性進(jìn)展。例如,Wei等(2020)用決策樹方法嘗試構(gòu)建了中國汛期降水預(yù)測模型;Tong等(2019)發(fā)展了一套遞歸隨機森林方法,從中國氣象局國家氣候中心發(fā)布的88個環(huán)流因子中選取出影響華北降水異常的決定性因子;Gao等(2019)運用多元Logistic回歸的方法建立了中國東部降水的客觀預(yù)測模型。這些研究成果無疑為進(jìn)一步提升季節(jié)預(yù)測準(zhǔn)確率提供了一個新的研究方向。
深度神經(jīng)網(wǎng)絡(luò)模型可以嘗試從樣本量較小的氣候數(shù)據(jù)中發(fā)現(xiàn)和學(xué)習(xí)復(fù)雜非線性特征(Tompson,et al,2014;Yan,et al,2018)。本研究利用江蘇省67個國家級氣象觀測站降水資料和氣候指數(shù)數(shù)據(jù)集,基于深度神經(jīng)網(wǎng)絡(luò)模型對江蘇省夏季降水開展季節(jié)預(yù)測試驗,構(gòu)建夏季降水預(yù)測模型,并與傳統(tǒng)統(tǒng)計方法和多種機器學(xué)習(xí)算法的預(yù)測效果進(jìn)行對比。在此基礎(chǔ)上,通過對深度神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)量以及學(xué)習(xí)率等超參數(shù)進(jìn)一步對比優(yōu)化(Wistuba,et al,2015),從而獲得最優(yōu)超參數(shù)方案。最后,對比分析不同預(yù)測因子組合的預(yù)測結(jié)果,討論影響深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果的因素。本研究嘗試將深度學(xué)習(xí)方法與氣候預(yù)測業(yè)務(wù)融合,為氣候預(yù)測提供一種新思路,推動氣候預(yù)測業(yè)務(wù)智能化發(fā)展。
降水觀測資料是由江蘇省氣象信息中心提供的全省70個國家級氣象觀測站(圖1)1961—2019年夏季(6—8月)降水?dāng)?shù)據(jù),經(jīng)過質(zhì)量控制剔除存在缺測的站點,實際使用站點為67個。本研究中氣候態(tài)為1981—2010年30 a的平均值,這里關(guān)注夏季降水異常分布,預(yù)測對象和建模時使用的是各站的降水距平百分率。
圖1 江蘇省70個國家級氣象觀測站分布Fig.1 Distribution of 70 national observation stations in Jiangsu province
此外,選取了由中國國家氣候中心以及美國國家海洋和大氣管理局(NOAA)發(fā)布的共130項氣候指數(shù)數(shù)據(jù)集作為預(yù)測因子(王啟光等,2011),起始時間為1961年1月至2019年3月。將其分為88項大氣環(huán)流指數(shù)、26項海溫指數(shù)和16項積雪、海冰等陸面因子氣候指數(shù)(楊杰等,2012;沈皓俊等,2020)。數(shù)據(jù)取自http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php。所有因子均分別經(jīng)過歸一化處理后再輸入模型進(jìn)行建模和預(yù)測。歸一化公式如下,其中X表示任一預(yù)測因子矩陣,X'為歸一化處理后得到的新矩陣。
所有方案中的因子都應(yīng)用于模型訓(xùn)練,模型在訓(xùn)練過程中迭代更新網(wǎng)絡(luò)權(quán)重的過程,包含了傳統(tǒng)預(yù)測方法中根據(jù)權(quán)重、相關(guān)性篩選預(yù)測因子的過程,通過模型的迭代訓(xùn)練和更新,根據(jù)因子對預(yù)測誤差的貢獻(xiàn),動態(tài)更新各個因子的權(quán)重,其中重要的因子權(quán)重較大,而不重要的因子會得到非常低的權(quán)重。
2.2.1 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)是在感知機基礎(chǔ)上發(fā)展出來的一種具有多個隱含層的人工神經(jīng)網(wǎng)絡(luò)(Schmidhuber,2015)。深度神經(jīng)網(wǎng)絡(luò)內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為3類:輸入層、隱藏層和輸出層,第一層是輸入層,最后一層是輸出層,中間的都是隱藏層。數(shù)據(jù)經(jīng)輸入層進(jìn)入網(wǎng)絡(luò),其維度由實際輸入數(shù)據(jù)的維度決定,經(jīng)過各層向后流動,最后到達(dá)輸出層輸出。
網(wǎng)絡(luò)中間有n個隱藏層,每層含有若干個神經(jīng)元,層與層之間是全連接的,如第i層的任意一個神經(jīng)元一定與第i+1層的任意一個神經(jīng)元相連,對于每個神經(jīng)元之間的局部模型來說,計算包含線性變換和激活函數(shù)兩部分,激活函數(shù)是用來加入非線性因素,解決線性模型所不能解決的問題。不同網(wǎng)絡(luò)層之間是由激活函數(shù)來模擬神經(jīng)元對激勵的響應(yīng),通過選擇不同的激活函數(shù)以及動態(tài)阻斷前后層神經(jīng)元之間的連接,可以使模型更好地學(xué)習(xí)到數(shù)據(jù)的非線性特征,避免出現(xiàn)過擬合的情況。常用的激活函數(shù)有雙曲正切函數(shù)、線性整流函數(shù)、泄露線性整流函數(shù)等,文中使用的是線性整流函數(shù),其優(yōu)勢在于可以解決梯度消失問題,還能加快收斂速度提高學(xué)習(xí)速度(Krizhevsky,et al,2012)。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程包含前向傳播算法和后向傳播算法2個步驟:第1步是前向傳播算法,進(jìn)行一系列線性運算和激活運算,從輸入層開始,一層層向后計算,一直到輸出層,得到輸出結(jié)果。第2步后向傳播算法,選擇一個損失函數(shù),也就是誤差評定標(biāo)準(zhǔn),度量訓(xùn)練樣本計算出的輸出和真實的訓(xùn)練樣本輸出之間的損失,對這個損失函數(shù)進(jìn)行優(yōu)化求最小化的極值過程中,后向不斷對一系列線性系數(shù)w和偏倚向量b進(jìn)行更新,直到達(dá)到預(yù)期效果。
2.2.2 其他預(yù)測方法
此外,還使用輕量級梯度提升機(Light GBM)、隨機森林(RF)、支持向量機(SVM)等機器學(xué)習(xí)方法和線性回歸(LR)方法,比較不同的客觀預(yù)測方法對江蘇省夏季降水的預(yù)測能力。
輕量級梯度提升機是2017年8月微軟公司開源的一個實現(xiàn)梯度提升決策樹算法的框架(Ke,et al,2017),能夠解決樣本量大、數(shù)據(jù)維度高時占用內(nèi)存大、耗費時間長等問題,通過訓(xùn)練回歸決策樹對樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)并做出合理的預(yù)測。
隨機森林是由Breiman(2001)和Adele Cutler提出的機器學(xué)習(xí)算法,通過隨機生成多棵決策樹對樣本進(jìn)行分類回歸,在降低過度擬合情況的前提下實現(xiàn)預(yù)測。其優(yōu)勢體現(xiàn)在可以將高維度數(shù)據(jù)轉(zhuǎn)化為多個變量輸入并且確定最重要的變量,達(dá)到降低數(shù)據(jù)維度的目的。
支持向量機開始提出是為了解決分類問題(Cortes,et al,1995),經(jīng)過推廣可以將之應(yīng)用到求解回歸問題中(Drucker,et al,1997)。利用統(tǒng)計理論中的結(jié)構(gòu)風(fēng)險最小化原則在非線性問題上具有一定的優(yōu)勢,但訓(xùn)練出來的模型往往存在泛化能力差的缺陷,所以需要集成其他算法對模型進(jìn)行進(jìn)一步優(yōu)化。
線性回歸是傳統(tǒng)氣候預(yù)測中應(yīng)用最為廣泛的統(tǒng)計方法(魏鳳英,2007),其具體做法是將變量逐個引入,以保證最后得到的解釋變量集是最優(yōu)的。
2.2.3 評價指標(biāo)
均方根誤差(RMSE)和平均絕對誤差(MAE)是機器學(xué)習(xí)常見的回歸評價指標(biāo)(門曉磊等,2019),其誤差值越小代表模型預(yù)測技巧越高。這里主要參考這兩個指標(biāo)來判斷不同的機器學(xué)習(xí)方法對預(yù)報對象的適用性。氣候趨勢預(yù)測評分(PS)、距平符號一致率(SC)和距平相關(guān)系數(shù)(ACC)是中國氣候預(yù)測業(yè)務(wù)中常用的預(yù)測準(zhǔn)確率評價指標(biāo)(陳桂英等,1998),主要用于對江蘇省夏季降水預(yù)測結(jié)果的評估。
此外,采用交叉檢驗和獨立樣本檢驗(吳洪寶等,2005)兩種方式來評估模型的預(yù)測技巧。為了避免模型過擬合,提高模型泛化能力,增強模型的實際業(yè)務(wù)應(yīng)用能力,本研究將1961—2014年作為訓(xùn)練時段,2015—2019年作為預(yù)測時段,檢驗?zāi)P偷膶嶋H預(yù)測能力。
從江蘇省夏季降水的標(biāo)準(zhǔn)化距平序列(圖2)可以看到,1961—2019年江蘇省夏季降水總體呈現(xiàn)上升趨勢,且表現(xiàn)出明顯的階段性變化。20世紀(jì)60年代至80年代前期為少雨期;80年代后期至90年代前期夏季降水增多,進(jìn)入相對多雨期;90年代中后期夏季降水減少;從90年代末至21世紀(jì)以來,夏季降水再次顯著增加,進(jìn)入多雨期。此外,2015—2019年江蘇省夏季降水階段性特征顯著,2015—2016年為顯著多雨年,2017—2019年則是相對少雨年。近年來,江蘇省夏季降水極端性也較強,2015年蘇南地區(qū)降水量較常年偏多7成,僅次于1991和1999年,夏季前期6—7月江蘇省梅雨量偏多,盛夏期間7—8月先后受到“燦鴻”“蘇迪羅”和“天鵝”3個臺風(fēng)影響,風(fēng)大雨強;2016年夏季“暴力梅”致全省江河湖堤全線超警,梅雨期降水量為430.8 mm,較常年偏多1倍;2017年夏季降水量顯著偏少,區(qū)域性暴雨日數(shù)為1961年以來最少。因此,將2015—2019年作為本研究的預(yù)測時段,具有較好的代表性。
圖2 1961—2019年江蘇省夏季平均降水量標(biāo)準(zhǔn)化距平序列 (黑色線為5 a滑動平均)Fig.2 Time series of normalized anomaly of summer precipitation in Jiangsu province from 1961 to 2019(the black line is the 5 a moving average)
預(yù)測因子的選取是建立預(yù)測模型非常重要的部分,因子選擇是否合適對預(yù)測模型的結(jié)果有很大影響。這里考慮將130項指數(shù)在當(dāng)年1、2月和前一年3—12月的所有因子作為預(yù)測前兆信號使用,共130×12=1560個因子。對因子進(jìn)行初步篩選,把缺測較多的因子去掉,參加建模的共1153個因子。因子中既包含了因子的年際變化尺度,也包含冬春季因子變化對后期的跨季節(jié)影響??紤]到因子的物理意義,將其分為3組,即大氣環(huán)流因子組、海溫因子組和積雪等其他因子組。對比試驗中,在因子組合上考慮了5種方案,方案1—3是單獨考慮大氣環(huán)流因子、海溫因子和積雪等其他因子,方案4是包括所有預(yù)測因子,方案5將前3種方案融合后的動態(tài)權(quán)重集合(表1),5種方案的計算流程如圖3所示。方案5是將方案1—3的模型作為基礎(chǔ)模型,將3個方案產(chǎn)生的預(yù)測結(jié)果作為方案5的預(yù)測因子,進(jìn)行訓(xùn)練,構(gòu)建預(yù)測模型,最終得到動態(tài)的加權(quán)模型,加權(quán)模型能夠在一定程度上降低預(yù)測誤差。
圖3 5種因子方案與計算流程示意Fig.3 Schematic diagram of five factor schemes and calculation process
表1 5種方案的因子選擇組合Table 1 Five different schemes of factor selection and combination
使用深度神經(jīng)網(wǎng)絡(luò)、輕量級梯度提升機、隨機森林、支持向量機和線性回歸等多種預(yù)測方法預(yù)測江蘇省夏季降水,對比不同模型的學(xué)習(xí)和泛化能力,選出最優(yōu)模型。利用上述5種方法和方案4預(yù)測江蘇省夏季降水距平百分率,將1961—2014年作為訓(xùn)練時段,2015—2019年作為預(yù)測時段。表2為預(yù)測的誤差分析結(jié)果,綜合考慮平均絕對誤差和均方根誤差兩個指標(biāo),深度神經(jīng)網(wǎng)絡(luò)模型較其他方法有一定的優(yōu)勢,故選擇深度神經(jīng)網(wǎng)絡(luò)模型做進(jìn)一步的預(yù)測試驗。
表2 不同方法得到的江蘇省夏季降水預(yù)測誤差分析Table 2 Error analysis of summer precipitation prediction in Jiangsu province obtained by different methods
由于不同站點的實際地形、氣候特征存在差異,針對江蘇省67個國家級氣象觀測站分別搭建深度神經(jīng)網(wǎng)絡(luò)模型,并對每個模型的參數(shù)進(jìn)行調(diào)優(yōu),需要調(diào)優(yōu)的參數(shù)如表3所示。深度神經(jīng)網(wǎng)絡(luò)模型是基于PyTorch框架進(jìn)行建模,其中隱含層節(jié)點數(shù)對應(yīng)了每層提取的數(shù)據(jù)特征,節(jié)點數(shù)過少無法提取到足夠多的數(shù)據(jù)特征,節(jié)點數(shù)過多會出現(xiàn)數(shù)據(jù)過擬合的現(xiàn)象,此處隱含層節(jié)點參數(shù)設(shè)為10、20、50和100共4種。神經(jīng)網(wǎng)絡(luò)層數(shù)為5—10層,通過對比不同層數(shù)模型的訓(xùn)練效果,確定最優(yōu)隱含層數(shù)。訓(xùn)練批次是模型的訓(xùn)練迭代次數(shù),學(xué)習(xí)率決定了模型梯度更新的快慢,本研究學(xué)習(xí)率的初始值在訓(xùn)練中設(shè)為0.01,隨著模型訓(xùn)練迭代學(xué)習(xí)率逐漸減少至0.0001,這樣可以保證訓(xùn)練前期模型較快收斂到最優(yōu)值附近,訓(xùn)練后期又能夠更精確地找到全局最優(yōu)解。此外,激活函數(shù)能夠使模型更好地學(xué)習(xí)到數(shù)據(jù)的非線性特征,經(jīng)過對比參數(shù)方案中的3種激活函數(shù)發(fā)現(xiàn),線性整流函數(shù)(Rectified Linear Unit,簡稱ReLU)在實際預(yù)測中能夠起到更好的效果。為了避免數(shù)據(jù)出現(xiàn)過擬合,在模型訓(xùn)練中采用十折交叉驗證,每個訓(xùn)練批次中都將1961—2014年的逐年數(shù)據(jù)隨機分成10份,每一份數(shù)量不需要完全相同。輪流將其中9份作為訓(xùn)練數(shù)據(jù)、1份作為驗證數(shù)據(jù),循環(huán)進(jìn)行10次后,針對每年數(shù)據(jù)都有10個驗證結(jié)果,計算10個驗證結(jié)果的誤差平均作為該訓(xùn)練批次的交叉驗證誤差,在訓(xùn)練達(dá)200個批次時取驗證誤差最小的作為最優(yōu)模型。
表3 深度神經(jīng)網(wǎng)絡(luò)參數(shù)Table 3 DNN network parameters
利用參數(shù)調(diào)優(yōu)后的深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測1961—2019年的江蘇省67個國家級氣象觀測站夏季降水距平百分率,并與觀測結(jié)果進(jìn)行對比。圖4給出了1961—2014年訓(xùn)練時段江蘇區(qū)域平均夏季降水距平百分率的觀測與預(yù)測結(jié)果的對比。方案1—5模擬的夏季降水與觀測值的年際變化幾乎一致,兩者相關(guān)系數(shù)都在0.99以上,達(dá)到0.001的顯著性水平。而2015—2019年預(yù)測時段,方案1—5模擬的夏季降水與觀測值存在一些差異。下面將定量化評估預(yù)測時段的預(yù)測效果。
圖4 1961—2014 年江蘇區(qū)域平均夏季降水的觀測(藍(lán)色柱狀)與訓(xùn)練期模擬結(jié)果(黑線)的逐年變化(a.方案 1,b.方案 2,c.方案 3,d.方案 4,e.方案 5)Fig.4 Time series of observed(blue bars)and predicted(black lines)summer precipitation in Jiangsu province from 1961 to 2014 (a.Scheme 1,b.Scheme 2,c.Scheme 3,d.Scheme 4,e.Scheme 5)
首先對5種方案的訓(xùn)練時段和預(yù)測時段分別進(jìn)行評分。5種方案在訓(xùn)練時段的交叉預(yù)報檢驗結(jié)果都具有很好的評分(表4),PS評分為97.0—99.2,距平符號一致率為0.93—0.98,距平相關(guān)系數(shù)評分為0.95—0.99。但預(yù)測時段的獨立樣本預(yù)報檢驗結(jié)果存在較大差異(表4和圖5)。在方案1中,只使用大氣環(huán)流因子,其5 a回報的PS評分為77.7、符號一致率為0.64,距平相關(guān)系數(shù)達(dá)0.34,總體效果不錯。方案2只使用海溫因子,方案3使用積雪等其他因子,盡管這兩個方案建模在訓(xùn)練期的交叉檢驗結(jié)果僅比方案1稍差,但獨立樣本檢驗結(jié)果不太理想,方案2的5 a平均距平相關(guān)系數(shù)為負(fù)值。方案4是考慮了大氣、海溫、積雪等所有因子,訓(xùn)練期的交叉預(yù)報檢驗結(jié)果評分較方案1有所提升,但獨立樣本檢驗的結(jié)果不如方案1。方案5是方案1—3的動態(tài)權(quán)重集合,包含了所有預(yù)測因子和不同因子方案的信息,具有集合的思想,建模的交叉預(yù)報檢驗結(jié)果有明顯提升,且獨立樣本檢驗結(jié)果也較為穩(wěn)定,PS評分為76.4,距平符號一致率為0.62,距平相關(guān)系數(shù)的5 a均值達(dá)到了0.35,逐年的交叉預(yù)報檢驗結(jié)果僅有1 年為負(fù)值,表明其預(yù)測結(jié)果相對穩(wěn)定,預(yù)測結(jié)論有較好的參考價值。
圖5 5種方案對江蘇省夏季降水2015—2019 年的獨立樣本預(yù)報檢驗評分(a.方案 1,b.方案 2,c.方案 3,d.方案 4,e.方案 5)Fig.5 Independent forecast verification for summer precipitation in Jiangsu province during 2015—2019 through five different schemes(a.Scheme 1,b.Scheme 2,c.Scheme 3,d.Scheme 4,e.Scheme 5)
表4 5種方案的交叉檢驗和獨立預(yù)測檢驗Table 4 Cross-validation and independent forecast verification for five schemes
進(jìn)一步對方案5的逐年空間預(yù)報結(jié)果與觀測進(jìn)行對比分析。在2015—2019年預(yù)測時段,2015年(圖6a)和2019年(圖6c)的江蘇夏季降水空間分布類型有顯著差異:2015年降水以偏多為主,主雨帶位于蘇南地區(qū),而2019年降水則以整體偏少為主。對比這兩年的預(yù)測結(jié)果(圖6b、d)可以看到,預(yù)測的空間型與實況基本相符。此外,2015年預(yù)報偏多2成以上的區(qū)域與實況較為一致,2019年偏少2成以上的區(qū)域也有所體現(xiàn),可見預(yù)測結(jié)果對偏多或者偏少的異常量級把握也較好,在一定程度上能夠預(yù)測出降水的極端性。說明深度神經(jīng)網(wǎng)絡(luò)結(jié)合動態(tài)權(quán)重集合方案的預(yù)報模型對江蘇省夏季降水具備較好的預(yù)測能力。
圖6 2015 (a、b) 和2019 (c、d) 年觀測的 (a、c) 和方案5預(yù)測的 (b、d) 江蘇夏季降水距平百分率 (%) 分布Fig.6 Distributions of observed (a,c) and predicted (b,d) summer precipitation anomaly percentage (%) in Jiangsu province under Scheme 5 in 2015 (a,b) and 2019 (c,d),respectively
江蘇夏季降水根據(jù)時空演變特征可以從南至北劃分為蘇南、江淮和淮北3個區(qū)域(呂軍等,2006)。圖7給出了蘇南地區(qū)(30.5°—32.0°N,118.5°—122.0°E)、江淮地區(qū)(32.0°—33.5°N,118.0°—121.0°E)和淮北地區(qū)(33.5°—35.0°N,116.5°—120.5°E)3個區(qū)域的降水預(yù)測與觀測實況的對比。降水預(yù)測結(jié)果成功地再現(xiàn)了2015—2019年蘇南夏季降水逐年減少的變化特征,降水距平同號率為1,5 a預(yù)測值和觀測值的趨勢都呈現(xiàn)出一致偏多或偏少,其中2019年預(yù)測值與觀測值最為接近(圖7a)。預(yù)測(圖7b)也很好地呈現(xiàn)出2015—2019年江淮地區(qū)夏季降水的下降趨勢,降水距平百分率的同號率為0.8,其中2016和2017年預(yù)測和實況最接近,尤其在2016年,二者幾乎相等?;幢钡貐^(qū)降水預(yù)測結(jié)果(圖7c)和實況在前2年存在一些差異,后3年較為一致,降水距平同號率為0.6,其中2018年預(yù)測與實況趨于一致。由前面的分析可知2018年江蘇全省預(yù)測效果不理想,從分區(qū)域預(yù)測和實況對比來看,主要是由于江淮地區(qū)預(yù)測與觀測趨勢相反,而蘇南和淮北地區(qū)均把握住了偏少的趨勢??梢?,深度神經(jīng)網(wǎng)絡(luò)結(jié)合動態(tài)權(quán)重集合因子的預(yù)報方案能夠較好地預(yù)測江蘇夏季降水,預(yù)測技巧存在一定區(qū)域差異,對江蘇中部和南部的預(yù)測技巧更高,獨立樣本檢驗期5 a評分江淮地區(qū)的PS為78.4,距平相關(guān)系數(shù)為0.39;蘇南地區(qū)的PS為74.9,距平符號一致率為0.34。表明模型對江蘇中南部地區(qū)夏季降水具有更高的預(yù)測能力和業(yè)務(wù)應(yīng)用價值。
圖7 2015—2019 年江蘇省不同區(qū)域(a.蘇南地區(qū),b.江淮之間地區(qū),c.淮北地區(qū))夏季降水的深度神經(jīng)網(wǎng)絡(luò)動態(tài)權(quán)重集合方案預(yù)測結(jié)果與觀測實況的對比Fig.7 Comparison of the observed and predicted summer precipitation in different regions of Jiangsu province(a.South Jiangsu,b.Central Jiangsu,c.North Jiangsu)under DNN dynamic weight set scheme from 2015 to 2019
深度學(xué)習(xí)在氣象中的應(yīng)用目前還處于初級階段,這種數(shù)據(jù)驅(qū)動的方式有可能發(fā)現(xiàn)過去未知的規(guī)律和內(nèi)在聯(lián)系,從而推動氣象領(lǐng)域的新認(rèn)識(Reichstein,et al,2019)。可解釋性一直是人工神經(jīng)網(wǎng)絡(luò)發(fā)展的重大方向,受制于模型的復(fù)雜性以及人們對模型可解釋性的認(rèn)知,深度神經(jīng)網(wǎng)絡(luò)目前還很難像傳統(tǒng)的統(tǒng)計方法或氣候模式一樣找到相對直觀的物理機理解釋。這里,試圖通過對比試驗來初步討論不同因子方案對預(yù)測結(jié)果的影響。
圖8是預(yù)測時段使用不同因子方案的深度神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果與江蘇區(qū)域平均夏季降水實況的對比。與觀測實況相比,深度神經(jīng)網(wǎng)絡(luò)方法整體預(yù)測性能在2015、2016、2019年較好,大部分方案把握住了降水偏多或偏少的異常趨勢,2015年方案1、2、4、5和2016年方案1、4、5都預(yù)測出偏多2成以上,偏多異常預(yù)測正確,2019年方案1、4、5都預(yù)測出偏少2成以內(nèi),其中方案5與實況完全一致,而2017、2018年預(yù)測效果不太理想。比較不同方案發(fā)現(xiàn),大氣環(huán)流因子、所有因子和動態(tài)權(quán)重集合的方案都能較好地模擬出江蘇夏季降水的趨勢變化特征,動態(tài)權(quán)重集合方案與實況更為接近、更加穩(wěn)定,而海溫因子和積雪等其他因子的方案模擬能力年際差異較大,在特定年份表現(xiàn)出技巧,方案2在2015、2016年與觀測值接近,可能與這兩年處于超強厄爾尼諾背景有關(guān);方案3在2018、2019年與觀測值接近,可能與這兩年高原積雪異常信號較為明顯有關(guān)(2017/2018年冬季高原積雪偏少,2018/2019年冬季積雪則異常偏多)。說明海溫和積雪等其他因子在異常信號顯著時對江蘇夏季降水預(yù)測也有正貢獻(xiàn)。
圖8 2015—2019年逐年江蘇區(qū)域平均夏季降水實況與不同因子方案深度神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果對比Fig.8 Comparison between real-time average summer precipitation in Jiangsu from 2015 to 2019 and predictions of different schemes with DNN
表5給出了2015—2019年深度神經(jīng)網(wǎng)絡(luò)結(jié)合不同方案的預(yù)測結(jié)果與觀測的誤差指標(biāo)對比??傮w來看,方案2和方案3預(yù)測結(jié)果的誤差較大,方案1、4、5誤差較小,從誤差分析結(jié)果來看方案5最佳。誤差指標(biāo)對比的結(jié)果同樣是大氣環(huán)流因子、所有因子和動態(tài)權(quán)重集合的方案效果較好,動態(tài)權(quán)重集合方案的誤差最小。綜上所述,大氣環(huán)流因子對江蘇夏季降水預(yù)測有主要貢獻(xiàn),海溫因子和積雪等其他因子的貢獻(xiàn)在不同年份存在差異,動態(tài)權(quán)重集合方案預(yù)測效果最好。
表5 2015—2019年不同因子方案深度神經(jīng)網(wǎng)絡(luò)預(yù)測江蘇夏季降水與觀測的誤差指標(biāo)對比Table 5 Comparison of error index between different DNN schemes for summer precipitation predictions and observations in Jiangsu province
利用1961—2019年江蘇省67個國家級氣象觀測站降水量和氣候指數(shù)數(shù)據(jù)集等資料,選取大氣環(huán)流、海溫和積雪等先兆信號的不同組合作為預(yù)測因子方案,使用深度神經(jīng)網(wǎng)絡(luò)、輕量級梯度提升機、隨機森林、支持向量機和線性回歸等方法建立預(yù)測模型,開展江蘇省夏季降水的預(yù)測試驗,對預(yù)測效果進(jìn)行對比分析,并探討了不同預(yù)測因子方案對江蘇省夏季降水預(yù)測結(jié)果的潛在影響。具體結(jié)論如下:
(1)1961—2019年江蘇省夏季降水總體呈現(xiàn)上升趨勢,且表現(xiàn)出明顯的階段性變化,近5年中2015—2016年為顯著多雨年,2017—2019年為相對少雨年。對比分析深度神經(jīng)網(wǎng)絡(luò)、輕量級梯度提升機、隨機森林、支持向量機和線性回歸等預(yù)測模型對江蘇省夏季降水的預(yù)測結(jié)果誤差特征,發(fā)現(xiàn)利用深度神經(jīng)網(wǎng)絡(luò)模型對江蘇省夏季降水預(yù)測具有一定優(yōu)勢。
(2)不同因子方案的深度神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果在訓(xùn)練時段(1961—2014年)的交叉預(yù)報檢驗結(jié)果都有很好的表現(xiàn),但從預(yù)測時段(2015—2019年)的獨立樣本預(yù)報檢驗結(jié)果來看,動態(tài)權(quán)重集合的方案預(yù)測效果最好,深度神經(jīng)網(wǎng)絡(luò)結(jié)合動態(tài)權(quán)重集合因子方案能夠較好地預(yù)測江蘇夏季降水,獨立樣本檢驗PS評分為76.4,距平符號一致率為0.62,距平相關(guān)系數(shù)的5 a均值達(dá)到了0.35,其預(yù)測結(jié)果較為穩(wěn)定。預(yù)測技巧還存在區(qū)域差異,對江蘇中南部的預(yù)測技巧更高,具有業(yè)務(wù)應(yīng)用價值。
(3)不同預(yù)測因子組合方案的預(yù)測結(jié)果對比分析表明,就單類型因子方案而言,大氣環(huán)流因子方案優(yōu)于海溫因子和積雪等其他因子方案,對江蘇夏季降水預(yù)測有主要貢獻(xiàn),海溫因子和積雪等其他因子的貢獻(xiàn)在不同年份存在差異;所有因子方案優(yōu)于大氣環(huán)流因子方案,說明海溫因子和積雪等其他因子在特定年份有正貢獻(xiàn);將所有因子和方案信息進(jìn)行動態(tài)權(quán)重集合的方案預(yù)測效果最好,說明深度神經(jīng)網(wǎng)絡(luò)模型結(jié)合動態(tài)權(quán)重集合方案有助于提升季節(jié)預(yù)測準(zhǔn)確性。
本研究針對汛期降水預(yù)測這一重點與難點,使用深度神經(jīng)網(wǎng)絡(luò)方法建立預(yù)測模型,有效提升了預(yù)測的準(zhǔn)確性,為汛期降水預(yù)測提供了一種可能的參考。在對比不同預(yù)測因子方案時發(fā)現(xiàn),單獨使用海溫因子的方案預(yù)測效果不佳,且大氣環(huán)流因子總體優(yōu)于海溫和積雪陸面因子,這可能一方面是海溫因子僅考慮了某幾個區(qū)域平均指數(shù),而海溫對大氣和降水的影響需要綜合考慮海溫的不同發(fā)展階段和空間分布型;另一方面這里的分析主要針對江蘇夏季降水,預(yù)報對象區(qū)域范圍較小,關(guān)鍵大氣環(huán)流因子對局地降水的關(guān)系和表征性更為直接,而熱帶海溫異常信號對較小區(qū)域范圍的降水異常的關(guān)系不一定顯著。但也需要指出,本研究的結(jié)果是初步的,而深度學(xué)習(xí)的可解釋性范疇仍是計算機領(lǐng)域的熱點問題,如何更有效地解釋深度神經(jīng)網(wǎng)絡(luò)方法預(yù)測降水的物理機制仍有待于進(jìn)一步探索。
本研究使用近幾十年的觀測數(shù)據(jù)建模,但實際上與機器學(xué)習(xí)方法建模所需要的大量數(shù)據(jù)樣本相比還存在較大差距,會增加模型獲得穩(wěn)定有效特征的難度,同時數(shù)據(jù)樣本不夠還會導(dǎo)致出現(xiàn)過擬合問題。為了避免模型出現(xiàn)過擬合,在模型訓(xùn)練中采用了隨機失活和十折交叉驗證兩種優(yōu)化方法,隨機失活即在訓(xùn)練過程中隨機將部分隱含層節(jié)點的權(quán)重歸零,十折交叉驗證通過重復(fù)運用隨機產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗證,能夠很大程度上避免數(shù)據(jù)過擬合的問題。但由于氣候數(shù)據(jù)樣本有限,如何在提高擬合精度的同時避免過擬合確實是個難題,這也是機器學(xué)習(xí)在氣候領(lǐng)域應(yīng)用遇到的瓶頸之一。Tong等(2019)曾提出通過對多種(88個)可能因子基于傳統(tǒng)氣候?qū)W分析先分類,再通過遞歸式隨機森林的方法進(jìn)行建模,通過特征工程從原始數(shù)據(jù)中挖掘、構(gòu)造更加有效的特征數(shù)據(jù),有助于減小過擬合問題,提升模型的預(yù)測精度。這也為下一步工作提供了思路,在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和應(yīng)用中可以通過數(shù)據(jù)的特征提取、構(gòu)造更多有效特征來減少樣本量不足的問題,提升模型預(yù)測效果。