韓 豐 楊 璐 周楚炫 呂終亮
1)(國家氣象中心, 北京 100081)2)(北京城市氣象研究院, 北京 100089)
短時強降水(小時降水量不低于20 mm)是主要的極端降水天氣之一,主要由超級單體和中尺度對流系統(tǒng)(MCS)造成[1],具有局地性強、發(fā)展快、歷時短、破壞性大等特點,是強對流天氣預報中的難點之一[2-3]。由于在短時間形成大量降水,短時強降水常導致城市內澇和山洪、滑坡等次生災害,給人民生命財產(chǎn)造成重大損失[4]。
根據(jù)氣塊法理論,短時強降水可以從深厚濕對流的三要素角度進行分析,即充足的水汽、靜力不穩(wěn)定和抬升機制?;诖?,Doswell等[5]提出一種基于構成要素的暴雨預報方法,俗稱配料法。張小玲等[6]利用數(shù)值模式產(chǎn)品分析有利于暴雨發(fā)生的物理“配料”,發(fā)展配料法暴雨落區(qū)預報方法。國家氣象中心在此基礎上制定了國家級強對流天氣環(huán)境場條件分析技術路線[7-8]。
單站探空數(shù)據(jù)是分析局地強對流天氣的重要數(shù)據(jù)之一。預報員常使用對流參數(shù)進行潛勢預報[9-10]。王笑芳等[11]利用北京08:00(北京時,下同)探空數(shù)據(jù)建立強對流天氣預報決策樹,為強對流天氣的短時預報提供思路和方法。劉玉玲[12]結合多個個例分析對流有效位能、風暴螺旋度等對流參數(shù)在強對流天氣潛勢預測中的作用。李耀東等[13]研究濕絕熱過程中對流能量計算方法,通過多指標疊套技術實現(xiàn)強對流天氣的潛勢預報。劉曉璐等[14]以探空數(shù)據(jù)為因子,構建冰雹預報模型。雷蕾等[15]基于統(tǒng)計方法,分析北京探空站在強對流日的物理量,得到能夠有效識別強對流天氣類型的物理量取值范圍和6 h變量。馬淑萍等[16]使用探空數(shù)據(jù)分析雷暴大風的環(huán)境參量特征。田付友等[17]使用NCEP FNL分析場數(shù)據(jù)的物理量場,設計短時強降水相關物理量的敏感性試驗,并得到幾種重要物理量的閾值。曾明劍等[18]在統(tǒng)計分析大量歷史個例的基礎上,結合中尺度模式輸出的對流參數(shù)預報,提出一種客觀對流參數(shù)篩選和權重分配方案,構建分類強對流天氣概率預報模型。
綜上所述,利用探空數(shù)據(jù)分析中尺度對流系統(tǒng)發(fā)生發(fā)展的局地垂直環(huán)境,可有效判斷短時強降水發(fā)生的潛勢,構建客觀預報模型。但面對不同氣候背景的站點和不同的天氣過程,對流參數(shù)選取和閾值確定在實際操作中存在很大的主觀性[19]。此外,不同對流參數(shù)之間有一定相關性,且有各自的適用條件,并不存在一種普適的指數(shù)或者方法[20],這也給基于探空數(shù)據(jù)的客觀診斷方法應用帶來一定局限性。
為了解決上述算法的適用性問題,提高客觀模型的預報能力,本文提出一種基于集成學習和探空數(shù)據(jù)的短時強降水預報模型,以XGBoost(extreme gradient boosting)集成學習框架為基礎[21],將08:00 探空觀測的大氣層結和對短時強降水有指示意義的對流參數(shù)作為特征,構建集成決策樹,利用長時間序列站點數(shù)據(jù)建立短時強降水客觀預報模型(以下稱預測模型)。
目前,人工智能尤其是新興的深度學習方法已在氣象預報任務上取得一定應用成果[22-25]。但縱觀各類國際智能算法大賽不難發(fā)現(xiàn),同類算法在氣象領域中的應用效果往往大打折扣。從氣象角度考慮,其原因主要有3點:天氣發(fā)展具有一定的不可預報性,氣象觀測的局限性,天氣預報事件的不均衡性。強對流天氣預報中,不僅無法獲得強對流天氣發(fā)生前的大氣真實狀態(tài),有時甚至無法確定強對流天氣發(fā)生與否。這些都極大制約了客觀預報模型的準確率。唐文苑等[26]指出對于致災性強、極易造成經(jīng)濟損失和人員傷亡的強對流天氣預報業(yè)務,在犧牲部分空報率的基礎上提高預報的準確率,可以一定程度上有效提升預報服務效果,降低災害性天氣的影響。受其啟發(fā),本文提出一種面向高影響氣象業(yè)務的人工智能模型優(yōu)化思路,即在提升模型TS評分的同時,更加關注預測錯誤的樣本分布。通過對模型的優(yōu)化,在總體上不增加錯誤預測數(shù)量的基礎上,減少漏報,增加空報,進而提高模型的TS評分和命中率,提升模型的實際預報能力。
綜上所述,本文基于集成決策樹,使用探空數(shù)據(jù),構建短時強降水客觀預報模型,提出并驗證一種面向高影響天氣的模型優(yōu)化方案。
集成學習指通過集成準確且互補的基分類器,提高模型的泛化能力,獲得更優(yōu)的學習效果[27]。本文使用的XGBoost是一種基于GBDT(gradient boosting decision tree,梯度提升決策樹)的集成學習框架[21],BDT(boosting decision tree,提升決策樹)的模型優(yōu)化通過不斷增加決策樹實現(xiàn),其核心在于第n棵樹學的是前(n-1)棵樹預測結果和真實值的偏差(殘差),通過減小殘差,模型的學習能力得到提升。GBDT使用梯度下降法進行BDT模型訓練,在訓練過程中,每一棵新的決策樹都在殘差減小的梯度方向上構建,新決策樹的構建使模型向提升準確率的方向進行優(yōu)化[28]。
本文在GBDT集成策略基礎上,通過優(yōu)化損失函數(shù),使模型更加關注預測錯誤的樣本分布,進而在“寧空勿漏”的方向上構建新的決策樹,最終在總體上不增加錯誤預測數(shù)量的基礎上,減少漏報,提高模型的命中率和TS評分。
XGBoost模型的訓練過程就是通過最小化目標函數(shù)找到最佳參數(shù)組。其目標函數(shù)[21]為
(1)
(2)
將式(2)帶入式(1),可以得到模型在訓練第K棵決策樹時的目標函數(shù)為
(3)
損失函數(shù)是機器學習算法中最重要的要素之一,其核心是描述模型預測值和樣本真實值之間的偏差,并驅動模型向損失值減小的方向優(yōu)化。
表1給出的是模型預測值和樣本真實值之間的關系。其中TP和FN表示預測正確,TN表示漏報,F(xiàn)P表示空報。唐文苑等[26]指出對于高影響的強對流天氣,“寧空勿漏”的預報傾向,有助于提升預報服務的效果,降低災害性天氣影響。本文以此出發(fā),考慮短時強降水預報任務的不確定性,當模型無法做出正確預測時,通過優(yōu)化損失函數(shù),使模型的錯誤預測更多落在FP區(qū)域,即增多空報,減少漏報(提升命中率),使模型在實際預報任務中更有應用價值。
表1 模型預測值和樣本真實值的關系Table 1 Relations between labels and predictions
在此基礎上,將損失函數(shù)寫成分段形式。通過給不同變量取值范圍增加權重系數(shù)的方式,調整模型預測的傾向性。模型輸出結果為事件發(fā)生概率,選擇0.5的預測值作為事件發(fā)生的概率閾值,超過閾值即判斷為短時強降水發(fā)生。則分段權重損失函數(shù)如下所示:
(4)
其中,wTP,wTN,wFP,wFN分別代表真實值和預測值落在TP,TN,F(xiàn)P和FN區(qū)域時的權重系數(shù)。當wTP,wTN,wFP,wFN相等且取值為1時,分段權重損失函數(shù)和原損失函數(shù)等價。減小wFN,當個例落在FN區(qū)間時,損失函數(shù)返回的損失值較小,使預測模型向傾向于預測發(fā)生方向優(yōu)化,最終預測結果會出現(xiàn)TP和FP數(shù)量上升,TN和FN數(shù)量下降。相反,減小wTP,預測模型則向傾向于預測未發(fā)生的方向優(yōu)化,最終預測結果會出現(xiàn)TN和FN上升,TP和FP數(shù)量下降。
(5)
為了驗證預測模型的地域適用性,本文選取我國119個探空站點作為試驗對象,分別收集2015—2019年6—9月的探空觀測和降水觀測,形成試驗數(shù)據(jù)全集。其中,每個探空站分別形成各自的站點試驗數(shù)據(jù)集。
本文使用08:00探空數(shù)據(jù)預測未來12 h短時強降水事件(不低于20 mm·h-1)。采用點到面[16]的檢驗方式,即將探空站周邊一定范圍內的自動氣象站作為檢驗站,統(tǒng)計目標事件的發(fā)生情況。在此種條件下,短時強降水事件是否發(fā)生取決于兩個因素:搜索范圍和出現(xiàn)短時強降水雨量站數(shù)量?;贖aklander等[29]和田付友等[17]的研究,本文確定搜索范圍為以探空站為中心的2°×2°矩形大小,出現(xiàn)短時強降水雨量站的記錄數(shù)閾值為2。以某日某個探空站的探空觀測記為1站次,當該探空站周邊2°×2°范圍內,在未來12 h內,有兩個以上自動氣象站出現(xiàn)超過20 mm·h-1的降水時,記為1次短時強降水事件。
為了驗證模型的泛化能力,本文選取區(qū)域氣象中心周邊的7個探空站(烏魯木齊區(qū)域氣象中心由于短時強降水個例過少,無法形成有效的數(shù)據(jù)集),分別利用2017年、2018年、2019年站點試驗數(shù)據(jù)集構建站點試驗數(shù)據(jù)子集,其中每個站點試驗數(shù)據(jù)子集包括學習集和獨立檢驗集,總共21個站點試驗數(shù)據(jù)子集(表2)。
表2 各探空站點試驗數(shù)據(jù)子集名稱Table 2 Data subset of sounding stations
本文選取的特征分為兩個組成部分:探空觀測的大氣層結和對流參數(shù)。其中大氣層結是業(yè)務中唯一基于直接觀測的高空數(shù)據(jù)(包括溫度、位勢高度、露點穩(wěn)定、風速和風向),在分析和診斷天氣形勢中有重要作用。對流參數(shù)選取和水汽、觸發(fā)條件、層結穩(wěn)定度相關的主要物理量[30-33]。同時,考慮到大部分的熱力穩(wěn)定度參數(shù)都有很強的相關性,為了避免模型的過擬合,本文排除一些參數(shù),如SI指數(shù)。此外,特征中也包括一些不利于短時強降水的對流參數(shù),如不同高度的水平風垂直切變等。最終得到48個特征,如表3所示。
表3 特征量列表Table 3 Selected elements
為驗證損失函數(shù)中權重參數(shù)調整的有效性、泛化性,以及改進后模型對于短時強降水事件的預報能力。本文設計兩組對比試驗方案,分段權重損失函數(shù)權重敏感性試驗和損失函數(shù)對比試驗,和一組全國范圍的預報試驗。選用命中率、空報率、漏報率、TS評分對預報結果進行量化評估。本文在計算命中數(shù)(TP)、空報數(shù)(NP)和漏報數(shù)(TN)時,采用2.1節(jié)中介紹的點到面的檢驗方式。
XGBoost內置算法參數(shù)不在本文討論范圍內,故所有對比試驗使用統(tǒng)一的算法參數(shù)。已調優(yōu)參數(shù)如表4所示,其余參數(shù)為默認值。
表4 XGBoost模型參數(shù)Table 4 Parameters of XGBoost
3.2.1 試驗設計
本文設計權重參數(shù)的敏感性對比試驗,以驗證分段權重損失函數(shù)權重參數(shù)對模型預報能力影響。以標準MSE作為試驗的對照組,分別獨立改變wTP,wTN,wFP,wFN(步長為-0.1),進行預報試驗。為消除數(shù)據(jù)集對于試驗的影響,對比試驗在北京(54511),上海(58362)、武漢(57494)、錦州(54337)、清遠(59280)5個站點的15個站點試驗數(shù)據(jù)子集上進行,共進行15組對比試驗。
3.2.2 結果分析
圖1為分段權重損失函數(shù)在不同權重系數(shù)下,預測模型在15個試驗數(shù)據(jù)集上的檢驗結果,橫軸為各權重系數(shù)的取值,縱軸為檢驗指標TS評分。對比wTP評分圖可以看出,隨著wTP減小,預測模型偏向保守型預報,即“寧漏勿空”。命中數(shù)和空報數(shù)減小,命中率和TS評分隨之下降,由于命中數(shù)和空報數(shù)同時降低,故空報率沒有明顯變化。當wTP<0.5時,命中數(shù)和空報數(shù)減少一半,模型的預報能力比較差。當wTP在0.8~0.9取值范圍內時,預測模型在基本維持命中率的基礎上,空報數(shù)略有減少,TS評分略有上升。對比wFN評分圖可以看到,隨著wFN減小,預測模型偏向激進型預報,有明顯的“寧空勿漏”傾向。命中數(shù)和空報數(shù)上升,命中率和空報率隨之上升。當wFN在0.2~0.4的取值范圍內,命中率普遍超過0.6,在一些數(shù)據(jù)集上,甚至超過0.9。此時空報率位于0.3~0.5,TS評分略有上升。對比wTN和wFP評分圖可以看出,wTN和wFP對于預測模型的性能影響不大,這主要是因為在模型訓練過程中,落在TN和FP區(qū)間的個例數(shù)相對較少,所以這部分損失值的變化很難影響到整個模型的訓練結果。
圖1 分段權重損失函數(shù)權重敏感性分析試驗檢驗結果Fig.1 Result of sensitivity analysis test of weighted piecewise loss function
綜合對比圖1可以看到,預測模型在15組對比試驗中,均表現(xiàn)出相似的變化。這表明調整權重影響對于預測模型的傾向性具有一定泛化能力。其中,減小wTP會減少模型的命中數(shù)和空報數(shù);減小wFN會提高模型的命中數(shù)和空報數(shù);wTN和wFP對預測模型影響較小。
綜上所述,wTP取值為0.8~1.0,wFN取值為0.3~0.5,wTN和wFP取值為1時,模型的空報率不超過0.5,命中率明顯上升,TS評分略有提高,模型表現(xiàn)出明顯的“寧空勿漏”傾向。同時,不同站之間的最優(yōu)權重參數(shù)取值略有不同,實際訓練模型時,可以在確定空報率閾值的基礎上,針對具體站點進行進一步調優(yōu)。
3.3.1 對比試驗設計
本文設計了損失函數(shù)對比分析試驗。以XGBoost框架中常用的Logloss(對數(shù)損失函數(shù),見式(6)和MSE損失函數(shù)作為試驗對照組,驗證分段權重損失函數(shù)(見式(4))模型的預報能力。為消除數(shù)據(jù)集對試驗結果的影響,對比試驗在北京(54511)、上海(58362)、武漢(57494)、錦州(54337)、清遠(59280)、溫江(56187)和渝中(52983)7個探空站的21個站點試驗數(shù)據(jù)子集上進行,共21組對比試驗。所有試驗中,分段權重損失函數(shù)使用統(tǒng)一的權重參數(shù)配置方案:wTP=1.0,wTN=1.0,wFP=1.0,wFN=0.4。
(6)
3.3.2 結果分析
圖2為損失函數(shù)對比試驗的檢驗結果,表5給出的是以站點區(qū)分的平均檢驗結果。由圖2a和表5可以看出,在21組對比試驗中,有18組試驗分段權重損失函數(shù)模型的TS評分都高于試驗對照組。其中,渝中站改進最為明顯,TS評分提高0.11,其他站點也有0.05左右的提升。由圖2b和表5可以看出,分段權重損失函數(shù)模型的準確率在所有站點都有較大幅度的提升。由圖2c和表5可以看到,分段權重損失函數(shù)模型的空報率略有上升(約0.05~0.1),但上升幅度明顯小于命中率,除錦州站外平均空報率不超過0.5。對比圖2和表5可以看到,改進后的預測模型在21組對比試驗中,均表現(xiàn)出相似的優(yōu)化結果,表明本文提出的改進方案具有一定的泛化性能。總體上看,渝中站和錦州站的TS評分較低,這主要是由于短時強降水個例偏少,模型無法學習到有效的特征信息所致。綜上所述,改進后的預測模型,在TS評分略有升高、命中率大幅提升的基礎上,空報率略有升高,預報能力明顯加強。預測模型的改進符合對分段權重損失函數(shù)優(yōu)化的預期,且表現(xiàn)出一定的泛化能力。
圖2 損失函數(shù)對比試驗檢驗結果 (a)TS評分,(b)命中率,(c)空報率Fig.2 Comparison test of loss function(a)threat score,(b)probability of detection,(c)false alarm rate
續(xù)圖2
表5 站點平均檢驗結果Table 5 Average result of comparison test of loss function at each sounding station
續(xù)表5
此外,改進模型在不同站點呈現(xiàn)出不同的優(yōu)化能力,這可能是由于本文未針對指定站點進行參數(shù)優(yōu)化。針對不同站點定制參數(shù)調優(yōu),可進一步改進效果。
3.4.1 預報試驗設計
基于改進的預測模型,使用“試驗2019” 數(shù)據(jù)集對我國119個探空站分別建模,進行全國范圍的短時強降水預報試驗。所有站點的分段權重損失函數(shù)使用統(tǒng)一的權重參數(shù)配置方案:wTP=1.0,wTN=1.0,wFP=1.0,wFN=0.4。
3.4.2 個例檢驗結果
2019年6月20—25日,我國受到高空槽、低層切變線和低層急流的共同影響,在西南地區(qū)東部、黃淮西部、江南、華南等地,出現(xiàn)一次自北向南的區(qū)域性短時強降水過程[34]。圖3為6月21—24日08:00 模型預測的12 h短時強降水預報和實況疊加圖,圖中淺灰色實心圓為未來12 h內出現(xiàn)20 mm·h-1以上降水的站點。綜合圖3可以看到,受大尺度天氣系統(tǒng)影響, 21日短時強降水雨帶位于長江中下游沿線,隨著850 hPa切變線的南壓,雨帶整體向南移動,到23—24日雨帶維持在東南沿海地區(qū)。對比模型的客觀預報結果可以看到,模型對于主體雨帶的預報較好,說明通過對歷史數(shù)據(jù)的建模,模型具備一定的短時強降水事件預報能力。由圖3a、圖3b可以看到,模型的空報主要出現(xiàn)在東南沿海地區(qū),這主要是由于本次過程前期,底層切變線維持在西南地區(qū)東部至長江南部,東南沿海一直處于西南氣流中,大氣濕度條件較好,且東南沿海站點的歷史短時強降水日數(shù)較多,使預報結果出現(xiàn)一定范圍的空報。圖3還可以看出,漏報主要集中在主體雨帶的西北部。另外,在本次過程中,模型對于零星的短時強降水點預報效果不佳。通過定量化檢驗,本次過程預報模型的命中率為0.64,空報率為0.38,漏報率為0.36,TS評分為0.46。
3.4.3 長時間序列檢驗結果
本文使用“試驗2019”數(shù)據(jù)集,進行長時間序列的全國短時強降水預報試驗,并給出同時間段08:00 起報的GRAPES_3 km短時強降水預報檢驗結果。在GRAPES_3 km檢驗時,先將GRAPES_3 km的格點預報轉換到探空站點上,再使用2.1節(jié)的方法進行預報檢驗,具體方法:①首先在每一格點上,取GRAPES_3 km 1~12 h的小時降水量的最大值,得到未來12 h內最大的小時降水量預報場;②統(tǒng)計探空站周邊2°×2°范圍內,最大小時降水量預報超過20 mm的格點數(shù),當格點數(shù)不低于2時,則記錄為一次短時強降水預報;③使用2.1節(jié)中的方法,進行預報檢驗。
以某一日某個站的探空觀測記錄為1站次,則在 “試驗2019”檢驗集中共得到14389站次數(shù)據(jù),其中發(fā)生短時強降水事件2579站次,表6給出預測模型和GRAPES_3 km模式的2019年檢驗集檢驗結果。其中,預測模型命中短時強降水事件1693站次,命中率為0.66,空報短時強降水事件1004站次,空報率為0.37, TS評分為0.47。GRAPES_3 km,命中1806站次,命中率為0.7,空報2040站次,空報率為0.53,TS評分為0.39。通過對比可以發(fā)現(xiàn),預測模型雖然命中數(shù)少113站次,但是空報少1036站次,TS評分較GRAPES_3 km提高0.08,總體上看,預測模型的短時強降水預報能力更強。
圖3 2019年6月21—24日08:00 12 h短時強降水預報和實況對比(a)6月21日,(b)6月22日,(c)6月23日,(d)6月24日Fig.3 Comparison between observation and 12 h forecast at 0800 BT from 21 Jun to 24 Jun in 2019(a)21 Jun,(b)22 Jun,(c)23 Jun,(d)24 Jun
表6 2019年檢驗集長檢驗結果Table 6 Quantitative validation of prediction model on 2019 dataset
本文介紹一種基于集成決策樹的短時強降水預報模型。該模型以08:00探空觀測和常用對流參數(shù)為特征,預報未來12 h短時強降水事件。在此基礎上,提出一種面向高影響天氣的模型優(yōu)化思路,即通過分段損失函數(shù)調整模型“寧空勿漏”的預報傾向,在控制空報率不超過一定閾值的基礎上,最大程度提升模型的預報命中率和TS評分。通過區(qū)域中心探空站的權重敏感性試驗、損失函數(shù)對比試驗,以及全國探空站的短時強降水預報試驗,得到以下結論:
1) 使用分段權重MSE作為模型的損失函數(shù),通過權重系數(shù)的調整,可以有效引導模型向傾向預測發(fā)生(positive)或傾向預測不發(fā)生(negative)的方向優(yōu)化,進而使最終預測模型獲得一定預報傾向。
2) 減小wTP會明顯減少模型預測的命中數(shù)和空報數(shù),模型有“寧漏勿空”傾向;減小wFN會明顯增加模型預測的命中數(shù)和空報數(shù),模型有“寧空勿漏”傾向;wTN和wFP對預測模型影響較小。
3) 通過7個區(qū)域中心探空站共21組試驗數(shù)據(jù)驗證,改進后的模型和常規(guī)模型相比,TS評分提高0.05~0.1,命中率提高0.10以上,空報率提高0.05~0.1,表現(xiàn)出明顯的“寧空勿漏”預報傾向,預測模型的實際預報能力得到明顯提升,且優(yōu)化方案表現(xiàn)出一定的泛化能力。
4) 全國短時強降水預報試驗的獨立檢驗表明:改進后的預報模型在2019年獨立檢驗集上,命中率為0.66,空報率為0.37,TS評分為0.47,該模型具備一定的短時強降水天氣預報能力。
本文的預報試驗存在以下局限性:08:00探空無法準確描述午后大氣的垂直結構,導致預報試驗本身存在一定的不確定性;通過多組試驗發(fā)現(xiàn),不同試驗組構建模型的特征重要性差異較大,即便在同一站同一組數(shù)據(jù)中,使用不同模型參數(shù)可能得到大相徑庭的特征,所以如何使用模型反推驗證短時強降水機制還有待進一步研究。此外,本文方法所給出的短時強降水預報,具有范圍大、預報時間長等特點。在實際預報中,還需要預報員利用雷達、衛(wèi)星、閃電、自動站等多源數(shù)據(jù)進一步分析,以得到更為精準的預報落區(qū)。
在今后工作中,可從原始數(shù)據(jù)上繼續(xù)優(yōu)化模型,如使用14:00加密探空數(shù)據(jù)構建模型;或基于模式探空構建模型,形成格點化的預報產(chǎn)品;也可以考慮建立模型預測的事件發(fā)生概率值和實際短時強降水發(fā)生概率的映射關系,得到格點化的概率產(chǎn)品。
致 謝:感謝國家氣象中心鄭永光研究員和關良助理工程師提供短時強降水站點數(shù)據(jù)集。