周冬靜,卓健,毛家燊,陳少斌,蘇彥,郭彬,奉意杰,蔣亞平,趙麗萍
(崇左市氣象局,廣西崇左 532200)
大風(fēng)致災(zāi)性高,容易造成較大的經(jīng)濟損失和人員傷亡[1]。目前有關(guān)大風(fēng)的研究主要集中在個例分析和成因分析上[2-8],大風(fēng)短臨預(yù)報的準確率偏低[9]。造成大風(fēng)短臨預(yù)報預(yù)警存在較大困難的主要原因:第一,強對流天氣系統(tǒng)的中小尺度結(jié)構(gòu)和發(fā)展機理研究仍是當(dāng)前強對流天氣研究中的難點,大風(fēng)形成的各種尺度系統(tǒng)和氣象條件相互影響,錯綜復(fù)雜,瞬發(fā)性高、局地性強,留給預(yù)報員預(yù)判到發(fā)出預(yù)警的反應(yīng)時間非常有限,預(yù)報難度大;第二,在日常業(yè)務(wù)工作中,預(yù)報員根據(jù)所掌握的理論知識和經(jīng)驗,依據(jù)天氣雷達和其他探測資料對大風(fēng)天氣進行預(yù)報預(yù)警,預(yù)報員的主觀經(jīng)驗差異對預(yù)報結(jié)果影響比較大;第三,此前多種研究表明,概率越低的天氣越難預(yù)報,在強對流天氣事件中,大風(fēng)發(fā)生概率較低,這也是大風(fēng)短臨預(yù)報困難的客觀原因。
崇左短臨預(yù)報預(yù)警創(chuàng)新團隊利用人工智能技術(shù)開發(fā)了一系列短臨預(yù)報預(yù)警產(chǎn)品,其中廣西大風(fēng)短臨預(yù)報預(yù)警系統(tǒng)是為解決實際業(yè)務(wù)中提高大風(fēng)預(yù)報的準確率和大風(fēng)預(yù)警的有效提前量問題而研發(fā)的子系統(tǒng)。該系統(tǒng)經(jīng)過業(yè)務(wù)試運行和產(chǎn)品檢驗,經(jīng)評估具有較好的預(yù)報準確率和提前量。
廣西大風(fēng)短臨預(yù)報預(yù)警系統(tǒng)集實況監(jiān)控、預(yù)報和預(yù)警于一體,使用來源于全國綜合氣象信息系統(tǒng)(CIMISS)的2017—2018年廣西全區(qū)所有4要素以上自動站觀測數(shù)據(jù)進行建模。系統(tǒng)于2019年6月建成并開始業(yè)務(wù)試運行,產(chǎn)品包括逐6 min更新發(fā)布廣西各自動站0~1 h發(fā)生藍色預(yù)警大風(fēng)和黃色預(yù)警大風(fēng)的概率預(yù)報產(chǎn)品。該系統(tǒng)根據(jù)廣西大風(fēng)預(yù)警信號發(fā)布的業(yè)務(wù)規(guī)定,模擬預(yù)報服務(wù)人員發(fā)布大風(fēng)預(yù)警信號的行為方式,選擇最優(yōu)TS模型給出0~6 h各市縣所轄區(qū)域發(fā)布大風(fēng)藍色和黃色預(yù)警建議。圖1為2019年8月13日15:36(北京時,下同)系統(tǒng)自動讀取和生成的廣西風(fēng)實況和0~1 h大風(fēng)概率預(yù)報預(yù)警系統(tǒng)界面。
圖1 2019年8月13日15:36的系統(tǒng)界面顯示
廣西大風(fēng)短臨預(yù)報預(yù)警方法的研究基于機器學(xué)習(xí)和人工智能技術(shù)。本研究主要介紹用概率論、數(shù)理統(tǒng)計和信息論的知識對自動站大量歷史數(shù)據(jù)進行數(shù)據(jù)挖掘的方法。
概率論對隨機變量的研究發(fā)展到對隨機過程的研究之后,為解決隨機過程由于多維度變量的不確定性造成的復(fù)雜度過高導(dǎo)致難于進行研究,馬爾科夫提出了一種簡化問題的假設(shè),即隨機過程中各個狀態(tài)St的概率分布,只與它的前一個狀態(tài)St-1有關(guān),這一假設(shè)的提出使得以前許多不好解決的問題給出了近似解。這個假設(shè)被命名為馬爾科夫假設(shè),符合這個假設(shè)的隨機過程則成為馬爾科夫過程,也被稱為馬爾科夫鏈。兩狀態(tài)馬爾科夫鏈可以用圖2表示,其中S0、S1為不同狀態(tài),下一個時次狀態(tài)不變化時稱為狀態(tài)自旋,狀態(tài)發(fā)生變化稱為狀態(tài)轉(zhuǎn)移,P10、P01為不同狀態(tài)的轉(zhuǎn)移概率,P00、P11為不同狀態(tài)的自旋概率。
圖2 兩狀態(tài)的馬爾科夫鏈
廣西大風(fēng)短臨預(yù)報預(yù)警方法的研究正是基于馬爾科夫簡化問題的假設(shè)思路。本研究假設(shè)選定的預(yù)報因子對預(yù)報結(jié)果是獨立影響,而且預(yù)報結(jié)果只與預(yù)報因子上一時次的狀態(tài)有關(guān)。
信息熵是對變量不確定性的量化,要消除變量不確定性所需要的信息量越多,信息熵的值就越大。信息熵(H)的公式可以寫為
如某地有或無大風(fēng)是等概率事件P=1/2,大風(fēng)的熵為
實際上,大風(fēng)天氣是一個小概率事件。從本研究用于建模的數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),廣西某地出現(xiàn)藍色大風(fēng)以上級別的事件的概率為0.004,非大風(fēng)概率為0.996,根據(jù)信息熵公式可知,大風(fēng)的熵
假如通過引入其他額外信息能有效減少大風(fēng)的信息熵,則可以說明引入的這個額外信息是有效的信息,有助于業(yè)務(wù)人員做大風(fēng)預(yù)報。假設(shè)以X代表大風(fēng),增加的有效信息用Y表示,那么X和Y一起出現(xiàn)的概率為聯(lián)合概率分布,在Y取不同值的前提下X的概率分布稱為條件概率分布,此時定義條件熵(Conditional Entropy):
信息論創(chuàng)始人香農(nóng)(Claude Shannon)對X和Y是兩個隨機事件相關(guān)性提出了一個用于量化度量的概念:互信息(mutual information),互信息定義見式(3),互信息就是熵 H(X)和條件熵H(X|Y)的差異(式(4)):
尋找一種使用自動站觀測數(shù)據(jù)作為預(yù)報因子的大風(fēng)預(yù)報方法,做出這種選擇的理由主要是由于自動站觀測數(shù)據(jù)量大,適合使用數(shù)據(jù)挖掘方法建模。作為一種簡化處理手段,本研究假設(shè)預(yù)報因子是有效的信息,預(yù)報因子對預(yù)報結(jié)果是獨立影響。建模首先將2017—2018所有廣西四要素自動站的所有觀測數(shù)據(jù),逐一計算不同信息的引入對測站下一時次大風(fēng)信息熵的縮減量,通過計算,認為陣風(fēng)和平均風(fēng)力數(shù)據(jù)適合用來作為進行大風(fēng)概率預(yù)報的預(yù)報因子。
本研究把歷史風(fēng)力數(shù)據(jù)(共計30 529 816個樣本)按陣風(fēng)和平均風(fēng)分開統(tǒng)計和計算。藍色預(yù)警大風(fēng)的標準為平均風(fēng)力10.8~13.8 m/s,或者陣風(fēng)13.9~17.1 m/s;黃色預(yù)警大風(fēng)的標準為平均風(fēng)力 17.2~20.7 m/s,或者陣風(fēng) 20.8~24.4 m/s。在建模時,在0~24.5 m/s風(fēng)力范圍內(nèi),按0.1 m/s的等距分別統(tǒng)計歷史上246個不同陣風(fēng)和平均風(fēng)風(fēng)力對應(yīng)下一時次(未來0~1 h)無大風(fēng)、藍色預(yù)警大風(fēng)、黃色預(yù)警大風(fēng)、橙色預(yù)警大風(fēng)和紅色預(yù)警大風(fēng)的次數(shù),并以此統(tǒng)計數(shù)據(jù)作為概率預(yù)報的基礎(chǔ)。
1)單站預(yù)報概率。
根據(jù)單站當(dāng)前實況和廣西大風(fēng)概率預(yù)報統(tǒng)計模型的對應(yīng)關(guān)系,利用聯(lián)合概率公式計算單站的大風(fēng)預(yù)報概率。以圖1為例。圖1中有4個站的實況已經(jīng)達到大風(fēng)藍色預(yù)警級別,藍色概率直接記作100%。以N6196站藍色概率29.41%為例介紹單站預(yù)報概率的計算方法。假設(shè)P(A)表示以陣風(fēng)統(tǒng)計的歷史藍色預(yù)警大風(fēng)的概率,P(B)表示以平均風(fēng)統(tǒng)計的歷史藍色預(yù)警大風(fēng)的概率,不出大風(fēng)的概率分別為1-P(A)和1-P(B)。根據(jù)藍色預(yù)警大風(fēng)的定義,利用式(5)計算單站藍色預(yù)警大風(fēng)的概率:
通過計算不出藍色預(yù)警大風(fēng)的聯(lián)合概率,再反向計算至少有一種情況(陣風(fēng)或平均風(fēng))出大風(fēng)的概率作為單站藍色預(yù)警大風(fēng)的預(yù)報概率。用式(5)計算表 1的數(shù)據(jù),P(A)=0.293 296,P(B)=0.001 151,P(N6196藍色)=0.294 109。單站出藍色預(yù)警大風(fēng)后系統(tǒng)開始計算黃色概率,計算方法與藍色概率同理。
表1 單站風(fēng)實況對應(yīng)廣西大風(fēng)概率預(yù)報統(tǒng)計模型歷史數(shù)據(jù) 次
2)分縣預(yù)報概率。
分縣預(yù)報概率的計算方法與單站預(yù)報概率相似,都用到了聯(lián)合概率的公式。不同的地方在于,計算單站預(yù)報概率時只是陣風(fēng)統(tǒng)計概率和平均風(fēng)統(tǒng)計概率的二維聯(lián)合概率,計算分縣預(yù)報概率時要用某縣所轄所有四要素區(qū)域站的單站預(yù)報概率來計算聯(lián)合概率。同樣,先逆向計算所有站都不出大風(fēng)的概率,再計算至少有一個站出大風(fēng)的預(yù)報概率作為分縣預(yù)報概率。
根據(jù)《廣西壯族自治區(qū)氣象災(zāi)害預(yù)警信號發(fā)布業(yè)務(wù)服務(wù)暫行規(guī)定》(桂氣發(fā)[2008]264號),廣西大風(fēng)預(yù)警采用分縣制作發(fā)布與傳播機制,由各縣預(yù)報服務(wù)人員發(fā)布所轄區(qū)域大風(fēng)預(yù)警信息。本研究模擬人工發(fā)布大風(fēng)預(yù)警信息的流程,對某一區(qū)域達到一定起報閾值后發(fā)布一個指定時段的大風(fēng)預(yù)警信息,并且在有效預(yù)警時段內(nèi),根據(jù)大風(fēng)概率預(yù)報產(chǎn)品的變化決定是否升級預(yù)警信號,有效預(yù)警結(jié)束后,根據(jù)最新的大風(fēng)概率預(yù)報產(chǎn)品決定是否解除或繼續(xù)發(fā)布預(yù)警信號。根據(jù)這個思路,本研究對大風(fēng)概率預(yù)報產(chǎn)品的全概率模型進行數(shù)據(jù)分析,找出能獲得最優(yōu)TS評分的模型。通過計算,認為只要某縣出現(xiàn)以下情況之一時,系統(tǒng)就自動給出發(fā)布大風(fēng)藍色預(yù)警信號的建議:單站藍色概率達到27%;單站平均風(fēng)達到8.8 m/s;單站陣風(fēng)達到 12.7 m/s;分縣藍色概率達到30%。某縣只要單站或者分縣的黃色概率達到2%,系統(tǒng)就會給出發(fā)布大風(fēng)黃色預(yù)警信號的建議。大風(fēng)預(yù)警信號建議通過文字和地圖上的色塊體現(xiàn)。
系統(tǒng)的預(yù)報準確率用TS指標來檢驗,如表2所示,并做以下2種情況的檢驗對比:
①全時段檢驗。2019年7月11日至2019年9月11日期間,系統(tǒng)對廣西全區(qū)89個縣級臺站所做的所有大風(fēng)藍色預(yù)警和大風(fēng)黃色預(yù)警,用同時段內(nèi)全區(qū)所有4要素以上區(qū)域自動站的大風(fēng)實況進行檢驗分析。
②去除高山站檢驗。由于高山站出現(xiàn)大風(fēng)概率較高,現(xiàn)行業(yè)務(wù)規(guī)定允許各地氣象局不將高山站納入大風(fēng)預(yù)警考核,為檢驗系統(tǒng)在不統(tǒng)計高山站數(shù)據(jù)的情況下的預(yù)報和預(yù)警能力,本研究對2019年7月11日至2019年9月11日期間出現(xiàn)大風(fēng)概率最高的北流和武鳴兩個站的預(yù)警信號做屏蔽處理,從表2可以看出在把高山站屏蔽之后系統(tǒng)預(yù)報準確率有所降低,這也可以看出系統(tǒng)預(yù)報性能符合此前專家得出的概率越小的事件預(yù)報難度越大,預(yù)報準確率越低的結(jié)論。
表2 系統(tǒng)大風(fēng)短時臨近預(yù)報的TS檢驗對比 %
用C表示預(yù)警信號時間提前量,用有效預(yù)警的時間提前量t來檢驗預(yù)警信號的時效性,即預(yù)警信號提前時間總和與應(yīng)發(fā)預(yù)警信號次數(shù)及預(yù)警空報次數(shù)之和的比值。
在2019年7月11日至9月11日期間,去除部分高山站的數(shù)據(jù)后,系統(tǒng)模擬預(yù)報服務(wù)人員發(fā)布0~6 h廣西各市縣大風(fēng)藍色預(yù)警和大風(fēng)黃色預(yù)警信號共計1 652條,如表3所示,其中NA為有提前量的正確預(yù)報站(次)數(shù)、NB為空報站(次)數(shù)、NC為漏報站(次)數(shù)。
表3 系統(tǒng)在2019年7月11至9月11日期間內(nèi)去除部分高山站后的預(yù)警提前量檢驗 次
有效預(yù)警的時間提前量t=14.71 min。從表3中還可以看出,有提前量的預(yù)警NA占實際出大風(fēng)預(yù)警總數(shù)(NA+NC)的 30.65%;提前量<60 min的預(yù)警(短時臨近大風(fēng))占有提前量預(yù)警的約2/3。
廣西大風(fēng)短臨預(yù)報預(yù)警系統(tǒng)使用信息論作為理論基礎(chǔ),采用大數(shù)據(jù)挖掘技術(shù)進行研發(fā),系統(tǒng)高頻次監(jiān)控實時數(shù)據(jù),及時更新概率預(yù)報產(chǎn)品,所以對突發(fā)性較高的大風(fēng)能做出有效的預(yù)報和預(yù)警,具有一定的準確率和提前量,適合業(yè)務(wù)運用。
系統(tǒng)模擬預(yù)報服務(wù)人員發(fā)布預(yù)警信號的方式發(fā)布一定時長的預(yù)警信號,在預(yù)警時效內(nèi)根據(jù)數(shù)據(jù)的變化決定是否提升預(yù)警等級,在預(yù)警時效結(jié)束后,根據(jù)最新的數(shù)據(jù)決定是否繼續(xù)發(fā)布預(yù)警信號。通過一年的業(yè)務(wù)試運行,產(chǎn)品穩(wěn)定、更新及時、預(yù)警效果良好。
系統(tǒng)受概率統(tǒng)計方法取樣的局限性和馬爾科夫假設(shè)取近似值的影響不可避免。由于樣本不足(該系統(tǒng)只取了2年的數(shù)據(jù)樣本),只用全區(qū)所有4要素區(qū)域站的大風(fēng)歷史數(shù)據(jù)來籠統(tǒng)地計算和構(gòu)建廣西大風(fēng)概率預(yù)報統(tǒng)計模型,沒有足夠的數(shù)據(jù)支持細化每個鄉(xiāng)鎮(zhèn)級觀測站或者每個縣級站的大風(fēng)概率預(yù)報統(tǒng)計模型。如何在天氣預(yù)報領(lǐng)域利用數(shù)據(jù)挖掘技術(shù),挖掘海量氣象歷史數(shù)據(jù)的有用信息為實際的氣象預(yù)報服務(wù),是以后繼續(xù)努力的方向之一。