李 勇, 黃 威, 秦華鋒, 周寧芳, 關(guān) 月, 張 博, 馬 杰, 蔡薌寧
(國家氣象中心, 北京 100081)
隨著現(xiàn)代天氣預(yù)報業(yè)務(wù)的發(fā)展,特別是用于氣象觀測、數(shù)值模式模擬、客觀衍生產(chǎn)品、多元化服務(wù)的各類數(shù)據(jù)不斷涌現(xiàn),氣象業(yè)務(wù)中的各領(lǐng)域數(shù)據(jù)均呈幾何級數(shù)量增長,這些海量的數(shù)據(jù)被應(yīng)用于中長期天氣預(yù)報業(yè)務(wù),構(gòu)成了中長期預(yù)報氣象大數(shù)據(jù)環(huán)境。目前,國家級預(yù)報業(yè)務(wù)系統(tǒng)是中國氣象局組織研發(fā)的MICAPS系統(tǒng),該系統(tǒng)已經(jīng)發(fā)展到第四版,開始支持海量實時數(shù)據(jù)的存儲、訪問[1-2],但在實時數(shù)據(jù)與歷史數(shù)據(jù)的融合使用、大數(shù)據(jù)分析技術(shù)集成等方面仍然不能滿足現(xiàn)代中長期一體化預(yù)報業(yè)務(wù)的需求,其現(xiàn)有的客戶端/服務(wù)器基礎(chǔ)架構(gòu)形式也不利于有效集成近些年開發(fā)的眾多支撐技術(shù)及產(chǎn)品,預(yù)報員能夠用來進行大數(shù)據(jù)分析及精細(xì)訂正的時間很少。
同時,當(dāng)前中長期預(yù)報因受到基礎(chǔ)理論、模式水平、可預(yù)報性等限制,預(yù)報員無法在有限的時間內(nèi)獲得更多預(yù)報信息并進行充分的數(shù)據(jù)挖掘,嚴(yán)重影響了工作效率。因此,急需根據(jù)業(yè)務(wù)發(fā)展需求,建設(shè)支持中長期一體化業(yè)務(wù)流程及具有大數(shù)據(jù)分析綜合應(yīng)用功能和較大可擴充性的中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)。本文將介紹基于大數(shù)據(jù)分析應(yīng)用的新一代國家級中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)的設(shè)計與應(yīng)用。
歐美先進國家或組織在各自的發(fā)展戰(zhàn)略中均將“一體化”模式作為支撐中長期天氣預(yù)報[3-4]、支撐無縫隙預(yù)報業(yè)務(wù)的核心,預(yù)報內(nèi)容均突出異常性和概率性等信息,并以大量客觀預(yù)報產(chǎn)品為主要展現(xiàn)形式。與發(fā)達(dá)國家相比,我國的中長期預(yù)報在緊跟國際發(fā)展趨勢的情況下,堅持以防災(zāi)減災(zāi)、公眾服務(wù)和決策服務(wù)為重心,突出災(zāi)害性、轉(zhuǎn)折性和關(guān)鍵性天氣過程的預(yù)報。預(yù)報員需要在有限的時間內(nèi)迅速提煉關(guān)鍵信息,把握天氣演變的整體特征,完成中長期預(yù)報業(yè)務(wù)的整個流程,需要有現(xiàn)代智能預(yù)報業(yè)務(wù)系統(tǒng)平臺作為支撐。
中長期天氣預(yù)報理論基礎(chǔ)薄弱、方法不多,一直是禁錮業(yè)務(wù)發(fā)展的老問題。隨著預(yù)報時效的延長,反映天氣演變的可預(yù)報信息越來越少,預(yù)報的不確定性迅速增大,數(shù)值模式的預(yù)報能力快速下降[5]。隨著氣象現(xiàn)代化建設(shè)深入開展,一些針對低可預(yù)報性天氣預(yù)報方法逐漸發(fā)展,預(yù)報員對中期時效天氣演變機理和數(shù)值模式的系統(tǒng)性偏差有了一些新的認(rèn)識,需要依靠系統(tǒng)平臺融合新中期預(yù)報技術(shù)方法,實現(xiàn)對低可預(yù)報信息的實時提取應(yīng)用。
中長期預(yù)報突出趨勢異常信息的特點,決定了其預(yù)報分析必須建立在前期氣候特征分析的基礎(chǔ)上,大量歷史觀測資料需要被實時提取使用。作為決策服務(wù)的重要支撐,中長期預(yù)報所承載的這種服務(wù)性質(zhì)決定了其必須有關(guān)于影響的分析,必然涉及預(yù)報之外的其他非氣象數(shù)據(jù)支撐。此外,隨著集合數(shù)值模式的發(fā)展[6],支撐中長期預(yù)報的數(shù)據(jù)迅速增加,這些都決定了中長期預(yù)報服務(wù)需要應(yīng)用大量的歷史觀測數(shù)據(jù)、模式預(yù)報數(shù)據(jù)、衍生數(shù)據(jù)及非氣象類數(shù)據(jù)。在這些海量數(shù)據(jù)基礎(chǔ)上形成的包含大樣本統(tǒng)計在內(nèi)的多類型、高維度數(shù)據(jù)處理,數(shù)據(jù)價值挖掘,高效交互操作逐漸成為中長期天氣預(yù)報數(shù)據(jù)分析應(yīng)用的核心。這種以海量數(shù)據(jù)存儲、高效快速處理、價值深度挖掘等為特征的大數(shù)據(jù)應(yīng)用是中長期天氣預(yù)報的基本特征。
目前國家級氣象部門構(gòu)建了面向數(shù)百并發(fā)用戶、可容納102TB量級的氣象實時數(shù)據(jù)的服務(wù)器集群系統(tǒng),基本實現(xiàn)了以高分辨率觀測和模式數(shù)據(jù)實時存儲/讀寫為主的功能[7-9],但該系統(tǒng)缺乏對海量歷史數(shù)據(jù)的高效存儲和處理,缺少基于中長期天氣預(yù)報思路的數(shù)值模式深度解釋應(yīng)用,無法實現(xiàn)基于大數(shù)據(jù)綜合應(yīng)用的可預(yù)報性等高價值信息提取應(yīng)用,尚無法滿足中長期天氣預(yù)報業(yè)務(wù)的需求[10]。
新一代中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)是依托中央氣象臺現(xiàn)有基礎(chǔ)資源,在MICAPS4網(wǎng)絡(luò)平臺[9]基礎(chǔ)之上構(gòu)建的專業(yè)化應(yīng)用系統(tǒng)。該系統(tǒng)采用了瀏覽器/服務(wù)器的基本架構(gòu),集成了氣象數(shù)據(jù)庫(實時庫、歷史庫)及用戶庫的大數(shù)據(jù)分布式應(yīng)用環(huán)境、大數(shù)據(jù)綜合處理技術(shù)。主要包括大數(shù)據(jù)基礎(chǔ)環(huán)境、后端數(shù)據(jù)加工處理系統(tǒng)和前端交互分析顯示系統(tǒng)(圖1)。
圖1 中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)架構(gòu)
中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源主要包括全國綜合氣象信息共享平臺(CIMISS)數(shù)據(jù)環(huán)境中的氣象業(yè)務(wù)數(shù)據(jù)、基礎(chǔ)地理信息服務(wù)數(shù)據(jù)及本地應(yīng)用氣象業(yè)務(wù)數(shù)據(jù)。這些數(shù)據(jù)可以分為實時數(shù)據(jù)和歷史數(shù)據(jù)。其中,實時數(shù)據(jù)采用Cassandra作為存儲系統(tǒng)[7],Cassandra是一個基于鍵—值(Key-Value)的點對點分布式系統(tǒng),適合作為多維數(shù)據(jù)空間結(jié)構(gòu)的實現(xiàn);歷史數(shù)據(jù)則主要采用內(nèi)存型數(shù)據(jù)庫(Timesten)方式存儲,即將數(shù)據(jù)放在內(nèi)存中直接操作,該數(shù)據(jù)庫處理速度較之傳統(tǒng)的磁盤存儲快10倍以上。同時,鑒于中長期天氣預(yù)報涉及復(fù)雜高關(guān)聯(lián)的數(shù)據(jù)模型的特性,輔以采用關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(MySQL)來有針對性滿足這一需求。通過引入多種數(shù)據(jù)庫,構(gòu)建了綜合性的分布式數(shù)據(jù)庫架構(gòu),基本滿足海量高并發(fā)系統(tǒng)的數(shù)據(jù)(包括復(fù)雜數(shù)據(jù)模型)存儲及訪問需求。
系統(tǒng)服務(wù)器端采用了分布式實時大數(shù)據(jù)處理框架(STORM),進一步擴展了所需大數(shù)據(jù)預(yù)處理系統(tǒng)、產(chǎn)品加工處理系統(tǒng)等業(yè)務(wù)單元功能,實現(xiàn)對氣象數(shù)據(jù)解析、內(nèi)存數(shù)據(jù)結(jié)構(gòu)組織、處理分析、圖形加工、產(chǎn)品輸出等的統(tǒng)一高效處理,同時支持計算處理節(jié)點并行和功能復(fù)用。STORM作為開源的分布式計算系統(tǒng),可以簡單可靠地處理大數(shù)據(jù)流,支持實時分析、在線機器學(xué)習(xí)、持續(xù)計算等應(yīng)用[11-12],特別適應(yīng)氣象應(yīng)用中的海量、多源、實時的數(shù)據(jù)計算和分析。STORM能夠保障業(yè)務(wù)系統(tǒng)基礎(chǔ)數(shù)據(jù)的高效實時網(wǎng)絡(luò)發(fā)布,以及基本氣象要素的實時分布式處理需求。
中長期天氣預(yù)報系統(tǒng)分布式處理程序采用了實時消息監(jiān)控,實時記錄和描述各類氣象資料信息的到達(dá)、更新、刪除等情況,以及前端圖形界面交互顯示、統(tǒng)計分析的操作申請等,這些即時信息會作為消息索引隊列進入內(nèi)存消息庫(REDIS),REDIS具有針對海量數(shù)據(jù)的高效索引Key-Value性能[13]。STORM集群運行中的拓?fù)鋾磿r從內(nèi)存消息庫(REDIS)消息隊列中獲取數(shù)據(jù)索引,各拓?fù)鋾鶕?jù)索引快速找到對應(yīng)的數(shù)據(jù), 然后進入后續(xù)的計算單元對數(shù)據(jù)進行加工、計算分析。此外,為進一步減少瀏覽器端的處理壓力,對于常用圖形產(chǎn)品,同時采用Python、Grads 等進行服務(wù)端預(yù)處理繪圖。
系統(tǒng)瀏覽器端是基于HTML5的網(wǎng)絡(luò)平臺,HTML5所提供的Canvas和WebGL繪圖接口對大量點線面矢量數(shù)據(jù)及柵格數(shù)據(jù)的實時繪制渲染有較強性能,Web Worker并行處理可以在進行復(fù)雜的分析運算時提供更流暢的界面響應(yīng)。HTML5使Web瀏覽器從簡單的渲染演變成能夠在許多應(yīng)用領(lǐng)域提供豐富交互式應(yīng)用程序的運行環(huán)境[14],而交互分析顯示恰恰是作為中長期天氣預(yù)報產(chǎn)品可視化的基本要求,包括多圖層疊加、地圖縮放與漫游、投影切換、顯示方式切換、統(tǒng)計分析等在內(nèi)的實時操作對系統(tǒng)的處理速度均有很高的要求。經(jīng)測試,系統(tǒng)前端顯示產(chǎn)品平均響應(yīng)時間不超過1秒。
中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)功能采用模塊化設(shè)計,涵蓋了背景分析、實況監(jiān)測、模式釋用、可預(yù)報性、客觀預(yù)報、檢驗評估、產(chǎn)品制作及預(yù)報服務(wù)等8個功能模塊(圖2)。歷史背景和實況監(jiān)測兩個模塊包含基本要素、災(zāi)害性天氣(含大型雨帶、雨季)、環(huán)流背景及天氣個例庫等4類基本數(shù)據(jù)庫,是中期預(yù)報分析的基礎(chǔ)。模式釋用模塊包含大型環(huán)流演變、模式變量時空平均和異常等中長期數(shù)值釋用產(chǎn)品??深A(yù)報性模塊包含大型環(huán)流聚類、低頻信號變化、預(yù)報可信度等反映主要影響系統(tǒng)和模式可預(yù)報性產(chǎn)品??陀^預(yù)報模塊融合了大型雨帶預(yù)報模型、基本要素客觀訂正產(chǎn)品及智能網(wǎng)格等客觀產(chǎn)品。檢驗評估模塊針對中期預(yù)報特點從環(huán)流、要素兩個方面進行模式性能評估和產(chǎn)品評分檢驗。產(chǎn)品制作與預(yù)報服務(wù)模塊包含對中期各類主觀預(yù)報產(chǎn)品的制作與發(fā)布、高影響天氣對特定類型決策服務(wù)的影響分析等。上述各模塊之間具有統(tǒng)一的應(yīng)用邏輯關(guān)系,協(xié)調(diào)一致,體現(xiàn)了現(xiàn)代中長期天氣預(yù)報業(yè)務(wù)專業(yè)化技術(shù)流程。
圖2 中長期天氣預(yù)報系統(tǒng)功能模塊
中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)通常需要對多維數(shù)據(jù)進行綜合顯示,并經(jīng)過分析重構(gòu)、信息提取,顯示業(yè)務(wù)價值高的可視化產(chǎn)品。這些產(chǎn)品往往同時包含歷史、實時、預(yù)報、檢驗及可預(yù)報性分析等大量數(shù)據(jù)信息,能夠反映出天氣系統(tǒng)的變化趨勢和異常信號等,需要高交互性操作,對界面布局要求較高??梢暬脩糁鹘缑嫒鐖D3所示,包含功能區(qū)、屬性區(qū)、顯示區(qū)三個部分。功能區(qū)位于頁面上部,包含系統(tǒng)功能主菜單及子菜單;屬性區(qū)位于頁面左側(cè),針對不同模塊進行扁平化設(shè)計,包含模式種類、氣象要素、地理范圍等數(shù)據(jù)屬性特征;顯示區(qū)位于頁面右側(cè),顯示圖形、文字等產(chǎn)品信息及相應(yīng)屬性操作等。
圖3 中長期系統(tǒng)平臺客戶端界面布局
該平臺對業(yè)務(wù)中各種常用技術(shù)和方法進行系統(tǒng)性集成,包含了基于大數(shù)據(jù)分析的異常天氣預(yù)報信息提取技術(shù)、災(zāi)害性天氣過程預(yù)報技術(shù)、可預(yù)報性分析及機器學(xué)習(xí)等中長期預(yù)報技術(shù)。該平臺集監(jiān)測、預(yù)報、服務(wù)為一體,可滿足現(xiàn)代氣象業(yè)務(wù)發(fā)展對中長期天氣預(yù)報的集約化、客觀化、智能化需求。
基于天氣學(xué)基本原理對實時觀測數(shù)據(jù)、數(shù)值模式及歷史觀測、再分析數(shù)據(jù)進行解釋應(yīng)用,通過多要素、多層次聯(lián)合分析,有效提取大尺度環(huán)流時空分布異常信號[15],如反映大氣環(huán)流時間演變異常的指數(shù)時間序列,反映空間分布異常的距平、標(biāo)準(zhǔn)化距平、集合異常度[16],反映大氣低頻變化的低頻環(huán)流形勢圖等(圖略)。
李勇等[17]應(yīng)用客觀判別方法,建立了針對特定季節(jié)、特定地區(qū)強降水、強降溫、高溫過程歷史個例庫,通過對高中低層環(huán)流場進行大數(shù)據(jù)分析,提煉出關(guān)鍵環(huán)流特征指標(biāo),為每個特征指標(biāo)選取多種特征值,不同指標(biāo)特征值可以自由組合,相當(dāng)于構(gòu)造了海量的檢索模型,根據(jù)模式預(yù)報的各指標(biāo)可預(yù)報性設(shè)定一定的優(yōu)先級進行客觀自動檢索(圖4a)。圖4(b)是2018年6月28日-7月2日江淮強降雨過程智能預(yù)報結(jié)果與模式降水預(yù)報的對比,采用該方法預(yù)報的結(jié)果與實況更為接近,有效訂正了集合預(yù)報模式預(yù)報的降水在長江中下游地區(qū)顯著偏大的問題。
針對不同預(yù)報對象,選擇關(guān)聯(lián)性高的因子,將大數(shù)據(jù)應(yīng)用于傳統(tǒng)的車貝雪夫[18]、自然正交分解[19]、Logistic訂正[20]、集合最優(yōu)百分位[21-22]、多模式集成等統(tǒng)計后處理技術(shù),以及多變量時滯回歸模型、多變量時滯回歸/主成分復(fù)數(shù)自回歸模型等預(yù)測方法[23-24],構(gòu)建訓(xùn)練模型,并結(jié)合集合預(yù)報資料進行地面降水、氣溫等地面要素的預(yù)報,形成客觀產(chǎn)品?;谖覈灾餮邪l(fā)的全球集合預(yù)報系統(tǒng)(GRAPES)的極端天氣預(yù)報指數(shù),反映了中期時效集合數(shù)值模式相對于模式氣候態(tài)的偏離程度,為極端要素預(yù)報提供支撐。圖5是依據(jù)區(qū)域強降水低頻模型,通過一階自回歸方法建立的低頻強降水預(yù)報產(chǎn)品,該產(chǎn)品可對10-20天強降水過程預(yù)報提供支撐。
圖4 災(zāi)害性天氣過程預(yù)報技術(shù)流程圖(a)及2018年6月28日-7月2日江淮強降雨過程預(yù)報(b)
圖5 2019年6月6日-8月1日基于區(qū)域強降水過程準(zhǔn)雙周低頻特征的統(tǒng)計預(yù)報
機器深度學(xué)習(xí)作為人工智能的核心,在多個領(lǐng)域均快速發(fā)展,其優(yōu)勢在于能夠通過學(xué)習(xí)算法自動獲取數(shù)據(jù)特征。目前機器深度學(xué)習(xí)的理論和方法已應(yīng)用于氣象預(yù)報領(lǐng)域,如采用貝葉斯分類器[25]、支持向量機[26]、K-MEANS聚類[27]等算法對氣象要素和環(huán)流進行預(yù)報。圖6(a)是使用與氣候聚類相似的K-MEANS方法進行環(huán)流聚類,該方法能有效識別出具有時間空間連續(xù)演變的環(huán)流型,為中期天氣過程預(yù)報提供支撐。圖6(b)給出2012年5-9月逐日的108 h預(yù)報基于支持向量機(SVM)的多模式集成預(yù)報(SVM_MEF)、ECMWF控制預(yù)報(EC_C)和集合平均(EC_M)對暴雨的TS評分對比,SVM_MEF對暴雨預(yù)報準(zhǔn)確率較EC_C和EC_M的均有明顯提高。
圖6 2020年1月5日起報的未來11-15天K-MEANS聚類分型預(yù)報(a)及基于支持向量機(SVM)的2012年5-9月多模式集成預(yù)報108 h逐日預(yù)報暴雨TS評分(b)
數(shù)值模式檢驗評估是預(yù)報員訂正模式的基礎(chǔ)。隨著數(shù)值模式、客觀預(yù)報技術(shù)的快速發(fā)展,以及產(chǎn)品種類的不斷增加,預(yù)報員需要快速把握模式在中長期預(yù)報時效的整體預(yù)報性能。為了提高預(yù)報員對數(shù)值模式和客觀預(yù)報產(chǎn)品預(yù)報性能的認(rèn)識,系統(tǒng)平臺中設(shè)計并引入適合新的中長期預(yù)報的常用檢驗評估技術(shù)方法。這些技術(shù)方法涵蓋了包括大型環(huán)流的環(huán)流指數(shù)檢驗(圖7a),大型雨帶穩(wěn)定性的雨帶位置檢驗(圖略),中期強降水過程的空間檢驗(圖7b)和差值檢驗(圖略),針對極端天氣的EDI指數(shù)檢驗(圖略),過程降水量及針對降水的概率預(yù)報檢驗(圖略)。
圖7 北半球西風(fēng)指數(shù)240 h預(yù)報差值檢驗(a)及中期降水量MODE空間檢驗(b)
中長期天氣預(yù)報業(yè)務(wù)系統(tǒng)利用分布式數(shù)據(jù)存儲和分布式計算技術(shù),顯著提升了系統(tǒng)對多類型、高維度、具有復(fù)雜關(guān)聯(lián)性的氣象數(shù)據(jù)的應(yīng)用能力和訪問效率,取得了以下初步成果:
(1)實現(xiàn)了海量實時數(shù)據(jù)與歷史背景數(shù)據(jù)的高效融合,對各類數(shù)據(jù)進行綜合分析,滿足了預(yù)報員對中期預(yù)報業(yè)務(wù)平臺應(yīng)用系統(tǒng)的智能交互、高效顯示的需求,促進了中長期預(yù)報一體化業(yè)務(wù)流程的建設(shè)。
(2)在集成國家級中長期預(yù)報業(yè)務(wù)技術(shù)和方法的基礎(chǔ)上,通過引入異常天氣信息提取、災(zāi)害性天氣過程預(yù)報及人工智能等新技術(shù),形成了從數(shù)據(jù)監(jiān)測、預(yù)報分析、評估檢驗到預(yù)報服務(wù)的一個完整鏈條,進一步完善了中長期預(yù)報技術(shù)流程。
(3)該系統(tǒng)目前已在國家級預(yù)報業(yè)務(wù)部門部署應(yīng)用,并被省級氣象業(yè)務(wù)部門廣泛使用,展現(xiàn)出良好的通用性和穩(wěn)定性,充分體現(xiàn)了國家級業(yè)務(wù)單位在中長期預(yù)報技術(shù)、平臺應(yīng)用等方面的引領(lǐng)示范作用。
未來中長期預(yù)報業(yè)務(wù)系統(tǒng)平臺的建設(shè)將繼續(xù)沿著預(yù)報技術(shù)集成、功能高效擴展、系統(tǒng)性能提高、個性定制服務(wù)、便捷集約管理等智能化發(fā)展方向,進一步支撐國家級中長期天氣預(yù)報業(yè)務(wù)發(fā)展。