• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的逐時(shí)降水預(yù)報(bào)訂正方法研究*

      2021-02-02 07:26:44陳錦鵬馮業(yè)榮蒙偉光文秋實(shí)戴光豐
      氣象 2021年1期
      關(guān)鍵詞:漏報(bào)強(qiáng)降水降水

      陳錦鵬 馮業(yè)榮 蒙偉光 文秋實(shí) 潘 寧 戴光豐

      1 福建省災(zāi)害天氣重點(diǎn)實(shí)驗(yàn)室,福州 350001 2 數(shù)據(jù)科學(xué)與統(tǒng)計(jì)重點(diǎn)實(shí)驗(yàn)室,漳州 363005 3 福建省漳州市氣象局,漳州 363005 4 中國(guó)氣象局廣州熱帶海洋氣象研究所/廣東省區(qū)域數(shù)值天氣預(yù)報(bào)重點(diǎn)實(shí)驗(yàn)室,廣州 510640 5 福建省氣象臺(tái),福州 350001

      提 要: 應(yīng)用2017—2018年5—9月福建省觀測(cè)資料對(duì)華南區(qū)域中尺度模式(GTRAMS-3 km-RUC)預(yù)報(bào)進(jìn)行站點(diǎn)檢驗(yàn),建立和訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的逐時(shí)降水分級(jí)訂正模型,并與頻率匹配法進(jìn)行2017—2018年測(cè)試集的對(duì)比試驗(yàn)和2019年數(shù)據(jù)集的模擬業(yè)務(wù)檢驗(yàn),探討了試驗(yàn)過(guò)程中遇到的樣本不均衡、特征變量選取以及模型過(guò)擬合問(wèn)題。結(jié)果表明:模式對(duì)于15 mm·h-1以上降水的預(yù)報(bào)能力弱,各訂正方法對(duì)原始預(yù)報(bào)均有不同程度的改進(jìn)作用。從評(píng)估指標(biāo)來(lái)看,基于卷積神經(jīng)網(wǎng)絡(luò)的訂正方法比頻率匹配法表現(xiàn)出優(yōu)勢(shì),其中相關(guān)系數(shù)判別方案下的網(wǎng)絡(luò)模型對(duì)強(qiáng)降水預(yù)報(bào)的訂正效果顯著優(yōu)于其他方法;在輸入特征變量選取方面,應(yīng)用主成分分析方案的模型訓(xùn)練收斂速度比相關(guān)系數(shù)判別方案更快,最佳訓(xùn)練期有所提前,但也更早進(jìn)入嚴(yán)重的過(guò)擬合狀態(tài),而相關(guān)系數(shù)判別方案能夠使網(wǎng)絡(luò)模型的訓(xùn)練擁有更長(zhǎng)的提升期以達(dá)到更具“潛力”的狀態(tài);基于卷積神經(jīng)網(wǎng)絡(luò)的訂正方法對(duì)減少分類(lèi)降水預(yù)報(bào)的漏報(bào)率、晴雨和弱降水預(yù)報(bào)的空?qǐng)?bào)率具有顯著作用,其優(yōu)化程度明顯超過(guò)頻率匹配法。

      引 言

      近幾年我國(guó)氣象部門(mén)大力開(kāi)展智能網(wǎng)格預(yù)報(bào)業(yè)務(wù),要求24 h預(yù)報(bào)時(shí)間分辨率達(dá)到1 h。在智能網(wǎng)格預(yù)報(bào)中,高分辨率模式的主導(dǎo)地位更加突顯,模式性能的提升無(wú)疑決定了未來(lái)預(yù)報(bào)業(yè)務(wù)的主要發(fā)展方向。目前高分辨率模式仍存在諸多局限,主要來(lái)自于初始條件、邊界條件、物理過(guò)程、同化技術(shù)、模式適用性(漆梁波,2015)等方面,因此模式訂正技術(shù)的發(fā)展亦不可忽視。合理、客觀、定量的訂正方法是連接數(shù)值模式與精準(zhǔn)預(yù)報(bào)的橋梁,是深入挖掘數(shù)值預(yù)報(bào)潛力不可或缺的環(huán)節(jié),也是未來(lái)一段時(shí)間高分辨率模式應(yīng)用的關(guān)鍵。

      目前,基于經(jīng)典統(tǒng)計(jì)學(xué)方法的溫度預(yù)報(bào)訂正技術(shù)已經(jīng)優(yōu)于預(yù)報(bào)員預(yù)報(bào)水平(吳啟樹(shù)等,2016),在較長(zhǎng)時(shí)間的累積降水量預(yù)報(bào)方面也有所進(jìn)展,諸如頻率匹配法(李俊等,2014;2015)、評(píng)分最優(yōu)化訂正法(吳啟樹(shù)等,2017)等方法被廣泛使用。但是對(duì)于精細(xì)到逐小時(shí)的降水預(yù)報(bào)訂正方法研究仍然比較匱乏。歸根結(jié)底在于氣溫與降水兩種要素存在巨大差異,與氣溫演變所表現(xiàn)出的連續(xù)性和平穩(wěn)性不同,降水事件在時(shí)空分布上具有高度的非線(xiàn)性和隨機(jī)性,從逐小時(shí)的降水事件來(lái)看這種隨機(jī)性更加顯著,所以傳統(tǒng)的統(tǒng)計(jì)學(xué)方法對(duì)其訂正作用十分有限。近年來(lái),人工智能逐漸在圖像識(shí)別、數(shù)據(jù)挖掘及醫(yī)療等諸多領(lǐng)域中得到了良好的結(jié)合與深入的應(yīng)用,甚至為部分行業(yè)帶來(lái)前所未有的變革,這對(duì)于現(xiàn)階段預(yù)報(bào)技術(shù)發(fā)展具有重要的啟發(fā)意義。氣象數(shù)據(jù)是名副其實(shí)的“大數(shù)據(jù)”,而人工智能的前沿技術(shù)——深度學(xué)習(xí)(deep learning,DL)是迄今為止處理大數(shù)據(jù)的最有效算法之一。相比其他機(jī)器學(xué)習(xí)算法,DL的優(yōu)勢(shì)在于學(xué)習(xí)能力進(jìn)一步增強(qiáng),對(duì)各類(lèi)復(fù)雜問(wèn)題的適應(yīng)性好,其數(shù)據(jù)驅(qū)動(dòng)的特性尤其適用于對(duì)大數(shù)據(jù)包含的豐富信息進(jìn)行自動(dòng)挖掘。如何將DL應(yīng)用于數(shù)值預(yù)報(bào)訂正將是我們必須思考的問(wèn)題。

      近年來(lái),DL在氣象領(lǐng)域的結(jié)合應(yīng)用案例日益增多,并展現(xiàn)出了巨大的潛在價(jià)值與廣闊的應(yīng)用前景(許小峰,2018)。孫全德等(2019)將DL應(yīng)用于數(shù)值模式10 m風(fēng)速預(yù)報(bào)的訂正上,發(fā)現(xiàn)隨著預(yù)報(bào)時(shí)效的增加,訂正力度越來(lái)越大;Shi et al(2015;2017)將卷積長(zhǎng)短期記憶(convolutional long-short term memory,LSTM)網(wǎng)絡(luò)模型應(yīng)用于臨近降水預(yù)報(bào),相比于光流法展現(xiàn)出了更優(yōu)秀的預(yù)報(bào)能力,在此基礎(chǔ)上又進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),在預(yù)測(cè)效果基本不變的前提下減少了冗余參數(shù);針對(duì)雷達(dá)資料這種典型的時(shí)空結(jié)構(gòu)數(shù)據(jù),郭瀚陽(yáng)等(2019)發(fā)現(xiàn)DL可以有效“學(xué)習(xí)”到雷達(dá)數(shù)據(jù)特征的內(nèi)在關(guān)聯(lián),明顯提高了強(qiáng)對(duì)流回波臨近預(yù)報(bào)準(zhǔn)確率;滕志偉(2017)根據(jù)LSTM對(duì)雷達(dá)回波外推問(wèn)題的實(shí)踐,提出了一種基于LSTM的RET-RNN模型,并對(duì)RET-RNN模型的結(jié)構(gòu)和超參數(shù)進(jìn)行了優(yōu)化,該算法在外推時(shí)效較長(zhǎng)時(shí)效果較好。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是DL中一種經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),其具有的局部連接、權(quán)值共享及池化操作等特性有效減少了冗余參數(shù),易于訓(xùn)練,魯棒性較強(qiáng)(周飛燕等,2017)。也由于這些優(yōu)越特性,基于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的各類(lèi)“升級(jí)版”網(wǎng)絡(luò)模型在多屆ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)競(jìng)賽(imagenet large scale visual recognition challenge)中蟬聯(lián)冠軍,甚至超越了人類(lèi)自身的識(shí)別水平。

      然而,目前DL在氣象領(lǐng)域的應(yīng)用思路仍然集中在如何根據(jù)實(shí)況觀測(cè)資料推測(cè)預(yù)報(bào)對(duì)象未來(lái)的演變過(guò)程,DL與數(shù)值預(yù)報(bào)的融合應(yīng)用之先例相比甚少。能否在快速更新同化預(yù)報(bào)系統(tǒng)對(duì)未來(lái)幾個(gè)小時(shí)的環(huán)流形勢(shì)和環(huán)境條件預(yù)測(cè)的基礎(chǔ)上進(jìn)一步通過(guò)DL“推導(dǎo)”出相應(yīng)的降水狀況,是具有研究?jī)r(jià)值和實(shí)踐意義的問(wèn)題,亦是本文的研究重點(diǎn)。天氣演變過(guò)程本質(zhì)上仍是物理演變過(guò)程,任何尺度上的物理機(jī)制都必須受到物理定律的約束,這方面正是DL所不擅長(zhǎng)的。DL仍是一種統(tǒng)計(jì)意義上的技術(shù),只不過(guò)它的高度非線(xiàn)性變換能力賦予了它一定程度的“智能”,但在現(xiàn)階段仍難以勝任模擬物理動(dòng)力過(guò)程的任務(wù)。合理運(yùn)用DL作為數(shù)值預(yù)報(bào)的“輔助”手段對(duì)其進(jìn)行后處理,意味著把DL不擅長(zhǎng)的物理過(guò)程演變問(wèn)題轉(zhuǎn)化為DL比較擅長(zhǎng)的模式偏差訂正問(wèn)題,是兩者取長(zhǎng)補(bǔ)短的極佳結(jié)合點(diǎn)。本文應(yīng)用歷史觀測(cè)資料與數(shù)值預(yù)報(bào)產(chǎn)品,建立和訓(xùn)練了基于卷積神經(jīng)網(wǎng)絡(luò)的逐時(shí)降水分級(jí)訂正模型,并與頻率匹配法進(jìn)行2017—2018年測(cè)試集的對(duì)比試驗(yàn)和2019年數(shù)據(jù)集的模擬業(yè)務(wù)檢驗(yàn)以評(píng)估模型訂正效果,同時(shí)探討了試驗(yàn)過(guò)程中遇到的樣本不均衡、特征變量選取以及模型過(guò)擬合問(wèn)題,為DL在氣象領(lǐng)域的應(yīng)用和數(shù)值預(yù)報(bào)后處理技術(shù)的發(fā)展提供了新的思路。

      1 資 料

      1.1 觀測(cè)資料

      本試驗(yàn)主要針對(duì)福建省強(qiáng)降水頻發(fā)的主汛期,選取2017—2019年5—9月福建省內(nèi)自動(dòng)站逐時(shí)雨量數(shù)據(jù)作為觀測(cè)資料。具體空間范圍為23.32°~28.51°N、115.68°~120.69°E,除省界邊緣的少數(shù)站點(diǎn)外,涵蓋了福建省內(nèi)約2 200個(gè)雨量站。其中,從逐時(shí)、逐站的角度對(duì)2017—2018年觀測(cè)資料進(jìn)行采樣以制作K折交叉驗(yàn)證的試驗(yàn)數(shù)據(jù)集,可得到約1 400萬(wàn)站次的有效樣本;同樣對(duì)2019年觀測(cè)資料進(jìn)行采樣以制作用于模擬業(yè)務(wù)檢驗(yàn)的數(shù)據(jù)集,約有736萬(wàn)站次的有效樣本。根據(jù)業(yè)務(wù)實(shí)踐將逐時(shí)雨量分為四個(gè)等級(jí),通過(guò)觀察樣本分布情況(表1)可以發(fā)現(xiàn),逐時(shí)雨量數(shù)據(jù)存在著嚴(yán)重的不均衡特征,中等以上降水屬于極小概率事件,所占比例大約只有0.3%,這也是在后續(xù)模型訓(xùn)練過(guò)程中必須處理的問(wèn)題。

      表1 2017—2018年不同降水等級(jí)樣本數(shù)量

      1.2 預(yù)報(bào)資料

      采用華南區(qū)域中尺度模式系統(tǒng)(GRAPES Tropical Regional Modeling System,GTRAMS)提供的預(yù)報(bào)產(chǎn)品。該模式系統(tǒng)采用具有區(qū)域特點(diǎn)的三維參考大氣動(dòng)力框架及高分辨率地形數(shù)據(jù)集,輔以快速更新的雷達(dá)資料云分析技術(shù),形成了一套區(qū)域內(nèi)的逐小時(shí)快速更新同化預(yù)報(bào)系統(tǒng)GTRAMS-3 km-RUC(徐道生等,2014),以下簡(jiǎn)稱(chēng)RUC。

      選用2017—2019年5—9月的RUC歷史預(yù)報(bào)產(chǎn)品作為預(yù)報(bào)資料。RUC產(chǎn)品的水平空間分辨率為0.03°×0.03°,垂直方向上分為12層,預(yù)報(bào)間隔為1 h。RUC預(yù)報(bào)產(chǎn)品種類(lèi)豐富,其中包括渦度、散度、假相當(dāng)位溫、水汽通量散度等19種物理量產(chǎn)品。值得一提的是,RUC在2019年5月進(jìn)行了一次較大調(diào)整,預(yù)報(bào)性能有所提升,但預(yù)報(bào)誤差的分布也相應(yīng)發(fā)生改變,因此應(yīng)用2019年RUC預(yù)報(bào)資料進(jìn)行模擬業(yè)務(wù)檢驗(yàn)更能考驗(yàn)各訂正方案的穩(wěn)定性和適應(yīng)性。

      2 模式降水預(yù)報(bào)檢驗(yàn)

      2.1 檢驗(yàn)方法

      空間上,將RUC逐時(shí)降水預(yù)報(bào)的格點(diǎn)場(chǎng)通過(guò)最鄰近法插值至觀測(cè)站點(diǎn);考慮到實(shí)際業(yè)務(wù)中存在的計(jì)算延遲,預(yù)報(bào)時(shí)效為3 h的模式資料具有較大的實(shí)際應(yīng)用價(jià)值,故重點(diǎn)選取預(yù)報(bào)時(shí)效為3 h的模式預(yù)報(bào)進(jìn)行分級(jí)檢驗(yàn)。檢驗(yàn)指標(biāo)包括TS評(píng)分(TS)、ETS評(píng)分(ETS)、漏報(bào)率(PO)、空?qǐng)?bào)率(FAR)、偏差(Bias),各指標(biāo)公式如下:

      (1)

      (2)

      (3)

      (4)

      (5)

      式中:NA為對(duì)應(yīng)降水等級(jí)預(yù)報(bào)正確的站數(shù),NB為漏報(bào)站數(shù),NC為空?qǐng)?bào)站數(shù),ND為其余降水等級(jí)預(yù)報(bào)正確的站數(shù)。

      2.2 檢驗(yàn)結(jié)果

      由圖1可見(jiàn),在2017—2018年5—9月RUC對(duì)于站點(diǎn)的逐時(shí)降水預(yù)報(bào)能力隨著降水量增大而急劇減弱。晴雨和弱降水預(yù)報(bào)的TS評(píng)分與ETS評(píng)分相對(duì)較高,而超過(guò)15 mm·h-1時(shí)均降至0.02以下;對(duì)于15 mm·h-1以上降水預(yù)報(bào)的漏報(bào)率和空?qǐng)?bào)率均超過(guò)0.9。從偏差來(lái)看,晴雨預(yù)報(bào)存在干偏差,而各降水等級(jí)的預(yù)報(bào)卻存在明顯的濕偏差,尤其是15 mm·h-1以上降水的偏差達(dá)到2.2以上。從站點(diǎn)檢驗(yàn)的角度來(lái)看,RUC對(duì)于中等以上降水預(yù)報(bào)基本失去參考意義。

      從圖2觀察評(píng)估指標(biāo)的月變化規(guī)律,發(fā)現(xiàn)RUC在各月的預(yù)報(bào)能力變化幅度較大。晴雨和弱降水的TS評(píng)分在6月達(dá)到最高,9月為最低;而從ETS評(píng)分來(lái)看,卻是在8月表現(xiàn)最優(yōu),其余月份的差異相對(duì)較小;中等以上降水的TS評(píng)分和ETS評(píng)分均是在7月相對(duì)高一些。從圖2c和2d對(duì)比發(fā)現(xiàn),晴雨預(yù)報(bào)的漏報(bào)率在所有月均高于空?qǐng)?bào)率,而弱降水則相反;整體來(lái)看,9月的漏報(bào)和空?qǐng)?bào)情況最為嚴(yán)重。造成這種月變化規(guī)律的主要原因可能是RUC對(duì)不同性質(zhì)降水過(guò)程的預(yù)報(bào)能力存在明顯的差異。

      另外也以相同方法分別檢驗(yàn)了預(yù)報(bào)時(shí)效為6、9和12 h的RUC降水預(yù)報(bào)(圖略),發(fā)現(xiàn)在TS、ETS、PO、FAR四項(xiàng)指標(biāo)上的各分類(lèi)預(yù)報(bào)相對(duì)水平分布均與預(yù)報(bào)時(shí)效3 h一致,差別在于隨著預(yù)報(bào)時(shí)效的延長(zhǎng),這四項(xiàng)指標(biāo)的絕對(duì)水平均呈現(xiàn)不同程度的轉(zhuǎn)差趨勢(shì),如預(yù)報(bào)時(shí)效12 h的晴雨預(yù)報(bào)TS和ETS分別下降至0.15和0.08。在15 mm·h-1以上降水預(yù)報(bào)的Bias則發(fā)生了較大變化,原先的顯著濕偏差隨著預(yù)報(bào)時(shí)效延長(zhǎng)而迅速減小,預(yù)報(bào)時(shí)效12 h的中等降水和強(qiáng)降水預(yù)報(bào)Bias已分別降至1.31和1.10,甚至略低于同時(shí)效的弱降水預(yù)報(bào)Bias。

      圖1 RUC逐時(shí)降水預(yù)報(bào)評(píng)估指標(biāo)概況

      圖2 TS評(píng)分(a),ETS評(píng)分(b),漏報(bào)率(c)和空?qǐng)?bào)率(d)的月變化

      總之,盡管RUC預(yù)報(bào)具有較高的時(shí)空分辨率,但降水預(yù)報(bào)效果仍然不夠理想,尤其是針對(duì)15 mm·h-1以上量級(jí)的降水預(yù)報(bào)能力較差,需要合理的客觀解釋?xiě)?yīng)用方法加以訂正。

      3 基于卷積神經(jīng)網(wǎng)絡(luò)的降水預(yù)報(bào)訂正方案

      3.1 基本原理

      卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)一般由輸入層、卷積層、池化層、全連接層及輸出層構(gòu)成。在卷積層中,卷積核是一個(gè)權(quán)值矩陣(如對(duì)于二維平面而言可為3×3的矩陣),它以固定順序逐步滑動(dòng)作用于原始輸入矩陣,然后生成一個(gè)新矩陣,即新矩陣的元素為:

      (6)

      式中:x為原始矩陣中的元素,s為新矩陣的元素,w為卷積核的權(quán)重,m、n分別為卷積核的列數(shù)、行數(shù)。卷積層通過(guò)卷積操作和激活處理(如ELU、RELU函數(shù))提取特征,底層的卷積層用于提取低級(jí)特征,更高層的卷積層通過(guò)組合低級(jí)特征而提取出更高級(jí)的特征。為了讓模型具備一定的泛化能力,緊跟在卷積層之后加入池化層,通過(guò)取最大值或平均值的方式來(lái)進(jìn)一步降低分辨率,這種操作可以使卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別獲得平移不變性。通過(guò)多次卷積層和池化層的計(jì)算之后,中間變量進(jìn)入全連接層,全連接層可以整合具有類(lèi)別區(qū)分性的高維信息,然后輸出最終的結(jié)果。

      模式預(yù)報(bào)的物理量格點(diǎn)場(chǎng)與普通的圖像數(shù)據(jù)具有許多相似之處:物理量的水平空間分布如同圖像的像素矩陣,物理量的種類(lèi)與層次則可類(lèi)比于圖像數(shù)據(jù)中的“通道”概念。訂正模型試圖借助卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別領(lǐng)域的巨大優(yōu)勢(shì)以挖掘物理量場(chǎng)與逐時(shí)雨量等級(jí)之間可能存在的映射關(guān)系。然而,若將預(yù)報(bào)范圍內(nèi)的全部網(wǎng)格數(shù)據(jù)直接用于模型輸入,則對(duì)于同一時(shí)刻的不同站點(diǎn)而言,其輸入變量均不變,難以得到有意義的輸出結(jié)果。為此需要構(gòu)建屬于單個(gè)站點(diǎn)“特有”的輸入變量,采樣方案為:以站點(diǎn)為中心,截取固定范圍的矩形區(qū)域內(nèi)的格點(diǎn)數(shù)據(jù)作為輸入變量,即認(rèn)為“局部”的物理量場(chǎng)與該站點(diǎn)的逐時(shí)雨量之間存在對(duì)應(yīng)關(guān)系。這種從站點(diǎn)角度進(jìn)行建模的優(yōu)勢(shì)在于不僅使自變量與因變量的對(duì)應(yīng)關(guān)系變得更加清晰明朗,而且能夠利用的數(shù)據(jù)量大幅增加,十分利于提升模型的學(xué)習(xí)效果。

      3.2 方案設(shè)計(jì)

      3.2.1 數(shù)據(jù)預(yù)處理

      根據(jù)時(shí)空對(duì)應(yīng)關(guān)系將觀測(cè)資料與模式預(yù)報(bào)資料制作成數(shù)據(jù)集??臻g上,以預(yù)測(cè)站點(diǎn)為中心截取出邊長(zhǎng)約為45 km的矩形網(wǎng)格作為輸入變量;時(shí)間上,選取預(yù)報(bào)時(shí)效為3 h的預(yù)報(bào)產(chǎn)品作為對(duì)應(yīng)的預(yù)報(bào)資料。

      一般而言,圖像矩陣在輸入模型之前需要進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,物理量數(shù)據(jù)包含各種不同量綱的物理量,所以同樣需要類(lèi)似的預(yù)處理。但物理數(shù)據(jù)不同于圖像像素值存在著明確的上下限,而且不僅物理數(shù)據(jù)的空間分布是關(guān)鍵信息,其數(shù)值的相對(duì)高低對(duì)模型輸出亦有至關(guān)重要的影響。為了較好地保留物理量場(chǎng)的空間分布以及數(shù)值區(qū)間的信息,采用先標(biāo)準(zhǔn)化后縮放計(jì)算的預(yù)處理方案:先計(jì)算出每種物理量場(chǎng)的空間平均值M,再對(duì)均值序列進(jìn)行標(biāo)準(zhǔn)化處理,將標(biāo)準(zhǔn)化值與原先的空間平均值M之比作為縮放系數(shù),最后將每個(gè)原始樣本與對(duì)應(yīng)的縮放系數(shù)相乘即得到比較合適的新樣本數(shù)據(jù)。即對(duì)于每個(gè)樣本中的物理量矩陣X作如下變換:

      (7)

      3.2.2 特征變量選取

      模式生成的預(yù)報(bào)產(chǎn)品種類(lèi)豐富,部分還涉及不同的高度層次,如果不加以篩選而將所有物理量作為輸入特征變量,則由于物理量之間并非相互獨(dú)立以及對(duì)模型輸出的敏感性差,很可能導(dǎo)致訂正效果大打折扣。這里采用兩種特征變量選取方案進(jìn)行對(duì)比試驗(yàn),分別是相關(guān)系數(shù)判別(correlation coefficient discrimination,CCD)和主成分分析(principal component analysis,PCA)。前者根據(jù)物理量與小時(shí)雨量的相關(guān)系數(shù)絕對(duì)值大小進(jìn)行挑選,以0.15為閾值從45個(gè)不同種類(lèi)、不同層次的物理量中挑選出22個(gè)作為特征變量,該閾值已通過(guò)α=0.01的顯著性水平檢驗(yàn),結(jié)果如表2所示。后一種方案則是在預(yù)處理后對(duì)所有物理量進(jìn)行主成分分析,由于輸入特征變量的數(shù)目對(duì)模型訓(xùn)練存在影響,為了便于和前一種方案對(duì)比,也從45個(gè)主成分中挑選前22個(gè)主分量作為特征變量,這22個(gè)主分量的總解釋方差比例已經(jīng)超過(guò)了97%,可見(jiàn)PCA的特征降維作用十分明顯,具體方案為:先對(duì)訓(xùn)練集中每個(gè)樣本的場(chǎng)均值進(jìn)行標(biāo)準(zhǔn)化處理,然后對(duì)標(biāo)準(zhǔn)化的場(chǎng)均值所組成的新序列進(jìn)行主成分分析,獲取的主分量變換系數(shù)將應(yīng)用于對(duì)應(yīng)樣本的逐個(gè)格點(diǎn)上(經(jīng)過(guò)如3.2.1節(jié)的預(yù)處理之后),從而構(gòu)造出濃縮了絕大部分舊變量變化信息的新變量。

      表2 相關(guān)系數(shù)絕對(duì)值≥0.15的物理量

      3.2.3 K折交叉驗(yàn)證下的數(shù)據(jù)集劃分

      深度學(xué)習(xí)建模的核心在于訓(xùn)練過(guò)程,訓(xùn)練數(shù)據(jù)分布狀況的好壞將會(huì)直接影響模型最終的學(xué)習(xí)效果。為了削弱這種數(shù)據(jù)隨機(jī)性所導(dǎo)致的模型不穩(wěn)定性,應(yīng)用K折交叉驗(yàn)證方案將2017—2018年5—9月樣本數(shù)據(jù)劃分為8份,每份數(shù)據(jù)中的各等級(jí)降水樣本比例均與總體保持相同。每次建模使用其中的7份作為訓(xùn)練集,剩余1份作為測(cè)試集,最后將8次試驗(yàn)的平均結(jié)果作為評(píng)估指標(biāo)。為了避免數(shù)據(jù)不均衡問(wèn)題導(dǎo)致模型訓(xùn)練出現(xiàn)“一邊倒”的情況,采用隨機(jī)欠采樣方案使訓(xùn)練集樣本分布保持平衡,即以強(qiáng)降水類(lèi)的樣本數(shù)為參考標(biāo)準(zhǔn),從其他類(lèi)中隨機(jī)抽取相近數(shù)目的樣本加入,缺點(diǎn)是其他類(lèi)的數(shù)據(jù)利用率降低。另外,為了最大限度地利用現(xiàn)有數(shù)據(jù)集,從測(cè)試集中隨機(jī)抽取80%的樣本作為驗(yàn)證集,該做法不會(huì)影響試驗(yàn)的客觀性,驗(yàn)證集的加入可以方便地跟蹤模型在每一代訓(xùn)練階段后其擬合能力和泛化能力的變化趨勢(shì)。最終每次試驗(yàn)所用的數(shù)據(jù)集數(shù)量分布如表3所示。

      另外,應(yīng)用2019年5—9月觀測(cè)數(shù)據(jù)與相應(yīng)的RUC預(yù)報(bào)資料制作用于模擬業(yè)務(wù)檢驗(yàn)的數(shù)據(jù)集。2019年數(shù)據(jù)集包含了19 566個(gè)中等降水樣本和5 323個(gè)強(qiáng)降水樣本,另外分別隨機(jī)抽取了50 000個(gè)無(wú)降水和50 000個(gè)弱降水的樣本加入,樣本總數(shù)共計(jì)為124 889個(gè)。該數(shù)據(jù)集體現(xiàn)了氣象數(shù)據(jù)所具有的時(shí)間關(guān)聯(lián)特征,能夠?yàn)榛谇皟赡陻?shù)據(jù)訓(xùn)練而得到的訂正模型提供比較真實(shí)的模擬測(cè)試條件。

      表3 K折交叉驗(yàn)證下的2017—2018年數(shù)據(jù)集樣本數(shù)(單位:個(gè))

      3.2.4 模型設(shè)計(jì)

      試驗(yàn)設(shè)計(jì)的訂正模型符合經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)(圖3),可訓(xùn)練的總參數(shù)量在81萬(wàn)個(gè)左右。第一層卷積層的卷積核尺寸設(shè)為1×1,主要目的在于使相對(duì)“平滑”的物理量場(chǎng)的空間分布信息更加突顯,其余卷積層均采用3×3的卷積核。同時(shí),考慮到截取的“局部”物理量場(chǎng)空間范圍并不是太大,所以只在最終的卷積層之后才加入池化層,避免過(guò)度壓縮導(dǎo)致丟失大部分信息。為了進(jìn)一步加快收斂速度和減輕過(guò)擬合的影響,模型中加入批規(guī)范化層(Ioffe and Szegedy,2015)和隨機(jī)失活層(Liang and Liu,2015)。最后由Softmax函數(shù)(Wang et al,2018)進(jìn)行各個(gè)雨量等級(jí)的概率分布回歸,挑選出最大概率的降水等級(jí)作為模型輸出結(jié)果。模型訓(xùn)練的損失函數(shù)設(shè)為多分類(lèi)交叉熵(cross-entropy,CE)(Kline and Berardi,2005),其公式為:

      (8)

      式中:oi為觀測(cè)值,fi為預(yù)報(bào)值。交叉熵是度量?jī)蓚€(gè)概率分布間的差異性信息的指標(biāo),其保持高梯度狀態(tài)的特性可以使模型的收斂速度基本不會(huì)受到影響。

      圖3 預(yù)報(bào)訂正模型的卷積神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

      4 試驗(yàn)對(duì)比

      4.1 不同特征變量選取方案下的訓(xùn)練過(guò)程對(duì)比

      分別應(yīng)用CCD和PCA兩種特征變量選取方案對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的相同模型進(jìn)行50次迭代訓(xùn)練,以8次交叉驗(yàn)證試驗(yàn)的平均TS評(píng)分作為跟蹤指標(biāo)觀察模型在訓(xùn)練過(guò)程中的性能變化趨勢(shì)。如圖4 所示,兩者在訓(xùn)練集上的TS評(píng)分和交叉熵變化均表現(xiàn)出“S”型曲線(xiàn)特征,總體趨勢(shì)無(wú)顯著差異。開(kāi)始訓(xùn)練時(shí)模型的識(shí)別能力類(lèi)似于模式的原始預(yù)報(bào),與降水強(qiáng)度成反比,第25代訓(xùn)練以后,模型在訓(xùn)練集上的TS評(píng)分均超過(guò)了0.4,交叉熵降至0.6以下,反映了模型的擬合能力隨著訓(xùn)練過(guò)程而顯著改善。隨著迭代數(shù)繼續(xù)增加,模型不斷加速收斂,對(duì)訓(xùn)練集中各個(gè)等級(jí)降水識(shí)別能力的差異性逐漸減小。最終TS評(píng)分達(dá)到0.8以上時(shí)收斂速度放緩,達(dá)到了理想的水平。在訓(xùn)練集上兩個(gè)方案的最大差異在于PCA方案的訓(xùn)練指標(biāo)改善速度更快,后期能夠達(dá)到的極限水平也略高一些,這意味著PCA方案確實(shí)起到了壓縮特征變量信息的作用,挑選出來(lái)的主分量可使模型的擬合能力進(jìn)一步增強(qiáng)。

      另一方面,模型在驗(yàn)證集上表現(xiàn)出較大反差(圖5)。模型對(duì)于陌生數(shù)據(jù)的識(shí)別能力在前15代中快速提升,之后根據(jù)降水等級(jí)表現(xiàn)出不同的變化趨勢(shì)。無(wú)降水和弱降水的過(guò)擬合問(wèn)題相對(duì)于中等降水和強(qiáng)降水更加嚴(yán)重,其評(píng)估指標(biāo)在20代之后隨著模型泛化能力轉(zhuǎn)差呈現(xiàn)下滑的趨勢(shì)。模型對(duì)中等降水的識(shí)別能力也在20代之后逼近極限,處于小幅振蕩狀態(tài),對(duì)強(qiáng)降水的識(shí)別能力則一直緩慢提升。綜合來(lái)看,本試驗(yàn)中訂正模型對(duì)應(yīng)的最佳訓(xùn)練期應(yīng)在20代之前,20代之后的訓(xùn)練過(guò)程對(duì)于模型泛化能力的改善可能產(chǎn)生負(fù)作用。作為對(duì)比,同樣計(jì)算得出RUC原始預(yù)報(bào)在8次驗(yàn)證試驗(yàn)中的平均TS評(píng)分,無(wú)降水、弱降水、中等降水、強(qiáng)降水分別為0.428、0.260、0.050、0.013,可見(jiàn)雖然模型出現(xiàn)過(guò)擬合現(xiàn)象,但是對(duì)RUC原始預(yù)報(bào)仍存在顯著的改善作用,尤其對(duì)于中等降水和強(qiáng)降水的預(yù)報(bào)。另外,模型對(duì)中等降水和強(qiáng)降水的“學(xué)習(xí)”效果均優(yōu)于另外兩個(gè)等級(jí),兩者第20代的TS評(píng)分相比第1代分別提升了35%和36%左右。

      進(jìn)一步對(duì)比兩種特征變量提取方案帶來(lái)的差異。PCA方案在訓(xùn)練集上的收斂速度更快,從第10代起各項(xiàng)指標(biāo)已明顯超越了CCD方案,但也更早進(jìn)入過(guò)擬合狀態(tài),40代之后模型嚴(yán)重的過(guò)擬合狀態(tài)導(dǎo)致各項(xiàng)指標(biāo)已難以繼續(xù)提升。驗(yàn)證集上看,前期PCA方案下的TS評(píng)分在弱降水和強(qiáng)降水情況下優(yōu)于CCD方案,但隨著訓(xùn)練代數(shù)增加反而變得與CCD方案持平或者更差,其原因可能是PCA方案下的模型更早(20代前后)進(jìn)入嚴(yán)重的過(guò)擬合狀態(tài),這也意味著更早進(jìn)入“負(fù)效果”的訓(xùn)練階段;相反地,CCD方案的模型學(xué)習(xí)能力卻還在不斷增強(qiáng),后續(xù)達(dá)到了更具“潛力”的狀態(tài)。不可忽視的是,驗(yàn)證集樣本數(shù)量小于測(cè)試集和訓(xùn)練集,產(chǎn)生的隨機(jī)性也會(huì)相對(duì)更大一些。

      4.2 不同訂正方案在2017—2018年測(cè)試集上的對(duì)比

      為了評(píng)估模型的訂正效果,在2017—2018年測(cè)試集上對(duì)比RUC原始預(yù)報(bào)以及頻率匹配法(frequency matching,F(xiàn)M)、CCD方案下的模型(以下簡(jiǎn)稱(chēng)CNN-CCD)和PCA方案下的模型(以下簡(jiǎn)稱(chēng)CNN-PCA)這三種不同的訂正方案。其中,F(xiàn)M的滑動(dòng)統(tǒng)計(jì)窗口設(shè)為10 d。另外,根據(jù)CNN-CCD和CNN-PCA在驗(yàn)證集上的表現(xiàn),分別選取第20代和第14代模型作為最佳訓(xùn)練期進(jìn)行對(duì)比檢驗(yàn)。

      通過(guò)圖6a和6b可以看到,雖然基于卷積神經(jīng)網(wǎng)絡(luò)的訂正模型出現(xiàn)過(guò)擬合問(wèn)題,但仍然對(duì)RUC原始預(yù)報(bào)帶來(lái)了一定程度的提升,尤其在晴雨、弱降水和強(qiáng)降水預(yù)報(bào)下訂正效果更加顯著,CNN-CCD在這三種情況下的TS評(píng)分分別為0.697、0.528和0.060,其相對(duì)于原始預(yù)報(bào)的技巧評(píng)分分別達(dá)到了0.160、0.052和0.051,比FM分別高出了0.137、0.066和0.046,其針對(duì)30 mm·h-1以上的降水提升幅度最大。CNN-CCD與CNN-PCA的差異主要體現(xiàn)在強(qiáng)降水樣本上,CNN-PCA對(duì)強(qiáng)降水等級(jí)的預(yù)報(bào)無(wú)明顯改善作用。FM對(duì)RUC原始預(yù)報(bào)亦有微弱的改善作用,但是總體不如CNN-CCD與CNN-PCA。另外,無(wú)論哪種方案對(duì)中等降水等級(jí)的訂正效果均為最差,甚至不如RUC原始預(yù)報(bào),原因可能有二:RUC本身對(duì)于中等降水事件的預(yù)報(bào)能力已經(jīng)足夠優(yōu)秀,可訂正空間有限;中等降水對(duì)應(yīng)的物理特征不夠突出,難以和弱降水或強(qiáng)降水相互區(qū)分,導(dǎo)致“學(xué)習(xí)”難度大。

      從漏報(bào)率和空?qǐng)?bào)率分析不同方案的誤差訂正來(lái)源:CNN-CCD和CNN-PCA均能大幅減少中等降水預(yù)報(bào)的漏報(bào)率,但晴雨預(yù)報(bào)的漏報(bào)率卻不降反升。另外,CNN-CCD大幅削減了強(qiáng)降水的漏報(bào)率,其削減率可達(dá)原始預(yù)報(bào)的56.8%,而CNN-PCA則在弱降水漏報(bào)率上表現(xiàn)最優(yōu)。由圖6d可見(jiàn),CNN-CCD和CNN-PCA均無(wú)法改善中等以上降水的空?qǐng)?bào)率,但能夠顯著改善晴雨和弱降水的空?qǐng)?bào)率。相比而言,頻率匹配法對(duì)漏報(bào)率和空?qǐng)?bào)率的削減幅度亦不如另外兩種方案??傮w來(lái)講,CNN-CCD和CNN-PCA可以取得更加理想的訂正效果,特別是CNN-CCD對(duì)強(qiáng)降水等級(jí)預(yù)報(bào)的訂正十分有效。

      圖4 CCD(a)與PCA(b)方案下訓(xùn)練集的TS評(píng)分與交叉熵

      圖5 驗(yàn)證集上不同降水等級(jí)的TS評(píng)分(a)無(wú)降水,(b)弱降水,(c)中等降水,(d)強(qiáng)降水

      4.3 不同訂正方案在2019年數(shù)據(jù)集上的對(duì)比

      為了更加真實(shí)地對(duì)比不同訂正方案在實(shí)際業(yè)務(wù)應(yīng)用中的表現(xiàn)差異,制作了2019年數(shù)據(jù)集進(jìn)行檢驗(yàn)。RUC在2019年5月進(jìn)行了性能升級(jí),進(jìn)一步加大了不同方案的適應(yīng)難度,能夠更好地模擬完全陌生的實(shí)際業(yè)務(wù)數(shù)據(jù)環(huán)境。

      首先從圖7觀察到不同訂正方案在2019年數(shù)據(jù)集上的表現(xiàn)差異不同于2017—2018年的測(cè)試集,主要原因是模式調(diào)整帶來(lái)的誤差分布變化,但仍然可以發(fā)現(xiàn)CNN-CCD和CNN-PCA在TS評(píng)分和ETS評(píng)分上基本超過(guò)了FM。從TS評(píng)分上看,CNN-CCD和CNN-PCA在晴雨預(yù)報(bào)和弱降水預(yù)報(bào)上差異不大,均超過(guò)了0.68的水平,而在中等降水和強(qiáng)降水上表現(xiàn)卻截然相反,中等降水來(lái)講CNN-PCA更優(yōu),這也是兩個(gè)測(cè)試集之間具有較大差異之處;而在強(qiáng)降水上則是CNN-CCD顯著超過(guò)CNN-PCA和FM,甚至達(dá)到了0.2以上。ETS評(píng)分的趨勢(shì)與TS評(píng)分基本一致。

      圖6 不同訂正方案在2017—2018年測(cè)試集上的評(píng)估指標(biāo)(a)TS評(píng)分,(b)ETS評(píng)分,(c)漏報(bào)率,(d)空?qǐng)?bào)率

      圖7 同圖6,但為2019年數(shù)據(jù)集

      另外,圖7c的漏報(bào)率對(duì)比體現(xiàn)了CNN-PCA在分類(lèi)訂正方面更勝一籌,尤其是在弱降水和強(qiáng)降水預(yù)報(bào)上對(duì)漏報(bào)率的改善效果十分突出,但晴雨預(yù)報(bào)的漏報(bào)率反而最高???qǐng)?bào)率方面,CNN-CCD和CNN-PCA的訂正作用均主要體現(xiàn)在晴雨預(yù)報(bào)和弱降水預(yù)報(bào)上,中等降水和強(qiáng)降水的空?qǐng)?bào)率削減幅度較不明顯。通過(guò)在2019年測(cè)試集上的進(jìn)一步檢驗(yàn)可以看到,CNN-CCD和CNN-PCA對(duì)未知數(shù)據(jù)的穩(wěn)定性和適應(yīng)性均優(yōu)于傳統(tǒng)的統(tǒng)計(jì)方法,具備較高的實(shí)際業(yè)務(wù)應(yīng)用價(jià)值。

      5 結(jié)論與討論

      本文從站點(diǎn)的角度檢驗(yàn)了RUC在福建省5—9月的逐時(shí)降水預(yù)報(bào)性能,建立和訓(xùn)練了基于卷積神經(jīng)網(wǎng)絡(luò)的逐時(shí)降水分級(jí)訂正模型,應(yīng)用CCD和PCA兩種不同方案提取模式預(yù)報(bào)物理量作為輸入特征變量分別在2017—2018年的K折交叉驗(yàn)證測(cè)試集和2019年的模擬業(yè)務(wù)數(shù)據(jù)集上進(jìn)行訂正試驗(yàn),并與頻率匹配法對(duì)比分析訂正效果。試驗(yàn)結(jié)果表明:

      (1)RUC的晴雨預(yù)報(bào)存在干偏差,其分類(lèi)降水預(yù)報(bào)卻存在濕偏差,對(duì)于15 mm·h-1以上降水的預(yù)報(bào)能力弱。從TS評(píng)分上看,各訂正方案對(duì)RUC原始預(yù)報(bào)均有不同程度的改進(jìn)作用,但頻率匹配法對(duì)弱降水預(yù)報(bào)反而起到負(fù)的訂正作用。傳統(tǒng)的頻率匹配法直接從頻率統(tǒng)計(jì)的角度改善模式降水預(yù)報(bào)的系統(tǒng)性誤差,CNN-CCD與CNN-PCA則能夠通過(guò)模式對(duì)環(huán)境條件的預(yù)報(bào)信息推測(cè)出降水分類(lèi)結(jié)論,兩者原理截然不同。從各類(lèi)評(píng)估指標(biāo)來(lái)看CNN-CCD與CNN-PCA對(duì)原始預(yù)報(bào)的提升幅度更加突出,尤其對(duì)晴雨和弱降水的改善效果更加理想,其中CNN-CCD對(duì)30 mm·h-1降水預(yù)報(bào)的訂正十分有效。

      (2)在模型的輸入特征變量選取方面,PCA方案下訓(xùn)練時(shí)的收斂速度較快,最佳訓(xùn)練期有所提前,但也更早進(jìn)入嚴(yán)重的過(guò)擬合狀態(tài),這也意味著更早進(jìn)入“負(fù)效果”的訓(xùn)練階段。相反,CNN-CCD在訓(xùn)練過(guò)程中表現(xiàn)出了較長(zhǎng)的提升期,從而在強(qiáng)降水預(yù)報(bào)方面達(dá)到了更具“潛力”的狀態(tài)。

      (3)基于卷積神經(jīng)網(wǎng)絡(luò)的訂正方案對(duì)減少分類(lèi)降水預(yù)報(bào)的漏報(bào)率、晴雨和弱降水預(yù)報(bào)的空?qǐng)?bào)率具有顯著作用,優(yōu)化程度明顯超過(guò)頻率匹配法。

      (4)試驗(yàn)所設(shè)計(jì)的CNN-CCD對(duì)應(yīng)的最佳訓(xùn)練期在20代左右,CNN-PCA對(duì)應(yīng)的最佳訓(xùn)練期在14代左右。模型表現(xiàn)出來(lái)的過(guò)擬合問(wèn)題反映了其擬合能力較強(qiáng)、泛化能力較差的缺陷,最主要原因可能是各類(lèi)樣本可分性較差、訓(xùn)練樣本數(shù)量與模型容量不相適應(yīng)等,下一步將針對(duì)此問(wèn)題繼續(xù)優(yōu)化和改進(jìn)。

      猜你喜歡
      漏報(bào)強(qiáng)降水降水
      2020年江淮地區(qū)夏季持續(xù)性強(qiáng)降水過(guò)程分析
      黑龍江省玉米生長(zhǎng)季自然降水與有效降水對(duì)比分析
      黑龍江氣象(2021年2期)2021-11-05 07:07:00
      一次東移型西南低渦引發(fā)的強(qiáng)降水診斷分析
      為什么南極降水很少卻有很厚的冰層?
      家教世界(2018年16期)2018-06-20 02:22:00
      各類(lèi)氣體報(bào)警器防誤報(bào)漏報(bào)管理系統(tǒng)的應(yīng)用
      降水現(xiàn)象儀模擬軟件設(shè)計(jì)與實(shí)現(xiàn)
      四川盆地西南部短時(shí)強(qiáng)降水天氣特征分析
      2014 年5 月末西藏強(qiáng)降水天氣分析
      西藏科技(2015年3期)2015-09-26 12:11:10
      ESSENTIAL NORMS OF PRODUCTS OF WEIGHTED COMPOSITION OPERATORS AND DIFFERENTIATION OPERATORS BETWEEN BANACH SPACES OF ANALYTIC FUNCTIONS?
      傳染病漏報(bào)原因分析及對(duì)策
      元江| 武穴市| 商水县| 土默特左旗| 云浮市| 桦南县| 安图县| 织金县| 秦安县| 绥棱县| 潞城市| 渝北区| 绥芬河市| 南宁市| 中卫市| 阳高县| 荥阳市| 南宫市| 高淳县| 陇南市| 东丽区| 永济市| 长丰县| 长岛县| 临沂市| 鄄城县| 台州市| 瑞金市| 淮阳县| 盐津县| 三穗县| 大竹县| 临桂县| 石泉县| 台江县| 湖北省| 磴口县| 乌鲁木齐县| 凤庆县| 南昌县| 乌审旗|