深度學(xué)習(xí)模型TAGAN 在強(qiáng)對(duì)流回波臨近預(yù)報(bào)中的應(yīng)用

2022-08-01 23:29:38胡家暉盧楚翰姜有山何婧

大氣科學(xué) 2022年4期

胡家暉盧楚翰姜有山何婧

1 南京信息工程大學(xué)氣象災(zāi)害教育部重點(diǎn)實(shí)驗(yàn)室/氣候與環(huán)境變化國際合作聯(lián)合實(shí)驗(yàn)室/氣象災(zāi)害預(yù)報(bào)預(yù)警與評(píng)估協(xié)同創(chuàng)新中心,南京 210044

2 南京市氣象局, 南京 210009

1 引言

對(duì)流降水的臨近預(yù)報(bào)長期以來一直是天氣領(lǐng)域的一個(gè)重要研究課題。目前，制作0～3 小時(shí)內(nèi)臨近天氣預(yù)報(bào)和發(fā)布災(zāi)害性天氣警報(bào)的主要依據(jù)是天氣雷達(dá)觀測(cè)資料以及結(jié)合快速同化的數(shù)值模型，雷達(dá)回波的外推法是臨近預(yù)報(bào)的主要手段（俞小鼎等, 2012; 王國榮等, 2019）。傳統(tǒng)的雷達(dá)回波外推法主要是質(zhì)心跟蹤法、交叉相關(guān)法以及變分回波跟蹤算法（陳明軒等, 2007; 韓雷等, 2007; 吳劍坤等,2019），一些計(jì)算機(jī)視覺技術(shù)，如基于光流的方法也可以用于預(yù)測(cè)雷達(dá)回波圖（韓雷等, 2008; 曹春燕等, 2015）。但傳統(tǒng)的方法對(duì)長時(shí)間的預(yù)測(cè)效果不佳，且不能很好地推演出回波的生消情況。

近年來，深度學(xué)習(xí)模型在處理視頻預(yù)測(cè)任務(wù)上有較多應(yīng)用（Oprea et al., 2020），基于雷達(dá)的臨近預(yù)報(bào)本質(zhì)是一個(gè)時(shí)空序列預(yù)測(cè)任務(wù)，同樣也可看成一個(gè)視頻預(yù)測(cè)任務(wù)，以過去序列雷達(dá)回波圖作為輸入，預(yù)測(cè)未來的雷達(dá)回波圖，因而通過深度學(xué)習(xí)的技術(shù)來解決臨近預(yù)報(bào)問題是一個(gè)很好的思路。Shi et al.（2015）使用ConvLSTM模型（Convolutional Long-Short Term Memory）在降水臨近預(yù)報(bào)中獲得顯著效果，該模型的時(shí)空相關(guān)性更優(yōu)于FC-LSTM（Graves, 2013），且模型相對(duì)于傳統(tǒng)的基于光流的模型有一定的優(yōu)勢(shì)。在后續(xù)的改進(jìn)中，Shi et al.（2017）考慮了雷達(dá)回波旋轉(zhuǎn)特性，通過動(dòng)態(tài)改變隱狀態(tài)間的連接結(jié)構(gòu)提出TrajGRU（Trajectory Gated Recurrent Unit），并為深度學(xué)習(xí)模型在臨近預(yù)報(bào)的應(yīng)用提供了極具參考意義的基準(zhǔn)對(duì)比試驗(yàn)。韓豐等（2019）使用ST-LSTM 單元組成的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行雷達(dá)臨近預(yù)報(bào)試驗(yàn)，其預(yù)報(bào)結(jié)果比交叉相關(guān)法在各項(xiàng)指標(biāo)上要表現(xiàn)的更好，但雷達(dá)強(qiáng)回波中心預(yù)報(bào)效果不太理想。施恩等（2018）使用動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)模型在雷達(dá)回波外推任務(wù)中進(jìn)行了嘗試，相對(duì)于傳統(tǒng)的外推方法有一定提升。郭瀚陽等（2019）的試驗(yàn)表明深度學(xué)習(xí)模型較之傳統(tǒng)外推法在準(zhǔn)確率上有明顯的提升。近年來，模型結(jié)構(gòu)構(gòu)建與改進(jìn)的嘗試逐步得以開展，通常雷達(dá)回波外推模型采用多層編碼—解碼結(jié)構(gòu)，而模型的改進(jìn)一般分兩種。一種是對(duì)編解碼結(jié)構(gòu)進(jìn)行修改擴(kuò)充，如在編碼解碼端連接處加入注意力模塊，或如Star-BridgeNet（Cao et al., 2019）在解碼端改造每個(gè)輸出時(shí)間步之間的連接方式。另外，也有對(duì)基本的循環(huán)神經(jīng)網(wǎng)（RNN）模塊改造如針對(duì)回波的平穩(wěn)和非平穩(wěn)隨機(jī)過程建模的MIM（Wang et al., 2019）。

需指出的是，當(dāng)前大部分深度學(xué)習(xí)模型結(jié)構(gòu)主要基于RNN 和卷積神經(jīng)網(wǎng)（CNN），受限于卷積核的大小，普通的卷積層只能提取到有限范圍且固定的信息，對(duì)于范圍較大的系統(tǒng)性回波刻畫能力往往受到限制。對(duì)于RNN模型，預(yù)測(cè)的效果往往隨時(shí)間變差，一方面由于大氣的混沌和高度非線性難以預(yù)測(cè)，另一方面RNN 的預(yù)測(cè)依賴于上一時(shí)間步的輸出，誤差將會(huì)增加和累積。生成式對(duì)抗網(wǎng)絡(luò)（GAN）是另一個(gè)在計(jì)算機(jī)視覺任務(wù)中常用的模型，它通過生成器和判別器的博弈學(xué)習(xí)數(shù)據(jù)真實(shí)的分布。而Woo et al.（2018）提出利用嵌入式的注意力模塊，可以提高神經(jīng)網(wǎng)絡(luò)的不同尺度特征提取能力，關(guān)注重要的特征抑制不重要的特征。另一方面，盡管光流法對(duì)系統(tǒng)生消以及時(shí)效有其局限性，但其對(duì)已知時(shí)刻的回波系統(tǒng)的位置變化以及運(yùn)行特征有較強(qiáng)的刻畫能力，因此能否在深度模型編碼階段（預(yù)報(bào)因子構(gòu)建）融入光流法刻畫信息，從而提升模型的預(yù)報(bào)性能？為此，針對(duì)上述兩個(gè)問題本文嘗試使用雙流注意力生成對(duì)抗網(wǎng)（Two-stream Attention GAN，TAGAN），通過加入計(jì)算機(jī)視覺任務(wù)中常用的注意力模塊并且融入帶有運(yùn)動(dòng)信息的光流場，使用過去1 h 的雷達(dá)回波拼圖數(shù)據(jù)預(yù)測(cè)未來1 h 的回波演變，將此模型與Woo and Wong（2017）提出的Rover 變分光流法（Real-time Optical flow by Variational methods for Echoes of Radar）和基于3D 卷積原理的3D U-Net（簡稱3DUnet ）模型進(jìn)行對(duì)比檢驗(yàn)，給出了測(cè)試集上的對(duì)比檢驗(yàn)結(jié)果和回波過程個(gè)例可視化結(jié)果，并分析了導(dǎo)致預(yù)測(cè)效果差異的原因。

2 資料與方法

2.1 雷達(dá)資料選取及數(shù)據(jù)預(yù)處理

本文使用的數(shù)據(jù)集是深圳市氣象局與香港天文臺(tái)根據(jù)近年的雷達(dá)數(shù)據(jù)共同建立的“標(biāo)準(zhǔn)雷達(dá)數(shù)據(jù)集2018”（https://tianchi.aliyun.com/competition/entrance/231662/information [2021-01-05]）。該數(shù)據(jù)集由32 萬組連續(xù)雷達(dá)回波圖像組成。在本次實(shí)驗(yàn)中取前1 h 間隔6 min 共10 幀的回波圖（反射率因子），預(yù)測(cè)后1 h 共10 幀回波圖，挑選出了具有明顯回波過程（即樣本中至少一個(gè)時(shí)次含有10 dBZ以上的數(shù)據(jù)占比20%以上）的樣本（共2.2 萬組序列樣本），將缺測(cè)值用相鄰四個(gè)不為缺測(cè)的格點(diǎn)數(shù)值取平均后填充，分別在數(shù)據(jù)集的訓(xùn)練組和測(cè)試組上用長度為20、步長為10 的滑窗進(jìn)行切割獲得輸入部分不相交的序列樣本，在訓(xùn)練組上切割出本次試驗(yàn)的訓(xùn)練集和驗(yàn)證集，在測(cè)試組上切出測(cè)試集。其中訓(xùn)練集和驗(yàn)證集一共2 萬組序列樣本比例為8:2，測(cè)試集一共2000 組序列樣本。為濾除回波噪聲，對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)進(jìn)行中值濾波（即將每一個(gè)像素點(diǎn)的值設(shè)置為窗口內(nèi)所有像素點(diǎn)的中值），濾波會(huì)對(duì)圖像有一定的模糊化。之后進(jìn)行歸一化處理。整套所用數(shù)據(jù)中，10～20 dBZ、20～30 dBZ、30～40 dBZ和大于40 dBZ的格點(diǎn)頻率分別為28%、37%、29%、5.7%。

2.2 模型

2.2.1 TAGAN模型

在搭建TAGAN模型的過程中基本預(yù)測(cè)模型采用3 層編碼—解碼結(jié)構(gòu)的RNN，RNN 基本單元使用Ballas et al.（2015）提出的ConvGRU（Convolutional Gated Recurrent Unit），ConvGRU 的公式如下：

其中，*表示卷積操作， ?表示哈達(dá)瑪積操作。Zt為GRU 單元的更新門，Rt為GRU 單元的重置門，σ為激活函數(shù)，為上一時(shí)刻的隱狀態(tài)、經(jīng)重置門的數(shù)據(jù)、輸入數(shù)據(jù)Xt計(jì)算而成的。而最終輸出的Ht為經(jīng)過更新門更新的隱狀態(tài)。ConvGRU 是基于門控的循環(huán)單元，將其進(jìn)行堆疊可以擴(kuò)大頂層的感受野捕捉到更大范圍的回波從而更好的學(xué)習(xí)到雷達(dá)回波演變特征。具體編碼解碼結(jié)構(gòu)共有三層（如圖1），每一層都由RNN（ConvGRU 單元）、注意力模塊和卷積層組成，卷積層一方面用來對(duì)數(shù)據(jù)進(jìn)行上、下采樣，從而讓模型訓(xùn)練的顯存控制在可以接受的范圍內(nèi)，另一方面可以提取到回波數(shù)據(jù)的低維到高維的信息。其中編碼端和解碼端ConvGRU 單元的卷積核數(shù)量分別為64、192、192。輸入數(shù)據(jù)在編碼端經(jīng)過多層信息提取，被壓縮成隱狀態(tài)輸入到解碼端，經(jīng)過解碼端解碼成預(yù)測(cè)的雷達(dá)回波數(shù)據(jù)，編碼解碼結(jié)構(gòu)對(duì)稱，在編碼解碼連接端每一層的解碼器接受對(duì)應(yīng)層編碼器輸出的隱狀態(tài)數(shù)據(jù)。

圖1 TAGAN模型生成器模型圖Fig. 1 TAGAN model generator model diagram

如圖2 所示模型訓(xùn)練框架基于生成對(duì)抗網(wǎng)絡(luò)（Goodfellow et al., 2014），包括生成器（Generator）和判別器（Discriminator）兩部分，訓(xùn)練過程中生成器與鑒別器交替訓(xùn)練，最終達(dá)到平衡時(shí)生成器可以生成接近真實(shí)的數(shù)據(jù)。模型內(nèi)部的卷積層均由2D 卷積層、批量歸一化層、LeaklyReLU（負(fù)斜率設(shè)置為0.2）激活函數(shù)組成。GAN 的原理如公式（5）所示：

圖2 TAGAN模型結(jié)構(gòu)圖Fig. 2 TAGAN model structure diagram

其中，生成器的目的是生成更為真實(shí)的雷達(dá)回波序列從而騙過判別器，判別器的目的是盡可能地區(qū)分出來自生成器和來自真實(shí)的雷達(dá)回波序列。c表示輸入雷達(dá)回波序列，D(x|c)表示鑒別器對(duì)真實(shí)數(shù)據(jù)輸出的概率，D(G(x|c))表示鑒別器對(duì)生成器預(yù)測(cè)數(shù)據(jù)輸出的概率。

雷達(dá)回波的預(yù)測(cè)由生成器（編解碼結(jié)構(gòu)）完成，以往的大多數(shù)模型試驗(yàn)中輸入部分只有雷達(dá)回波數(shù)據(jù)，而TAGAN 在回波數(shù)據(jù)進(jìn)入模型時(shí)加入了其對(duì)應(yīng)時(shí)刻的光流圖，因此模型接受的數(shù)據(jù)不僅是過去時(shí)刻的回波圖。其目的一方面在于融入了預(yù)測(cè)因子（前序回波圖）的額外光流信息，另一方面光流圖又起到了約束的作用，使模型做預(yù)測(cè)的時(shí)候能在更小的范圍里進(jìn)行選擇。回波序列圖和光流圖分別經(jīng)過對(duì)應(yīng)的卷積層（第一層）進(jìn)行特征融合，之后數(shù)據(jù)流經(jīng)過卷積層下采樣通過注意力模塊進(jìn)入ConvGRU 單元，在訓(xùn)練的過程中嘗試了在卷積層中加入若干殘差塊（He et al., 2016），提高卷積層提取信息的能力。判別器使用若干卷積層組成，后使用sigmoid 函數(shù)激活，數(shù)值范圍在0～1 之間。

此外，生成器的前兩層采用CBAM（Convlutional Block Attention Module）注意力模塊（圖3），該模塊是Woo et al.（2018）提出的輕量級(jí)注意力模塊，它可以自由地嵌入到卷積網(wǎng)絡(luò)中從而提高網(wǎng)絡(luò)的特征提取能力，對(duì)重要特征起突顯作用。例如，在不同種類貓圖像分類的任務(wù)中，對(duì)于分類結(jié)果影響最大的部分就是圖像中貓形態(tài)的特征而非背景，注意力模塊可以賦予圖中貓部分高權(quán)重和背景低權(quán)重。CBAM 包含通道注意力和空間注意力兩個(gè)部分，通道和空間注意力模塊采用全局平均池化和最大池化來計(jì)算注意的權(quán)重系數(shù)，將兩者順序組合成CBAM 后嵌入TAGAN 中，在數(shù)據(jù)流入CBAM模塊時(shí)可以學(xué)到相對(duì)整個(gè)過程中需要更加注意的區(qū)域。

圖3 CBAM模塊結(jié)構(gòu)圖，包含通道注意力模塊（左部）和空間注意力模型（右部）Fig. 3 CBAM module structure diagram, including the channel attention module (left part) and the spatial attention model (right part)

最后，在模型的最后一層采用self-attention 自注意力模塊（Zhang et al., 2019），該模塊的結(jié)構(gòu)圖如圖4 所示。該模塊與CBAM模塊的作用類似，其也是強(qiáng)調(diào)在原始特征中何處需要加強(qiáng)注意從而更好的提高網(wǎng)絡(luò)特征提取與變換的能力，模塊中原特征圖經(jīng)過三個(gè)1×1 的卷積后分別得到三個(gè)特征圖，通過前兩個(gè)特征圖計(jì)算出attention 權(quán)重系數(shù)在與第三個(gè)特征圖作矩陣乘法運(yùn)算得到注意力特征圖，最后將注意力特征圖與原特征圖相加得到最終輸出的特征圖，自注意力模塊可以學(xué)到任意位置的依賴關(guān)系。由于自注意力的計(jì)算開銷比較大，所以放在編碼和預(yù)測(cè)模塊的底層（最后一層）。

圖4 Self-attention模塊結(jié)構(gòu)圖， ?表示矩陣乘法運(yùn)算Fig. 4 Self-attention module structure diagram ( ?: matrix multiplication operation)

基于上述的模型，完整的回波數(shù)據(jù)進(jìn)入模型到預(yù)測(cè)的過程如下：10 幀回波數(shù)據(jù)和對(duì)應(yīng)光流場依次經(jīng)過第一層卷積層融合后進(jìn)入CBAM 注意力模塊接著進(jìn)入ConvGRU 單元，繼而以相同方式進(jìn)入第二層和第三層，但第三層的注意力模塊為Selfattention模塊。其中第一個(gè)時(shí)間步的ConvGRU 單元隱狀態(tài)初始化為0，數(shù)據(jù)在編碼端最終被壓縮成3 個(gè)張量（最后一個(gè)時(shí)間步3 層ConvGRU 輸出的隱狀態(tài)），這三個(gè)張量包含著從低維到高維10 幀回波圖像以及對(duì)應(yīng)光流場演變的信息，以此作為初始化的隱狀態(tài)進(jìn)入解碼端對(duì)應(yīng)的ConvGRU 中，在解碼端的計(jì)算首先從第三層開始，第三層ConvGRU的輸入初始化為0，隱狀態(tài)來自對(duì)應(yīng)層的編碼端ConvGRU，數(shù)據(jù)流方向與編碼端相反，卷積層使用轉(zhuǎn)置卷積進(jìn)行上采樣將尺寸較小的特征圖重構(gòu)為預(yù)測(cè)的回波圖像，在后續(xù)預(yù)測(cè)的時(shí)間步中計(jì)算依據(jù)上一時(shí)刻輸出的隱狀態(tài)，這種方式可以預(yù)測(cè)變長序列。最終解碼端將會(huì)輸出10 幀預(yù)測(cè)的回波圖像，接著預(yù)測(cè)的回波數(shù)據(jù)和真實(shí)回波數(shù)據(jù)分別拼接輸入回波數(shù)據(jù)交替進(jìn)入判別器進(jìn)行訓(xùn)練，判別器反向傳播的梯度也會(huì)進(jìn)入生成器（編碼解碼結(jié)構(gòu)）幫助生成器更好的預(yù)測(cè)，理想的判別器輸出概率應(yīng)為0.5，即生成器生成的回波數(shù)據(jù)達(dá)到了以假亂真的效果，使得判別器不能以較大的概率判定其是真是假，生成器和判別器達(dá)到納什平衡。

2.2.2 損失函數(shù)

在雷達(dá)回波預(yù)測(cè)的任務(wù)中，常用的損失函數(shù)有平均平方誤差（MSE）和平均絕對(duì)誤差(MAE)，但該兩個(gè)損失函數(shù)容易造成預(yù)測(cè)圖像的模糊化，為了更好的生成圖像和更精確的預(yù)測(cè)還引入了圖像梯度差損失函數(shù)（GDL）和結(jié)構(gòu)相似性損失函數(shù)（SSIM）。

SSIM 是計(jì)算兩張圖片的相似度的函數(shù)，其定義如下：

其中，l(x,y)為亮度相似度，c(x,y)為對(duì)比相似度，s(x,y)為結(jié)構(gòu)相似度。μx和μy分別是x和y的平均值，而σx和σy則是x和y的方差，σxy是x和y的協(xié)方差。C1、C2、C3是維持?jǐn)?shù)值計(jì)算穩(wěn)定的常數(shù)。訓(xùn)練過程中使用的SSIM 損失函數(shù)（Zhao et al.,2017）如下：

訓(xùn)練過程中的圖像梯度差損失函數(shù)如下所示：

其中，i和j為坐標(biāo)，在訓(xùn)練過程中α取1。

對(duì)抗損失函數(shù)如下：

其中Lbce為二分類交叉熵?fù)p失函數(shù)，D為鑒別器。

最后本次試驗(yàn)中使用的損失函數(shù)如下：

關(guān)于對(duì)抗損失函數(shù)Ladv的參數(shù)設(shè)置，訓(xùn)練步驟請(qǐng)?jiān)敿?xì)參考Mathieu et al.（2016）和Isola et al.（2017），Lp是帶權(quán)重的MSE 和MAE，越高的回波值賦予越高的權(quán)重。

2.2.3 對(duì)比模型

U-Net 是圖像分割領(lǐng)域常用的模型，其多尺度融合的結(jié)構(gòu)常用于高分辨率圖像分割任務(wù)。作為本次試驗(yàn)的對(duì)比模型我們采用了圖5 基于三維卷積的3DUNet模型（?i?ek et al., 2016），在開源模型的基礎(chǔ)上對(duì)網(wǎng)絡(luò)深度，卷積核及步長進(jìn)行修改以適用于本次試驗(yàn)數(shù)據(jù)。較之于2D 卷積3DUnet模型的卷積操作全部采用3D 卷積，在提取時(shí)序信息的功能上更為強(qiáng)大。另一個(gè)對(duì)比模型是傳統(tǒng)的基于光流的Rover模型。

圖5 3DUnet模型概念示意圖Fig. 5 Conceptual schematic diagram of the 3DUnet model

3 試驗(yàn)

3.1 試驗(yàn)方案

TAGAN模型訓(xùn)練使用Adam 優(yōu)化器，初始學(xué)習(xí)率根據(jù)繪制不同學(xué)習(xí)率下的損失函數(shù)下降速率圖，選擇合適的學(xué)習(xí)率，學(xué)習(xí)率衰減采用每2 個(gè)輪次減0.7。在訓(xùn)練過程中采用l2 正則約束，訓(xùn)練策略采用早停策略，當(dāng)驗(yàn)證集損失函數(shù)值連續(xù)1 個(gè)epoch 不下降后停止訓(xùn)練，在試驗(yàn)過程中批量大小分別選擇2 進(jìn)行訓(xùn)練，效果在卷積層不使用批量歸一化層時(shí)較好。在訓(xùn)練過程中嘗試了DCGAN（Radford et al., 2015），WGAN-GP（Gulrajani et al., 2017）等不同GAN 的損失函數(shù)和訓(xùn)練方式，發(fā)現(xiàn)對(duì)抗損失的權(quán)重系數(shù)對(duì)訓(xùn)練結(jié)果至關(guān)重要，單獨(dú)只使用對(duì)抗損失函數(shù)訓(xùn)練時(shí)非常容易導(dǎo)致訓(xùn)練失敗，需要模型訓(xùn)練初期以MSE 與MAE 損失函數(shù)為主導(dǎo)損失函數(shù)，然后再將對(duì)抗損失函數(shù)作為主導(dǎo)損失函數(shù)進(jìn)行訓(xùn)練。作為基線對(duì)比模型3DUnet 只使用帶權(quán)重的平均平方誤差和平均絕對(duì)誤差作為損失函數(shù)，驗(yàn)證集結(jié)果最優(yōu)的TAGAN 迭代了10 萬次，3DUNet 迭代了6 萬次。

3.2 檢驗(yàn)方法與結(jié)果

測(cè)試集上的檢驗(yàn)指標(biāo)采用氣象中常用的命中率（POD）、虛警率（FAR）也稱誤報(bào)率以及臨界成功指數(shù)（CSI），以及HSS（Heidke Skill Score）技巧評(píng)分（Hogan et al., 2010）。各檢驗(yàn)指標(biāo)的計(jì)算公式如下：

其中，TP 表示觀測(cè)回波大于閾值且預(yù)測(cè)回波大于閾值，F(xiàn)N 表示觀測(cè)回波大于閾值且預(yù)測(cè)回波小于閾值，F(xiàn)P 表示觀測(cè)回波小于閾值且預(yù)測(cè)回波大于閾值，TN 表示觀測(cè)回波小于閾值且預(yù)測(cè)回波也小于閾值。相應(yīng)的混淆矩陣如表1 所示。根據(jù)不同閾值下的混淆矩陣，按上述公式計(jì)算檢驗(yàn)指標(biāo)。為了更全面的對(duì)比模型預(yù)測(cè)的效果還計(jì)算了MSE、MAE 以及空間相關(guān)系數(shù)。

表1 混淆矩陣Table 1 Confusion matrix

表2 的檢驗(yàn)結(jié)果顯示，本文所設(shè)計(jì)的TAGAN模型在10～40 dBZ閾值下的臨界成功指數(shù)、命中率和HSS 評(píng)分基本高于傳統(tǒng)光流法，而對(duì)于虛警率FAR 這一指數(shù)兩種深度學(xué)習(xí)模型均低于傳統(tǒng)光流法。特別地，TAGAN模型在未來30 min 和60 min的預(yù)測(cè)評(píng)分上明顯優(yōu)于3DUnet模型。另外，由表3顯示，深度學(xué)習(xí)模型尤其TAGAN模型在測(cè)試集上的6～60 min 整體平均的平方誤差和絕對(duì)誤差數(shù)值也明顯低于光流法，同時(shí)空間相關(guān)系數(shù)TAGAN模型也為最高，這表明TAGAN模型性能在本文的三種方法中最優(yōu)。需指出的是，在40 dBZ閾值下三種模型的預(yù)測(cè)效果均很差，這可能與訓(xùn)練樣本中強(qiáng)回波數(shù)據(jù)稀少有關(guān)，盡管在數(shù)據(jù)預(yù)處理時(shí)已經(jīng)對(duì)數(shù)據(jù)集樣本進(jìn)行過篩選，但受限于整個(gè)數(shù)據(jù)集里的強(qiáng)回波樣本稀少（5.7%），導(dǎo)致模型對(duì)強(qiáng)回波預(yù)測(cè)的能力欠佳。

表2 測(cè)試集檢驗(yàn)對(duì)比Table 2 Test set comparison

表3 測(cè)試集檢驗(yàn)對(duì)比Table 3 Test set comparison

為進(jìn)一步顯示三種不同方法對(duì)于強(qiáng)降水過程的預(yù)測(cè)性能，圖6 分別給出了30 dBZ閾值樣本子集的三種模型FAR 和HSS 測(cè)試集平均得分在6～60 min的時(shí)間變化?？梢郧逦目闯?，30 dBZ閾值下三種方法的平均FAR 及其離散度均隨時(shí)間逐漸增加，平均FAR 由低至高依次為TAGAN、3DUnet 和光流法。三種方法的平均HSS 隨時(shí)間則逐漸降低，同時(shí)離散度隨時(shí)間而增加，TAGAN 平均HSS 評(píng)分最高，而3DUnet 在前30 min 優(yōu)于光流法，但30 min后性能差于光流法。總體看，TAGAN模型的強(qiáng)降水過程預(yù)測(cè)性能依然明顯好于其他兩種方法。

圖6 30 dBZ 閾值下三種模型FAR 和HSS 測(cè)試集平均得分隨時(shí)間變化（折線），陰影上下界代表測(cè)試集所有樣本得分的上下四分位數(shù)Fig. 6 Average scores of the False Alarm Rate and Heidke Skill Score test sets of the three models under 30 dBZ threshold change over time (broken line): the upper and lower bounds of the shade represent the upper and lower quartiles, respectively, of the scores of all samples in the test set

為了更加直觀和定量化的展示不同模型之間的差異，選取四組個(gè)例并對(duì)它們6～60 min 預(yù)測(cè)的效果作詳細(xì)分析。圖7 首先給出了這四組個(gè)例在最后一幀（60 min）的三種不同方法與真實(shí)場的回波分布情況，總體上三種方法能較好地預(yù)測(cè)這四個(gè)個(gè)例未來一小時(shí)的回波系統(tǒng)位置以及強(qiáng)度。從清晰度看，光流法的清晰度最高，但圖像有扭曲現(xiàn)象，其次為3DUnet，TAGAN 相對(duì)模糊。兩種深度方法的清晰度均弱于光流法，主要是由于深度學(xué)習(xí)模型預(yù)測(cè)過程中使用了平均平方誤差（MSE）和平均絕對(duì)誤差（MAE），這兩個(gè)損失函數(shù)容易造成預(yù)測(cè)圖像的模糊化，且圖像模糊情況隨著時(shí)間增加，它們更趨向一個(gè)“平均”的結(jié)果。但是，如果仔細(xì)對(duì)比這些個(gè)例的強(qiáng)回波區(qū)（如大于30 dBZ區(qū)域）的位置以及強(qiáng)度，會(huì)發(fā)現(xiàn)TAGAN 的預(yù)測(cè)情況較光流法和3DUnet 更接近真實(shí)的回波分布，即光流法和3DUnet 對(duì)于強(qiáng)回波的區(qū)域的預(yù)測(cè)存在部分偏移以及局部地區(qū)系統(tǒng)把握不準(zhǔn)所致，導(dǎo)致FAR 偏高。而TAGAN模型的圖像更為平滑，回波形狀與真實(shí)形狀相符合，F(xiàn)AR 更低。為更細(xì)致地刻畫三種方法對(duì)強(qiáng)回波的預(yù)測(cè)效果，圖8 進(jìn)一步給出了四組個(gè)例對(duì)預(yù)測(cè)的10 個(gè)時(shí)次逐次計(jì)算的FAR 和HSS 得分?？梢钥吹?，TAGAN 在6～60 min時(shí)段預(yù)報(bào)的虛警率明顯低于光流法和3DUnet，與此同時(shí)TAGAN的HSS 評(píng)分也明顯高于其余兩種方法。并且，隨著時(shí)間的推移，其他兩種方法相對(duì)TAGAN 的性能差距進(jìn)一步拉大。相對(duì)而言，光流法和3DUnet 對(duì)這四個(gè)個(gè)例的6～60 min 預(yù)測(cè)評(píng)分接近。

圖7 四組預(yù)測(cè)個(gè)例最后一幀對(duì)比。（a–d）分別為四組回波過程，每一列分別為真實(shí)過程、Rover、TAGAN、3DUnet 在四組預(yù)測(cè)個(gè)例中的最后一幀F(xiàn)ig. 7 Comparison of the last frame of the four sets of prediction cases, where (a–d) are the four sets of echo processes, and each column is the last frame of the real process, Rover, TAGAN, and 3DUnet in the four sets of process predictions

圖8 四組預(yù)測(cè)個(gè)例三種模型（紅色：3DUnet，綠色：Rover，藍(lán)色：TAGAN）6～60 min 30 dBZ 閾值的FAR（實(shí)線）和HSS（虛線）技巧評(píng)分Fig. 8 Four groups of prediction cases and three models (red: 3DUnet; green: Rover; and blue: TAGAN) under 6–60 min of 30 dBZ threshold FAR(solid line) and HSS (dashed line) skill scores

此外，為進(jìn)一步對(duì)比三種方法個(gè)例中強(qiáng)回波區(qū)隨時(shí)間的演變，分別計(jì)算了四個(gè)個(gè)例大于30 dBZ強(qiáng)回波主體（圖9 紅框區(qū)域）質(zhì)心在6～60 min 的變化（圖10），可以清晰地看出TAGAN模型對(duì)強(qiáng)回波主體隨時(shí)間變化的預(yù)測(cè)與真實(shí)情況更為接近。以個(gè)例4 為例（圖10d），TAGAN模型預(yù)測(cè)的強(qiáng)回波區(qū)移動(dòng)以西南—東北向?yàn)橹鳎c真實(shí)情況相接近，而光流法則是以西南—東北偏南為主，3DUnet 的偏移更大，以偏北移動(dòng)為主。從這四個(gè)個(gè)例強(qiáng)回波質(zhì)心的相對(duì)移速和60 min 的質(zhì)心位置看，TAGAN模型仍然優(yōu)于其它兩種方法。

圖9 四組預(yù)測(cè)個(gè)例第一幀回波圖真實(shí)值，其中紅框?yàn)橛?jì)算質(zhì)心的范圍（覆蓋未來9 幀回波主體范圍），藍(lán)線輪廓為回波值大于30 dBZ 的回波主體Fig. 9 True value of the first frame of the four groups of prediction cases: the red box represents the range of the calculated centroid covering the range of the echo subject of the next nine frames), while the blue line outline is the echo subject with an echo value greater than 30 dBZ

圖10 四組預(yù)測(cè)個(gè)例10 個(gè)時(shí)次回波值大于30 dBZ 回波主體的質(zhì)心移動(dòng)軌跡。其中，紅色：真實(shí)回波；棕色：3DUnet；灰色：Rover；綠色：TAGANFig. 10 Four groups of prediction cases during the 10 times the echo value is greater than 30 dBZ. Center of mass movement trajectory of the echo subject: real echo (red); 3DUnet (brown); Rover (gray); TAGAN (green)

其中雷達(dá)質(zhì)心的計(jì)算方式如下：

式中，m(i,j)為橫縱坐標(biāo)為(i,j)的網(wǎng)格上回波反射率大于30 dBZ的值。

因此，綜合以上四個(gè)個(gè)例的結(jié)果分析表明，TAGAN模型在三種方法中性能最優(yōu)，盡管光流法和3DUnet 的圖像清晰度高于TAGAN，但更容易出現(xiàn)扭曲和偏差現(xiàn)象，導(dǎo)致誤報(bào)率明顯上升以及預(yù)報(bào)準(zhǔn)確率的下降。另外，在TAGAN模型的訓(xùn)練和預(yù)測(cè)過程中發(fā)現(xiàn)，對(duì)于TAGAN 在訓(xùn)練過程中如果提高對(duì)抗損失函數(shù)的權(quán)重，生成的圖像也會(huì)相對(duì)更加“銳化”，但卻會(huì)出現(xiàn)圖像清晰后回波位置準(zhǔn)確度明顯降低的現(xiàn)象，從而導(dǎo)致檢驗(yàn)評(píng)分下降的情況，因此超參數(shù)的設(shè)置對(duì)最終預(yù)測(cè)圖像的效果至關(guān)重要。3DUnet 的預(yù)測(cè)性能相對(duì)較差可能與其模型參數(shù)量小有關(guān)，雖然3D 卷積在處理時(shí)空序列數(shù)據(jù)時(shí)比2D 卷積有強(qiáng)大的優(yōu)勢(shì)，Unet 多尺度融合的結(jié)構(gòu)也常用來生成高分辨率的圖像，但參數(shù)量小可能會(huì)導(dǎo)致模型的泛化能力大大下降，在預(yù)測(cè)復(fù)雜多變的任務(wù)時(shí)效果會(huì)欠佳。

4 結(jié)論與討論

雷達(dá)回波外推為短時(shí)臨近預(yù)報(bào)提供了重要的指導(dǎo)，本文使用TAGAN模型進(jìn)行臨近預(yù)報(bào)試驗(yàn)和多模型對(duì)比檢驗(yàn)。該模型在傳統(tǒng)的多層編碼解碼結(jié)構(gòu)的基礎(chǔ)上將兩種注意力模塊組合嵌入結(jié)構(gòu)中，在輸入的雷達(dá)回波數(shù)據(jù)中融合對(duì)應(yīng)時(shí)刻的光流數(shù)據(jù)，并在訓(xùn)練時(shí)結(jié)合對(duì)抗生成損失函數(shù)、權(quán)重的MSE 和MAE 等多種損失聯(lián)合訓(xùn)練模型，以此提升模型的預(yù)測(cè)能力。研究結(jié)果表明， TAGAN 在多種檢驗(yàn)指標(biāo)的評(píng)分上優(yōu)于基于卷積神經(jīng)網(wǎng)絡(luò)的3DUnet模型和傳統(tǒng)Rover 光流法模型。總體上，雖然光流法的預(yù)測(cè)圖像清晰度高于TAGAN 和3DUnet 深度學(xué)習(xí)

模型，但在各項(xiàng)評(píng)分指標(biāo)上深度學(xué)習(xí)模型尤其是TAGAN 優(yōu)于光流法。相較而言，3DUnet 和光流法在未來一小時(shí)的預(yù)報(bào)場上會(huì)更多出現(xiàn)回波圖像扭曲和偏差現(xiàn)象，對(duì)強(qiáng)回波系統(tǒng)執(zhí)行的移動(dòng)描述能力有待提高。另外，TAGAN 的超參數(shù)設(shè)置對(duì)預(yù)測(cè)效果作用明顯，隨著損失函數(shù)中對(duì)抗損失函數(shù)權(quán)重的提高，圖形清晰度隨之提高，但清晰度到達(dá)一定程度后其整體評(píng)分反而會(huì)出現(xiàn)下降的情況。

需指出的是，試驗(yàn)過程中我們嘗試了不同損失函數(shù)的組合。發(fā)現(xiàn)如只用MSE 和MAE 損失函數(shù)，清晰度明顯較光流法預(yù)測(cè)差，主要原因是在使用MSE 損失函數(shù)的時(shí)候假設(shè)數(shù)據(jù)是高斯分布的，但在梯度反傳的時(shí)候，損失函數(shù)計(jì)算的是拼接在一起的序列預(yù)測(cè)值與真實(shí)序列值，于是對(duì)空間上出現(xiàn)的不連續(xù)回波區(qū)和時(shí)間上的旋轉(zhuǎn)和耗散擬合不夠，導(dǎo)致訓(xùn)練的結(jié)果是在總體上的距離與真實(shí)分布相近，因此預(yù)測(cè)的結(jié)果就會(huì)出現(xiàn)直觀上的一個(gè)“平均”現(xiàn)象。另一方面，但是如果只使用對(duì)抗損失或者以對(duì)抗損失為主導(dǎo)的損失函數(shù)，則容易出現(xiàn)模式崩塌現(xiàn)象。例如，預(yù)測(cè)的數(shù)據(jù)本應(yīng)局限在有雷達(dá)回波的位置，但卻覆蓋了整個(gè)空間并出現(xiàn)明顯的不連續(xù)以及不合理回波區(qū)。這主要是由于GAN 訓(xùn)練過程中，目標(biāo)映射可能不在生成器的可表示泛函空間之中，導(dǎo)致了收斂困難。因此，有必要同時(shí)結(jié)合MAE、MSE 和對(duì)抗損失進(jìn)行模型構(gòu)建。

需指出的是，近年來機(jī)器學(xué)習(xí)在氣象領(lǐng)域應(yīng)用廣泛，而利用深度學(xué)習(xí)方法進(jìn)行雷達(dá)回波外推及短時(shí)預(yù)測(cè)作為當(dāng)前的一個(gè)研究熱點(diǎn)仍存在三個(gè)亟待解決的問題：（1）雷達(dá)回波或降水?dāng)?shù)據(jù)集歷史積累不夠，樣本量需要進(jìn)一步擴(kuò)大。傳統(tǒng)的解決辦法包括但不限于：針對(duì)數(shù)據(jù)集過采樣、欠采樣、使用帶權(quán)重的損失函數(shù)以分割數(shù)據(jù)集訓(xùn)練不同的模型訓(xùn)練然后集成。但試驗(yàn)中發(fā)現(xiàn)效果提升不明顯，反映在模型預(yù)測(cè)中強(qiáng)回波過程的強(qiáng)度和落區(qū)不能很好地表現(xiàn)出來，一些強(qiáng)回波過程諸如臺(tái)風(fēng)，因訓(xùn)練集中樣本較小導(dǎo)致預(yù)測(cè)效果很差。此外，機(jī)器學(xué)習(xí)嚴(yán)重依賴數(shù)據(jù)集的質(zhì)量和特征工程，數(shù)據(jù)集的質(zhì)量直接決定了預(yù)測(cè)效果的下限，如何從氣象的角度出發(fā)構(gòu)建清洗數(shù)據(jù)集并提高數(shù)據(jù)質(zhì)量，針對(duì)包括雷達(dá)回波外推在內(nèi)的氣象預(yù)測(cè)任務(wù)做出更對(duì)應(yīng)的特征工程亟待解決。（2）預(yù)測(cè)圖像模糊，這是當(dāng)前雷達(dá)回波外推深度學(xué)習(xí)乃至視頻預(yù)測(cè)領(lǐng)域的難題，當(dāng)圖像的尺寸較小時(shí)效果尚佳，但當(dāng)做高分辨率預(yù)測(cè)時(shí)模糊的問題尤其凸顯，本次試驗(yàn)也對(duì)改善此問題做了一定的嘗試。除了引入改善圖像的損失函數(shù)外，另一解決辦法就是將高分辨率圖像分割成尺寸較小的不同塊訓(xùn)練，在預(yù)測(cè)時(shí)再拼接回去，但這樣會(huì)造成整體圖像不連續(xù)拼接痕跡明顯。（3）預(yù)測(cè)效果隨時(shí)間變差，PredRNN++（Wang et al., 2018）的設(shè)計(jì)結(jié)構(gòu)以及其使用的CausalLSTM 單元對(duì)此問題有一定的改善。綜上，深度學(xué)習(xí)方法對(duì)降水臨近預(yù)報(bào)業(yè)務(wù)的提升具有一定的科學(xué)意義和較好的應(yīng)用，但仍有待進(jìn)一步探索和研究。

致謝感謝深圳市氣象局與香港天文臺(tái)根據(jù)近年的雷達(dá)數(shù)據(jù)共同建立的“標(biāo)準(zhǔn)雷達(dá)數(shù)據(jù)集2018”。感謝審稿專家和編輯對(duì)本文的改進(jìn)提出的寶貴意見。