南剛強(qiáng) 陳明軒 秦 睿 韓 雷 曹偉華
1.中國(guó)海洋大學(xué),青島,266100 2.北京城市氣象研究院,北京,100089
中尺度對(duì)流系統(tǒng)(Mesoscale Convective System,MCS)是具有旺盛對(duì)流性運(yùn)動(dòng)的天氣系統(tǒng),其水平尺度大約為10—2000 km,生命期在3 h以上。Schumacher等(2006)研究了美國(guó)地區(qū)1999—2003年的極端降水事件,發(fā)現(xiàn)所有事件中有66%和暖季事件中有74%與MCS有關(guān),并且美國(guó)北部幾乎所有的極端降雨事件都是由MCS引起的。Schumacher等(2020)研究表明MCS會(huì)產(chǎn)生很大比例的暖季降雨,且在氣候變暖的情況下,MCS的頻率和強(qiáng)度也可能會(huì)增大。中國(guó)國(guó)家氣候中心分析結(jié)果顯示,于1954、1969、1980、1991、1996、1998、1999、2003和2007年發(fā)生的特大暴雨洪澇都與MCS存在直接的關(guān)聯(lián),這些災(zāi)害給國(guó)民經(jīng)濟(jì)和人民生命財(cái)產(chǎn)安全造成了重大損失(王曉芳等,2011)。自2012年以來(lái),華北中東部暴雨事件頻發(fā)(雷蕾等,2020),對(duì)社會(huì)造成了巨大損失,并且這些暴雨特別是短時(shí)強(qiáng)降水的形成均與MCS存在直接關(guān)系。因此,做好MCS及其致災(zāi)天氣的預(yù)報(bào)、預(yù)警,對(duì)人們了解暴雨、龍卷風(fēng)和山洪等氣象災(zāi)害的發(fā)展及演化有很大的幫助。
資料的選擇對(duì)MCS的研究有著至關(guān)重要的影響。從中尺度天氣的角度判斷,MCS的尺度范圍相對(duì)較大,且空間變化較廣,形態(tài)較為復(fù)雜,因此近幾十年來(lái),氣象學(xué)家通常使用較大范圍的衛(wèi)星或雷達(dá)組網(wǎng)數(shù)據(jù)進(jìn)行MCS的監(jiān)測(cè)、識(shí)別、追蹤和預(yù)報(bào)(Houze,2018)。
基于雷達(dá)探測(cè)資料的常用識(shí)別MCS的方法有2類。一類是基于雷達(dá)拼圖資料的TITAN算法(Thunderstorm Identification,Tracking,Analysis and Nowcasting)(Dixon,et al,1993)。TITAN屬于對(duì)流風(fēng)暴三維特征自動(dòng)識(shí)別、跟蹤、分析算法的典型代表,后續(xù)經(jīng)過(guò)了多次改進(jìn)和完善,并在多個(gè)臨近預(yù)報(bào)系統(tǒng)中得到應(yīng)用(Mueller,et al,2003;韓雷等,2007;Han,et al,2009;陳明軒等,2006,2010)。另一類是基于雷達(dá)拼圖資料開發(fā)的SCIT算法(Storm Cell Identification and Tracking Algorithm)(Johnson,et al,1998),并 借 助Davis等(2006a,2006b)開發(fā)的模式評(píng)估工具(MODE,Method for Objective-based Diagnostic Evaluation)進(jìn) 行 識(shí)別。但TITAN和SCIT均屬于風(fēng)暴“質(zhì)心”識(shí)別和追蹤算法,對(duì)尺度較小的超級(jí)單體風(fēng)暴或孤立的風(fēng)暴單體的識(shí)別效果更好,而對(duì)于結(jié)構(gòu)和形態(tài)較為復(fù)雜的MCS的識(shí)別有時(shí)不夠準(zhǔn)確。人們?yōu)榱四軌蚶肧CIT準(zhǔn)確地識(shí)別MCS,對(duì)SCIT算法進(jìn)行了一定改進(jìn),將SCIT算法中識(shí)別的位置比較接近的風(fēng)暴單體組成MCS,以便對(duì)MCS進(jìn)行跟蹤和預(yù)報(bào)。隨著機(jī)器學(xué)習(xí)算法的廣泛應(yīng)用,人們開始借助人工智能來(lái)實(shí)現(xiàn)MCS的自動(dòng)識(shí)別,Haberlie等(2018a)使用隨機(jī)森林、梯度提升和極度梯度提升3種分類算法實(shí)現(xiàn)了美國(guó)MCS的自動(dòng)識(shí)別。
MCS的移動(dòng)軌跡追蹤通常也使用TITAN算法或改進(jìn)的SCIT算法實(shí)現(xiàn),但是這類風(fēng)暴“質(zhì)心”算法也存在與上述識(shí)別MCS類似的追蹤缺陷。另一種常見的MCS移動(dòng)軌跡追蹤方法是基于雷達(dá)回波的交叉相關(guān)追蹤(Tracking Radar Echoes by Crosscorrelation,TREC)(Rinehart,et al,1978),該方法同樣適用于基于衛(wèi)星觀測(cè)資料的MCS追蹤。楊吉等(2015)利用TREC和面積重疊算法實(shí)現(xiàn)了新的MCS追蹤預(yù)報(bào)方法。最近,曹偉華等(2019)將TITAN算法和TREC算法進(jìn)行融合,發(fā)揮不同識(shí)別追蹤算法的優(yōu)勢(shì),以提升強(qiáng)對(duì)流系統(tǒng)的識(shí)別和臨近預(yù)報(bào)水平。但是,TREC算法最大的問(wèn)題是交叉相關(guān)矩陣的計(jì)算設(shè)置與對(duì)流系統(tǒng)回波的尺度密切相關(guān),使得不同尺度對(duì)流系統(tǒng)的追蹤效果和精度差異較大。對(duì)于MCS的追蹤,還有Skok等(2009)提出的時(shí)間空間目標(biāo)建立法,但是,該方法有一個(gè)很大的弊端,對(duì)多個(gè)對(duì)象的合并(分裂)將導(dǎo)致一個(gè)單一的、過(guò)度擴(kuò)展的風(fēng)暴帶。作為一種替代方法,可以使用Lakshmanan等(2009)提出的時(shí)、空重疊追蹤法,該方法將時(shí)、空對(duì)象構(gòu)建過(guò)程僅應(yīng)用于兩個(gè)相鄰時(shí)次雷達(dá)圖像在空間上重疊的風(fēng)暴。
準(zhǔn)線性MCS包含一條對(duì)流線,也就是一個(gè)連續(xù)或接近連續(xù)的對(duì)流回波鏈,該回波鏈共享一個(gè)幾乎共同的前緣,并以近似串聯(lián)的方式移動(dòng),包括其按照一個(gè)接近直線或中等彎曲的弧線方式排列(Parker,et al,2000)。準(zhǔn)線性MCS(如颮線)的分類是研究MCS的一個(gè)重要課題,尤其對(duì)短時(shí)強(qiáng)降水和暴雨特征的研究有重要意義。Parker等(2000)使用2 km分辨率的美國(guó)雷達(dá)組合反射率因子數(shù)據(jù),研究了MCS的主要組織形態(tài),根據(jù)對(duì)流線和層狀云的相對(duì)位置將準(zhǔn)線性MCS分為尾隨層云(Trailing Stratiform,TS)、前 導(dǎo) 層 云(Leading Stratiform,LS)和 平 行 層 云(Parallel Stratiform,PS)3類,并研究了每種類型的基本特征,形成了經(jīng)典的線狀MCS分類概念模型。Wang等(2014)借鑒上述工作,利用2010年6—7月長(zhǎng)江流域的雷達(dá)拼圖和觀測(cè)資料,分析了長(zhǎng)江中下游地區(qū)梅雨季MCS的類型和特征。Ashley等(2019)使用圖像分類和機(jī)器學(xué)習(xí)方法對(duì)22 a的美國(guó)地區(qū)雷達(dá)拼圖數(shù)據(jù)進(jìn)行分割、分類和準(zhǔn)線性對(duì)流系統(tǒng)(Quasi-Linear Convective Systems,QLCS)追蹤,該研究更進(jìn)一步地說(shuō)明了自動(dòng)風(fēng)暴形態(tài)分類的實(shí)用性,減少了研究人員手動(dòng)形態(tài)學(xué)分類的耗時(shí)和時(shí)空限制。Jergensen等(2020)使用機(jī)器學(xué)習(xí)并基于雷達(dá)探測(cè)數(shù)據(jù)和鄰近探空資料,將雷暴有效地分為3類:超級(jí)單體、QLCS和無(wú)組織對(duì)流。
MCS的自動(dòng)識(shí)別、跟蹤和分類本身就是一個(gè)復(fù)雜的工作,涉及到很多核心技術(shù)與算法。鑒于此,文中結(jié)合機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)MCS的自動(dòng)識(shí)別,將MCS的識(shí)別轉(zhuǎn)化為從特定MCS切片中抽取到的樣本的預(yù)測(cè)問(wèn)題。并且,基于追蹤得到的運(yùn)動(dòng)軌跡和準(zhǔn)線性MCS中TS、LS和PS三種類型的組織結(jié)構(gòu),提出了新的分類算法,也就是根據(jù)MCS運(yùn)動(dòng)方向與層狀云和強(qiáng)對(duì)流云區(qū)域在識(shí)別的MCS切片中的分布特征,實(shí)現(xiàn)對(duì)準(zhǔn)線性MCS的分類。
文中首先通過(guò)分割雷達(dá)拼圖數(shù)據(jù)和抽取MCS切片中的特征將MCS的識(shí)別轉(zhuǎn)換為二分類問(wèn)題,并使用機(jī)器學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)集得到最優(yōu)分類器進(jìn)而實(shí)現(xiàn)MCS的自動(dòng)識(shí)別。再對(duì)機(jī)器學(xué)習(xí)模型識(shí)別的MCS進(jìn)行追蹤,得到包含MCS信息的數(shù)據(jù)集和追蹤軌跡。最后根據(jù)軌跡矢量與MCS切片擬合橢圓短軸的夾角以及擬合橢圓長(zhǎng)軸兩側(cè)的層狀云和強(qiáng)對(duì)流云面積之比,建立準(zhǔn)線性MCS的分類算法。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,它能自動(dòng)地從輸入數(shù)據(jù)中抽取更加復(fù)雜的特征,使網(wǎng)絡(luò)模型的權(quán)重學(xué)習(xí)變得更加簡(jiǎn)單有效。早期的深度學(xué)習(xí)受到了神經(jīng)學(xué)的啟發(fā),使得深度學(xué)習(xí)可以勝任很多人工智能的任務(wù),到如今,深度學(xué)習(xí)已經(jīng)從最初的圖像識(shí)別領(lǐng)域擴(kuò)大到了機(jī)器學(xué)習(xí)的各個(gè)領(lǐng)域。
文中使用深度學(xué)習(xí)中的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)進(jìn)行MCS的特征識(shí)別,并將其訓(xùn)練所得模型的預(yù)測(cè)結(jié)果與傳統(tǒng)的機(jī)器學(xué)習(xí)算法做對(duì)比。由于用到的其他3種普通機(jī)器學(xué)習(xí)分類算法(支持向量機(jī)(SVM)、隨機(jī)森林(RF)、極度梯度提升決策樹(XGBoost))都是基于開源的Scikit-Learn庫(kù)(Pedregosa,et al,2011)實(shí)現(xiàn)的,在此不予介紹,讀者可參考相關(guān)文獻(xiàn)。下文將主要介紹DNN模型的實(shí)現(xiàn)。
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
文中使用的DNN模型(Bengio,2009)是一個(gè)4層的全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含2個(gè)不同節(jié)點(diǎn)的隱藏層,第1層為輸入層,節(jié)點(diǎn)數(shù)為MCS樣本的特征數(shù)量(共14個(gè),后面會(huì)詳細(xì)介紹這些特征的定義);第4層為輸出層,含有2個(gè)節(jié)點(diǎn),分別對(duì)應(yīng)預(yù)測(cè)結(jié)果MCS(標(biāo)記為1)和non-MCS(非MCS,標(biāo)記為0)。
DNN模型的主要參數(shù)見表1。表中的GradientDescent即梯度下降法,是一種常用的優(yōu)化器;Relu是激活函數(shù),表達(dá)式見式(1),Relu函數(shù)在正區(qū)間內(nèi)的斜率為常數(shù),避免了模型訓(xùn)練過(guò)程中梯度消失的情況,并且在梯度下降過(guò)程中使得模型能夠快速收斂。
表1 DNN模型主要參數(shù)Table 1 Main parameters of the DNN model
2.2.2 學(xué)習(xí)率和損失函數(shù)設(shè)置
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),需要設(shè)置學(xué)習(xí)率來(lái)控制網(wǎng)絡(luò)參數(shù)更新速度,學(xué)習(xí)率決定了網(wǎng)絡(luò)參數(shù)每次更新的幅度。學(xué)習(xí)率太小,會(huì)導(dǎo)致模型收斂過(guò)于緩慢,進(jìn)而增加訓(xùn)練的時(shí)間成本,有時(shí)甚至導(dǎo)致模型出現(xiàn)“無(wú)學(xué)習(xí)能力”的情況;學(xué)習(xí)率太大,使得模型無(wú)法靠近或達(dá)到最優(yōu)解,最終導(dǎo)致模型無(wú)法收斂。為了解決此問(wèn)題,使用指數(shù)衰減法來(lái)控制學(xué)習(xí)率的變化,使模型趨于最優(yōu)解。
式中,lr是學(xué)習(xí)率;lr_base是初始學(xué)習(xí)率;α是小于1的衰減率,在本試驗(yàn)中取0.99;decay_step是常數(shù),表示衰減速度;train_step是訓(xùn)練輪次。
損失函數(shù)是模型優(yōu)化的對(duì)象,通過(guò)最小化損失函數(shù)使模型達(dá)到收斂狀態(tài),減少模型預(yù)測(cè)值的誤差。本試驗(yàn)解決的是二分類問(wèn)題,所以用交叉熵作為該模型的損失函數(shù)。交叉熵用來(lái)刻畫兩個(gè)概率分布的距離,對(duì)于兩個(gè)特定的概率分布p和q,交叉熵的計(jì)算方法為
在本試驗(yàn)中,p表示樣本的標(biāo)簽,q表示網(wǎng)絡(luò)輸出結(jié)果的概率分布。
根據(jù)本研究的需要,為了將神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果轉(zhuǎn)化為概率分布,用Softmax回歸作為網(wǎng)絡(luò)輸出層的額外處理層。假設(shè)原始網(wǎng)絡(luò)的輸出為yi(i=1,2,···,n),則經(jīng)過(guò)Softmax回歸處理后的結(jié)果為
2.2.3 過(guò)擬合問(wèn)題
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,模型經(jīng)常會(huì)出現(xiàn)過(guò)擬合的情況,也就是模型在訓(xùn)練集上的擬合效果很好,但在測(cè)試集上的預(yù)測(cè)值和真實(shí)值差異卻很大。為了解決訓(xùn)練得到的模型出現(xiàn)過(guò)擬合問(wèn)題,通常會(huì)在損失函數(shù)中引入正則化。正則化就是在損失函數(shù)中加入刻畫模型復(fù)雜度的指標(biāo)來(lái)限制權(quán)重的大小,進(jìn)而減小訓(xùn)練數(shù)據(jù)中的隨機(jī)噪聲對(duì)模型擬合的影響。常用的有L1正則化和L2正則化
式中,w表示網(wǎng)絡(luò)的權(quán)重,模型的參數(shù)復(fù)雜度由網(wǎng)絡(luò)的所有權(quán)重系數(shù)(w)決定。L1正則化更趨向于產(chǎn)生一個(gè)稀疏模型,而L2正則化可以更好地防止模型過(guò)擬合,故本試驗(yàn)使用L2正則化。假設(shè)模型的損失函數(shù)為L(zhǎng)(θ),正則化系數(shù)為λ,則引入L2正則化后的優(yōu)化函數(shù)如下
此時(shí),在優(yōu)化模型時(shí)會(huì)直接優(yōu)化Loss函數(shù),而不是損失函數(shù)L(θ)。需要特別說(shuō)明的是,本試驗(yàn)為了增加DNN模型在測(cè)試集上的健壯性(即模型穩(wěn)定高效且性能優(yōu)越),引入了滑動(dòng)平均模型。在采用梯度下降法訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),使用滑動(dòng)平均模型在很多應(yīng)用中都可以一定程度上提高最終模型在測(cè)試數(shù)據(jù)上的性能。簡(jiǎn)單來(lái)說(shuō),就是數(shù)據(jù)每次訓(xùn)練得到的模型都受到之前模型的影響,進(jìn)而影響后面模型的訓(xùn)練,這個(gè)影響隨著訓(xùn)練次數(shù)的增加而減小,這樣可以讓模型的訓(xùn)練更加趨于穩(wěn)定。
文中所用的雷達(dá)拼圖數(shù)據(jù)的格點(diǎn)分辨率為1 km×1 km,覆蓋整個(gè)京津冀地區(qū),區(qū)域大小為800 km×800 km,時(shí)間間隔為6 min。該數(shù)據(jù)具有高時(shí)、空分辨率特征,并且覆蓋范圍較廣,非常適合于京津冀地區(qū)MCS的識(shí)別與追蹤。該雷達(dá)拼圖數(shù)據(jù)是北京自動(dòng)臨近預(yù)報(bào)系統(tǒng)(BJ-ANC)的產(chǎn)品(陳明軒等,2010),BJ-ANC系統(tǒng)在形成上述雷達(dá)拼圖資料過(guò)程中對(duì)京津冀地區(qū)每部雷達(dá)基數(shù)據(jù)均進(jìn)行了較為嚴(yán)格的質(zhì)量控制,包括地物雜波、超折射回波、0℃層亮帶回波的自動(dòng)識(shí)別和剔除(陳明軒等,2010),這里不再贅述。
京津冀地區(qū)原始雷達(dá)拼圖數(shù)據(jù)的投影坐標(biāo)為非等間隔經(jīng)緯度投影,為了方便后面試驗(yàn)的進(jìn)行,需要對(duì)每個(gè)網(wǎng)格的經(jīng)度和緯度等間隔化。經(jīng)處理后每個(gè)網(wǎng)格在地理上的大小近似為1 km2,數(shù)據(jù)的經(jīng)緯度范圍(36.21°—43.40°N,112.03°—120.90°E)。這樣處理只是細(xì)微地改變了每個(gè)網(wǎng)格點(diǎn)的經(jīng)緯度,每個(gè)網(wǎng)格的值依舊保持不變。因?yàn)橄募臼蔷┙蚣降貐^(qū)MCS的高發(fā)季節(jié),并且要得到足夠多的樣本來(lái)訓(xùn)練模型,故選擇2010—2019年中5—9月的數(shù)據(jù)進(jìn)行試驗(yàn),其中2010和2014年缺失5月的數(shù)據(jù)。
為了用機(jī)器學(xué)習(xí)模型識(shí)別雷達(dá)拼圖中的MCS,首先需要分割雷達(dá)拼圖數(shù)據(jù)得到候選MCS切片,進(jìn)而抽取樣本特征。這里的MCS切片,是指通過(guò)搜索滿足特定閾值大小和強(qiáng)度標(biāo)準(zhǔn)的雷達(dá)回波圖像中的相連通像素組,而組合得到的雷達(dá)探測(cè)強(qiáng)對(duì)流區(qū)域,用該MCS切片表示單個(gè)時(shí)刻MCS的空間強(qiáng)度和形態(tài)特征。在本研究中,參考Parker等(2000)的工作(簡(jiǎn)稱PJ00標(biāo)準(zhǔn)),PJ00標(biāo)準(zhǔn)將MCS定義為一個(gè)至少持續(xù)3 h且包含連續(xù)或半連續(xù)深濕對(duì)流的降水區(qū)域,該降水區(qū)域的長(zhǎng)軸不小于100 km。根據(jù)PJ00標(biāo)準(zhǔn),分割雷達(dá)拼圖數(shù)據(jù)中MCS切片的閾值如表2所示,其中對(duì)流區(qū)域搜索半徑和層狀云區(qū)域搜索半徑并不是唯一的,對(duì)流區(qū)域搜索半徑的常用取值有6、12、24和96 km,而層狀云區(qū)域搜索半徑的常用取值有48、96和102 km。根據(jù)Haberlie等(2018b)關(guān)于美國(guó)中緯度地區(qū)MCS追蹤的研究,對(duì)流區(qū)域搜索半徑取24 km、層狀云區(qū)域搜索半徑取96 km時(shí),追蹤效果最好。所以本試驗(yàn)這兩個(gè)指標(biāo)也分別設(shè)為24和96 km進(jìn)行雷達(dá)拼圖數(shù)據(jù)的分割及MCS的追蹤。
表2 用于分割雷達(dá)拼圖中MCS的指標(biāo)閾值Table 2 Various thresholds used to segment MCS in radar mosaic data
以圖1所示原始雷達(dá)拼圖數(shù)據(jù)為例,分割過(guò)程可以總結(jié)為以下3個(gè)步驟:(1)確定至少包含一個(gè)強(qiáng)對(duì)流回波(≥50 dBz)像素的對(duì)流回波(≥40 dBz)區(qū)域,并將面積大于40 km2的對(duì)流區(qū)域選定,如圖2a中黑色實(shí)線標(biāo)記的區(qū)域;(2)如果選定的對(duì)流區(qū)域的距離在指定半徑24 km內(nèi),則將它們連接,若連接后區(qū)域的最佳擬合橢圓的主軸長(zhǎng)度(即MCS核長(zhǎng)度)至少為100 km,則將其視為候選MCS核,如圖2b黑色實(shí)線區(qū)域;(3)將指定半徑96 km內(nèi)的層狀云回波(≥20 dBz)區(qū)域與其各自的候選MCS核相關(guān)聯(lián),并用黑色輪廓線勾勒出最終的候選MCS切片,如圖2c所示。
圖1 原始雷達(dá)拼圖數(shù)據(jù)(2014年6月17日11時(shí)59分36秒(世界時(shí),下同))Fig.1 Original radar mosaic data (11:59:36 UTC 17 June 2014)
圖2 使用雷達(dá)拼圖數(shù)據(jù) (2014年6月17日 11時(shí)59分36 秒) 演示候選MCS切片的分割過(guò)程(a.包含強(qiáng)對(duì)流單元且面積大于40 km2的對(duì)流區(qū)域;b.連接指定半徑24 km內(nèi)的對(duì)流區(qū)域,將主軸長(zhǎng)度超過(guò)100 km的連接區(qū)域確認(rèn)為MCS核;c.關(guān)聯(lián)MCS核指定半徑96 km內(nèi)的層云區(qū)域得到候選MCS切片)Fig.2 Demonstration of segmentation steps for candidate MCS slices using radar mosaic data (11:59:36 UTC 17 June 2014)(a.convection areas greater than 40 km2 with intense convection;b.connected convection area within a specified radius (24 km),and the connected area is considered to be the MCS core if its major axis length is at least 100 km;c.candidate MCS slice is identified by connecting the strtatiform pixels that are within the specified radius (96 km) of MCS core)
為了實(shí)現(xiàn)文中的MCS分類目標(biāo),必須將MCS切片信息具體特征化從而得到訓(xùn)練樣本。每個(gè)MCS特征的選擇是參考先前的相關(guān)研究而確定的(Haberlie,et al,2018a),并使用Scikit-Image(van der Walt,et al,2014)中的圖像處理函數(shù)來(lái)完成特征值計(jì)算。共選取14個(gè)MCS特征,可以簡(jiǎn)單將其分為面積特征、比值特征、幾何特征和統(tǒng)計(jì)特征,具體參見表3。
表3 MCS樣本特征列表Table 3 Sample features of MCS
由于每個(gè)網(wǎng)格的面積是1 km2,因而面積特征大小即為滿足閾值的網(wǎng)格數(shù)。14個(gè)MCS特征的計(jì)算都比較簡(jiǎn)單,含義也很明確,此處對(duì)較復(fù)雜的幾何特征做一些簡(jiǎn)單說(shuō)明。幾何特征主要涉及到MCS擬合橢圓和凸包兩大形態(tài),對(duì)應(yīng)的相關(guān)特征就是擬合橢圓的長(zhǎng)軸、短軸和離心率以及凸包區(qū)域的面積。凸包(圖3a)是將不規(guī)則圖形的最外層點(diǎn)連接起來(lái)而得到的凸多邊形,即該不規(guī)則圖形的最小外接凸多邊形。擬合橢圓是指與不規(guī)則圖形區(qū)域具有相同標(biāo)準(zhǔn)二階中心矩的橢圓(圖3b),即最佳擬合橢圓。離心率是該橢圓的焦距與長(zhǎng)軸之比,用來(lái)衡量橢圓的扁平程度,取值范圍為(0,1),離心率越大橢圓越扁平。
圖3 MCS切片的凸包 (a) 和擬合橢圓 (b) 示意Fig.3 Convex hull (a) and fitting ellipse (b) of MCS slice
抽取完每個(gè)候選MCS切片的14個(gè)特征后,為每個(gè)樣本主觀分配MCS和non-MCS標(biāo)簽,將其制作成含有大量樣本的數(shù)據(jù)集,并將數(shù)據(jù)集按照年份劃分為訓(xùn)練集和測(cè)試集,具體見表4。數(shù)據(jù)集的劃分遵循以下2個(gè)原則:(1)訓(xùn)練集和測(cè)試集的比例要適當(dāng),既要保證足夠多的樣本來(lái)訓(xùn)練模型,也要有充足的測(cè)試集來(lái)評(píng)估模型的性能,通常按照7∶3的比例劃分訓(xùn)練集和測(cè)試集;(2)要保證訓(xùn)練集中正、負(fù)樣本的平衡性。訓(xùn)練集用來(lái)訓(xùn)練分類器得到最優(yōu)的機(jī)器學(xué)習(xí)模型,而測(cè)試集則用作獨(dú)立數(shù)據(jù)來(lái)評(píng)估模型的分類性能,根據(jù)最優(yōu)模型來(lái)識(shí)別候選MCS切片是否為真實(shí)的MCS。如前所述,文中用4種常見的機(jī)器學(xué)習(xí)算法作為試驗(yàn)的分類器,分別是RF、SVM、XGBoost和DNN,前3種算法都是基于Scikit-Learn庫(kù)實(shí)現(xiàn),屬于傳統(tǒng)機(jī)器學(xué)習(xí)算法,對(duì)解決二分類問(wèn)題有很好效果。DNN模型是基于Tensorflow框架搭建的全連接層神經(jīng)網(wǎng)絡(luò),該模型的可調(diào)控參數(shù)較多,優(yōu)化器和損失函數(shù)的選擇較為靈活,并且可以調(diào)用GPU加速模型的訓(xùn)練速度,都極大提高了模型的潛力和應(yīng)用空間。
表4 不同類別和年份的訓(xùn)練集和測(cè)試集樣本數(shù)Table 4 Training and testing counts by classification and year
根據(jù)PJ00標(biāo)準(zhǔn),從對(duì)流系統(tǒng)的結(jié)構(gòu)規(guī)模來(lái)看,由對(duì)流單體或者對(duì)流簇形成的MCS及其伴隨的中尺度環(huán)流必須持續(xù)足夠長(zhǎng)的時(shí)間。鑒于此準(zhǔn)則,對(duì)雷達(dá)拼圖中的MCS進(jìn)行追蹤,必須滿足如下條件:(1)尺度和強(qiáng)度要求的分塊必須在時(shí)間序列上進(jìn)行時(shí)、空關(guān)聯(lián);(2)該關(guān)聯(lián)必須至少持續(xù)3 h以上。追蹤的目的是在時(shí)間和空間上關(guān)聯(lián)機(jī)器學(xué)習(xí)模型識(shí)別出的MCS切片,以生成包含強(qiáng)度、空間和時(shí)間信息的MCS條帶數(shù)據(jù)集,并根據(jù)追蹤軌跡實(shí)現(xiàn)準(zhǔn)線性MCS中TS、LS和PS三種模型的特征分類。
本試驗(yàn)使用時(shí)空重疊追蹤法(Lakshmanan,et al,2009)進(jìn)行MCS追蹤,該方法對(duì)兩個(gè)相鄰時(shí)次雷達(dá)拼圖在空間上相重疊的風(fēng)暴進(jìn)行匹配。對(duì)于2018和2019年5—9月的所有時(shí)間間隔為6 min的測(cè)試集雷達(dá)數(shù)據(jù),根據(jù)DNN模型識(shí)別MCS的評(píng)估結(jié)果確定分類閾值為0.5,依此閾值來(lái)選擇當(dāng)前時(shí)刻和下一時(shí)刻的MCS切片。匹配過(guò)程中將建立一個(gè)二維矩陣,“矩陣行”表示在現(xiàn)有追蹤軌跡內(nèi)的一個(gè)當(dāng)前時(shí)刻MCS切片,“矩陣列”表示下一時(shí)刻未經(jīng)匹配的MCS切片。分別計(jì)算前、后2個(gè)時(shí)刻重疊的MCS切片的相似度,根據(jù)最小相似度進(jìn)行匹配并確定追蹤的MCS回波軌跡。此處的相似度是指經(jīng)過(guò)最大值歸一化后的兩個(gè)長(zhǎng)度為14的樣本特征之間的歐幾里德距離。對(duì)于下一個(gè)時(shí)刻未匹配的MCS切片,則將其視為新追蹤軌跡的起始,并為其分配新的MCS序號(hào)用于后續(xù)的追蹤匹配。
如圖4所示,分別計(jì)算MCS切片N與S1、S2的歐幾里德距離,當(dāng)前時(shí)刻切片N與下一時(shí)刻切片S1更相似,所以追蹤軌跡指向S1(圖中虛線箭頭所指方向)。切片S2則被標(biāo)記為新的MCS并用于后面的追蹤,依此類推。顯然,對(duì)于前后2個(gè)時(shí)刻只有一個(gè)重疊的切片,則該算法就類似于簡(jiǎn)單的重疊匹配;如果存在多個(gè)重疊切片,則選擇最為相似的切片與現(xiàn)有的追蹤軌跡相關(guān)聯(lián)。
圖4 追蹤過(guò)程示意 (N為當(dāng)前時(shí)刻的MCS切片,S1和S2為下一時(shí)刻的2個(gè)MCS切片)Fig.4 Tracking process (N is a MCS slice at the current moment,S1 andS2 are the two MCS slices at the next moment)
根據(jù)準(zhǔn)線性MCS的定義,首先用主觀判斷法從各MCS切片的雷達(dá)回波圖中選擇滿足定義的準(zhǔn)線性MCS;再根據(jù)追蹤得到的MCS軌跡矢量,計(jì)算MCS正方向與軌跡矢量的夾角以及層狀云和強(qiáng)對(duì)流云在擬合橢圓長(zhǎng)軸兩側(cè)的占比,從而建立準(zhǔn)線性MCS的分類算法。
(1)MCS正方向定義
定義沿x軸的正方向?yàn)榛鶞?zhǔn),根據(jù)MCS切片的最佳擬合橢圓長(zhǎng)軸的斜率k來(lái)確定橢圓短軸的正方向。若k≥0,則以右下側(cè)短軸為正方向;若k<0,則以右上側(cè)短軸為正方向,如圖5所示。
圖5 MCS正方向的定義(a.k≥0,b.k<0;紅色箭頭為短軸的正方向)Fig.5 Definition of the positive direction of MCS(a.k≥0,b.k<0;red arrow is the positive direction of the minor axis)
(2)MCS分類特征計(jì)算
根據(jù)前述TS、LS和PS三種類型MCS的氣象學(xué)特征,在此定義3個(gè)特征來(lái)實(shí)現(xiàn)3類MCS的分類,分別為短軸正方向與軌跡矢量的夾角(θ)、長(zhǎng)軸兩側(cè)層狀云區(qū)域面積比值(Rs)和長(zhǎng)軸兩側(cè)強(qiáng)對(duì)流區(qū)域面積比值(RI)。RS和RI是正方向一側(cè)的面積與負(fù)方向一側(cè)的面積之比。軌跡矢量是當(dāng)前MCS到下一時(shí)刻MCS的運(yùn)動(dòng)方向,在數(shù)學(xué)上,夾角的取值范圍[0,180°],此處為了區(qū)分正負(fù)方向的角度,當(dāng)θ>90°時(shí),將其轉(zhuǎn)換為θ?180°。此時(shí),夾角(θ)的取值范圍[?90°,90°],其中[0,90°]表示MCS沿短軸正方向運(yùn)動(dòng),[?90°,0]表示MCS沿短軸負(fù)方向運(yùn)動(dòng)。根據(jù)定義的上述特征對(duì)TS、LS和PS型MCS進(jìn)行分類,如表5所示(表格中的thre是分類閾值,根據(jù)RI的計(jì)算結(jié)果及分類正確率,本試驗(yàn)thre的取值為10)。
表5 TS、LS和PS型MCS的分類規(guī)則Table 5 MCS classification rules for TS, LS and PS
文中試驗(yàn)屬于有監(jiān)督機(jī)器學(xué)習(xí)中的分類問(wèn)題,所以用基于“觀測(cè)”與“預(yù)測(cè)”按類別分類后列出頻率表進(jìn)行統(tǒng)計(jì),通常將該表稱為混淆矩陣(Zheng,2015),如表6所示。表中TP表示實(shí)際樣本為MCS、模型預(yù)測(cè)也為MCS;FP表示實(shí)際樣本為non-MCS、但模型將其預(yù)測(cè)為MCS;FN表示實(shí)際樣本為MCS、但模型將其預(yù)測(cè)為non-MCS;TN表示實(shí)際為non-MCS、模型預(yù)測(cè)也為non-MCS。也就是說(shuō),TP和TN都是分類正確的度量值,而FP和FN都是分類錯(cuò)誤的度量值。
表6 預(yù)測(cè)和實(shí)際標(biāo)簽的混淆矩陣Table 6 Confusion matrix for predictions and actual labels
根據(jù)混淆矩陣的統(tǒng)計(jì)結(jié)果,計(jì)算命中率(probability of detection,POD)、虛 警 率(false alarm ratio,F(xiàn)AR)、臨界成功指數(shù)(critical success index,CSI)和準(zhǔn)確率(accutacy,ACC)對(duì)結(jié)果進(jìn)行綜合評(píng)估。各評(píng)分標(biāo)準(zhǔn)的計(jì)算公式如下
使用訓(xùn)練好的SVM、RF、XGBoost和DNN四個(gè)模型分別對(duì)測(cè)試集樣本進(jìn)行MCS識(shí)別,得到各個(gè)模型的混淆矩陣,如表7所示??梢园l(fā)現(xiàn)在測(cè)試集上,XGBoost模型對(duì)應(yīng)的TP值最大,SVM模型對(duì)應(yīng)的TP值最小,且二者相差較大,說(shuō)明XGBoost模型對(duì)MCS類的識(shí)別效果最好,達(dá)到91.22%,而SVM模型對(duì)MCS類的識(shí)別效果最差,僅為88.10%。對(duì)于這一點(diǎn),在FN上也得以很好的體現(xiàn),在測(cè)試集的2732個(gè)MCS類樣本中,SVM模型將其中325個(gè)樣本預(yù)測(cè)為non-MCS,而XGBoost模型對(duì)應(yīng)的該值為240。對(duì)于non-MCS類樣本的預(yù)測(cè),DNN模型取得了最高的準(zhǔn)確率,對(duì)測(cè)試集中non-MCS類的分類正確率達(dá)到了90.16%,SVM模型僅次之。
表7 SVM、RF、XGBoost和DNN模型在測(cè)試集上的混淆矩陣Table 7 Confusion matrix of the SVM,RF,XGBoost and DNN models on testing set
混淆矩陣僅僅展示了模型預(yù)測(cè)效果的頻率,為了更全面地對(duì)比這4個(gè)模型的分類性能,根據(jù)混淆矩陣計(jì)算它們各自的CSI、POD、FAR和ACC,如表8所示。DNN模型的CSI值最高,達(dá)到0.8034,這充分說(shuō)明了DNN模型整體上對(duì)MCS類識(shí)別的性能優(yōu)于其他模型,再結(jié)合ACC,更體現(xiàn)出DNN模型的優(yōu)良性能。POD值反映了模型對(duì)正樣本MCS類的識(shí)別率,XGBoost模型的POD值最高,達(dá)到0.9112,與前面對(duì)混淆矩陣的分析是極度吻合。而FAR值的大小反映了模型將負(fù)樣本non-MCS類別識(shí)別為MCS類所占的比重,DNN模型的FAR值最小,說(shuō)明其對(duì)non-MCS有很高的識(shí)別率。
表8 SVM、RF、XGBoost和DNN模型在測(cè)試集上的評(píng)分Table 8 Scores of the SVM,RF,XGBoost and DNN models on testing set
綜合來(lái)看,DNN模型對(duì)MCS的識(shí)別性能優(yōu)于其他3種機(jī)器學(xué)習(xí)模型,但該模型也存在一定缺點(diǎn):對(duì)MCS類的識(shí)別正確率次于XGBoost和RF模型??紤]到后面的MCS軌跡追蹤,若模型將non-MCS類預(yù)測(cè)為MCS類的次數(shù)較多,則會(huì)導(dǎo)致軌跡追蹤出現(xiàn)一些屬于非MCS的部分,對(duì)追蹤結(jié)果正確性的影響會(huì)比較大;若模型將個(gè)別時(shí)刻雷達(dá)拼圖中的MCS識(shí)別為non-MCS,中斷的追蹤路徑可以重新再匹配進(jìn)行連接,對(duì)整體的軌跡追蹤不會(huì)有太大影響。因此,后面將選擇使用DNN模型識(shí)別的MCS切片信息進(jìn)行追蹤,進(jìn)而生成MCS條帶數(shù)據(jù)。
本節(jié)主要選取2個(gè)具體的MCS個(gè)例來(lái)分析追蹤結(jié)果,分別發(fā)生在2019年5月17日09時(shí)24分—15時(shí)和2019年7月13日13時(shí)42分—22時(shí)54分。追蹤結(jié)果的分析以下面原則為切入點(diǎn):(1)若未匹配的追蹤結(jié)果不連續(xù),則重點(diǎn)分析斷點(diǎn)處的雷達(dá)拼圖是否為MCS;(2)若未匹配的追蹤結(jié)果是連續(xù)的,則重點(diǎn)分析其軌跡起始處的雷達(dá)拼圖是否為MCS。據(jù)此,對(duì)MCS生命期內(nèi)的追蹤結(jié)果進(jìn)行主觀分析。
(1)2019年5月17日MCS個(gè)例
圖6顯示了2019年5月17日的MCS發(fā)展演變過(guò)程,組成該MCS每個(gè)時(shí)刻的MCS切片樣本由DNN模型識(shí)別,并且將分類閾值設(shè)置為0.5。當(dāng)模型對(duì)樣本的預(yù)測(cè)值不小于0.5時(shí),將該樣本對(duì)應(yīng)的候選MCS切片進(jìn)行追蹤合并。該MCS始于09時(shí)24分,此時(shí)對(duì)流云團(tuán)基本處于北京北部,并一路向南移動(dòng),至13時(shí)06分結(jié)束,持續(xù)近4 h,主要影響北京、廊坊和天津等地。
圖6 2019年5月17日09時(shí)18分—15時(shí)MCS追蹤軌跡Fig.6 Tracking path of MCS during 09:18—15:00 UTC 17 May 2019
該時(shí)段的MCS軌跡是不連續(xù)的(最下面有兩條斷開的軌跡)。查看實(shí)際雷達(dá)拼圖數(shù)據(jù)發(fā)現(xiàn),13時(shí)06—56分的雷達(dá)拼圖數(shù)據(jù)缺失,但13時(shí)56分—14時(shí)30分的雷達(dá)數(shù)據(jù)正常,原始數(shù)據(jù)如圖7所示,分割后的MCS切片如圖8所示,并且DNN模型將其識(shí)別為MCS,生成的追蹤數(shù)據(jù)也對(duì)該時(shí)段的MCS進(jìn)行了關(guān)聯(lián)。
圖7 2019年5月17日13時(shí)56分—14時(shí)30分原始雷達(dá)拼圖數(shù)據(jù)(a—f,時(shí)間間隔:6 min)Fig.7 Original radar mosaic data at 13:56—14:30 UTC 17 May 2019(a—f,interval:6 min)
圖8 2019年5月17日13時(shí)56分—14時(shí)30分的MCS切片(a—f,間隔: 6 min)Fig.8 Display of MCS slices during 13:56—14:30 UTC 17 May 2019(a—f,interval:6 min)
試驗(yàn)結(jié)果表明,如果深度學(xué)習(xí)模型預(yù)測(cè)候選MCS樣本的值未達(dá)到0.5,則會(huì)造成MCS的不連續(xù),同時(shí),某時(shí)段雷達(dá)拼圖數(shù)據(jù)的缺失也會(huì)導(dǎo)致MCS的軌跡追蹤中斷,在這兩種情況下時(shí)、空匹配過(guò)程將無(wú)法創(chuàng)建連續(xù)的MCS條帶。盡管使用較高概率閾值的目的是減少non-MCS事件的錯(cuò)誤識(shí)別,但實(shí)際情況表明,此方法也可能會(huì)刪除或截?cái)嗪侠淼腗CS區(qū)域。由于匹配過(guò)程僅檢查當(dāng)前時(shí)刻和下一個(gè)6 min時(shí)刻的MCS切片匹配,因此,如果模型對(duì)某一個(gè)雷達(dá)拼圖中的MCS切片的預(yù)測(cè)值未超過(guò)分類閾值,則追蹤結(jié)束。
解決該問(wèn)題的一種方法是重新分析追蹤數(shù)據(jù)庫(kù)來(lái)連接以前未連接的軌跡,也就是嘗試將包含至少2個(gè)切片的條帶末端(持續(xù)時(shí)間為12 min)連接到具有至少2個(gè)切片的條帶開始端。要找到合適的匹配項(xiàng),規(guī)定必須滿足以下條件:(1)匹配的候選MCS條帶的開始時(shí)間距上一個(gè)MCS條帶的結(jié)束時(shí)間不超過(guò)60 min;(2)匹配的候選MCS條帶的第一個(gè)切片與前一個(gè)條帶的最后一個(gè)切片必須重疊或者相距100 km之內(nèi)。圖9是一個(gè)經(jīng)過(guò)匹配的追蹤軌跡,此時(shí)MCS的起止時(shí)間分別為09時(shí)24分和14時(shí)30分,很明顯該MCS條帶較未匹配前在結(jié)尾處有延伸(圖9紅色虛線標(biāo)注區(qū)域),整個(gè)軌跡是連續(xù)的(與圖6對(duì)比)。
圖9 2019年5月17日09時(shí)18分—15時(shí)MCS追蹤路徑 (已匹配)Fig.9 Tracking path of MCS during 09:18—15:00 UTC 17 May 2019 (rematched)
(2)2019年7月13日MCS個(gè)例
圖10顯示了2019年7月13日的一個(gè)MCS過(guò)程,雷達(dá)觀測(cè)該MCS大約始于13時(shí)42分,并一路向東南方向移動(dòng),途徑北京、天津及河北東部,并經(jīng)渤海灣進(jìn)入山東省境內(nèi),至22時(shí)54分逐漸減弱消退,持續(xù)超過(guò)9 h。
圖10 2019年7月13日13時(shí)42分—22時(shí)54分MCS追蹤路徑Fig.10 Tracking path of MCS during 13:42—22:54 UTC 13 July 2019
對(duì)DNN模型識(shí)別的MCS切片進(jìn)行重新分析匹配,追蹤軌跡如圖11所示。顯然,該MCS的軌跡較未匹配前有所延長(zhǎng)(紅色虛線標(biāo)注區(qū)域),延長(zhǎng)區(qū)域主要分布在河北省北部,并靠近北京市北部。這是由于DNN模型將某時(shí)刻MCS分類為non-MCS導(dǎo)致的中斷,匹配后對(duì)其重新建立了連接。
圖11 2019年7月13日13時(shí)42分—22時(shí)54分MCS追蹤路徑 (已匹配)Fig.11 Tracking path of MCS during 13:42—22:54 UTC 13 July 2019 (rematched)
對(duì)上述MCS個(gè)例軌跡追蹤中18時(shí)42分—19時(shí)11分的雷達(dá)數(shù)據(jù)(圖12)和其所對(duì)應(yīng)的MCS切片(圖13)進(jìn)行分析發(fā)現(xiàn),雷達(dá)拼圖分割時(shí)通常會(huì)得到一個(gè)候選MCS切片,但對(duì)于雷達(dá)回波結(jié)構(gòu)和形態(tài)較為復(fù)雜的區(qū)域性對(duì)流天氣過(guò)程,可能會(huì)出現(xiàn)2個(gè)(圖13b—e,分割得到2個(gè)候選MCS切片)、有時(shí)甚至更多個(gè)候選切片。當(dāng)子圖中出現(xiàn)多個(gè)MCS切片時(shí),表示在該區(qū)域的同一時(shí)段出現(xiàn)了多個(gè)MCS,進(jìn)行追蹤時(shí)會(huì)得到2條不同的軌跡路徑。本試驗(yàn)的追蹤結(jié)果只有1條,是因?yàn)榘l(fā)生在山東省北部的MCS切片雖然滿足MCS的客觀定義,但DNN模型將其識(shí)別為non-MCS,與雷達(dá)觀測(cè)實(shí)際分析完全一致,圖13b—e右下角的MCS切片回波特征只持續(xù)了24 min左右,無(wú)法形成真正的MCS。
圖12 2019年7月13日18時(shí)41分—19時(shí)11分 (a—f,間隔:6 min) 的原始雷達(dá)拼圖數(shù)據(jù)Fig.12 Original radar mosaic data during 18:41—19:11 UTC 13 July 2019 (a—f,interval:6 min)
圖13 2019年7月13日18時(shí)41分—19時(shí)11分 (a—f,間隔:6 min) 的MCS切片展示(b—e子圖中有2個(gè)MCS切片)Fig.13 Display of MCS slices during 18:41—19:11 UTC 13 July 2019 (a—f,interval:6 min)(there are two MCS slices in the b—e panels)
根據(jù)3.5節(jié)的分類算法,對(duì)2018和2019年5—9月測(cè)試集數(shù)據(jù)的準(zhǔn)線性MCS進(jìn)行分類,可分為TS、LS和PS三類(表9)。統(tǒng)計(jì)結(jié)果顯示,京津冀地區(qū)TS型在這3類準(zhǔn)線性MCS中占據(jù)主體(71%左右)。Parker等(2000)的研究也表明,美國(guó)中緯度地區(qū)的準(zhǔn)線性MCS以TS型為主。
表9 2018和2019年MCS切片中TS、LS和PS型的個(gè)數(shù)統(tǒng)計(jì)Table 9 Numbers of TS,LS and PS in MCS slices in 2018 and 2019
為了分析試驗(yàn)結(jié)果,此處選擇了3個(gè)時(shí)段的RS、RI和θ的計(jì)算值,分別與LS、TS和PS這3類準(zhǔn)線性MCS對(duì)應(yīng),如表10所示。
(1)LS型:2019年5月17日12時(shí)41分—13時(shí)05分的MCS切片屬于LS型。根據(jù)表5的分類算法,LS的類別由RI和θ決定。表10顯示該MCS個(gè)例的RI值均小于0.1,且夾角θ值為正,與表5定義一致;結(jié)合MCS切片(圖14,2019年5月17日12時(shí)41、47、53分和13時(shí)05分4個(gè)時(shí)刻的MCS切片),4個(gè)MCS切片整體向南移動(dòng),根據(jù)其對(duì)流和強(qiáng)對(duì)流區(qū)域的分布,判定為L(zhǎng)S型。
圖14 2019年5月17日的LS型MCS雷達(dá)回波(a.12時(shí)41分,b.12時(shí)47分,c.12時(shí)53分,d.13時(shí)05分)Fig.14 Classified LS MCS radar reflectivity on 17 May 2019(a.12:41 UTC,b.12:47 UTC,c.12:53 UTC,d.13:05 UTC)
續(xù)圖14Fig.14 Continued
(2)TS型:2019年7月13日14時(shí)17分—15時(shí)59分的MCS切片屬于TS型。表10顯示該MCS個(gè)例的RI值均大于10,且夾角θ值為正,與表5對(duì)TS型的定義一致;結(jié)合MCS切片(圖15,2019年7月13日14時(shí)17、47分、15時(shí)17和47分4個(gè)時(shí)刻MCS切片),4個(gè)MCS切片整體向南移動(dòng),根據(jù)其對(duì)流和強(qiáng)對(duì)流區(qū)域的分布,判定為TS型。
圖15 2019年7月13日TS型MCS雷達(dá)回波 (a.14時(shí)17分,b.14時(shí)47分,c.15時(shí)17分,d.15時(shí)47分)Fig.15 Classified TS MCS radar reflectivity on 13 July 2019 (a.14:17 UTC,b.14:47 UTC,c.15:17 UTC,d.15:47 UTC)
(3)PS型:2019年7月25日05時(shí)47分—07時(shí)05分的MCS切片屬于PS型。根據(jù)表5的分類算法,LS型由RS和RI決定。表10中該MCS個(gè)例的RS值均接近1,且RI值在[0.1,10];結(jié)合MCS切片(圖16,2019年7月25日05時(shí)47分、06時(shí)11、41分和07時(shí)05分4個(gè)時(shí)刻的MCS切片),發(fā)現(xiàn)與對(duì)流線相關(guān)的大部分層狀云降水區(qū)域平行于該對(duì)流線,符合PS型特征。
圖16 2019年7月25日PS型MCS雷達(dá)回波 (a.05時(shí)47分,b.06時(shí)11分,c.06時(shí)41分,d .07時(shí)05分)Fig.16 Classified PS MCS radar reflectivity on 25 July 2019 (a.05:47 UTC,b.06:11 UTC,c.06:41 UTC,d.07:05 UTC)
表10 分類出的LS、TS和PS型準(zhǔn)線性MCS所對(duì)應(yīng)的RS、RI和θ的計(jì)算值(比值的分母為0時(shí)用?9999.000表示計(jì)算值;此處只選擇了3個(gè)時(shí)間段)Table 10 Calculated values ofRS,RI andθ,which correspond to the classified LS,TS and PS of Quasi-linear MCSs(?9999.000 is used to represent their values when the denominator ofRS andRI is 0,only three time periods are selected here)
綜合以上分析發(fā)現(xiàn),表5提出的TS、LS和PS分類算法取得了良好結(jié)果,證明該分類算法的合理性與可行性,為準(zhǔn)線性MCS的自動(dòng)客觀分類提供了一種新的方法,可在強(qiáng)對(duì)流天氣特別是強(qiáng)降水時(shí)、空特征的預(yù)報(bào)中得到應(yīng)用。
選取2010—2019年共10 a夏季的京津冀地區(qū)雷達(dá)拼圖數(shù)據(jù),基于機(jī)器學(xué)習(xí)開展了MCS的自動(dòng)識(shí)別、追蹤及分類試驗(yàn)研究。(1)對(duì)原始雷達(dá)拼圖數(shù)據(jù)進(jìn)行預(yù)處理以保證試驗(yàn)數(shù)據(jù)的有效性,根據(jù)PJ00標(biāo)準(zhǔn)按照特定的分割參數(shù)對(duì)原始雷達(dá)數(shù)據(jù)進(jìn)行分割得到候選MCS切片,并從每個(gè)切片中抽取14個(gè)MCS特征值構(gòu)建MCS特征識(shí)別數(shù)據(jù)集。(2)使用深度學(xué)習(xí)方法建立了一個(gè)二分類DNN模型,將預(yù)測(cè)結(jié)果與其他3種傳統(tǒng)機(jī)器學(xué)習(xí)算法(RF、SVM和XGBoost)的結(jié)果進(jìn)行對(duì)比。試驗(yàn)結(jié)果表明,DNN模型識(shí)別MCS的性能優(yōu)于其他3種算法,能夠有效判別MCS和non-MCS。并且,DNN模型將non-MCS識(shí)別為MCS的頻率是最低的,有利于后續(xù)的MCS追蹤。(3)將DNN模型識(shí)別的MCS切片用于MCS追蹤,使用改進(jìn)的時(shí)空重疊追蹤法完成2018和2019年京津冀地區(qū)的MCS追蹤,得到包含強(qiáng)度、空間和時(shí)間信息的MCS條帶數(shù)據(jù)集。(4)根據(jù)追蹤得到的MCS軌跡矢量計(jì)算MCS切片的運(yùn)動(dòng)方向,并求得MCS切片擬合橢圓長(zhǎng)軸兩側(cè)的層狀云和強(qiáng)對(duì)流云區(qū)域的面積占比,實(shí)現(xiàn)了TS、LS和PS三類準(zhǔn)線性MCS的自動(dòng)分類,對(duì)提升MCS致災(zāi)天氣的預(yù)報(bào)、預(yù)警具有重要意義。
MCS回波結(jié)構(gòu)復(fù)雜,對(duì)其進(jìn)行有效識(shí)別在氣象領(lǐng)域是一件較為復(fù)雜的工作。文中使用深度學(xué)習(xí)算法建立了自動(dòng)識(shí)別MCS的方法,對(duì)MCS的研究具有重要意義。本研究還存在一些不足,如用搜索半徑96 km來(lái)限定MCS切片的層狀云區(qū)域,在以后工作中還需要繼續(xù)改進(jìn);對(duì)MCS分塊進(jìn)行人工特征抽取,沒有發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)自動(dòng)抽取圖像特征的優(yōu)勢(shì);并且,對(duì)準(zhǔn)線性MCS的分類也是基于人工抽取特征再進(jìn)行映射而實(shí)現(xiàn)。因此,在未來(lái)的研究中,可以從以下兩方面做深入探索:(1)CNN可以自動(dòng)從輸入數(shù)據(jù)中抽取到復(fù)雜的內(nèi)在紋理特征,能夠更加精確地捕捉到MCS分塊中各個(gè)強(qiáng)度區(qū)域之間的空間聯(lián)系,進(jìn)行更高效地識(shí)別MCS。可以考慮使用CNN模型實(shí)現(xiàn)MCS切片的自動(dòng)識(shí)別,但首先得解決CNN網(wǎng)絡(luò)如何訓(xùn)練大小不同的MCS切片數(shù)據(jù),或者解決如何將MCS切片數(shù)據(jù)的大小進(jìn)行統(tǒng)一處理。(2)利用深度學(xué)習(xí)實(shí)現(xiàn)準(zhǔn)線性MCS或者準(zhǔn)線性對(duì)流系統(tǒng)(QLCS)中的TS、LS和PS型的特征分類(Parker,et al,2000)或?qū)崿F(xiàn)MCS中強(qiáng)降水特征的分類識(shí)別(Schumacher,et al,2005,2020)。
致 謝:文中使用的機(jī)器學(xué)習(xí)算法源自Scikit-Learn開源庫(kù)(代碼地址:https://github.com/scikit-learn/scikit-learn.git)以及Google公司的TensorFlow平臺(tái)(https://github.com/tensorflow/tensorflow.git),謹(jǐn)此致謝。