董新寧 向波 周杰 李永華 曾春芬
(1 重慶市氣候中心,重慶 401147;2 重慶師范大學(xué)地理與旅游學(xué)院,重慶 401331)
夏季旱澇是最受關(guān)注的氣象災(zāi)害之一,國(guó)內(nèi)外許多氣象專家、學(xué)者圍繞“氣候系統(tǒng)”各成員的變化及其相互作用對(duì)夏季旱澇的影響做了大量有意義的研究工作。譚桂容等[1]、謝坤等[2]、史印山等[3]對(duì)華北夏季環(huán)流、旱澇特征及水汽輸送特征進(jìn)行了分析。關(guān)于重慶及其周邊地區(qū)的夏季旱澇變化特征及其成因、預(yù)測(cè)方法也有一些研究。李永華等[4-6]、劉德等[7]等分析了西南地區(qū)東部夏季降水及旱澇的變化特征,指出其具有明顯的年際和年代際變化特征。周毅等[8]對(duì)三峽庫(kù)區(qū)夏季降水基本氣候特征進(jìn)行了研究。結(jié)果表明:三峽庫(kù)區(qū)夏季降水一致性較好,旱年出現(xiàn)的頻率明顯高于澇年,三峽庫(kù)區(qū)夏季降水存在明顯的年代際變化特征。馬振鋒[9]從業(yè)務(wù)預(yù)報(bào)角度,對(duì)影響西南地區(qū)夏季降水的主要物理因子,如高原因子、西風(fēng)帶系統(tǒng)、副熱帶高壓等因素進(jìn)行了分析,在此基礎(chǔ)上建立了具有一定物理基礎(chǔ)的夏季降水預(yù)測(cè)模型,在近年來(lái)汛期降水預(yù)測(cè)中取得了較好的效果。張強(qiáng)等[10]對(duì)SST指數(shù)與長(zhǎng)江上游旱澇災(zāi)害相關(guān)分析表明,El Nio事件的發(fā)生使長(zhǎng)江上游發(fā)生旱災(zāi)機(jī)率增大,而La Nia事件的發(fā)生則使長(zhǎng)江上游發(fā)生澇災(zāi)的機(jī)率增大。劉德等[11]對(duì)重慶地區(qū)夏季旱澇的歐亞環(huán)流特征進(jìn)行了分析,建立了利用前期冬季關(guān)鍵區(qū)環(huán)流指數(shù)預(yù)報(bào)重慶夏季降水的概念模型。
近年來(lái)人工智能技術(shù)也開(kāi)始應(yīng)用于強(qiáng)對(duì)流天氣預(yù)報(bào)和氣候預(yù)測(cè)等大氣科學(xué)領(lǐng)域。機(jī)器學(xué)習(xí)在強(qiáng)對(duì)流天氣預(yù)報(bào)方面的應(yīng)用相對(duì)比較多:2017年深圳市氣象局和阿里巴巴聯(lián)合承辦了以“智慧城市,智慧型國(guó)家”為主題的CIKM數(shù)據(jù)科學(xué)競(jìng)賽,主要是利用雷達(dá)圖像進(jìn)行了短時(shí)降水預(yù)報(bào);修媛媛等[12]用機(jī)器學(xué)習(xí)中有監(jiān)督學(xué)習(xí)模型支持向量機(jī)SVM來(lái)進(jìn)行強(qiáng)對(duì)流天氣的識(shí)別和預(yù)報(bào),提高了強(qiáng)對(duì)流天氣識(shí)別的準(zhǔn)確度。孫全德等[13]基于機(jī)器學(xué)習(xí)的數(shù)值天氣預(yù)報(bào)風(fēng)速訂正研究,顯示了機(jī)器學(xué)習(xí)方法在改善局地精準(zhǔn)氣象預(yù)報(bào)方面的潛力。李文娟等[14]進(jìn)行了基于數(shù)值預(yù)報(bào)和隨機(jī)森林算法的強(qiáng)對(duì)流天氣分類預(yù)報(bào)技術(shù)研究,研究表明,隨機(jī)森林算法篩選的因子物理意義較為明確。和主觀預(yù)報(bào)經(jīng)驗(yàn)基本相符,模型準(zhǔn)確率高,可用于日常業(yè)務(wù)。在氣候領(lǐng)域,在過(guò)去幾年,研究人員已經(jīng)利用人工智能系統(tǒng)幫助他們排列氣候模型[15],在現(xiàn)實(shí)和模擬氣候數(shù)據(jù)中發(fā)現(xiàn)颶風(fēng)以及其他極端天氣事件,從而找到新的氣候模式。Rasp,et al[16]基于機(jī)器學(xué)習(xí)所做的對(duì)流參數(shù)化新方法,在裝置中訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),使其在一個(gè)明確代表云層的模擬中進(jìn)行學(xué)習(xí),該算法稱為“云腦”(CBRAIN),這種新方法能夠有效地預(yù)測(cè)對(duì)氣候模擬至關(guān)重要的云層變暖、濕潤(rùn)以及散熱等特征。此外,McGinnis, et al[17]研究了一種新的氣候模型偏差校正分布映射技術(shù)。Greene, et al[18]結(jié)合GLM-NHMM方法,提出了基于站網(wǎng)日降水量預(yù)測(cè)的的降尺度貝葉斯方法,方法具備相當(dāng)大的靈活性。
上述的研究尤其是預(yù)測(cè)研究基本上考慮的都是單一系統(tǒng)或者物理因子對(duì)重慶及周邊地區(qū)旱澇的影響,單一因子作用在極端異常年份可能較為顯著,當(dāng)因子處于正常狀態(tài)時(shí),預(yù)測(cè)往往失效。實(shí)際上,由于氣候系統(tǒng)的非線性和混沌性,影響旱澇預(yù)測(cè)的因素必定是諸多海溫(ENSO、黑潮等)、高原積雪、陸面溫度、火山活動(dòng)、天文因子、季風(fēng)、副高、阻高、高原大地形等綜合作用的結(jié)果。如果能夠通過(guò)大數(shù)據(jù)的梳理統(tǒng)計(jì)、分析處理、機(jī)器學(xué)習(xí)等方法手段,在導(dǎo)致旱澇變化的這些眾多因子中,分析這些因子的協(xié)同作用,分辨出哪些因子是優(yōu)秀預(yù)報(bào)因子,以及在不同的區(qū)域這些優(yōu)秀因子所占的權(quán)重,即這些因子究竟能提供多大程度的預(yù)報(bào)信息,那么旱澇預(yù)測(cè)將變?yōu)榭赡芏铱尚拧Q策樹模型作為機(jī)器學(xué)習(xí)算法的優(yōu)秀代表,它采用遞歸分割技術(shù),將數(shù)據(jù)空間不斷劃分為不同子集,進(jìn)而探測(cè)出數(shù)據(jù)的潛在結(jié)構(gòu)、重要模式和關(guān)系。與傳統(tǒng)的參數(shù)統(tǒng)計(jì)方法相比,決策樹模型無(wú)需提前對(duì)自變量和因變量的關(guān)系進(jìn)行假設(shè),且能有效克服自變量的多重共線性。目前,決策樹和隨機(jī)森林算法在氣象上的應(yīng)用越來(lái)越廣泛。史達(dá)偉等[19]利用決策樹算法對(duì)道路結(jié)冰災(zāi)害建立了較為準(zhǔn)確的分類與預(yù)測(cè)模型;秦鵬程等[20]基于決策樹和隨機(jī)森林模型的湖北油菜產(chǎn)量限制因子分析也取得良好的應(yīng)用。本文從實(shí)際預(yù)測(cè)業(yè)務(wù)出發(fā),針對(duì)重慶區(qū)域平均的夏季降水,采用決策樹分類方法建立多因子協(xié)同影響的旱澇預(yù)測(cè)模型,并在決策樹建模的基礎(chǔ)上采用隨機(jī)森林進(jìn)行集成預(yù)測(cè)試驗(yàn)并檢驗(yàn)評(píng)估其預(yù)測(cè)效果。
本文采用的氣象資料通過(guò)中國(guó)氣象局CIMISS氣象數(shù)據(jù)統(tǒng)一服務(wù)接口(MUSIC:Meteorological Unified Service Interface Community)取得。決策樹研究時(shí)采用重慶市34個(gè)國(guó)家氣象觀測(cè)站(圖1)的區(qū)域平均降水量進(jìn)行研究,隨機(jī)森林對(duì)34個(gè)國(guó)家氣象觀測(cè)站的降水量進(jìn)行分析。
本文環(huán)流指數(shù)來(lái)自中國(guó)氣象局業(yè)務(wù)氣象內(nèi)網(wǎng)(http:∥10.1.64.154/portal/web-link.index?inid=1001),包括大氣環(huán)流指數(shù)88項(xiàng)、海溫指數(shù)26項(xiàng)及其他指數(shù)16項(xiàng),合計(jì)130項(xiàng)。本文中使用的海溫指數(shù)包括26項(xiàng)海溫指數(shù)以及16項(xiàng)其他指數(shù)中的多變量ENSO指數(shù)、北太平洋年代際振蕩指數(shù)、大西洋經(jīng)向模海溫指數(shù)、準(zhǔn)兩年振蕩指數(shù)、赤道太平洋130°E~80°W范圍次表層海溫指數(shù)、赤道太平洋160°E~80°W范圍次表層海溫指數(shù)、赤道太平洋次表層海溫指數(shù)、大西洋海溫三極子指數(shù)。對(duì)指數(shù)序列先進(jìn)行標(biāo)準(zhǔn)化再參與建立模型,以消除指數(shù)單位帶來(lái)的權(quán)重影響?;诩竟?jié)預(yù)報(bào)的可預(yù)測(cè)性,本文在建立預(yù)測(cè)模型時(shí)傾向于選取海溫指數(shù),主要是由于海溫是季節(jié)大氣環(huán)流的穩(wěn)定外強(qiáng)迫,同時(shí)它們又具有較明確物理影響機(jī)制[21-31]。
圖1 重慶地區(qū)34個(gè)國(guó)家氣象觀測(cè)站分布Fig.1 Distribution of 34 national meteorologicalstations in Chongqing
本文所采用的機(jī)器學(xué)習(xí)算法包括決策樹(史達(dá)偉等[19],秦鵬程等[20],王偉等[32])、隨機(jī)森林(Breiman[33];吳晶等[34],徐彬仁等[35])。評(píng)估方法為一致率評(píng)分、趨勢(shì)異常綜合評(píng)分和相關(guān)系數(shù)(劉一鳴等[36],白慧等[37])。 文中建模時(shí)段為1961—2010年,獨(dú)立檢驗(yàn)評(píng)估時(shí)段為2011—2018年。
1.2.1 決策樹
決策樹是歸納學(xué)習(xí)和數(shù)據(jù)挖掘的重要方法,通常用來(lái)形成分類器和預(yù)測(cè)模型。楊學(xué)兵等[38]介紹了決策樹基本概念及常用算法。假設(shè)給定數(shù)據(jù)集D={(x_1,y_1 ),(x_2,y_2 ),…,(x_n,y_n)},其中x_i=[([x_i]^((1) ),[x_i]^((2) ),…,[x_i]^((n) ))]^T為輸入變量(即環(huán)流指數(shù)),n為特征個(gè)數(shù)(文中夏季模型為130,冬季模型為34),y_i∈{1,2,…,K}為類別型響應(yīng)變量(即降水多少),i=1,2,…,N,N為樣本容量(取1961—2018年,計(jì)58 a)。其中,1961—2010年為訓(xùn)練數(shù)據(jù)集、完成模型訓(xùn)練,2011—2018年為獨(dú)立測(cè)試數(shù)據(jù)集、進(jìn)行獨(dú)立檢驗(yàn)評(píng)估。決策樹學(xué)習(xí)的目標(biāo)是根據(jù)給定的訓(xùn)練集構(gòu)建一個(gè)決策樹模型,使它能夠?qū)?shí)例進(jìn)行正確的分類。本文決策樹生成采用的是Quinlan[39]的C4.5算法。由于每個(gè)站都可以使用決策樹方法進(jìn)行應(yīng)用,但是這樣會(huì)造成過(guò)多的分支,后期分析時(shí)有太多干擾的“噪聲”。一個(gè)區(qū)域的平均降水量雖然無(wú)法描述每個(gè)測(cè)站的細(xì)微差異性,但是在季節(jié)尺度上,區(qū)域平均降水量完全可以代表該地區(qū)的降水情況,特別是小區(qū)域(例如:重慶區(qū)域)的代表性則更好。因此,本文使用決策樹方法時(shí),采用重慶區(qū)域平均降水量作為研究分析對(duì)象。
1.2.2 隨機(jī)森林
隨機(jī)森林(Random Forest,RF)是一種多功能的機(jī)器學(xué)習(xí)算法,由美國(guó)加州大學(xué)伯克利分校統(tǒng)計(jì)學(xué)教授Breiman[33]首次提出。它的基本組成是Breiman發(fā)明的分類和回歸樹(Classification and Regression tree,CART),對(duì)比神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法,這種通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類和回歸的算法有效降低了計(jì)算量,而隨機(jī)森林正是對(duì)這些分類樹的組合和再匯總。隨機(jī)森林在計(jì)算量沒(méi)有顯著提高的前提下提高了估算精度,而且它對(duì)缺失值和多元共線性不敏感,可以估算多達(dá)幾千個(gè)解釋變量,被譽(yù)為當(dāng)前最好的算法之一(Iverson, et al[40])。
隨機(jī)森林采用Bagging的方法組合決策樹,即利用Bootstrap重抽樣方法(自舉法)從原始樣本中抽取N個(gè)樣本進(jìn)行決策樹的建模,一般情況下,隨機(jī)森林會(huì)隨機(jī)生成幾百至幾千個(gè)決策樹,森林中的每棵樹都是獨(dú)立的,然后選擇重復(fù)程度最高的樹作為最終的結(jié)果。由于不需要考慮變量的分布條件、交互作用、非線性作用,甚至缺失值等約束,因此,雖然隨機(jī)森林的結(jié)構(gòu)復(fù)雜,但卻表現(xiàn)穩(wěn)健,容易使用。
隨機(jī)森林的具體構(gòu)造過(guò)程如下:
(1)如果訓(xùn)練集大小為N(本文取值為50,即1961—2010年),對(duì)于每棵樹而言,隨機(jī)且有放回地從訓(xùn)練集中抽取N個(gè)訓(xùn)練樣本(這種采樣方式稱為bootstrap sample方法),作為該樹的訓(xùn)練集;
(2)如果每個(gè)樣本的特征維度為M,指定一個(gè)常數(shù)m< (3)每棵樹都盡最大程度的生長(zhǎng),并且沒(méi)有剪枝過(guò)程; (4)按照步驟(1)—(3)建立大量的決策樹,這樣就構(gòu)成了隨機(jī)森林,分類結(jié)果按樹分類器的投票多少而定。 構(gòu)建隨機(jī)森林的過(guò)程中有兩個(gè)參數(shù)需要使用者視具體情況而設(shè)置,大多數(shù)情況下,模型的默認(rèn)參數(shù)即可得出最優(yōu)模擬結(jié)果,無(wú)需進(jìn)行調(diào)整。隨機(jī)森林中的“隨機(jī)”就是指的這里的兩個(gè)隨機(jī)性參數(shù)。這兩個(gè)隨機(jī)性的引入對(duì)隨機(jī)森林的分類性能至關(guān)重要。由于它們的引入,使得隨機(jī)森林不容易陷入過(guò)擬合,并且具有很好的抗噪能力。因此本文所建立的估算降水的隨機(jī)森林模型均使用默認(rèn)的參數(shù)。 1.2.3 檢驗(yàn)方法 本文選用中國(guó)氣象局氣候預(yù)測(cè)質(zhì)量評(píng)定中常用的一致率評(píng)分(Prediction Consistency, PC)、趨勢(shì)異常綜合評(píng)分(Prediction Score,PS)和相關(guān)系數(shù)(CC)3種指標(biāo),檢驗(yàn)隨機(jī)森林對(duì)重慶夏季降水的預(yù)測(cè)回報(bào)結(jié)果,進(jìn)行定量評(píng)估分析。 (1)一致率評(píng)分(PC)以預(yù)測(cè)和實(shí)況的距平符號(hào)是否一致為判斷依據(jù),采用逐站進(jìn)行評(píng)判。定義如下: (1) 式中:N0為氣候趨勢(shì)預(yù)測(cè)正確的站數(shù);N為實(shí)際參加評(píng)估站數(shù)。 (2)趨勢(shì)異常綜合評(píng)分(PS)檢驗(yàn)方法是針對(duì)氣候趨勢(shì)預(yù)測(cè)和異常級(jí)預(yù)測(cè)結(jié)果設(shè)不同權(quán)重來(lái)綜合進(jìn)行檢驗(yàn)評(píng)分的方法。其檢驗(yàn)評(píng)分比較直觀,在趨勢(shì)預(yù)測(cè)正確得分的基礎(chǔ)上,仍可獲得異常預(yù)測(cè)正確分,相當(dāng)于對(duì)預(yù)測(cè)異常給予鼓勵(lì),其預(yù)測(cè)評(píng)分能相對(duì)反映氣候預(yù)測(cè)能力和水平。 趨勢(shì)預(yù)測(cè)即為預(yù)測(cè)對(duì)象距平/距平百分率正負(fù)符號(hào)的預(yù)測(cè)。當(dāng)預(yù)測(cè)與實(shí)況的符號(hào)相同(0代表正)時(shí),表示趨勢(shì)預(yù)測(cè)正確。異常級(jí)預(yù)測(cè)是指對(duì)降水距平百分率超過(guò)(包含)±20%,氣溫距平超過(guò)(包含)±1℃的預(yù)測(cè)。 PS檢驗(yàn)方法的計(jì)算公式: , (2) 其中:N0為氣候趨勢(shì)預(yù)測(cè)正確的站數(shù);N1為一級(jí)異常預(yù)測(cè)正確的站數(shù);N2為二級(jí)異常預(yù)測(cè)正確的站數(shù);N為實(shí)際參加評(píng)估站數(shù);M為沒(méi)有預(yù)報(bào)二級(jí)異常而實(shí)況出現(xiàn)降水距平百分率≥100%或等于-100%、氣溫距平≥3 ℃或≤-3 ℃的站數(shù);a、b和c分別為氣候趨勢(shì)項(xiàng)、一級(jí)異常項(xiàng)和二級(jí)異常項(xiàng)的權(quán)重系數(shù),本辦法分別取a=1,b=2,c=4。 (3)相關(guān)系數(shù)檢驗(yàn)方法(CC)對(duì)氣候趨勢(shì)預(yù)測(cè)產(chǎn)品的相關(guān)性進(jìn)行檢驗(yàn),其表征了預(yù)報(bào)場(chǎng)和實(shí)況場(chǎng)的相關(guān)程度,其相關(guān)系數(shù)的大小能表征預(yù)報(bào)場(chǎng)與實(shí)況場(chǎng)的高低中心的對(duì)應(yīng)好壞,一定程度上反映了預(yù)測(cè)結(jié)果的準(zhǔn)確率和預(yù)測(cè)方法的好壞,是國(guó)際通行的預(yù)測(cè)評(píng)估方法之一。對(duì)降水、氣溫的預(yù)測(cè)檢驗(yàn)評(píng)估主要使用降水距平百分率和平均氣溫距平計(jì)算其相關(guān)系數(shù)。 具體計(jì)算方法: (3) 文中的發(fā)布預(yù)報(bào)是指重慶市氣候中心參與中國(guó)氣象局氣候預(yù)測(cè)質(zhì)量考核的預(yù)報(bào)。 考慮夏季同期的物理因子情況,使用IBM SPSS Modeler 18.0,并采用CART算法(下同)建模(圖3),從模型看出,對(duì)重慶夏季降水影響較大的環(huán)流指數(shù)包含西太平洋副高脊線、登錄臺(tái)風(fēng)、親潮區(qū)海溫、北非大西洋北美副高北界、大西洋歐洲區(qū)極渦強(qiáng)度、印度副高面積和30 hPa緯向風(fēng),上述多因子如何協(xié)同影響重慶夏季降水如圖2。 基于CART算法的重慶夏季降水趨勢(shì)與同期環(huán)流指數(shù)模型的組合情況如表1,降水偏少的因子組合有情況1~4,降水偏多的因子組合有情況5~7,“+”和“-”分別表示條件中指數(shù)的正負(fù)距平,括號(hào)中的百分位數(shù)是偏少(多)的概率。 利用2011—2018年的同期指數(shù)來(lái)預(yù)測(cè)重慶夏季降水的多寡,并與觀測(cè)實(shí)況進(jìn)行對(duì)比,結(jié)果如表2所示。 圖2 基于CART算法的重慶夏季降水趨勢(shì)與夏季環(huán)流指數(shù)間的關(guān)系(類別多、少表示偏多、偏少;%數(shù)字表示偏多、偏少的概率;n數(shù)字表示偏多或偏少的年份數(shù);指數(shù)名稱為該節(jié)點(diǎn)所采用的指數(shù)。下同)Fig.2 An analytic diagram of the relationship between precipitation trend and circulation index in summer in Chongqing based on CART algorithm(Type “more” or “l(fā)ess” means more or less precipitation in Chonging; value with % indicates the probability of more or less;n means the number of years with more or less; the index is the adopted one by the node, the same below) 表1 基于CART算法的重慶夏季降水趨勢(shì)與同期環(huán)流指數(shù)模型的組合情況Table 1 The combination of summer precipitation trend and circulation index model based on CART algorithm in Chongqing 如果預(yù)測(cè)只考慮單因子作用,西太平洋副熱帶高壓(簡(jiǎn)稱西太副高)脊線偏北(南)一般對(duì)應(yīng)重慶夏季降水偏少(多),僅以此預(yù)測(cè),2011、2012、2015和2018年西太副高脊線偏北對(duì)應(yīng)降水偏少,2015年結(jié)果不吻合;2013、2014、2016和2017年西太平洋副高脊線偏南對(duì)應(yīng)降水偏多,實(shí)際上只有2014年和2017年偏多。合計(jì)預(yù)測(cè)準(zhǔn)確率為62.5%(5/8)。由此可以看到考慮多個(gè)因子共同作用的預(yù)測(cè)準(zhǔn)確率高于僅考慮單因子的預(yù)測(cè)準(zhǔn)確率。 考慮多因子協(xié)同作用時(shí),即使西太副高偏南,也可能出現(xiàn)降水偏少的情況,如情況(3)。在實(shí)際預(yù)測(cè)中2011和2012年完全符合情況(1),降水距平百分率分別為-30.5%和-22.1%,顯著偏少。2013年的降水距平百分率為-26.1%,結(jié)果與情況(3)一致,如果僅滿足情況(3)的前2個(gè)條件,降水偏少的概率僅為50%,2013年30 hPa緯向風(fēng)顯著偏大,使降水偏少的概率增加到100%。同樣,在多因子協(xié)同預(yù)測(cè)時(shí),無(wú)論西太平洋副高脊線偏北或偏南都可能出現(xiàn)降水偏多的情況,如情況(5)和情況(6)所示。2014年的環(huán)流指數(shù)與情況(6)的結(jié)果一致,降水偏多的概率為100%,實(shí)際降水距平百分率為6.3%,正常偏多。2015年的環(huán)流指數(shù)與情況(5)的結(jié)果一致,降水偏多的概率為100%,實(shí)際降水距平百分率11.7%。2016年的環(huán)流指數(shù)與情況(3)一致,預(yù)測(cè)降水偏少,但實(shí)際情況是降水偏多9.5%。2016年是典型的El Nio年,太平洋海溫異常導(dǎo)致大氣系統(tǒng)的異??赡苁?016年預(yù)測(cè)模型失效的可能原因。 圖3 基于CART算法的重慶夏季降水趨勢(shì)與前冬海溫指數(shù)間的關(guān)系Fig.3 Relationship between precipitation trend in summer and SST index in pre-winter based on CART algorithm in Chongqing 表2 2011—2018年不同環(huán)流指數(shù)距平值、降水預(yù)測(cè)值與實(shí)況對(duì)比Table 2 Different circulation index anomaly, precipitation prediction value and observation from 2011 to 2018 表3 基于CART算法的重慶夏季降水趨勢(shì)與前冬海溫指數(shù)模型的組合情況Table 3 The combination of summer precipitation trend and pre-winter SST model based on CART algorithm in Chongqing 從2011—2018年的預(yù)測(cè)效果檢驗(yàn)來(lái)看,多因子協(xié)同作用的預(yù)測(cè)準(zhǔn)確率達(dá)到87.5%,較考慮單一因子提高25%。鑒于同期因子的分析更多應(yīng)用于診斷分析,而從預(yù)測(cè)的實(shí)際情況考慮,同前面的方法,選取前冬海溫指數(shù)建模(圖3)用于預(yù)測(cè)業(yè)務(wù)。 基于CART算法的重慶夏季降水趨勢(shì)與冬海溫指數(shù)模型的組合情況如表3,模型中,降水偏少、偏多的情況各有6種。 利用2011—2018年重慶夏季降水觀測(cè)實(shí)況對(duì)模型進(jìn)行檢驗(yàn),結(jié)果如表4所示。模型中如果考慮相關(guān)性最高的大西洋經(jīng)向模海溫,偏高則重慶地區(qū)降水偏少,偏低則重慶地區(qū)降水偏多。除2014年外,其余年份趨勢(shì)預(yù)測(cè)正確。若考慮不同的組合情況,2011—2014年大西洋經(jīng)向模海溫偏高、Nino-A偏低, 表4 2011—2018年基于前冬海溫指數(shù)決策樹模型預(yù)測(cè)重慶夏季降水效果檢驗(yàn)表Table 4 Test table for predicting summer precipitation effect from 2011 to 2018 based on the pre-winter SST index decision tree model in Chongqing 圖4 基于隨機(jī)森林的重慶夏季降水預(yù)測(cè)及觀測(cè)實(shí)況分布圖:F表示預(yù)測(cè);O表示觀測(cè)實(shí)況Fig.4 Forecast and observation distribution of summer precipitation in Chongqing based on random forest: F means forcasting and O for observation 2013年冷舌型ENSO指數(shù)偏小,與情況(1)一致,預(yù)測(cè)降水偏少,其余3 a的不同在于西半球暖池指數(shù)的差異,2011、2012年與情況(2)一致,預(yù)測(cè)降水偏少,2014年與情況(7)一致,預(yù)測(cè)降水偏多。2015、2016年海溫指數(shù)的信號(hào)和情況(10)一致,預(yù)測(cè)降水偏多。2017、2018年則與情況(3)吻合,預(yù)測(cè)降水偏少。從檢驗(yàn)來(lái)看,考慮多因子協(xié)同的情況下,2011—2018年8 a降水趨勢(shì)預(yù)測(cè)均正確,相對(duì)只考慮單一因子的情況下提高12.5%。 以上考慮采用決策樹方法考慮多因子協(xié)同作用時(shí),對(duì)重慶夏季旱澇建模預(yù)測(cè),雖然無(wú)法實(shí)現(xiàn)定量化的預(yù)測(cè),但試驗(yàn)表明無(wú)論采用前期還是同期因子進(jìn)行預(yù)測(cè)診斷分析,都比考慮單一指數(shù)有明顯的預(yù)測(cè)提升。這也表明,“氣候系統(tǒng)”作為一個(gè)復(fù)雜的系統(tǒng),是多重因子、多個(gè)系統(tǒng)相互影響共同作用的結(jié)果,在預(yù)測(cè)過(guò)程中,我們不但需要分別分析系統(tǒng)中各個(gè)部分的特征與循環(huán),也必須研究整個(gè)系統(tǒng)的集成行為及各分系統(tǒng)的相互作用。這個(gè)過(guò)程需要對(duì)海洋、大氣等大量的資料以及各種模式預(yù)測(cè)資料進(jìn)行統(tǒng)計(jì)分析,以期得到影響本地氣候的關(guān)鍵性因子、不同環(huán)流場(chǎng)的關(guān)鍵性區(qū)域、以及指數(shù)和環(huán)流影響本地的關(guān)鍵性時(shí)段。在氣候系統(tǒng)變化的物理過(guò)程和研究尚存在許多的“盲點(diǎn)”的情況下,目前的預(yù)測(cè)方法還不能充分利用這些龐大的數(shù)據(jù)資源,僅能使用其中的一小部分,可能對(duì)大的氣候系統(tǒng)是重要因子,而對(duì)于局地的氣候特征而言,卻不一定是關(guān)鍵性因子,這就難免存在預(yù)測(cè)分析中“取輕略重”的情況,從而導(dǎo)致預(yù)測(cè)中不確定性增加而預(yù)測(cè)準(zhǔn)確率下降的情況。因此,借助決策樹等機(jī)器學(xué)習(xí)技術(shù),充分從浩瀚的數(shù)據(jù)中挖掘出全面而又有價(jià)值的信息,藉此找到影響本地氣候的主要系統(tǒng)和協(xié)同影響機(jī)制,對(duì)提高本地的氣候預(yù)測(cè)準(zhǔn)確率有極大作用。 在實(shí)際的預(yù)測(cè)業(yè)務(wù)中,不只需要對(duì)區(qū)域的整體趨勢(shì)進(jìn)行預(yù)測(cè),需要對(duì)空間分布型進(jìn)行分析,對(duì)旱澇中心及發(fā)生部位等進(jìn)行預(yù)測(cè)。因此在上一節(jié)對(duì)全市平均建模的基礎(chǔ)上,本節(jié)針對(duì)重慶34個(gè)國(guó)家氣象觀測(cè)站采用隨機(jī)森林進(jìn)行預(yù)測(cè),在環(huán)流指數(shù)的選取上,由于實(shí)際的夏季預(yù)測(cè)發(fā)布時(shí)間在3月,此時(shí)所能獲取的環(huán)流因子只能到2月,因此本文采用隨機(jī)森林進(jìn)行預(yù)測(cè)時(shí),只采用前期冬季的海溫指數(shù)建模,過(guò)程中不考慮變量的分布條件、交互作用、非線性作用,甚至缺失值等約束條件。圖5是2011—2018年歷年隨機(jī)森林降水預(yù)測(cè)分布以及實(shí)況降水距平率分布圖。 表5 2011—2018年隨機(jī)森林夏季降水與業(yè)務(wù)發(fā)布預(yù)報(bào)對(duì)比表Table 5 Comparison of random forest summer precipitation and operational forecast from 2011 to 2018 從圖5可以看出,2011—2018年重慶市夏季降水沒(méi)有出現(xiàn)一致性偏多或者偏少,均為空間分布有差異的情況,這也為預(yù)測(cè)增加了難度,對(duì)比預(yù)測(cè)與實(shí)況,8 a的總體趨勢(shì)預(yù)測(cè)均較為準(zhǔn)確,僅2011年和2015年空間分布略有差異外,其余年份在區(qū)域預(yù)測(cè)上都相對(duì)準(zhǔn)確。由于預(yù)測(cè)采用二分趨勢(shì)預(yù)測(cè),不能精細(xì)化的異常預(yù)測(cè),所以在檢驗(yàn)中預(yù)測(cè)結(jié)果分別以20%和-20%采用PS、CC和PC檢驗(yàn)方法進(jìn)行檢驗(yàn)。檢驗(yàn)結(jié)果如表5。 2014年以前,發(fā)布預(yù)報(bào)僅有6個(gè)代表站的質(zhì)量評(píng)分,2014年預(yù)測(cè)業(yè)務(wù)調(diào)整后,重慶34個(gè)站均參與發(fā)布預(yù)報(bào)質(zhì)量評(píng)分,因此發(fā)布預(yù)報(bào)質(zhì)量的開(kāi)始年份為2014年。從表5可以看出,隨機(jī)森林預(yù)測(cè)得分較高且較為穩(wěn)定,2014—2018年平均PS、CC和PC評(píng)分分別是84.6、0.27和67.1,相比于發(fā)布預(yù)報(bào)的72.4、-0.12和52.9,均有明顯提高,從歷年對(duì)比看,PS和PC評(píng)分較為一致,2016、2017年與發(fā)布預(yù)報(bào)大致相當(dāng),其余年份都比發(fā)布預(yù)報(bào)偏高20分左右。對(duì)于表征預(yù)報(bào)場(chǎng)和實(shí)況場(chǎng)的相關(guān)程度的CC評(píng)分更是明顯優(yōu)于發(fā)布預(yù)報(bào),并且除2015年外,均超過(guò)95%的顯著性檢驗(yàn),反觀發(fā)布預(yù)報(bào),CC評(píng)分多為負(fù),這說(shuō)明預(yù)測(cè)分型上還有待提高。 通過(guò)對(duì)影響重慶夏季旱澇的降水異常預(yù)測(cè)建立基于多因子的決策樹模型,并進(jìn)行隨機(jī)森林集成及檢驗(yàn)。主要結(jié)論如下: (1)影響重慶夏季降水的同期環(huán)流指數(shù)中,西太平洋副高脊線是非常重要的影響因子,如果只考慮該因子進(jìn)行降水異常趨勢(shì)預(yù)測(cè),2011—2018年中共有5 a預(yù)測(cè)準(zhǔn)確,考慮印度副高面積和登錄臺(tái)風(fēng)的共同影響,則8a趨勢(shì)均可預(yù)測(cè)準(zhǔn)確,趨勢(shì)一致率提高37.5%;考慮前冬多個(gè)海溫因子共同作用的情況時(shí),8 a降水異常趨勢(shì)預(yù)測(cè)均正確,比只考慮大西洋經(jīng)向模海溫單因子的情況提高12.5%。這表明季節(jié)降水異常預(yù)測(cè)中,需要分析系統(tǒng)中各個(gè)部分的特征與關(guān)系,也必須研究多個(gè)部分的相互作用。采用決策樹進(jìn)行多因子協(xié)同影響模型能有效提高預(yù)測(cè)準(zhǔn)確率,在氣候系統(tǒng)機(jī)理分析等研究方面也有應(yīng)用前景。 (2)用隨機(jī)森林模型預(yù)測(cè)重慶2014—2018年的夏季降水異常趨勢(shì),PS、CC和PC評(píng)分均高于發(fā)布預(yù)報(bào)質(zhì)量,且質(zhì)量較為穩(wěn)定。結(jié)果表明,實(shí)際夏季降水異常預(yù)測(cè)業(yè)務(wù)中采用隨機(jī)森林模型是可行的。大多數(shù)情況下,模型的默認(rèn)參數(shù)即可給出最優(yōu)模擬結(jié)果,無(wú)需進(jìn)行繁瑣的參數(shù)調(diào)整。 本文在利用決策樹和隨機(jī)森林對(duì)重慶夏季降水進(jìn)行預(yù)測(cè)建模時(shí),雖然模型預(yù)測(cè)效果較好,但現(xiàn)階段仍處于定性預(yù)測(cè)階段,還沒(méi)有開(kāi)展定量的預(yù)測(cè)建模研究。作者將在后續(xù)的研究和業(yè)務(wù)中增加對(duì)多因子協(xié)同、多系統(tǒng)融合以及多模式集合技術(shù)的研發(fā),并對(duì)重慶地區(qū)夏季旱澇的多種影響因素作進(jìn)一步的分析,從而為提高該區(qū)域旱澇短期氣候預(yù)測(cè)水平提供更多的依據(jù)和線索。2 夏季旱澇預(yù)測(cè)試驗(yàn)結(jié)果與分析
2.1 決策樹模型檢驗(yàn)
2.2 隨機(jī)森林模型在夏季的預(yù)測(cè)試驗(yàn)
3 結(jié)論