陳民瑞,黃偉軍
(1.澳門(mén)科技大學(xué)創(chuàng)新工程學(xué)院,澳門(mén) 999078;2.成都大學(xué)建筑與土木工程學(xué)院,四川 成都 610106)
四川省位于長(zhǎng)江上游,由四川盆地和川西高原山地兩大部分組成,處于亞熱帶區(qū)域,由于地形和不同季風(fēng)環(huán)流的交替影響,氣候復(fù)雜多樣,導(dǎo)致洪澇災(zāi)害在四川多有發(fā)生且造成的損失巨大。Jim 等人[1]對(duì)洪水災(zāi)害風(fēng)險(xiǎn)的研究指出,降雨量和降雨頻次是洪水災(zāi)害風(fēng)險(xiǎn)的主要影響因素。從整個(gè)致災(zāi)系統(tǒng)而言,杜華明等人[2]認(rèn)為大氣環(huán)流、降水量、地形地貌、河網(wǎng)水系是影響川滇地區(qū)主汛期暴雨洪水災(zāi)害的主要因素,人類(lèi)活動(dòng)對(duì)區(qū)域下墊面性質(zhì)的改變,是加劇暴雨洪水災(zāi)害的觸動(dòng)因素。類(lèi)似的研究中[3,4],暴雨洪澇災(zāi)害監(jiān)測(cè)與評(píng)估的應(yīng)用普遍局限于使用單一的標(biāo)準(zhǔn)化降水指數(shù)作為標(biāo)準(zhǔn),而忽視了其他氣候監(jiān)測(cè)指數(shù)等因子對(duì)暴雨洪澇災(zāi)害的影響。在單場(chǎng)或多場(chǎng)洪水的分析中,或者僅僅尋找事物發(fā)生的機(jī)理,這種分析方法或手段無(wú)可厚非,但如果從長(zhǎng)期及大范圍洪澇災(zāi)害的預(yù)防和控制而言,氣象因子的綜合影響極其復(fù)雜,有必要增加盡可能多的關(guān)聯(lián)信息[5],以期提高預(yù)測(cè)能力。目前,氣象部門(mén)提供的氣候系統(tǒng)監(jiān)測(cè)指數(shù)(氣象因子)產(chǎn)品中包含有132 種,在不考慮其他因素(或者進(jìn)行歸一化處理)前提下,其中哪些因子與洪水損失關(guān)聯(lián)最大,哪些信息可以充分利用,具有重要的研究?jī)r(jià)值和應(yīng)用價(jià)值[6,7]。本文根據(jù)1950—2020年四川省洪災(zāi)實(shí)測(cè)統(tǒng)計(jì)數(shù)據(jù),基于雙指標(biāo)災(zāi)害評(píng)價(jià)體系對(duì)132 個(gè)氣候系統(tǒng)監(jiān)測(cè)指數(shù)與災(zāi)害因子用皮爾遜法和HDBSCAN 聚類(lèi)法進(jìn)行分析,進(jìn)而研究影響四川省洪災(zāi)的主要?dú)夂虮O(jiān)測(cè)指數(shù)。
洪水災(zāi)害的受襲對(duì)象主要包括人口、建筑物、基礎(chǔ)設(shè)施、工礦企業(yè)等內(nèi)容,不同部門(mén)統(tǒng)計(jì)的對(duì)象和口徑并不一致。一般而言,人口密度高、地均GDP 高、財(cái)產(chǎn)價(jià)值高的區(qū)域遭受洪水災(zāi)害時(shí)造成的經(jīng)濟(jì)損失相對(duì)較高,人員傷亡也較大。為方便起見(jiàn),本文所有洪災(zāi)損失統(tǒng)計(jì)指標(biāo)樹(shù)圍繞的都是受災(zāi)人口和經(jīng)濟(jì)損失兩個(gè)主題,并選擇這兩類(lèi)指標(biāo)來(lái)表示洪水災(zāi)害度。其中,受災(zāi)人口以受災(zāi)害人口數(shù)和死亡人口數(shù)2 個(gè)指標(biāo)表示;經(jīng)濟(jì)損失用直接經(jīng)濟(jì)損失、倒塌房屋量(固定資產(chǎn)損失)和農(nóng)作物受災(zāi)面積3 個(gè)指標(biāo)表示。另外,分析發(fā)現(xiàn)受災(zāi)人口和直接經(jīng)濟(jì)損失2 個(gè)指標(biāo)受社會(huì)經(jīng)濟(jì)發(fā)展的影響大,需要采用相對(duì)值表示,即(受災(zāi)人口數(shù))/(當(dāng)年社會(huì)人口總數(shù))和(直接經(jīng)濟(jì)損失)/(當(dāng)年國(guó)民生產(chǎn)總值)。為了簡(jiǎn)化計(jì)算,本文選取5 個(gè)指標(biāo)中的(受災(zāi)人口數(shù))/(當(dāng)年社會(huì)人口總數(shù))和(直接經(jīng)濟(jì)損失)/(當(dāng)年國(guó)民生產(chǎn)總值)作為洪災(zāi)中評(píng)價(jià)受災(zāi)人口和經(jīng)濟(jì)損失的量綱,并把(受災(zāi)人口數(shù))/(當(dāng)年社會(huì)人口總數(shù))稱(chēng)為人口損失比,(直接經(jīng)濟(jì)損失)/(當(dāng)年國(guó)民生產(chǎn)總值)稱(chēng)為經(jīng)濟(jì)損失比,統(tǒng)稱(chēng)為兩類(lèi)洪水災(zāi)害損失因子。此外,各部門(mén)災(zāi)害統(tǒng)計(jì)中還有間接洪災(zāi)損失指標(biāo),但該指標(biāo)受社會(huì)、經(jīng)濟(jì)和人為因素干擾過(guò)大,不同部門(mén)統(tǒng)計(jì)成果差異較大,因此不予采用。
綜上,從《四川省統(tǒng)計(jì)年鑒》中摘錄到1978—2020年四川省GDP 和人口總量數(shù)據(jù)(其中因重慶市1997年直轄,從四川省剔除,相關(guān)數(shù)據(jù)亦作相應(yīng)處理),同時(shí)從《中國(guó)統(tǒng)計(jì)年鑒1986》中摘錄到1949—1990年中國(guó)人口總量和社會(huì)生產(chǎn)總值,對(duì)少量空缺值的日曲線分別依據(jù)數(shù)據(jù)特征采用滑動(dòng)均值或最相似曲線匹配等方法進(jìn)行數(shù)據(jù)填充,將四川省人口總量和GDP 序列延長(zhǎng)至1950年,再將其與對(duì)應(yīng)災(zāi)害指標(biāo)相比,得到受災(zāi)人口數(shù)和直接經(jīng)濟(jì)損失的相對(duì)指標(biāo)。
由于1950—2000年的統(tǒng)計(jì)數(shù)據(jù)為年數(shù)據(jù),而2001—2020年的數(shù)據(jù)是月數(shù)據(jù),故將2001—2020年的240 組數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后進(jìn)行K-S 正態(tài)檢驗(yàn),得到顯著性水平為0.057,即可認(rèn)為統(tǒng)計(jì)數(shù)據(jù)符合正態(tài)分布,之后將1950—2000年的年統(tǒng)計(jì)數(shù)據(jù)按照標(biāo)準(zhǔn)正態(tài)分布分解成月統(tǒng)計(jì)數(shù)據(jù)。
洪災(zāi)兩類(lèi)指標(biāo)經(jīng)可信度分析后,處于不同區(qū)間,為消除量綱影響,便于分析和比較,則需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,使指標(biāo)數(shù)據(jù)處于同一區(qū)間。
數(shù)據(jù)標(biāo)準(zhǔn)化實(shí)質(zhì)是將數(shù)據(jù)按比例縮放,使其落入一個(gè)小的特定區(qū)間中,常用的方法有最小-最大標(biāo)準(zhǔn)化、零均值標(biāo)準(zhǔn)化、小數(shù)定標(biāo)標(biāo)準(zhǔn)化等方法。文中采用最小-最大標(biāo)準(zhǔn)化原則將數(shù)據(jù)壓縮到[0,1]閉區(qū)間,計(jì)算公式:
式中:i=1,2 為兩類(lèi)指標(biāo);k為每類(lèi)指標(biāo)中樣本個(gè)數(shù);x′ik為標(biāo)準(zhǔn)化后的值;xik為數(shù)據(jù)的原值;max(xik)為數(shù)據(jù)集里面的最大值;min(xik)為數(shù)據(jù)集里面的最小值。
皮爾遜相關(guān)系數(shù)廣泛用于度量?jī)蓚€(gè)變量之間的線性相關(guān)程度,其值介于-1~1 之間,在眾多領(lǐng)域里得到了廣泛應(yīng)用[8]。本文將皮爾遜相關(guān)系數(shù)用于評(píng)價(jià)氣候系統(tǒng)監(jiān)測(cè)指數(shù)(氣象因子)與洪水災(zāi)害因子之間的相關(guān)性,可以定性定量地對(duì)其相關(guān)程度進(jìn)行度量,進(jìn)而可得出影響四川省洪災(zāi)的主要?dú)庀笠蜃印?/p>
另,由于洪澇災(zāi)害主要發(fā)生在5—9月,其中7,8月是峰值期,將洪災(zāi)損失按正態(tài)分布均化,將人口損失比和經(jīng)濟(jì)損失比從年數(shù)據(jù)轉(zhuǎn)換為月數(shù)據(jù),使之與月氣象因子數(shù)據(jù)分布保持一致。
兩個(gè)變量之間的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量的協(xié)方差除以標(biāo)準(zhǔn)差的乘積[9],計(jì)算公式:
式中:r為皮爾遜相關(guān)系數(shù)的值;i= 1,2,…,840為1950年1月—2020年12月共計(jì)840 個(gè)月的月份值;Xi為132 個(gè)氣象因子在i月的對(duì)應(yīng)值;Xavg為132 個(gè)氣象因子在840 個(gè)月中的平均值;Yi為兩個(gè)災(zāi)害指標(biāo)在i月的對(duì)應(yīng)值;Yavg為兩個(gè)災(zāi)害指標(biāo)在840 個(gè)月中的平均值。
取兩個(gè)皮爾遜相關(guān)系數(shù)的平均值大于0.5 的為強(qiáng)相關(guān),平均值小于-0.5 的為負(fù)強(qiáng)相關(guān)。計(jì)算得出的相關(guān)氣象因子如圖1所示。其中,編號(hào)1,2,……,16,分別對(duì)應(yīng)北半球副熱帶高壓指數(shù)、北非副熱帶高面積指數(shù)、北非-北大西洋-北美副熱帶高壓指數(shù)、北美副熱帶高面積指數(shù)、大西洋副熱帶高面積指數(shù)、北美-大西洋副熱帶高壓區(qū)域指數(shù)、北半球副熱帶高強(qiáng)度指數(shù)、北非副熱帶高強(qiáng)度指數(shù)、北非-北大西洋-北美副熱帶高強(qiáng)度指數(shù)、北美副熱帶高強(qiáng)度指數(shù)、北大西洋副熱帶高強(qiáng)度指數(shù)、北美-北大西洋副熱帶高強(qiáng)度指數(shù)、亞洲極渦強(qiáng)度指數(shù)、太平洋極渦強(qiáng)度指數(shù)、北半球極渦強(qiáng)度指數(shù)和北半球極渦中心強(qiáng)度指數(shù),即以上16 個(gè)氣象因子為皮爾遜相關(guān)性分析計(jì)算所得的相關(guān)氣象因子。
圖1 雙災(zāi)害指標(biāo)皮爾遜相關(guān)性分析計(jì)算結(jié)果圖
此外,由于不能確定得出的相關(guān)氣象因子是否可以用于預(yù)測(cè)四川省洪災(zāi)的發(fā)生,將上面得到的相關(guān)氣象因子與其前3 個(gè)月、前6 個(gè)月的雙災(zāi)害指標(biāo)用皮爾遜相關(guān)系數(shù)法進(jìn)行相關(guān)性分析,結(jié)果得出的相關(guān)氣象因子數(shù)目分別為16 和14 個(gè),所以可以認(rèn)為上面得出的相關(guān)氣象因子可以用于預(yù)測(cè)四川省洪災(zāi)的發(fā)生。
文中使用HDBSCAN聚類(lèi)算法,通過(guò)將DBSCAN算法轉(zhuǎn)換為分層聚類(lèi)算法,然后根據(jù)聚類(lèi)的穩(wěn)定性提取平面聚類(lèi),對(duì)DBSCAN 算法進(jìn)行了擴(kuò)展[10-12]。HDBSCAN 可以被認(rèn)為是以下步驟的組合。
1)計(jì)算數(shù)據(jù)集中所有數(shù)據(jù)對(duì)象在一個(gè)簇中的最小數(shù)量數(shù)據(jù)點(diǎn)(minPts)的核心距離。
2)計(jì)算完全圖的最小生成樹(shù)(MST)。
3)將完全圖視為加權(quán)圖,數(shù)據(jù)點(diǎn)作為加權(quán)圖的頂點(diǎn),將任意兩個(gè)數(shù)據(jù)點(diǎn)之間邊的權(quán)重作為兩點(diǎn)之間的相互可達(dá)度量距離,基于相互可達(dá)度量距離對(duì)MST 進(jìn)行擴(kuò)展,得到MSTest。
4)從MSTest 中提取HDBSCAN 層次結(jié)構(gòu)的樹(shù)狀圖。
為了得到樹(shù)狀圖的根,給所有的數(shù)據(jù)點(diǎn)賦予相同的標(biāo)簽(使其屬于同一“聚類(lèi)”)。之后迭代地從MSTest 中按權(quán)重遞減的順序刪除所有的邊。在每次刪除之前,樹(shù)狀圖將當(dāng)前層次的值作為要?jiǎng)h除的邊的權(quán)重。在每次刪除后,對(duì)包含被刪除邊端點(diǎn)的連接部分進(jìn)行重新分配標(biāo)簽。為得到下一個(gè)樹(shù)狀圖的層次,如果數(shù)據(jù)點(diǎn)仍有至少一條邊,就給它分配一個(gè)新的聚類(lèi)標(biāo)簽,否則就將它認(rèn)作是噪聲,最后得到聚類(lèi)結(jié)果。
1)數(shù)據(jù)來(lái)源和預(yù)處理
文中的數(shù)據(jù)源于1950—2020年間四川省洪災(zāi)實(shí)測(cè)統(tǒng)計(jì)數(shù)據(jù),以及132 個(gè)氣候系統(tǒng)監(jiān)測(cè)指數(shù),對(duì)少量空缺值的日曲線分別依據(jù)數(shù)據(jù)特征采用滑動(dòng)均值或最相似曲線匹配等方法進(jìn)行數(shù)據(jù)填充。
2)分析過(guò)程
首先,將標(biāo)準(zhǔn)化后的數(shù)據(jù)按照時(shí)間排序后,將氣候系統(tǒng)監(jiān)測(cè)指數(shù)和雙災(zāi)害指標(biāo)轉(zhuǎn)化為單一維度的時(shí)間序列向量,之后對(duì)其進(jìn)行HDBSCAN 聚類(lèi)分析,其中,參數(shù)設(shè)置為50,自動(dòng)分類(lèi)出不同相關(guān)值[13-15];最后,提取出不同數(shù)據(jù)所出現(xiàn)的不同相關(guān)值,之后對(duì)各數(shù)據(jù)在1950—2020年間內(nèi)出現(xiàn)的不同相關(guān)值及狀態(tài)變化模式繪制時(shí)序圖進(jìn)行判別。
對(duì)1950—2020年間的132 個(gè)氣候系統(tǒng)監(jiān)測(cè)指數(shù)和雙災(zāi)害指標(biāo)數(shù)據(jù),采用HDBSCAN 算法進(jìn)行聚類(lèi)分析。文中由上至下僅展示了1980年2月、1990年1月、2001年3月的HDBSCAN 聚類(lèi)圖,見(jiàn)圖2。
圖2 HDBSCAN 聚類(lèi)結(jié)果
此外,為了得出可以用于預(yù)測(cè)四川省洪災(zāi)發(fā)生的相關(guān)氣象因子,文中將132 個(gè)氣候系統(tǒng)監(jiān)測(cè)指數(shù)與其前3個(gè)月、前6個(gè)月的雙災(zāi)害指標(biāo)用HDBSCAN法進(jìn)行聚類(lèi)分析,最后計(jì)算得出的相關(guān)氣象因子分別為北半球副熱帶高面積指數(shù)、北非副熱帶高面積指數(shù)、北非-北大西洋-北美副熱帶高面積指數(shù)、北美-大西洋副熱帶高壓區(qū)域指數(shù)、北半球副熱帶高強(qiáng)度指數(shù)、北非副熱帶高強(qiáng)度指數(shù)、北非-北大西洋-北美副熱帶高強(qiáng)度指數(shù)、北美副熱帶高強(qiáng)度指數(shù)、北大西洋副熱帶高強(qiáng)度指數(shù)、北美-北大西洋副熱帶高強(qiáng)度指數(shù)、熱帶印度洋偶極子指數(shù)和南印度洋偶極子指數(shù)。
同基于皮爾遜相關(guān)系數(shù)方法得到的結(jié)果比較后得出,北非副熱帶高面積指數(shù)、北美副熱帶高面積指數(shù)、北美-大西洋副熱帶高壓區(qū)域指數(shù)、北半球副熱帶高強(qiáng)度指數(shù)、北非副熱帶高強(qiáng)度指數(shù)、北非-北大西洋-北美-副熱帶高壓區(qū)域指數(shù)、北美副熱帶高強(qiáng)度指數(shù)、北大西洋副熱帶高強(qiáng)度指數(shù)、北美-北大西洋副熱帶高強(qiáng)度指數(shù)是對(duì)四川洪災(zāi)影響較大的氣象因子。
為了驗(yàn)證所選因子的合理性,將其與四川省區(qū)域性暴雨過(guò)程進(jìn)行了對(duì)比。根據(jù)四川省的區(qū)域特征,將盆地和攀西地區(qū)的日降水量達(dá)到或超過(guò)50 mm、川西高原的日降水量達(dá)到或超過(guò)25 mm的定義為縣站暴雨日,若暴雨過(guò)程開(kāi)始期與結(jié)束期的暴雨縣站數(shù)不小于5,暴雨過(guò)程中總共出現(xiàn)的縣站數(shù)不小于15,即認(rèn)為出現(xiàn)了區(qū)域性暴雨過(guò)程。選取2010—2020年的132 個(gè)月間,四川省內(nèi)發(fā)生區(qū)域暴雨過(guò)程中標(biāo)準(zhǔn)化后的暴雨站數(shù)與標(biāo)準(zhǔn)化后對(duì)應(yīng)的氣象因子進(jìn)行比較,從中可以觀察到兩者的關(guān)聯(lián)性和趨勢(shì)性是比較明顯的,其有效性也將在后續(xù)的預(yù)測(cè)模型分析中得到進(jìn)一步的驗(yàn)證。
根據(jù)1950—2020年四川省洪災(zāi)實(shí)測(cè)統(tǒng)計(jì)數(shù)據(jù),選擇全省受災(zāi)人口、直接經(jīng)濟(jì)損失為災(zāi)害因子,根據(jù)皮爾遜相關(guān)性分析法和HDBSCAN 聚類(lèi)法,用雙重指標(biāo)對(duì)132 個(gè)氣候監(jiān)測(cè)指數(shù)進(jìn)行分析,可以得出在統(tǒng)計(jì)的132 個(gè)氣候系統(tǒng)監(jiān)測(cè)指數(shù)中,北非副熱帶高面積指數(shù)等9 個(gè)氣候系統(tǒng)監(jiān)測(cè)指數(shù)對(duì)四川洪災(zāi)的范圍和強(qiáng)度具有較強(qiáng)的影響。
通過(guò)使用HDBSCAN 聚類(lèi)法,不用人工選擇領(lǐng)域半徑R和最小距離K,只用選擇最小生成類(lèi)簇的大小,算法可以自動(dòng)地推薦最優(yōu)的聚類(lèi)結(jié)果。同時(shí)定義了一種新的距離衡量方式,可以更好地反映點(diǎn)的密度,因此,借助計(jì)算機(jī)系統(tǒng)利用該方法可以迅速且準(zhǔn)確地確定影響四川省洪災(zāi)的主要?dú)庀笠蜃?,并且可以廣泛地應(yīng)用于相關(guān)領(lǐng)域。
由于從氣象因子到區(qū)域性暴雨過(guò)程再到洪災(zāi)損失,是一條非常復(fù)雜的因果鏈,無(wú)論是用統(tǒng)計(jì)方法,還是用人工智能等新技術(shù),只能概化地反映其中的關(guān)聯(lián)程度,而不能對(duì)某一場(chǎng)具體的洪災(zāi)進(jìn)行分析。或者說(shuō),某一場(chǎng)具體的洪水和洪災(zāi),可以通過(guò)當(dāng)時(shí)監(jiān)測(cè)到的氣象要素,比如西太平洋副高的強(qiáng)度、面積、脊線位置、西伸脊點(diǎn)位置,太陽(yáng)黑子活動(dòng)數(shù),NINO3.4 區(qū)海溫距平指數(shù)等,對(duì)雨洪趨勢(shì)的形成和發(fā)展過(guò)程進(jìn)行分析,但對(duì)于中長(zhǎng)期的預(yù)測(cè)預(yù)報(bào)卻力有不逮。本文嘗試在一個(gè)很大的范圍內(nèi)尋找有效的強(qiáng)關(guān)聯(lián)因子,并為試圖建立概化的預(yù)測(cè)模型做準(zhǔn)備,可以看作是一種十分有益的探索。