牟鳳云,楊猛,林孝松,龍秋月,李夢梅,何勇
(重慶交通大學建筑與城市規(guī)劃學院,重慶400074)
山區(qū)地形地貌復雜、氣候多變等諸多因素導致洪水災(zāi)害頻頻發(fā)生,如何有效預(yù)防洪水災(zāi)害是亟待解決的問題。大數(shù)據(jù)已應(yīng)用于各大學科領(lǐng)域,而機器學習具有多學科、多領(lǐng)域、多算法等優(yōu)勢,能有效地挖掘大數(shù)據(jù)潛在的信息,其中,隨機森林模型(RF)、K-means聚類模型、自回歸滑動模型(ARMA)等已廣泛應(yīng)用于大數(shù)據(jù)平臺[1]。加上山區(qū)地貌類型復雜、流域單元數(shù)據(jù)量大等特性,利用機器學習能夠有效預(yù)測出山區(qū)洪水演變規(guī)律,實現(xiàn)山區(qū)洪水災(zāi)害防治與預(yù)警。
已有研究中,在模型運用方面,胡勝等[2]、吳裕珍等[3]采用SWAT模型利用CFSR氣象數(shù)據(jù)對小流域進行水文模擬,以及對降雨-徑流水質(zhì)進行研究,并做出適用性評價;劉志方等[4]、顧西輝等[5],利用突變檢驗方法構(gòu)建小氣候?qū)α饔虍a(chǎn)流與匯流研究以及降雨-徑流關(guān)系,通過水文綜合模擬系統(tǒng)(HIMS)考慮流域產(chǎn)流、匯流、蒸發(fā)、下滲等水循環(huán)過程;理論研究方面,現(xiàn)有研究表明,降雨是導致滑坡主要因素,降雨[6-10]導致植被覆蓋較少、坡度較陡等區(qū)域滑坡泥石流發(fā)生。文獻[11-12]結(jié)合多方面因素研究洪水災(zāi)害,進行洪水災(zāi)害風險評估。以上學者研究,多在于數(shù)理統(tǒng)計與規(guī)律總結(jié),將研究結(jié)果進行空間表達方面有待研究,且在機器學習方面有待結(jié)合。本文針對山區(qū)降雨-徑流演變所涉及的水文參數(shù)大數(shù)據(jù),引入機器算法進行數(shù)據(jù)挖掘與統(tǒng)計分析,并結(jié)合多學科進行地理空間信息可視化分析。
以巫山縣為研究對象,首先,選取機器學習RF、K-means與ARMA算法模型,對研究區(qū)降雨-徑流演變過程所形成的12 369個子河段,共計500條河流。進行水文參數(shù)關(guān)系擬合,并利用GIS技術(shù),進行水文參數(shù)空間信息表達;再者,結(jié)合研究區(qū)地理環(huán)境、土壤類型、土地利用類型等指標,多方面探討機器學習算法在山區(qū)降雨-徑流模擬過程實用性。最后,綜合機器學習優(yōu)勢和研究區(qū)地理環(huán)境特性,運用算法進行研究區(qū)洪水災(zāi)害分析,最終研究結(jié)果可為區(qū)域洪水災(zāi)害防治、公路洪災(zāi)預(yù)警提供科學依據(jù)。
巫山縣位于重慶市東北部,與湖北接壤,地處三峽庫區(qū)腹心,地理坐標介于30°46′-31°28′N,109°33′-110°11′E之間。截至2017年底,戶籍人口63萬,共24個鄉(xiāng)鎮(zhèn);巫山縣屬亞熱帶季風氣候,降雨充沛,四季分明,年平均溫度在18.4 ℃左右,年均降雨量高達1 041 mm;山區(qū)溪河眾多,常年因降雨致使洪水災(zāi)害頻發(fā)。地形地貌類型復雜,屬典型的喀斯特地貌,地形起伏大,最高海拔達2 698 m,最低海拔僅63 m。2015年4月,巫山縣11個鄉(xiāng)鎮(zhèn)遭受不同程度洪水災(zāi)害,農(nóng)作物受災(zāi)面積達100 hm2,直接經(jīng)濟損失100余萬元;2017年7月,巫山縣發(fā)生暴雨洪水災(zāi)害,降雨量達175 mm以上,官陽鎮(zhèn)、紅椿鄉(xiāng)等鄉(xiāng)鎮(zhèn)發(fā)生不同程度洪水災(zāi)害。
機器學習為人工智能核心算法,涉及多學科領(lǐng)域,具有自動組織和模擬功能,廣泛應(yīng)用于數(shù)據(jù)統(tǒng)計、資產(chǎn)評估預(yù)測等多方面[12-13]。常見的機器學習算法為監(jiān)督學習、非監(jiān)督學習、深度學習3類。監(jiān)督學習算法中,神經(jīng)網(wǎng)絡(luò)、決策樹算法最為經(jīng)典,常見的模型有隨機森林模型、線性回歸模型等,K-means聚類算法模型在非監(jiān)督學習算法最為常用,深度學習中馬爾可夫鏈研究較多。
水文參數(shù)信息提取提取過程中,產(chǎn)生大量河段數(shù)據(jù),需要進行有效、精準的分類,而隨機森林模型剛好具備數(shù)據(jù)精準分類特性,不僅能夠?qū)⒋罅繑?shù)據(jù)河段數(shù)據(jù)進行分類,還能進行水文參數(shù)重要性預(yù)測;研究區(qū)提取的12 369條河段,出現(xiàn)大量數(shù)據(jù)冗余,而在機器學習算法模型中,K-mean模型具有去除冗余數(shù)據(jù)特性。選取K-mean算法對研究區(qū)河段數(shù)據(jù)進行聚類,去除冗余值;在研究降雨-徑流演變過程中,由于不同時刻降雨量不同,水文參數(shù)變化率存在著差異,而ARMA模型能夠有效地在時間序列上預(yù)測數(shù)據(jù)變動情況,故選取ARMA模型進行降雨-徑流時間序列預(yù)測。
1)隨機森林模型Random Forest(RF)[12-13]。RF模型為各類決策樹算法總和,而決策樹可為大數(shù)據(jù)統(tǒng)計分類提供有效、精準的分類算法。鑒于此,結(jié)合RF模型,對研究區(qū)降雨-徑流水文參數(shù)統(tǒng)計數(shù)據(jù),進行數(shù)據(jù)挖掘,獲取每一河段預(yù)測值,通過預(yù)測值進行河段分類,最終擬合出最為精確降雨-徑流關(guān)系式,并以此預(yù)測山區(qū)洪水致災(zāi)范圍。
2)K-means模型[14-16]。K-means模型以特定距離對統(tǒng)計數(shù)據(jù)進行硬性聚類,在大數(shù)據(jù)分析中廣泛運用。該算法基本思路為:將降雨-徑流獲取的水文參數(shù)中作為K個樣本,在n個河段中進行分類。K-means模型的運用,能夠減少數(shù)據(jù)冗余值,得到有效的研究參數(shù)。
3)ARMA模型[15-16]。時間序列ARMA模型為滑動自回歸模型,該模型將回歸分析與滑動平均模型相結(jié)合,能夠有效地預(yù)測數(shù)據(jù)變動情況。結(jié)合該模型特性,將不同河段編號作為時間序列,以RF模型、K-means模型和水文參數(shù)量化指標為回歸預(yù)測值,在不同降雨強度下對降雨-徑流進行時間序列預(yù)測分析。
受氣候、下墊面、人類活動等因素影響,部分區(qū)域不會直接形成徑流,需經(jīng)下滲、填洼、蒸發(fā)等匯流過程形成,徑流地理環(huán)境特性,使其流速、水位變化存在差異。在理想條件下,綜合國內(nèi)外雨洪計算方法[13-16],基于天然河道匯流平均速度與出水口斷面平均流速公式,聯(lián)立曼寧公式在天然河道構(gòu)建的平均流速計算公式[15-18],考慮巖石、植被、泥沙等因素對山區(qū)河流的阻礙作用以及流域匯流累計量的折減效應(yīng)(匯流參數(shù));山區(qū)河網(wǎng)密集錯綜復雜,基于DEM提取的河網(wǎng)雖有等級信息卻缺乏高程變化,然而河流比降卻能反映河流的高程變化,即利用河流比降來表示河流縱斷面高程變化。河流比降的表示與坡度相同,其關(guān)系式為河流軸線河底或水面的高程與該河流長度的比值,考慮到山區(qū)地形地貌因素,將河流劃分為若干個子河段求取平均比降;結(jié)合研究區(qū)地形地貌、流域地理環(huán)境和土地利用等因素,確定河段阻礙系數(shù)并通過研究區(qū)12 369條河流進行關(guān)系擬合,擇取機器學習算法模型,研究降雨-徑流演變規(guī)律,并擬合水文參數(shù)之間關(guān)系。
綜合考慮山區(qū)地理環(huán)境特性,確定研究區(qū)地形地貌、河流比降、山區(qū)河流阻礙系數(shù)(糙率)、匯流參數(shù)、土壤特性、植被覆蓋等為流域環(huán)境指標,降雨強度(流速、水位、流量)、徑流系數(shù)、匯流參數(shù)等為水文參數(shù)指標?;贕IS技術(shù),以研究區(qū)分辨率為30 m DEM數(shù)據(jù),進行水文參數(shù)信息提取,并以流域匯流累積流量為河流等級劃分依據(jù),擇取柵格單元2 000流量將河流劃分為6個等級,進而計算出匯流累計量、小流域等水文信息;選取2015年夏季研究區(qū)OIL遙感影像,對其進行植被覆蓋和土地利用類型信息提取。研究涉及水文參數(shù)經(jīng)驗公式,其理論與推導來源于國內(nèi)外經(jīng)驗公式,氣象水文數(shù)據(jù)來源于巫山縣觀測站點。
需要對通過機器學習算法模型預(yù)測出的結(jié)果進行精度驗證。巫山縣共52個觀測站點,由于預(yù)測河段樣本數(shù)量較大,且每個站點能夠統(tǒng)計到100以上條河段實際數(shù)據(jù)。在研究區(qū)中進行均勻選取,并能夠覆蓋整個河段觀測站點,最終選出10個站點進行結(jié)果驗證。以實測數(shù)據(jù)為標準進行預(yù)測結(jié)果對比驗證(圖1)。驗證結(jié)果顯示:預(yù)測數(shù)據(jù)與實測數(shù)據(jù)整體上基本吻合,部分數(shù)據(jù)存在偏差現(xiàn)象;流速與水位預(yù)測結(jié)果準確性比預(yù)測流速高,相較于流速與流量預(yù)測結(jié)果,水位預(yù)測準確性最高。
降雨-徑流演變包含地形地貌、降雨強度、土壤特征、植被覆蓋以及水庫湖泊調(diào)節(jié)等諸多因素,擇取機器學習算法RF模型、K-means模型與ARMA模型,進行研究區(qū)降雨-徑流水文參數(shù)擬合,探究降雨-徑流演變規(guī)律,測定參數(shù)結(jié)果如表1所示。以研究區(qū)12 369條河段為研究對象,通過RF模型進預(yù)測統(tǒng)計,結(jié)合RF模型與K-means算法模型,進行徑流水文參數(shù)分類統(tǒng)計,擬合河段數(shù)量與河流等級關(guān)系。統(tǒng)計結(jié)果中,不同等級徑流流速、水位變化有所差異,降雨閾值為25、75、125、200 mm流速、水位擬合結(jié)果最好。
不同降雨強度閾值下,水文參數(shù)隨河流等級、徑流曲線數(shù)(CN)、河流阻礙系數(shù)不同而隨之發(fā)生變化,從圖2(a)河流等級相對流速變化可以看出,隨著河流等級增加,流速變化率整體上呈現(xiàn)下降趨勢,且降雨強度越大,等級較低河流變化幅度越大;1~3級河流變化幅度最大,降雨量在25~75 mm區(qū)間,其變化幅度最小,降雨75~200 mm,等級變化相對集中;預(yù)測結(jié)果中,變化最為劇烈的為2~4級河流。河流等級變化對河流流速變化預(yù)測較為客觀,需對研究區(qū)整體河流進行分類與預(yù)測,圖2(b)為巫山縣整體河流流速變化趨勢,在研究區(qū)6個等級河流中,流速變化主要為1~3等級河流,且降雨閾值為200 mm時,流速變化幅度最大;1~4等級河流中,部分區(qū)域流速突變顯著,由此可見,山區(qū)河流流速、水位變化率最為明顯。
圖1 巫山縣模型預(yù)測結(jié)果對比驗證圖Fig.1 Comparing and authenticating charts of prediction results of Wushan County
圖2 巫山縣不同降雨量下河流與河段流速趨勢變化預(yù)測Fig.2 Prediction of flow velocity trend of river and reach under different rainfall in Wushan County
預(yù)測結(jié)果中,土壤類型指標重要性最高,其中黃棕壤平均預(yù)測值達8 835,效應(yīng)值2 083,影響最為強,而水稻土與黃壤平均預(yù)測值為7 521,效應(yīng)值為1 368,影響力次之。而土壤類型在河流、潮土、石灰?guī)r、紫色土、裸巖平均預(yù)測值為6 581,效應(yīng)值為-170,影響力較低;土地利用類型中城鄉(xiāng)、工礦、居民用地、未利用地、耕地平均預(yù)測為6 751,效應(yīng)值為558,林地、水域、草地平均預(yù)測值5 865,效應(yīng)值為-327,可見林地、草地保水能力較強,對其水流阻礙能力也強,其預(yù)測值低于其他類型用地;當河流比降> 0.002時,平均預(yù)測值達8 134,效應(yīng)值為612。而當河道比降≤0.001時,平均預(yù)測值為5 539,效應(yīng)值為-1 438??梢?,河流比降預(yù)測重要性雖強,但效應(yīng)值卻很低;而分類預(yù)測結(jié)果中,25、125和200 mm流速預(yù)測結(jié)果最為精確,統(tǒng)計結(jié)果詳見表2。
表1 巫山縣山區(qū)河流參數(shù)統(tǒng)計表Table 1 Statistical tables of mountain rivers of Wushan County
表2 巫山縣不同降雨量的流速、水位、流量巫山縣RF模型預(yù)測結(jié)果Table 2 Prediction results of RF model of velocity, water level and discharge in Wushan County under different rainfall
降雨強度達100 mm及以上時,研究區(qū)流速發(fā)生明顯變化。而降雨強度在100~175 mm時,流速變化率度最快,且在降雨175 mm之后,變化幅度有所減緩;在降雨強度較少情況下,部分流域未能形成徑流,出現(xiàn)區(qū)域流速為零現(xiàn)象,降雨量小于25 mm時,流域流速變化率幾乎接近于零值,降雨強度在25~50 mm之間,研究區(qū)流速變化率逐漸變快,在50~75 mm之間,流速變化率略為增快;從12 369子河流流速變化曲線可以看出,降雨量在0~50 mm之間,徑流流速變化集中在0~10 m/s,且變化幅度較?。唤涤暝?0~100 mm,流速變化集中在10~20 m/s之間,變化幅度逐漸增強;降雨在100~200 mm之間,流速變化集中在20~40 m/s之間,變化幅度明顯增強;研究區(qū)流速整體上集中在0~40 m/s之間,其變化幅度逐漸增強。
徑流水位與流速變化趨勢整體相同,降雨強度閾值為125 mm時,水位發(fā)生明顯變化,降雨強度在150~175 mm區(qū)間,相較于同等雨量流速相比,水位變化更為強烈,而降雨在75~125 mm區(qū)間時,流速變化幅度大于水位;研究區(qū)水位變化集中在0~30 m之間,變化幅度相較于流速變化較小,但水位突變區(qū)域比流速突變區(qū)域多(集中區(qū)域模擬以外曲線即為突變區(qū)域);降雨強度在0~75 mm流速與水位變化基本相同,75~125 mm水位變化幅度大于流速,而降雨強度在125 mm之后,流速變化幅度則大于水位。
RF模型具有分類精度高、指標預(yù)測準確等特性。以研究區(qū)12 369條河段為研究對象,通過RF模型進行雨洪流量、流速、水位線性回歸關(guān)系擬合,進行不同降雨強度情景下流速、水位、流量關(guān)系擬合;再者,在不同降雨強度下,進行河流等級回歸擬合,最終顯著檢驗R2>0.94;最后,通過K-means聚類與RF統(tǒng)計分析結(jié)果,建立流速、水位、斷面流量之間轉(zhuǎn)換關(guān)系。RF模型指標重要預(yù)測結(jié)果中,河流比降、河流等級重要性較高,將其參數(shù)以時間散點為時間序列,通過ARMA模型參數(shù)預(yù)測結(jié)果進行對比分析。
從圖3可以得出,在不同降雨強度情況下,水位變化率最小,而流速變化率最為明顯。由此可見,水位變化更易引發(fā)洪水災(zāi)害,而流速變化,主要表現(xiàn)為構(gòu)筑物的沖擊效應(yīng)。
圖3 巫山縣山區(qū)河流量化關(guān)系擬合圖Fig.3 Fitting diagram of quantitative relationship of mountainous rivers of Wushan County
由于洪水災(zāi)害制災(zāi)因素在時間序列上存在變動情況,不同時間降雨量不同,導致水文參數(shù)變動情況不同。通過ARMA模型模擬水文參數(shù)在時間序列上的變化。根據(jù)水文參數(shù)在空間上排序為時間預(yù)測目標值,再以不同降雨強度下水文參數(shù)量化指標為回歸預(yù)測值,并對回歸殘差值進行處理,最終模擬出水文參數(shù)指標在時間序列上的回歸預(yù)測模型(圖4)。
圖4 巫山縣ARMA模型水文參數(shù)擬合圖Fig.4 Fitting of hydrological parameters based on ARMA model of Wushan County
巫山縣以山地、丘陵為主,然而河流比降受地形因素影響,河流等級卻受匯流累計量影響,因此回歸性較差;河流比降回歸值介于0.1~0.2之間,回歸性較好;河流等級回歸性較差區(qū)間為在0~0.8,其中0~2 000、8 000~12 000河段回歸擬合較好;通過ARMA模型分析,山區(qū)徑流比降、流量回歸擬合較好,流速、水位、河流等級變化幅度大;0~2 000、8 000~12 000段河流回歸性較好,且不同河段流速、水位、流量變化與河流等級相關(guān),等級較低河流,其水位、流速變化率最為快,而流量變化率卻無顯著變化。
ARMA模型擬合結(jié)果顯示(圖4),流速整體回歸值在0~0.4之間,在0~12 369條河段中,徑流流速變化幅度相較于水位變化較小,0~6 000條河段變化幅度較小,6 000~12 000條河流變化幅度較大;水位回歸值在0~0.8之間,整體變化幅度較大,在0~2 000、10 000~12 000河段變化幅度相對較小,2 000-8 000水位變化幅度較大;流量回歸變化相對于流速、水位變化幅度最小,0~6 000河流流量變化幅度較小,6 400~8 000變化幅度最大,8 000~12 000變化強度有所減弱;通過ARMA模型對研究區(qū)河流流速、水位、流量回歸模擬可知,流速、水位變化幅度較大,而流量變化幅度較小,可見山區(qū)洪水災(zāi)害主要為流速與水位作用所致。
巫山縣暴雨頻發(fā),引發(fā)的洪水災(zāi)害頻繁。根據(jù)山區(qū)河流洪水突發(fā)迅猛、地形地貌復雜等特性,擇取統(tǒng)計時間24h的實測雨量25、75、125、200 mm,以巫山縣12 369河段為研究對象,結(jié)合ArcGIS空間可視化技術(shù),通過RF、K-means與ARMA模型模擬結(jié)果進行空間可視化(圖5)。綜合得出,在不同降雨強度下,巫山縣流速水位主要集中在等級較高河流,而在山地區(qū)域,流速的空間變化更為劇烈,巫山縣中南部與西北部為洪水災(zāi)害頻發(fā)區(qū)域。
流速空間變化率圖5(a,b,c)可知,降雨強度臨近25 mm時,研究區(qū)內(nèi)徑流流速主要集中在中部及長江上游一帶變化,且變化幅度較小,而在西北部區(qū)域,部分徑流流速出現(xiàn)突變現(xiàn)象;當降雨強度增強至125 mm時,研究區(qū)整體流速主要集中在0~22 m/s之內(nèi),部分區(qū)域達46 m/s,且整體流速為25 mm流速一倍,南部地區(qū)流速有增強趨勢;降雨強度達200 mm時,即為大暴雨情景,流速變化明顯增強,部分區(qū)域流速達58 m/s,西北部、中南部流速明顯增強,且流速在20~58 m/s之間變化,洪水災(zāi)害發(fā)生可能性極大。
相較于流速變化率,水位變化率主要集中在長江及其西北地區(qū),圖5(d,e,f)可知,研究區(qū)徑流整體水位深度變化介于0~30 m之間;降雨強度越小,水位變化幅度越??;等級較低河流在降雨強度為25 mm時,水位幾乎無變化,主要變化區(qū)域集中在長江流域及水庫區(qū)域;當降雨強度增強至125 mm時,徑流水位發(fā)生明顯變化,變化區(qū)域主要集中在東北部與中南部,東北部徑流水位呈現(xiàn)上升趨勢,研究區(qū)徑流最高水位達20 m;降雨強度達200 mm時,南部與東北部水位明顯上升,整體水深升至降雨25 mm時水位一倍。根據(jù)站點統(tǒng)計數(shù)據(jù)與預(yù)測結(jié)果對比認證,以及研究區(qū)洪水災(zāi)害數(shù)據(jù)發(fā)生情況,綜合得出:當水位到達到1.2 m時,即降雨強度為125 mm時,研究區(qū)部分區(qū)域出現(xiàn)輕度洪水災(zāi)害:研究區(qū)水位升至10 m時,降雨強度介于125~175 mm之間,出現(xiàn)中度洪水災(zāi)害;當水位超過10 m時,降雨強度在175 mm以上時,研究區(qū)出現(xiàn)嚴重洪水災(zāi)害。
圖5 巫山縣流速、水位空間量化圖Fig.5 Spatial map of velocity and water level of Wushan County
通過RF、K-mean與ARMA等機器學習算法與模型,對研究區(qū)12 369條河段進行統(tǒng)計與分析,得出了其模型能夠精確的擬合出研究區(qū)水文參數(shù)流速、水文、流量之間轉(zhuǎn)換關(guān)系,并且有效預(yù)測出區(qū)域流速、水位變化率。結(jié)合GIS空間可視化技術(shù),對降雨-徑流水文參數(shù)空間可視化分析,綜合考慮研究區(qū)地理環(huán)境要素及孕災(zāi)環(huán)境,最終通過RF模型對研究區(qū)洪水致災(zāi)范圍進行精細預(yù)測。本文根據(jù)機器學習算法特性研究洪水災(zāi)害,由于洪水災(zāi)害制災(zāi)因素較多,本文選取指標不夠全面,只在數(shù)據(jù)分析與算法模型方面研究,后續(xù)研究將綜合更多制災(zāi)因素進行全面研究,選取更多適合洪水災(zāi)害研究的機器學習算法模型。研究主要結(jié)論如下:
1)研究區(qū)指標土壤類型重要性最高,其影響最為強烈,其次為土地利用類型、比降;降雨閾值為25、125、200 mm時,流速分類預(yù)測結(jié)果最為精確;通過RF模型與K-means算法模型對研究區(qū)流速與水位預(yù)測,降雨強度在100~175 mm時,流速變化幅度最為劇烈,降雨強度閾值達125 mm時,水位變化率最快,而降雨強度在150~175 mm之間時,水位變變化率最為明顯;在ARMA模型對研究區(qū)水文參數(shù)指標回歸分析中,河流比降、流量回歸性擬合最好,流速、水位、河流等級變化幅度最大,且不同河段流速、水位、流量變化率與河流等級相關(guān),等級較低徑流,其水位、流速變化最為明顯,而較低等級徑流,流量卻無顯著變化。
2)機器學習能夠有效擬合降雨-徑流參數(shù)關(guān)系,研究區(qū)流速、水位變化主要集中于等級較高河流,而在山區(qū),流速空間變化更為劇烈;研究區(qū)西北部、中南部流速、水位變化明顯,而當降雨強度增強至125 mm時,即在暴雨、大暴雨及以上情景,徑流水位變化率最為劇烈;東北部與中南部水位變化率最為明顯,預(yù)測水位最高水位達20 m。