陳 博,王 洋,黃 信,黃精濤
(東華理工大學(xué)水資源與環(huán)境工程學(xué)院,330013,南昌)
全國(guó)每年平均地質(zhì)災(zāi)害多達(dá)1.4萬(wàn)起,其中滑坡災(zāi)害約占災(zāi)害總數(shù)的70%(國(guó)土資源部,2010—2016),造成了巨大的人命財(cái)產(chǎn)和經(jīng)濟(jì)損失,滑坡已成為中國(guó)主要的地質(zhì)災(zāi)害類型之一??茖W(xué)有效地評(píng)價(jià)預(yù)測(cè)滑坡的易發(fā)性,可在一定程度上降低災(zāi)害帶來的損失。目前,常用的滑坡易發(fā)性評(píng)價(jià)模型包括:信息量模型、證據(jù)權(quán)模型(WEM)、層次分析法(AHP)、邏輯回歸模型(LRM)、隨機(jī)森林模型等[1-4],國(guó)外學(xué)者Wei等[5]通過LR模型和 RF 模型對(duì)比研究的方法開展滑坡危險(xiǎn)性評(píng)價(jià),驗(yàn)證結(jié)果顯示RF模型適用度高于LR模型;Zhao等[6]運(yùn)用旋轉(zhuǎn)森林(ROF)和RF模型對(duì)比開展巴東地區(qū)滑坡易發(fā)性研究,結(jié)果顯示 RF 模型精度更高;He等[7]選用RF算法對(duì)全球地震誘發(fā)的滑坡開展易發(fā)性研究,結(jié)果表明該模型適用性較好,有助于該類滑坡應(yīng)急響應(yīng)的研究。在國(guó)內(nèi),吳潤(rùn)澤等[8]運(yùn)用RF模型選取三峽庫(kù)區(qū)湖北段為研究區(qū)進(jìn)行易發(fā)性研究,結(jié)果顯示研究區(qū) 3/4左右區(qū)域位于較高和高易發(fā)區(qū);楊碩等[9]選取烏江地區(qū)滑坡為研究對(duì)象,運(yùn)用RF模型對(duì)其進(jìn)行易發(fā)性研究,并對(duì)評(píng)價(jià)結(jié)果開展了精度驗(yàn)證;管家琳等[10]運(yùn)用信息量模型與RF模型對(duì)比研究龍門鎮(zhèn)北部小流域的崩崗風(fēng)險(xiǎn),結(jié)果顯示RF模型具有較高的評(píng)估精度。一系列國(guó)內(nèi)外研究表明,隨機(jī)森林模型具有很強(qiáng)的非線性處理能力,且在處理大數(shù)據(jù)量、高維度數(shù)據(jù)方面具有很好的泛化能力,預(yù)測(cè)精度高,適合用于地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)中[11],但隨機(jī)森林模型存在分類精度受不平衡數(shù)據(jù)影響和投票平局造成算法停滯的問題[12],而信息量模型可以處理數(shù)據(jù)分布不平衡的問題。
因此,本文以江西省吉安市新干縣為例,建立基于信息量-隨機(jī)森林耦合模型進(jìn)行滑坡災(zāi)害易發(fā)性分區(qū)評(píng)價(jià),并通過信息量模型進(jìn)行對(duì)比分析,對(duì)評(píng)價(jià)結(jié)果使用ROC曲線進(jìn)行檢驗(yàn),其結(jié)果可為地方政府防災(zāi)減災(zāi)以及規(guī)劃建設(shè)提供科學(xué)依據(jù)。
地質(zhì)災(zāi)害數(shù)據(jù)來源于新干縣1/5萬(wàn)地質(zhì)災(zāi)害詳細(xì)調(diào)查,DEM數(shù)據(jù)來源于ALOS,分辨率為5 m;高程、坡度、坡向、平面曲率通過ArcGIS表面分析獲得;工程地質(zhì)巖組和道路來源于新干縣1/5萬(wàn)地質(zhì)災(zāi)害詳細(xì)調(diào)查中的MapGIS圖件。
控制滑坡形成的因素很多,包括基礎(chǔ)因素和人類工程活動(dòng)影響的誘發(fā)因素,因此滑坡易發(fā)性區(qū)劃是一個(gè)復(fù)雜的多元系統(tǒng)[13]。本次研究在野外調(diào)查成果的基礎(chǔ)上,從基礎(chǔ)因素和誘發(fā)因素兩個(gè)方面進(jìn)行滑坡易發(fā)性評(píng)價(jià)。充分考慮新干縣自然地理特征、資料的可獲得性、研究范圍大小及研究精度等要求,在保證評(píng)價(jià)有效性的前提下,選取高程、坡向、坡度、工程地質(zhì)巖組、距道路距離、平面曲率6個(gè)評(píng)價(jià)指標(biāo),作為滑坡易發(fā)性分區(qū)評(píng)價(jià)的評(píng)價(jià)指標(biāo)。
1)高程。高程是坡體內(nèi)應(yīng)力值大小的重要影響因素,應(yīng)力會(huì)隨著坡高的增加而增加,影響著坡體的勢(shì)能,從而影響坡體的穩(wěn)定性[14]。自然斜坡高程一般在50~150 m之間易發(fā)生滑坡,大于150 m易發(fā)生崩塌。
2)坡向。不同坡向與巖層傾向的空間組合關(guān)系不同,對(duì)斜坡的穩(wěn)定性有一定影響[15]。
3)坡度。坡度影響巖土體的天然應(yīng)力狀態(tài),導(dǎo)致自然斜坡形成不同的臨空面,從而形成的地質(zhì)災(zāi)害也不一樣。坡度一般在10°~45°之間易發(fā)生滑坡,大于45°易發(fā)生崩塌。
4)工程地質(zhì)巖組。工程地質(zhì)巖組是形成地質(zhì)災(zāi)害的物質(zhì)基礎(chǔ),其決定巖土體強(qiáng)度、應(yīng)力分布、變形破壞等特征等[16]。一般巖性質(zhì)地堅(jiān)硬、結(jié)構(gòu)完整的巖組,產(chǎn)生滑坡的可能性?。欢|(zhì)地松散、結(jié)構(gòu)破碎的巖組,產(chǎn)生滑坡的可能性大。
5)距道路距離。修建道路開挖坡腳、破壞坡面植被,改變斜坡應(yīng)力分布容易引發(fā)崩塌和滑坡地質(zhì)災(zāi)害[17]。
6)平面曲率。平面曲率是等高線彎曲程度的具體量化,其反映的是斜坡在水平方向上的地形變化率,對(duì)滑坡發(fā)育具有非常重要的影響。平面曲率影響滑坡的表面形態(tài)特征,進(jìn)而影響邊坡土地利用類型以及坡體結(jié)構(gòu)特征。
1.3.1 信息量模型 信息量模型(IVM)是把一定地質(zhì)環(huán)境下已經(jīng)發(fā)生變形破壞或可能存在變形破壞的的信息,通過統(tǒng)計(jì)分析的方法,計(jì)算各影響因素對(duì)研究對(duì)象所提供信息量大小的統(tǒng)計(jì)模型。信息量值越小,說明地質(zhì)災(zāi)害發(fā)生的可能性越??;反之信息量值越大,地質(zhì)災(zāi)害越可能發(fā)生[18]。對(duì)應(yīng)某種因素特定狀態(tài)下的地質(zhì)災(zāi)害信息量公式可表示為:
(1)
式中:IAj→B為對(duì)應(yīng)因素A在j狀態(tài)(或區(qū)間)下地質(zhì)災(zāi)害B發(fā)生的信息量;Nj為對(duì)應(yīng)因素A在j狀態(tài)(或區(qū)間)下地質(zhì)災(zāi)害分布的單元數(shù);N為調(diào)查區(qū)已知有地質(zhì)災(zāi)害分布的單元總數(shù);Sj為因素A在j狀態(tài)(或區(qū)間)分布的單元數(shù);S為為調(diào)查區(qū)單元總數(shù)。
由于每個(gè)評(píng)價(jià)單元受眾多因素的綜合影響,各因素又存在若干狀態(tài),各狀態(tài)因素組合條件下地質(zhì)災(zāi)害發(fā)生的總信息量可用公式(2)確定:
(2)
式中:I為對(duì)應(yīng)特定單元地質(zhì)災(zāi)害發(fā)生的總信息量;Ni為對(duì)應(yīng)特定因素在第i狀態(tài)(或區(qū)間)條件下的地質(zhì)災(zāi)害面積或地質(zhì)災(zāi)害點(diǎn)數(shù);N為調(diào)查區(qū)地質(zhì)災(zāi)害總面積或總地質(zhì)災(zāi)害點(diǎn)數(shù);Si為對(duì)應(yīng)特定因素在第i狀態(tài)(或區(qū)間)的分布面積;S為調(diào)查區(qū)總面積。
1.3.2 信息量-隨機(jī)森林耦合模型 隨機(jī)森林( RF )是由Breiman[19]首次提出機(jī)器學(xué)習(xí)中基于多個(gè)決策樹的分類智能算法。信息量-隨機(jī)森林耦合模型的總樣本由災(zāi)點(diǎn)與非災(zāi)點(diǎn)1:1構(gòu)成,其中總樣本信息為各評(píng)價(jià)指標(biāo)的信息量值,將總樣本再分為訓(xùn)練集與測(cè)試集,利用訓(xùn)練集生成決策樹模型,再將測(cè)試集代入決策樹模型中,得到分類結(jié)果,最后通過投票進(jìn)行預(yù)測(cè)分類。由于每顆決策樹的訓(xùn)練樣本及節(jié)點(diǎn)分裂屬性均為隨機(jī)選取,在一定程度上避免了模型的過擬合現(xiàn)象[20]。采用RF模型進(jìn)行分類預(yù)測(cè)的流程見圖1。
圖1 隨機(jī)森林(RF)模型分類預(yù)測(cè)流程圖
基于信息量-隨機(jī)森林耦合模型的評(píng)價(jià)模型先計(jì)算出每個(gè)樣本的信息量值,再利用 MATLAB軟件編好的RF代碼進(jìn)行訓(xùn)練,得到各指標(biāo)的客觀權(quán)重,再將各評(píng)價(jià)指標(biāo)專題圖和MATLAB軟件得到的權(quán)重值在 ArcGIS 10.5軟件經(jīng)加權(quán)總和工具進(jìn)行疊加,而信息量模型直接將各評(píng)價(jià)指標(biāo)專題圖的信息量疊加,得到2個(gè)模型全區(qū)的滑坡易發(fā)性圖。采用自然間斷點(diǎn)法將易發(fā)性區(qū)域劃分為5個(gè)等級(jí),分別為低易發(fā)區(qū)、較低易發(fā)區(qū)、中易發(fā)區(qū)、較高易發(fā)區(qū)、高易發(fā)區(qū)。最后采用ROC曲線進(jìn)行驗(yàn)證,AUC值高的模型,其預(yù)測(cè)精度更高,更適合此研究區(qū)的滑坡易發(fā)性評(píng)價(jià)。
研究區(qū)位于江西省新干縣,總面積1 245.38 km2(115°14′48″~115°43′54″E,27°30′09″~27°57′50″N),屬亞熱帶季風(fēng)氣候,年平均氣溫為17.6 ℃,年平均降雨量為1 579.2 mm,最大年降雨量2 295.9 mm(2012年),屬贛江流域。研究區(qū)地形以中低山-丘陵為主,地層發(fā)育較齊全,分別為第四系松散巖組、紅色碎屑巖組、一般碎屑巖組、碳酸鹽巖組、變質(zhì)巖組、巖漿巖組。研究區(qū)構(gòu)造復(fù)雜。
本文通過收集影響滑坡發(fā)生的相關(guān)基礎(chǔ)數(shù)據(jù),最初選取高程、坡度、坡向、工程地質(zhì)巖組、平面曲率、距道路距離、距斷層距離、距水系距離8個(gè)評(píng)價(jià)指標(biāo),但由于距斷層和水系近的地方滑坡不發(fā)育,而距離遠(yuǎn)的地方滑坡反而發(fā)育。最終選取高程、坡度、坡向、工程地質(zhì)巖組、平面曲率、距道路距離6個(gè)評(píng)價(jià)指標(biāo)進(jìn)行滑坡易發(fā)性評(píng)價(jià)。各評(píng)價(jià)指標(biāo)分級(jí)圖如圖2。
圖2 各評(píng)價(jià)指標(biāo)分級(jí)圖
利用 ArcGIS 10.5軟件值提取至點(diǎn)工具提取研究區(qū) 291個(gè)滑坡點(diǎn)各評(píng)價(jià)指標(biāo)的屬性數(shù)據(jù),標(biāo)記為“1”,接著選取與滑坡點(diǎn)數(shù)量相同的非滑坡點(diǎn),提取291個(gè)非滑坡點(diǎn)各評(píng)價(jià)指標(biāo)的屬性數(shù)據(jù),標(biāo)記為“0”。用高程、坡度、坡向、工程地質(zhì)巖組、平面曲率、距道路距離的信息量值與是否為災(zāi)點(diǎn)(1為災(zāi)點(diǎn),0為非災(zāi)點(diǎn))構(gòu)成模型的總樣本。隨機(jī)選取滑坡點(diǎn)及非滑坡點(diǎn)樣本中的70%(407個(gè))作為訓(xùn)練樣本,剩下的30%(175個(gè))作為測(cè)試樣本。利用MATLAB軟件,將訓(xùn)練樣本代入編好的代碼進(jìn)行訓(xùn)練,訓(xùn)練之后的模型用于測(cè)試樣本,隨后調(diào)用重要性函數(shù)得到各評(píng)價(jià)指標(biāo)的權(quán)重如圖3所示。
圖3 評(píng)價(jià)指標(biāo)權(quán)重圖
使用 ArcGIS 10.5軟件分別將6個(gè)評(píng)價(jià)指標(biāo)與滑坡點(diǎn)位分布圖疊加,計(jì)算各個(gè)指標(biāo)類對(duì)應(yīng)的滑坡數(shù)量,由公式(1)得出評(píng)價(jià)指標(biāo)對(duì)應(yīng)的信息量值(表1)。
表1 評(píng)價(jià)指標(biāo)信息量表
在信息量模型中,信息量值反映了評(píng)價(jià)指標(biāo)對(duì)滑坡發(fā)生的可能性大小,值越大則表示對(duì)滑坡發(fā)生的可能性越大,負(fù)值則表示不利于滑坡的形成[21]。由表 1可知,信息量值較大的評(píng)價(jià)指標(biāo)類分別是:高程為50~150 m;坡向?yàn)槟衔?、西和北西方向;坡度?°~25°;工程地質(zhì)巖組為紅色碎屑巖組;距道路距離為200 m以內(nèi);平面曲率為凸坡??傮w來看,距道路距離對(duì)滑坡的影響最大,其次為工程地質(zhì)巖組、高程、坡向、坡度,而平面曲率則是對(duì)滑坡發(fā)生影響最小的評(píng)價(jià)指標(biāo)。
2.5.1 滑坡易發(fā)性評(píng)價(jià)結(jié)果 將各評(píng)價(jià)指標(biāo)專題圖和MATLAB 軟件得到的權(quán)重值在 ArcGIS 10.5軟件經(jīng)柵格計(jì)算器工具進(jìn)行疊加,得到全區(qū)的滑坡易發(fā)性圖。采用自然間斷點(diǎn)法將易發(fā)性區(qū)域劃分為5個(gè)等級(jí),分別為低易發(fā)區(qū)、較低易發(fā)區(qū)、中易發(fā)區(qū)、較高易發(fā)區(qū)、高易發(fā)區(qū)。生成的滑坡易發(fā)性分區(qū)圖如圖4所示。
圖4 基于信息量-隨機(jī)森林模型的滑坡易發(fā)性分區(qū)圖
將表1中各評(píng)價(jià)指標(biāo)分級(jí)的信息量值代入公式(2)得到各評(píng)價(jià)指標(biāo)的總信息量I,借助 ArcGIS 10.5軟件計(jì)算得到該模型下的研究區(qū)滑坡的易發(fā)性圖,采用自然間斷點(diǎn)法將易發(fā)性區(qū)域劃分為5個(gè)等級(jí),分別為低易發(fā)區(qū)、較低易發(fā)區(qū)、中易發(fā)區(qū)、較高易發(fā)區(qū)、高易發(fā)區(qū),等級(jí)劃分后生成滑坡易發(fā)性分區(qū)圖如圖5所示。
圖5 基于信息量模型的滑坡易發(fā)性分區(qū)圖
結(jié)合圖4和圖5可知,信息量模型得出的滑坡易發(fā)性分布趨勢(shì)與信息量-隨機(jī)森林模型預(yù)測(cè)結(jié)果大致相同,較高易發(fā)區(qū)和高易發(fā)區(qū)均呈線性分布在道路附近,影響滑坡的主控因素均為距道路距離。
2.5.2 ROC對(duì)比驗(yàn)證 為對(duì)比評(píng)價(jià)信息量-隨機(jī)森林模型和信息量模型的預(yù)測(cè)精度,采用受試者特征曲線(ROC)對(duì)兩種模型的空間預(yù)測(cè)性能進(jìn)行檢驗(yàn)。通常用曲線與X坐標(biāo)軸圍成的面積(AUC)來評(píng)價(jià)模型的預(yù)測(cè)性能,AUC值越大,其預(yù)測(cè)效果越好[22]。利用SPSS軟件繪制出兩種模型的ROC曲線圖如圖6所示。
圖6 ROC曲線
由圖6可知,信息量-隨機(jī)森林模型及信息量模型的AUC值分別為0.966和0.759,其中信息量-隨機(jī)森林模型較信息量模型的預(yù)測(cè)精度高了20.7%。
1)對(duì)評(píng)價(jià)指標(biāo)分析可以得出,在信息量-隨機(jī)森林模型和信息量模型中最為顯著的評(píng)價(jià)指標(biāo)都是距道路距離,其中信息量-隨機(jī)森林模型中次重要的評(píng)價(jià)指標(biāo)依次為工程地質(zhì)巖組和高程,而信息量模型次重要的評(píng)價(jià)指標(biāo)依次為坡向、工程地質(zhì)巖組和坡度。
2)信息量-隨機(jī)森林模型得出的滑坡易發(fā)性分布趨勢(shì)與信息量模型預(yù)測(cè)結(jié)果大致相同,滑坡高易發(fā)區(qū)和較高易發(fā)區(qū)呈線性分布在道路附近,影響滑坡的主控因素為距道路距離。
3)由ROC曲線可知,信息量-隨機(jī)森林模型及信息量模型的AUC值分別為0.996和0.759,其中信息量-隨機(jī)森林模型較信息量模型的預(yù)測(cè)精度高了20.7%,說明信息量-隨機(jī)森林模型更適合此研究區(qū)的滑坡易發(fā)性評(píng)價(jià)。