基于SVM-ANN模型的滑坡易發(fā)性評價
——以三峽庫區(qū)巫山縣為例

2018-10-31 01:26:08殷坤龍

中國地質(zhì)災(zāi)害與防治學報 2018年5期

夏輝，殷坤龍，梁鑫，馬飛

(1.中國地質(zhì)大學(武漢)，湖北武漢 430074; 2.重慶市地質(zhì)災(zāi)害防治中心，重慶 400015)

滑坡易發(fā)性評價是滑坡危險性評價以及風險評價的基礎(chǔ)?；乱装l(fā)性評價模型主要可分為確定性模型和非確定性模型，隨著GIS技術(shù)的成熟和計算機的快速發(fā)展，基于統(tǒng)計分析的非確定性模型在區(qū)域滑坡易發(fā)性評價中應(yīng)用越來越廣泛，算法較為簡單的有信息量模型[1]、證據(jù)權(quán)模型[2]、層次分析法[3]等，而隨著大數(shù)據(jù)的發(fā)展，數(shù)據(jù)挖掘的興起，一些較為復(fù)雜的算法也逐漸的應(yīng)用到了滑坡易發(fā)性評價中，如決策樹模型[4]、支持向量機模型[5]、人工神經(jīng)網(wǎng)絡(luò)[6]等。張俊等[7]利用信息量和logistic regression模型對萬州區(qū)進行了滑坡易發(fā)性評價，并對比兩個模型的預(yù)測精度，認為信息量模型的預(yù)測能力優(yōu)于logistic regression模型。馮杭建等[8]在浙江淳安縣對人工神經(jīng)網(wǎng)絡(luò)、邏輯回歸和信息量三個模型在滑坡易發(fā)性評價中的應(yīng)用進行對比，認為ANN模型優(yōu)于其他兩個模型。

本文以三峽庫區(qū)巫山縣為研究區(qū)，根據(jù)資料，提取指標因子，選取了支持向量機(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)模型對研究區(qū)進行了滑坡易發(fā)性評價，利用受試者工作特征曲線(ROC曲線)對兩個模型的精度進行評價。然后，結(jié)合兩個模型的易發(fā)性指數(shù)利用最大值法得到基于SVM-ANN模型的易發(fā)性區(qū)劃結(jié)果，用歷史滑坡點在高和極高易發(fā)區(qū)的占比對三個模型進行了對比分析。

1 滑坡易發(fā)性評價模型

1.1 支持向量機模型

假設(shè)支持向量分類的訓練樣本有n數(shù)據(jù)，其表示為[xi，yi](i=1,2……n)，其中xi為輸入變量(指標因子)，yi為輸出變量(是否為滑坡)。只考慮一個輸入變量的情況下，支持向量回歸的超平面形式為：

y=b+ωx

(1)

式中b為截距，ω為斜率。當有n個輸入變量時，支持向量回歸的超平面為：

(2)

式中WTX為ωixi的累積。在滿足殘差零均值和等方差的前提下，回歸方程的參數(shù)估計通常采用最小二乘法，以輸出變量的實際值與估計值之間的離差平方和最小為原則求解回歸方程的參數(shù)，即求解損失函數(shù)達到最小值時的函數(shù)：

(3)

支持向量機采用ε-不敏感損失函數(shù)，回歸分析中，每個觀測的誤差函數(shù)值都計入損失函數(shù)，而支持向量回歸中，誤差函數(shù)值小于ε，它給損失函數(shù)帶來的損失將被忽略，不對損失函數(shù)做出貢獻[9]。

1.2 人工神經(jīng)網(wǎng)絡(luò)模型

在ANN模型中，反向傳播(B-P)訓練算法是最常用的神經(jīng)網(wǎng)絡(luò)模型，也被認為是滑坡易發(fā)性評價中最有用的神經(jīng)網(wǎng)絡(luò)之一[10-11]。假設(shè)神經(jīng)網(wǎng)絡(luò)中輸入xi，i=1,2,……,n(滑坡易發(fā)性評價中的指標因子)，ωi表示其對應(yīng)的權(quán)重(每個因子的權(quán)重)。取其特征函數(shù)為雙曲正切函數(shù)，如下式：

(4)

(5)

式中，S表示神經(jīng)元的輸入總和；y表示神經(jīng)元的輸出；θ表示神經(jīng)元的閾值。

B-P反向傳播網(wǎng)絡(luò)采用參數(shù)優(yōu)化方法實現(xiàn)網(wǎng)絡(luò)權(quán)值的調(diào)整。參數(shù)優(yōu)化是在一個特定模型結(jié)構(gòu)N中，采用數(shù)據(jù)D優(yōu)化網(wǎng)絡(luò)參數(shù)，目標是求得使損失函數(shù)L(W)=L(W|D,N)達到最小時的網(wǎng)絡(luò)參數(shù)W。B-P反向傳播網(wǎng)絡(luò)的誤差函數(shù)為Ep，用來衡量網(wǎng)絡(luò)過程在輸出層的表現(xiàn)能力，其表達式為：

(6)

式中，tpj表示網(wǎng)絡(luò)實際輸出；opj表示網(wǎng)絡(luò)期望輸出。

2 研究區(qū)概況

巫山縣位于重慶市東部，地處長江三峽中下游。地理坐標為東經(jīng)102°33′～110°11′，北緯30°46′～31°28′。南北長80.3 km，東西寬61.2 km，面積為2 958 km2，圖1為研究區(qū)地理位置和災(zāi)害點分布圖。

圖1 研究區(qū)位置及地形圖Fig.1 General situation of the study area

區(qū)內(nèi)地形主要受巫山山脈和大巴山山脈的控制，地勢南北高，中間低，地貌以中、低山為主，地形陡峭，溝谷發(fā)育。地處亞熱帶濕潤氣候區(qū)，四季分明，多年平均氣溫為18.4 ℃?？h域地層屬揚子地層區(qū)，地層巖性分布特征明顯，中山區(qū)主要為三疊系嘉陵江組的碳酸鹽巖夾泥巖，低山、丘陵區(qū)主要為三疊系巴東組的泥巖夾泥質(zhì)灰?guī)r，新生界第四系零星分布。巫山縣內(nèi)地質(zhì)構(gòu)造復(fù)雜，處于川鄂湘黔隆起褶帶、大巴山弧和川東褶帶的交界地帶。長江橫跨研究區(qū)，兩岸支流水系發(fā)育，最大支流為大寧河流域。

在以上因素以及降雨、人類工程活動作用下，縣域內(nèi)地質(zhì)災(zāi)害發(fā)育。根據(jù)三峽工程后續(xù)規(guī)劃群測群防預(yù)警工程的統(tǒng)計資料顯示，該區(qū)域內(nèi)發(fā)育地質(zhì)災(zāi)害共431處，其中滑坡396處，約占總數(shù)的91.9%。

3 指標因子的構(gòu)建

本文進行滑坡易發(fā)性評價的數(shù)據(jù)來源包括：(1)巫山縣地質(zhì)災(zāi)害點排查資料；(2)巫山縣1∶10 000地形圖；(3)巫山縣1∶20 000地質(zhì)圖；(4)分辨率為30 m的Landsat5 TM遙感影像。根據(jù)研究區(qū)的大小和滑坡的規(guī)模，本文采用分辨率為50 m×50 m的柵格作為滑坡易發(fā)性評價的基本單元。

3.1 因子的選取

通過整理篩選地質(zhì)災(zāi)害點排查資料，利用ArcGIS轉(zhuǎn)化得到滑坡災(zāi)害點分布圖層。利用ArcGIS處理地形圖，得到高程、坡度、坡向以及水系分布。將DEM數(shù)據(jù)導(dǎo)入SAGA-GIS，得到地形濕度指數(shù)(TWI)、地表粗糙度指數(shù)(TRI)。利用地質(zhì)圖提取到研究區(qū)地層巖性和構(gòu)造分布，其中對不同地層的巖性進行分類，研究區(qū)主要分為5類巖性：頁巖、泥巖、碳酸鹽巖、石英砂巖以及第四系沖積物。對水系和構(gòu)造帶進行緩沖區(qū)分析，其中水系緩沖距離設(shè)置為：0～200 m, 200～400 m, 400～600 m, 600～800 m, 800～1 000 m, >1 000 m；構(gòu)造帶緩沖距離設(shè)置為：0～500 m, 500～1 000 m, 1 000～1 500 m, 1 500～2 000 m, 2 000～2 500 m, >2 500 m。在地理空間數(shù)據(jù)云網(wǎng)站收集到巫山縣Landsat5 TM遙感影像，利用ENVI軟件處理得到研究區(qū)歸一化的植被覆蓋指數(shù)(NDVI)，并導(dǎo)入到ArcGIS中進行重采樣得到分辨率為50 m的NDVI柵格圖層。

圖2 滑坡易發(fā)性評價指標及其定量分類區(qū)劃圖Fig.2 Controlling factors of landslide susceptibility assessment

3.2 因子相關(guān)性分析

以上選取用于滑坡易發(fā)性評價的指標因子，與滑坡的發(fā)生均具有一定的相關(guān)性，但是各因子之間也可能存在某種相關(guān)性，如果將相關(guān)性較高的因子帶入模型計算，會增加模型的復(fù)雜度和運行時間。因此，在模型計算之前，對各因子進行相關(guān)性分析，剔除與其他因子相關(guān)性較高的因子，能夠有效地簡化模型，提高模型的效率。將柵格化的各圖層數(shù)據(jù)導(dǎo)入SPSS，利用其相關(guān)性分析工具得到各因子間的Spearman相關(guān)性系數(shù)(表1)和顯著性水平Sig.值，Sig.值≤0.05表明各因子間的相關(guān)性具有顯著的參考價值，|R|≤0.3表明因子間相關(guān)性微弱或不具有相關(guān)性[7]。高程和水系、NDVI的相關(guān)性系數(shù)大于0.3，因此剔除高程這一指標因子，其余的8類因子構(gòu)成了巫山縣滑坡易發(fā)性評價的指標因子體系(圖2)。

4 滑坡易發(fā)性評價

4.1 基于SVM、ANN模型的評價結(jié)果

將滑坡災(zāi)害點圖層和8類指標因子圖層利用柵格轉(zhuǎn)點工具得到研究區(qū)滑坡易發(fā)性評價數(shù)據(jù)庫。選取災(zāi)害點和與其相等非災(zāi)害點數(shù)據(jù)作為樣本，其中，災(zāi)害點隨機分為2類：70%的災(zāi)害點(277個滑坡)作為訓練數(shù)據(jù)，30%的災(zāi)害點(119個滑坡)作為驗證數(shù)據(jù)。將樣本數(shù)據(jù)導(dǎo)入SPSS Modeler進行訓練，得到基于支持向量機和人工神經(jīng)網(wǎng)絡(luò)的易發(fā)性評價模型，然后將研究區(qū)總數(shù)據(jù)帶入模型中計算，得到了研究區(qū)的滑坡易發(fā)性指數(shù)。將滑坡易發(fā)性指數(shù)導(dǎo)入ArcGIS，并利用自然斷點法將研究區(qū)易發(fā)性指數(shù)分為5個等級，從而將研究區(qū)分為：極低易發(fā)區(qū)、低易發(fā)區(qū)、中易發(fā)區(qū)、高易發(fā)區(qū)和極高易發(fā)區(qū)，得到基于SVM和ANN模型的研究區(qū)滑坡易發(fā)性評價區(qū)劃圖(圖3、圖4)。

表1 指標因子相關(guān)性及其定量分類區(qū)劃圖Table 1 The correlation coefficient of controlling factor

圖3 基于SVM的滑坡易發(fā)性評價區(qū)劃圖Fig.3 Landslide susceptibility map based on SVM

圖4 基于ANN的滑坡易發(fā)性評價區(qū)劃圖Fig.4 Landslide susceptibility map based on ANN

本文利用受試者工作特征曲線對模型的精確性進行評價，在滑坡易發(fā)性評價中，ROC曲線的X軸為滑坡易發(fā)性指數(shù)，Y為滑坡累計發(fā)生頻率。曲線下的面積(AUC)代表了模型精確性的大小，AUC值越接近于1，表明模型的精確性越高[12]。其中，由訓練數(shù)據(jù)得到的ROC曲線為成功率曲線，驗證數(shù)據(jù)得到的曲線為預(yù)測率曲線。通過SPSS數(shù)據(jù)分析，得到SVM和ANN模型的成功率和預(yù)測率曲線(圖5、圖6)，SVM模型的成功率值為0.919、預(yù)測率值為0.862，ANN模型的成功率值為0.860、預(yù)測值為0.837。兩個模型的AUC值均大于0.7，表明SVM和ANN模型在該研究區(qū)的滑坡易發(fā)性評價中預(yù)測能力均很好，且SVM模型預(yù)測能力略優(yōu)于ANN模型。

圖5 模型成功率曲線Fig.5 The success rate curve of models

圖6 模型預(yù)測率曲線Fig.6 The prediction rate curve of models

4.2 SVM、ANN結(jié)合的滑坡易發(fā)性評價

由SVM和ANN模型計算得到的滑坡易發(fā)性評價的精確度均較高，兩個模型得到的易發(fā)性區(qū)劃圖中高易發(fā)區(qū)和極高易發(fā)區(qū)分布相近，但是存在某些小區(qū)域在SVM模型中屬于極低和低易發(fā)區(qū)，而在ANN模型中屬于中易發(fā)區(qū)，甚至高或極高易發(fā)區(qū)。在滑坡預(yù)警中，應(yīng)秉承的理念是即使在區(qū)域進行了預(yù)警，滑坡沒有發(fā)生，也不能滑坡發(fā)生了沒有預(yù)警?；谶@種理念，本文將兩個模型計算得到的每個柵格滑坡易發(fā)性指數(shù)對比，取該柵格上滑坡易發(fā)性指數(shù)的較大值，其關(guān)系式如下：

LSI=Max(LSISVM；LSIANN)

(7)

式中，LSI表示滑坡易發(fā)性指數(shù)，Max函數(shù)表示取兩者間的最大值。將式7計算的滑坡易發(fā)性指數(shù)導(dǎo)入ArcGIS，得到基于SVM-ANN的研究區(qū)滑坡易發(fā)性評價區(qū)劃圖(圖7)。

圖7 基于SVM-ANN的滑坡易發(fā)性評價區(qū)劃圖Fig.7 Landslide susceptibility map based on SVM-ANN

根據(jù)滑坡易發(fā)性評價結(jié)果，分別統(tǒng)計各易發(fā)性等級下歷史滑坡災(zāi)害點柵格數(shù)以及所占比例(圖8)。在SVM、ANN和SVM-ANN模型的結(jié)果中，歷史滑坡點在高-極高易發(fā)區(qū)所占的比例分別為90.06%、83.18%和94.01%，表明基于Max{LSI(SVM);LSI(ANN)}函數(shù)的SVM-ANN模型能夠提高SVM和ANN單一模型的精確度，其更適用于滑坡災(zāi)害風險分析的實際應(yīng)用。

圖8 各易發(fā)區(qū)歷史滑坡點所占比例Fig.8 Percentages of landslide points falling into different susceptibility zonation

4.3 易發(fā)性分區(qū)結(jié)果分析

綜合分析三種模型得到的滑坡易發(fā)性評價區(qū)劃圖，其結(jié)果表明，研究區(qū)高和極高易發(fā)區(qū)主要分布在長江及其支流大寧河與三疊系巴東組的泥巖夾泥質(zhì)灰?guī)r交匯，以及植被相對缺乏(NDVI值較小)的地帶，并隨研究區(qū)內(nèi)向斜(大昌-水口向斜、巴霧河向斜、巫山向斜和官渡向斜)呈條帶狀分布。極低和低易發(fā)區(qū)主要分布在泥盆系、石炭系和三疊系下統(tǒng)的鹽酸鹽巖地區(qū)，海拔較高，植被發(fā)育。結(jié)果與歷史滑坡災(zāi)害點分布相對一致。

5 結(jié)論

(1)本文以三峽庫區(qū)巫山縣為研究區(qū)，基于因子相關(guān)性分析，選取了坡度、坡向、TRI、TWI、地層巖性、水系距離、構(gòu)造距離和NDVI共8類指標因子，結(jié)合歷史滑坡災(zāi)害點數(shù)據(jù)，基于SVM和ANN模型利用ArcGIS軟件對研究區(qū)進行滑坡易發(fā)性評價，得到研究區(qū)不同模型的滑坡易發(fā)性評價區(qū)劃圖。通過SPSS得到兩個模型的ROC曲線，SVM模型的成功率和預(yù)測率曲線的AUC值分別為0.919和0.862，ANN模型分別為0.86和0.837，表明兩個模型在研究區(qū)滑坡易發(fā)性評價的精度均較高。

(2)結(jié)合SVM和ANN模型評價結(jié)果，提出基于Max{LSI(SVM);LSI(ANN)}函數(shù)的SVM-ANN模型，并應(yīng)用于研究區(qū)的滑坡易發(fā)性評價。通過統(tǒng)計，SVM、ANN和SVM-ANN模型中，歷史滑坡點在高-極高易發(fā)區(qū)所占的比例分別為90.06%、83.18%和94.01%，表明SVM-ANN模型更適用于滑坡災(zāi)害風險分析的實際應(yīng)用，從而說明結(jié)合多個模型來提高滑坡易發(fā)性評價區(qū)劃圖的適用性是可行的。

(3)滑坡易發(fā)性評價區(qū)劃圖表明研究區(qū)高和極高易發(fā)區(qū)主要分布在三疊系巴東組的泥巖夾泥質(zhì)灰?guī)r與河流的交匯，且植被相對發(fā)育較弱的地帶，隨區(qū)內(nèi)向斜呈條帶狀分布，與研究區(qū)實際情況相對一致，能夠用于滑坡災(zāi)害危險性評價及風險評價中。

基于SVM-ANN模型的滑坡易發(fā)性評價——以三峽庫區(qū)巫山縣為例