基于自動機器學習的全球尺度滑坡災(zāi)害易發(fā)性預(yù)測

2022-10-20 10:35:00唐貴希方志策李朋磊

資源環(huán)境與工程 2022年5期

王毅，陳曦，唐貴希，方志策，李朋磊

(1.中國地質(zhì)大學(武漢)，湖北武漢 430074; 2.湖北省地質(zhì)調(diào)查院，湖北武漢 430034；3.湖北省地質(zhì)局遙感應(yīng)用技術(shù)中心，湖北武漢 430034)

滑坡是一種常見的地質(zhì)災(zāi)害，在全球范圍內(nèi)分布廣、發(fā)生頻率高、災(zāi)害破壞力強，對人類生命和財產(chǎn)構(gòu)成巨大威脅[1]?；聻?zāi)害易發(fā)性預(yù)測能夠預(yù)測研究區(qū)內(nèi)發(fā)生滑坡的空間概率，從而為滑坡災(zāi)害風險管理及監(jiān)測提供可靠的科學依據(jù)?；乱装l(fā)性預(yù)測方法主要分為兩大類：確定性預(yù)報方法和非確定性預(yù)報方法。前者主要針對單個滑坡預(yù)測，包括適用于短期和臨期滑坡預(yù)報的齋騰迪孝法[2]、適用于長期滑坡預(yù)報的有限元法[3]等，此類方法通常具有嚴格且確定的數(shù)學函數(shù)關(guān)系式，且每個參數(shù)均有明確的解釋，能夠反映滑坡發(fā)生的物理實質(zhì)[4]。后者主要包含知識驅(qū)動型和數(shù)據(jù)驅(qū)動型兩大類，基于非確定性預(yù)報的滑坡易發(fā)性預(yù)測方法經(jīng)歷了從定性到半定量、再到定量的發(fā)展過程[5]，該方法不強調(diào)預(yù)報模型中函數(shù)式的各個參數(shù)的準確性，而是通過調(diào)查宏觀地形地貌等一系列滑坡內(nèi)外在影響因子，對滑坡進行空間規(guī)劃，更適于滑坡災(zāi)害風險管理的宏觀決策，如Saboya等[6]運用模糊邏輯法將專家選擇的滑坡誘因轉(zhuǎn)換為模糊數(shù)，在巴西里約熱內(nèi)盧進行了滑坡易發(fā)性預(yù)測。知識驅(qū)動型方法很大程度上依賴于專家知識，但人為因素干擾較大，導致滑坡易發(fā)性預(yù)測結(jié)果的精度偏低。

隨著3S技術(shù)的飛速發(fā)展，多源對地觀測數(shù)據(jù)越來越豐富，使得近年來滑坡數(shù)據(jù)的精度和可靠性也越來越高。面對海量數(shù)據(jù)，數(shù)據(jù)驅(qū)動型方法已經(jīng)展現(xiàn)出強大優(yōu)勢，其應(yīng)用也日漸成熟，主要包括信息量[7-8]、多元統(tǒng)計分析[9-10]、證據(jù)權(quán)[11]、樸素貝葉斯(Naive Bayes,NB)[12]、隨機森林(Random Forest,RF)[13]、邏輯回歸[14-15]、支持向量機[16-17]、決策樹[12-18]、人工神經(jīng)網(wǎng)絡(luò)[19-20]等統(tǒng)計學和機器學習模型。然而，機器學習方法需要專業(yè)研究人員進行極其繁瑣的模型選擇和參數(shù)調(diào)整等操作，因此降低使用機器學習的時間和人工成本已逐漸成為當前研究熱點。自動機器學習作為新興的智能學習方法，能夠自動篩選特征、自動選擇模型和動態(tài)調(diào)整模型參數(shù)，因此被廣泛應(yīng)用于醫(yī)學圖像識別[21-22]、物體檢測[23-24]、語義分割[25-26]、文本分類[27]、損失函數(shù)搜索[28-29]等領(lǐng)域。

在多源數(shù)據(jù)的支持下，全球滑坡易發(fā)性研究愈發(fā)受到研究人員的重視。然而，全球尺度的滑坡災(zāi)害易發(fā)性預(yù)測面臨諸多挑戰(zhàn)。首先，全球滑坡編目數(shù)據(jù)獲取較難，眾多易發(fā)性預(yù)測研究所使用的數(shù)據(jù)并未公開，即使能獲取研究數(shù)據(jù)，當將其應(yīng)用于全球滑坡易發(fā)性預(yù)測時，往往需要大量的人工成本進行鑒別和篩選。其次，全球滑坡災(zāi)害易發(fā)性預(yù)測還存在模型選擇較為局限、無法確定最優(yōu)模型等難點。最后，目前全球滑坡易發(fā)性制圖精度普遍偏小，幾十千米至幾弧度的精度并不能有效應(yīng)用于滑坡災(zāi)害風險管理中。鑒于自動機器學習模型對于滑坡災(zāi)害易發(fā)性預(yù)測具有良好的針對性，因此基于自動機器學習的全球尺度滑坡災(zāi)害易發(fā)性預(yù)測研究具有廣闊的應(yīng)用前景。鑒于此，本文基于全球滑坡開放數(shù)據(jù)集，充分利用自動機器學習的特性，并最大程度地提升模型預(yù)測性能。具體而言，擬以Auto-PyTorch自動機器學習模型為基礎(chǔ)，構(gòu)建全球尺度滑坡易發(fā)性預(yù)測框架，探究自動機器學習在全球尺度下滑坡易發(fā)性預(yù)測中的可行性，期望為全球性滑坡災(zāi)害風險管理提供科學依據(jù)。

1 數(shù)據(jù)準備與分析

1.1 滑坡編目數(shù)據(jù)

滑坡編目數(shù)據(jù)對于易發(fā)性預(yù)測和后續(xù)驗證評價舉足輕重。然而，開展全球尺度下的滑坡易發(fā)性預(yù)測時，滑坡數(shù)據(jù)精度參差不齊，其完整性和精確性也難以保證。本次研究選用了全球開放在線滑坡存儲庫(Cooperative Open Online Landslide Repository，COOLR)，該存儲庫是基于美國國家航空航天局啟動的全球滑坡目錄(Global Landslide Catalog，GLC)進行的深度開發(fā)產(chǎn)品[30]，記錄了2007年以來山體滑坡的信息來源、源鏈接以及滑坡發(fā)生時間、發(fā)生位置、誘發(fā)原因、誘發(fā)事件的具體描述、滑坡規(guī)模、數(shù)據(jù)精度等。此外，本次研究還使用了全球致命滑坡數(shù)據(jù)庫(Global Fatal Landslide Database，GFLD)，該數(shù)據(jù)庫記錄了2004—2017年間對人類造成生命威脅的山體滑坡的發(fā)生時間、發(fā)生位置、誘發(fā)原因、造成的人員傷亡情況、數(shù)據(jù)精度等[31]。

需特別指出的是全球尺度的滑坡數(shù)據(jù)庫存有量極其有限，即便已發(fā)布COOLR和GFLD，但仍無法滿足全球滑坡易發(fā)性制圖數(shù)據(jù)規(guī)模的要求。因此，研究中搜集了部分篩選的精確區(qū)域滑坡數(shù)據(jù)集對全球尺度的滑坡編目數(shù)據(jù)進行補充，如意大利國家滑坡數(shù)據(jù)庫(FraneItalia)記錄了2010—2019年間意大利發(fā)生的山體滑坡事件，根據(jù)滑坡數(shù)量、類別和人員的生命財產(chǎn)損失程度進行了分類，而滑坡數(shù)據(jù)精度運用確定、近似和市政提供的滑坡數(shù)據(jù)三個等級進行劃分[32]；澳大利亞山體滑坡數(shù)據(jù)庫記錄了2008—2018年間澳大利亞的滑坡數(shù)據(jù)，根據(jù)數(shù)據(jù)來源的可信度，將滑坡劃分為GPS測量、GIS定位、地圖定位、衛(wèi)星影像定位、本地報道、根據(jù)報告定位的滑坡以及未知等類別[33]；新西蘭國家滑坡數(shù)據(jù)庫(New Zealand Landslide Database，NZLD)同樣是一個共享數(shù)據(jù)庫，但缺少數(shù)據(jù)精度的信息解釋[34]；美國華盛頓州[35]和猶他州[36]的滑坡數(shù)據(jù)庫同樣根據(jù)精度信息對滑坡編目數(shù)據(jù)進行了分類。

滑坡編目數(shù)據(jù)精度對于易發(fā)性研究至關(guān)重要。由于不同滑坡數(shù)據(jù)庫的數(shù)據(jù)精度各不相同，為了增加全球尺度下滑坡易發(fā)性預(yù)測的可信度，需要對以上搜集的滑坡數(shù)據(jù)進行篩選。對于全球滑坡數(shù)據(jù)庫而言，選擇COOLR和GFLD兩個數(shù)據(jù)庫1 000 m以下的滑坡數(shù)據(jù)；對于局部區(qū)域滑坡數(shù)據(jù)庫而言，選擇FraneItalia中確定和近似兩個精度等級的滑坡數(shù)據(jù)，選擇澳大利亞山體滑坡數(shù)據(jù)庫GPS測量、GIS定位、地圖定位、衛(wèi)星影像定位四種來源的滑坡數(shù)據(jù)，選擇NZLD中有具體時間記錄的滑坡數(shù)據(jù)，選擇美國華盛頓州和猶他州滑坡數(shù)據(jù)庫中精度等級為高的滑坡數(shù)據(jù)。最后，在表1中列出了各滑坡數(shù)據(jù)庫在90 m精度下的具體滑坡數(shù)據(jù)量等信息，重采樣至1 000 m后滑坡數(shù)據(jù)量為14 290個。

表1 滑坡數(shù)據(jù)來源

1.2 滑坡影響因子

研究區(qū)域為全球60°N-60°S緯度范圍內(nèi)，其滑坡易發(fā)性預(yù)測是基于SRTM DEM 90 m數(shù)據(jù)的Version 4版本來完成[37]，該數(shù)據(jù)是位于全球60°N-60°S緯度范圍內(nèi)的高程數(shù)據(jù)集(圖1)。同時考慮了全球尺度滑坡樣本空間分辨率不夠精細的內(nèi)因以及制圖時間效率偏低的外因，將SRTM DEM 90 m數(shù)據(jù)重采樣至1 000 m，并基于此精度開展全球滑坡易發(fā)性制圖研究(圖1-a)。具體地，滑坡易發(fā)性預(yù)測研究中所采用的坡度(圖1-b)、坡向(圖1-c)、平面曲率(圖1-d)和剖面曲率(圖1-e)等因子均基于重采樣的SRTM DEM數(shù)據(jù)進行提取。

圖1 基于DEM的滑坡影響因子專題圖

巖性數(shù)據(jù)對于易發(fā)性預(yù)測至關(guān)重要。不同種類的巖石所能承受應(yīng)力不同，在雨水、植被等作用下的內(nèi)部應(yīng)力變化也各不相同，然而大多精度更高的巖性數(shù)據(jù)庫無法有效支持在全球尺度下的易發(fā)性預(yù)測。本次研究所使用的巖性數(shù)據(jù)來自全球巖性數(shù)據(jù)庫(Global Lithological Map，GLiM)，該數(shù)據(jù)庫是將全球范圍內(nèi)多張區(qū)域可用最高分辨率的巖性數(shù)據(jù)圖組合而成，根據(jù)精細度、數(shù)據(jù)量及數(shù)據(jù)一致性等準則進行數(shù)據(jù)合并，共包含16種巖性[38](圖2)。

圖2 巖性因子專題圖

土地覆蓋狀況對于誘發(fā)滑坡同樣重要。土地覆蓋狀況相較于巖性數(shù)據(jù)在時間尺度上變化更頻繁，考慮到滑坡數(shù)據(jù)均為2010年左右采集，并綜合考慮數(shù)據(jù)量和土地覆蓋數(shù)據(jù)出圖時間，采用歐洲航天局于2009年發(fā)布的全球陸地覆蓋數(shù)據(jù)GlobCover(圖3)[39]。其空間分辨率為300 m，該數(shù)據(jù)運用Envisat衛(wèi)星中MERIS(Medium Resolution Imaging Spectrometer)傳感器進行采集，土地覆蓋數(shù)據(jù)的地物類別詳見文獻[39]。

圖3 土地覆蓋因子專題圖

降雨是滑坡的另一大誘因。本次研究選取了東英吉利大學氣候研究部門發(fā)布的WorldClim 2數(shù)據(jù)集[40-41]。以2000—2018年的世界降雨量數(shù)據(jù)的平均值作為降雨量因子，空間分辨率為21 km(圖4)。

圖4 降雨量因子專題圖

地球上主要有三大地震帶：環(huán)太平洋火山地震帶、歐亞地震帶和洋脊地震帶。地震發(fā)生時能觸發(fā)大量滑坡，而震后由于改變斜坡受力結(jié)構(gòu)，同樣會導致滑坡不斷發(fā)生。本次研究采用全球地震模型基金會(GEM)發(fā)布的全球主動斷層數(shù)據(jù)庫(GAF-DB)[42]，將計算的距離斷層數(shù)據(jù)的歐式距離作為斷層距離因子數(shù)據(jù)(圖5)。

圖5 斷層距離因子專題圖

為了保持精度一致，以上所有因子均重采樣至1 000 m 的空間分辨率，并且所有數(shù)據(jù)集都保持在WGS84 CRS(EPSG：4326)坐標系下進行制圖，各因子的重分類則由自然斷點法來實現(xiàn)。

2 滑坡易發(fā)性評價模型

本次研究的主要目的是探究自動機器學習進行全球尺度滑坡易發(fā)性預(yù)測的可行性，其總體技術(shù)路線如圖6所示。首先，獲取全球滑坡多源數(shù)據(jù)，包括滑坡編目數(shù)據(jù)和影響因子數(shù)據(jù)。其次，將滑坡影響因子重采樣至相同空間分辨率，再將滑坡編目數(shù)據(jù)與滑坡影響因子進行疊置分析，將滑坡編目數(shù)據(jù)劃分為訓練數(shù)據(jù)和測試數(shù)據(jù)。然后，采用自動機器學習方法進行模型構(gòu)建，此次采用了開源自動機器學習平臺Auto-PyTorch[43]。將自動機器學習方法與兩種傳統(tǒng)機器學習方法RF(也是經(jīng)典集成學習模型)、NB進行對比。最后，選取三種方法中各項評價指標最優(yōu)的模型進行最終全球尺度滑坡易發(fā)性預(yù)測制圖。

圖6 技術(shù)路線圖

2.1 自動機器學習模型

眾所周知，機器學習模型的選擇在實際應(yīng)用中需耗費大量時間成本和技術(shù)成本，同時對于選定模型的參數(shù)確定還需要專業(yè)數(shù)據(jù)研究人員的不斷調(diào)試。在很多情況下，研究人員并不能找到最優(yōu)參數(shù)，并且其調(diào)出的參數(shù)也不具有可解釋性。自動機器學習可以看作是對傳統(tǒng)機器學習一定意義上的顛覆性改進，它不僅能夠?qū)⑴c訓練的特征進行自動篩選，還能自動選擇模型，并自動對模型參數(shù)進行動態(tài)調(diào)整，極大程度地減少模型應(yīng)用的時間與技術(shù)成本。此外，它還能夠有效提升傳統(tǒng)機器學習模型的處理效果。

本次研究運用的Auto-PyTorch是開源的自動機器學習平臺，早期更關(guān)注于自動選擇和優(yōu)化傳統(tǒng)機器學習模型，而在后續(xù)加入了依賴于PyTorch框架[43]的深度學習框架，該框架利用多保真度優(yōu)化來對神經(jīng)網(wǎng)絡(luò)架構(gòu)及其中的超參數(shù)進行優(yōu)化。Auto-PyTorch實現(xiàn)并自動調(diào)整完整的深度學習管道，包括數(shù)據(jù)預(yù)處理、神經(jīng)架構(gòu)、網(wǎng)絡(luò)訓練技術(shù)和正則化方法。此外，它還通過從產(chǎn)品組合中抽樣配置以及自動集成選擇來預(yù)啟動優(yōu)化。其自動機器學習模型中也包括傳統(tǒng)的機器學習模型，例如輕量級梯度提升機器和支持向量機等，用于解決所提供數(shù)據(jù)集的回歸或分類任務(wù)。在使用傳統(tǒng)機器學習模型篩選時，引入了貝葉斯優(yōu)化，輸出模型時采用了集成模型。充分利用了之前模型選擇和超參選擇時的探索結(jié)果。集成模型的使用使得之前的搜索結(jié)果沒有被浪費，進一步提高了模型的泛化性。

2.2 模型評價指標

為了客觀評價易發(fā)性預(yù)測模型的性能，本文采用了多個統(tǒng)計學評價指標，包括變動率指標(Price Rate of Change，ROC)曲線、ROC曲線下面積的值(Area Under Curve，AUC)、準確率(Accuracy，ACC)、均方根誤差(Root Mean Square Error，RMSE)和平均絕對誤差(Mean Absolute Error，MAE)。其中AUC和ACC的取值范圍為0～1之間，越接近1，表示該模型性能更優(yōu)越；RMSE與MAE的取值范圍同樣為0～1，其值越接近0表示該模型性能更優(yōu)。

ACC計算公式為：

(1)

式中：TP為正確識別正樣本的數(shù)量；TN為正確識別負樣本的數(shù)量；FP為被誤報的負樣本數(shù)量；FN為被漏報的正樣本數(shù)量。

RMSE和MAE的計算公式為：

(2)

(3)

式中：n為測量的次數(shù)；oi為真實數(shù)據(jù)；pi為預(yù)測數(shù)據(jù)。

3 實驗結(jié)果與分析

3.1 滑坡評價因子分析

本次研究使用了Python編程工具，并以Auto-PyTorch庫為基礎(chǔ)，對自動機器學習進行了建模。此外，利用Sklrearn庫作為傳統(tǒng)機器學習的模型基礎(chǔ)，構(gòu)建了RF和NB兩種傳統(tǒng)機器學習模型。研究實驗環(huán)境包括：16核CPU、2塊GPU(NVIDIA GeForce RTX 3090，單個顯存為24 GB)和128 GB內(nèi)存。

由表1可知，全球滑坡編目數(shù)據(jù)重采樣到1 000 m后，其滑坡數(shù)量為14 290個樣本，同樣在非滑坡區(qū)域隨機選擇14 290個非滑坡樣本。對全球滑坡數(shù)據(jù)和滑坡影響因子圖層進行疊加，并在疊加后對該多維矩陣數(shù)據(jù)按7∶3比例進行分割。其中，70%的樣本數(shù)據(jù)用于滑坡易發(fā)性自動機器學習模型構(gòu)建，剩余30%的樣本數(shù)據(jù)用來驗證模型性能。

由于自動機器學習具有自動選擇特征，因此本研究無需因子篩選和重要性分析過程。首先，對自動機器學習模型進行訓練。為了兼具效率和性能，自動機器學習模型的學習時間設(shè)定為0.5 h，采用模型評價指標定量評估Auto-PyTorch、RF和NB的性能優(yōu)劣。最后，選擇性能最優(yōu)的自動機器學習模型進行后續(xù)建模和易發(fā)性制圖。

3.2 滑坡易發(fā)性預(yù)測圖

為了驗證基于自動機器學習的全球尺度滑坡易發(fā)性預(yù)測的可行性，將Auto-PyTorch自動機器學習模型分別與RF和NB兩種傳統(tǒng)機器學習模型進行了對比分析出圖。將研究區(qū)按滑坡的易發(fā)性大小分為五個等級：極低、低、中、高和極高易發(fā)區(qū)，易發(fā)性等級分區(qū)方法選擇自然斷點法[44]。Auto-PyTorch自動機器學習模型與RF、NB兩種傳統(tǒng)機器學習模型的全球尺度滑坡災(zāi)害易發(fā)性預(yù)測結(jié)果分別如圖7-a、圖7-b、圖7-c所示，Auto-PyTorch模型易發(fā)性分區(qū)與滑坡點堆疊圖如圖7-d所示，可以看到三種模型的全球滑坡預(yù)測結(jié)果中高與極高易發(fā)性區(qū)域與滑坡編目數(shù)據(jù)非常吻合，自動機器學習模型尤其優(yōu)秀，表明自動機器學習在全球尺度下進行滑坡易發(fā)性預(yù)測具有良好的可行性。

圖7 滑坡災(zāi)害易發(fā)性分區(qū)圖

3.3 模型比較與驗證

表2給出了三種機器學習模型的評價結(jié)果。其中，Auto-PyTorch模型的各項指標均最優(yōu)，ACC、AUC、RMSE和MAE分別為0.901 4、0.963 2、0.313 9和0.098 5；RF模型次之，其各項指標比Auto-PyTorch模型略低，ACC、AUC都略微下降0.004 7，RMSE與MAE分別增加0.007 3和0.004 7。雖然差距較小，但是僅訓練10 min的Auto-PyTorch模型的潛力還是優(yōu)于RF模型。NB作為傳統(tǒng)機器學習模型，雖然AUC超過0.8(達到0.839 3)，能算是優(yōu)良的結(jié)果，但各項數(shù)值相比Auto-PyTorch模型和RF模型下降許多，較之最優(yōu)秀的Auto-PyTorch模型，ACC、AUC分別下降0.154 9和0.123 9，RMSE與MAE分別增加0.189 5和0.154 9。結(jié)果表明，Auto-PyTorch模型能夠自動選擇模型和動態(tài)調(diào)整參數(shù)，在節(jié)約時間的同時還能提升精度。圖8給出了三種模型的ROC曲線，可看出Auto-PyTorch模型明顯優(yōu)于傳統(tǒng)機器學習模型。以上實驗結(jié)果進一步驗證了自動機器學習的優(yōu)勢，也證明了自動機器學習在全球尺度下滑坡易發(fā)性預(yù)測的應(yīng)用價值。為了探究訓練時間的長短對于自動機器學習性能的影響，以Auto-PyTorch模型為例，分別設(shè)定10 min和30 min作為訓練時間進行模型性能比較。如表2所示，訓練30 min的ACC較訓練10 min的ACC增加0.001 4，由于模型是根據(jù)ACC高低進行篩選，AUC在其他指標增加的情況下略微下降0.000 8，而RMSE和MAE分別下降0.002 3和0.001 4。如圖8所示，自動機器學習模型較長的訓練時間能得到更優(yōu)越和綜合提高的精度。

圖8 模型ROC曲線

表2 模型精度評價結(jié)果

4 結(jié)論

本文開展了基于自動機器學習的全球尺度滑坡災(zāi)害易發(fā)性預(yù)測研究，以全球60°N-60°S緯度范圍作為研究區(qū)，采用坡度、坡向、平面曲率、剖面曲率、巖性、土地覆蓋、降雨量、斷層距離9個滑坡影響因子,運用Auto-PyTorch自動機器學習模型和RF、NB兩種傳統(tǒng)機器學習模型進行了滑坡易發(fā)性建模工作，旨在探討自動機器學習在全球尺度下滑坡易發(fā)性預(yù)測的可行性。研究結(jié)果表明，三種模型的全球滑坡易發(fā)性制圖結(jié)果與滑坡編目數(shù)據(jù)的趨勢非常吻合，Auto-PyTorch模型吻合程度格外優(yōu)秀；提升訓練時間能夠在一定程度上提升模型預(yù)測性能。具體而言，在各模型中，NB模型的各項指標為最低，RF模型的各項指標略遜色于Auto-PyTorch模型。AUC最高的為訓練10 min的Auto-PyTorch模型，ACC、RMSE、MAE最佳的為訓練30 min的Auto-PyTorch模型；各項指標最優(yōu)的Auto-PyTorch模型較NB模型而言，AUC、ACC分別增加0.123 9、0.156 3，RMSE和MAE分別下降0.191 8、0.156 3，證明了Auto-PyTorch模型的優(yōu)越性能。此外，自動機器學習還存在不可解釋性，未來解決該問題能夠更加有效地提升自動機器學習在全球尺度滑坡災(zāi)害易發(fā)性預(yù)測中的應(yīng)用潛力。