繆 亞 敏,朱 阿 興,2,3,楊 琳 ,白 世 彪,曾 燦 英
(1.虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室(南京師范大學(xué));江蘇省地理環(huán)境演化國(guó)家重點(diǎn)實(shí)驗(yàn)室培育建設(shè)點(diǎn);江蘇省地理信息資源開(kāi)發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023;2.中國(guó)科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101;3.Department of Geography,University of Wisconsin-Madison,Madison,WI 53706,USA)
滑坡危險(xiǎn)度制圖中一種新型的負(fù)樣本采樣方法
繆 亞 敏1,朱 阿 興1,2,3,楊 琳2*,白 世 彪1,曾 燦 英1
(1.虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室(南京師范大學(xué));江蘇省地理環(huán)境演化國(guó)家重點(diǎn)實(shí)驗(yàn)室培育建設(shè)點(diǎn);江蘇省地理信息資源開(kāi)發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023;2.中國(guó)科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101;3.Department of Geography,University of Wisconsin-Madison,Madison,WI 53706,USA)
滑坡負(fù)樣本在基于統(tǒng)計(jì)模型的滑坡危險(xiǎn)度制圖中具有重要作用,能夠抑制模型的高估,以合理區(qū)劃滑坡危險(xiǎn)區(qū)與非危險(xiǎn)區(qū)。目標(biāo)空間外向化采樣法(Target Space Exteriorization Sampling,TSES)是一種代表性的基于環(huán)境特征空間的負(fù)樣本采樣方法,以往研究表明,TSES在基于廣義加性模型的滑坡危險(xiǎn)度制圖中的應(yīng)用效果較好,但是其采集的負(fù)樣本是“虛擬”的樣本,只存在于環(huán)境特征空間中,無(wú)法映射到地理空間,因而無(wú)法通過(guò)野外檢核驗(yàn)證所采集負(fù)樣本的可靠性。針對(duì)這一問(wèn)題,該文提出一種改進(jìn)TSES方法,不僅可以在環(huán)境特征空間中進(jìn)行負(fù)樣本采樣,而且使得采集的負(fù)樣本可以映射到地理空間中。以甘肅省油房溝流域?yàn)檠芯繀^(qū),在TSES與改進(jìn)TSES兩種負(fù)樣本采樣方法下分別對(duì)油房溝流域構(gòu)建基于支持向量機(jī)(Support Vector Machine,SVM)的滑坡危險(xiǎn)度推測(cè)模型,對(duì)比并分析兩種負(fù)樣本采樣方法下的滑坡危險(xiǎn)度制圖精度。結(jié)果發(fā)現(xiàn),改進(jìn)TSES方法采集的負(fù)樣本在基于SVM的滑坡危險(xiǎn)度制圖中應(yīng)用效果比TSES好,表明改進(jìn)的TSES是一種有效的負(fù)樣本采樣方法。
負(fù)樣本采樣方法;環(huán)境特征空間;滑坡危險(xiǎn)度制圖
滑坡災(zāi)害的頻繁發(fā)生對(duì)人類(lèi)的生命財(cái)產(chǎn)與環(huán)境資源等構(gòu)成極大威脅,鑒別未來(lái)可能發(fā)生滑坡的區(qū)域,有針對(duì)性地實(shí)施相關(guān)措施,可有效減少滑坡帶來(lái)的損失。滑坡危險(xiǎn)度是指在當(dāng)?shù)氐匦蔚葪l件下區(qū)域發(fā)生滑坡的可能性,即回答“什么地方容易發(fā)生滑坡”[1-3]。對(duì)研究區(qū)滑坡危險(xiǎn)度進(jìn)行評(píng)價(jià),生成滑坡危險(xiǎn)度空間分布圖,可有效識(shí)別滑坡高危險(xiǎn)區(qū),對(duì)地區(qū)規(guī)劃和建設(shè)有重要參考意義[3-5]。統(tǒng)計(jì)模型是滑坡危險(xiǎn)度制圖中最常使用的模型[6-9],其基本思想是:與過(guò)去發(fā)生過(guò)滑坡的區(qū)域具有相似地理環(huán)境的地區(qū)也極易發(fā)生滑坡[10,11]。統(tǒng)計(jì)模型通常是從滑坡點(diǎn)(正樣本)和非滑坡點(diǎn)(負(fù)樣本)以及這些點(diǎn)所在的影響因素中獲取滑坡發(fā)生可能性與影響因素之間的關(guān)系,然后將這種關(guān)系應(yīng)用到整個(gè)研究區(qū),實(shí)現(xiàn)區(qū)域滑坡危險(xiǎn)度的推測(cè)與制圖。
滑坡負(fù)樣本在基于統(tǒng)計(jì)模型的區(qū)域滑坡危險(xiǎn)度制圖中具有重要作用,能夠抑制統(tǒng)計(jì)模型對(duì)滑坡危險(xiǎn)度的高估,以合理區(qū)劃滑坡高危險(xiǎn)區(qū)與低危險(xiǎn)區(qū),因此滑坡負(fù)樣本的研究越來(lái)越引起研究者的關(guān)注[12]。真實(shí)的負(fù)樣本數(shù)據(jù)無(wú)法直接獲取,一般是在未發(fā)生滑坡的地區(qū)采集“偽”負(fù)樣本(pseudo-absence data)作為滑坡負(fù)樣本[13,14]。目前滑坡負(fù)樣本的采樣方法可分為兩大類(lèi):第一類(lèi)是在地理空間中采集負(fù)樣本[15],其原理是認(rèn)為滑坡災(zāi)害點(diǎn)附近一定范圍內(nèi)的地理環(huán)境與滑坡點(diǎn)所在地的地理環(huán)境相似,因而其孕育滑坡災(zāi)害的可能性非常大。因此,在采集滑坡負(fù)樣本時(shí),需要避開(kāi)滑坡點(diǎn),在滑坡點(diǎn)一定距離(緩沖區(qū))之外的區(qū)域隨機(jī)采樣?;诘乩砜臻g的負(fù)樣本采樣方法包括緩沖區(qū)控制采樣法(Buffer Controlled Sampling,BCS)、迭代精確采樣法(Iteratively Refined Sampling,IRS)等[15,16]。然而,由于現(xiàn)有的滑坡點(diǎn)不能包含地理空間中的所有潛在滑坡點(diǎn),在地理空間中采集負(fù)樣本時(shí),極有可能將那些本該是滑坡高危險(xiǎn)點(diǎn)錯(cuò)選為負(fù)樣本,這些高危險(xiǎn)點(diǎn)與滑坡點(diǎn)的地理環(huán)境相似,只是因?yàn)橐酝鄙僬T發(fā)條件而未發(fā)生滑坡。這些假的負(fù)樣本(潛在滑坡點(diǎn))的存在會(huì)降低訓(xùn)練樣本集的質(zhì)量,進(jìn)而影響統(tǒng)計(jì)型滑坡危險(xiǎn)度制圖的精度。第二類(lèi)是在環(huán)境特征空間中采集負(fù)樣本[16]?;挛kU(xiǎn)度制圖的基本原理認(rèn)為,與滑坡發(fā)生區(qū)地理環(huán)境相似的地區(qū)也極易發(fā)生滑坡,反之,與滑坡發(fā)生地區(qū)地理環(huán)境不相似的區(qū)域應(yīng)不易發(fā)生滑坡。在這樣的認(rèn)知下,滑坡正負(fù)樣本在環(huán)境特征空間中是分離的,可以在環(huán)境特征空間中區(qū)分開(kāi)。目標(biāo)空間外向化采樣法(Target Space Exteriorization Sampling,TSES)是一種代表性的基于環(huán)境特征空間的負(fù)樣本采樣方法,其在基于廣義加性模型的滑坡危險(xiǎn)度制圖中應(yīng)用效果好于BCS與IRS[16]。但是TSES采集的負(fù)樣本是“虛擬的”負(fù)樣本,只能存在于環(huán)境特征空間中,無(wú)法映射到地理空間,因而無(wú)法通過(guò)野外核驗(yàn)所采集負(fù)樣本的可靠性。
本文通過(guò)對(duì)TSES方法存在的問(wèn)題進(jìn)行研究,提出一種改進(jìn)TSES方法,不僅可以在環(huán)境特征空間中進(jìn)行負(fù)樣本采樣,而且使得采集的負(fù)樣本可以映射到地理空間。
1.1 TSES方法
TSES方法的基本假設(shè)是:現(xiàn)有的滑坡災(zāi)害點(diǎn)可以代表滑坡發(fā)生的典型地理環(huán)境條件,但不能包含地理空間中的所有潛在滑坡點(diǎn)[16]。本方法通過(guò)在由影響因素構(gòu)成的環(huán)境特征空間中將滑坡災(zāi)害點(diǎn)外向化,以獲得負(fù)樣本數(shù)據(jù)。其基本思想為:在研究區(qū)中選擇n個(gè)影響滑坡發(fā)生的環(huán)境因素,構(gòu)成一個(gè)描述研究區(qū)地理環(huán)境的n維環(huán)境特征空間,整個(gè)研究區(qū)會(huì)在該環(huán)境特征空間中占據(jù)一定的范圍(研究區(qū)環(huán)境特征閉包圈)。將研究區(qū)中的滑坡點(diǎn)映射到該n維環(huán)境特征空間中,滑坡點(diǎn)會(huì)在該空間中占據(jù)一定的范圍(正樣本環(huán)境特征閉包圈)。根據(jù)滑坡危險(xiǎn)度制圖原理,正負(fù)樣本應(yīng)具有不相似的地理環(huán)境,即正負(fù)樣本在環(huán)境特征空間中形成的閉包圈是分離的,則負(fù)樣本應(yīng)該在正樣本環(huán)境特征閉包圈以外進(jìn)行采樣。其具體實(shí)現(xiàn)為:隨機(jī)選擇研究區(qū)中的一個(gè)滑坡點(diǎn),在環(huán)境特征空間中對(duì)滑坡點(diǎn)進(jìn)行外向化負(fù)樣本采樣,即將該滑坡點(diǎn)上的某一個(gè)影響因素值修改為正樣本環(huán)境特征閉包圈以外、研究區(qū)環(huán)境特征閉包圈以內(nèi)的任意一個(gè)值,保持該滑坡點(diǎn)上的其他n-1個(gè)影響因素值不變,此時(shí)這個(gè)滑坡點(diǎn)就可生成一個(gè)負(fù)樣本。依此方法類(lèi)推,即可生成一套負(fù)樣本集。TSES基本思想的示意圖如圖1所示。
圖1 TSES的基本思想
TSES的偽碼如下所示:
輸入:滑坡點(diǎn)集S
輸出:生成的滑坡負(fù)樣本集N
1)初始化:
e= 滑坡點(diǎn)個(gè)數(shù)
d= 環(huán)境特征空間的維數(shù)(即影響因素的個(gè)數(shù))
N=φ
2)遍歷每一個(gè)影響因素A:
b)計(jì)算影響因素A中唯一值的個(gè)數(shù)c,令:
c)由1到m遍歷:
i)在滑坡點(diǎn)集S中隨機(jī)選擇一個(gè)滑坡點(diǎn)s;
iii)N=N∪{s},將修改后的滑坡點(diǎn)s加入到擬生成的負(fù)樣本集N中。
3)返回生成的滑坡負(fù)樣本集N。
1.2 改進(jìn)TSES方法
改進(jìn)TSES方法的基本假設(shè)與基本思想和TSES方法類(lèi)似,在具體實(shí)現(xiàn)上與TSES有所不同。首先將整個(gè)研究區(qū)映射到環(huán)境特征空間中,形成研究區(qū)環(huán)境特征閉包圈;將研究區(qū)中的滑坡點(diǎn)都映射到環(huán)境特征空間中,形成正樣本環(huán)境特征閉包圈。然后遍歷研究區(qū)中所有柵格點(diǎn),如果該柵格點(diǎn)至少有一個(gè)影響因素的值在正樣本環(huán)境特征閉包圈以外,則該柵格點(diǎn)可進(jìn)入到負(fù)樣本集中。改進(jìn)TSES基本思想的示意圖如圖2所示。本方法下生成的負(fù)樣本都是研究區(qū)中實(shí)際的有地理位置的點(diǎn),可以映射到地理空間中驗(yàn)證所采集負(fù)樣本的可靠性。
改進(jìn)的TSES的偽碼如下所示:
輸入:滑坡點(diǎn)集S
輸出:生成的滑坡負(fù)樣本集N
1)初始化:
N=φ
2)對(duì)于每一個(gè)影響因素A:
3)遍歷研究區(qū)中的每一個(gè)柵格點(diǎn)i:
遍歷每一個(gè)影響因素A:
ii)N=N∪{i},將i加入到擬生成的負(fù)樣本集N中。
4)返回生成的滑坡負(fù)樣本集N。
圖2 改進(jìn)TSES的基本思想
2.1 研究區(qū)與數(shù)據(jù)
油房溝流域位于甘肅省武都縣安化鎮(zhèn)(圖3,彩圖見(jiàn)封3),流域面積49.74 km2。油房溝處于衰敗期,其上游分水嶺為石灰?guī)r溶蝕夷平面,是天然草場(chǎng),下游堆積著來(lái)自溝口的河流沖積物。區(qū)域內(nèi)地勢(shì)北高南低,平均海拔高程2 000 m以上,地勢(shì)起伏較大,河谷深切,平均坡度在20°以上。油房溝內(nèi)泥盆系、志留系分布廣泛,巖性多為千枚巖、板巖、粉砂巖、泥巖等。該研究區(qū)亞熱帶季風(fēng)氣候顯著,氣候溫暖濕潤(rùn),受山地地形效應(yīng)的影響,全年降水量達(dá)400~900 mm[17],降水集中在5-9月,且多以暴雨的形式出現(xiàn)。受特殊地質(zhì)環(huán)境和氣候環(huán)境的影響,流域內(nèi)滑坡災(zāi)害頻繁發(fā)生,造成極大的經(jīng)濟(jì)損失和人員傷亡,嚴(yán)重制約著該區(qū)工農(nóng)業(yè)生產(chǎn)和社會(huì)經(jīng)濟(jì)的發(fā)展。
圖3 油房溝流域地理位置和滑坡災(zāi)害點(diǎn)分布
根據(jù)室內(nèi)遙感解譯與野外檢核,構(gòu)建油房溝流域歷史滑坡編目數(shù)據(jù)庫(kù)。經(jīng)調(diào)查,共識(shí)別65個(gè)滑坡體,分別為12個(gè)基巖滑坡、17個(gè)崩塌和36個(gè)黃土滑坡[18,19]。本文用滑坡發(fā)生初始面的頂部中心點(diǎn)代表滑坡災(zāi)害點(diǎn),構(gòu)成滑坡正樣本,不僅可以避免由于面狀滑坡的邊界難以確定而帶來(lái)的誤差,也可以兼顧不同大小的滑坡[20]?;谶@一正樣本采樣方法,油房溝流域共采集79個(gè)滑坡正樣本(圖3)。
根據(jù)研究區(qū)的地質(zhì)環(huán)境特征和前人已有研究成果[21],選取高程、坡度、坡向、平面曲率、剖面曲率、距河流的距離、距道路的距離、巖性、距斷層線的距離、土地利用類(lèi)型10個(gè)影響因素(表1),用以對(duì)研究區(qū)內(nèi)的滑坡孕災(zāi)環(huán)境進(jìn)行定量描述。
表1 影響因素與數(shù)據(jù)源
對(duì)研究區(qū)1∶50 000地形圖數(shù)字化,生成30 m分辨率的數(shù)字高程模型(DEM),在ArcGIS10.1軟件下基于DEM派生出一系列地形因子,包括:高程、坡度、坡向、平面曲率、剖面曲率,以描述研究區(qū)的地形地貌條件;同時(shí)獲得矢量格式的河流和道路數(shù)據(jù)。對(duì)研究區(qū)1∶25 000地質(zhì)圖數(shù)字化,獲得地層分布和斷層構(gòu)造數(shù)據(jù)。同時(shí)代的地層可由不同成因的巖石類(lèi)型組成,根據(jù)相似的物質(zhì)組成和物理力學(xué)特征,可以把研究區(qū)的地質(zhì)層組合并劃分為粉砂巖、泥巖、薄砂礫巖巖組,厚石灰?guī)r、板巖巖組,以及千枚巖、板巖、薄石灰?guī)r巖組3類(lèi)巖性單元。斷層構(gòu)造對(duì)滑坡的影響是根據(jù)距斷層線的距離表達(dá)。對(duì)研究區(qū)的TM影像進(jìn)行遙感解譯,獲得本研究區(qū)的土地利用類(lèi)型,并將其分為4類(lèi):農(nóng)田、林地、居民地與工業(yè)用地、未利用地。
本研究中,為避免因離散型影響因素(如:坡向、巖性和土地利用類(lèi)型)而導(dǎo)致啞變量過(guò)多的問(wèn)題,使用滑坡發(fā)生頻率表達(dá)離散型影響因素[22],例如巖性數(shù)據(jù)包括3類(lèi)巖性單元,每一類(lèi)巖性單元可以表達(dá)為該單元中出現(xiàn)滑坡數(shù)量與所有巖性單元中出現(xiàn)滑坡數(shù)量的比值。此外,為方便空間分析與計(jì)算,需要保證影響因素?cái)?shù)據(jù)尺度的一致性,本文根據(jù)研究區(qū)的尺度和數(shù)據(jù)源的尺度,選擇30 m作為所有影響因素?cái)?shù)據(jù)的分辨率。
2.2 基于SVM的滑坡危險(xiǎn)度制圖
SVM是Vapnik等提出的一種新的機(jī)器學(xué)習(xí)方法[23,24]。其基本思想是:將訓(xùn)練樣本通過(guò)某一核函數(shù)映射到一高維特征空間,在高維特征空間中建立線性回歸函數(shù),尋找最優(yōu)分類(lèi)超平面,使得該超平面能盡可能多地將兩類(lèi)訓(xùn)練樣本正確分開(kāi),同時(shí)使得分開(kāi)的樣本距離分類(lèi)超平面最遠(yuǎn)(圖4)[25,26]。
圖4 SVM的基本思想
給定訓(xùn)練樣本集{xi,yi},i=1,2,…,n;xi∈Rm,yi∈{-1,+1};n為訓(xùn)練樣本數(shù),m為輸入向量的維數(shù)(本研究中是指影響因素的個(gè)數(shù)),假設(shè)有一個(gè)線性分類(lèi)超平面可以將這兩類(lèi)訓(xùn)練樣本完全分開(kāi),定義該超平面為:w·x+b=0。
SVM要求構(gòu)建分類(lèi)面將所有樣本正確分類(lèi),同時(shí)使得分開(kāi)的兩類(lèi)訓(xùn)練樣本距離分類(lèi)超平面最遠(yuǎn),這是一個(gè)最優(yōu)化問(wèn)題,構(gòu)造如下目標(biāo)函數(shù):
s.t.yi((w·xi)+b)≥1 i=1,2,…,n
此外,考慮到有些訓(xùn)練樣本會(huì)被錯(cuò)誤分類(lèi),Vpanik和Cortes等引入非負(fù)的松弛變量ξi,則上述帶約束的最優(yōu)化問(wèn)題修改成如下目標(biāo)函數(shù):
s.t.yi((w·xi)+b)≥1-ξiξi≥0,i=1,2,…,n
當(dāng)樣本分類(lèi)錯(cuò)誤的時(shí)候ξi就會(huì)大于0。C是對(duì)誤判樣本的懲罰程度,C>0,是一可調(diào)常數(shù),C越大代表對(duì)分類(lèi)錯(cuò)誤樣本懲罰越重。因此,在求分類(lèi)超平面時(shí),C∑iξi的值越小越好[23]。
通常訓(xùn)練樣本集是線性不可分的,SVM通過(guò)引入核函數(shù)將線性不可分的訓(xùn)練樣本集映射到高維空間中,使其線性可分。SVM中常使用的核函數(shù)包括:線性核函數(shù)、多項(xiàng)式核函數(shù)和高斯核函數(shù)。
基于訓(xùn)練樣本集構(gòu)建SVM時(shí),需要選擇適宜的核函數(shù)并設(shè)置相應(yīng)的參數(shù)。高斯核函數(shù)由于其具有較強(qiáng)的非線性映射能力,在滑坡危險(xiǎn)度制圖中廣泛使用[27-29]。本文選擇高斯核函數(shù)作為SVM的核函數(shù)。γ參數(shù)是高斯核函數(shù)中的重要參數(shù),其大小關(guān)系著高斯核函數(shù)的形狀。懲罰因子 C 是對(duì)分類(lèi)錯(cuò)誤樣本的懲罰程度。這兩個(gè)參數(shù)的組合直接影響支持向量機(jī)的泛化能力。本文采用交叉驗(yàn)證尋求最小MSE的方法,基于臺(tái)灣大學(xué)林智仁教授開(kāi)發(fā)的LIBSVM工具[30],通過(guò)網(wǎng)格搜索方法對(duì)訓(xùn)練樣本進(jìn)行分組交叉驗(yàn)證,找到SVM的最優(yōu)參數(shù) C 和γ。
根據(jù)訓(xùn)練樣本和最優(yōu)參數(shù),構(gòu)建基于SVM的滑坡危險(xiǎn)度推測(cè)模型。將整個(gè)研究區(qū)的影響因素?cái)?shù)據(jù)輸入到構(gòu)建好的基于SVM的滑坡危險(xiǎn)度預(yù)測(cè)模型中,即可推測(cè)整個(gè)研究區(qū)的滑坡危險(xiǎn)度空間分布。根據(jù)上述負(fù)樣本采樣方法中獲得的不同訓(xùn)練樣本集分別構(gòu)建SVM滑坡危險(xiǎn)度預(yù)測(cè)模型,推測(cè)不同訓(xùn)練樣本集下的滑坡危險(xiǎn)度空間分布。
2.3 滑坡危險(xiǎn)度制圖的精度和有效性評(píng)價(jià)
本文通過(guò)以下3個(gè)指標(biāo)對(duì)滑坡危險(xiǎn)度制圖的精度和有效性進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)一、二是對(duì)統(tǒng)計(jì)方法的精度進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)三是對(duì)滑坡危險(xiǎn)度制圖的有效性進(jìn)行評(píng)價(jià):評(píng)價(jià)指標(biāo)一為建模精度,是統(tǒng)計(jì)模型將訓(xùn)練樣本正確分類(lèi)的比率,用以衡量模型對(duì)訓(xùn)練樣本的擬合程度。評(píng)價(jià)指標(biāo)二為驗(yàn)證精度,是驗(yàn)證樣本的分類(lèi)正確率,用以衡量統(tǒng)計(jì)模型的預(yù)測(cè)能力。本文旨在探討不同采樣方法下的負(fù)樣本對(duì)制圖精度的影響,由于負(fù)樣本數(shù)據(jù)的質(zhì)量無(wú)法直接判斷,因此只使用正檢驗(yàn)樣本來(lái)衡量模型的驗(yàn)證精度。通過(guò)對(duì)正檢驗(yàn)樣本設(shè)置一個(gè)滑坡危險(xiǎn)度閾值(本文設(shè)置閾值為0.5),認(rèn)為大于該閾值的樣本分類(lèi)正確,否則分類(lèi)錯(cuò)誤,如此即可度量檢驗(yàn)樣本分類(lèi)正確的比率。評(píng)價(jià)指標(biāo)三為滑坡危險(xiǎn)區(qū)面積所占比重與落在該危險(xiǎn)區(qū)域內(nèi)的滑坡點(diǎn)比重之間的關(guān)系(下文簡(jiǎn)稱“危險(xiǎn)面積-滑坡點(diǎn)關(guān)系”)。一個(gè)有效的推測(cè)模型不僅應(yīng)該具有高驗(yàn)證精度,還應(yīng)該使得推測(cè)出的滑坡高危險(xiǎn)區(qū)面積盡可能小,即應(yīng)具有“使更多的滑坡災(zāi)害點(diǎn)落在有限面積的高危險(xiǎn)區(qū)域內(nèi)”這一特點(diǎn)[16],這樣的模型可以高效地識(shí)別出真正的滑坡危險(xiǎn)區(qū)域,有利于土地資源的充分利用和價(jià)值實(shí)現(xiàn)。本文使用滑坡發(fā)生初始面1 491個(gè)柵格點(diǎn)作為滑坡災(zāi)害點(diǎn),將研究區(qū)內(nèi)的所有柵格點(diǎn)按滑坡危險(xiǎn)度由大到小排序,統(tǒng)計(jì)不同滑坡危險(xiǎn)度值域下的累積面積比重,并統(tǒng)計(jì)落在該滑坡危險(xiǎn)度值域范圍內(nèi)的滑坡災(zāi)害點(diǎn)比重,以獲得危險(xiǎn)面積-滑坡點(diǎn)關(guān)系,基于這一關(guān)系評(píng)價(jià)模型的有效性。
本研究基于油房溝流域歷史滑坡編目獲得79個(gè)滑坡點(diǎn)(滑坡正樣本),將滑坡點(diǎn)分為滑坡正訓(xùn)練樣本63個(gè)(80%)和正檢驗(yàn)樣本16個(gè)(20%)。以所有滑坡點(diǎn)(79個(gè)滑坡點(diǎn))為數(shù)據(jù)源,使用TSES和改進(jìn)TSES方法分別采集63個(gè)負(fù)樣本作為負(fù)訓(xùn)練樣本,組合63個(gè)正訓(xùn)練樣本,以構(gòu)成訓(xùn)練樣本集。每種負(fù)樣本采樣方法下,重復(fù)采樣20次,得到同一負(fù)樣本采樣方法下20套不同的訓(xùn)練樣本集,并分別應(yīng)用于滑坡危險(xiǎn)度制圖,以避免偶然現(xiàn)象,真實(shí)反映同一負(fù)樣本采樣方法下基于SVM的滑坡危險(xiǎn)度制圖的一般規(guī)律。根據(jù)不同的訓(xùn)練樣本集,分別構(gòu)建基于SVM的滑坡危險(xiǎn)度推測(cè)模型,以分析不同負(fù)樣本采樣方法下20次重復(fù)負(fù)樣本采樣的滑坡危險(xiǎn)度制圖精度和有效性。圖5(彩圖見(jiàn)封3)為不同負(fù)樣本采樣方法下基于SVM推測(cè)的滑坡危險(xiǎn)度空間分布圖。
圖5 不同負(fù)樣本采樣方法下的滑坡危險(xiǎn)度空間分布
3.1 不同負(fù)樣本采樣方法下的建模精度和驗(yàn)證精度
建模精度是指模型對(duì)參與建模的126個(gè)訓(xùn)練樣本的分類(lèi)正確率。統(tǒng)計(jì)不同負(fù)樣本采樣方法下20次重復(fù)負(fù)樣本采樣的建模精度(圖6)可以發(fā)現(xiàn),TSES下的SVM建模精度較低(多分布在65%~75%之間),改進(jìn)的TSES下的SVM建模精度較高(多分布在80%~90%之間)。這說(shuō)明改進(jìn)的TSES方法下的SVM對(duì)訓(xùn)練樣本集的分類(lèi)準(zhǔn)確率要高于TSES方法。
圖6 建模精度盒
驗(yàn)證精度是指模型對(duì)未參與建模的16個(gè)正樣本的分類(lèi)正確率。統(tǒng)計(jì)不同負(fù)樣本采樣方法下20次重復(fù)負(fù)樣本采樣的驗(yàn)證精度(圖7)可以發(fā)現(xiàn),TSES下的SVM驗(yàn)證精度較低,且變異較大;改進(jìn)的TSES下的SVM驗(yàn)證精度較高,且變異較小。這說(shuō)明TSES方法下的SVM預(yù)測(cè)能力較低,模型的預(yù)測(cè)能力對(duì)訓(xùn)練樣本的敏感性較高,預(yù)測(cè)能力的穩(wěn)定性較差;而改進(jìn)的TSES方法下的SVM預(yù)測(cè)能力較高,其預(yù)測(cè)能力的穩(wěn)定性也較好。
圖7 驗(yàn)證精度盒
3.2 不同負(fù)樣本采樣方法下的模型有效性
不同負(fù)樣本采樣方法下重復(fù)20次采樣的危險(xiǎn)面積-滑坡點(diǎn)關(guān)系如圖8所示,圖8a為T(mén)SES方法下的危險(xiǎn)面積-滑坡點(diǎn)關(guān)系曲線,關(guān)系曲線大都呈線性,甚至有下凹趨勢(shì),某些實(shí)驗(yàn)中甚至要在100%的研究區(qū)面積內(nèi)才能識(shí)別出所有的滑坡點(diǎn),說(shuō)明滑坡危險(xiǎn)度空間分布圖對(duì)滑坡點(diǎn)的預(yù)測(cè)有效性較差。此外,關(guān)系曲線分布沒(méi)有統(tǒng)一的規(guī)律,說(shuō)明統(tǒng)計(jì)模型對(duì)該方法采集的負(fù)樣本敏感性較大。
圖8b為改進(jìn)TSES方法下的危險(xiǎn)面積-滑坡點(diǎn)關(guān)系曲線,關(guān)系曲線大都呈現(xiàn)明顯的上凸趨勢(shì),說(shuō)明SVM滑坡危險(xiǎn)度推測(cè)模型可以在較小的滑坡高危險(xiǎn)面積內(nèi)高效地識(shí)別出部分滑坡點(diǎn),模型可以在較小的面積內(nèi)(60%)識(shí)別出所有滑坡點(diǎn),滑坡點(diǎn)多落在推測(cè)滑坡危險(xiǎn)度高的區(qū)域,表明該采樣方法下SVM推測(cè)模型的有效性較高,也印證了在該采樣方法下模型較高的建模精度與驗(yàn)證精度。此外,關(guān)系曲線分布具有較強(qiáng)的規(guī)律性和一致性,說(shuō)明統(tǒng)計(jì)模型對(duì)該方法采集的負(fù)樣本敏感性較小。
本文通過(guò)對(duì)TSES方法存在的問(wèn)題進(jìn)行研究,提出一種改進(jìn)的TSES方法,不僅可以在環(huán)境特征空間中進(jìn)行負(fù)樣本采樣,而且使得采集的負(fù)樣本可以映射到地理空間中。本研究以SVM為推測(cè)模型,選擇隴南市油房溝流域?yàn)檠芯繀^(qū),在TSES與改進(jìn)的TSES兩種負(fù)樣本采樣方法下分別對(duì)油房溝流域構(gòu)建基于SVM的滑坡危險(xiǎn)度推測(cè)模型,推測(cè)油房溝的滑坡危險(xiǎn)度空間分布;對(duì)比分析兩種采樣方法下滑坡危險(xiǎn)度制圖精度,以驗(yàn)證改進(jìn)的TSES方法的有效性。研究發(fā)現(xiàn),改進(jìn)的TSES方法在基于SVM的滑坡危險(xiǎn)度制圖中的應(yīng)用效果好于TSES方法,其采集的負(fù)樣本可以極大提高SVM的建模精度和驗(yàn)證精度,也極大提高基于SVM的滑坡危險(xiǎn)度推測(cè)模型的有效性,表明改進(jìn)的TSES是一種有效的負(fù)樣本采樣方法。
圖8 不同負(fù)樣本采樣方法下的危險(xiǎn)面積-滑坡點(diǎn)關(guān)系曲線
[1] GUZZETTI F,CARRARA A,CARDINALI M,et al.Landslide hazard evaluation:A review of current techniques and their application in a multi-scale study,Central Italy[J].Geomorphology,1999,31:181-216.
[2] GUZZETTI F,REICHENBACH P,CARDINALI M,et al.Probabilistic landslide hazard assessment at the basin scale[J].Gepmorphology,2005,72(1-4):272-299.
[3] GUZZETTI F,REICHENBACH P,ARDIZZONE F,et al.Estimating the quality of landslide susceptibility models[J].Gepmorphology,2006,20(1-2):166-184.
[4] DAI F C,LEE C F,ZHANG X H.GIS-based geo-environmental evaluation for urban land-use planning:A case study[J].Engineering Geology,2001,61(4):257-271.
[5] 尹志華.基于RS和GIS技術(shù)對(duì)區(qū)域滑坡進(jìn)行高效快速敏感性評(píng)價(jià)的模型研究——以北川縣為例[D].成都:成都理工大學(xué),2011.
[6] CARRARA A,CARDINALI M,DETTI R,et al.GIS techniques and statistical models in evaluating landslide hazard[J].Earth Surface Processes and Landforms,1991,16:427-445.
[7] SUZEN M L,DOYURAN V.Data driven bivariate landslide susceptibility assessment using geographical information systems:A method and application to Asarsuyu catchment,Turkey[J].Engineering Geology,2004,71(3-4):303-321.
[8] DAS I,SAHOO S,CEES V W,et al.Landslide susceptibility assessment using logistic regression and its comparison with a rock mass classification system,along a road section in the northern Himalayas (India)[J].Geomorphology,2010,114:627-637.
[9] YILMAZ I.The effect of the sampling strategies on the landslide susceptibility mapping by conditional probability and artificial neural networks[J].Environmental Earth Sciences,2010,60:505-519.
[10] CARRARA A,CARDINALI M,GUZZETTI F,et al.GIS-based techniques for mapping landslide hazard[A].CARRARA A,GUZZETTI F.Geographical Information Systems in Assessing Natural Hazards[C].Kluwer Academic Publishers,Dordrecht,The Netherlands,1995.135-175.
[11] 祁元,劉勇,楊正華,等.基于GIS的蘭州滑坡與泥石流災(zāi)害危險(xiǎn)性分析[J].冰川凍土,2012,34(1):96-104.
[12] GUO Q H,MAGGI K,CATHERINE H G.Support vector machines for predicting distribution of Sudden Oak Death in California[J].Ecological Modelling,2005,182:75-90.
[13] HIRZEL A H,HELFER V,METRAL F.Assessing habitat-suitability models with a virtual species[J].Ecological Modelling,2001,145:111-121.
[14] HIRZEL A H,HAUSSER J,CHESSEL D,et al.Ecological-niche factor analysis:How to compute habitat-suitability maps without absence data [J].Ecology,2002,83:2027-2036.
[15] 方苗,張金龍,徐瑱.基于GIS和Logistic回歸模型的蘭州市滑坡災(zāi)害敏感性區(qū)劃研究[J].遙感技術(shù)與應(yīng)用,2011,24(6):845-852.
[16] XIAO C C,TIAN Y,SHI W Z,et al.A new method of pseudo absence data generation in landslide susceptibility mapping with a case study of Shenzhen[J].Science China Technological Sciences,2010,53(1):75-84.
[17] 諶文武,趙志福,劉高,等.蘭州-??诟咚俟犯拭C段工程地質(zhì)問(wèn)題研究[M].蘭州:蘭州大學(xué)出版社,2006.19-22.
[18] 陳耀乾.甘肅省武都縣地質(zhì)災(zāi)害調(diào)查與區(qū)劃報(bào)告[R].甘肅省地質(zhì)環(huán)境監(jiān)測(cè)總站,2001.
[19] 董抗甲.甘肅省舟曲縣地質(zhì)災(zāi)害調(diào)查與區(qū)劃報(bào)告[R].甘肅省地質(zhì)環(huán)境監(jiān)測(cè)總站,2003.
[20] ATKINSON P M,MASSARI R.Autologistic modelling of susceptibility to landsliding in the Central Apennines,Italy[J].Geomorphology,2011,130(1-2):55-64.
[21] BAI S B,LU P,WANG J.Landslide susceptibility assessment of the Youfang catchment using logistic regression[J].Journal of Mountain Science,2015,12(4):816-827.
[22] BAI S B,WANG J,LU G N,et al.GIS-based and data-driven bivariate landslide-susceptibility mapping in the Three Gorges Area,China[J].Pedosphere,2009,19:14-20.
[23] 傅文杰.GIS支持下基于支持向量機(jī)的滑坡危險(xiǎn)性評(píng)價(jià)[J].地理科學(xué),2008,28(6):838-841.
[24] 李秀珍,孔紀(jì)名,王成華.多分類(lèi)支持向量機(jī)在滑坡穩(wěn)定性判識(shí)中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào)(地球科學(xué)版),2010,40(3):631-637.
[25] XU C,XU X W,DAI F C.Comparison of different models for susceptibility mapping of earthquake triggered landslides related with the 2008 Wenchuan earthquake in China[J].Computers & Geosciences,2012,46:317-329.
[26] XU C,DAI F C,XU X W,et al.GIS-based support vector machine modeling of earthquake-triggered landslide susceptibility in the Jianjiang River watershed,China[J].Geomorphology,2012,145:70-80.
[27] PRADHAN B.A comparative study on the predictive ability of the decision tree,support vector machine and neuro-fuzzy models in landslide susceptibility mapping using GIS[J].Computers & Geosciences,2013,51:350-365.
[28] 姜琪文,許強(qiáng),何政偉.基于SVM多類(lèi)分類(lèi)的滑坡區(qū)域危險(xiǎn)性評(píng)價(jià)方法研究[J].地質(zhì)災(zāi)害與環(huán)境保護(hù),2005,16(3):328-330.
[29] 胡德勇,李京,陳云浩,等.GIS支持下滑坡災(zāi)害空間預(yù)測(cè)方法研究[J].遙感學(xué)報(bào),2007,11(6):852-859.
[30] CHANG C C,LIN C J.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.
A New Method of Pseudo Absence Data Generation in Landslide Susceptibility Mapping
MIAO Ya-min1,ZHU A-xing1,2,3,YANG Lin2,BAI Shi-biao1,ZENG Can-ying1
(1.KeyLaboratoryofVirtualGeographicEnvironment(NanjingNormalUniversity),MinistryofEducation;StateKeyLaboratoryCultivationBaseofGeographicalEnvironmentEvolution(JiangsuProvince);JiangsuCenterforCollaborativeInnovationinGeographicalInformationResourceDevelopmentandApplication,Nanjing210023,China;2.StateKeyLaboratoryofResourcesandEnvironmentalInformationSystem,InstituteofGeographicSciencesandNaturalResourcesResearch,ChineseAcademyofSciences,Beijing100101,China;3.DepartmentofGeography,UniversityofWisconsin-Madison,Madison,WI53706,USA)
Landslide absence data plays an important role in statistical methods for landslide susceptibility mapping.It can constrain the overestimation of predicted landslide susceptibility value and distinguish landslide susceptible areas from safe areas reasonably.Target Space Exteriorization Sampling (TSES) is the representative one of the methods of pseudo absence data generation in environment feature space.It has been demonstrated to have good performance in landslide susceptibility mapping.However,the pseudo absence data it generated is virtual,which can only exist in the environment feature space and cannot be mapped into the geographic space,making it impossible to validate in the field work.In this paper,an improved method based on TSES is proposed to generate pseudo absence data.The improved method generates pseudo absence data in the environment feature space and the generated data can be mapped into the geographic space.To verify the validity of the improved TSES,Youfang catchment,in the south of Gansu Province,is used as the study area and Support Vector Machine (SVM) is used to predict landslide susceptibility value across the study area.Moreover,TSES is also applied in the study area to be compared with the improved TSES in the aspects of the predictive accuracy and validity for landslide susceptibility mapping.Results show that pseudo absence data generated from the improved TSES has better performance than that from TSES in landslide susceptibility mapping based on SVM.This indicates that the improved TSES is an effective method in generating pseudo absence data.
method of pseudo absence data generation;environment feature space;landslide susceptibility mapping
2015-12-05;
2016-01-27
國(guó)家自然科學(xué)基金項(xiàng)目(41431177、41471178);江蘇省高校自然科學(xué)研究重大項(xiàng)目(14KJA170001);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃973項(xiàng)目(2015CB954102);中國(guó)科技部與歐洲空間局對(duì)地觀測(cè)領(lǐng)域重大國(guó)際科技合作項(xiàng)目“龍計(jì)劃”三期項(xiàng)目(10606);2015江蘇省重點(diǎn)研發(fā)計(jì)劃(社會(huì)發(fā)展)項(xiàng)目(BE2015704)
繆亞敏(1991-),女,碩士研究生,從事滑坡危險(xiǎn)度評(píng)價(jià)研究。*通訊作者E-mail:yanglin@lreis.ac.cn
10.3969/j.issn.1672-0504.2016.04.011
P208;P642.22
A
1672-0504(2016)04-0061-07