陳曙東
(西安工程大學(xué)電子信息學(xué)院,西安 710600)
滑坡、泥石流等地質(zhì)災(zāi)害作為目前影響我國(guó)人民生命財(cái)產(chǎn)的重要威脅來(lái)源,其發(fā)生有規(guī)模大、范圍廣的特點(diǎn),且具有突發(fā)性[1-2]。特別是在丘陵山區(qū),地殼運(yùn)動(dòng)劇烈,同時(shí)由于人類對(duì)山區(qū)進(jìn)行改建擴(kuò)建等相關(guān)活動(dòng),地質(zhì)災(zāi)害頻繁發(fā)生。根據(jù)2005~2019年我國(guó)災(zāi)害發(fā)生的相關(guān)數(shù)據(jù)的分類統(tǒng)計(jì),滑坡災(zāi)害類型的發(fā)生占比達(dá)到了72.16%,因此預(yù)測(cè)滑坡災(zāi)害的發(fā)生是非常有必要的[3-4]。我國(guó)學(xué)者針對(duì)滑坡災(zāi)害的研究雖晚于國(guó)外學(xué)者,但成果顯著。于懷昌[5]將物聯(lián)網(wǎng)技術(shù)應(yīng)用于多傳感器組網(wǎng)中,在欒川魏家溝滑坡實(shí)時(shí)監(jiān)測(cè)項(xiàng)目上得到了應(yīng)用,為滑坡成災(zāi)參數(shù)選取提供一種新的可行性判據(jù)。但已有的模型都存在模型單一、預(yù)測(cè)精確度較低等問(wèn)題。隨著科技不斷進(jìn)步,新的預(yù)報(bào)模型不斷涌現(xiàn),集成學(xué)習(xí)算法逐漸被廣泛應(yīng)用。王茜[6]等人在多個(gè)數(shù)值預(yù)報(bào)模型的基礎(chǔ)上建立了集合預(yù)報(bào)模式系統(tǒng),使得空氣日均濃度模擬相關(guān)系數(shù)達(dá)到了0.5~0.6,相關(guān)成果在上海世博會(huì)的空氣質(zhì)量預(yù)警中得到了應(yīng)用,取得很好的效果。針對(duì)影響因素的選取問(wèn)題,汪國(guó)新[7]、黃亮[8]、陳樂(lè)瑞[9]等引入了核主成分分析法,通過(guò)該方法對(duì)影響因素進(jìn)行降維,篩選出主要影響因素,降低了模型復(fù)雜度,避免了維數(shù)災(zāi)難等問(wèn)題的產(chǎn)生。
在此以陜西省山陽(yáng)縣相關(guān)監(jiān)測(cè)數(shù)據(jù)為研究對(duì)象。山陽(yáng)縣位于陜西省東南部,地處秦嶺南麓,是一個(gè)“八山一水一分田”的土石山區(qū)。在地形上,呈現(xiàn)出“三山夾兩江”的特點(diǎn)。這也導(dǎo)致了研究區(qū)地質(zhì)災(zāi)害發(fā)生較為頻繁的特點(diǎn),地質(zhì)災(zāi)害造成的損失嚴(yán)重的影響了人民群眾的生命財(cái)產(chǎn)安全。采用核主成分分析法選取預(yù)報(bào)參數(shù),基于Logistic回歸算法建立了基于滑坡災(zāi)害發(fā)生概率預(yù)報(bào)模型,并將該模型成功應(yīng)用于陜西省山陽(yáng)縣滑坡重點(diǎn)災(zāi)害實(shí)驗(yàn)區(qū),為滑坡災(zāi)害的預(yù)報(bào)及治理提供了一條新思路。
通過(guò)對(duì)陜西省山陽(yáng)縣地質(zhì)災(zāi)害的影響因子做相關(guān)的調(diào)查和分析[10],發(fā)現(xiàn)影響因子不僅與地質(zhì)條件或者山體內(nèi)部的巖層有關(guān),與部分外部因素也存在一定的關(guān)系,但是這些因素對(duì)最終的影響結(jié)果也存在差異。對(duì)此,通過(guò)核主成分分析法[11]篩選得到影響滑坡災(zāi)害的主要因子,將各個(gè)影響因子根據(jù)重要性進(jìn)行排序和選擇,減少了模型訓(xùn)練時(shí)間。由于在高維空間中成災(zāi)因子的選取是一個(gè)非線性的問(wèn)題,KPCA方法易于處理非線性問(wèn)題,特別是對(duì)于高維空間中成災(zāi)因子的選取上有一定的優(yōu)勢(shì),在降維篩選中應(yīng)用廣泛。KPCA方法實(shí)現(xiàn)的具體過(guò)程如下:
令樣本集為:X={x1,x2,...,xM},其中xk∈RN為列向量;M為樣本總數(shù)。協(xié)方差矩陣如下式:
其中,φ為滿足的非線性映射。
對(duì)C進(jìn)行特征分解:令λν=Cν;其中特征向量ν是由φ(x1),φ(x2),...,φ(xM)組成的空間。
當(dāng)所有特征值λ≥0時(shí),得到表達(dá)式:
式中:k,r=1,2,...,M,νr為φ(x)的線性組合:
定義M×M維矩陣K,定義內(nèi)積為Kij=<φ(xi)·?φ(xj)>,式中i,j=1,2,...,M,將式(1)和式(2)帶入式(3)得到:
其中,Mλr和cr是對(duì)應(yīng)于K的特征值和特征向量。求得樣本φ(x)在特征向量的投影:
式中,r=p,p+1,...,M,g(x)為對(duì)應(yīng)于φ(x)的非線性主元分量,所有投影形成一個(gè)矢量。
求解g(x)時(shí),利用Mercer定理,使用核函數(shù):
代替空間的點(diǎn)積運(yùn)算,則:
當(dāng)φ(x)的均值不為0時(shí),空間樣本變?yōu)椋?/p>
最后按照如下二式計(jì)算各成分的貢獻(xiàn)率Q及累計(jì)貢獻(xiàn)率Qall:
Logistic回歸(邏輯回歸)算法是一種廣義的線性回歸分析模型,由于其易于實(shí)現(xiàn)、解釋性好、容易擴(kuò)展等優(yōu)點(diǎn)廣泛應(yīng)用于概率預(yù)測(cè)領(lǐng)域。和一般線性回歸模型不同的是,邏輯回歸模型是通過(guò)sigmoid函數(shù)將輸出的值限定在區(qū)間[0,1]上。算法中引入的sigmoid函數(shù)形式如下:
線性回歸模型為:z=wTx+b;邏輯回歸模型是在線性回歸的基礎(chǔ)上,使用sigmoid函數(shù),將線性模型的結(jié)果壓縮到[0,1]之間,使其擁有概率意義。因此邏輯回歸函數(shù)可變換為:
對(duì)公式(12)取對(duì)數(shù)得:
在給定樣本x的條件下,將該樣本類別為1的概率視為類后驗(yàn)概率。因?yàn)椋篜(y=1|x)+P(y=0|x)=1,則公式(13)可重寫(xiě)為:
給定訓(xùn)練數(shù)據(jù)集Z={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈RN,yi∈(0,1)用極大似然估計(jì)法估計(jì)模型參數(shù)w。設(shè)P(y=1|x)=f(x),P(y=0|x)=1,已知似然函數(shù),則對(duì)數(shù)似然函數(shù)為:
對(duì)式(15)對(duì)w求偏導(dǎo),令L(w)=0,便可求解出w:
由于L(w)為上凸函數(shù),對(duì)式(16)乘以-1,即可變?yōu)橄峦购瘮?shù),此時(shí)利用梯度下降法求解最小值,即:
出于實(shí)驗(yàn)需要,選取陜西省山陽(yáng)縣地質(zhì)災(zāi)害監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù)作為模型數(shù)據(jù)集,采用前80%的數(shù)據(jù)作為訓(xùn)練集,后20%的數(shù)據(jù)作為測(cè)試集。通過(guò)對(duì)數(shù)據(jù)的初步篩選,共選取100組樣本作為滑坡預(yù)報(bào)模型的數(shù)據(jù)集。選取前80組數(shù)據(jù)作為滑坡預(yù)報(bào)模型的訓(xùn)練集,后20組數(shù)據(jù)作為測(cè)試集,用來(lái)驗(yàn)證預(yù)報(bào)模型的準(zhǔn)確性。通過(guò)相關(guān)資料分析得到影響滑坡發(fā)生的12個(gè)主要影響因子:土壤含水率;雨量流量;坡形特征;溫濕度;斜坡傾角;降雨量;裂縫位移;區(qū)蒸發(fā)量;岸坡水文地質(zhì)條件;高程;孔隙水壓力;土壓力。對(duì)研究區(qū)監(jiān)測(cè)點(diǎn)的歷史數(shù)據(jù)進(jìn)行研究,利用歸一化的方法對(duì)數(shù)據(jù)進(jìn)處理,隨后采用KPCA方法進(jìn)行篩選。
根據(jù)相關(guān)工程實(shí)踐經(jīng)驗(yàn),將滑坡體影響因素的主成分累積貢獻(xiàn)率設(shè)定在80%。貢獻(xiàn)率計(jì)算結(jié)果如表1。可見(jiàn),前6個(gè)影響因素的累計(jì)貢獻(xiàn)率已經(jīng)滿足實(shí)驗(yàn)設(shè)定要求,因此將這些影響因子作為預(yù)報(bào)模型的輸入?yún)?shù)。
表1 滑坡體影響因素特征值及各主成分貢獻(xiàn)率
在上述因子選取的基礎(chǔ)上,選取降雨量、土壤含水率、土壓力、裂縫位移、斜坡傾角、高程這6個(gè)變量作為滑坡預(yù)報(bào)模型的主要輸入變量,所構(gòu)建的樣本模型結(jié)構(gòu)如圖1。在此模型基礎(chǔ)上,利用邏輯回歸算法對(duì)滑坡發(fā)生概率進(jìn)行訓(xùn)練。部分樣本數(shù)據(jù)如表2所示。
圖1 訓(xùn)練樣模型構(gòu)建
表2 部分樣本數(shù)據(jù)
將驗(yàn)證的20組數(shù)據(jù)數(shù)據(jù)輸入上述模型進(jìn)行驗(yàn)證。預(yù)測(cè)值與實(shí)際值的對(duì)比情況如圖2所示。
圖2 模型預(yù)測(cè)結(jié)果對(duì)比
由圖可見(jiàn),Logistic回歸算法預(yù)測(cè)值與實(shí)際值較為接近,僅部分值存在差異,相關(guān)預(yù)測(cè)結(jié)果滿足實(shí)驗(yàn)預(yù)期。所建模型已成功應(yīng)用到山陽(yáng)縣重點(diǎn)災(zāi)區(qū)實(shí)驗(yàn)區(qū),展示出了較高預(yù)測(cè)準(zhǔn)確率和良好的收斂性。
首次將Logistic回歸算法應(yīng)用到滑坡災(zāi)害概率預(yù)測(cè)中。通過(guò)詳細(xì)討論KPCA核主成分分析法及建立Logistic回歸算法預(yù)測(cè)模型,采用了KPCA方法將初始12種滑坡災(zāi)害影響因子降維至6維,降低了模型結(jié)構(gòu)復(fù)雜度,避免維數(shù)災(zāi)難的發(fā)生,所建立的預(yù)報(bào)模型采用陜西省山陽(yáng)縣的部分監(jiān)測(cè)點(diǎn)的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了驗(yàn)證。然而預(yù)測(cè)災(zāi)害發(fā)生時(shí)間的方法還需進(jìn)一步深入研究。后續(xù)工作的重點(diǎn)應(yīng)放在尋找針對(duì)與時(shí)序具有相關(guān)性的預(yù)測(cè)模型進(jìn)行研究,從而更準(zhǔn)確、更有效的對(duì)滑坡災(zāi)害發(fā)生時(shí)間點(diǎn)進(jìn)行預(yù)測(cè)、預(yù)報(bào)。