肖義龍林利森趙 鵬
(1.江西省水投華東設(shè)計(jì)有限公司,江西南昌 300029;2.江西省安瀾工程咨詢有限公司,江西南昌 330001;3.西安中糧工程研究設(shè)計(jì)院有限公司,陜西西安 710082)
基于高斯過(guò)程分類的堤基管涌發(fā)生可能性識(shí)別方法
肖義龍1林利森2趙 鵬3
(1.江西省水投華東設(shè)計(jì)有限公司,江西南昌 300029;2.江西省安瀾工程咨詢有限公司,江西南昌 330001;3.西安中糧工程研究設(shè)計(jì)院有限公司,陜西西安 710082)
管涌是導(dǎo)致堤基滲透變形破壞的主要原因之一,其影響因素眾多且各因素之間又存在高度的非線性關(guān)系。因此,本文提出了一種基于高斯分類模型的堤防管涌發(fā)生可能性識(shí)別的新方法。首先,通過(guò)數(shù)學(xué)實(shí)例對(duì)比展示該方法的優(yōu)越性,進(jìn)而將該方法應(yīng)用于工程實(shí)例中,結(jié)果表明該方法是可行的,且模型具有參數(shù)自適應(yīng)確定、容易實(shí)現(xiàn)且識(shí)別精度高等優(yōu)點(diǎn),對(duì)于迅速識(shí)別堤基管涌發(fā)生的可能性具有重要的實(shí)際應(yīng)用價(jià)值。
高斯過(guò)程分類;堤防工程;管涌識(shí)別;機(jī)器學(xué)習(xí)
江西省境內(nèi)水系發(fā)達(dá),河流眾多,其中贛江、撫河、信江、饒河和修河統(tǒng)稱“五河”。江西省計(jì)劃投資約135.3億元治理“五河”,其中堤線長(zhǎng)度達(dá)到1848km,是江西省有史以來(lái)水利“打捆”最大的工程項(xiàng)目。截至2007年底,全省建成堤防4000余條,堤防總長(zhǎng)9753km??梢姷谭赖暮笃诠芾砗途S護(hù)工作任務(wù)重,能夠高效、準(zhǔn)確地識(shí)別出危險(xiǎn)堤段就顯得尤其重要。然而,導(dǎo)致堤段出現(xiàn)險(xiǎn)情(堤防失穩(wěn)、坍塌、潰堤等)的主要原因就是堤基的滲透變形破壞,其中管涌[1]便是滲透變形的主要類型。因此,及時(shí)、準(zhǔn)確判定和預(yù)報(bào)堤防工程管涌險(xiǎn)情對(duì)于防汛搶險(xiǎn)、保護(hù)人民生命財(cái)產(chǎn)安全具有重要的社會(huì)和經(jīng)濟(jì)效益。
近年來(lái),國(guó)內(nèi)外學(xué)者針對(duì)管涌的判定和識(shí)別提出了不同的方法,如水頭分析法[2]、室內(nèi)模型試驗(yàn)法[3]、管涌數(shù)值模擬法[4-5]等。以上傳統(tǒng)方法由于受到試驗(yàn)條件、模擬條件假設(shè)等方面的限制,很難將多種影響因素綜合考慮。一些學(xué)者將人工智能方法如BP人工神經(jīng)網(wǎng)絡(luò)[6-7]、支持向量機(jī)[8]等應(yīng)用于堤基的管涌可能性識(shí)別,較傳統(tǒng)方法有了一定的突破,但是鑒于這些方法本身還存在著一些不完善之處,如神經(jīng)網(wǎng)絡(luò)的過(guò)分依賴樣本質(zhì)量、拓?fù)浣Y(jié)構(gòu)不穩(wěn)定等,支持向量機(jī)的核函數(shù)、損失函數(shù)等參數(shù)難以確定,為此,有必要探討一種新的管涌發(fā)生可能性識(shí)別方法。
高斯過(guò)程機(jī)器學(xué)習(xí)方法是近年來(lái)發(fā)展起來(lái)的一種新的人工智能方法,憑借嚴(yán)格的統(tǒng)計(jì)學(xué)習(xí)理論體系,在處理高度非線性、少樣本等復(fù)雜的問(wèn)題中表現(xiàn)出顯著的優(yōu)勢(shì)[9-10],現(xiàn)已成為國(guó)際人工智能研究領(lǐng)域的熱點(diǎn)。
因此,本文通過(guò)高斯過(guò)程機(jī)器學(xué)習(xí)方法中的二元分類模型構(gòu)建管涌?jī)?nèi)部各因素之間的非線性映射關(guān)系,通過(guò)分類方法識(shí)別出管涌發(fā)生的可能性,為堤基管涌提前預(yù)判提供了一條解決途徑。
高斯過(guò)程機(jī)器學(xué)習(xí)方法的理論基礎(chǔ)是高斯隨機(jī)過(guò)程與貝葉斯學(xué)習(xí)理論。高斯過(guò)程二元分類(Gaussian Process for Binary Classification,GPC)模型是高斯過(guò)程機(jī)器學(xué)習(xí)方法的一種應(yīng)用,另外一種是高斯過(guò)程回歸模型[11]。
在GPC模型中,設(shè)一個(gè)隨機(jī)變量x相對(duì)應(yīng)的輸出值為二元分類標(biāo)簽y,y∈{-1,1}。GPC模型的目的就是通過(guò)學(xué)習(xí)一定數(shù)量的樣本構(gòu)建隨機(jī)變量與分類標(biāo)簽之間的映射關(guān)系,隨后對(duì)測(cè)試隨機(jī)變量x*進(jìn)行分類識(shí)別出對(duì)應(yīng)的標(biāo)簽y*。
對(duì)于確定的x,p(y|x)服從伯努利分布,y=1的概率為
其中,f(x)稱為潛在函數(shù);Φ(·)稱為標(biāo)準(zhǔn)高斯分布的累計(jì)概率密度函數(shù),一般取sigmoid函數(shù)
利用該函數(shù)的目的主要是將區(qū)間約束f(x)轉(zhuǎn)換為[0,1]區(qū)間的函數(shù)值,從而保證概率值落在[0,1]區(qū)間。
假設(shè)fi=f(xi),f=[f1…,fm]T,y=[y1…,ym]T,X=[x1…,xm]T。對(duì)于給定的潛在函數(shù)f,觀察值y是服從獨(dú)立的伯努利分布,其似然函數(shù)為
潛在函數(shù)f的先驗(yàn)分布滿足
其中,K為m×m階協(xié)方差矩陣,Kij=k(xi,xj,θ);K( )表示與θ有關(guān)的正定協(xié)方差函數(shù);θ稱為超參數(shù)。
常用的協(xié)方差函數(shù)為
其中,θ={l,σf}稱之為超參數(shù),可由極大似然法自適應(yīng)獲得[12]。
通過(guò)不斷獲得實(shí)測(cè)值后,依據(jù)貝葉斯理論,潛在函數(shù)f的后驗(yàn)分布為
注意上式中潛在函數(shù)f的后驗(yàn)分布并非滿足高斯分布。
與x*對(duì)應(yīng)的潛在函數(shù)值f*的條件概率為
y*的預(yù)測(cè)概率為
當(dāng)y*的預(yù)測(cè)概率值大于0.5時(shí),y*=1,否則y*=-1。
但是,當(dāng)式(6)、式(7)和式(8)均沒有解析解時(shí),可采用Expectation Propagation法求得近似解[12],則f的后驗(yàn)分布的近似分布滿足
m和A對(duì)應(yīng)近似解的均值和方差,潛在函數(shù)f后驗(yàn)分布的近似高斯分布滿足
其中,μ=(μ1,…,μm),Σ=diag()。
同樣,f*的后驗(yàn)分布可假設(shè)滿足近似的高斯分布
其中的均值和方差為
其中,k*=[k(x1,x*),…,k(xm,x*)]T表示x*與學(xué)習(xí)樣本隨機(jī)變量X之間的先驗(yàn)協(xié)方差矢量。
由非高斯分布轉(zhuǎn)換為近似高斯分布的逼近方法處理后,就可以獲得x*屬于第1類的預(yù)測(cè)概率解析解
當(dāng)q>0.5時(shí),y*=1,否則y*=-1。
為了更好地反映出GPC模型在處理少樣本、高度非線性等復(fù)雜問(wèn)題上具有良好適應(yīng)性,在此首先針對(duì)數(shù)學(xué)函數(shù)進(jìn)行測(cè)試[12]:
首先學(xué)習(xí)樣本的隨機(jī)變量x1∈[0,7]、x2∈[0,6]在各自范圍內(nèi)等間距離散取14個(gè)數(shù)值,并兩兩組合成196個(gè)隨機(jī)變量X,然后對(duì)其函數(shù)值進(jìn)行識(shí)別,如f(X)>0,則對(duì)應(yīng)取標(biāo)簽1;否則取標(biāo)簽-1。從而構(gòu)建GPC模型的196個(gè)學(xué)習(xí)樣本。初始超參數(shù)為(1,1),設(shè)置共軛梯度優(yōu)化算法最大迭代步數(shù)為200,計(jì)算所得的最優(yōu)超參數(shù)為:l=1.1742,σf= 204.7967。最后通過(guò)已經(jīng)建立的GPC模型對(duì)函數(shù)進(jìn)行擬合,其效果見下圖(a)。
采用GPC擬合時(shí),其擬合效果較支持向量機(jī)[13]有一定的提高,同時(shí)不存在參數(shù)選擇難等問(wèn)題,其主要原因是模型對(duì)應(yīng)的最優(yōu)超參數(shù)都是通過(guò)極大似然法自適應(yīng)獲取的。因此,GPC模型對(duì)于這種高度非線性函數(shù)的分類邊界擬合精度較SVM有明顯提高,見下圖(b)。
模型的分類邊界擬合效果對(duì)比圖
3.1 主要影響指標(biāo)的確定
對(duì)于堤基管涌的發(fā)生機(jī)理國(guó)內(nèi)外學(xué)者研究眾多,其中大部分學(xué)者[1-5]認(rèn)為影響顯著的因素包括壩高H、壩前水深Hp、下游邊坡坡比m、土的有效黏聚力c、有效內(nèi)摩擦角φ、飽和單位容重γ、滲透系數(shù)K、最大有效粒徑db、下游濾層傾角δ共9個(gè)。
3.2 GPC模型建立步驟
a.利用文獻(xiàn)[6,8]中提供的17組數(shù)據(jù)資料建立學(xué)習(xí)樣本(xi,yi)(i=1,2,…,9),其中輸入隨機(jī)變量xi代表影響管涌發(fā)生可能性的9個(gè)主要影響因素?cái)?shù)值,輸出量yi將堤防管涌發(fā)生可能性λ識(shí)別分為管涌穩(wěn)定(輸出標(biāo)簽為1)、管涌破壞(輸出標(biāo)簽為-1)。
b.為了更好地消除因素之間的數(shù)量級(jí)差異,使GPC模型獲取更好的學(xué)習(xí)效果,有必要對(duì)學(xué)習(xí)樣本進(jìn)行標(biāo)準(zhǔn)化處理:
c.由GPC模型對(duì)學(xué)習(xí)樣本進(jìn)行學(xué)習(xí),獲得適合學(xué)習(xí)樣本的最優(yōu)超參數(shù)l、σf。
d.利用訓(xùn)練成功的GPC模型對(duì)測(cè)試隨機(jī)變量x*進(jìn)行管涌發(fā)生的可能性識(shí)別類型y*。
3.3 識(shí)別效果分析
采用文獻(xiàn)[8]中表2的6個(gè)試驗(yàn)數(shù)據(jù)作為測(cè)試樣本,見下表。
對(duì)學(xué)習(xí)樣本進(jìn)行學(xué)習(xí),超參數(shù)初始值假設(shè)為(1,1),以訓(xùn)練樣本的極大似然為目標(biāo),采用共軛梯度優(yōu)化算法搜索最優(yōu)超參數(shù)。設(shè)置收斂標(biāo)準(zhǔn)為最大迭代步數(shù)為200。獲得最優(yōu)超參數(shù)值:l=3.8017,σf= 52.7776。
GPC分類模型的可能性識(shí)別結(jié)果見下表,從中可以看出,GPC模型對(duì)堤防管涌發(fā)生可能性識(shí)別準(zhǔn)確,評(píng)估結(jié)果與實(shí)際結(jié)果非常吻合。因此,將GPC分類模型用于堤防管涌發(fā)生可能性識(shí)別是可行的,并且由于GPC模型相比SVM分類模型不受參數(shù)設(shè)置的限制,更有必要將該方法引入到堤基管涌可能性發(fā)生的識(shí)別中,使其盡早在實(shí)際工程應(yīng)用中發(fā)揮應(yīng)有的經(jīng)濟(jì)效益。
堤防管涌識(shí)別模型測(cè)試樣本表
a.傳統(tǒng)方法由于受現(xiàn)場(chǎng)條件和試驗(yàn)假設(shè)的影響,難以較好地處理堤基管涌與9個(gè)主要影響因素之間的高維度非線性關(guān)系,而高斯過(guò)程機(jī)器學(xué)習(xí)方法憑借其嚴(yán)格的統(tǒng)計(jì)理論基礎(chǔ)實(shí)現(xiàn)了高精度地?cái)M合這種非線性關(guān)系。實(shí)例分析表明,GPC分類模型是可行的,并且可以給出準(zhǔn)確可靠的分類結(jié)果,實(shí)現(xiàn)了對(duì)管涌發(fā)生可能性作出提前識(shí)別。
b.GPC分類模型雖然可以較好地處理學(xué)習(xí)樣本少的分類問(wèn)題,但是,要想獲得更好的識(shí)別精度,學(xué)習(xí)樣本的質(zhì)量是至關(guān)重要的。因此,在工程實(shí)際應(yīng)用中,如何獲取高質(zhì)量的樣本來(lái)完善自身的學(xué)習(xí)樣本資料庫(kù)值得作進(jìn)一步深入的研究。
c.高斯過(guò)程機(jī)器學(xué)習(xí)方法憑借其嚴(yán)格的統(tǒng)計(jì)理論基礎(chǔ)、超參數(shù)自適應(yīng)獲取等優(yōu)點(diǎn),現(xiàn)已成為人工智能方法領(lǐng)域的研究熱點(diǎn)。因此,在工程類型判別方面擁有廣泛的應(yīng)用前景[14-15]。
[1] 毛昶熙,等.堤防工程手冊(cè)[M].北京:中國(guó)水利水電出版社,2009:35-40.
[2] CHEN Yifeng,HU Ran,ZHOU Chuangbing,etal.A new parabolic variational inequality formulation of Signorini’s condition for nonsteady seepage problems with complex seepage control systems[J]. International Jounrnal for Numerical and Analttical Methods in Geomechanics,2011(35):1034-1058.
[3] 李廣信,周曉杰.堤基管涌發(fā)生發(fā)展過(guò)程的試驗(yàn)?zāi)M[J].水利水電科技進(jìn)展,2005,25(6):21-24.
[4] 周健,白彥峰,姚志雄.管涌型土濾層防治的細(xì)觀試驗(yàn)研究[J].水利學(xué)報(bào),2010,41(4):390-397.
[5] 張剛.管涌現(xiàn)象細(xì)觀機(jī)理的模型試驗(yàn)與顆粒流數(shù)值模擬研究[D].同濟(jì)大學(xué),2007:32-40.
[6] 張我華,余功栓,蔡袁強(qiáng).堤與壩管涌發(fā)生的機(jī)理及人工智能預(yù)測(cè)與評(píng)定[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2004,38(7):902-908.
[7] 趙正信,陳建生,陳亮.無(wú)黏性土管涌型土的BP神經(jīng)網(wǎng)絡(luò)判別法研究[J].巖土工程學(xué)報(bào),2008,30(4):536-540.
[8] 翟越,劉浪,于澍.堤防管涌發(fā)生可能性識(shí)別的網(wǎng)格搜索——支持向量機(jī)方法[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,46(4):1497-1503.
[9] 張研,蘇國(guó)韶,燕柳斌.水庫(kù)水溫分布結(jié)構(gòu)識(shí)別的高斯過(guò)程機(jī)器學(xué)習(xí)方法[J].水利水電科技進(jìn)展,2009,29(2):13-15,39.
[10] 彭立峰,蘇國(guó)韶,王志成,等.基于高斯過(guò)程分類與蒙特卡洛模擬的巖土工程結(jié)構(gòu)可靠度分析方法[J].科學(xué)技術(shù)與工程,2013,13(21):6150-6156.
[11] 林利森,肖義龍.基于高斯過(guò)程的混凝土強(qiáng)度預(yù)測(cè)[J].江西水利科技,2014,40(3):219-223.
[12] KUSS M,RASMUSSEN C E.Assessing approximate inference for binary Gaussian process classification[J].Journal of machine learning research,2005(6):1679-1704.
[13] Anirban Basudhar,Samy Missoum,Antonio Harrison Sanchez.Limit state function identification using Support Vector Machines for discontinuous responses and disjoint failure domains[J].Probabilistic Engineering Mechanics,2008(23):1-11.
[14] 蘇國(guó)韶,陳光強(qiáng),呂海波.高斯過(guò)程機(jī)器學(xué)習(xí)在膨脹土等級(jí)分類中的應(yīng)用[J].路基工程,2009,2(143):1-2.
[15] 張研,蘇國(guó)韶,燕柳斌.基于高斯過(guò)程機(jī)器學(xué)習(xí)的巖爆等級(jí)識(shí)別方法[J].地下空間與工程學(xué)報(bào),2011,7(2):392-397.
Identification method of levee foundation piping possibility based on Gaussian process classification
XIAO Yilong1,LIN Lisen2,ZHAO Peng3
(1.Jiangxi Shuitou East China Design Co.,Ltd.,Nanchang 300029,China;2.Jiangxi Anlan Engineering Consulting Co.,Ltd.,Nanchang 330001,China;3.Xi′an Cofco Engineering Research and Design Institute Co.,Ltd.,Xi'an 710082,China)
Piping is one of main causes of levee foundation seepage deformation and destruction.It is affected by many factors,and there is a highly nonlinear relationship among all factors.Therefore,a new method of recognizing levee piping possibility based on Gaussian disaggregated model is proposed.Firstly,the superiority of the method is displayed through math example contrast,thereby the method is applied in engineering example.The result shows that the method is feasible,the model has advantages of parameter adaptive determination,easy realization,high recognition precision,etc.It has important practical application value to quickly recognize the possibility of levee foundation piping.
Gaussian process classification;levee engineering;identification of piping;mechanical learning
TV871
B
1673-8241(2016)09-0055-04
10.16617/j.cnki.11-5543/TK.2016.09.013