李瑞光 臧國(guó)輕
摘 要: 為解決土石壩滲流監(jiān)測(cè)數(shù)據(jù)的分析問(wèn)題,采用基于主成分分析的支持向量機(jī)法,對(duì)某均質(zhì)壩體內(nèi)滲流浸潤(rùn)線的監(jiān)測(cè)數(shù)據(jù)建立了預(yù)測(cè)模型,并針對(duì)壩體內(nèi)的測(cè)壓管水位進(jìn)行了具體計(jì)算預(yù)測(cè)。結(jié)果表明,主成分分析法可以有效降維,并較好的綜合反映壩體內(nèi)測(cè)壓管水位的主要影響因素;預(yù)測(cè)值與實(shí)測(cè)值的誤差分析結(jié)果表明,支持向量機(jī)模型在小樣本壩體監(jiān)測(cè)數(shù)據(jù)分析預(yù)測(cè)方面的精度較高,該模型可為其他類(lèi)似工程監(jiān)測(cè)數(shù)據(jù)的分析預(yù)測(cè)提供新的方法。
關(guān)鍵詞: 支持向量機(jī); 壩體監(jiān)測(cè); 主成分分析; 預(yù)測(cè)模型
中圖分類(lèi)號(hào):TP301.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2018)06-05-04
Prediction model of dam seepage monitoring data with principal component analysis
based support vector machine
Li Ruiguang1, Zang Guoqing2
(1. Foreign Language Teaching Department of University, Henan University, Kaifeng, Henan 475001, China; 2. Henan University)
Abstract: Adopting the principal component analysis based support vector machine method, a predictive analysis model of dam monitoring is established, and applied to dam seepage monitoring. The piezometric level in a dam is also forecasted by this model. The comparison of measured results with predicted results shows that the principal component analysis method can decrease the dimensions of measured result effectively, and better reflects major effect factors of piezometric level in dam. Error analysis of the model shows that the support vector machine method has higher forecast precision in small samples, it provides a new way of forecasting seepage monitoring of dam, and the model offers a useful reference for other similar project as well.
Key words: support vector machine; dam monitoring; principal component analysis; predictive model
0 引言
中國(guó)水庫(kù)的建設(shè)數(shù)量在所有國(guó)家中位居前列,這些工程建成之后對(duì)水庫(kù)和壩體進(jìn)行有效的運(yùn)行管理和安全監(jiān)測(cè)顯得尤為重要。在這一環(huán)節(jié),對(duì)壩體安全監(jiān)測(cè)數(shù)據(jù)的處理和預(yù)報(bào)是一個(gè)非常重要的研究領(lǐng)域,也是近年來(lái)飛速發(fā)展的科研方向[1]。
對(duì)于土石壩來(lái)說(shuō),壩體滲流的監(jiān)測(cè)是關(guān)系壩體安全極其重要的內(nèi)容,本文以某土石壩的滲流監(jiān)測(cè)為切入點(diǎn),嘗試將有限的監(jiān)測(cè)資料與數(shù)學(xué)方法結(jié)合,建立影響滲流的變量之間的內(nèi)在關(guān)系,并將其應(yīng)用在壩體滲流監(jiān)測(cè)的預(yù)測(cè)預(yù)報(bào)方面。目前國(guó)內(nèi)外對(duì)壩體監(jiān)測(cè)數(shù)據(jù)的分析與預(yù)報(bào)研究,采取了很多種數(shù)學(xué)模型與方法,也針對(duì)不同的模型開(kāi)發(fā)了相應(yīng)的軟件系統(tǒng)[2]。較為傳統(tǒng)的監(jiān)控分析模型和系統(tǒng)基本都是以單點(diǎn)的統(tǒng)計(jì)模型、確定模型和混合模型,或者多點(diǎn)的分布模型為基礎(chǔ)進(jìn)行分析預(yù)報(bào),近年來(lái)BP神經(jīng)網(wǎng)絡(luò)、投影尋蹤(Projection Pursuit Regression,PPR)和支持向量機(jī)(Support Vector Machine,SVM)等方法也逐漸涌現(xiàn)[3-4],并已開(kāi)始應(yīng)用于壩體變形、滲流模擬預(yù)測(cè)等方面。以法國(guó)和意大利的監(jiān)測(cè)信息系統(tǒng)為例,比較知名的有PANDA和DAMSAFE系統(tǒng),其共同特點(diǎn)都是采用internet/intranet通訊,并對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行專(zhuān)家級(jí)別的分層管理和控制,但這些傳統(tǒng)的統(tǒng)計(jì)學(xué)模型受到建模假設(shè)的限制過(guò)多,模型中描述因子過(guò)少。上世紀(jì)九十年代以來(lái),BP神經(jīng)網(wǎng)絡(luò)[5]和投影尋蹤回歸等新的數(shù)據(jù)分析模型開(kāi)始被壩體監(jiān)測(cè)數(shù)據(jù)分析所應(yīng)用,這主要是由于模糊神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等方法具有很好的自適應(yīng)性和容錯(cuò)性,并能將高維數(shù)據(jù)樣本空間進(jìn)行降維,通過(guò)提取數(shù)據(jù)信息主要元素的手段對(duì)壩體的監(jiān)測(cè)數(shù)據(jù)進(jìn)行仿真、分析和預(yù)測(cè)。當(dāng)然,這些方法也存在易陷入局部最優(yōu)解、數(shù)據(jù)訓(xùn)練對(duì)使用者的依賴(lài)性較強(qiáng)等缺點(diǎn),但這些不足并不妨礙神經(jīng)網(wǎng)絡(luò)成為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的方法,尤其是數(shù)據(jù)泛化能力更強(qiáng)的支持向量機(jī)方法[6-8],將其用于水利工程中壩體的監(jiān)測(cè)數(shù)據(jù)分析與預(yù)測(cè)中,具有非常好的應(yīng)用前景。
實(shí)際工程中土石壩滲流的監(jiān)測(cè)主要通過(guò)測(cè)壓管水位來(lái)直觀體現(xiàn),本文試圖通過(guò)主成分分析法(Principal Component Analysis,PCA)建立支持向量機(jī)的預(yù)測(cè)模型,通過(guò)學(xué)習(xí)訓(xùn)練掌握壩體監(jiān)測(cè)數(shù)據(jù)的內(nèi)在規(guī)律,為實(shí)際中受監(jiān)測(cè)條件限制的數(shù)據(jù)分析研究預(yù)測(cè)提供數(shù)據(jù)預(yù)估以彌補(bǔ)數(shù)據(jù)信息的不足,并可根據(jù)已建成模型對(duì)工程決策以及風(fēng)險(xiǎn)控制的合理性提供參考。
1 基于主成分分析的支持向量機(jī)模型原理
支持向量機(jī)模型是在統(tǒng)計(jì)學(xué)習(xí)理論(Statistical learning theory)的基礎(chǔ)上發(fā)展起來(lái)的一種分析回歸方法,其主要目標(biāo)是研究如何在小樣本的情形下建立機(jī)器學(xué)習(xí)規(guī)律[9],因?yàn)檫@些情況下經(jīng)常涉及到多維數(shù)據(jù),而數(shù)據(jù)處理預(yù)測(cè)中從低維空間到高維空間的非線性映射是比較困難的,基于主成分分析方法的支持向量機(jī)模型可以解決這種維數(shù)災(zāi)難。
1.1 主成分分析法
主成分分析法是一種數(shù)學(xué)變換方法,它主要通過(guò)將原有的多維樣本中的多個(gè)指標(biāo)進(jìn)行重新組合,形成新的少數(shù)幾個(gè)綜合指標(biāo)的低維樣本,這些新的指標(biāo)按照方差依次遞減的順序排列,采取的方法主要是數(shù)學(xué)線性變換。一般將新生成的指標(biāo)稱(chēng)為主成分,每個(gè)主成分都是原有指標(biāo)的線性組合。這些主成分之間互不相關(guān),并盡可能多包含原有指標(biāo)的有效信息,如此就可以只考慮幾個(gè)主成分,同時(shí)不會(huì)損失太多原有數(shù)據(jù)的信息[10]。
假設(shè)有n個(gè)樣本數(shù)據(jù),每個(gè)樣本有p個(gè)指標(biāo)變量,這樣就構(gòu)成了一個(gè)n×p階的數(shù)據(jù)矩陣:
⑴
將每一列(即每一個(gè)原始指標(biāo))看作一個(gè)原始變量,新的變量由這些原始變量作線性組合來(lái)得到。將每個(gè)原始指標(biāo)記作X1,X2,…,Xp,新的變量指標(biāo)記作Z1,Z2,…,Zp,則有:
⑵
其中,要求,且系數(shù)由以下兩個(gè)原則來(lái)決定:①Zi與Zj(i≠j;i,j=1,2,…,p)不相關(guān);②Z1是X1,X2,…,Xp的一切線性組合中方差最大者;Z2是與Z1不相關(guān)的X1,X2,…,Xp的一切線性組合中方差最大者;……;Zm是與Z1,Z2,…,Zm都不相關(guān)的X1,X2,…,Xp的一切線性組合中方差最大者。這樣得出的新變量指標(biāo)Z1,Z2,…,Zm分別稱(chēng)為原變量指標(biāo)X1,X2,…,Xp的第一、第二、……、第m個(gè)主成分,其中,Z1在總方差中占的比例最大,其余主成分的方差依次遞減。
1.2 支持向量機(jī)模型
考慮一個(gè)線性回歸問(wèn)題,給定訓(xùn)練集{(x1,y1),…,(xi,yi),i=1,2,…,n},其中xi為輸入變量,yi為預(yù)測(cè)值,n為樣本數(shù)。假設(shè)有回歸函數(shù)f(x)=(ω·x)+b,支持向量機(jī)通過(guò)求解在一定約束條件下的最小化泛函,結(jié)合拉格朗日函數(shù),構(gòu)造出如下最優(yōu)問(wèn)題:
⑶
⑷
其中,C為懲罰因子,α,α*為拉格朗日乘子,ε為不敏感損失系數(shù)。由上述優(yōu)化問(wèn)題,就可以求出α,α*,可以得到支持向量機(jī)模型為:
⑸
其中k核函數(shù)(kernel function),其作用主要是將高維數(shù)據(jù)與低維數(shù)據(jù)建立非線性映射,從而解決非線性回歸問(wèn)題,并成功地克服了樣本數(shù)據(jù)線性不可分這個(gè)困難,它通過(guò)將樣本數(shù)據(jù)映射到高維特征空間后變?yōu)榫€性可分,從而簡(jiǎn)化在低維特征空間的非線性問(wèn)題。在高維特征空間內(nèi),核函數(shù)K用于計(jì)算內(nèi)積:
⑹
常見(jiàn)的核函數(shù)k可以是多項(xiàng)式也可以是徑向基核函數(shù)(RBF):
⑺
還可以是sigmoid核函數(shù):
⑻
為保證模型的可靠性以及說(shuō)服性,應(yīng)將監(jiān)測(cè)數(shù)據(jù)劃分為測(cè)試集(用于模型效果測(cè)試)和訓(xùn)練集(用于建模數(shù)據(jù)訓(xùn)練)。一般而言,模型設(shè)計(jì)與檢驗(yàn)應(yīng)重復(fù)多次,例如有N個(gè)樣本,可以隨機(jī)分為m份,利用其中m-1份當(dāng)作訓(xùn)練集進(jìn)行預(yù)測(cè)模型設(shè)計(jì),剩下的1份作為測(cè)試集,并進(jìn)行相應(yīng)的誤差計(jì)算。之后將測(cè)試集放回原樣本中,取出另外一份當(dāng)作測(cè)試集,其余用作訓(xùn)練集,如此反復(fù),計(jì)算平均預(yù)測(cè)誤差,并將其作為評(píng)價(jià)數(shù)據(jù)預(yù)測(cè)效果的依據(jù),不斷調(diào)整優(yōu)化模型參數(shù),直到產(chǎn)生最優(yōu)模型。
2 某均質(zhì)土壩滲流監(jiān)測(cè)模型的建立
對(duì)于具有反濾壩址的均質(zhì)土壩,為了監(jiān)測(cè)其浸潤(rùn)線的位置,監(jiān)測(cè)斷面一般取壩體橫斷面,之后在上游壩肩和反濾壩址上游各布置一根測(cè)壓管,中間根據(jù)具體情況布置一根或數(shù)根測(cè)壓管[11]。本論文中研究的壩體為中小型均質(zhì)壩,故選取了兩個(gè)橫斷面,每個(gè)橫斷面布設(shè)了三根測(cè)壓管。
根據(jù)其監(jiān)測(cè)結(jié)果,發(fā)現(xiàn)在土壩中預(yù)埋的測(cè)壓管水位與以下因素有關(guān):前一天庫(kù)水位H1(考慮滯后性)、降雨量Q、下游水位H2和干灘段距離L。從理論上來(lái)說(shuō),有多少的原始變量就可以提取多少個(gè)主成分,但為了降低樣本數(shù)據(jù)的維數(shù),只需要提取出包含85%以上信息的前2~3 個(gè)主成分進(jìn)行分析就足以滿(mǎn)足精度要求,其余的可以忽略不計(jì)。
前期監(jiān)測(cè)數(shù)據(jù)樣本共有160組,每組樣本數(shù)據(jù)對(duì)應(yīng)4個(gè)原始變量,數(shù)據(jù)矩陣M為160×4,根據(jù)選擇的基礎(chǔ)樣本原始數(shù)據(jù),首先對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,以消除統(tǒng)計(jì)誤差和量綱差異的影響。本研究應(yīng)用SPSS軟件對(duì)樣本進(jìn)行分析計(jì)算,標(biāo)準(zhǔn)化后的相關(guān)系數(shù)矩陣如表1所示。其中,X1、X2、X3、X4分別表示經(jīng)標(biāo)準(zhǔn)化處理后的前一天庫(kù)水位H1(考慮滯后性)、降雨量Q、下游水位H2和干灘段距離L。一般來(lái)說(shuō)相關(guān)系數(shù)值如果大于0.3,就說(shuō)明數(shù)據(jù)間存在相關(guān)性,適合進(jìn)行主成分分析對(duì)數(shù)據(jù)進(jìn)行處理。
將由主成分分析提取的2個(gè)主成分因子與所對(duì)應(yīng)的測(cè)壓管水位組成160×3的矩陣A,對(duì)數(shù)據(jù)矩陣在[0,1]進(jìn)行歸一化處理,減小因數(shù)值差異對(duì)模型的干擾,提高數(shù)據(jù)矩陣的整體性。之后劃分測(cè)試集和訓(xùn)練集,為了保證模型的可靠性及說(shuō)服性,將160組樣本數(shù)據(jù)隨機(jī)抽取120組作為訓(xùn)練集進(jìn)行模型訓(xùn)練,余下40組作為測(cè)試集進(jìn)行效果測(cè)試。本研究將幾種常見(jiàn)核函數(shù)代入模型后發(fā)現(xiàn)徑向基核函數(shù)(7式)解決非線性問(wèn)題時(shí)具有極強(qiáng)的優(yōu)勢(shì),更適合壩體監(jiān)測(cè)數(shù)據(jù)分析情況,故選擇RBF為核函數(shù)。選擇使用LIBSVM軟件包進(jìn)行支持向量機(jī)模型預(yù)測(cè),并用交叉驗(yàn)證法搜索尋找最優(yōu)參數(shù),其懲罰因子C為9.273。
3 某均質(zhì)土壩滲流浸潤(rùn)線預(yù)測(cè)實(shí)例
結(jié)合主成分分析法進(jìn)行支持向量機(jī)建模,運(yùn)用模型對(duì)測(cè)壓管水位進(jìn)行預(yù)測(cè)后,采用包含40組數(shù)據(jù)的測(cè)試集進(jìn)行驗(yàn)證,預(yù)測(cè)效果如圖1所示。
從圖1中可以看出,除極少部分預(yù)測(cè)值稍有起伏之外,其余預(yù)測(cè)值的精度均較高,且與實(shí)測(cè)值吻合良好,誤差基本在1%以?xún)?nèi)。為了檢驗(yàn)?zāi)P偷膶W(xué)習(xí)效果,還可以計(jì)算訓(xùn)練集與測(cè)試集的均方根誤差RMSE與相關(guān)系數(shù)R。本實(shí)例中訓(xùn)練集與測(cè)試集的均方根誤差RMSE分別為4.15×10-4和5.86×10-4,訓(xùn)練集與測(cè)試集的相關(guān)系數(shù)R分別為0.996和0.991。由此可見(jiàn),此模型對(duì)隨機(jī)抽取的40個(gè)樣本數(shù)據(jù)預(yù)測(cè)效果很好,因此可用此訓(xùn)練模型進(jìn)行測(cè)壓管水位的預(yù)測(cè)。
4 結(jié)論
本文基于主成分分析法的支持向量機(jī)模型,建立某均質(zhì)壩滲流測(cè)壓管水位的預(yù)測(cè)模型,通過(guò)與實(shí)測(cè)值進(jìn)行對(duì)比,得出以下結(jié)論。
⑴ 使用主成分分析法可以更加綜合全面的對(duì)影響測(cè)壓管水位的因素進(jìn)行描述,同時(shí)降低數(shù)據(jù)維度,提高模型預(yù)測(cè)計(jì)算的速度,尤其能提高支持向量機(jī)的學(xué)習(xí)效率。
⑵ 基于160組的樣本數(shù)據(jù),隨機(jī)挑選120組作為訓(xùn)練集進(jìn)行支持向量機(jī)的模型訓(xùn)練,剩余40組用作測(cè)試集檢驗(yàn)?zāi)P蛯W(xué)習(xí)效果,通過(guò)與實(shí)測(cè)值進(jìn)行對(duì)比,結(jié)果表明二者吻合程度很高,誤差很小,其均方根誤差數(shù)量級(jí)非常小,相關(guān)系數(shù)接近于1,足以說(shuō)明此預(yù)測(cè)模型的精確性和可靠性。
⑶ 通過(guò)對(duì)工程實(shí)例成功地進(jìn)行計(jì)算預(yù)測(cè),說(shuō)明通過(guò)主成分分析法選取的主成分能夠比較全面的反映壩體內(nèi)測(cè)壓管水位的變化特征,而支持向量機(jī)模型則較好的解決了樣本數(shù)據(jù)有限的預(yù)測(cè)問(wèn)題。它們的聯(lián)合運(yùn)用,可以為今后類(lèi)似水利工程壩體監(jiān)測(cè)數(shù)據(jù)的分析預(yù)測(cè)提供參考依據(jù),具有良好的應(yīng)用前景。
本論文中的預(yù)測(cè)模型是基于最常用的算法和核函數(shù)的選取而得出的,因此今后還應(yīng)該在算法的優(yōu)化,以及更合理的核函數(shù)選取方面進(jìn)行更深入的研究。
參考文獻(xiàn)(References):
[1] 酈能惠.土石壩安全監(jiān)測(cè)分析評(píng)價(jià)預(yù)報(bào)系統(tǒng)[M].中國(guó)水利水
電出版社,2003.
[2] 吳中如.水工建筑物安全監(jiān)控理論及其應(yīng)用[M].高等教育出
版社,2003.
[3] 趙振宇,徐用懋.模糊理論和神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)與應(yīng)用[M].清華
大學(xué)出版社,1996.
[4] 張棟,蔡開(kāi)元.基于遺傳算法的神經(jīng)網(wǎng)絡(luò)兩階段學(xué)習(xí)方案[J].
系統(tǒng)仿真學(xué)報(bào),2003.15(8):1089-1090
[5] 吳建華,魏茹生,趙海生等.神經(jīng)網(wǎng)絡(luò)模型下的土石壩安全監(jiān)
測(cè)仿真研究[J].系統(tǒng)仿真學(xué)報(bào),2008.20(4):1052-1059
[6] 杜樹(shù)新,吳鐵軍.模式識(shí)別中的支持向量機(jī)方法[J].浙江大學(xué)
學(xué)報(bào):工學(xué)版,2003.37(5):403-409
[7] 王磊.基于主成分分析的支持向量機(jī)回歸預(yù)測(cè)模型[J].信息
技術(shù),2008.12:58-59
[8] 常中華,張二勇,柴建峰等.應(yīng)用主成分分析法研究滲透介質(zhì)的
滲透穩(wěn)定問(wèn)題[J].水文地質(zhì)工程地質(zhì),2004.31(5):15-20
[9] 丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].
電子科技大學(xué)學(xué)報(bào),2011.40(1):2-10
[10] 虞鴻.基于主成分的大壩觀測(cè)數(shù)據(jù)多效應(yīng)量的統(tǒng)計(jì)分析研
究[J].中國(guó)科學(xué):技術(shù)科學(xué),2010.40(7):830-839
[11] 梁國(guó)錢(qián),鄭敏生,孫伯永等.土石壩滲流觀測(cè)資料分析模型
及方法[J].水利學(xué)報(bào),2003.2:83-87