馬 琳楊 蕾戚 丹趙 珍
(1.楊凌職業(yè)技術學院,陜西 楊凌 712100;
2.陜西省水利電力勘測設計研究院,陜西 西安 710000)
水利工程建成后,為了建筑物能夠安全可靠運行,采用安全監(jiān)測手段實時監(jiān)控建筑物的運行狀態(tài),而監(jiān)測資料的分析是判斷建筑物安全運行的重要手段,因此對觀測資料做出及時、合理、有效的分析是安全工作的重要組成部分。
水利工程結構復雜,所處環(huán)境影響因素較多,同時,監(jiān)測儀器精度、工作狀態(tài)及可靠性等各方面均對監(jiān)測數據有影響,或多或少都會存在隨機誤差或系統(tǒng)誤差,這就導致直接獲取的監(jiān)測數據并非完全可用,因此,首先需要對原始監(jiān)測數據進行合理性分析[1-2]。
鑒于大壩結構性態(tài)的復雜性,監(jiān)測儀器精度、可靠性,數據觀測過程不可預估因素等的影響,致使大壩安全監(jiān)測資料中,不可避免地會存在數據誤差信息,確定監(jiān)測資料合理性對后續(xù)大壩安全評價至關重要。為了能夠準確全面地監(jiān)測大壩運行狀態(tài),通常需要布置大量儀器和項目,其中包括應力應變、壩體變形觀測、滲流量觀測、溫度觀測等。根據有關誤差理論,大壩安全監(jiān)測值x由所監(jiān)測性態(tài)的“真值”[x]和誤差e組成,其中誤差e根據造成其產生的原因不同,可大致分為隨機誤差、系統(tǒng)誤差和粗大誤差3種[3]。
因隨機因素或偶然因素導致的誤差,符合正態(tài)分布并且其正態(tài)分布的均值為零,隨機誤差普遍存在于大壩安全監(jiān)測數據中。
系統(tǒng)誤差主要由監(jiān)測儀器故障產生,造成故障的原因是相互獨立的偶然因素,該類誤差偏離真實值較大,表現為單側點數值異常波動并伴有一定的階段性和連續(xù)性。
在觀測過程中,因數據記錄、數據處理、儀器操作等存在人為疏忽導致的誤差,特點是偏離真實值較大。
傳統(tǒng)粗差檢測算法中,常采用主元分析法(PCA)進行異常值識別[4],當樣本量很大時,很多計算會浪費在正常點的驗證上。目前,常用的粗差識別方法有基于距離和密度的方法[5]和基于模型的方法[6-7]。Jolliffe[8]利用PCA對粗差進行檢測,采用該方法檢測,會出現將正常點與粗大誤差點混淆的情況。
考慮到歷史數據中的粗差會影響監(jiān)控效果[9],對當前常用的粗差檢測算法的原理和不足之處進行分析,提出一種新的異常值檢測算法,即將中心最短距離法(CDC)和橢球多變量整理法(MVT)結合成為一種新的算法——一種基于魯棒尺度的CDC-MVT檢測算法。
2.1.1 基于傳統(tǒng)尺度的中心化和標準化。{xi}為某個變量,對該變量采樣n次后產生的序列記為{x1,x2,…,xn},進行中心化和標準化,其過程如式(1)。
式中:s為標準差,ax是{xi}的平均值,根據3σ準則,當出現||d>3的采樣時,則認定該采樣為異常值。
2.1.2 基于魯棒尺度的中心化和標準化方法。此方法分別用魯棒尺度中的數據序列{xi}的中值xm替換傳統(tǒng)尺度公式中的均值ax,用數據序列{xi}的中值偏差絕對值的中值(Median Absolute Deviation from the Medion)指標sm替換傳統(tǒng)尺度公式中的均值標準差s,即式(2)。
式中:median{}是取中值函數;xm是{xi}的中值;1.482 6是為了使sm成為正態(tài)分布數據標準差的無偏估計。
2.2.1 CDC中心最短距離法。中心最短距離法(CDC)算法原理是通過計算每個采樣點與數據序列中心即數據均值之間的距離,檢測n/2個正常點[10]。
2.2.2 橢球多變量整理法。橢球多變量整理(MVT)算法主要是確定魯棒協(xié)方差矩陣的一種迭代 算 法[11-12]。計 算 某 次 采 樣X1×m的 馬 氏 距 離,見式(3)。
式中:X*1×m是n個采樣的平均值;S*是協(xié)方差。
2.2.3 基于魯棒尺度的CDC-MVT異常點綜合檢測算法。迭代前,首先用魯棒尺度初始化MVT的馬氏距離的均值和協(xié)方差,具體如下。
①采用魯棒尺度,對原始觀測數據的二維矩陣進行中心化和標準化處理,假設原始二維數據矩陣是Xi×j,i是采樣點數,j是變量數,且i必須要大于j。首先,原始二維數據矩陣的每一列包含i個元素,首先計算出這i個元素的中值,記為xm;其次,利用公式計算出sm=1.482 6median{|Xi-Xm|}(i=1,2…,n),即原始二維數據矩陣的中值偏差絕對值的中值指標;最后,用前述步驟中已經計算出的中值xm替換公式(1)中的xi,用中值偏差絕對值的中值指標sm替換公式(1)中的s,替換后經計算可得到中心化和標準化之后的矩陣X′i×j。
②采用CDCm算法檢測出原始數據中的n/2個正常值點。首先,算出矩陣X′i×j中每一列的均值,再計算其每行中每個元素與對應列均值的距離;其次,將上一步驟中算出的每一行中最大距離值定為該行中每個采樣點與均值點之間的距離,則可得i個距離值;再次,從上一步得到的i個距離值中選出其中較小的n/2個距離值;最后,得到上一步i/2個距離值所對應的二維數據矩陣Xi×j中的i/2個采樣點,即n/2個正常點,設為矩陣。
③利用MVT迭代算法計算馬氏距離,從而得到原始數據中的正常值。
a.將上述方法步驟找到的n/2個正常點,初始化其馬氏距離中的均值和協(xié)方差,即計算初始的均值和協(xié)方差,具體如式(4)(5)。
b.將以上式(4)和式(5)代入馬氏距離計算式中,計算馬氏距離如式(6)所示。
c.在上一步求出的i個馬氏距離中選出較小的0.7i個距離值[13-14],可得與矩陣X′i×j相應的采樣點,定為矩陣X′(0)0.7i×j。
d.由矩陣X′(0)0.7i×j計算下一次的均值和協(xié)方差,即式(7)(8)。
將重新計算出來的均值和協(xié)方差代入馬氏距離計算式中,可得馬氏距離如式(9)所示。
在上述i個馬氏距離選出0.7i個較小的值,同時在矩陣X*i×j中找出相應的采樣點,記為矩陣X′(0)0.7i×j;
e.采用相同的方法,由矩陣X′(0)0.7i×j繼續(xù)計算新的均值X(*2)和協(xié)方差X(*2),并計算出新的馬氏距離。在計算出的i個馬氏距離中選出0.7i個較小的馬氏距離值,按照這種迭代方式不斷進行計算,直到且時 停 止計算。式中,X*(i)j表示第i個新均值向量的第j個元素,表示第i個新的協(xié)方差。
f.根據以上計算結果,即可篩選出原始數據中的正常值。
由上述過程計算得到第i=1次計算出的矩陣X′(i-1)0.7i×j對應的矩陣Xi×j中的采樣值,便是要檢測出的正常值。
以云南省瀾滄江中游河段某灌溉水源工程為例,選取擋水建筑物垂線徑向水平位移的各測點進行粗差去除方法驗證。由于數據量較大,此處只對13#壩段1 778.25 m高程的測點PL11-3和19#壩段1 778.25 m高程的測點PL19-3兩個測點進行粗差去除結果分析。選取數據的觀測時間段為2018年12月5日—2019年11月19日,共323個數據測值,按時間順序繪制過程線,分別根據主元分析法(PCA)和基于魯棒尺度的CDC-MVT算法原理,編程并計算。
根據原始觀測數據繪制過程線,如圖1所示,從圖1中可以看出兩個測點共計8個粗大誤差點,分別為PL11-3測點的2018年12月28日測值、2019年1月21日測值和2019年2月20日測值,PL19-3測點2019年9月25日 測 值、2019年10月4日 測 值、2019年10月7日、2019年10月14日 和2019年10月30日測值共8個粗大誤差。
圖1 原始觀測數據過程線
基于PCA算法的粗大誤差檢測,將檢測結果繪制過程線,如圖2所示,從檢測數據可以看出,平均每個測點檢測后只剩180多個數據,除檢測出的8個粗差外,同時也將部分正常值誤判為粗差去除,如2018年12月11日、2018年12月17日、2019年10月30日等測點,可見PCA算法存在檢測缺陷,即在判斷出粗差點的同時,也將部分正常點誤判為粗差點去除,影響了原始數據的準確性。
圖2 PCA算法計算結果過程線
基于魯棒尺度CDC-MVT算法的粗大誤差檢測,將檢測結果繪制過程線,如圖3所示,從檢測結
圖3 CDC-MVT算法計算結果過程線
果可以看出,本方法檢測結束后,除8個粗差外,其余正常數據均未被去除。
綜上所述,原始觀測數據中存在8個粗大誤差,從檢測結果過程線可以看出,CDC-MVT算法準確地檢測出了原始數據中的粗大誤差,結果較合理,而PCA算法雖然也檢測出了異常值,但同時也將部分正常值誤判為粗大誤差去除了。由此,可得出以下結論。魯棒尺度的CDC-MVT算法可較為準確地估計出正常數據的均值和協(xié)方差,從而能準確找出異常值。而傳統(tǒng)PCA算法,雖然也找出了原始數據中的異常值,但也將部分正常值誤判為異常值去除,這對大壩安全監(jiān)測后續(xù)數據分析不利。因此,采用魯棒尺度的CDC-MVT算法提高了異常值的檢測性能。
以云南省瀾滄江中游河段某水電站為例,分別采用PCA算法和基于魯棒尺度的CDC-MVT異常值綜合檢測算法,分別對該水電站大壩垂線徑向水平位移PL11-3和PL13-3兩個測點的原始位移觀測數據進行粗差去除,CDC-MVT算法準確地檢測出了原始數據中的粗大誤差,結果較合理,而PCA算法雖然也檢測出了異常值,但同時也將部分正常值誤判為粗大誤差去除了。結果驗證了基于魯棒尺度的CDC-MVT異常值綜合檢測算法的可行性和優(yōu)越性。