辛俊龍,葛 靜,朱斯楊,周子玉
(1.中電建電力檢修工程有限公司,四川 樂山 614000;2.中電建水電開發(fā)集團(tuán)有限公司,四川 成都 610096;3.四川省遂寧市水利局,四川 遂寧 629000;4.四川大學(xué) 水力學(xué)與山區(qū)河流開發(fā)保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 水利水電學(xué)院,四川 成都 610065)
連續(xù)、完整、可靠的監(jiān)測(cè)數(shù)據(jù)序列是大壩安全在線監(jiān)控和運(yùn)行性態(tài)評(píng)價(jià)的前提和基礎(chǔ)[1]。監(jiān)測(cè)設(shè)備故障導(dǎo)致安全監(jiān)測(cè)中斷、監(jiān)測(cè)數(shù)據(jù)明顯錯(cuò)誤被剔除未及時(shí)復(fù)測(cè)等,常造成安全監(jiān)測(cè)數(shù)據(jù)序列的不連續(xù),無法反映數(shù)據(jù)缺失時(shí)段的大壩運(yùn)行性態(tài),有必要對(duì)缺失時(shí)段的數(shù)據(jù)進(jìn)行修補(bǔ)[2]。目前大壩安全監(jiān)測(cè)缺失數(shù)據(jù)修補(bǔ)一般基于歷史監(jiān)測(cè)數(shù)據(jù)序列,常見方法包括數(shù)學(xué)修補(bǔ)方法[3- 5]和考慮相關(guān)環(huán)境量影響的多元統(tǒng)計(jì)回歸模型修補(bǔ)方法[6- 8]。數(shù)學(xué)修補(bǔ)法較簡(jiǎn)單,從歷時(shí)數(shù)據(jù)變化規(guī)律推測(cè)缺失時(shí)段的數(shù)據(jù)分布規(guī)律,當(dāng)缺失數(shù)據(jù)較少時(shí),數(shù)據(jù)修補(bǔ)精度較高,而缺失數(shù)據(jù)較多時(shí),其修補(bǔ)精度較低。多元回歸模型在大壩安全監(jiān)測(cè)缺失數(shù)據(jù)修補(bǔ)中應(yīng)用最廣泛,能綜合考慮工程的結(jié)構(gòu)特點(diǎn)、測(cè)值與環(huán)境量的相關(guān)關(guān)系等因素,該方法的缺失數(shù)據(jù)修補(bǔ)精度依賴于回歸模型本身的擬合精度,當(dāng)模型復(fù)相關(guān)系數(shù)較低時(shí),缺失數(shù)據(jù)修補(bǔ)精度一般較低。針對(duì)常用缺失數(shù)據(jù)修補(bǔ)方法在缺失比例高、模型擬合精度差等情況下精度較差的問題,本文基于偏最小二乘回歸基本原理,引入迭代修補(bǔ)思路,提出基于偏最小二乘回歸的缺失數(shù)據(jù)迭代修補(bǔ)方法,并結(jié)合實(shí)際工程,分析其適用性,校驗(yàn)其修補(bǔ)精度。
本文提出的數(shù)據(jù)缺失迭代修補(bǔ)方法基于偏最小二乘回歸模型,即將多元線性回歸分析、典型相關(guān)分析及主成分分析有機(jī)結(jié)合起來,其基本原理和方法如下:
(1)數(shù)據(jù)預(yù)處理
對(duì)X,Y進(jìn)行標(biāo)準(zhǔn)化得到自變量矩陣E0和因變量矩陣F0。
(2)自變量和因變量矩陣的主成分提取
首先提取因變量矩陣F0的主成分u1和自變量矩陣E0的主成分t1。根據(jù)主成分分析原理可知,為使提取出來的主成分t1和u1能最大程度的代表各自矩陣的數(shù)據(jù)變異信息且t1對(duì)u1的解釋能力最強(qiáng),需要t1和u1各自的方差達(dá)到最大且相關(guān)程度達(dá)到最大,即:
Var(t1)→max,Var(u1)→maxr(u1,t1)→max
(1)
(2)
(3)
上述問題可通過SIMPLS算法[9]或NIPALS算法[10]來求解,求得w1后,即可得成分t1=E0w1。
(3)構(gòu)建標(biāo)準(zhǔn)化變量的回歸方程
提取主成分t1=E0w1后,則E0、F0在t1上回歸為式(4)
(4)
式中,E1、F1—兩個(gè)回歸方程的殘差矩陣;p1、r1—回歸系數(shù)。
(5)
通過交叉有效性來判斷模型是否到達(dá)滿意的精度,如果沒有達(dá)到則對(duì)殘差矩陣提取主成分,過程和(2)類似:
(6)
(7)
式中,E2、F2—兩個(gè)回歸方程的殘差矩陣;p2、r2—回歸系數(shù):
(8)
若模型未達(dá)到滿意的精度則需繼續(xù)提取主成分。假定共提取了k個(gè)主成分,得到標(biāo)準(zhǔn)化變量的回歸方程:
(9)
若當(dāng)前主成分的加入不能明顯提升模型精度,則認(rèn)為模型到達(dá)了滿意的精度,不再提取新的主成分。
(4)還原回歸方程
將標(biāo)準(zhǔn)化回歸系數(shù)還原為非標(biāo)準(zhǔn)化回歸系數(shù),得到原始變量的回歸方程。
該方法基于偏最小二乘回歸,通過多次迭代回歸提升缺失數(shù)據(jù)修補(bǔ)精度,即首先構(gòu)建原始數(shù)據(jù)序列的偏最小二乘回歸模型,獲取缺失時(shí)段的第一次數(shù)據(jù)修補(bǔ)值;再構(gòu)建第一次數(shù)據(jù)修補(bǔ)后數(shù)據(jù)序列的偏最小二乘回歸模型,獲取缺失時(shí)段的第二次數(shù)據(jù)修補(bǔ)值,對(duì)比兩次修補(bǔ)值之間的差異,若差異小于控制值,則迭代結(jié)束,反之則重復(fù)迭代,其計(jì)算流程如圖1所示。
圖1 基于偏最小二乘回歸模型的數(shù)據(jù)修補(bǔ)方法流程圖
若存在一個(gè)監(jiān)測(cè)序列A,其中包括n個(gè)測(cè)次的測(cè)值(x1,x2,…xn),其數(shù)據(jù)缺測(cè)測(cè)次為(xt,xt+1,…xt+k),則其缺測(cè)數(shù)據(jù)修補(bǔ)步驟如下:
①設(shè)置迭代控制值。迭代控制值可采用最大迭代次數(shù)nmax和R方預(yù)設(shè)閾值m。一般地,最大迭代次數(shù)nmax可設(shè)置為10,R方預(yù)設(shè)閾值m可設(shè)置為0.95。
本文所提方法實(shí)質(zhì)是基于迭代預(yù)測(cè)的偏最小二乘回歸改進(jìn)模型,因此,主要與偏最小二乘回歸模型和逐步回歸模型對(duì)比,分析其數(shù)據(jù)修補(bǔ)精度。為具代表性,選擇大壩安全監(jiān)測(cè)數(shù)據(jù)序列中最常見的周期型數(shù)據(jù)序列和直線型數(shù)據(jù)序列進(jìn)行分析,數(shù)據(jù)缺失占比設(shè)置為10%。周期型監(jiān)測(cè)數(shù)據(jù)序列以某壩心墻滲壓測(cè)點(diǎn)P94為例,采用2016年1月—2019年12月共798測(cè)次,將2018年7月19日—2018年12月7日共79測(cè)次的實(shí)測(cè)值作為缺失數(shù)據(jù)。直線型監(jiān)測(cè)數(shù)據(jù)序列以某壩壩頂水平位移測(cè)點(diǎn)TP19為例,采用2014年2月—2019年2月共474測(cè)次,將2016年11月19日—2017年5月20日共47測(cè)次的實(shí)測(cè)值作為缺失數(shù)據(jù)。
經(jīng)計(jì)算,不同方法的缺失數(shù)據(jù)修補(bǔ)效果見表1,修補(bǔ)效果對(duì)比如圖2所示。從圖表中可以發(fā)現(xiàn),在缺失比例為10%時(shí),本文所提方法對(duì)周期型數(shù)據(jù)序列的修補(bǔ)精度提升最為明顯,平均相對(duì)誤差分別較逐步回歸模型和偏最小二乘回歸降低61%和53%,R方提升46%和43%,對(duì)直線型數(shù)據(jù)序列而言,其修補(bǔ)精度較逐步回歸模型提升明顯,平均相對(duì)誤差降低43%,R方提升12%,較偏最小二乘回歸模型略有提升,平均相對(duì)誤差降低9%,R方提升6%。
圖2 三種方法數(shù)據(jù)修補(bǔ)效果對(duì)比圖
表1 兩種方法修補(bǔ)效果對(duì)比表
為分析不同數(shù)據(jù)缺失比例下基于偏最小二乘回歸的數(shù)據(jù)缺失迭代修補(bǔ)方法的適用性,仍選擇周期型數(shù)據(jù)序列P94測(cè)點(diǎn)和直線型數(shù)據(jù)序列TP19測(cè)點(diǎn),采用隨機(jī)設(shè)置缺失數(shù)據(jù)的方法進(jìn)行分析,見表2。不同方法的數(shù)據(jù)修補(bǔ)精度對(duì)比如表3和圖3—4。
表2 不同缺失比例的對(duì)比方案表
表3 不同缺失比例下的修補(bǔ)精度對(duì)比表
從圖表中可以看出,不同缺測(cè)比例下,基于偏最小二乘回歸的數(shù)據(jù)缺失迭代修補(bǔ)方法的精度均明顯優(yōu)于逐步回歸方法,特別是在數(shù)據(jù)缺失比例超過10%時(shí)尤其明顯。當(dāng)缺失比例不超過20%時(shí),兩種方法均有效,R方大于0.5,但數(shù)據(jù)缺失迭代修補(bǔ)方法較逐步回歸的平均相對(duì)誤差降低超過50%。當(dāng)數(shù)據(jù)缺失比例超過30%時(shí),逐步回歸法失效,R方低于0.5,而數(shù)據(jù)缺失迭代修補(bǔ)方法仍有效,特別是對(duì)周期型數(shù)據(jù),當(dāng)其缺失比例達(dá)到40%時(shí),其R方仍大于0.5,滿足工程最低要求。
(1)針對(duì)常用缺失數(shù)據(jù)修補(bǔ)方法在缺失比例高、模型擬合精度差等情況下精度較差的問題,本文以偏最小二乘回歸模型為基礎(chǔ),引入迭代修補(bǔ)思路,提出了基于偏最小二乘回歸的缺失數(shù)據(jù)迭代修補(bǔ)方法,通過不斷迭代消除缺失數(shù)據(jù)的不利影響,有效提高模型預(yù)測(cè)精度和缺失數(shù)據(jù)修補(bǔ)精度。
(2)對(duì)比分析表明,缺失數(shù)據(jù)迭代修補(bǔ)方法較偏最小二乘回歸、逐步回歸等方法的缺失數(shù)據(jù)修補(bǔ)精度明顯提升,R方基本能提高至0.8以上,平均相對(duì)誤差降低約50%。
(3)工程校驗(yàn)表明,缺失數(shù)據(jù)迭代修補(bǔ)方法對(duì)大壩安全監(jiān)測(cè)常見的周期型和直線型數(shù)據(jù)序列修復(fù)的適用性較好,可修補(bǔ)的最大數(shù)據(jù)缺失比例由傳統(tǒng)的20%分別提升至40%和30%。
圖4 缺失比例不超過20%時(shí)缺失修補(bǔ)效果對(duì)比圖
圖5 缺失比例超過20%時(shí)缺失修補(bǔ)效果對(duì)比圖