孫兆兵,王保良,冀海峰,黃志堯,李海青 (浙江大學控制科學與工程學系,工業(yè)控制技術國家重點實驗室,浙江杭州 310027)
基于概率組合的水質預測方法
孫兆兵,王保良*,冀海峰,黃志堯,李海青 (浙江大學控制科學與工程學系,工業(yè)控制技術國家重點實驗室,浙江杭州 310027)
當前水質預測研究中,組合預測缺少一般框架性組合方法,概率性預測多以水質指標服從某種概率分布為前提.針對這一狀況,提出了一種概率性組合預測方法.組合預測采用優(yōu)勢矩陣法對預測結果加權融合,能夠有效改善預測效果,并可以進一步擴展新方法;概率性預測基于對歷史預測的統(tǒng)計,并對其進行有效性檢驗,進而給出水質指標在一定置信度下的區(qū)間估計.將基于灰色模型群法和指數(shù)平滑法的概率組合預測方法應用于浙江鳩坑口進行預測實驗,實驗結果表明,組合預測方法的總體預測效果優(yōu)于單一預測方法,統(tǒng)計概率有效性可以得到驗證并且能夠有效給出一定置信度下水質指標波動曲線的包絡線.概率組合預測可以有效優(yōu)化預測精確度和穩(wěn)定性,能夠成功給出概率性的預測結果,為進一步?jīng)Q策奠定了基礎.
水質預測;組合預測;概率性預測
飲用水安全事關國計民生,而水處理工藝對原水水質變化的響應滯后嚴重威脅飲用水安全,及時有效地水質預測可以為水廠贏得更多的應急響應時間.另外,水質預警系統(tǒng)對水質進行實時分析評價、預警,可以有效控制和減少水質惡化造成的危害,達到對水質惡化的有效認知、控制的目標,使整個飲用水安全保障體系進入良性循環(huán).而及時有效的水質預測可以為水質預警提供可靠的評價及預警依據(jù).
目前,單一非機理水質預測模型在水質預測中的應用已十分廣泛[1],如灰色系統(tǒng)模型[2-7].時間序列模型[8-12],神經(jīng)網(wǎng)絡模型[13-14]等.但單一預測方法往往存在對信息利用不足的缺點,因此所能提供的有效信息必然有所側重,組合預測方法能夠充分利用每一種預測方法所包含的獨立信息,其總體預測效果比單一預測方法有一定的優(yōu)勢[15].一些非機理組合預測方法已應用[10,13],并取得了較好的效果.但是目前報道的組合預測多是針對特定幾種預測方法的組合,缺少一般框架性的組合方法, 其可擴展性不強,對引入更先進的算法有一定的局限性.
另外,由于水質變化及預測模型的不確定性[16],預測結果必然存在一定的不確定性.因此概率性預測也引起了水質預測工作者的注意,一些研究已能夠給出有效的概率性預測結果[14,17-18].但是目前報道的概率性預測多是在假設水質數(shù)據(jù)服從某種概率分布前提下進行的,這存在一定的主觀性,無法真實反映水質的實際狀況.
基于以上討論,本研究提出了一種框架性的概率組合預測方法,并將灰色模型群法和指數(shù)平滑法應用于該框架進行預測實驗.該方法提供了一種擴展性較強的組合框架,可以不斷引入先進預測算法,并通過對歷史預測工作的統(tǒng)計給出概率性的預測結果.
概率組合預測框架結構如圖1所示.
圖1 概率組合預測框架Fig.1 System framework of Probability-Combination
該框架首先通過組合預測將各單一預測方法的結果進行加權融合得到確定性預測結果;然后根據(jù)歷史預測值和歷史監(jiān)測值的統(tǒng)計得到預測概率及水質指標區(qū)間估計,最終得到概率性預測結果,該結果加入到歷史預測數(shù)據(jù),作為權重計算以及概率性預測的依據(jù).
該框架可以不斷擴展新方法,有效改善預測效果;并且隨著預測工作的推進,歷史預測數(shù)據(jù)不斷豐富,概率性預測的有效性隨之不斷提高.
組合預測方法的基本原理是把各個競爭模型得到的預測結果賦予不同的權重并組合成一個單一的預測,基本思想在于充分利用每一種預測方法中所包含的獨立信息[15].組合預測的核心內(nèi)容是確定各競爭模型的權重[20].
設一個問題可以采用n種預測模型f1,f2…fn預測,那么組合預測模型輸出
式中: wi為模型 fi(i=1,2…n)所對應的權重,滿足條件
考慮到組合預測方法未來將應用于日常水質預測以及組合預測框架的可擴展性,采用優(yōu)勢矩陣法[21-22]確定權重.優(yōu)勢矩陣法確定權重有三大優(yōu)點[15]:第一,權重對優(yōu)勢比的變化不很敏感,因而無須大量先驗數(shù)據(jù);第二,可以時刻對權重進行更新,穩(wěn)健性高;第三,可操作性強.另外,按照均方誤差判別標準,優(yōu)勢矩陣法確定權重的預測精確性高于任何單一預測方法,而且對大樣本數(shù)據(jù),優(yōu)勢矩陣法確定權重的精確性超過等權重法、最小方差法和回歸法[15].
設一個問題可以采n種預測模型預測,其權重為向量w=(w1,w2…wn)T,構建優(yōu)勢矩陣[21]如下:
其中:O為對角線元素為1且各元素均為正數(shù)的方陣,I為單位矩陣,O中的每一個元素Oij可以看作預測模型i優(yōu)于預測模型j的概率.對O進行分析可以發(fā)現(xiàn),O是秩為1的矩陣,只有一個特征值n,即
如果歷史預測樣本足夠大,那么上式恒成立,但是受到樣本容量限制,歷史預測往往無法準確估計模型表現(xiàn),因此上式無法嚴格相等.矩陣O具有這樣的性質,其元素小的攝動意味著特征向量小的攝動,從而有
式中: λmax為矩陣O的主特征向量.
設 πij表示下一次預測中模型 i優(yōu)于模型 j的概率,比例πij/πji表示模型i優(yōu)于模型j的概率,即Oij=πij/πji.在歷史預測中,假設使用模型i和模型j,令Zij代表模型i優(yōu)于j的次數(shù),Zji代表模型j優(yōu)于i的次數(shù),則
對n種預測模型分別進行上述工作即可得到優(yōu)勢矩陣O.可采用冪法[23]求得主特征值及其對應特征向量,將特征向量歸一化即可得權重向量w.
對預測效果的評價基于損失函數(shù)[15]的計算,分別從一次損失函數(shù)和二次損失函數(shù)兩方面對預測效果進行評估.二者的定義如下:
一次損失函數(shù)[15]
二次損失函數(shù)[15]
式中: T為預測序列長度;et為預測相對誤差.損失函數(shù)越小,代表預測效果越好.
預測概率有以下含義:當預測值為某一水平時,歷史統(tǒng)計中監(jiān)測值達到該水平的概率.由于水源地氣象水文等信息的缺乏,無法對更多的變量進行統(tǒng)計,但是該思路可以推廣到水質信息豐富的情況.
為了更利于人們對水質變化的理解以及應急響應方案的制訂,還給出了一定置信度下水質指標未來可能的波動范圍.
一般情況下,求取隨機變量的概率分布,會采用假設該變量符合某種概率分布,根據(jù)歷史數(shù)據(jù)求取其分布參數(shù)的統(tǒng)計方法.但是這種統(tǒng)計方法是在假設隨機變量滿足該分布的基礎上進行的,因此具有很大的主觀性.本文采用直接對歷史預測進行統(tǒng)計的方法確定其概率分布,這樣能體現(xiàn)預測情況以及水質信息的真實變化,更具客觀性.
由統(tǒng)計學知[24],樣本容量足夠大時,可以認為樣本分布與總體分布近似相同,因此可以在歷史預測次數(shù)足夠大的情況下,取歷史預測作為統(tǒng)計樣本,估計未來預測狀況.由于預測概率基于對歷史監(jiān)測值和歷史預測值的統(tǒng)計,因此預測概率可看作二維隨機變量,并服從概率分布f(X, Y),f(X, Y)為對歷史統(tǒng)計而得出的統(tǒng)計概率分布.
設對歷史監(jiān)測值分x段,歷史預測值分y段,這樣就形成了xy個分區(qū),記為Area(i,j), i=1,2…x, j=1,2…y.則統(tǒng)計概率滿足分布律
式中: X、Y分別為歷史監(jiān)測值、歷史預測值、i=1,2…x, j=1,2…y.
那么當前預測值在未來出現(xiàn)的概率,即預測概率為
值得注意的是,一般情況下,水質監(jiān)測值及預測值在一定的范圍內(nèi)波動,因此分段應根據(jù)歷史預測的狀況進行調(diào)整,并不是固定的均勻分段.
對歷史預測進行統(tǒng)計,該統(tǒng)計概率分布是否能夠模擬未來預測概率是未知的,因此需要對其進行有效性檢驗.檢驗歷史統(tǒng)計概率的有效性從兩方面進行:確切概率分布與累積概率分布.
根據(jù)統(tǒng)計學原理[24],累積概率
由式(10)、(11)可得預測概率的確切概率分布和累積概率分布.
設水質監(jiān)測值落在一定區(qū)段的歷史統(tǒng)計預測概率為 x,水質預測值落在相應區(qū)段的未來預測概率為y,那么相關系數(shù)[24]
由 3.1節(jié)計算得到預測概率后,僅僅得到水質指標達到預測值的概率,而無法得到水質指標可能的波動范圍,無法為水質監(jiān)管工作提供較直觀的依據(jù),因此對水質預測進行區(qū)間估計是非常必要的.
由置信區(qū)間定義知,給定α(0<α<1),水質指標W滿足
那么稱區(qū)間(Wmin, Wmax)為 W 置信水平為1-α的置信區(qū)間[24].
設預測值處于某一分區(qū)Area(i, j),該區(qū)域的概率分布是離散的,可采取一次線性插值求取置信區(qū)間上下限.將不同時刻的置信區(qū)間上下限分別相連,可作出水質指標波動包絡線.
基于以上討論,將基于灰色模型群和指數(shù)平滑法的概率組合預測方法應用于浙江鳩坑口溶解氧預測,該數(shù)據(jù)序列起點時間2004年1月4日,終點時間2009年6月15日,數(shù)據(jù)周期為星期,共276個數(shù)據(jù)點,波動范圍為[6.28,13.40].
基于上文的論述,在Visual Studio 2008環(huán)境下使用 c#語言對算法以及數(shù)據(jù)支持程序進行了編寫.
考慮到實際預測工作中,建模序列是隨著監(jiān)測數(shù)據(jù)的更新而更新的,因此本文所采用的數(shù)據(jù)使用方式為:固定建模序列長度,將其外推一個周期的預測值與建模序列的下一個監(jiān)測值相比較,得出該次預測的絕對相對誤差.然后將建模序列后移一個周期,重復以上工作.
基于算法計算精確度以及執(zhí)行時間的考慮,經(jīng)實驗將建模數(shù)據(jù)定為過去一年的數(shù)據(jù).該數(shù)據(jù)長度以配置文件的形式存在于程序中,可以根據(jù)實際預測工作的需要而改變.
分別采用灰色模型群法[25]、指數(shù)平滑法[26]以及基于二者的組合預測方法對溶解氧進行預測,預測結果如圖2所示,對各預測方法的預測表現(xiàn)進行分析對比,如表1所示.
圖2 各預測值與監(jiān)測值比較Fig.2 Comparison between prediction results and reference data
由表 1可看出,不論從一次損失函數(shù)還是二次損失函數(shù)來看,組合預測方法的預測效果都優(yōu)于單一預測方法,這說明組合預測法在預測誤差期望和預測穩(wěn)健性上均優(yōu)于單一預測方法;而在相關系數(shù)指標上,組合預測相對于單一預測方法沒有明顯優(yōu)勢.經(jīng)分析,灰色模型群法的計算復雜度為 O(n2),指數(shù)平滑為 O(n2),權重確定為 O(n),而組合預測法僅在計算權重上比單一預測方法復雜,其復雜度為O(n2),n為預測源數(shù)據(jù)長度.綜上,組合預測在計算復雜度相當?shù)那闆r下,其預測效果優(yōu)于組成其的單一預測方法.
表1 預測方法表現(xiàn)對比Table 1 Performance comparison of prediction methods
表2 統(tǒng)計概率與預測概率不同預測值區(qū)段相關系數(shù)計算結果Table 2 Correlation coefficients of statistical probability and prediction probability in diffident prediction subsection
首先根據(jù)溶解氧監(jiān)測值與預測值的波動區(qū)間,對監(jiān)測值和預測值分別進行 10分段,將2004年1月5日至2008年11月17日的預測作為歷史預測進行統(tǒng)計,將2008年11月24日至2009年6月15日的30次預測作為未來預測.計算歷史統(tǒng)計概率與未來預測概率的相關系數(shù),(表2).
由表2可見,不論確切概率還是累積概率,統(tǒng)計概率與預測概率在不同預測值區(qū)段相關性均較高,說明用歷史統(tǒng)計模擬未來預測是有效的.
將2008年11月24日至2009年6月15日作為未來預測進行區(qū)間估計,給定 α=0.10,分別求取各時間點的置信區(qū)間,將置信區(qū)間上下限分別相連,即可得到溶解氧的波動包絡線,如圖3所示.
圖3 區(qū)間估計結果Fig.3 Interval estimation results
由圖3可以看出,水質指標波動包絡線的有效率達到 93.3%,少數(shù)點出現(xiàn)區(qū)間估計失效的情況.受限于樣本容量,某些區(qū)段的統(tǒng)計規(guī)律無法較好反應總體分布,從而使部分區(qū)間估計失效.由此可看出應用歷史統(tǒng)計對未來預測進行估計的方法有一定的滯后性.但是隨著監(jiān)測值的豐富和預測工作的深入,統(tǒng)計樣本對總體的模擬效果會越來越好,有理由相信滯后性對概率性預測的影響會逐漸減小.
基于概率組合預測方法,開發(fā)了一套水質預測軟件,作為水質預警課題的子模塊,并已在國家水專項某示范地實地試運行.其數(shù)據(jù)流如圖4所示,虛線框內(nèi)實現(xiàn)了概率組合預測方法.
圖4 水質預測數(shù)據(jù)流Fig.4 Data flow chart of the water quality software
本文提出了將一種可擴展的概率組合預測法應用于水質預測,并將基于灰色模型群和指數(shù)平滑法的概率組合預測法應用于浙江鳩坑口進行模擬預測實驗.經(jīng)實驗驗證,組合預測方法的應用改善了水質預測的精確度和穩(wěn)定性;統(tǒng)計概率的有效性可以得到檢驗,概率性預測給出一定置信度下的區(qū)間估計的成功率較高,并且可隨著預測工作的推進不斷提高,為進一步?jīng)Q策奠定了良好的基礎.不過,基于歷史預測統(tǒng)計的概率確定方法具有一定的滯后性,歷史統(tǒng)計估計未來預測需要較大的樣本容量,這一狀況的改善需要水質預測工作的不斷積累.因此,更加完善的預測概率統(tǒng)計方法有待進一步研究.
[1] 樊 敏,顧兆林.非機理性水質模型研究綜述 [J]. 環(huán)境科學與管理, 2009,34(9):63-67.
[2] 邱淑芳,周其華,王澤文.改進的GM(1,1)模型及其在地下水環(huán)境預測中的應用 [J]. 東華理工學院學報, 2006,29(2):176-180.
[3] 孫志霞,孫英蘭.GM(1,1)模型研究及其在水質預測中的應用[J].海洋通報, 2009,28(4):116-120.
[4] 李如忠,汪家權,錢家忠.基于灰色動態(tài)模型群法的河流水質預測研究 [J]. 水土保持通報, 2002,22(4):10-12.
[5] 吳惠如,李麗玲,林 堅.灰色系統(tǒng)模型在高錳酸鹽指數(shù)預測中的應用 [J]. 中國環(huán)境監(jiān)測, 2001,17(4):58-60.
[6] 王海云,程勝高,王 軍,等.改進 GM(1,1)在兩壩間水質預測中的應用 [J]. 人民長江, 2008,39(11):39-42.
[7] 胡慧彬.灰色系統(tǒng)的GM(1,1)模型在地表水COD濃度預測中的應用 [J]. 中國環(huán)境監(jiān)測, 1993,9(4):45-46.
[8] 趙任輝,楊宗海.非線性和時變參數(shù)時間序列模型及其在水質分析中的應用 [J]. 分析化學, 1994,22(3):228-232.
[9] 張 虎,蔡 燕,姚海強.長江水質評價和預測研究 [J]. 工程數(shù)學學報, 2005,22(7):47-52.
[10] 何斯雯,謝正文,黃雅楠,等.基于指數(shù)平滑技術的水體污染灰色預測模型及應用 [J]. 環(huán)境科學與管理, 2009,34(8):169-172.
[11] 吳 濤,顏輝武,唐桂剛.三峽庫區(qū)水質數(shù)據(jù)時間序列分析預測研究 [J]. 武漢大學學報, 2006,31(6):500-507.
[12] 張 震,張 超,張 昊.水質評價和預測模型 [J]. 工程數(shù)學學報, 2005,22(7):35-40.
[13] Faruk D O. A hybrid neural network and ARIMA model for water quality time series prediction [J]. Engineering Applications of Artificial Intelligence,2010,23(4):586-594.
[14] Reckhow K H. Water quality prediction and probability network models [J]. Canadian Journal of Fisheries and Aquatic Sciences, 1999,56:1150-1158.
[15] 汪同三,張 濤.組合預測——理論、方法及應用 [M]. 北京:社會科學文獻出版社, 2008:43-51,159-162.
[16] Beck M B. Water quality modeling: a review of the analysis of uncertainty [J]. Water Resources Research, 1987,23:1393-1442.
[17] 牛志廣,張宏偉,辛志偉.基于log-logistic概率分布的近海水質組合預測方法研究 [J]. 系統(tǒng)工程理論與實踐, 2006,26(5):111-116.
[18] Park J-Il, Jung N-C, Kwak K-C. Water quality prediction in a reservoir: linguistic model approach for interval prediction [J]. International Journal of Control Automation and Systems, 2010,8(4):868-874.
[19] 楊文佳,康重慶,夏 清,等.基于預測誤差分布特性統(tǒng)計分析的概率性短期負荷預測 [J]. 電力系統(tǒng)自動化, 2006,30(19): 47-52.
[20] 陳華友.組合預測方法有效性理論及其應用 [M]. 北京:科學出版社, 2008:52-54.
[21] Gupta S, Wilton P C. Combination of forecasts: an extension [J]. Management Science, 1987,33(3):356-372.
[22] Gupta S, Wilton P C. Combination of economic forecasts: an odds-matrix approach [J]. Journal of Business and Economic Statistics, 1988,6(3):373-379.
[23] 李慶揚,王能超,易大義.數(shù)值分析 [M]. 北京:清華大學出版社, 2002:221-229.
[24] 盛 驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計 [M]. 北京:高等教育出版社, 2008:129-133,191-195.
[25] 鄧聚龍.灰色預測與決策 [M]. 武漢:華中理工大學出版社. 1986:75-76.
[26] 范劍青,姚琦偉.非線性時間序列 [M]. 北京:高等教育出版社, 2005:68-92.
Water quality prediction based on probability-combination.
SUN Zhao-bing, WANG Bao-liang*, JI Hai-feng, HUANG Zhi-yao, LI Hai-qing(State Key Laboratory of Industrial Control Technology, Department of Control Science and Engineering, Zhejiang University, Hangzhou 310027, China). China Environmental Science, 2011,31(10):1657~1662
The existing combination method for water quality prediction lacks of a framework approach and the probability prediction is always based on an assumption that water quality index follows certain probability distribution. A new method based on probability-combination for water quality prediction was proposed. The method combined the prediction results of different single methods through the use of Odds-Matrix method and it could improve the performances of prediction effectively. It was worth noting that the combination-forecast approach could be extended to new methods. The probability of prediction was established through statistical analysis of historical prediction data and hence the validation of the method was achieved along with interval estimation under certain confidence level. The Probability-Combination method based on gray model group and exponent smoothing was proposed for Jiukengkou, Zhejiang. Experimental results indicated that the combination-forecast approach performs better than single prediction method. The validity of probability establishment could be checked effectively. According to the results, the envelopes of water-quality curve under certain confidence level were derived. The prediction accuracy and stability could be improved effectively and probability results which could be the basis of the decision-making could also be given successfully by probability-combination. Furthermore, as a framework approach, it could add new prediction methods continuously.
water quality prediction;combination-forecast;probability prediction
X703.1
A
1000-6923(2011)10-1657-06
2011-01-15
水體污染控制與治理科技重大專項(2008ZX07420-004)
* 責任作者, 副教授, blwang@iipc.zju.edu.cn
孫兆兵(1987-),男,山東省鄒城市人,浙江大學控制科學與工程學系碩士研究生,主要從事水質預測方面的研究.