張世英,李 琦
(天津大學(xué)管理學(xué)院,天津 300072)
非線性檢驗(yàn)及預(yù)測在污水處理廠評價中的應(yīng)用
張世英,李 琦
(天津大學(xué)管理學(xué)院,天津 300072)
為了避免污水處理廠規(guī)模盲目擴(kuò)大造成的投資效率低下的現(xiàn)象發(fā)生,科學(xué)地預(yù)測合理的用水量必不可少?;谟盟康膶?shí)際歷史數(shù)據(jù),利用BDS檢驗(yàn)、Box-Pierce檢驗(yàn)和Box-Ljung檢驗(yàn)以及非線性檢驗(yàn),如代替數(shù)據(jù)檢驗(yàn)Surrogate date test、Hinich雙譜檢驗(yàn)、White人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)來選擇時間序列重構(gòu)預(yù)測模型。根據(jù)實(shí)際用水量情況,比較各種不同重構(gòu)模型預(yù)測誤差,包括線性AR模型以及隨機(jī)森林、隨機(jī)梯度Boosting、支持向量、人工神經(jīng)網(wǎng)絡(luò)和自適應(yīng)樣條等。結(jié)果表明,有著非線性關(guān)系的人工神經(jīng)網(wǎng)絡(luò)誤差最小,符合檢驗(yàn)結(jié)果。
用水量;非線性檢驗(yàn);預(yù)測;隨機(jī)梯度Boosting
在污水處理廠的建設(shè)中,一般會結(jié)合經(jīng)濟(jì)發(fā)展和城市建設(shè)的總體規(guī)劃來考慮污水處理廠的建設(shè)規(guī)模,并以近期需求為主,適當(dāng)考慮長遠(yuǎn)發(fā)展的需要來確定污水處理廠的使用周期。建設(shè)部已經(jīng)要求各地保證城鎮(zhèn)污水處理廠投入運(yùn)行后的實(shí)際處理負(fù)荷在一年內(nèi)不得低于設(shè)計能力的60%,三年內(nèi)不得低于設(shè)計能力的75%。目前,許多地方盲目追求政績,不考慮實(shí)際情況,任意擴(kuò)大污水處理廠建設(shè)規(guī)模,致使建成的污水處理廠大部分處理能力閑置和投資資金效率低下的情況屢見不鮮。為了合理評價污水處理廠的建設(shè)規(guī)模,有必要對污水產(chǎn)量進(jìn)行科學(xué)預(yù)測。
通常情況下,污水處理廠的建設(shè)規(guī)模以本地排水管理處多年的觀測、調(diào)查、統(tǒng)計和分析污水量的結(jié)果為基礎(chǔ),根據(jù)排水規(guī)劃的服務(wù)面積、污水量標(biāo)準(zhǔn)并結(jié)合總體規(guī)劃,同時參考供水指標(biāo)和供水規(guī)劃來確定。在以上計算過程中,人均日用水量是個很重要的指標(biāo),關(guān)系生活用水和公建用水的預(yù)測。能否科學(xué)準(zhǔn)確預(yù)測未來年份人均日用水量,很大程度上決定了建設(shè)規(guī)模的合理性。目前用水量預(yù)測模型選擇過于隨意,缺乏必要的檢驗(yàn)[1-2]。本文利用各種非線性檢驗(yàn)方法,確定合理預(yù)測模型,提高預(yù)測精度。
從統(tǒng)計建模方面考慮,預(yù)測方法主要有兩種:一是利用歷史數(shù)據(jù)預(yù)測未來數(shù)值,典型方法就是時間序列;二是利用其他相關(guān)數(shù)據(jù)預(yù)測該類指標(biāo)未來數(shù)據(jù)。第二類預(yù)測方法所需數(shù)據(jù)較多,由于各種原因,不少城市缺乏生活用水資料,不易搜集數(shù)據(jù)。所以本文采用人均日用水量的歷史數(shù)據(jù)序列預(yù)測未來年份用水量。
時間序列預(yù)測法的基本特點(diǎn):一是假定事物的過去趨勢會延伸到未來;二是預(yù)測所依據(jù)的數(shù)據(jù)具有不規(guī)則性;三是撇開了與其他因素之間的因果關(guān)系。
給定一組數(shù)據(jù)選擇合適模型預(yù)測未來取值主要從以下三個方面考慮:一是數(shù)據(jù)的經(jīng)驗(yàn)特征是否符合模型的前提條件,如ARMA模型要求序列是平穩(wěn)的;二是模型擬合之后的假設(shè)檢驗(yàn)是否顯著,如線性回歸的顯著性檢驗(yàn);三是如果數(shù)據(jù)足夠充分,可以把數(shù)據(jù)分成兩部分,一部分用于建模,另一部分用于檢驗(yàn)擬合模型預(yù)測的精度。
時間序列各種模型一般要求序列平穩(wěn),而原始序列由于存在長期趨勢和周期趨勢等,是非平穩(wěn)的。必須通過變換使其平穩(wěn)化,通常的一種變換是變化率變換 lnXt-lnXt-1,它的一階泰勒展開就是變化率(Xt-Xt-1)/Xt-1。雖然不同城市之間人均日用水量存在一定的差別,但是其變化率相差不大??紤]到國內(nèi)城市用水資料搜集的困難性,采用澳大利亞Mawson地區(qū)2000年1月到2007年4月每月人均日用水量數(shù)據(jù),數(shù)據(jù)長度88?;谄渥兓暑A(yù)測其他城市人均日用水量變化率,逆變換得到原始用水量。
基于 BDS 檢驗(yàn)[3]、Box-Ljung 檢驗(yàn)[4]、Hinich 雙譜檢驗(yàn)[5]、代替數(shù)據(jù)檢驗(yàn)[6]、White 人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)[7]等方法辨識時間序列內(nèi)在變化模式,首先,判斷序列之間獨(dú)立還是相關(guān),如果相關(guān),然后進(jìn)一步檢驗(yàn)線性相關(guān)和非線性相關(guān)。這里存在兩種方法:一是直接判斷線性和非線性,如代替數(shù)據(jù)檢驗(yàn)和Hinich雙譜檢驗(yàn);二是剔除線性相關(guān)性,如果殘差獨(dú)立同分布,表明原始序列線性相關(guān),如果殘差繼續(xù)存在相關(guān)性,表明原始序列非線性相關(guān),所以獨(dú)立性檢驗(yàn)也可用于檢驗(yàn)線性和非線性,如果非線性相關(guān),還可以進(jìn)一步判斷是否存在混沌。通過各種檢驗(yàn)方法判斷人均日用水量變化率的變化模式,建立合理的線性或者非線性模型,預(yù)測未來人均日用水量變化率。假定不同城市人均日用水量變化率具有相同的變化模式,根據(jù)很少的用水資料可以預(yù)測未來年份人均日用水量,為合理評價污水處理廠建設(shè)規(guī)模提供參考,力求評價的科學(xué)性和準(zhǔn)確性。
澳大利亞Mawson地區(qū)2000年1月到2007年4月每月人均日用水量數(shù)據(jù)從澳大利亞數(shù)據(jù)中心http://aadc-aps.a(chǎn)d.gov.a(chǎn)u/aadc/soe/displayindicator.cfm?soeid=61#graph查詢得到。采用KPSS進(jìn)行平穩(wěn)性檢驗(yàn),統(tǒng)計量結(jié)果為0.058,對應(yīng)相伴概率為0.10,結(jié)論是平穩(wěn)的。BDS檢驗(yàn)獨(dú)立性檢驗(yàn)相伴概率與嵌入維數(shù)和相鄰點(diǎn)判斷參數(shù)有關(guān),不同組合的相伴概率不盡相同。因?yàn)榫芙^是有力的,而接受只是表示在目前水平下不拒絕原假設(shè),所以只要有一個組合拒絕原假設(shè),即可認(rèn)為拒絕原假設(shè),表示時序不是獨(dú)立同分布的,存在相關(guān)性或者獨(dú)立不同分布。BDS檢驗(yàn)結(jié)果表明,日用水量變化率獨(dú)立不同分布或者相關(guān)。為了進(jìn)一步檢驗(yàn)是否存在相關(guān)性,采用Box-Pierce和Box-Ljung獨(dú)立性檢驗(yàn),兩者相伴概率都小于0.05,在5%的顯著性水平下,拒絕原假設(shè),認(rèn)為人均日用水量變化率具有相關(guān)性。
判斷相關(guān)是線性相關(guān)還是非線性相關(guān),應(yīng)采用代替數(shù)據(jù)檢驗(yàn)。本文采用Schreiber等人[8]的IAAFT算法產(chǎn)生100組代替數(shù)據(jù),檢驗(yàn)統(tǒng)計量取平均互信息指數(shù)。檢驗(yàn)結(jié)果表明,在5%置信水平下不能斷定人均日用水量變化率存在非線性相關(guān)。
考慮弱非線性檢驗(yàn)——White人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)和Terasvirta人工神經(jīng)網(wǎng)絡(luò)[9],不是均值線性的時間序列稱為“弱非線性”。兩種檢驗(yàn)方法的相伴概率都小于5%,拒絕原假設(shè),說明人均日用水量變化率確實(shí)不是均值線性,存在弱非線性相關(guān)。
Hinich的雙譜檢驗(yàn)可以直接檢驗(yàn)三階非線性和正態(tài)性。計算得到人均日用水量變化率雙譜非線性檢驗(yàn)的相伴概率為1.0,不認(rèn)為其具有三階非線性。
由于White人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)和Terasvirta人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)本文人均日用水量變化率存在弱非線性,為了進(jìn)一步判斷是否存在混沌,需要計算時間序列的最大Lyapunov指數(shù)。利用Rosenstein等人[10]方法和Nychka等人[11]的人工神經(jīng)網(wǎng)絡(luò)估計最大Lyapunov指數(shù)。Rosenstein等人的方法首先需要確定嵌入維數(shù)m和時間延滯d。它們也是相空間重構(gòu)中最重要的兩個參數(shù)。在預(yù)測過程中,采用相空間重構(gòu)方法恢復(fù)原始動力系統(tǒng)。本文首先基于平均互信息指數(shù)確定最佳時間延滯d,然后采用虛假最近鄰法確定最優(yōu)嵌入維數(shù)m。最佳時間延滯d應(yīng)取2,最優(yōu)的嵌入維數(shù)m是3。用Rosenstein等人方法估計最大Lyapunov指數(shù)為0.373 6左右,Nychka等人人工神經(jīng)網(wǎng)絡(luò)估算的Lyapunov指數(shù)為0.263 5。一般只是Lyapunov指數(shù)的符號判斷混沌是否存在,由Lyapunov指數(shù)為正,說明人均日用水量變化率存在混沌。
通過計算,估計最優(yōu)的時間延滯為2,嵌入維數(shù)是3,所以重構(gòu)模型為
式中:xt為重構(gòu)模型;f為未知非線性函數(shù);xt-2,xt-4,xt-6為 t-2,t-4,t-6 時刻指標(biāo)取值;εt為隨機(jī)噪聲。
機(jī)器學(xué)習(xí)的方法有多種,這里選取成熟穩(wěn)定的隨機(jī)森林、隨機(jī)梯度Boosting、支持向量、自適應(yīng)樣條和人工神經(jīng)網(wǎng)絡(luò)5種方法。由于用水量數(shù)據(jù)只是弱非線性,可以考慮線性時間序列的AR模型。為了從上述方法中選擇一種較好的方法,預(yù)留最后7組數(shù)據(jù)不用來訓(xùn)練,比較7組預(yù)留數(shù)據(jù)的相對誤差,預(yù)測值減去真實(shí)值除以真實(shí)值,選擇一種評比原則,得出較優(yōu)方法。
前面已經(jīng)檢驗(yàn)過用水量變化率的平穩(wěn)性,所以不用差分模型,直接選取AR模型。最優(yōu)嵌入維數(shù)為3,選取AR(3)模型。對于標(biāo)準(zhǔn)殘差不同滯后階數(shù)的Box-Ljung獨(dú)立性檢驗(yàn),易知相伴概率都大于0.05,不能拒絕原假設(shè),表明標(biāo)準(zhǔn)殘差獨(dú)立,選用AR(3)模型合理。從預(yù)留7組數(shù)據(jù)的相對誤差的均值和方差來看,人工神經(jīng)網(wǎng)絡(luò)都是最好的方法。在誤差比較中,一般人們只關(guān)心誤差的絕對大小,而不太重視正負(fù)符號。如果單純考慮相對誤差絕對值,其均值和方差最小的還是人工神經(jīng)網(wǎng)絡(luò),認(rèn)為人工神經(jīng)網(wǎng)絡(luò)更適用于本文用水量數(shù)據(jù)。
在向后預(yù)測過程中,由于重構(gòu)模型中自變量也是隨機(jī)變量,加上噪聲的干擾,每步預(yù)測的標(biāo)準(zhǔn)誤差不固定。由于人工神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性,推導(dǎo)每步預(yù)測值的標(biāo)準(zhǔn)誤差無法完成。采用蒙特卡羅方法模擬。蒙特卡羅方法的思想是產(chǎn)生服從概率分布的偽隨機(jī)數(shù),代入復(fù)雜函數(shù)表達(dá)式,所得結(jié)果的經(jīng)驗(yàn)分布當(dāng)作所求分布的估計。預(yù)測值的不確定性來源于兩個方面:一是具有固定標(biāo)準(zhǔn)差σ的噪聲;二是重構(gòu)模型中自變量值的隨機(jī)性。噪聲的標(biāo)準(zhǔn)差σ可以通過殘差平方和估計。具體步驟如下:一是利用擬合殘差平方和估計噪聲標(biāo)準(zhǔn)差σ;二是產(chǎn)生2 000個零均值,標(biāo)準(zhǔn)差為σ的正態(tài)白噪聲;三是將前面預(yù)測值和噪聲代入擬合的人工神經(jīng)網(wǎng)絡(luò)重構(gòu)模型,得到2 000個新預(yù)測值;四是逆變換人均日用水量變化率到原始人均日用水量,exp(t時刻人均日用水量變化率)乘以t時刻人均日用水量得到t+1時刻原始人均日用水量;五是重復(fù)步驟二至四,直至達(dá)到需要預(yù)測的步數(shù);六是對于每步預(yù)測,都存在2 000個預(yù)測值,其經(jīng)驗(yàn)標(biāo)準(zhǔn)差就看作該步預(yù)測的標(biāo)準(zhǔn)誤差。95%經(jīng)驗(yàn)置信區(qū)間看作該步預(yù)測值95%置信區(qū)間。
為了驗(yàn)證預(yù)測結(jié)果的可靠程度,從網(wǎng)站http://aadc-maps.a(chǎn)ad.gov.a(chǎn)u/aadc/soe/display indicator.cfm?soe id=61#graph上查詢2007年5月到2009年5月Mawson地區(qū)月人均日用水量數(shù)據(jù),基于人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果,預(yù)測2007年5月到2009年5月Mawson地區(qū)月人均日用水量見圖1。以散點(diǎn)表示的是真實(shí)用水量,中間有緩慢增長趨勢,以長虛線表示的是預(yù)測均值,上下短虛線是預(yù)測值的95%置信上限和下限,體現(xiàn)用水量預(yù)測波動的水平。從圖1中可以看出,真實(shí)用水量除去一個點(diǎn)在預(yù)測95%置信區(qū)間之外,其他所有點(diǎn)都在預(yù)測95%置信區(qū)間之內(nèi),證實(shí)了本文預(yù)測的可靠性。
圖1 人均日用水量及預(yù)測值
污水處理廠一般存在近期和遠(yuǎn)期規(guī)模,遠(yuǎn)期規(guī)模需要預(yù)測才能合理評價。人均日用水量是確定污水處理廠建設(shè)規(guī)模的一個重要指標(biāo),利用BDS檢驗(yàn)、Box-Pierce檢驗(yàn)和Ljung-Box檢驗(yàn)等獨(dú)立性檢驗(yàn),判斷人均日用水量時間序列存在相關(guān)性。代替數(shù)據(jù)檢驗(yàn)不能確定非線性相關(guān),Hinich雙譜檢驗(yàn)也不能確定三階非線性相關(guān),而White和Teravitra人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)判斷出弱非線性。計算Lyapunov指數(shù)為正,存在混沌。由于存在弱非線性,基于相空間重構(gòu),利用隨機(jī)森林、隨機(jī)梯度Boosting、支持向量、人工神經(jīng)網(wǎng)絡(luò)、自適應(yīng)樣條和線性AR模型6種方法擬合原始動力系統(tǒng)。在預(yù)留七組數(shù)據(jù)中,人工神經(jīng)網(wǎng)絡(luò)預(yù)測相對誤差的均值和方差最小,最后基于人工神經(jīng)網(wǎng)絡(luò)擬合結(jié)果,預(yù)測后兩年人均日用水量。
[1] 王洪禮,韓紅臣,李勝朋,等.城市用水量隨機(jī)梯度回歸分析[J].天津大學(xué)學(xué)報:社會科學(xué)版,2008,10(3):225-227.
[2] 李 棟,王洪禮,杜忠曉.城市生活用水的支持向量回歸預(yù)測[J].天津大學(xué)學(xué)報:社會科學(xué)版,2006,8(1):64-67.
[3] Brock W A,Dechert W D,Scheinkman J A.A Test for Independence Based on the Correlation Dimension[R].Madison:University of Wisconsin-Madison,1986.
[4] Ljung G M,Box G E P.On a measure of lack of fit in time series models[J].Biometrika,1978,65:553-564.
[5] Hinich M.Testing for Gaussianity and linearity of a stationary time series[J].Journal of Time Series Analysis,1982,3(3):169-176.
[6] Theiler J,Eubank S,Longtin A,et al.Testing for nonlinearity in time series:The method of surrogate data[J].Physical D Nonlinear Phenomena,1992,58:77-94.
[7] White H.An additional hidden unit test for neglected nonlinearity in multilayer feed-forward networks[C]//Proceedings of the International Joint Conference on Neural Networks.New York:IEEE Press,1989(2):451-455.
[8] Schreiber T,Schmitz A.Improved surrogate data for nonlinearity tests[J].Physical Review Letter,1996,77(4):635-638.
[9] Teraesvirta T,Lin C F,Granger C W J.Power of the Neural Network Linearity Test[J].Journal of Time Series Analysis,1993,14:209-220.
[10] Rosenstein M T ,Collins J J,Luca C J D.A practical method for calculating largest Lyapunov exponents from small data sets[J].Physical D,1993,65:117-134.
[11] Nychka D,Ellner S,Gallant A,et al.Finding chaos in noisy systems[J].Journal of Royal Statistical Society B,1992,54(2):399-426.
[12] 張 維,楊旭才,陸曉春,等.污水處理廠機(jī)器學(xué)習(xí)綜合評價[J].天津大學(xué)學(xué)報:社會科學(xué)版,2008,10(2):118-121.
Application of Nonlinearity Test and Prediction in Assessment of Sewage Disposal Plants
ZHANG Shi-ying,LI Qi
(School of Management,Tianjin University,Tianjin 300072,China)
Scientific prediction of reasonable water consumption is inevitable to avoid blind expansion in sewage disposal plants with low efficiency of investment.Historical data were collected.Independent tests such as BDS,Box-Pierce and Box-Ljung tests and nonlinearity tests including surrogate data,Hinich's bispectrum and White's artificial neuron network tests were applied jointly.The reconstruction prediction model is selected through these tests.The prediction errors of AR,random forest,stochastic gradient boosting,support vector,artificial neuron network and multivariate adaptive regression splines were calculated based on real consumption.The results show that artificial neuron network with nonlinear relation exhibits the minimal error,which accords with the conclusion of all tests.
water consumption;nonlinearity test;prediction;stochastic gradient boosting
X730
A
1008-4339(2010)04-0318-04
2009-10-20.
國家自然科學(xué)基金資助項(xiàng)目(10772132);中國博士后科學(xué)基金資助項(xiàng)目(20060400706).
張世英(1936— ),男,教授.
李 琦,liqifree2003@yahoo.com.cn.