劉 鑫,桑學(xué)鋒,常家軒,李子恒
(1.華北水利水電大學(xué)水利學(xué)院,鄭州450046;2.中國水利水電科學(xué)研究院,水資源管理研究室,北京100038)
作為粵港澳大灣區(qū)的核心引擎,深圳是一座充滿活力和創(chuàng)新力的新型大都市,流動人口是深圳的顯著特征。深圳也具有很好的營商環(huán)境,孕育出華為、平安、招商、騰訊等一批具有國際競爭力的企業(yè),創(chuàng)業(yè)密度位于全國前列,吸引了很多人員來深圳就業(yè)。
但是深圳本地水資源匱乏,全市無大江大河。小河流雖然多分布廣,但干流短,河流徑流量小,導(dǎo)致水庫自產(chǎn)水量少,因此,深圳供水主要依靠境外引水,每年境外引水量約為地表水供水量的85%。受年度引水指標(biāo)限制,取水量有限,再加上廣東省供水壓力的逐年增長,深圳每年的引水指標(biāo)一直受到廣東省政府的限制。而水源單位在上報下一年度的用水計劃時無法有效預(yù)測下一年的需水,導(dǎo)致上報數(shù)據(jù)質(zhì)量較差,這也導(dǎo)致年度引水計劃無法有效制定。因此,能夠準(zhǔn)確預(yù)測每個水廠及行政區(qū)的需水情況將對深圳制定年度引水計劃具有重大意義。
目前,針對單變量的預(yù)測常用回歸[1,2]與時間序列法[3-5]。吳澤寧等[6]采用回歸分析法結(jié)合區(qū)間估計理論,改善了需水預(yù)測結(jié)果的偏差問題。VONK 等[7]建立基于氣象參數(shù)和休假情況的支持向量回歸模型進(jìn)行日需水量的預(yù)測。李析男等[8]構(gòu)建居民生活需水定額的時間序列模型,在交叉驗(yàn)證中都具有較高的Nash 效率系數(shù)。潘扎榮等[9]利用時間序列法及聚類分析等對河道內(nèi)生態(tài)需水進(jìn)行時空特征解析。DE 等[10]對比回歸及時間序列等方法,指出在水需求預(yù)測方面仍有改進(jìn)的余地。
通過大量實(shí)驗(yàn)發(fā)現(xiàn)回歸模型并不能有效學(xué)習(xí)到水廠供水的周期性、趨勢性及波動性,在預(yù)測時很難將過去的規(guī)律進(jìn)行延伸,且容易生成偽回歸方程[11,12],從而導(dǎo)致預(yù)測失真。時間序列模型雖然可以學(xué)習(xí)到過去的規(guī)律,但是由于序列的非平穩(wěn)特性在進(jìn)行長期預(yù)測時,預(yù)測值以線性填充或者以平均值填充的概率較大。此外,目前需水預(yù)測中沒有分類別建模是預(yù)測誤差較大的主要原因。而城市不同行政區(qū)不同水廠的用水情況差別較大,統(tǒng)一建模不能真實(shí)反應(yīng)各個水廠及行政區(qū)的用水特點(diǎn),對于長時間序列的數(shù)據(jù)建模,會損失較遠(yuǎn)期與近期序列潛在的數(shù)量與特征關(guān)系。
因此,針對深圳市各水廠及行政區(qū)供水的周期性及波動性特點(diǎn),考慮時間變化因子,提出KMeans 聚類算法[13,14]與季節(jié)性滑動平均自回歸(seasonal moving average autoregressive,SMAAR)模型耦合方法,對47個水廠和10個行政區(qū)的供用水?dāng)?shù)據(jù)進(jìn)行分類建模預(yù)測。根據(jù)序列特性通過滑動平均解決序列非平穩(wěn)問題,使規(guī)律復(fù)雜的時間序列轉(zhuǎn)化為規(guī)律簡單的時間序列,并隨著窗口的滑動進(jìn)行預(yù)測。本文數(shù)據(jù)來源于深圳市數(shù)字水務(wù)系統(tǒng)和深圳市統(tǒng)計局。
深圳市的用水構(gòu)成分為生活、工業(yè)、服務(wù)業(yè)、農(nóng)業(yè)、建筑業(yè)及生態(tài)環(huán)境用水。由于深圳是全部城鎮(zhèn)化功能完備的現(xiàn)代化超大型城市,因此農(nóng)業(yè)及建筑業(yè)用水量很小且年際變化不大,兩者年用水總量的和約占全市用水總量的7%。深圳一直在建設(shè)海綿城市,加上雨水利用工程的建設(shè)與污水回用量提高,因此生態(tài)用水增長不大,用水量約占年供水總量的6%。深圳用水占比較大的依次是生活用水、服務(wù)業(yè)用水及工業(yè)用水。生活用水一直處于深圳用水構(gòu)成的第一大部分;服務(wù)業(yè)用水保持低速增長,2015年升至用水構(gòu)成的第二大部分;隨著工業(yè)產(chǎn)業(yè)結(jié)構(gòu)不斷優(yōu)化調(diào)整及節(jié)水技術(shù)的不斷應(yīng)用,用水效率得到提升,工業(yè)用水總量從2011年的6.07 億m3下降至2018年的4.85 億m3,用水構(gòu)成也從第二大部分下降至第三大部分。
通過對深圳市各區(qū)水務(wù)局、水源管理單位、水庫管理處及水廠等地進(jìn)行調(diào)研,對水廠供水的近五年實(shí)時數(shù)據(jù)分析發(fā)現(xiàn),深圳目前用水結(jié)構(gòu)基本穩(wěn)定,整體趨勢是:每年春節(jié)到元宵節(jié)期間全市流動人口全部返鄉(xiāng),是全年用水量最低的時期,日均用水量約為平時的56%。全年夏季用水多,冬季用水少,日用水量最大值多數(shù)情況出現(xiàn)在溫度最高的7月份。全市總用水量逐年上升,農(nóng)業(yè)、工業(yè)、建筑業(yè)及生態(tài)環(huán)境用水雖有波動但基本穩(wěn)定,生活用水及服務(wù)業(yè)用水量逐年增加。
在經(jīng)濟(jì)及政策環(huán)境的吸引下,外來流動人口進(jìn)入深圳,在為深圳帶來充足勞動力的同時,也擴(kuò)大了深圳市的用水人口基數(shù),其后果直接體現(xiàn)在深圳市年用水總量不斷上升。在2004-2018年間,全市用水總量增加了4.32 億m3,增加的用水量主要表現(xiàn)在生活用水與服務(wù)業(yè)用水,可知增加的外來人口是深圳市用水總量增加的一大推力。
2004-2015年深圳用水逐年增長較大,2008年經(jīng)濟(jì)危機(jī)及2012年三條紅線指標(biāo)確立導(dǎo)致用水量出現(xiàn)下降。2015-2019年,人口總量呈現(xiàn)明顯的連續(xù)增長的態(tài)勢,總?cè)丝谀昃黾蛹s65 萬,流動人口年均約增加30 萬人,而用水總量增長幅度很小(圖1)。通過分析發(fā)現(xiàn),這是因?yàn)槿丝诔酥苯雨P(guān)系著用水總量的人口基數(shù)外,還通過改變用水結(jié)構(gòu)影響著用水量。深圳各行政區(qū)的產(chǎn)業(yè)結(jié)構(gòu)調(diào)查結(jié)果見表1。
圖1 用水與人口變化Fig.1 Water use and population changes
由表1 可以看出,原特區(qū)(福田、羅湖、鹽田及南山)的產(chǎn)業(yè)結(jié)構(gòu)是以第三產(chǎn)業(yè)為主,4 個行政區(qū)第三產(chǎn)業(yè)比重分別為88.4%、90.77%、83.16%、83.03%,第三產(chǎn)業(yè)用水的特點(diǎn)就是波動性強(qiáng)。而寶安區(qū)、龍華區(qū)、坪山區(qū)及光明區(qū)是以第二產(chǎn)業(yè)為主,其次是第三產(chǎn)業(yè),其中坪山區(qū)和光明區(qū)的第二產(chǎn)業(yè)比重分別達(dá)到75%和84.12%。大鵬新區(qū)隸屬于龍崗區(qū),因此龍崗區(qū)和大鵬新區(qū)的產(chǎn)業(yè)結(jié)構(gòu)類似,第二產(chǎn)業(yè)和第三產(chǎn)業(yè)的比重相當(dāng)。本文分別選擇第三產(chǎn)業(yè)業(yè)和第二產(chǎn)業(yè)占比最大的羅湖區(qū)與光明區(qū)2019年逐日供水?dāng)?shù)據(jù)進(jìn)行對比,見圖2。
表1 2019年深圳行政區(qū)產(chǎn)業(yè)結(jié)構(gòu) 個Tab.1 Industrial structure of Shenzhen district in 2019
圖2 羅湖與光明區(qū)2019年逐日供水序列Fig.2 The daily water supply sequence of Luohu and Guangming districts in 2019
由圖2 可以看出,羅湖區(qū)與光明區(qū)的逐日供水規(guī)律為春假假期最低7月份最高,符合深圳市的總體用水規(guī)律。但是不考慮季節(jié)性因素,光明區(qū)逐日供水基本穩(wěn)定波動較小,說明第二產(chǎn)業(yè)用水比較穩(wěn)定;而羅湖區(qū)逐日供水波動較大,說明第三產(chǎn)業(yè)用水變化較大,且五一國慶供水有明顯的下降,其他行政區(qū)也存在類似現(xiàn)象。說明第三產(chǎn)業(yè)是深圳各區(qū)用水波動大的主要原因,遇到假期居民外出旅游用水量下降,非假期期間人口傾向流動于以第三產(chǎn)業(yè)為主的行政區(qū)??紤]到逐日數(shù)據(jù)波動較大,不利于發(fā)現(xiàn)深圳各區(qū)的用水規(guī)律。因此,將2015年1月-2020年8月各區(qū)逐月供水的聚4類結(jié)果進(jìn)行對比(圖3),因?yàn)楦鲄^(qū)人口數(shù)量不一致,為了畫圖方便,將數(shù)據(jù)使用公式1進(jìn)行歸一化。為了保留數(shù)據(jù)真實(shí)的潛在特征聯(lián)系,建模預(yù)測過程中不進(jìn)行歸一化。
圖2 中羅湖區(qū)逐日供水序列波動較大,但是由圖3(a)可以看出,逐月供水?dāng)?shù)據(jù)規(guī)律性明顯,用水量在春節(jié)期間降到最低,春節(jié)后用水量開始回升,7月份用水量最大。圖3(a)中5 個區(qū)的用水屬于平穩(wěn)型,年際間具有明顯周期性規(guī)律,且年內(nèi)變化規(guī)律基本一致。圖3(b)可以看出,龍華區(qū)與光明區(qū)用水具有周期性且附帶長期的增趨勢,每年的用水總量有較明顯增長,屬于增長型。圖3(c)和(d)屬于波動型,即年內(nèi)無明顯規(guī)律,年際間周期性規(guī)律不顯著,圖3(c)屬于先增后降的趨勢,圖3(d)屬于先降后增的趨勢。同時,分別選擇羅湖區(qū)與光明區(qū)產(chǎn)能最大的兩個水廠的逐日供水情況進(jìn)行對比(圖4)。
圖3 行政區(qū)聚類結(jié)果Fig.3 Clustering results of the districts
式中:Vmin與Vmax是時間序列最小值和最大值;Vi是序列的第i個值。
由圖4 可以看出,東湖水廠2019年逐日供水情況與羅湖區(qū)的基本一致,日供水波動較為劇烈;甲子塘水廠的2019年逐日供水情況與光明區(qū)的規(guī)律基本一致,日供水保持平穩(wěn)。水廠的逐日供水?dāng)?shù)據(jù)也具有和所在行政區(qū)一樣的規(guī)律性?;谂c行政區(qū)同樣的考慮,將2015年1月-2020年8月水廠逐月供水的聚4 類結(jié)果進(jìn)行展示(圖5),也將數(shù)據(jù)歸一化??紤]水廠較多,為了畫圖方便沒有將全部水廠數(shù)據(jù)進(jìn)行展示。
圖4 東湖及甲子塘水廠2019年逐日供水序列Fig.4 The daily water supply sequence of Donghu and Jiazitang waterworks in 2019
圖5 水廠聚類結(jié)果Fig.5 Clustering results of the waterworks
水廠及行政區(qū)的逐日數(shù)據(jù)波動劇烈,而逐月數(shù)據(jù)存在較強(qiáng)的規(guī)律性與周期性,因此使用月數(shù)據(jù)建模。本文根據(jù)行政區(qū)及水廠月數(shù)據(jù)的不同聚類結(jié)果分別建模,保證模型能夠充分學(xué)習(xí)每個類別的規(guī)律,更好地預(yù)測未來??紤]到長期趨勢的影響,對數(shù)據(jù)進(jìn)行滑動平均,對于周期性的規(guī)律,則以周期為滑動階數(shù)進(jìn)行滑動平均,對于周期性不明顯的數(shù)據(jù)設(shè)置滑動階數(shù)候選集合,通過訓(xùn)練模型選出最佳階數(shù)。利用數(shù)據(jù)滑動平均抵消長期趨勢的影響,對滑動平均后的數(shù)據(jù)序列建立自回歸模型,并將預(yù)測結(jié)果與自回歸滑動平均(autoregressive moving average,ARMA)模型[15,16]的預(yù)測結(jié)果進(jìn)行對比。ARMA 模型雖然也進(jìn)行滑動平均,但是該滑動關(guān)注的是殘差項(xiàng)或者噪聲,而本文的SMAAR是將原始序列進(jìn)行滑動平均后進(jìn)行建模。
水廠及行政區(qū)的原始數(shù)據(jù)序列雖然具有規(guī)律性,但是過程線仍然存在較大變化,這種變化對于建模存在較大干擾。通過對原始序列進(jìn)行滑動平均,屏蔽掉這種復(fù)雜的變化,使復(fù)雜的數(shù)據(jù)序列變成波動較小規(guī)律簡單的新序列。圖6 和圖7 分別是行政區(qū)與水廠的4 個類別的滑動平均后生成的新時間序列,滑動公式如下。
式中:n是原序列長度;l是新序列長度;degree是滑動階數(shù)。
由圖6和圖7可以看出,4個類別生成的新序列波動小且規(guī)律簡單,使用這樣的序列建模將更高效,模型的泛化能力也將更強(qiáng),預(yù)測結(jié)果只需要逆向滑動即可還原。
圖6 行政區(qū)4個類別新的時間序列Fig.6 The new time series of the four categories of districts
圖7 水廠4個類別新的時間序列Fig.7 The new time series of the four categories of waterworks
本文從10個行政區(qū)的4個聚類結(jié)果中分別選4個區(qū)的數(shù)據(jù)進(jìn)行對比分析(表2)。其中平穩(wěn)型、增長型、波動型I 及波動型II分別選擇羅湖、光明、坪山及大鵬區(qū)。選擇羅湖區(qū)和光明區(qū)是因?yàn)樗麄兎謩e是第三產(chǎn)業(yè)和第二產(chǎn)業(yè)占比最大的行政區(qū),而坪山區(qū)是從波動型I的兩個區(qū)中隨機(jī)選擇的。通過對比逐月的模型估計值與實(shí)際值相對誤差(relative error,RE)來判斷模型的性能。
式中:e是模型的估計值;y是實(shí)際值。
由表2 可以看出,行政區(qū)的預(yù)測結(jié)果,SMAAR 的RE小于ARMA。以光明區(qū)為例,2020年1月-8月SMAAR模型預(yù)測結(jié)果的RE比ARMA 模型分別提高17.39%、42.11%、27.27%、33.33%、62.50%、66.67%、60.87%、77.78%。表2 中大鵬區(qū)的RE較大,是因?yàn)榇簌i區(qū)用水規(guī)律波動性大導(dǎo)致模型預(yù)測結(jié)果的RE增大。類似地,同樣選擇4 個水廠的結(jié)果進(jìn)行對比(表3),他們是分別位于不同行政區(qū)且產(chǎn)能較大的東湖水廠、朱坳水廠、龍華水廠及光明水廠。
表2 2020年行政區(qū)預(yù)測結(jié)果的RE對比Tab.2 RE comparison of the forecast results of districts
由表3 可以看出,水廠的預(yù)測結(jié)果,SMAAR 的RE小于ARMA。以朱坳水廠為例,2020年1-8月SMAAR 模型預(yù)測結(jié)果的RE比ARMA模型分別提高了50%、67.35%、25%、37.5%、0%、100%、90%、92.31%。由此可見,SMAAR 模型表現(xiàn)出了較強(qiáng)的泛化能力。
表3 2020年水廠預(yù)測結(jié)果的RE對比Tab.3 RE comparison of forecast results of waterworks
將47 個水廠及10 個行政區(qū)的分類預(yù)測結(jié)果進(jìn)行求和匯總得到深圳的月用水?dāng)?shù)據(jù)(表4),并與SMAAR 直接使用深圳月滑動數(shù)據(jù)預(yù)測的結(jié)果及ARMA的結(jié)果進(jìn)行對比。
總體而言,通過水廠與行政區(qū)匯總得到的需水?dāng)?shù)據(jù)的RE最小,可知分類建模可以更加準(zhǔn)確地預(yù)測全市的需水情況。此外,由表4中可以看出,水廠匯總的RE比行政區(qū)匯總的RE還要小,使用月滑動數(shù)據(jù)的RE要比行政區(qū)匯總的RE大,可知越細(xì)化建模,預(yù)測結(jié)果越貼近真實(shí)數(shù)據(jù),證明此種建模方法是有效的。ARMA 的RE最大說明ARMA 模型的誤差最大。城市需水預(yù)測結(jié)果誤差較大,主要原因就是沒有進(jìn)行分類建模。本文細(xì)化到一類數(shù)據(jù)建一個模型,將結(jié)果進(jìn)行匯總,這樣的精細(xì)化預(yù)測可以有效解決結(jié)果誤差較大的現(xiàn)象。
表4 2020年深圳用水預(yù)測的RE對比Tab.4 RE comparison for water use forecast in Shenzhen
同時,通過實(shí)驗(yàn)還發(fā)現(xiàn),模型在進(jìn)行逐日長期預(yù)測時性能往往會變差,預(yù)測結(jié)果很可能全部是平均值或者中位數(shù)。因此,本文將模型對逐日數(shù)據(jù)進(jìn)行建模預(yù)測,對比2種模型的泛化能力(圖8)。
圖8 逐日預(yù)測結(jié)果對比(2020年)Fig.8 Comparison of daily forecast results
由圖8可以直觀看出,在2020年1-8月共254 d逐日預(yù)測結(jié)果中,ARMA 的性能惡化,預(yù)測結(jié)果全部在平均值附近波動,無法有效預(yù)測需水。而SMAAR 依舊表現(xiàn)出了良好的性能,254 d的預(yù)測數(shù)據(jù)與實(shí)際統(tǒng)計數(shù)據(jù)的規(guī)律基本一致,且誤差較?。ㄒ妶D9),春假及五一假期的用水下降規(guī)律也預(yù)測成功。根據(jù)歷史規(guī)律,深圳國慶假期用水會出現(xiàn)一定幅度的下降,國慶之后全市用水量緩慢下降,由圖8 可以直觀地看出,2020年9月-12年SMAAR的預(yù)測結(jié)果完全符合實(shí)際。
圖9 RE箱圖對比Fig.9 RE box plot comparison
由RE箱圖可以直觀看出,SMAAR 預(yù)測RE的平均值是0.08,中位數(shù)是0.05,預(yù)測誤差較小。箱圖的四分位值分別是0、0.02、0.14、0.3,說明模型穩(wěn)定性強(qiáng)且254 d 逐日預(yù)測結(jié)果較精確。此外,SMAAR 模型的離群點(diǎn)只有一個,說明SMAAR 模型可靠性強(qiáng),預(yù)測值曲線與實(shí)際值曲線擬合較好,只有一個點(diǎn)偏離較遠(yuǎn)。而ARMA 模型預(yù)測結(jié)果全是平均值,即實(shí)際值曲線波動大誤差就大,曲線波動小則誤差小,不具有現(xiàn)實(shí)意義。
二三產(chǎn)業(yè)及外來人口的快速增長,將導(dǎo)致深圳用水量的快速增長。如果能夠準(zhǔn)確地預(yù)測深圳市未來一年的需水情況,就可以制定較為精確的年度引水計劃,可以有效地對未來的用水情況進(jìn)行全局把握,能夠針對性地進(jìn)行水庫蓄水工作,從而保障深圳的供水安全。
本研究通過分析深圳市47 個水廠及10 個行政區(qū)近五年的供水序列,提出KMeans 聚類算法和SMAAR 模型耦合方法,對于每個類別分別使用滑動平均后的簡單序列單獨(dú)建模預(yù)測,并與ARMA的預(yù)測結(jié)果進(jìn)行對比,得出如下結(jié)論。
(1)在城市需水預(yù)測中,建模對象越小相對誤差(RE)越小,模型估計值與實(shí)際統(tǒng)計值的RE從小到大排序:水廠、行政區(qū)、市,精細(xì)化建??梢越鉀Q預(yù)測數(shù)據(jù)RE較大的問題。
(2)對于不同用水規(guī)律的水廠及行政區(qū),SMAAR 的泛化能力均比ARMA 有顯著提高,預(yù)測結(jié)果的相對誤差(RE)均小于ARMA的相對誤差(RE)。
(3)在長期預(yù)測中,SMAAR 依然表現(xiàn)出了良好的性能。254 d逐日預(yù)測RE的平均值是0.08,且四分位值較小離群點(diǎn)少,證明了模型的穩(wěn)定性及可靠性較強(qiáng)。而ARMA 在長期預(yù)報中性能惡化,難于有效地預(yù)測需水?!?/p>