朱銘江,裘 婭,張祖鵬
(1.長興縣水利局,浙江 長興 313100;2.永康市水務(wù)局,浙江 永康 321300)
城市用水包括城市居民生活用水、服務(wù)業(yè)用水和重要工業(yè)用水。保障城市供水安全是支撐城市長期穩(wěn)定發(fā)展的重要基礎(chǔ)。城市用水量大,天然降水量隨機(jī)性強(qiáng),導(dǎo)致降水偏枯的年份城市供水安全保障壓力較大,對(duì)城市供水調(diào)度工作提出了較高要求。準(zhǔn)確掌握城市未來時(shí)段的用水量需求,是制定精準(zhǔn)高效的城市供水調(diào)度方案的關(guān)鍵,是城市供水調(diào)度工作決策部署的基礎(chǔ)和前提。
目前,基于機(jī)器學(xué)習(xí)算法的數(shù)據(jù)挖掘方式在城市用水量預(yù)測領(lǐng)域中被廣泛應(yīng)用:朱智偉[1]等采用ARIMA 模型、灰色GM(1,1)模型和多元線性回歸分析等3 種模型,建立以污水處理量、生產(chǎn)總值、總?cè)丝诘? 種因子為自變量的鄭州市年度用水量預(yù)測模型;李彥彬等[2]采用基于HP 濾波分解的GM-LSSVR 預(yù)測模型,建立以總?cè)丝凇⑵骄鶜鉁?、綠化率等8 種因子為自變量的鄭州市年度用水量預(yù)測模型;吳永強(qiáng)等[3]采用由5 個(gè)GM(1,1)模型組成的灰色動(dòng)態(tài)模型群,建立以歷史上不同周期用水量作為自變量的衡水市年用水量預(yù)測模型;白鵬等[4]采用年增長率法、自回歸模型法和灰色神經(jīng)網(wǎng)絡(luò)法,建立以歷史用水量作為自變量的京津冀三地年用水量預(yù)測模型;陳莊等[5]采用基于MIC-XGBoost 的混合預(yù)測模型,建立以溫度、季節(jié)、節(jié)假日等4 種因子作為自變量的月尺度城市用水量預(yù)測模型;姚俊良等[6]采用神經(jīng)網(wǎng)絡(luò)算法,建立以前1 d 用水量和前8 h 用水量為自變量的城市日用水量預(yù)測模型;劉志壯等[7]采用一種基于小波分解與隨機(jī)森林模型、ARMA 模型結(jié)合的短期用水量預(yù)測方法,構(gòu)建以氣象數(shù)據(jù)、時(shí)間信息、節(jié)假日信息等因子作為自變量的城市短期日用水量預(yù)測模型。
總結(jié)目前圍繞城市用水量預(yù)測的研究成果可知,預(yù)測模型采用的理論方法已較為成熟,但是多數(shù)研究的預(yù)測模型采用的自變量數(shù)據(jù)缺乏實(shí)時(shí)監(jiān)測條件,需要通過定期調(diào)查分析的手段獲取,導(dǎo)致只能對(duì)年尺度用水量進(jìn)行預(yù)測。隨著浙江省水利數(shù)字化改革的深入推進(jìn),運(yùn)用數(shù)字化手段賦能城市供水調(diào)度工作對(duì)于提升城市供水安全保障水平具有重要作用。基于此背景,本次選擇具有在線實(shí)時(shí)監(jiān)測條件的城市水廠取水量數(shù)據(jù)作為自變量,采用基于粒子群算法優(yōu)化的支持向量機(jī)方法挖掘城市水廠歷史取水量規(guī)律,建立月尺度城市用水量預(yù)測模型,為城市供水?dāng)?shù)字化調(diào)度管理提供技術(shù)支撐。
支持向量機(jī)(Support Vector Regression,SVR)作為常用的機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于時(shí)間序列預(yù)測,能很好地處理小樣本數(shù)據(jù)、非線性及時(shí)間序列等問題,且具有較強(qiáng)的泛化能力[8]。SVR 方法主要思想:利用非線性映射將樣本集從低維空間映射到高維空間,再從高維空間中構(gòu)建回歸方程。
假設(shè)給定樣本集S=,x為輸入向量,xi∈Rn,y為相應(yīng)的輸出向量,yi∈R。其非線性映射可定義為:
式中:x為輸入數(shù)據(jù);φ(x)為非線性映射函數(shù);ω為權(quán)重;b為截距。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,f(x) 可等效于求解優(yōu)化問題,即:
式中:L為損失函數(shù);C為懲罰因子,是調(diào)節(jié)樣本回歸模型的復(fù)雜性與樣本擬合精度的因子,C越大,則越重視離群點(diǎn)。通過引入松弛變量和來糾正不規(guī)則的因子,此時(shí)可得:
式中:ε為不敏感損失因子(允許的最大誤差),ε>0。將回歸問題轉(zhuǎn)換為求取目標(biāo)函數(shù)的最小化問題,利用對(duì)偶原理,同時(shí)引入拉格朗日乘法算子,可轉(zhuǎn)換為:
式中:αi和αi*為拉格朗日乘數(shù)。根據(jù)Mercer定理法則,求解上述凸二次規(guī)劃問題并獲得非線性映射SVR 表達(dá)式為:
式中:K(xi,x)=φ(xi)φ(xj)為核函數(shù)。徑向基函數(shù)(Radial Basis Function,RBF)用途廣泛,也是被廣大學(xué)者所采用的核函數(shù),因此選取RBF核函數(shù),其可定義為:
式中:γ為核參數(shù),。
懲罰因子C和核參數(shù)γ直接決定了SVR 方法的準(zhǔn)確性,為了提高SVR 模型的預(yù)測精度,需要對(duì)這兩個(gè)參數(shù)進(jìn)行尋優(yōu)選取[9]。因此,選取粒子群優(yōu)化算法(Particle Swarm optimization,PSO)對(duì)懲罰因子C和核函數(shù)參數(shù)g、p進(jìn)行尋優(yōu)[10]。
粒子群優(yōu)化算法,其基本思想:在D維目標(biāo)搜索空間,有m個(gè)例子由3 個(gè)向量表示,第i個(gè)粒子當(dāng)前位置可表示為xi=(xi1,xi2,L,xiD)T,速度為vi=(vi1,vi2,L,viD)T;pi=(pi1,pi2,L,piD)T表示第i個(gè)粒子個(gè)體極值點(diǎn)位置;pg=(pg1,pg2,L,pgD)T表示整個(gè)種群全局極值點(diǎn)位置。粒子根據(jù)個(gè)體極值點(diǎn)和全局極值點(diǎn)重新確定本身位置和速度,速度和位置更新如下:
位置更新公式由3 部分組成:量部分、個(gè)體認(rèn)知部分及社會(huì)認(rèn)知。
粒子群算法優(yōu)化支持向量機(jī)的具體流程圖[11]如下:
圖1 PSO-SVR 模型計(jì)算流程圖
長興縣地處三省交界、長三角一體化核心區(qū)域,是上海經(jīng)濟(jì)區(qū)的交通樞紐,雄踞江蘇、浙江、安徽三省結(jié)合部。長興縣水陸交通便利,距湖州市20 km,距上海市180 km,距杭州市中心90 km。航道通航里程262 km,船只可達(dá)湖州、杭州、上海、蘇州等地,為長興物流暢通和經(jīng)濟(jì)發(fā)展提供優(yōu)越的便利條件。
長興縣城市用水主要由長興水務(wù)公司供水,取水水源主要為合溪水庫。目前,長興水務(wù)公司取水量具有在線實(shí)時(shí)監(jiān)測數(shù)據(jù),數(shù)據(jù)采集頻率為15min/次。本次研究收集長興水務(wù)公司2013—2021 年取水實(shí)時(shí)監(jiān)測數(shù)據(jù),并統(tǒng)計(jì)至逐月尺度,結(jié)果見圖2。
圖2 長興水務(wù)公司2013—2021 年逐月用水量圖
預(yù)測因子是指用水量預(yù)測模型的自變量參數(shù)。由于本次長興縣城市用水量預(yù)測模型構(gòu)建采用的基礎(chǔ)數(shù)據(jù)為具備在線實(shí)時(shí)監(jiān)測條件的逐時(shí)段用水量,因此自變量參數(shù)也需在時(shí)段用水量范圍內(nèi)篩選。考慮與預(yù)測輸出結(jié)果(時(shí)段用水量)具有相關(guān)關(guān)系的變量為前期(前1 月,前2 月,前3 月,……,前n月)用水量,采用相關(guān)系數(shù)法[12]篩選最終預(yù)測因子,相關(guān)系數(shù)是衡量變量之間線性相關(guān)程度的指標(biāo),其表達(dá)式為:
式中:xi(i=1,2,...,n)為變量x的系列值;yi(i=1,2,...,n)為變量y與x相對(duì)應(yīng)的系列值;分別為x、y的平均值。相關(guān)系數(shù)有正有負(fù),即正負(fù)相關(guān)。這里按照絕對(duì)值的大小進(jìn)行衡量,不管正負(fù)相關(guān),只要其相關(guān)系數(shù)的絕對(duì)值較大,就說明兩者有較好的相關(guān)性。
基于長興水務(wù)公司2013—2021 年逐月用水量數(shù)據(jù),采用相關(guān)系數(shù)法篩選長興縣城市用水量預(yù)測模型預(yù)測因子,結(jié)果見表1。其中選擇相關(guān)系數(shù)在0.5 以上的預(yù)測因子作為最終輸入因子。
表1 長興縣城市用水量預(yù)測模型預(yù)測因子表
以長興水務(wù)公司2013 年3 月—2021 年12 月用水量作為長興縣城市用水量預(yù)測模型輸出,以預(yù)測時(shí)段前1 月、前2 月用水量作為模型輸入,采用支持向量機(jī)模型構(gòu)建城市用水量預(yù)測模型。其中支持向量機(jī)模型懲罰系數(shù)c、核函數(shù)參數(shù)g、p采用粒子群算法進(jìn)行優(yōu)化。將80%的基礎(chǔ)數(shù)據(jù)序列用于模型訓(xùn)練,20%的基礎(chǔ)數(shù)據(jù)序列用于模型驗(yàn)證。經(jīng)訓(xùn)練和驗(yàn)證的用水量預(yù)測模型相關(guān)參數(shù)見表2,模型訓(xùn)練期和驗(yàn)證期預(yù)測結(jié)果見圖3~4。
表2 長興縣城市用水量預(yù)測模型參數(shù)表
圖3 長興縣城市用水量預(yù)測模型訓(xùn)練期預(yù)測結(jié)果圖
圖4 長興縣城市用水量預(yù)測模型驗(yàn)證期預(yù)測結(jié)果圖
根據(jù)長興縣城市用水量預(yù)測模型構(gòu)建結(jié)果可知:模型在訓(xùn)練期及驗(yàn)證期精度均較高,其中訓(xùn)練期模型預(yù)測結(jié)果合格率達(dá)到97.6%,均方誤差為0.014;驗(yàn)證期模型精度稍有下降,但合格率也達(dá)到95.2%,均方誤差為0.015,均滿足實(shí)際管理需求。
提取粒子群算法對(duì)支持向量機(jī)模型懲罰系數(shù)c、核函數(shù)參數(shù)g、p等參數(shù)的優(yōu)化過程(見圖5)。由此可知,采用粒子群算法優(yōu)化模型參數(shù)可使支持向量機(jī)模型適應(yīng)度快速達(dá)到最優(yōu),是提升模型參數(shù)優(yōu)化效率的有效方法。
圖5 粒子群優(yōu)化的支持向量機(jī)模型適應(yīng)度進(jìn)化過程圖
以長興縣水務(wù)公司2013—2021 年逐月用水量數(shù)據(jù)為基礎(chǔ),通過長興縣城市用水量預(yù)測模型構(gòu)建的實(shí)例研究可知:
(1)長興縣城市用水量預(yù)測模型篩選的預(yù)測因子為預(yù)測時(shí)段前1 月、前2 月用水量;模型訓(xùn)練期和驗(yàn)證期預(yù)測精度較高,可以滿足實(shí)際應(yīng)用需求;
(2)以支持向量機(jī)模型為代表的機(jī)器學(xué)習(xí)方法,通過挖掘用水量大數(shù)據(jù)內(nèi)在規(guī)律,在城市用水量預(yù)測方面精度較高,具有較好適用性,可以為水利數(shù)字化改革提供高效的用水量預(yù)測模型組件。