蘇輝東,賈仰文,倪廣恒,龔家國,曹雪健,張明曦,牛存穩(wěn),張 迪
(1. 清華大學(xué)水利水電工程系,北京 100084;2. 中國水利水電科學(xué)研究院 流域水循環(huán)模擬與調(diào)控國家重點實驗室,北京 100038)
近年來,大數(shù)據(jù)技術(shù)在全球發(fā)展迅猛,掀起了基于大數(shù)據(jù)的機器學(xué)習(xí)和人工智能的研究熱潮,引起全球業(yè)界、學(xué)術(shù)界和各國政府的高度關(guān)注[1]。機器學(xué)習(xí)可以深度挖掘大數(shù)據(jù)的深度價值和內(nèi)在聯(lián)系,在各個領(lǐng)域、學(xué)科交叉中有著良好的應(yīng)用[2,3]。機器學(xué)習(xí),是一門研究怎樣用計算機來模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的學(xué)科,它是人工智能中最具有智能特征的前沿研究領(lǐng)域之一,也是知識發(fā)現(xiàn)、數(shù)據(jù)挖掘等領(lǐng)域的重要基礎(chǔ)[4,5]。例如:數(shù)據(jù)挖掘、計算機視覺、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人運用[6]。機器學(xué)習(xí)可以應(yīng)用于基于雷達圖像的短期降水預(yù)報和徑流預(yù)測,從而提升水文預(yù)報業(yè)務(wù)的效率,用大數(shù)據(jù)力量推動水文預(yù)報、徑流預(yù)測的發(fā)展。
徑流預(yù)測是水資源管理、調(diào)配和高效利用的基礎(chǔ)。徑流過程是一個高度復(fù)雜的非線性過程,傳統(tǒng)的方法是采用水文模型進行預(yù)測。目前的水文模型存在很多的發(fā)展瓶頸,基于概念模型如Horton模型、Philip模型、Kostiakov模型、水箱模型、新安江模型等回歸形式單一,公式表達式單一,無法得到很好的預(yù)測效果,難以完全適應(yīng)所有的水文過程模擬[7]?;谖锢淼姆植际交虬敕植际剿哪P蚚8]問題如:第一,多尺度問題,如時間和空間尺度;第二,參數(shù)化問題,如參數(shù)的異質(zhì)性等;第三是過程的復(fù)雜性,很多控制徑流的過程不是簡單的物理過程,而是化學(xué)或者生物過程以及人類活動等,例如蚯蚓和植物活動會在很大程度上影響入滲。
基于大數(shù)據(jù)的機器學(xué)習(xí)在徑流預(yù)測具有操作簡單的優(yōu)點,可以忽略復(fù)雜的下墊面情況、水文過程,發(fā)展及其在應(yīng)用科學(xué)領(lǐng)域的不斷拓展,為認識、分析徑流的變化規(guī)律提供了新的理論和方法。BP人工神經(jīng)網(wǎng)絡(luò)模型作為人工智能算法的代表,因其結(jié)構(gòu)簡單且具有良好的非線性映射能力,被廣泛地應(yīng)用于徑流預(yù)測[9-11]。SVR算法出色的學(xué)習(xí)性能使得其在模式識別、回歸估計、概率密度函數(shù)估計等方面都有應(yīng)用[12,13],在徑流預(yù)測中也有很好的應(yīng)用[14,18,19]。本文采用的對照的傳統(tǒng)水文模型為THREW模型[15-17],在中國的烏魯木齊河流域[16]、美國的Blue River流域[17]和Sangmon流域[18]等得到了較好的應(yīng)用。
本文采用SVR和BP人工神經(jīng)網(wǎng)絡(luò)兩種機器學(xué)習(xí)的方法,與傳統(tǒng)的分布式水文模型(THREW)進行比較,通過對比 效率系數(shù)和相對誤差指標(biāo),對各種預(yù)測方法進行分析對比,相關(guān)研究有助于徑流預(yù)測的發(fā)展。
本次案例選擇的是長江流域的子流域,位于湖北省宜昌市當(dāng)陽市河溶鎮(zhèn),研究區(qū)地理區(qū)位如圖1所示。流域出口控制斷面為河溶鎮(zhèn)水文站,地理坐標(biāo)為東經(jīng)111°56′,北緯30°36′,流域面積約200 km2。
圖1 研究流域地理位置及子流域劃分圖
(1)THREW模型。采用的水文模型為THREW 模型,這是一個分布式流域水文模型,主要應(yīng)用于宏觀尺度。田富強等對代表性單元流域(Representative Elementary Watershed,REW)進行了擴展和補充從而建立了THREW模型[13,19]。代表性流域單元(簡稱REW)是經(jīng)過嚴(yán)格定義的子流域,也是模擬流域水文響應(yīng)的基本單元。THREW 模型將代表性流域單元分為地表和地下2 層,其中對地下層進行進一步劃分,成為2 個子區(qū),地表層劃分為6 個子區(qū),能夠反映植被、裸土、冰川、積雪等4 種典型下墊面類型。針對上述3 個級別的子系統(tǒng),應(yīng)用連續(xù)介質(zhì)熱力學(xué)守恒定律及均化方法,得到REW 尺度上的質(zhì)量、動量和能量守恒的通用形式,具有較好的擴展性。在本文研究中,REW 的劃分如圖1 所示,共將全流域分為30個REW。該模型在長江流域的徑流預(yù)測取得很好的效果。
(2)BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)[20-22]是一種按誤差逆向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系(見圖2)。網(wǎng)絡(luò)模型它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閥值,使網(wǎng)絡(luò)的誤差平方和最小[23]。其中權(quán)值和閾值的調(diào)整公式如下:
(1)
式中:E為網(wǎng)絡(luò)輸出與實際輸出樣本之間的誤差平方和;η為網(wǎng)絡(luò)的學(xué)習(xí)速率即權(quán)值調(diào)整幅度;wij(t)為t時刻輸入層第i神經(jīng)元與隱含層第j神經(jīng)元的連接權(quán)值;wij(t+1)為(t+1)時刻輸入層第i神經(jīng)元與隱含層第j神經(jīng)元的連接權(quán)值;B為神經(jīng)元的閾值,根據(jù)下標(biāo)依次推其他符號的意義與權(quán)值。
圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
(3)SVR模型。采用SVR(Support Vector Regression)支持向量回歸模型[24-26],支持向量機回歸與BP 神經(jīng)網(wǎng)絡(luò)類似,事先通過樣本訓(xùn)練模型,然后對于訓(xùn)練好的模型預(yù)測,給定輸入數(shù)據(jù),就可以得到相應(yīng)的預(yù)測輸出。針對有限樣本,一定程度上實現(xiàn)結(jié)構(gòu)風(fēng)險最小化、得到全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題。針對給定的樣本集{(xi,yi)|i=1,2,…,n} 其中xi為輸入值,yi為預(yù)測值, 要求擬合的函數(shù)形式為:f(x)=wφ(x)+b。根據(jù)結(jié)構(gòu)風(fēng)險化最小化的原則,即要尋求最優(yōu)回歸超平面使:
(2)
式中:c為調(diào)節(jié)訓(xùn)練誤差和模型復(fù)雜度之間折中的正則化常數(shù);ε為不靈敏損失函數(shù)。
由支持向量機的回歸問題轉(zhuǎn)化為一個二次規(guī)劃最優(yōu)化問題:
(3)
SVR 用常分為線性和非線性擬合回歸兩類,對于非線性的情況,引入核函數(shù)即可,本文采用的核函數(shù)有:
(4)
本文采用SVR支持向量回歸模型,內(nèi)部采用不同的核函數(shù)及不同的懲罰因子,對2008-2012年當(dāng)月及上月降雨量(二維)和當(dāng)月徑流量(一維)數(shù)據(jù)規(guī)律學(xué)習(xí),模擬2013-2014年月徑流量。
(4)Ns效率系數(shù)。
(5)
(5)相對偏差PB。
(6)
式中:Oi為觀測值;Si為模擬值。
采用傳統(tǒng)分布式水文模型THREW,對河容鎮(zhèn)流域進行模擬,本文將研究區(qū)劃分為30個代表性單元子流域,建模中所使用的數(shù)字高程數(shù)據(jù)來自美國聯(lián)邦地質(zhì)調(diào)查局USGS,土壤資料來源于FAO,植被葉面積指數(shù)LAI根據(jù)歸一化植被指數(shù)NDVI估算,水文氣象數(shù)據(jù)分別由中國國家氣象局和水利部水利信息中心提供。參數(shù)率定采用PEST自動調(diào)參軟件和手動調(diào)參相結(jié)合的方法[27]。模型模擬期為2009年1月1日-2014年12月30日,其中2009年1月1日-2013年12月31日為模型率定期、2014年1月1日-2014年12月30日為驗證期。
圖3為THREW模型對河溶鎮(zhèn)流域2009年1月1日-2014年12月30日日徑流過程的模擬結(jié)果。從圖3可以看出,THREW模型對流域徑流量的模擬結(jié)果很好模擬了河溶鎮(zhèn)流域。對豐水季節(jié)的徑流模擬基本吻合,但是對枯水期的徑流預(yù)估偏小。其Ns效率系數(shù)和相對偏差PB分別為0.503和16.6%(見表1)。從圖3可以看出基于物理的THREW模型在枯水期的模擬偏小,在洪水期的徑流預(yù)測還可以。從Ns效率系數(shù)來看,THREW模型預(yù)估徑流是比較準(zhǔn)確的,但是相對偏差PB有點偏大。總體來看,基于物理的分布式水文模型THREW,對河溶鎮(zhèn)流域的徑流過程擬合預(yù)報精度表現(xiàn)較好,從而說明改進的集合徑流預(yù)報方法在漢江上游有著較強的應(yīng)用價值。
圖3 基于THREW模型模擬的徑流結(jié)果
本文BP人工神經(jīng)網(wǎng)絡(luò)實例選取河溶鎮(zhèn)流域2009年1月1日-2013年12月30日的日降水和日徑流數(shù)據(jù),其中2008年1月-2013年12月的數(shù)據(jù)作為學(xué)習(xí)訓(xùn)練樣本,2014年1月1日-12月30日為預(yù)測檢驗樣本。模型的輸入采用當(dāng)日徑流量與前天降水量(二維)作為輸入數(shù)據(jù),輸出數(shù)據(jù)為當(dāng)日徑流量。
圖4為BP人工神經(jīng)網(wǎng)絡(luò)模型對河溶鎮(zhèn)流域2009年1月1日-2014年12月30日日徑流過程的模擬結(jié)果。從模擬結(jié)果來看,模擬結(jié)果的Ns效率系數(shù)為0.463,相對偏差PB為2.3%。影響Ns效率系數(shù)的主要因素是對豐水期的大徑流量預(yù)測偏差較大,甚至出現(xiàn)模擬失真的現(xiàn)象,但是對其他時期的預(yù)測是高度的準(zhǔn)確,這也表明BP人工神經(jīng)網(wǎng)絡(luò)模型很難解決局部極值問題。總的來說,如果可以克服洪水期的預(yù)測失真問題,BP人工神經(jīng)網(wǎng)絡(luò)模型的模擬還是相當(dāng)可信的。
圖4 基于BP神經(jīng)網(wǎng)絡(luò)的徑流模擬結(jié)果
本文SVR實例選取河溶鎮(zhèn)流域2009年1月-2014年12月的月降水和月徑流數(shù)據(jù),其中沒有學(xué)習(xí)訓(xùn)練樣本,都為預(yù)測檢驗樣本,SVR本身自帶正交最小二乘優(yōu)選,不需要進行樣本訓(xùn)練。模型的輸入采用當(dāng)日徑流量與前天降水量(二維)作為輸入數(shù)據(jù),輸出數(shù)據(jù)為當(dāng)日徑流量。內(nèi)部采用徑向基核函數(shù)。
圖5為基于SVR算法對河溶鎮(zhèn)流域2009年1月-2014年12月月徑流過程的模擬結(jié)果。
圖5 基于SVR學(xué)習(xí)方法的模擬結(jié)果
從圖5 可以看出,徑向基核函數(shù)SVR的模擬結(jié)果在一定程度上解決了局部極值問題。在模擬效果有很大的提高,優(yōu)于TREW模型和BP神經(jīng)網(wǎng)絡(luò)模型,得到全局最優(yōu)解。但是其還是存在一定的最大洪峰預(yù)測偏小的狀況,這在一定程度上使得影響Ns效率系數(shù)依舊偏低,但是這對其他的流量模擬相當(dāng)可信。相對于TREW模型和BP神經(jīng)網(wǎng)絡(luò)模型。
從數(shù)據(jù)結(jié)構(gòu)來比較,TREW模型是綜合氣象數(shù)據(jù)、徑流數(shù)據(jù)、土壤、下墊面、高程數(shù)據(jù)以及分析水文過程來預(yù)測徑流,其數(shù)據(jù)來源分析復(fù)雜。相對而言機器學(xué)習(xí)需要的數(shù)據(jù)簡單得多,如SVR與BP人工神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)為當(dāng)日徑流量與前天降水量(二維)作為輸入數(shù)據(jù),輸出數(shù)據(jù)為當(dāng)日徑流量。
為了比較3種徑流預(yù)測方法的效果,本文采用Ns效率系數(shù)和相對誤差PB作為比較指標(biāo),其結(jié)果如表1所示。
表1 3種方法預(yù)測效果對比結(jié)構(gòu)
TREW模型模擬效果好,Ns效率系數(shù)為0.503,但是其相對偏差較大。BP神經(jīng)網(wǎng)絡(luò)擬綜合效果較差其Ns效率系數(shù)為0.463,但是其相對偏差小,為2.3%。說明其有很好的逼近非線性映射的能力,但是局部極值等模擬失真,如實測值的極大值的峰值無法預(yù)測出來,這會影響B(tài)P神經(jīng)網(wǎng)絡(luò)在徑流預(yù)測中的應(yīng)用的效果。SVR預(yù)測徑流比較而言最好,在低徑流階段模擬準(zhǔn)確,對局部最大洪峰流量也模擬較準(zhǔn),但是也存在一定偏差。
不同的預(yù)測方法往往有著不同的預(yù)測結(jié)果,不同的預(yù)測方法挖掘不同的有用信息,不同模型的預(yù)測結(jié)果通常具有互補性,其預(yù)測精度也各有懸殊,而沒有一種適用于所有預(yù)測的通用方法。一種預(yù)測方法都有其適用性和局限性,應(yīng)依據(jù)實際問題選擇適當(dāng)?shù)哪P团c方法。本次采用的傳統(tǒng)分布式水文模型,模擬效果較好,具有清晰的物理過程,能明白其中的水文機理,但是數(shù)據(jù)要求較多,操作復(fù)雜。本次采用的兩種機械學(xué)習(xí)方法,都較好的模實現(xiàn)了對徑流的預(yù)測。泛化能力較好,即具有將學(xué)習(xí)成果應(yīng)用于新知識的能力。本次采用的SVR和BP神經(jīng)網(wǎng)絡(luò)模擬案例中,除了洪水預(yù)報不準(zhǔn)外,日徑流量具有較好的預(yù)測。但是同時也存在以下缺點:對數(shù)據(jù)依賴較大,樣本依賴性大,如果數(shù)據(jù)樣本容量再大,預(yù)測的結(jié)果可能會更理想。另外機器學(xué)習(xí)預(yù)測徑流的方法是一個純黑箱模型,現(xiàn)實意義不清楚,難以對流域本身變化引起徑流的變化進行預(yù)測。另外,在本次預(yù)測中SVR的綜合效果比BP較好,其兩項指標(biāo)Ns效率系數(shù)和相對偏差PB都優(yōu)于BP,在一定程度上克服了洪峰徑流的預(yù)測失真問題。
本文用SVR和BP人工神經(jīng)網(wǎng)絡(luò)兩種機器學(xué)習(xí)的方法,對比了傳統(tǒng)的分布式水文模型(THREW),采用Ns效率系數(shù)和相對誤差PB指標(biāo)進行分析。結(jié)果顯示,本次采用的傳統(tǒng)分布式水文模型THREW,模擬效果好,Ns效率系數(shù)為0.503,具有清晰的物理過程和水文機理,但是數(shù)據(jù)要求較多,操作復(fù)雜。本次采用的兩種機械學(xué)習(xí)方法,都較好的模實現(xiàn)了對徑流的預(yù)測。泛化能力較好,即具有將學(xué)習(xí)成果應(yīng)用于新知識的能力。本次采用的BP神經(jīng)網(wǎng)絡(luò)模擬案例中,除了洪水預(yù)報不準(zhǔn)外,日徑流量具有較好的預(yù)測,SVR對極大洪峰流量預(yù)測準(zhǔn)確度有所提高。但是同時也存在以下缺點:對數(shù)據(jù)依賴較大,樣本依賴性大,如果數(shù)據(jù)樣本容量再大,預(yù)測的結(jié)果可能會更理想。本次模擬結(jié)果顯示SVR優(yōu)于TREW模型和BP神經(jīng)網(wǎng)絡(luò)模擬結(jié)果。
□
參考文獻:
[1] 黃宜華. 大數(shù)據(jù)機器學(xué)習(xí)系統(tǒng)研究進展[J]. 大數(shù)據(jù), 2015,1(1):28-47.
[2] 雷曉云, 張麗霞, 梁新平. 基于MATLAB工具箱的BP神經(jīng)網(wǎng)絡(luò)年徑流量預(yù)測模型研究----以塔城地區(qū)烏拉斯臺河為例[J]. 水文, 2008,28(1):43-46.
[3] 張利平, 王德智, 夏 軍,等. 相空間神經(jīng)網(wǎng)絡(luò)模型及其在水文預(yù)測中的應(yīng)用[J]. 水電能源科學(xué), 2004,22(1):5-8.
[4] 王雪松. 機器學(xué)習(xí)理論、方法及應(yīng)用[M]. 北京:科學(xué)出版社,2009.
[5] 楊淑瑩, 張 樺. 模式識別與智能計算:MATLAB技術(shù)實現(xiàn)[M]. 北京:電子工業(yè)出版社, 2015.
[6] 李凡長. 機器學(xué)習(xí)理論及應(yīng)用[M]. 合肥:中國科學(xué)技術(shù)大學(xué)出版社,2009.
[7] 劉佩瑤, 郝振純, 王國慶,等. 新安江模型和改進BP神經(jīng)網(wǎng)絡(luò)模型在閩江水文預(yù)報中的應(yīng)用[J]. 水資源與水工程學(xué)報, 2017,28(1):40-44.
[8] 賈仰文, 王 浩, 倪廣恒, 等. 分布式流域水文模型原理與實踐[M]. 北京:中國水利水電出版社, 2005.
[9] 徐中民, 藍永超. 人工神經(jīng)網(wǎng)絡(luò)方法在徑流預(yù)報中的應(yīng)用[J]. 冰川凍土, 2000,22(4):372-375.
[10] 藍永超, 康爾泗, 徐中民,等. B-P神經(jīng)網(wǎng)絡(luò)在徑流長期預(yù)測中的應(yīng)用[J]. 中國沙漠, 2001,21(1):97-100.
[11] H Raman, N Sunilkumar. Multivariate modelling of water resources time series using artificial neural networks[J]. International Association of Scientific Hydrology Bulletin, 1995,40(2):145-163.
[12] Gui G Q. Face recognition using support vector machines[J]. Computer Science, 2003,30(4):11-15.
[13] Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems & Their Applications, 2002,13(4):18-28.
[14] 王景雷, 吳景社, 孫景生,等. 支持向量機在地下水位預(yù)報中的應(yīng)用研究[J]. 水利學(xué)報, 2003,(5):122-128.
[15] 田富強, 胡和平, 雷志棟. 基于代表性單元流域的水文模擬理論與方法[DB/OL]. http:∥www.paper.edu.cn, 2005.
[16] Mou L, Tian F, Hu H, et al. Extension of the representative elementary watershed approach for cold regions: constitutive relationships and an application[J]. Hydrology & Earth System Sciences Discussions, 2007,4(5):565-585.
[17] Tian F, Li H, Sivapalan M. Model diagnostic analysis of seasonal switching of runoff generation mechanisms in the Blue River basin, Oklahoma[J]. Journal of Hydrology, 2012,s418-419(4):136-149.
[18] Liu D F, Tian F Q, Hu H P, et al. Sediment simulation at Upper Sangamon River basin using the THREW model[C]∥ Hydrological Modelling and Integrated Water Resources Management in Ungauged Mountainous Watersheds. Proceedings of A Symposium Held at Chengdu, China, 2009.
[19] TIAN Fuqiang, HU Heping, LEI Zhindong, et al. Extension of the representative elementary watershed approach fof cold regions via explicit treatment of energy related processes[J]. Hydrology and Earth System Sciences, 2006,10(5):619-644.
[20] 崔東文. 多隱層BP神經(jīng)網(wǎng)絡(luò)模型在徑流預(yù)測中的應(yīng)用[J]. 水文, 2013,33(1):68-73.
[21] 楊 洪. 改進 BP 神經(jīng)網(wǎng)絡(luò)集成模型在徑流預(yù)測中的應(yīng)用[J]. 水資源與水工程學(xué)報, 2014,(3):213-219.
[22] 聶 敏, 劉志輝, 劉 洋,等. 基于PCA和BP神經(jīng)網(wǎng)絡(luò)的徑流預(yù)測[J]. 中國沙漠, 2016,36(4):1 144-1 152.
[23] 季 云. BP算法及其應(yīng)用實例[J]. 中國新技術(shù)新產(chǎn)品, 2010,(9):29.
[24] 明 琦, 劉俊萍. 蘭州站徑流支持向量機預(yù)測[J]. 水力發(fā)電學(xué)報, 2010,29(4):32-38.
[25] 郭 俊, 周建中, 張勇傳,等. 基于改進支持向量機回歸的日徑流預(yù)測模型[J]. 水力發(fā)電, 2010,36(3):12-15.
[26] 盧 敏, 張展羽. 徑流預(yù)測的支持向量機應(yīng)用研究[J]. 中國農(nóng)村水利水電, 2006,(2):47-49.
[27] Doherty J. PEST: a unique computer program for model-independent parameter optimisation[Z]. Australia: 1994.