酈于杰 梁忠民 唐甜甜
摘要:根據(jù)漢江流域皇莊站1981-2008年逐月徑流量與1980-2007年逐月74項環(huán)流指數(shù)、北太平洋海溫場、500 hPa高度場的相關(guān)關(guān)系,利用逐步回歸挑選預(yù)報因子,構(gòu)建基于遺傳算法的支持向量回歸機(jī)模型(GASVR),并對2009-2013年逐月徑流量進(jìn)行預(yù)報;結(jié)果表明,徑流預(yù)報精度較高,汛期平均相對誤差在30%以內(nèi),非汛期、年總量平均相對誤差在20%以內(nèi),均優(yōu)于隨機(jī)森林和多元線性回歸模型。將GASVR模型的預(yù)報結(jié)果作為概率預(yù)報的基礎(chǔ),采用貝葉斯理論中的水文不確定性處理器(HUP)對預(yù)報的可靠度進(jìn)行分析;結(jié)果表明,HUP不僅可以提供精度更高的定值預(yù)報,還能以置信區(qū)間的方式量化預(yù)報的可靠度,提供更為豐富的預(yù)報信息。
關(guān)鍵詞:漢江流域;長期徑流預(yù)報;支持向量回歸機(jī);遺傳算法;貝葉斯概率預(yù)報
中圖分類號:P338文獻(xiàn)標(biāo)志碼:A文章編號:16721683(2018)03004506
Longterm runoff forecasting based on SVR model and its uncertainty analysis
LI Yujie,LIANG Zhongmin,TANG Tiantian
(Hohai University, College of Hydrology and Water Resources,Nanjing 210098,China)
Abstract:In accordance with the Huangzhuang Station′s monthly runoff from 1981 to 2008 and the correlativity from 1980 to 2007 among the 74 circulation indexes of each month,the monthly north pacific sea surface temperature field,and the 500 hPa geopotential height,we used the stepwise regression method to select the forecast factors and built a GASVR Model (Genetic Algorithm Support Vector Regression Model) on the basis of GA (Genetic Algorithm),in order to forecast the monthly runoff from 2009 to 2013.The results showed that the accuracy of the runoff forecast was relatively high:the average relative error in flood season was within 25%;the yearly runoff amount was within 20% in nonflood season.It was superior to Random Forest and Multiple Regression Model.With the forecast results of the GASVR Model as the basis of the probability forecast,we used the Hydrologic Uncertainty Processor (HUP) of the Bayesian Theory to analyze the forecast reliability.The outcome indicated that HUP could not only give a constantvalue forecast with relatively high accuracy,but also quantify the forecast reliability in the form of a confidence interval to provide more forecast information.
Key words:Hanjiang River basin;longterm runoff forecast;support vector regression;genetic algorithm;bayesian probability forecast
徑流的長期預(yù)報是指預(yù)見期在15 d以上、一年以內(nèi),并提供各月徑流量的預(yù)報,其對防汛抗旱、水資源調(diào)度和高效利用具有重要意義[1]。目前,長期徑流預(yù)報大致可分為物理成因分析法、數(shù)理統(tǒng)計法和智能方法三大類[2]。物理成因分析法通過研究陸地海洋下墊面情況、太陽活動、大氣環(huán)流等要素,推求降水變化規(guī)律,再通過水文模型進(jìn)行徑流預(yù)報[3]。由于影響徑流的因素復(fù)雜,該方法實施難度較大,仍處于摸索發(fā)展之中。數(shù)理統(tǒng)計法根據(jù)預(yù)報因子類別的不同可分為兩種:一是尋求水文要素自身的演變規(guī)律進(jìn)行預(yù)報,如根據(jù)徑流的周期性、趨勢性、隨機(jī)性等特征,采用Morlet小波、方差分析、ARMA等方法構(gòu)建基于徑流自相關(guān)關(guān)系的預(yù)報模型[47];二是尋求水文要素間相互作用的物理機(jī)制進(jìn)行預(yù)報,如根據(jù)徑流與前期大氣環(huán)流指數(shù)、海溫場、高度場等遙相關(guān)關(guān)系,構(gòu)建多元回歸、逐步回歸等預(yù)報模型[811]。智能方法是當(dāng)前重點研究和應(yīng)用的預(yù)報技術(shù),隨著數(shù)學(xué)、計算機(jī)技術(shù)的快速發(fā)展,如隨機(jī)森林、灰色系統(tǒng)、混沌理論、支持向量機(jī)等開拓了長期徑流預(yù)報的新途徑,有效提高了預(yù)報精度[12]。
第16卷 總第96期·南水北調(diào)與水利科技·2018年6月酈于杰等·基于支持向量回歸機(jī)的長期徑流預(yù)報及不確定性分析支持向量機(jī)(Support Vector Machine,SVM)是Vapnik等人1995年提出的一種基于統(tǒng)計學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)算法,最初從線性可分情況下的最優(yōu)分類面發(fā)展而來,其核心思想是最優(yōu)分類面不但正確將兩類樣本分開,而且使分類間隔最大化,平行最優(yōu)分類面且距離最短的直線上的訓(xùn)練樣本即為支持向量;在線性不可分情況下,引入松弛變量和誤差懲罰參數(shù),建立廣義最優(yōu)分類面;對于非線性問題,通過核函數(shù)將低維非線性分類問題變換為高維線性分類問題,其形式上類似神經(jīng)網(wǎng)絡(luò),輸出的是中間節(jié)點的線性組合,每個節(jié)點對應(yīng)一個支持向量。 SVM采用結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則(Structural Risk Minimization,SRM),具有避免過學(xué)習(xí)、全局最優(yōu)、泛化能力好等性能,較好的解決了小樣本、非線性、高維度等水文中的常見問題[1315]。
1支持向量回歸機(jī)
支持向量回歸機(jī)(Suppport Vector machine for Regession,SVR)是建立在SVM上的回歸算法,其基本思想是用少數(shù)支持向量代表整個樣本集,利用非線映射(x),將低維非線性函數(shù)估計問題轉(zhuǎn)換為高維線性函數(shù)估計問題。設(shè)非線性回歸函數(shù):
f(x)=〈ω,(x)〉+b,ω、x∈Rn,b∈R
min12‖ω‖2+C∑ni=1(ξi+ξ*i)(1)
式中:x為樣本輸入;f(x)在不敏感損失函數(shù)ε范圍內(nèi)的線性回歸問題轉(zhuǎn)換為尋求最小‖ω‖問題,針對精度ε不能處理的問題,引入松弛變量ξi,ξ*i和誤差懲罰參數(shù)C,此時優(yōu)化方程的約束為:
s.t.yi-f(xi)≤ε+ξi
f(xi)-yi≤ε+ξ*i
ξi,ξ*i≥0(2)
為求解此凸二次規(guī)劃,根據(jù)KKT條件,引入Lagrange函數(shù):
L(ω,b,α,α*)=12‖ω‖2+C∑ni=1(ξi+ξ*i)-
∑ni=1αi(ξi+ε-yi+〈ω,φ(xi)〉+b)-
∑ni=1α*i(ξ*i+ε-yi-〈ω,φ(xi)〉-b)-
∑ni=1ηi(ξi+ξ*i)(3)
得到原優(yōu)化問題的Lagrange對偶問題:
min12∑ni,j=1(a*i-ai)(a*j-aj)K〈xi,xj〉-
∑ni=1a*i(yi-ε)+∑ni=1ai(yi-ε)
s.t.∑ni=1(a*i-ai)=0
0≤a*i,ai≤C(4)
求解上述對偶問題,得到最優(yōu)解α=(α1,α*1,…,αn,α*n)T,最優(yōu)解中非零向量αi或α*i所對應(yīng)的樣本點(xi,yi)的輸入xi即為支持向量,從而構(gòu)造非線性回歸函數(shù):
f(x)=∑(αi-α*i)K〈xi,xj〉+b(5)
式中:K〈xi,xj〉為核函數(shù),本文采用徑向基核函數(shù):
K〈xi,xj〉=exp(-‖x-xi‖2/σ2)(6)
誤差懲罰參數(shù)C起到調(diào)節(jié)模型復(fù)雜度和訓(xùn)練誤差的作用,取太小或太大,將出現(xiàn)“欠學(xué)習(xí)”或“過學(xué)習(xí)”現(xiàn)象,使訓(xùn)練誤差增大,泛化能力減弱;核參數(shù)σ反映了訓(xùn)練樣本數(shù)據(jù)的分布特性,確定了局部領(lǐng)域的寬度。因此,SVR回歸問題的推廣性能取決于誤差懲罰參數(shù)C與核參數(shù)σ。由于遺傳算法(Genetic algorithm,GA)在復(fù)雜優(yōu)化問題中只需構(gòu)造一個適應(yīng)度函數(shù),通過選擇、雜交、變異等遺傳機(jī)制,完成對問題最優(yōu)解的自適應(yīng)搜索過程,且算法成熟,在水文中應(yīng)用廣泛,故本次選擇構(gòu)建GASVR算法進(jìn)行參數(shù)優(yōu)選,既保證參數(shù)的準(zhǔn)確性,又保證計算的時效性,算法流程見圖1。
2預(yù)報因子挑選
本次所選的氣象因子分為北太平洋海溫場(SST)、500 hPa高度場、74項環(huán)流指數(shù)三大類,前兩類下載自NCEP再分析數(shù)據(jù),第三類下載自中國氣象數(shù)據(jù)網(wǎng)。首先根據(jù)漢江流域的地理位置、水系分布等特征,選取SST的空間范圍為525°N-125°S,1175°E-775°W,分辨率為5°×5°,500 hPa高度場的空間范圍為80°N-10°S,0°E-360°E,分辨率為25°×25°及全范圍74項環(huán)流指數(shù)等作為初選預(yù)報因子,之后計算徑流序列與前一年氣象因子序列的相關(guān)系數(shù),利用相關(guān)系數(shù)顯著性檢驗表剔除不顯著相關(guān)的初選預(yù)報因子。由于中長期徑流預(yù)報的物理成因復(fù)雜,預(yù)報因子與預(yù)報對象的本構(gòu)關(guān)系仍處于摸索階段,故本次假定三類氣象因子的重要度相似,最終利用逐步回歸從每類氣象因子中各挑選5個作為最終預(yù)報因子??紤]到歷史資料存在非一致性,本文只選取1980年以后的數(shù)據(jù)。下面以1月、7月、年總量為例說明,其他不予贅述,預(yù)報因子見表1。
將Matlab作為本次編程平臺,將1980-2007年逐月預(yù)報因子作為輸入量,1981-2008年逐月徑流量作為輸出量,訓(xùn)練GASVR模型。將2008-2012年逐月預(yù)報因子輸入訓(xùn)練完畢的GASVR模型中,對2009-2013年逐月徑流量進(jìn)行預(yù)報。預(yù)報精度的評價指標(biāo)采用平均相對誤差(MRE)、均方根誤差(RMSE)和確定性系數(shù)(DC),公式見式(7)-式(9)。將預(yù)報結(jié)果與隨機(jī)森林(RF)、多元線性回歸(MLR)結(jié)果作對比,結(jié)論見圖2至圖4,表2至表3所示。
由圖2至圖4可知,非汛期在年際間的變化較小,以1月為例,其徑流量變化范圍在200~600 m3/s之間;而汛期在年際間的變化很大,以7月為例,其徑流量最小僅1 000 m3/s,最大可達(dá)7 000 m3/s;年徑流的變化也較大,且并無明顯規(guī)律可循,這在一定程度上加大預(yù)報難度同時,也表明GASVR模型不僅能反映各月、年際間的變化趨勢,也能較好地預(yù)測極值月與極值年的徑流量。
由表2可知,在平均相對誤差上,多元線性回歸表現(xiàn)最佳,GASVR次之,隨機(jī)森林較差。GASVR的平均相對誤差在非汛期第一階段(1月-5月)為8%-17%之間,汛期(6月-9月)為21%~39%之間,非汛期第二階段(10月-12月)為17%~38%之間,年總量的平均相對誤差為13%,這表明GASVR模型在1月-5月與年總量上率定良好,在汛期仍有一定的差距,而非汛期第二階段率定不佳的原因可能是隨著預(yù)見期的增長,預(yù)報因子的時效性與可靠性降低。在確定性系數(shù)上,GASVR與多元線性回歸相近,且均優(yōu)于隨機(jī)森林。GASVR除6月的確定性系數(shù)為077外,其余各月均在085以上,年總量的模擬也達(dá)到089,表明GASVR模型整體上率定精度良好,可靠性較高。
由于驗證期序列時間較短,不宜采用確定性系數(shù)作為評價指標(biāo),故本次只采用平均相對誤差。由表3可知,兩種智能方法在驗證期表現(xiàn)均遠(yuǎn)優(yōu)于多元線性回歸。GASVR的平均相對誤差在非汛期除2、4、11月在26%~29%外,其余均在20%以下;在汛期(6月-9月)為23%~33%之間;在年總量上也表現(xiàn)最佳,平均相對誤差僅13%,這表明GASVR模型不僅可預(yù)報逐月徑流,也可預(yù)報年總量的豐枯趨勢。
4預(yù)報不確定性分析
Krzysztofwicz在1999年提出的貝葉斯預(yù)報系統(tǒng)(Bayesian Forecasting System,BFS)將預(yù)報的總不確定性分為降雨不確定性和水文不確定性,分別采用降雨不確定處理器(Precipitation Uncertainty Processor,PUP)和水文不確定處理器(Hydrological Uncertainty Processor,HUP)處理,最后通過集成器(Integrator,INT)綜合輸出[1719]。設(shè)H0為預(yù)報時已知的實測流量,Hn和Sn分別表示實際流量過程和預(yù)報流量過程,hn為Hn的實測值,sn為Sn的估計值,對于任意時刻n及Hn=hn,由貝葉斯原理可得在Sn=sn的條件下Hn的后驗概率密度函數(shù)為[20]:
φn(hn|sn,h0)=fn(sn|hn,h0)gn(hn|h0)∫+∞-∞fn(sn|hn,h0)gn(hn|h0)dhn(10)
將GASVR預(yù)報值作為確定性預(yù)報輸入,采用HUP計算徑流的后驗概率分布,并給出90%置信區(qū)間與50%分位數(shù),結(jié)果見圖5至圖7。GASVR預(yù)報值與HUP50%分位數(shù)比較見表4。
由以上分析表明,GASVR模型的90%置信區(qū)間幾乎包括所有實測值,且50%分位數(shù)與實測值擬合更好,預(yù)報精度更高。將50%分位數(shù)與GASVR預(yù)報值相比,確定性系數(shù)進(jìn)一步增大,平均相對誤差和均方根誤差均有一定程度的減小,說明經(jīng)過HUP處理后,不僅能以置信區(qū)間的方式量化預(yù)報的可靠度,提供更為豐富的預(yù)報信息,同時若以某一分位數(shù)(如50%)作為定值預(yù)報,由于貝葉斯方法本身所具有的校正能力,可進(jìn)一步提高預(yù)報精度。
5結(jié)論
(1)根據(jù)皇莊站1981-2008年逐月徑流量與1980-2007年逐月74項環(huán)流指數(shù)、北太平洋海溫場、500 hPa高度場的相關(guān)關(guān)系,利用逐步回歸挑選預(yù)報因子,構(gòu)建GASVR模型,并對2009-2013年逐月徑流量進(jìn)行預(yù)報,結(jié)果表明,徑流預(yù)報精度較高,汛期平均相對誤差在30%以內(nèi),非汛期、年總量平均相對誤差在20%以內(nèi),均優(yōu)于隨機(jī)森林和多元線性回歸模型。但個別年份中的個別月平均相對誤差較高,這表明預(yù)報因子的時效性與穩(wěn)定性仍需提高,其中的物理成因仍需進(jìn)一步研究。
(2)將GASVR模型作為確定性預(yù)報結(jié)果,采用HUP可以實現(xiàn)徑流的概率預(yù)報。將概率預(yù)報的50%分位數(shù)與GASVR預(yù)報值進(jìn)行對比,結(jié)果表明,50%分位數(shù)與實測值擬合更好,精度更高。HUP不僅可以提供精度更高的定值預(yù)報,還能以置信區(qū)間的方式量化預(yù)報的可靠度,提供更為豐富的預(yù)報信息,為防汛抗旱、水資源優(yōu)化調(diào)度提供參考。
參考文獻(xiàn)(References):
[1]CLOKE H L,PAPPENBERGER F.Ensemble flood forecasting:a review[J].Journal of Hydrology,2009,375(3):613626.DOI:10.1016/j.jhydrol.2006.05.017.
[2]張俊.中長期水文預(yù)報及調(diào)度技術(shù)研究與應(yīng)用[D].大連:大連理工大學(xué),2009.(ZHANG J.Midandlong term hydrological forecasting and operation techniques research and application[D].Dalian:Dalian University of Technology,2009.(in Chinese))
[3]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Seasonal streamflow forecasting in eastern Australia and the El NioSouthern Oscillation[J].Water Resources Research,1998,34(11):30353044.DOI:10.1029/98WR02406.
[4]KRSTANOVIC P F,SINGH V P.A univariate model for longterm streamflow forecasting[J].Stochastic hydrology and hydraulics,1991,5(3):173188.DOI:10.1007/BF01544057.
[5]KALRA A,AHMAD S.Using oceanicatmospheric oscillations for long lead time streamflow forecasting[J].Water Resources Research,2009,45(3).DOI:10.1029/2008WR006855.
[6]BOX G E P,JENKINS G M,REINSEL G C.Time series analysis:forecasting and control[M].John Wiley & Sons,2011.
[7]Mohammadi K,Eslami H R,Kahawita R.Parameter estimation of an ARMA model for river flow forecasting using goal programming[J].Journal of Hydrology,2006,331(1):293299.DOI:10.1016/j.jhydrol.2006.05.017.
[8]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Development of exceedance probability streamflow forecast[J].Journal of Hydrologic Engineering,2001,6(1):2028.DOI:10.1061/(ASCE)10840699(2001)6:1(20).
[9]范鐘秀.中長期水文預(yù)報[M].南京:河海大學(xué)出版社,1999.(FAN Z X.Midandlong term hydrological forecasting.Nanjing:Hohai University Press,1999.(in Chinese))
[10]BROWN C,XU K,KWON H H,et al.Climate teleconnections to Yangtze River seasonal streamflow at the Three Gorges Dam,China[J].International Journal of Climatology,2007,27(6):771780.DOI:10.1002/joc.1437.
[11]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Development of exceedance probability streamflow forecast[J].Journal of Hydrologic Engineering,2001,6(1):2028.DOI:10.1061/(ASCE)10840699(2001)6:1.
[12]王富強(qiáng),霍風(fēng)霖.中長期水文預(yù)報方法研究綜述[J].人民黃河,2010,32(3):2528.(WANG F Q,HUO F L,Review on study of medium and long term hydrological forecasting technique[J].Yellow River,2010,32(3):2528.(in Chinese)) DOI:10.3969/j.issn.10001379.2010.03.011.
[13]林劍藝,程春田.支持向量機(jī)在中長期徑流預(yù)報中的應(yīng)用[J].水利學(xué)報,2006,37(6):681686.(LIN J Y,CHENG C T.Application of support vector machine method to longterm runoff forecast[J].Journal of Hydraulic Engineering,2006,37(6):681686.(in Chinese)) DOI:10.13243/j.cnki.slxb.2006.06.007.
[14]VAPNIK V.Estimation of dependences based on empirical data[M].Springer Science & Business Media,2006.
[15]VAPNIK V.The nature of statistical learning theory[M].Springer Science & Business Media,2013.
[16]楊曉華.參數(shù)優(yōu)選算法研究及其在水文模型中的應(yīng)用[D].南京:河海大學(xué),2002.(YANG X H.Study on parameter optimazation algorithm and its application in hydrological model[D].Nanjing:Hohai University,2002.(in Chinese))
[17]KRZYSZTOFOWICZ R.Bayesian theory of probabilistic forecasting via deterministic hydrologic model[J].Water Resources Research,1999,35(9):27392750.DOI:10.1029/1999WR900099.
[18]KRZYSZTOFOWICZ R,KELLY K S.Hydrologic uncertainty processor for probabilistic river stage forecasting[J].Water Resources Research,2000,36(11):32653277.DOI:10.1029/2000WR900061.
[19]KRZYSZTOFOWICZ R.Bayesian system for probabilistic river stage forecasting[J].Journal of Hydrology,2002,268(1):1640.DOI:10.1016/s00221694(02)001063.
[20]梁忠民,戴榮,李彬權(quán).基于貝葉斯理論的水文不確定性分析研究[J].水科學(xué)進(jìn)展,2010,21(2):274281.(LIANG Z M,DAI R,LI B Q.A review of hydrological uncertainty analysis based on Bayesian theory[J].Advances in WaterScience,2010,21(2):274281.(in Chinese)) DOI:10.14042/j.cnki.32.1309.2010.02.008.第16卷第3期