張巖 楊明祥 雷曉輝 舒堅 牛文生 余瑯
摘要:在年徑流預報中,氣象因子之間的自相關會對預報精度產生影響。針對這個問題,將主成分分析(PCA)和粒子群優(yōu)化(PSO)算法加入SVR模型中,建立了PCAPSOSVR預報模型,剔除冗余信息和噪聲,提取因子間的主要特征,并選擇模型的最優(yōu)參數組合作為回歸支持向量機(SVR)模型的輸入。選擇南水北調中線水源地丹江口水庫為研究區(qū),利用丹江口1981-2016年入庫資料進行模型檢驗。結果表明,模型驗證期間合格率為8333%、距平一致率也達到8333 %,具有精度高穩(wěn)定性強等優(yōu)點,對丹江口水庫年徑流預報有一定的參考意義。
關鍵詞:年徑流預報;主成分分析;粒子群優(yōu)化算法;回歸支持向量機;丹江口水庫
中圖分類號:P333 文獻標志碼:A 文章編號:
16721683(2018)05003506
Research on annual runoff forecast of Danjiangkou Reservoir based on PCAPSOSVR
ZHANG Yan1,YANG Mingxiang2,LEI Xiaohui2 ,SHU Jian1,NIU Wensheng3,YU Lang2
(
1.School of Software,Nanchang Hangkong University,Nanchang 330063,China;2.China Institute of Water Resources and Hydropower Research,Beijing 100038,China;3.AVIC Xi′an Institute of Aeronautical Computing Technology,Xi′an 710068,China
)
Abstract:
In the annual runoff forecast,the autocorrelation between meteorological factors will have an impact on forecast accuracy.In order to solve this problem,we added PCA and PSO to the SVR model and established a PCAPSOSVR model.We removed the redundant information and noise,extracted the main features of the factors,and used the optimal parameter combination of the model as input to the regression support vector machine (SVR) model.Taking Danjiangkou Reservoir,the water source of the Middle Route of the SouthtoNorth Water Diversion Project,as the study area,we carried out model tests using the data from 1981 to 2016 in Danjiangkou.The results showed that the qualification rate during the model verification period was 8333% and the consistency rate also reached 8333%,indicating high accuracy and stability.The model has certain reference value for the annual runoff forecast of Danjiangkou Reservoir.
Key words:
annual runoff forecast;principal component analysis;particle swarm optimization;regression support vector machine;Danjiangkou Reservoir
隨著我國水資源調度實踐的不斷推進,長期徑流預報的重要性愈加凸顯。然而徑流的形成受到降水、蒸發(fā)、匯流等一系列復雜過程和人類活動等因素的影響,具有較強的隨機性和不確定性,給長期預報帶來了困難[1]。隨著計算技術與方法的不斷發(fā)展,如人工神經網絡、支持向量機等各種智能學習方法逐漸應用到長期徑流預報中。支持向量機(Support Vector Machine,SVM)作為一種新興的機器學習方法,在20世紀90年代中期被Vapnik等人首次提出[2],主要用于解決分類和回歸預測問題。文獻[3]在支持向量機建模過程中引入了徑向基核函數,簡化了非線性問題的求解過程。與人工神經網絡模型預報結果比較顯示,該模型能提高中長期徑流預報的精度。文獻[4]表明進行預報因子優(yōu)化后的SVM模型明顯提高了徑流的預報精度,具有更好的應用價值。文獻[5]提出了一種基于遺傳算法的支持向量機模型,該模型結合遺傳算法收斂速度快的特點對支持向量機參數進行優(yōu)化選擇,實現參數的全局自動化選取。文獻[6]提出一種基于灰色關聯分析的模糊支持向量機預報方法,結果表明,該模型是一種有效的徑流時間序列預測模型。文獻[7]提出了基于小波分解的參數優(yōu)化支持向量機(WDSVMPSO)預測模型,實現了對歷史徑流過程的分頻預處理、分類訓練、參數優(yōu)化及交叉驗證,從樣本數據、模型參數、訓練機制三方面對預測模型性能進行優(yōu)化,為分析和完善數據驅動徑流預測模型、提高徑流預測精度和可靠性提供參考。
丹江口水庫是南水北調中線工程的水源地[8]。準確預報丹江口水庫的年入庫徑流,對于南水北調中線工程供水安全具有重要意義。然而在實際應用中,由于某些氣象因子之間往往存在一定的自相關性,如果選擇不當,會產生信息冗余和噪音,從而降低預報精度[9]。主成分分析(PCA)是一種在減少需要分析的指標同時,達到對所收集數據進行全面分析的降維方法[10]。因此將主成分分析(PCA)和粒子群優(yōu)化(PSO)算法加入SVR模型中,建立PCAPSOSVR模型,并將此模型應用于丹江口水庫的年徑流預報中,取得了較好的效果。
1 研究區(qū)概況
丹江口水庫(東經110°-112°,北緯32°- 33°)是亞洲第一大人工淡水湖泊,位于湖北省丹江口市和河南省浙川縣境內, 也是漢江干流與其支流丹江的交匯地,總面積17 916 km2。庫區(qū)地形的主要特點是高差大、坡度陡、切割深,最高海拔1 7989 m,相對高差為1 7119 m。地形總體情況為西北向偏高、東南向偏低,北方地形較陡、南方地形較緩,在漢江沿線主要呈現出盆地與峽谷交替的地貌[11]。丹江口庫區(qū)地處北亞熱帶向暖溫帶過渡地帶,屬于典型的季風型大陸性半濕潤氣候,具有春季溫暖,秋季涼爽,四季分明,雨量比較充沛等特點。庫區(qū)土壤類型主要有山地黃棕壤、黃褐土、山地棕壤土和紫色土,森林植被主要有針葉林、闊葉林、竹林、灌叢及灌草叢等。
丹江口水庫作為南水北調中線工程水源地,總庫容量達1745億m3,水庫入庫水量平均395億m3,入庫徑流以汛期(7月-10月)為主(占全年總量的60%以上)[12]。庫區(qū)集水區(qū)是由漢江和丹江兩大流域匯合形成。漢江干流河寬平均約200~300 m,較大的支流有乾佑河、金錢河、泗河等。丹江水系上較大的支流包括淇河、老灌河。丹江口水庫上游興建的水利工程眾多,其中大中型水庫有位于漢江干流上的安康水庫等,見圖1。南水北調中線工
程向河南、河北、天津、北京等四個省市的20多座大中型城市進行供水,一期工程年均調水95億m3,中遠期規(guī)劃每年調水量將達130億m3,有效緩解了中國北方部分地區(qū)的水資源嚴重短缺局面[13]。
2 數據來源與研究方法
2.1 資料準備
從中國氣象局國家氣候中心獲取百項氣候系統(tǒng)指數集[14](即88項大氣環(huán)流指數、26項海溫指數和16項其他指數),對預報年份前一年百項氣候系統(tǒng)指數與預報年份徑流值進行相關性分析。由于降雨數據也是影響徑流的主要因素,所以把預報年份前一年累積降雨也作為預報因子加入主成分分析法中進行降維。
2.2 主成分分析(PCA)
主成分分析(PCA)法是由Karl Parson在1901年提出的一種多元統(tǒng)計分析方法[15]。在研究的問題變量個數較多時,通過該方法構建盡可能少的新變量,這些變量之間兩兩不相關,彼此正交,同時這些變量盡可能地保留了原問題的信息,起到了降維的作用。
設初始的變量為X1,X2,…,Xn,經過主成分分析過后新的變量為Z1,Z2,…,Zm(m≤n) ,則:
式中:Z1,Z2,…,Zm為X1,X2,…,Xn所對應的第一,第二,……,第m主成分,矩陣L為載荷矩陣。其中Z1的方差最大,Z2次之, 依此類推。方差越大,表示主成分所含的原變量信息量就越多[16]。
2.3 粒子群優(yōu)化算法(PSO)
粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法是Kennedy和Eberhart受人工生命研究結果的啟發(fā)、通過模擬鳥群覓食過程中的遷徙和群聚行為而提出的一種基于群體智能的全局隨機搜索算法[17]。
(1)初始化粒子群和參數范圍。包括粒子群規(guī)模、迭代代數、隨機位置和速度等。
(2)計算每個粒子的適應值。
(3)確定每個粒子的個體最佳位置。
(4)確定整個粒子群的全局最佳位置。
(5)根據式(2)、(3)更新粒子的速度和位置。
式中:i表示迭代代數;xi表示第i次迭代時粒子所在位置;[WTB1X]v[WTBX]i表示第i次迭代時粒子的速度;pbest表示粒子局部最優(yōu)位置;gbest表示粒子群全局最佳位置;r1,r2為(0,1)之間的兩個隨機數;c1,c2表示的是增速因子,它們的取值均大于0,一般都取為2;[WTB1X]w[WTBZ]為權重因子,取值范圍是(0,1)[18];
判斷算法是否滿足結束條件,滿足則輸出最優(yōu)結果,此時的全局最優(yōu)解即是參數的最優(yōu)值;不滿足則轉到(2)。
2.4 回歸支持向量機(SVR)
支持向量機(SVM)是一種可以在多個方面應用的學習機器,可以達成統(tǒng)計學習理論,并且在這個過程中將結構風險降到了極小值。支持向量機主要用于解決分類和回歸預測問題,針對回歸預測問題,研究者提出了一系列回歸算法,回歸支持向量機(Support Vector Machine for Regression,SVR)就是其中的一種,且尤其適用于小樣本、非線性問題的回歸預測[19]。SVR的基本思想是利用核函數將低維度非線性問題轉換成高維度線性問題,在高維特征空間中利用線性方法解決非線性問題。通過多次試驗證明,SVR在解決回歸預測問題時具有較高的可信度和良好的泛化能力。
SVR實現回歸預測的步驟如下。
SVR通過引入核函數K(x,x′)來代替式(11)中的內積(φ(xi)φ(x)),從而最優(yōu)回歸超平面可表示為:
f(x)=∑[DD(]l[]i=1[DD)](αi-α*i)K(xi,x′)+b (12)
常用的核函數有:線性核函數:K(x,x′)=x°x′; 多項式核函數:K(x,x′)=[(x°x′)+1]d;徑向基核函數(RBF):K(x,x′)=exp(-‖x-x′‖2/σ2);Sigmoid核函數。
基于丹江口水庫的調度工程實際和優(yōu)先原則,將徑向基核函數(RBF)[ 24]作為SVR模型的核函數。那么SVR模型就可以表示為:
y=f(x|(C,ε,σ)) (13)
[BT2+*6] 3 結果與討論
現有丹江口水庫1981-2016年共36年的年平均入庫流量數據,數據中有少量缺失值,已采用線性插值法對數據進行預處理。利用1981-2004年共24年的年平均入庫流量訓練模型,用2005-2016年共12年的年平均入庫流量對構建的模型進行檢驗。經查閱資料得知,丹江口水庫處于東亞副熱帶季風區(qū),其降水主要來源于東南和西南兩股暖濕氣流[25]。同時,太平洋、印度洋等海域海溫的變化對東亞天氣影響較大。考慮這些因素,初步選擇如下預報因子:前1年9月NINO W區(qū)海表溫度距平指數、前1年5月北半球極渦中心緯向位置指數、前1年7月西太平洋暖池面積指數、前1年11月冷空氣次數、前1年12月南海副高脊線位置指數、前1年6月東亞槽強度指數和前1年丹江口水庫累積降雨(表1)。
將因子值和徑流值歸一化后輸入模型,通過PCA方法對輸入數據進行主成分分析,去掉因子噪聲。在主成分分析過程中,發(fā)現前5個特征值已經達到了85%的閾值,表明它們在整個數據分析中占絕對的比重,所以本次預報只選取前5個主成分來代替全部的預報因子(表2)。
在PSO算法的參數設置中,粒子群數n=300 ,最大迭代次數 pcount=500 ,學習因子c1=2、c2=2、[WTB1X]w[WTBZ]=08 經過PSO算法率定后,由此得到丹江口年徑流預報SVR模型的最佳參數值(C,ε,σ)=(453158,82685,55177),然后將三個參數值代入到PCAPSOSVR模型中進行預測,得到訓練集和驗證集的預測結果見圖2(黑色虛線左邊表示訓練期,右邊表示驗證期)。
為了驗證PCAPSOSVR模型的可靠性,選取BP神經網絡模型、PSOSVR模型與PCAPSOSVR模型進行丹江口年徑流預報對比。以平均相對誤差的絕對值、距平一致率[26]以及合格率來衡量各模型的預報性能。
平均相對誤差的計算公式為:
由表3可以看出,BP神經網絡模型的擬合效果較好,但是檢驗效果較差,模型的可信度不高; PSOSVR模型雖然整體誤差較小,但受因子間互相關性影響,距平一致率和合格率一般;PCAPSOSVR模型在PSOSVR模型基礎上加入主成分分析,而主成分分析方法可以來消除因子間的冗余信息,減少噪聲的影響。從對比結果來看,無論是在訓練期間還是驗證期間,PCAPSOSVR模型的平均相對誤差減小且距平一致率也提高很多,預報合格率為8333%距平一致率達到8333%,且平均相對誤差為1486%,符合《水文情報預報規(guī)范》[27]規(guī)定的相對誤差小于20%為合格的評判標準。說明PCAPSOSVR模型適用于丹江口的年徑流預報,穩(wěn)定性強且預報精度較高,有望為丹江口水庫年徑流預報提供一定的參考。
4 結語
選擇丹江口水庫作為研究對象,建立了PCAPSOSVR預報模型,利用主成分分析(PCA)方法降低因預報因子選擇不當所產生的噪聲,并且考慮到回歸支持向量機(SVR)參數C,ε,σ的選擇存在計算量大、選取困難等問題,采用粒子群優(yōu)化(PSO)算法來確定最優(yōu)參數組合,有望為丹江口水庫年徑流預報提供參考。然而徑流的形成受到降水、蒸發(fā)、匯流等一系列復雜過程和人類活動等因素的影響,且各影響因素之間存在十分復雜的非線性關系,如何描述并解釋這種復雜非線性關系進而指導預報工作,將是作者今后研究的重點。
參考文獻(References):
[1] 盧敏,張展羽.徑流預測的支持向量機應用研究[J].中國農村水利水電,2006(2):4749.( LU M,ZHANG Z Y.Application research of support vector machines for runoff prediction[J].China Rural Water and Hydropower,2006(2):4749.(in Chinese)) DOI:10.3969/j.issn.10072284.2006.02.017.
[2] VAPNIK V.The Nature of Statistical Learning Theory[M].New York:Springer,1995.DOI:10.1007/9781475724400.
[3] 林劍藝,程春田.支持向量機在中長期徑流預報中的應用[J].水利學報,2006,37(6):681686.( LIN J Y,CHENG C T.Application of support vector machine in midlong term runoff forecast[J].Journal of Hydraulic Engineering.2006,37(6):681686.(in Chinese)) DOI:10.3321/j.issn:05599350.2006.06.007.
[4] 趙紅標,吳義斌.基于支持向量機的中長期入庫徑流預報[J].黑龍江大學工程學報,2009,36(3):5559.(ZHAO H B,WU Y B.Measurement of runoff from medium and long term based on support vector machine[J].Journal of Heilongjiang University Engineering,2009,36 (3):5559.(in Chinese)) DOI:10.3969/j.issn.2095008X.2009.03.001.
[5] 徐瑩,王嘉陽,蘇華英.基于遺傳算法的支持向量機在徑流中長期預報中的應用[J].水利與建筑工程學報,2014(5):4245.( XU Y,WANG J Y,SU H Y.Application of support vector machine based on genetic algorithm in longterm runoff forecasting[J].Journal of Water Resources and Architectural Engineering,2014(5):4245.(in Chinese)) DOI:10.3969/j.issn.16721144.2014.05.008.
[6] 朱雙,周建中,孟長青,等.基于灰色關聯分析的模糊支持向量機方法在徑流預報中的應用研究[J].水力發(fā)電學報,2015,34(6):16(ZHU S,ZHOU J Z,MENG C Q,et al.Application of fuzzy support vector machine based on gray relational analysis in runoff forecast[J].Journal of Hydroelectric Engineering.2015,34(6):16.(in Chinese))
[7] 周婷,金菊良,李榮波,等.基于小波支持向量機的徑流預測性能優(yōu)化分析[J].水力發(fā)電學報,2017(10):4555.( ZHOU T,JIN J L,LI R B,et al.Optimization analysis of runoff prediction performance based on wavelet support vector machine.2017(10):4555.(in Chinese)) DOI:10.11660/slfdxb.20171005.
[8] 沈悅,李陽.南水北調工程水資源生態(tài)補償研究——以丹江口水庫為例[J].電網與清潔能源,2016,32(1):119124(SHEN Y,LI Y.Study on ecological compensation of water resources in SouthtoNorth Water Diversion Project Taking Danjiangkou Reservoir as an example[J].Power Grid & Clean Energy,2016,32 (1):119124(in Chinese)) DOI:10.3969/j.issn.16743814.2016.01.021.
[9] 徐緯芳,劉成忠,顧延濤.基于PCA和支持向量機的徑流預測應用研究[J].水資源與水工程學報,2010,21(6):7275.( XU W F,LIU C Z,GU Y T.Application of PCA and support vector machines in runoff prediction[J].Journal of Water Resources and Water Engineering,2010,21(6):7275.(in Chinese))
[10] ABEYWARDENA V.An application of principal component analysis in genetics[J].Journal of Genetics,1972,61(1):2751.DOI:10.1007/9783319683249_34.
[11] 包洪福.南水北調中線工程對丹江口庫區(qū)生物多樣性的影響分析[D].哈爾濱:東北林業(yè)大學,2013.( BAO H F.Analysis of the impact of the Middle Route Project of SouthtoNorth Water Diversion on the biodiversity of Danjiangkou Reservoir[D].Harbin:Northeast Forestry University,2013.(in Chinese))
[12] 廖煒.丹江口庫區(qū)土地利用變化與生態(tài)安全調控對策研究[D].武漢:華中師范大學,2011.( LIAO W.Research on land use changes and ecological security control in Danjiangkou Reservoir Area[D].Wuhan:Central China Normal University,2011.(in Chinese))
[13] 陳剛.水庫移民安置補償政策績效評估以湖北丹江口水庫為實證[D].武漢:華中農業(yè)大學,2016.(CHEN G.Performance evaluation of reservoir resettlement compensation policyTaking Danjiangkou Reservoir as an empirical[D].Wuhan:Huazhong Agricultural University,2016.(in Chinese))
[14] 中國氣象局國家氣候中心氣候系統(tǒng)監(jiān)測·診斷·預測·評估[EB/OL].http://cmdp.ncccma.net/cn/monitoring.htm.(China Meteorological Administration National Climate Center Climate System Monitoring,Diagnosis,Prediction,and Evaluation[EB/OL].http://cmdp.ncccma.net/monitoring.htm.(in Chinese))
[15] 張小確,高枝榮,夏云貴.主成分分析方法及其在各儀器分析中的應用[J].河北工業(yè)科技,2007,24(6):345350.( ZHANG X Q,GAO Z R,XIA Y G.Principle Component Analysis Method and Its Application in Various Instrument Analysis[J].Hebei Industry Science and Technology.2007,24(6):345350.(in Chinese)) DOI:10.3969/j.issn.10081534.2007.06.009.
[16] 石威.長江三峽梯級中長期徑流預報模型研究及其系統(tǒng)開發(fā)[D].武漢:華中科技大學,2012.( SHI W.The Yangtze River Three Gorges cascade longterm runoff forecasting model and system development[D].Wuhan:Huazhong University of Science and Technology.2012 (in Chinese))
[17] 高博,盧輝斌.改進型粒子蟻群算法的應用研究[J].計算機安全,2010(11):1113.(GAO B,LU H B.Application of improved particle ant colony algorithm[J].Computer Security,2010 (11):1113) (in Chinese)) DOI:10.3969/j.issn.16710428.2010.11.004.
[18] CARLISLE A,DOZIER G.An offtheshelf PSO[C].// The Workshop on Particle Swarm Optimization.2001.
[19] YOO K H,JU H B,MAN G N,et al.Prediction of golden time using SVR for recovering SIS under severe accidents[J].Annals of Nuclear Energy,2016,94:102108.DOI:10.1016/j.anucene.2016.02.029.
[20] 郝繼升.基于LSSVR的回歸曲線建模[J].江西科學,2007, 25(5):563564.(HAN J S.Study on regression curve modeling based on LSSVR[J].Jiangxi Science,2007,25 (5):563564.(in Chinese)) DOI:10.3969/j.issn.10013679.2007.05.015.
[21] 王秋云.對偶原理及其應用[J].吉安師專學報,1990(6):1418.(WANG Q Y.Polecular principle and its application[J].Journal of Ji′an Teachers College,1990 (6):1418.(in Chinese))
[22] 曹健,孫世宇,段修生,等.基于KKT條件的SVM增量學習算法[J].火力與指揮控制,2014(7):139143.(CAO J,SUN S Y,DUAN X S,et al.Advanced SVM incremental learning algorithm based on KKT condition[J].Fire and Command & Control,2014 (7):139143.(in Chinese))
[23] 董春曦,饒鮮,楊紹全.基于重復訓練提高SVM識別率的算法[J].系統(tǒng)工程與電子技術,2003,25(10):12921294.(DONG C X,RAO X,YANG S Q.An Algorithm for improving SVM recognition rate based on repetitive training[J].Systems engineering and electronic technology,2003,25(10):12921294.(in Chinese)) DOI:10.3321/j.issn:1001506X.2003.10.034.
[24] 王春燕,夏樂天,孫毓蔓.基于不同核函數的SVM用于徑流預報的比較[J].人民黃河,2010,32(9):3536.(WANG C Y,XIA L T,SUN Y M.Comparison of SVM for runoff forecast based on different kernel function[J].People′s Yellow River,2010,32 (9):3536.(in Chinese)) DOI:10.3969/j.issn.10001379.2010.09.014.
[25] 郭海晉,金蓉玲.丹江口水庫上游水資源現狀及變化趨勢分析[J].資源科學,1997,24(1):2834.(GUO H J,JIN R L status and dynamics of water upstream of Danjiangkou Reservoir[J].Resources Science,1997,24 (1):2834.(in Chinese))
[26] 張岳軍,周靜,韓照宇,等.基于海氣耦合模式的山西省夏季降水統(tǒng)計降尺度預測研究[J].氣候與環(huán)境研究,2016,21(3):323332.( ZHANG Y J,ZHOU J,HAN Z Y,et al.Study on downscaling prediction of summer precipitation in Shanxi based on the coupled model of oceanatmosphere[J].Climatic and Environmental Research.2016,21(3):323332.(in Chinese)) DOI:10.3878/j.issn.10069585.2016.15218.
[27] SL 250-2000,水文情報預報規(guī)范[S].( SL 250-2000,Specification for Hydrological Information Forecast[S].