李 薇,周建中,葉 磊,盧韋偉,姚翔宇
(1.華中科技大學(xué)水電與數(shù)字化工程學(xué)院,湖北武漢430074;2.華中科技大學(xué)數(shù)字流域科學(xué)與技術(shù)湖北省重點(diǎn)實驗室,湖北武漢430074;3.中國建筑西北設(shè)計研究院有限公司,陜西西安710018)
?
基于主成分分析的三種中長期預(yù)報模型在柘溪水庫的應(yīng)用
李 薇1,2,周建中1,2,葉 磊1,2,盧韋偉1,2,姚翔宇3
(1.華中科技大學(xué)水電與數(shù)字化工程學(xué)院,湖北武漢430074;2.華中科技大學(xué)數(shù)字流域科學(xué)與技術(shù)湖北省重點(diǎn)實驗室,湖北武漢430074;3.中國建筑西北設(shè)計研究院有限公司,陜西西安710018)
基于柘溪斷面歷史旬徑流資料,選擇1980年~2012年共33 a的降雨和流量數(shù)據(jù)經(jīng)主成分分析處理后,分別作為多元線性回歸模型、BP神經(jīng)網(wǎng)絡(luò)模型、Elman神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練樣本,對模型參數(shù)進(jìn)行訓(xùn)練;然后對樣本進(jìn)行模擬預(yù)報,統(tǒng)計模擬絕對誤差和相對誤差,同時預(yù)報柘溪斷面2013年、2014年和2015年的年、汛期、季節(jié)和月尺度的流量,預(yù)報結(jié)果可精確到旬尺度,對比分析三種模型各時間尺度的預(yù)報結(jié)果,最終確定各模型在柘溪流域中長期水文預(yù)報過程中的作用。
多元線性回歸;BP神經(jīng)網(wǎng)絡(luò);Elman神經(jīng)網(wǎng)絡(luò);中長期徑流預(yù)報;主成分分析;柘溪水庫
準(zhǔn)確及時的中長期徑流預(yù)報,對于爭取防汛、抗旱的主動權(quán),制訂科學(xué)的水資源調(diào)度方案,確保水利設(shè)施的安全并發(fā)揮其經(jīng)濟(jì)效益具有重要意義。孫冰心[1]采用多元線性回歸方法預(yù)報年最大流量;吳超羽[2]指出因人工神經(jīng)網(wǎng)絡(luò)是以神經(jīng)元為基本單元,具有良好的非線性映射能力,故在對同樣是高度非線性的水文系統(tǒng)進(jìn)行擬合時將會取得良好的效果;丁晶[3]將人工神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于蘭州水文站點(diǎn)過渡期月徑流的預(yù)報,證明了利用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)報過渡期徑流是有效的,且效果好于多元回歸方法得到的結(jié)果;屈亞玲、周建中[4]提出一種改進(jìn)型Elman算法神經(jīng)網(wǎng)絡(luò)方法,將該方法應(yīng)用于水文預(yù)報中,證明了該方法是確實有效的。綜上,多元線性回歸、BP神經(jīng)網(wǎng)絡(luò)、Elman神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于中長期水文預(yù)報。
通常挑選預(yù)報因子,首先考察不同預(yù)報因子與預(yù)報對象之間在物理成因上的聯(lián)系程度;其次要進(jìn)行統(tǒng)計分析處理,挑選與預(yù)報對象相關(guān)性較為顯著的因子,且各因子之間的相關(guān)性要小,以避免采用重復(fù)的預(yù)報因子。因此,挑選合適的預(yù)報因子對提高水文預(yù)報精度具有重大意義。趙銅鐵剛[5]采用互信息方法確定預(yù)報因子,王思如[6]應(yīng)用單相關(guān)系數(shù)法和相關(guān)概率法確定預(yù)報因子,農(nóng)吉夫[7]采用主成分分析方法確定BP神經(jīng)網(wǎng)絡(luò)模型預(yù)報因子,為預(yù)報因子選擇提供了方法基礎(chǔ)。主成分分析方法能對所有與徑流量相關(guān)的預(yù)報因子進(jìn)行處理,朱永飛[8]采用主成分分析方法進(jìn)行洪災(zāi)損失影響因子的評估可以減少統(tǒng)計分析的工作量,同時又可以全面的考慮相關(guān)預(yù)報因子的影響。因此,本文通過引入主成分分析的方法對預(yù)報因子進(jìn)行重新組合,選取滿足貢獻(xiàn)率的主成分,根據(jù)模型內(nèi)部結(jié)構(gòu)特點(diǎn),將主成分輸入多元線性回歸、BP神經(jīng)網(wǎng)絡(luò)和Elman神經(jīng)網(wǎng)絡(luò)模型,以更全面準(zhǔn)確地進(jìn)行中長期水文預(yù)報。
柘溪水庫位于湖南省中部資水流域中游,距安化縣東平市12.5 km,水庫控制流域面積22 640 km2。柘溪流域?qū)贃|亞季風(fēng)熱帶暖濕氣候,夏季炎熱多雨,冬季寒冷干燥,降雨主要集中在4月~6月,60%的雨季結(jié)束于6月下旬至7月上旬,流域年平均降雨量約1 400 mm。柘溪水庫多年平均入流586 m3/s,實際運(yùn)行正常蓄水位為169.5 m,相應(yīng)庫容30.2億m3,調(diào)節(jié)庫容22.58億m3,死水位144 m,死庫容7.62億m3。
由于流域中長期歷史資料匱乏,降雨資料缺測、漏測時間長,實測徑流資料誤差大,因而大大增加了中長期預(yù)報的難度;同時流域非汛期基流量少,流量時空分布不均,這些特點(diǎn)很容易加大預(yù)報相對誤差;此外,柘溪水庫沒有完整的調(diào)度規(guī)程,汛期流量受人為、天氣因素影響較大,難以進(jìn)行準(zhǔn)確的中長期預(yù)報。因此,開發(fā)滿足柘溪水庫和相關(guān)生產(chǎn)部門所需精度要求的柘溪水庫中長期水文預(yù)報模型面臨很大的挑戰(zhàn)。
本文采用主成分分析法進(jìn)行中長期預(yù)報模型水文預(yù)報因子的選擇,將重新組合的預(yù)報因子應(yīng)用于多元線性回歸、BP神經(jīng)網(wǎng)絡(luò)模型、Elman神經(jīng)網(wǎng)絡(luò)模型。
2.1 主成分分析原理
主成分分析(Principal Component Analysis,PCA)是研究多個變量間相關(guān)性的一種多元統(tǒng)計方法,通過少數(shù)幾個主分量(原始變量的線性組合)解析多變量的方差,即導(dǎo)出少數(shù)幾個主分量,使他們盡可能完整地保留原始變量的信息,且彼此不相關(guān),以達(dá)到簡化數(shù)據(jù)和降維的目的。
設(shè)初始的變量指標(biāo)為X1,X2,…,Xp,新的綜合指標(biāo)為Z1,Z2,…,Zm(m≤p),則主成分分析原理[6]可表示為
(1)
式中,Z1,Z2,…,Zm為X1,X2,…,Xp所對應(yīng)的m個主成分;系數(shù)l矩陣L為載荷矩陣。其中,Zi與Zj(i≠j)相互無關(guān);Z1為X1,X2,…,Xp的線性組合且在所有線性組合中方差最大,Z2為與Z1不相關(guān)的X1,X2,…,Xp的線性組合且在所有線性組合中方差最大,以此類推。
2.2 多元線性回歸模型
對多元線性回歸方程的建立方法為:假如經(jīng)過分析,已經(jīng)挑選到k個預(yù)報因子X1,X2,…,Xk,要求通過回歸分析,建立這些因子與預(yù)報對象y的關(guān)系[1],其數(shù)學(xué)模型
(2)
2.3 BP神經(jīng)網(wǎng)絡(luò)模型
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)[2]。BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層(input)、隱層(hide layer)和輸出層(output layer)(見圖1)。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
BP算法由數(shù)據(jù)流的前向計算(正向傳播)和誤差信號的反向傳播兩個過程構(gòu)成。正向傳播時,傳播方向為輸入層→隱層→輸出層,每層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元。若在輸出層得不到期望的輸出,則轉(zhuǎn)向誤差信號的反向傳播流程。通過這兩個過程的交替進(jìn)行,在權(quán)向量空間執(zhí)行誤差函數(shù)梯度下降策略,動態(tài)迭代搜索一組權(quán)向量,使網(wǎng)絡(luò)誤差函數(shù)達(dá)到最小值,從而完成信息提取和記憶過程。
表1 柘溪率定期模擬結(jié)果統(tǒng)計 %
2.4 Elman神經(jīng)網(wǎng)絡(luò)模型
Elman神經(jīng)網(wǎng)絡(luò)是一種典型的局部回歸網(wǎng)絡(luò)[4](global feed forward local recurrent)。Elman網(wǎng)絡(luò)可以看作是一個具有局部記憶單元和局部反饋連接的前向神經(jīng)網(wǎng)絡(luò)。Elman神經(jīng)網(wǎng)絡(luò)一般分為四層:輸入層、中間層(隱含層)、承接層和輸出層,模型的特點(diǎn)是隱含層的輸出通過承接層的延遲與存儲,自聯(lián)到隱含層的輸入,這種自聯(lián)方式使其對歷史狀態(tài)的數(shù)據(jù)具有敏感性,內(nèi)部反饋網(wǎng)絡(luò)的加入增加了網(wǎng)絡(luò)本身處理動態(tài)信息的能力,從而達(dá)到了動態(tài)建模的目的。Elman神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法采用的是優(yōu)化的梯度下降算法,即自適應(yīng)學(xué)習(xí)速率動量梯度下降反向傳播算法,它既能提高網(wǎng)絡(luò)的訓(xùn)練速率,又能有效抑制網(wǎng)絡(luò)陷入局部極小點(diǎn)。
選擇柘溪斷面1980年~2012年共33a的流量和降雨數(shù)據(jù)作為訓(xùn)練樣本,預(yù)報因子包括:前5年同期流量,前2年的年平均流量,前2年的所在月平均流量,前3旬的流量,前1年的年降雨量。經(jīng)過主成分分析進(jìn)行組合后的模型輸入預(yù)報因子個數(shù),一般情況下為7個或8個預(yù)報因子。月尺度和季節(jié)尺度,汛期尺度,年尺度是在相應(yīng)旬尺度的基礎(chǔ)上進(jìn)行統(tǒng)計計算得到。
采用的BP和Elman神經(jīng)網(wǎng)絡(luò)模型輸入層、隱含層和輸出層神經(jīng)元個數(shù)分別為t、7和1個,t為輸入層神經(jīng)元個數(shù),是根據(jù)PCA進(jìn)行預(yù)報因子組合取滿足85%貢獻(xiàn)率的主成分個數(shù),視各旬的具體情況而不同。BP神經(jīng)網(wǎng)絡(luò)模型激活函數(shù)采用Sigmoid函數(shù),規(guī)定的期望誤差為0.05,最多迭代次數(shù)為3 000次,學(xué)習(xí)效率定為0.3。Elman神經(jīng)網(wǎng)絡(luò)模型、學(xué)習(xí)率0.48,最小誤差0.001,迭代次數(shù)3 000次。檢驗期為2013年~2015年9月,表1為多元線性回歸模型、BP神經(jīng)網(wǎng)絡(luò)模型、Elman神經(jīng)網(wǎng)絡(luò)模型模擬預(yù)報結(jié)果。
3.1 三種模型預(yù)報年平均徑流相對誤差對比分析
年平均徑流的預(yù)報結(jié)果受徑流年際變化,氣候和人為因素影響較大,如2014年柘溪流域降雨量偏大導(dǎo)致徑流量增大,各預(yù)報模型的預(yù)報誤差均較大。另外,柘溪流域歷史實測資料較短,水文預(yù)報模型模擬的樣本數(shù)較少,給模型預(yù)報也帶來一定程度的困難。綜合表1和表2的預(yù)報結(jié)果,多元線性回歸模型率定期模擬結(jié)果稍差,檢驗期相對誤差在10%左右,預(yù)報結(jié)果很好,基本能夠達(dá)到模型預(yù)報精度要求。BP神經(jīng)網(wǎng)絡(luò)模型模擬和預(yù)報效果都較好,能夠滿足預(yù)報精度要求。Elman神經(jīng)網(wǎng)絡(luò)模型預(yù)報與模擬的相對誤差是一致的,預(yù)報效果較好,模型能夠精確預(yù)報年平均流量。
3.2 三種模型預(yù)報汛期流量相對誤差對比分析
柘溪流域汛期降雨受大氣環(huán)流和季風(fēng)影響較為顯著,降雨在時間和空間上的差異性較大,除此之外,汛期流域水庫的發(fā)電防洪調(diào)度都是水文預(yù)報誤差存在的原因。多元線性回歸模型預(yù)報相對誤差最高為25.6%,最低為21%;BP神經(jīng)網(wǎng)絡(luò)模型和Elman神經(jīng)網(wǎng)絡(luò)模型汛期預(yù)報效果都在20%以下;考慮柘溪斷面現(xiàn)有實測資料的精確度和資料長度有限,以及汛期流量波動大等因素,說明預(yù)報效果較好,三種模型都能夠滿足預(yù)報精度要求(見表2)。
表2 2013年~2015年柘溪檢驗期相對誤差統(tǒng)計 %
3.3 三種模型預(yù)報季節(jié)平均流量相對誤差對比分析
柘溪流域?qū)贃|亞季風(fēng)氣候,降水有明顯的季節(jié)變化,夏秋季節(jié)降水多且年際流量波動較大,預(yù)報模型的誤差稍大,秋冬季節(jié)降水量較穩(wěn)定,預(yù)報效果較好。多元線性回歸模型相對誤差較大;BP神經(jīng)網(wǎng)絡(luò)模型和Elman神經(jīng)網(wǎng)絡(luò)模型2013年、2014年和2015年正常季節(jié)預(yù)報效果都在20%以下,預(yù)報效果較好。2013年夏季和2015年春季預(yù)報效果次于其他季節(jié)。這是因為2013年夏季和2015年春季流量偏小,難以通過歷史資料的統(tǒng)計規(guī)律進(jìn)行預(yù)報。總體而言,春冬季節(jié)預(yù)報效果較好,夏秋因為年際流量波動較大,預(yù)報效果略次于春冬兩季;整體來看除了異常年份以外,預(yù)報效果滿足精度要求。
3.4 三種模型預(yù)報月徑流相對誤差對比分析
預(yù)報月徑流時,多元線性回歸模型模擬結(jié)果的平均相對誤差在20%~30%;BP神經(jīng)網(wǎng)絡(luò)模型平均相對誤差除7月和11月以外都小于25%,最小為6.7%,模型將大部分月份的徑流預(yù)報相對誤差控制在20%以內(nèi);Elman神經(jīng)網(wǎng)絡(luò)模型將大部分月份的徑流預(yù)報相對誤差控制在25%以內(nèi)。
多元線性回歸模型除汛期個別月份效果偏差稍大外,大部分月份預(yù)報結(jié)果相對誤差穩(wěn)定在30%左右,比其他兩種模型要大。柘溪4月份模擬結(jié)果見圖2,對比實測與模擬結(jié)果來看,模擬結(jié)果的總體趨勢是一致的,但部分年份相對誤差偏大。以7月份訓(xùn)練樣本的實測值和預(yù)報值為例,BP神經(jīng)網(wǎng)絡(luò)模型和Elman神經(jīng)網(wǎng)絡(luò)模型模擬結(jié)果(見圖3和圖4)都能夠達(dá)到精度要求。由圖2~4可知,模擬值與實測流量的趨勢一致,模擬效果很好,可以用于作業(yè)預(yù)報。由于汛期流量受天氣因素、人為調(diào)控等的影響很大,因此流量波動幅度大,難以通過歷史資料的統(tǒng)計規(guī)律進(jìn)行預(yù)報,所以汛期各月預(yù)報效果稍差于其他月份,但仍然可以作為水庫調(diào)度的參考依據(jù)。
圖2 多元線性回歸模型柘溪4月份樣本模擬結(jié)果
圖3 BP神經(jīng)網(wǎng)絡(luò)模型柘溪7月份樣本模擬結(jié)果
圖4 Elman神經(jīng)網(wǎng)絡(luò)模型柘溪7月份樣本模擬結(jié)果
本文采用主成分分析方法處理預(yù)報因子,應(yīng)用多元線性回歸模型、BP神經(jīng)網(wǎng)絡(luò)模型和Elman神經(jīng)網(wǎng)絡(luò)模型進(jìn)行柘溪水庫旬尺度的中長期水文預(yù)報,并統(tǒng)計計算年、汛期、季節(jié)和月尺度的預(yù)報結(jié)果。結(jié)果表明,三種模型可以準(zhǔn)確預(yù)報柘溪水庫中長期徑流,可以應(yīng)用于工程實際。對比三種模型預(yù)報結(jié)果得出如下結(jié)論:
(1)限于原始輸入資料的匱乏,模型預(yù)報因子的選取范圍受到較大限制。經(jīng)過對預(yù)報因子的多次篩選,得到最優(yōu)的對應(yīng)于不同旬的預(yù)報因子。通過對三種模型預(yù)報結(jié)果的分析可知,采用主成分分析方法選取預(yù)報因子的方法適應(yīng)于柘溪水庫中長期預(yù)報。
(2)三種模型均能精確預(yù)報年和汛期平均徑流量。對比季節(jié)尺度預(yù)報結(jié)果,夏秋季預(yù)報效果略差于春冬季節(jié)。月份平均流量預(yù)報則與月平均流量波動劇烈程度有關(guān),夏季月份模擬和預(yù)報效果相對較差。
(3)對比三種模型預(yù)報結(jié)果,BP神經(jīng)網(wǎng)絡(luò)和Elman神經(jīng)網(wǎng)絡(luò)在年、汛期、季節(jié)和月尺度的預(yù)報效果要優(yōu)于多元線性回歸模型。這說明神經(jīng)網(wǎng)絡(luò)模型不僅簡化了徑流預(yù)報過程,而且預(yù)報精度較高,可用來解決實際工程應(yīng)用中非線性水文問題。此外,Elman神經(jīng)網(wǎng)絡(luò)模型預(yù)報效果較BP神經(jīng)網(wǎng)路模型預(yù)報精度更高,這說明Elman模型在結(jié)構(gòu)上承接層的設(shè)置加強(qiáng)了模型對動態(tài)信息的處理能力。多元線性回歸模型在平水年的預(yù)報效果較好,能夠?qū)﹁舷饔蚋闪鲾嗝嬷虚L期徑流預(yù)報進(jìn)行作業(yè)預(yù)報,具有流域適用性與工程實用性;建議參考其他中長期預(yù)報模型的預(yù)報結(jié)果進(jìn)行綜合使用。
[1]孫冰心, 劉琦, 金立衛(wèi). 采用多元線性回歸分析法預(yù)報東寧站年最大流量[J]. 黑龍江水利科技, 2014(10): 51- 53.
[2]吳超羽, 張文. 水文預(yù)報的人工神經(jīng)網(wǎng)絡(luò)方法[J]. 中山大學(xué)學(xué)報: 自然科學(xué)版, 1994(1): 79- 90.
[3]丁晶, 鄧育仁, 安雪松. 人工神經(jīng)前饋(BP)網(wǎng)絡(luò)模型用作過渡期徑流預(yù)測的探索[J]. 水電站設(shè)計, 1997(2): 70- 75.
[4]屈亞玲, 周建中, 劉芳, 等. 基于改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)的中長期徑流預(yù)報[J]. 水文, 2006(1): 45- 50.
[5]農(nóng)吉夫, 黃文寧. 基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)長期預(yù)報模型[J]. 廣西師范學(xué)院學(xué)報: 自然科學(xué)版, 2008(4): 46- 51.
[6]朱永飛. 基于主成分分析的洪災(zāi)損失影響因子評估[J]. 長江科學(xué)院院報, 2015(5): 53- 56.
[7]王思如, 陶鳳玲, 李若東, 等. 水文預(yù)報因子選擇中兩種不同方法的對比分析[J]. 水電能源科學(xué), 2012(11): 18- 20.
[8]趙銅鐵鋼, 楊大文. 神經(jīng)網(wǎng)絡(luò)徑流預(yù)報模型中基于互信息的預(yù)報因子選擇方法[J]. 水力發(fā)電學(xué)報, 2011, 30(1): 24- 30.
[9]王日蓮, 董曼玲. 人工神經(jīng)網(wǎng)絡(luò)在水文預(yù)報中的應(yīng)用[J]. 水利水電科技進(jìn)展, 2002(5): 33- 34.
(責(zé)任編輯 陳 萍)
Application of Three Kinds of Medium and Long Term Hydrological Forecast Models in Zhexi Reservoir Based on Principal Component Analysis
LI Wei1,2, ZHOU Jianzhong1,2, YE Lei1,2, LU Weiwei1,2, YAO Xiangyu3
(1. College of Hydropower & Information Engineering, Huazhong University of Science & Technology, Wuhan 430074, Hubei, China; 2. Hubei Key Laboratory of Digital Valley Science and Technology,Huazhong University of Science and Technology, Wuhan 430074, Hubei, China; 3. China Northwest Architecture Design and Research Institute Co., Ltd., Xi’an 710018, Shaanxi, China)
Based on the history runoff data of Zhexi Reservoir, a total of 33 years of rainfall and flow data in a period of ten days from 1980 to 2012 are selected and treated by principal component analysis as the inputs of multiple linear regression model, BP neural network model and Elman neural network model respectively to calibrate model parameters. The samples are then simulated, and the absolute error and relative error of simulations are counted. And at the same time, the annual, flood, seasonal and monthly scale runoffs in 2013, 2014 and 2015 at Zhexi Reservoir are forecasted respectively, and the forecast results can be accurate to the scale of ten days. The forecast results of three models are comparatively analyzed and the application of each model in the long term hydrological forecasting of Zhexi Basin is finally determined.
multiple linear regression; BP neural network; Elman neural network; medium and long term runoff forecast; principal component analysis; Zhexi Reservoir
2016- 02- 17
國家自然科學(xué)基金重點(diǎn)項目(51239004);國家自然科學(xué)基金資助項目(51309105)
李薇(1987—),女,河南澠池人,博士研究生,主要從事水文預(yù)報研究;周建中(通訊作者).
P338.2
A
0559- 9342(2016)09- 0017- 05