伍小鐵
(湖南省新田水文站 郴州市 425700)
李正最
(湖南省水文水資源勘測局 長沙市 410007)
洞庭湖是長江中游典型的吞吐型調(diào)蓄湖泊,隨著三峽工程的建設與運行,其防洪功能已顯著提高[1,2],但與此同時其徑流與輸沙量關系也發(fā)生了很大變化[3,4]。為了探明洞庭湖水沙出入湖量變化和相互關系,選擇合適的模擬方法非常重要。目前投影尋蹤回歸(PPR)[5,6]和支持向量機(SVM)模型[7,8]均已成功運用到多個專業(yè)領域,但很少有人將這兩種模型進行比較。本文根據(jù)洞庭湖的系列實測水文資料,將洞庭湖徑流與輸沙量關系看作是一種多路水沙交互作用的復雜的小樣本和非線性問題,基于PPR 和SVM 模型對洞庭湖徑流與輸沙量關系進行了模擬與驗證,并對模擬誤差進行了對比。
投影尋蹤是用于分析和處理非正態(tài)、非線性數(shù)據(jù)的一種新方法,其基本思想是:利用計算機技術,把高維數(shù)據(jù)通過某種組合投影到低維子空間上,并通過極小化某個投影指標,尋找出能反映原數(shù)據(jù)結構或特征的投影,以達到研究和分析高維數(shù)據(jù)的目的。投影尋蹤回歸模型如下:
設y=f(X)和X=(x1,x2,…,xp)分別為一維和p維隨機變量,為了客觀反映高維非線性數(shù)據(jù)結構特征,投影尋蹤回歸采用一系列嶺函數(shù)的“和”去逼近回歸函數(shù),即:
式中:Gm(Zm)為第m 個嶺函數(shù);M 為嶺函數(shù)的個數(shù);Zm=aTmX 為嶺函數(shù)的自變量,它是p 維隨機變量X 在am方向上的投影;am為投影方向。
投影尋蹤回歸模型仍然采用最小二乘法作為極小化判別準則,即以式(1)中的參數(shù)amj、Gm和嶺函數(shù)個數(shù)M 的適當組合,使下式
達到極小。
當前,建立投影尋蹤回歸模型一般均采用Friedman 和Stuetzle 提出的多重平滑回歸技術方法。設非線性系統(tǒng)的數(shù)學模型為:
式中:r 為多項式的階數(shù),C 為多項式系數(shù),hm表示正交的契比雪夫多項式,采用遞推形式計算:
根據(jù)樣本值估計式(2)中的參數(shù),確定回歸函數(shù)f(X)進行回歸預測。對于式(1)中的非線性系統(tǒng)模型,實現(xiàn)投影尋蹤回歸的步驟如下:
step1:確定嶺函數(shù)的個數(shù)M。
step2:選擇M 個彼此正交的投影方向a1,a2,…,aM,建立初步回歸模型:
step3:分組優(yōu)化。即將amj(j=1,2,…,p)和Gm[即hmi(i=0,1,…,r)]劃為一組,m=1,2,…,M,共有M組。除去其中一組外,對另外的M-1 組用step2 中得到的值作為初值,對留下的一組參數(shù)尋優(yōu)。求得結果后。把這一組參數(shù)的極值點作為初值,另選一組參數(shù)尋優(yōu),反復多次直到最后選取的一組參數(shù)值,使式(1)不再減小為止。
step4:參數(shù)處理,并輸出回歸模型:
支持向量機的基本思想是用少數(shù)支持向量代表整個樣本集,本質(zhì)上是通過某一事先選擇好的非線性函數(shù)φ(·)將訓練集數(shù)據(jù)X 映射到一個高維線性特征空間H,在這個維數(shù)可能為無窮大的線性空間中按結構風險最小化原理構造最優(yōu)分類面。并利用原空間的核函數(shù)取代了高維特征空間ω 和Φ(x)的點積運算,從而避免了復雜的點積計算。對于給定的樣本數(shù)據(jù)集{(xi,yi)|i=1,2,…,l} ,其中xi為輸入值,yi為預測值。要求擬合的函數(shù)形式為:
根據(jù)結構風險化最小原則即要尋求最優(yōu)回歸超平面使:
式中:C 為調(diào)節(jié)訓練誤差和模型復雜度之間折中的正則化常數(shù); ε 為不靈敏損失函數(shù)。則支持向量機的回歸問題就等價于解決一個二次規(guī)劃問題。最優(yōu)化問題為:
SVM 用來估計回歸函數(shù)時,常分為線性和非線性擬合回歸兩類。由上式可求得線性回歸函數(shù)為:
對于非線性的情況,引入核函數(shù)即可。此時求得的是非線性回歸函數(shù)為:
其中K(x,xi)=φ(x)φ(xi)稱為核函數(shù)。核函數(shù)的選擇必須滿足Mercer 條件,常見的核函數(shù)有:
(1)多項式核函數(shù)。
此時的SVM 是一個σ 階多項式分類器。
(2)徑向基函數(shù)。
此時的SVM 是一種徑向集函數(shù)分類器。
(3)Sigmoid 核函數(shù)。
此時的SVM 是一個單隱層感知器神經(jīng)網(wǎng)絡。
目前最常見的支持向量機是Suykens J.A.K 于1999年提出了最小二乘支持向量機,采用二次規(guī)劃方法代替?zhèn)鹘y(tǒng)的支持向量機來解決函數(shù)估計問題。最小二乘支持向量機在利用結構風險原則時,在優(yōu)化目標中選取了不同的損失函數(shù)。核函數(shù)參數(shù)σ 和最小二乘支持向量機參數(shù)的取值對模型的推廣預測能力有很大的影響,若取值不當,均會增大模型誤差,其取值通常是采用試算法或經(jīng)驗法,本文采用混沌優(yōu)化算法對峰值識別最小二乘支持向量機模型的參數(shù)σ、C 進行優(yōu)化選取。
洞庭湖位于湖南北部、長江荊江南岸,跨越湘鄂兩省。北面有松滋、太平、藕池和調(diào)弦口(于1958年封堵),分瀉長江水沙,南有湘、資、沅、澧四水匯入,周邊汩羅江、新墻河等中小河流直接入湖,經(jīng)洞庭湖調(diào)蓄,于城陵磯匯入長江,是長江中下游重要的調(diào)蓄型湖泊,對分瀉荊江洪水和保障下游徑流供給起著十分顯著的作用,洞庭湖河網(wǎng)水系結構見圖1。新中國成立以來,長江中游河段經(jīng)歷了調(diào)弦口封堵、下荊江系統(tǒng)裁彎取直、葛洲壩和三峽水庫建成發(fā)電等;湖南省湘、資、沅、澧四水流域包括柘溪、五強溪等干流骨干性工程在內(nèi)的13 000 多座各種水利工程和水土保持工程,但是一些工程并沒有取得預期效果,如下荊江裁彎工程等[9]。
本研究的水文泥沙數(shù)據(jù)來源于洞庭湖區(qū)水文年鑒和主要水文站監(jiān)測資料。
圖1 洞庭湖區(qū)河網(wǎng)水系結構
洞庭湖水沙系統(tǒng)具有十分明顯的非線性特征,因此在建模的具體手段上分別選用投影尋蹤回歸和支持向量機兩種方法。用1956~2004年洞庭湖區(qū)水沙序列進行模型擬合,以2005~2008年洞庭湖區(qū)水沙序列進行模型檢驗。洞庭湖出口城陵磯站的徑流量和輸沙量可簡單地表述為以下非線性結構,即:
式中:Qd為城陵磯出口斷面的徑流量;Sd為城陵磯出口斷面的泥沙;Qu為四水入流量;Su為四水來沙量;Qλ為三口分流量;Sλ三口分沙量,q 為區(qū)間產(chǎn)水量;V 為洞庭湖調(diào)蓄量;X地形為洞庭湖區(qū)地形特性;φ(·)為水量交換作用函數(shù),Ψ(·)為水沙交互作用函數(shù)。
由于洞庭湖區(qū)域水下地形變化較大,加之城陵磯以上區(qū)域尚有3.96×104km2無水文站網(wǎng)控制,區(qū)間產(chǎn)水產(chǎn)沙量尚存在很大的不確定性。因此在建模時不宜直接涉及區(qū)間產(chǎn)流產(chǎn)沙和調(diào)蓄變化的計算。綜合考慮洞庭湖河網(wǎng)結構的特點和水文資料獲取的可能性,水沙交互模型的具體輸入輸出處理如下:
(1)以荊江三口新江口、沙道觀、彌砣寺、管家鋪、康家崗5 個水文站和湘、資、沅、澧四水的湘潭、桃江、桃源、石門4 個控制站的徑流作為系統(tǒng)輸入,以城陵磯站徑流作為系統(tǒng)輸出,建立洞庭湖水量交換模型;
(2)以荊江三口新江口、沙道觀、彌砣寺、管家鋪、康家崗5 個水文站和湘、資、沅、澧四水的湘潭、桃江、桃源、石門4 個控制站的徑流和泥沙,以及洞庭湖水量交換模型的輸出作為系統(tǒng)輸入,以城陵磯站泥沙作為系統(tǒng)輸出,建立洞庭湖水沙交互模型。
按照建模序列和檢驗序列,分別統(tǒng)計兩種模型的最大誤差和絕對平均誤差。因檢驗序列過短不宜獨立計算誤差標準差,故按建模序列和檢驗序列合并計算。主要誤差指標計算公式如下:
式中:ei為第i 個樣本的擬合(預報)誤差;yi為第i 個樣本實測值;yi為第i 個樣本擬合或預測值;emax為最大擬合或預報誤差;max(·)為取大運算符;ABS(·)為絕對值運算符;emean為平均絕對誤差;Se為誤差標準差;n 為樣本總數(shù)。
對上述建立的二種模型分別進行回顧檢驗和外推預報,以式(17)計算相對誤差,誤差分布情況見圖2。對于所建立的二種模型,用城陵磯站年徑流和年輸沙量按式(17)~(20)統(tǒng)計誤差,計算結果見圖3。
圖2 洞庭湖徑流與輸沙量關系模型擬合與檢驗誤差分布
圖3 洞庭湖徑流與輸沙量關系擬合與檢驗誤差統(tǒng)計
從圖2 和圖3 可以看出,所建立的兩種模型均具備一定的復雜系統(tǒng)仿真能力。而就模型的類別而言,以SVM 模型的精度較高,PPR 略低;就模型的輸出物理量而言,兩種模型的徑流量模擬輸出精度均高于輸沙量,說明江湖水沙演化中輸沙量的影響因素更為廣泛,演化機制更為復雜,非線性特征更為顯著;就模型的推廣和泛化能力而言,PPR 檢驗序列精度對建模序列精度有所下降,SVM 檢驗序列精度基本與建模序列相匹配,沒有表現(xiàn)出明顯的下降趨勢??梢奡VM 的有效性和可信性較好,其系統(tǒng)數(shù)據(jù)與模型數(shù)據(jù)之間具有較好的一致性,因而其對復雜水網(wǎng)水沙交互作用的擬合和推廣能力較強。因此,運用SVM 模型模擬計算的洞庭湖水沙出入湖量和區(qū)域泥沙淤積情況,可供江湖治理決策參考。
本文利用洞庭湖近50年來的水文觀測資料,基于投影尋蹤回歸和支持向量機分別建立了洞庭湖徑流與輸沙量兩種非線性仿真模型,得到以下結論:
(1)通過兩種模型的誤差比較,SVM 模型的精度較高,說明SVM 模擬和預測的結果與實測值吻合度高,試用、可操作性強,為復雜水網(wǎng)區(qū)的水沙分析提供了一種新方法。
(2)支持向量機的推廣性能與模型的參數(shù)選擇有很大關系。因此,如何根據(jù)訓練樣本選擇合適的模型參數(shù),以保證建立好的模型有很好的推廣性能,成為設計支持向量機關鍵一步。
(3)通過模擬可以看出,兩種模型中洞庭湖的徑流量輸出精度均高于輸沙量,說明洞庭湖輸沙量變化涉及因素更多,而不僅僅與徑流量有關。影響輸沙量因素,有待進一步研究。
[1] 穆錦斌,張小峰. 荊江-洞庭湖水沙變化影響分析[J]. 水利水運工程學報,2011,(1): 84-91.
[2] 李景保,代勇,歐朝敏,等. 長江三峽水庫蓄水運用對洞庭湖水沙特性的影響[J]. 水土保持學報,2011,25(3): 215-219.
[3] 馬元旭,來紅州. 荊江與洞庭湖區(qū)近50年水沙變化的研究[J].水土保持研究,2005,12(4): 103-106.
[4] 毛北平,梅軍亞,張金輝,等. 洞庭湖三口洪道水沙輸移變化分析[J]. 人民長江,2010,(2): 38-42.
[5] FRIEDMAN,J.H.,TUKEY,J.W. A projection pursuit algorithm or exploratory data analysis [J]. IEEE Transactions on Computer,1974,23(9): 881-890.
[6] 王順久,侯玉,張欣莉,等. 流域水資源承載能力的綜合評價方法[J]. 水利學報,2003,(1): 88-92.
[7] VAPNIK,V.N. The nature of statistic learning theory[M].New York:Spring Verlag,1995.
[8] 李正最,謝悅波. 基于支持向量機的洞庭湖區(qū)域水沙模擬[J]. 水文,2010,30(2): 44-49.
[9] 潘慶燊. 下荊江人工裁彎30年[J]. 人民長江,2001,32(5):27-29.