王文川 劉惠敏 雷冠軍 劉寬 邱林
摘要:年最大洪峰流量預(yù)測(cè),受較多的復(fù)雜因素的影響,不確定性較強(qiáng),用常規(guī)統(tǒng)計(jì)方法做出準(zhǔn)確預(yù)報(bào)具有較大困難。從水文序列本身出發(fā),提出將投影回歸模型應(yīng)用于年最大洪峰流量預(yù)測(cè),為了更好獲得投影尋蹤模型參數(shù)和預(yù)測(cè)精度,提出了運(yùn)用延遲相關(guān)系數(shù)法確定回歸預(yù)測(cè)因子、群居蜘蛛算法優(yōu)化投影尋蹤模型最佳投影方向參數(shù)n、利用最小二乘法確定多項(xiàng)式的權(quán)系數(shù)c、嶺函數(shù)個(gè)數(shù)M的群居蜘蛛優(yōu)化投影尋蹤年最大洪峰流量預(yù)測(cè)模型,結(jié)合長(zhǎng)江宜昌站(1882年-2004年)的年最大洪峰流量資料進(jìn)行實(shí)例預(yù)測(cè),訓(xùn)練階段平均絕對(duì)相對(duì)誤差為8.61%,預(yù)測(cè)階段平均絕對(duì)相對(duì)誤差為10.5 1%,該模型預(yù)測(cè)效果較好,模型結(jié)果穩(wěn)定,可有效應(yīng)用于年最大洪峰流量預(yù)測(cè)。
關(guān)鍵詞:SSO算法;參數(shù)投影尋蹤;混合智能;年最大洪峰流量;預(yù)測(cè)
中圖分類(lèi)號(hào):TV 124 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-1683(2017)02-0009-06
鑒于年最大洪峰流量在防洪渡汛工作中具有重要作用,所以其預(yù)測(cè)是中長(zhǎng)期水文預(yù)報(bào)的重點(diǎn)。但由于其涉及較大的時(shí)空尺度范圍,并受到大氣運(yùn)。王渺林在趨勢(shì)分析與周期分析的基礎(chǔ)上對(duì)年最大洪峰流量的演變規(guī)律進(jìn)行研究。金鑫家運(yùn)用小波分析對(duì)水文序列進(jìn)行由粗到細(xì)的分析,分析了年最大洪峰流量的周期和預(yù)報(bào):王文圣等人在小波變換序列的基礎(chǔ)上提出了最近鄰抽樣回歸組合預(yù)報(bào),結(jié)果表明提出的方法好于諧波預(yù)報(bào)法:宋荷花等利用模糊模式識(shí)別模型對(duì)湘江湘潭站年最大洪峰流量進(jìn)行預(yù)報(bào):李紅霞等探討了基于貝葉斯正則化方法的神經(jīng)網(wǎng)絡(luò)年最大洪峰流量預(yù)測(cè)模型:孫樹(shù)青等將統(tǒng)計(jì)相關(guān)性分析與模糊方法相結(jié)合,建立了基于BP神經(jīng)網(wǎng)絡(luò)的最大洪峰流量進(jìn)行預(yù)報(bào)模型,這些工作作為對(duì)最大洪峰流量預(yù)測(cè)建模的有益嘗試,促進(jìn)了其發(fā)展,但人工神經(jīng)網(wǎng)絡(luò)在解決預(yù)報(bào)問(wèn)題方面仍存在網(wǎng)絡(luò)結(jié)構(gòu)選擇困難、全局搜索能力差、易陷入局部最優(yōu)值點(diǎn)且模擬結(jié)果不穩(wěn)定等問(wèn)題,在一定程度上限制了其在實(shí)際生產(chǎn)中的推廣應(yīng)用。趙璀將灰色系統(tǒng)理論運(yùn)用到中長(zhǎng)期水文預(yù)報(bào)中,取得了較好的結(jié)果。張漢雄認(rèn)為年最大洪峰流量序列是一個(gè)純隨機(jī)現(xiàn)象,因而選擇采用馬爾科夫鏈給出預(yù)測(cè)值的大致范圍,但該方法的結(jié)果受序列長(zhǎng)度的影響較明顯。胡致強(qiáng)在自適應(yīng)控制理論發(fā)展的基礎(chǔ)上,運(yùn)用Kalman濾波對(duì)年最大洪峰流量進(jìn)行預(yù)報(bào),如果模型和水文系統(tǒng)不匹配,則會(huì)使預(yù)報(bào)誤差較大。
投影尋蹤將應(yīng)用數(shù)學(xué)、現(xiàn)代統(tǒng)計(jì)與計(jì)算機(jī)技術(shù)相結(jié)合進(jìn)行數(shù)據(jù)處理,在解決樣本數(shù)量少和維數(shù)較大等問(wèn)題時(shí),具有明顯的優(yōu)勢(shì),在評(píng)估、聚類(lèi)分析、洪水預(yù)報(bào)等領(lǐng)域得到了很好的應(yīng)用。
投影尋蹤建模過(guò)程是利用線性投影的多個(gè)多元回歸的線性組合,優(yōu)選投影方向a、多項(xiàng)式系數(shù)c和嶺函數(shù)個(gè)數(shù)M的最優(yōu)組合。根據(jù)niedman和Stu-etzle提出的投影尋蹤技術(shù)多重平滑實(shí)現(xiàn)法,核心是采用多層分組迭代交替優(yōu)化方法,選取m組參數(shù)以及嶺函數(shù)的最優(yōu)項(xiàng)數(shù)目。把參數(shù)分為若干組,選擇其中一組作為參數(shù)尋優(yōu)的對(duì)象,其他組都給定一初值。求得結(jié)果后,把尋優(yōu)所得的參數(shù)極值點(diǎn)作初值,另選一組參數(shù)在這一初值下尋優(yōu),多次反復(fù)尋優(yōu)直到最后的一組參數(shù)使得目標(biāo)函數(shù)達(dá)到最小。
傳統(tǒng)的投影尋蹤方法尋優(yōu)速度較慢,且尋優(yōu)結(jié)果與初始值的設(shè)定有關(guān)。為了更好地尋找模型的參數(shù),文獻(xiàn)分別采用不同的尋優(yōu)算法與投影尋蹤算法相結(jié)合,確定最優(yōu)的參數(shù)組合,以此來(lái)進(jìn)行預(yù)測(cè)。本文提出了通過(guò)延遲相關(guān)系數(shù)法確定回歸預(yù)測(cè)因子、群居蜘蛛算法f Social Spider Optimization,SSO)優(yōu)化投影尋蹤(Projeetion pursuit regres-sion,PPR)模型最佳投影方向參數(shù)a,最小二乘法確定多項(xiàng)式權(quán)系數(shù)c,合格率控制參數(shù)M個(gè)數(shù)相結(jié)合的混合智能投影尋蹤年最大洪峰流量預(yù)測(cè)模型,結(jié)合長(zhǎng)江宜昌站(1882年-2004年)的年最大洪峰流量資料進(jìn)行了實(shí)例分析。
1基于參數(shù)投影尋蹤回歸的年最大洪峰流量建模原理
投影尋蹤回歸法是Friedman和Stuetzle思想是尋找能反映高維數(shù)據(jù)的結(jié)構(gòu)特征的若干個(gè)投影方向,將高維數(shù)據(jù)投影到一維空間,通過(guò)優(yōu)選出的嶺函數(shù)的代數(shù)和去逼近回歸函數(shù),以此構(gòu)造模型。其回歸預(yù)測(cè)建模的原理主要如下。
設(shè)x為p維的預(yù)測(cè)因子,a為p維投影向量,f(x)為預(yù)測(cè)的年最大洪峰流量,為了解決多元線性回歸不能有效反映實(shí)際非線性的問(wèn)題,投影尋蹤回歸模型用一系列的嶺函數(shù)g(aTx)的代數(shù)和去逼近回歸函數(shù)f(x),因此,預(yù)測(cè)量與預(yù)測(cè)因子的投影回歸關(guān)系能被表達(dá)為
(1)式中:M為嶺函數(shù)的個(gè)數(shù);g為嶺函數(shù)。當(dāng)M,g等于1時(shí),式(l)就變?yōu)槌R?guī)的多元函數(shù)。
在Friedman和Stuetzle最初的研究中提出的采用龐大的簡(jiǎn)單函數(shù)集合,通過(guò)分層組迭代交替優(yōu)化技術(shù)去光滑逼近,實(shí)現(xiàn)難度較大,在很大程度上限制了該模型的推廣與應(yīng)用。Hwang等人研究表明Hermite多項(xiàng)式具有較強(qiáng)的光滑、趨勢(shì)、動(dòng)態(tài)、非線性擬合能力,且多項(xiàng)式次數(shù)的增加會(huì)增強(qiáng)起擬合復(fù)雜程度的能力,因此,可采用可變階遞推的正交Hermite多項(xiàng)式擬合一維嶺函數(shù)。則投影回歸關(guān)系式就變?yōu)?/p>
(2)式中:n表示輸入樣本的個(gè)數(shù);zi表示第i個(gè)輸入樣本在投影方向。上的投影,其表示達(dá)式為
(3)
j為多項(xiàng)式的階數(shù);c為多項(xiàng)式的系數(shù);h為正交Hermite多項(xiàng)式,h的數(shù)學(xué)表達(dá)式如下:
(4)式中;j!代表多項(xiàng)式階數(shù)i的階乘;φ(z)=
(5)
由此回歸預(yù)測(cè)建模就可轉(zhuǎn)化為求解式(6)的最小化問(wèn)題。
(6)
(7)
(8)
根據(jù)水文情報(bào)預(yù)報(bào)規(guī)范(GB/T 22482-2008),合格預(yù)報(bào)次數(shù)與預(yù)報(bào)總次數(shù)之比的百分?jǐn)?shù)為合格率QR,其計(jì)算公式為:
(9)式中QR為合格率(%);nh為合格預(yù)報(bào)的次數(shù):n為預(yù)報(bào)的總次數(shù)。
所以,投影尋蹤回歸預(yù)測(cè)的關(guān)鍵就轉(zhuǎn)化為優(yōu)選投影回歸模型的投影方向參數(shù)a、多項(xiàng)式權(quán)系數(shù)c和嶺函數(shù)的個(gè)數(shù)M,參數(shù)優(yōu)選的結(jié)果直接影響模型的泛化能力、模擬及預(yù)測(cè)精度。
2群居蜘蛛優(yōu)化算法
群居蜘蛛優(yōu)化算法(SSO)是由Cuevas等人基于對(duì)群居蜘蛛的協(xié)作行為,提出的一種新的隨機(jī)全局優(yōu)化技術(shù)。群居型蜘蛛是群居性昆蟲(chóng)的典型例子,是群體成員能夠完成一系列復(fù)雜的協(xié)同行為的蜘蛛。在群居蜘蛛群落中,每一個(gè)個(gè)體,由于性別的差異,完成一系列任務(wù)如:捕食、交配、織網(wǎng)和相互交流的任務(wù)。蜘蛛的網(wǎng)是群落重要的一部分,它不僅是全體成員生存環(huán)境的一部分,而且是它們之間的交流渠道。因此重要的信息(例如捕食或者是交配)由網(wǎng)通過(guò)震動(dòng)的形式傳播。這些信息,被當(dāng)作局部的知識(shí),每個(gè)成員利用這些知識(shí)來(lái)指導(dǎo)它們各自的協(xié)作行為,同時(shí)影響了群落的社會(huì)規(guī)范。
群居蜘蛛生物群落有兩個(gè)基本的組成部分:群落成員和公共的網(wǎng)。群落成員被分為兩類(lèi):雌蜘蛛、雄蜘蛛。群居蜘蛛是高度的母系氏種群。一些研究表明雄蜘蛛的數(shù)量差不多達(dá)到全部群落成員數(shù)目的30%。群落成員之間有直接和間接的交流。直接的交流意味著身體接觸或者是體液的交換諸如交配。對(duì)于間接的交流,公共的網(wǎng)作為一個(gè)交流媒介用來(lái)傳達(dá)重要的信息,這些信息每一個(gè)群落成員都能夠感受得到。這些被編碼成震動(dòng)的信息是成員之間集體協(xié)作的一個(gè)關(guān)鍵的方面。群落成員將震動(dòng)解碼成幾條信息諸如被捕獲的動(dòng)物的大小,鄰居成員的特征等等。這種震動(dòng)的強(qiáng)度依賴(lài)于激發(fā)他們的蜘蛛的重量和距離。
它們相互作用的方式是依賴(lài)于蜘蛛的性別的。雌蜘蛛展示了群居式的主要傾向,由于震動(dòng)依賴(lài)于激發(fā)他們的蜘蛛的重量和距離,很強(qiáng)有力的震動(dòng)或者是大蜘蛛激發(fā)的,或者是距離較近的蜘蛛發(fā)出的。與雌蜘蛛不同的是,雄蜘蛛的行為是生殖導(dǎo)向的。雄性蜘蛛將他們自己視為雄性組織的領(lǐng)袖,他們控制著群落的資源。因此,雄性個(gè)體被分為兩類(lèi):優(yōu)勢(shì)者和劣勢(shì)者。優(yōu)勢(shì)的雄性蜘蛛和劣勢(shì)的雄性蜘蛛比起來(lái)有更好的適應(yīng)度。在一個(gè)典型的行為中,優(yōu)勢(shì)蜘蛛被公共網(wǎng)上的最近的雌性蜘蛛所吸引。相反,劣勢(shì)雄性蜘蛛圍繞在優(yōu)勢(shì)雄性群體的周?chē)脙?yōu)勢(shì)雄性種群浪費(fèi)的資源。
交配是一個(gè)重要的生理行為,該行為不僅保證了種群的延續(xù),而且能夠使信息在種群之間交流。群居蜘蛛的交配發(fā)生在優(yōu)勢(shì)雄性蜘蛛和雌性蜘蛛之間。在這種情況下,當(dāng)一個(gè)優(yōu)勢(shì)蜘蛛在一只或是更多的雌性蜘蛛的特定的范圍內(nèi),它們和所有的蜘蛛交配為了產(chǎn)生后代。
作為優(yōu)化技術(shù)其求解優(yōu)化問(wèn)題最小值的步驟可參考文獻(xiàn),在此不再贅述。
3年最大洪峰流量混合智能預(yù)測(cè)建模步驟
根據(jù)前面介紹投影尋蹤回歸建模的原理和群居蜘蛛優(yōu)化算法求解最小值優(yōu)化問(wèn)題的步驟,年最大洪峰流量混合智能預(yù)測(cè)建模的具體步驟如下。
(1)數(shù)據(jù)歸一化。為消除數(shù)據(jù)在量綱和標(biāo)準(zhǔn)差數(shù)值水平上的差異,利用下式對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:
(10)式中:qi表示年最大洪峰流量序列;xi表示歸一化后的流量序列;n表示序列的容量。
(2)確定預(yù)測(cè)因子。利用相關(guān)技術(shù)確定徑流序列的預(yù)測(cè)因子。時(shí)序xi延遲k步的自相關(guān)系數(shù)Rk可通過(guò)下式獲得:
(11)
(12)
(13)則推斷時(shí)序xi延遲k步相依性顯著,將xi-k作為xi的預(yù)測(cè)因子。μα12從正態(tài)分布表中查得,在本文研究中取80%的置信水平。
(3)生成初始投影方向。設(shè)定蜘蛛的種群規(guī)模Ⅳ,按約束條件式(7)生成N組PP模型投影方向a的初始值。
(4)計(jì)算多項(xiàng)式權(quán)系數(shù)c。根據(jù)生成的投影方向,利用式(3)計(jì)算投影值z(mì),利用式(4)計(jì)算r階Hermite多項(xiàng)式hr(z),然后最小二乘法計(jì)算多項(xiàng)式權(quán)系數(shù)c。
(5)計(jì)算相應(yīng)的適應(yīng)度值,評(píng)價(jià)蜘蛛個(gè)體。根據(jù)第4步得到權(quán)系數(shù)c,利用式(2)計(jì)算回歸值,利用式(6)計(jì)算適應(yīng)度值,進(jìn)入群居蜘蛛優(yōu)化算法的步驟2。經(jīng)過(guò)群居蜘蛛優(yōu)化算法一系列的機(jī)制,更新個(gè)體,進(jìn)行迭代計(jì)算,獲得最優(yōu)的投影方向參數(shù)。和多項(xiàng)式權(quán)系數(shù)c,第一個(gè)嶺函數(shù)優(yōu)化結(jié)束。
(6)模型優(yōu)化終止和結(jié)果輸出。根據(jù)優(yōu)選得到的投影方向參數(shù)a和多項(xiàng)式權(quán)系數(shù)c,計(jì)算擬合殘差和合格率,如果滿(mǎn)足合格率終止準(zhǔn)則,輸出預(yù)測(cè)值和相應(yīng)的參數(shù),用εi代替yi,轉(zhuǎn)入(3)進(jìn)行下一個(gè)嶺函數(shù)的優(yōu)化。為了避免程序進(jìn)入死循環(huán),模型優(yōu)化終止準(zhǔn)則采用合格率和最大嶺函數(shù)個(gè)數(shù)相結(jié)合的方式。
4實(shí)例驗(yàn)證
選取長(zhǎng)江宜昌站1882年-2004年共123年的年最大洪峰流量序列{q1|i=1,2.…,123},應(yīng)用前113年(1882年-1994年)訓(xùn)練投影尋蹤混合智能預(yù)測(cè)模型確定模型參數(shù),用后10年(1995年-2004年)的年最大洪峰流量進(jìn)行檢驗(yàn)。通過(guò)計(jì)算計(jì)算該序列前30階自相關(guān)系數(shù)Rk和與之相應(yīng)的上、下限R1k,R2k值,其中置信水平取80%,計(jì)算結(jié)果表明R1,R2,R3,R20,R21,R22,R25,R28,R30的相依性在置信水平80%的條件下是顯著的。所以,對(duì)qi預(yù)測(cè)的因子取為qi-1,qi-2,qi-3,qi-20,qi-21,qi-22,qq-25,qqi-28,qqi-30,則前113年(1882年-1994年)可得到83組訓(xùn)練數(shù)據(jù)。訓(xùn)練過(guò)程,a的取值范圍為[-l,1],Hermite多項(xiàng)式階數(shù)為r=6,群居蜘蛛優(yōu)化算法的種群規(guī)模N=50,最大迭代次數(shù)Gmax為500;嶺函數(shù)的最大個(gè)數(shù)Mmax=3。經(jīng)群居蜘蛛算法和最小二乘方法混合優(yōu)化,得到長(zhǎng)江宜昌站年最大洪峰流量的預(yù)測(cè)模型為
(14)
根據(jù)得到的混合智能投影尋蹤年最大洪峰流量預(yù)測(cè)模型,計(jì)算1995年-2004年的年最大洪峰流量預(yù)測(cè)值。圖1給出了本文提出模型的(1912年-1994年)訓(xùn)練模擬值和(1995年-2004年)預(yù)測(cè)值與宜昌站年最大洪峰流量觀測(cè)值的對(duì)比圖。訓(xùn)練階段和預(yù)測(cè)階段相關(guān)誤差統(tǒng)計(jì)分析結(jié)果見(jiàn)表1。根據(jù)水文情報(bào)預(yù)報(bào)規(guī)范(GB/T 22482-2008),合格率超過(guò)85%的為預(yù)報(bào)等級(jí)為甲等。根據(jù)表1中統(tǒng)計(jì)分析結(jié)果可以看出,在訓(xùn)練階段的合格率為94.0%,在檢驗(yàn)階段的合格率為90%,預(yù)報(bào)等級(jí)為甲等。同時(shí)也可以看出,在訓(xùn)練階段相對(duì)誤差絕對(duì)值在[0,15]區(qū)間內(nèi)的百分比達(dá)84 30%,在[0,10]區(qū)間內(nèi)的百分比達(dá)67.5%:在檢驗(yàn)階段相對(duì)誤差絕對(duì)值在[0,15]區(qū)間內(nèi)的百分比達(dá)70.0%,在[0,10]區(qū)間內(nèi)的百分比達(dá)60%:訓(xùn)練階段的平均絕對(duì)相對(duì)誤差僅有8.61;檢驗(yàn)階段的最大相對(duì)誤差絕對(duì)值為22.44%,最小相對(duì)誤差絕對(duì)值為1.76%,平均絕對(duì)相對(duì)誤差僅有10.51。所以提出混合智能投影尋蹤年最大洪峰流量預(yù)測(cè)模型宜昌站的年最大洪峰流量的模擬預(yù)測(cè)獲得了非常好的效果。
為了測(cè)試預(yù)報(bào)結(jié)果的穩(wěn)定性,在相同的計(jì)算機(jī)系統(tǒng)和環(huán)境下,不改變種群規(guī)模和迭代次數(shù)條件下,運(yùn)行10次,優(yōu)選出的模型參數(shù)沒(méi)有變化,說(shuō)明提出的混合智能投影尋蹤預(yù)測(cè)模型穩(wěn)定性強(qiáng)。
5結(jié)論
對(duì)于年最大洪峰流量預(yù)測(cè),傳統(tǒng)的統(tǒng)計(jì)分析方法很難取得滿(mǎn)意的效果,這從對(duì)其預(yù)測(cè)的文獻(xiàn)檢索也可以印證,其研究成果明顯少于其他中長(zhǎng)期水文預(yù)報(bào)(如年、月徑流量)的預(yù)報(bào)。為此,本文嘗試性地將參數(shù)投影尋蹤模型引入年最大洪峰流量預(yù)報(bào),提出了運(yùn)用延遲相關(guān)系數(shù)法確定回歸預(yù)測(cè)因子、群居蜘蛛算法優(yōu)化投影尋蹤模型參數(shù)的混合智能投影尋蹤年最大洪峰流量預(yù)測(cè)模型。以長(zhǎng)江宜昌站(1882年-2004年)的年最大洪峰流量資料為依據(jù)進(jìn)行了實(shí)例分析,結(jié)果表明,建立模型能獲得很好的精度,檢驗(yàn)階段預(yù)報(bào)合格率達(dá)到90%,明顯高于文獻(xiàn)中用諧波預(yù)報(bào)法所得的檢驗(yàn)階段合格率68.2%以及基于小波變換序列的最近鄰抽樣回歸組合預(yù)報(bào)所得的檢驗(yàn)階段合格率81.8%。同時(shí)提出模型智能化程度高,預(yù)測(cè)因子,模型參數(shù)可以完全有計(jì)算機(jī)完成,且結(jié)果穩(wěn)定性好,可有效應(yīng)用于年最大洪峰流量預(yù)測(cè),值得在實(shí)際中推廣應(yīng)用。