岳兆新,艾 萍,熊傳圣,宋艷紅,洪 敏,于家瑞
(1.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100; 2.南京工業(yè)職業(yè)技術(shù)大學(xué)計(jì)算機(jī)與軟件學(xué)院,江蘇 南京 210023;3.河海大學(xué)水文水資源學(xué)院,江蘇 南京 210098)
水文中長(zhǎng)期預(yù)報(bào)是指基于水文現(xiàn)象演化的客觀規(guī)律,根據(jù)前期和歷史水文、氣象等信息,運(yùn)用成因分析和數(shù)學(xué)建模等方法,對(duì)未來較長(zhǎng)時(shí)間內(nèi)水文情勢(shì)做出定性或定量預(yù)報(bào)[1-2]。及時(shí)、準(zhǔn)確的中長(zhǎng)期水文預(yù)報(bào)可為水資源高效利用、水利工程建設(shè)與運(yùn)行,以及防汛抗旱指揮決策等提供重要的基礎(chǔ)數(shù)據(jù)和科學(xué)的決策依據(jù)。當(dāng)前,中長(zhǎng)期水文預(yù)報(bào)仍然處于探索、發(fā)展階段,預(yù)報(bào)精度還不能滿足各生產(chǎn)部門的實(shí)際需求。中長(zhǎng)期徑流預(yù)測(cè)是中長(zhǎng)期水文預(yù)報(bào)中的一個(gè)重要研究方向,也是水信息學(xué)科研究與應(yīng)用的重要難題之一。
目前,常用的中長(zhǎng)期徑流預(yù)測(cè)方法主要有成因分析方法、統(tǒng)計(jì)學(xué)方法、基于智能算法的預(yù)測(cè)方法和基于數(shù)值天氣預(yù)報(bào)的預(yù)測(cè)方法四大類。其中,成因分析方法[3]和統(tǒng)計(jì)學(xué)方法[4-5]是水文學(xué)科的典型方法,具有一定的適用范疇,但也存在諸多需要研究的問題。比如影響徑流序列長(zhǎng)期變化的物理成因復(fù)雜,難以完全掌握其客觀規(guī)律。而統(tǒng)計(jì)學(xué)方法多以線性方法為主,難以適應(yīng)徑流變化影響要素的復(fù)雜非線性特性,具有一定的局限性?;谥悄芩惴ê蛿?shù)值天氣預(yù)報(bào)的綜合預(yù)測(cè)方法是近些年發(fā)展起來的新方法,是伴隨計(jì)算機(jī)信息技術(shù)的發(fā)展和新數(shù)學(xué)建模方法的涌現(xiàn)而發(fā)展起來的新技術(shù)。前者具有較好的非線性映射、泛化和容錯(cuò)能力,被廣泛應(yīng)用于徑流預(yù)測(cè)領(lǐng)域[6-7];后者則在水文預(yù)報(bào)中耦合一定預(yù)見期內(nèi)的數(shù)值天氣預(yù)報(bào)產(chǎn)品,在探索增長(zhǎng)徑流預(yù)報(bào)預(yù)見期方面,具有一定的研究意義[8]?;谥悄芩惴ǖ闹虚L(zhǎng)期徑流預(yù)測(cè)模型主要根據(jù)輸入輸出變量之間的函數(shù)關(guān)系構(gòu)建基于人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) (support vector machine, SVM)、小波分析等預(yù)測(cè)模型或者綜合采用多個(gè)模型對(duì)未來中長(zhǎng)期徑流進(jìn)行預(yù)測(cè)分析,并取得了諸多成果[9-13]。盡管上述基于智能算法的預(yù)測(cè)模型應(yīng)用廣泛,但模型結(jié)構(gòu)相對(duì)復(fù)雜,參數(shù)在訓(xùn)練過程中需要初始化以及不斷優(yōu)化調(diào)整,效率相對(duì)較低,且 BP神經(jīng)網(wǎng)絡(luò) (backpropagation neural networks, BPNN)采用基于梯度下降的方法,容易陷入局部最小值問題,算法需要多次迭代,因而整體效率不高。極限學(xué)習(xí)機(jī)[14](extreme learning machine, ELM)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),具有參數(shù)設(shè)置簡(jiǎn)單、計(jì)算速度快、誤差小、泛化能力強(qiáng)等優(yōu)點(diǎn),被廣泛應(yīng)用于故障診斷、圖像處理等領(lǐng)域。
此外,影響徑流過程變化的關(guān)鍵因子篩選也是中長(zhǎng)期徑流預(yù)測(cè)需要研究的重要內(nèi)容。因子篩選方法主要包括先驗(yàn)知識(shí)法、相關(guān)系數(shù)法、主成分分析法和信息熵法[15-17]。先驗(yàn)知識(shí)法主要依賴于人工經(jīng)驗(yàn),主觀性較強(qiáng),具有一定的局限性。相關(guān)系數(shù)法和主成分分析法,整體上屬于線性方法,難以適應(yīng)中長(zhǎng)期徑流過程影響因子的復(fù)雜非線性特性,具有一定的適用范圍。信息熵法,尤其是互信息方法忽略了變量分布,適用于備選因子間的線性和非線性相關(guān)關(guān)系。偏互信息方法是在互信息方法基礎(chǔ)上的改進(jìn),可以有效避免對(duì)已入選因子的影響,減少冗余變量,降低計(jì)算復(fù)雜度。
鑒于此,本文提出一種基于信息熵與改進(jìn)極限學(xué)習(xí)機(jī)的中長(zhǎng)期徑流預(yù)測(cè)方法。首先,基于不同水文站點(diǎn)的流域控制面積構(gòu)造徑流綜合指數(shù),在較宏觀層面表征流域水情豐枯變化;其次,采用偏互信息方法計(jì)算影響對(duì)象與徑流綜合指數(shù)之間的相關(guān)性,獲得徑流過程變化的關(guān)鍵因子集,形成預(yù)測(cè)模型的輸入;最后,結(jié)合K折交叉驗(yàn)證與改進(jìn)粒子群算法優(yōu)化ELM參數(shù),構(gòu)建IPSO-ELM(improved particle swarm optimization, IPSO-ELM)模型,用于中長(zhǎng)期徑流預(yù)測(cè)。
粒計(jì)算作為人工智能研究領(lǐng)域中的一種新理念方法,其目的是在問題的求解過程中,用粒度合適的“?!弊鳛樘幚韺?duì)象,從而在保證求得滿意解的前提下,提高解決問題的效率[18]。當(dāng)前中長(zhǎng)期徑流預(yù)測(cè),主要基于流域內(nèi)某些典型站點(diǎn)(單一粒度)的徑流變化來預(yù)測(cè)中長(zhǎng)期徑流變化情勢(shì),并沒有結(jié)合研究區(qū)域內(nèi)多個(gè)水文時(shí)空對(duì)象進(jìn)行多粒度綜合分析,導(dǎo)致復(fù)雜環(huán)境下流域中長(zhǎng)期徑流預(yù)測(cè)的宏觀研判能力不足。因此,本文依據(jù)粒計(jì)算理論,通過研究分析流域中不同水文站點(diǎn)(細(xì)粒度)月平均徑流的一致性,構(gòu)造描述流域月均徑流豐枯情況的流域徑流綜合指數(shù)(粗粒度),在較宏觀的層面研究整個(gè)流域的徑流變化情勢(shì),以提高流域中長(zhǎng)期徑流預(yù)測(cè)的準(zhǔn)確性和可靠性。以此為基礎(chǔ),本文通過研究流域內(nèi)多個(gè)不同水文站點(diǎn)月平均徑流的一致性,構(gòu)造具有多粒度特性的流域徑流綜合指數(shù)(comprehensive runoff index, COM),以表征流域徑流的豐枯情況。為了避免測(cè)站之間的累積影響,更客觀地使用各測(cè)站描述流域徑流豐枯情況,本文在確定所選水文站點(diǎn)的權(quán)重時(shí),采用削減流域下游水文站對(duì)整體指數(shù)的貢獻(xiàn)度原則,基于站點(diǎn)流域控制面積構(gòu)建流域徑流綜合指數(shù)。
假設(shè)流域站點(diǎn)數(shù)量為nS,第i個(gè)水文站的控制面積百分比為Si,第i個(gè)水文站,第j個(gè)月的月平均徑流為cij,則第i個(gè)水文站的權(quán)重wi和第j個(gè)月的徑流綜合指數(shù)cj分別為
(1)
(2)
互信息(mutual information, MI)以信息熵理論為基礎(chǔ),既能夠度量輸入變量與預(yù)測(cè)對(duì)象間的線性和非線性關(guān)系,也能夠度量一個(gè)變量中含有的關(guān)于另一個(gè)變量的信息量[19]。但采用MI對(duì)輸入變量進(jìn)行篩選時(shí),由于輸入變量之間的耦合關(guān)系會(huì)對(duì)MI的計(jì)算結(jié)果產(chǎn)生影響,從而導(dǎo)致誤選或漏選。因此,May等[20-21]提出了偏互信息法(partial mutual information, PMI),通過計(jì)算條件期望消除了變量之間的聯(lián)系,從而保證了變量選擇的可靠性和準(zhǔn)確性。偏互信息定義為
(3)
x′=x-E[x|z]
(4)
y′=y-E[y|z]
(5)
式中:E為期望值;x為備選輸入因子;y為預(yù)測(cè)對(duì)象。
給定N個(gè)離散樣本,偏互信息可采用如下離散形式定義:
(6)
1.3.1極限學(xué)習(xí)機(jī)
假設(shè)給定任意N個(gè)不同樣本(Xi,ti)。其中,Xi=(xi1,xi2,…,xin)T∈Rn,ti=(ti1,ti2,…,tim)T∈Rm,目標(biāo)函數(shù)定義如下:
式中:g(x)為激活函數(shù);Wi為輸入層與隱含層之間的權(quán)重矩陣,Wi=(wi1,wi2,…,win)T;βi為隱含層與輸出層之間的輸出權(quán)重矩陣,βi=(βi1,βi2,…,βim)T;bi為第i個(gè)隱含層神經(jīng)元的偏置;oj為第j個(gè)樣本的網(wǎng)絡(luò)輸出值;C為隱含層神經(jīng)元個(gè)數(shù)。
預(yù)測(cè)值與真實(shí)值誤差最小,可表示為
(8)
也就是存在βi、bi、Wi使得:
用矩陣表示為
Hβ=T
(10)
其中H(W1,…,WC,b1,…,bC,X1,…,XC)=
式中:H為隱層節(jié)點(diǎn)的輸出;β為輸出權(quán)重;T為期望輸出。
1.3.2結(jié)合K折交叉驗(yàn)證與改進(jìn)粒子群的ELM參數(shù)優(yōu)化方法
粒子群 (particle swarm optimization, PSO)算法具有算法簡(jiǎn)單、收斂速度快、可調(diào)參數(shù)少、尋優(yōu)能力強(qiáng)等優(yōu)勢(shì),但是還存在一些不足[22]:隨機(jī)產(chǎn)生初始位置,導(dǎo)致部分粒子位置距離最優(yōu)解較遠(yuǎn),影響了計(jì)算效率;參數(shù)設(shè)定較大時(shí)容易錯(cuò)過最優(yōu)解,導(dǎo)致算法不收斂,或者其他粒子可能錯(cuò)過最優(yōu)解,進(jìn)而影響收斂速度和精度;可能出現(xiàn)“早熟”現(xiàn)象,導(dǎo)致局部極值點(diǎn)的出現(xiàn)。為避免出現(xiàn)上述情形,本文首先對(duì)PSO算法進(jìn)行參數(shù)改進(jìn)和變異操作,再以此為基礎(chǔ),提出結(jié)合K折交叉驗(yàn)證(K-fold cross validation, K-CV)與IPSO的ELM參數(shù)優(yōu)化方法。具體步驟主要包括參數(shù)初始化、IPSO適應(yīng)度函數(shù)選取、個(gè)體極值與群體極值的迭代更新和ELM最優(yōu)參數(shù)生成。具體如下:
步驟1:初始化。給定訓(xùn)練樣本[xi,yi] (xi∈RnIP,nIP為輸入神經(jīng)元個(gè)數(shù),i=1,2,…,NIP,NIP為訓(xùn)練樣本個(gè)數(shù)),確定激勵(lì)函數(shù),并設(shè)置隱含層節(jié)點(diǎn)數(shù)C。初始化Np,IP個(gè)維數(shù)為D的參數(shù)向量tr,g(r=1,2,…,Np,IP),其中任意一維的取值范圍為[-1,1],g表示迭代次數(shù),D=C(nIP+1)。
粒子群種群個(gè)體t由極限學(xué)習(xí)機(jī)的輸入權(quán)值向量a=(a1,a2,…,ac)和隱含層偏置矩陣d組成,t=(a11,a12,…,a1nIP,a21,a22,…,a2nIP,…,ac1,ac2,…,acnIP,d1,d2,…,dc)。對(duì)于每個(gè)種群個(gè)體tr,g,計(jì)算隱含層輸出矩陣H,并計(jì)算輸出權(quán)重β。
步驟2:適應(yīng)度函數(shù)選取。計(jì)算10-CV的均方根誤差作為IPSO的適應(yīng)度,尋找平均均方根誤差最小的個(gè)體。
步驟3:迭代更新。更新位置xi和速度vj,同時(shí)引入變異算子,在粒子更新之前有一定的概率初始化粒子速度和位置,計(jì)算適應(yīng)度值,更新粒子的個(gè)體極值和群體極值。
步驟4:獲得ELM最優(yōu)參數(shù)。判斷是否達(dá)到終止條件(達(dá)到適應(yīng)度值預(yù)設(shè)精度或滿足最小誤差值或最大迭代次數(shù)),則停止迭代,獲得ELM最優(yōu)參數(shù)組合;否則,回到步驟3。
本文選用水文預(yù)報(bào)領(lǐng)域常用的評(píng)價(jià)指標(biāo),包括平均絕對(duì)百分比誤差Emape、均方根誤差Ermse、確定性系數(shù)Edc、相對(duì)誤差Ere和合格率Eqr5種,以此綜合評(píng)價(jià)預(yù)測(cè)模型的性能。各項(xiàng)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
(11)
(12)
(13)
(14)
(15)
根據(jù)GBT 22482—2008《水文情報(bào)預(yù)報(bào)規(guī)范》,中長(zhǎng)期徑流預(yù)報(bào)的相對(duì)誤差小于20%為合格。
雅礱江流域位于青藏高原東部,地理位置界于96°52′~102°48′E、26°32′~33°58′N之間,北以巴顏喀拉山與黃河分水,東以大雪山與大渡河分界,西以雀兒山、沙魯里山與金沙江上段相鄰,南接滇東北高原的金沙江谷地。流域東、北、西三面大部分為海拔4 000 m以上的高山包圍,其主峰均在5 500 m以上,南面分水嶺高程較低,約2 000 m左右[23]。雅礱江流域及其站點(diǎn)分布如圖1所示。用于雅礱江流域中長(zhǎng)期徑流預(yù)測(cè)的相關(guān)資料包括:①1951年1月—2011年12月,130項(xiàng)大氣環(huán)流因子數(shù)據(jù)(本文選取與雅礱江流域相關(guān)的21項(xiàng)遙相關(guān)氣候因子);②1960年1月—2012年9月的氣壓、溫度、濕度、降水、風(fēng)速、日照等氣象資料;③1960年1月—2016年12月的兩河口、錦屏、官地、二灘水文站徑流資料;④1998年4月—2008年7月的歸一化植被指數(shù)(normalized difference vegetation index, NDVI)數(shù)據(jù)(旬尺度)。
圖1 雅礱江流域及其站點(diǎn)分布
考慮水文時(shí)間序列的一致性,以及比較不同水文要素對(duì)流域徑流的影響,本文將數(shù)據(jù)集分為D1和D2兩組。其中,D1數(shù)據(jù)集時(shí)間跨度為1998年4月—2008年7月,包括前期流域徑流綜合指數(shù)、面雨量指數(shù)、遙相關(guān)氣候因子共計(jì)124組樣本;D2數(shù)據(jù)集時(shí)間跨度為1998年4月—2008年7月,包括前期流域徑流綜合指數(shù)、面雨量指數(shù)、遙相關(guān)氣候因子,以及植被指數(shù)數(shù)據(jù)共計(jì)124組樣本。
本文首先對(duì)雅礱江流域4個(gè)水文站(兩河口、錦屏、官地、二灘)進(jìn)行月平均徑流一致性分析,結(jié)果表明上述站點(diǎn)之間保持著很高的相關(guān)性(圖2),因此基于上述水文站點(diǎn)的月平均徑流(細(xì)粒度),構(gòu)造流域徑流綜合指數(shù)(粗粒度);然后根據(jù)式(1)(2),計(jì)算不同水文站點(diǎn)權(quán)重,結(jié)果如表1所示;最后構(gòu)建徑流綜合指數(shù),并與4個(gè)水文站的月平均徑流進(jìn)行Pearson相關(guān)性分析,結(jié)果表明構(gòu)建的徑流綜合指數(shù)與4個(gè)水文站的月平均徑流高度相關(guān)(表2)。
圖2 流域內(nèi)4個(gè)水文站月平均徑流一致性對(duì)比
表1 基于4個(gè)水文站點(diǎn)流域控制面積構(gòu)建流域徑流綜合指數(shù)權(quán)重
表2 徑流綜合指數(shù)與4個(gè)水文站月平均徑流量Pearson相關(guān)性分析
D1數(shù)據(jù)集的候選因子包括雅礱江流域徑流綜合指數(shù)因子fcom(fcom(t-1),fcom(t-2), …,fcom(t-12))、面雨量指數(shù)因子frain(frain(t-1),frain(t-2),…,frain(t-12)),21個(gè)遙相關(guān)氣候因子fatm1(fatm1(t-1),fatm1(t-2),…,fatm1(t-12)),fatm2(fatm2(t-1),fatm2(t-2),…,fatm2(t-12)),…,fatm21(fatm21(t-1),fatm21(t-2),…,fatm21(t-12))等23個(gè)對(duì)象前期12個(gè)月的觀測(cè)值作為備選特征,總數(shù)為276(23×12)個(gè);D2的候選因子則包括雅礱江流域徑流綜合指數(shù)因子、面雨量指數(shù)因子、21個(gè)遙感相關(guān)氣候因子,以及植被指數(shù)因子fndvi(fndvi(t-1),fndvi(t-2),…,fndvi(t-12))等24個(gè)對(duì)象前期12個(gè)月的觀測(cè)值作為備選特征,總數(shù)為288(24×12)個(gè)。具體如表3所示。
表3 雅礱江流域中長(zhǎng)期徑流過程變化影響候選因子
為研究不同水文要素對(duì)中長(zhǎng)期徑流預(yù)測(cè)效果的影響,并考慮自回歸項(xiàng)對(duì)整個(gè)因子篩選的影響太過顯著等特點(diǎn),基于赤池信息準(zhǔn)則方法并不完全適用于雅礱江流域徑流變化過程的因子篩選。因此,本文將在PMI方法基礎(chǔ)上結(jié)合人工挑選方式進(jìn)行因子選擇:采用PMI方法對(duì)所有備選因子按照相關(guān)性大小進(jìn)行排序,并在此基礎(chǔ)上分別選擇各自相關(guān)性大小排名前20的備選因子;以此為基礎(chǔ),再通過人工挑選方式分別在D1與D2數(shù)據(jù)集上選取上述幾類水文對(duì)象中相關(guān)性大小各自排序前列的因子(最多排名前五),最終組合形成新的綜合篩選結(jié)果。其中,D1數(shù)據(jù)集篩選后的因子為11個(gè),D2為13個(gè),具體如表4所示。
表4 不同數(shù)據(jù)集的因子篩選結(jié)果
2.4.1數(shù)據(jù)集劃分
本文將D1與D2數(shù)據(jù)集劃分為兩部分,一部分?jǐn)?shù)據(jù)用于預(yù)測(cè)模型的10折交叉驗(yàn)證(10-CV),稱為交叉驗(yàn)證期;另一部分?jǐn)?shù)據(jù)用于模型測(cè)試。其中,用于10-CV的數(shù)據(jù)為1998年4月—2006年7月共計(jì)100組樣本(隨機(jī)選取90組用于訓(xùn)練,余下10組用于驗(yàn)證模型),測(cè)試數(shù)據(jù)為2006年8月—2008年7月共24組樣本。交叉驗(yàn)證期與測(cè)試期數(shù)據(jù)劃分如表5所示。
表5 交叉驗(yàn)證期及測(cè)試期數(shù)據(jù)劃分
2.4.2參數(shù)設(shè)置
粒子群算法初始化為:種群規(guī)模為40,最大迭代次數(shù)為400,粒子位置區(qū)間為[-2,2],粒子速度區(qū)間[-0.5,0.5],其他參數(shù)設(shè)置為c10取值2.2,c11取值1.2,c20取值0.3,c21取值2.2,p0取值0.01,p1取值0.28,w0取值1,w1取值0.1,學(xué)習(xí)速率為0.1,訓(xùn)練目標(biāo)為0.001。適應(yīng)度函數(shù)選擇ELM的10折交叉驗(yàn)證的平均均方根誤差,ELM的激活函數(shù)選擇“sigmoid”。
為了保證對(duì)比試驗(yàn)的可靠性,本文對(duì)BPNN和SVM算法進(jìn)行了相應(yīng)優(yōu)化,其初始參數(shù)設(shè)置分別為:BPNN基于10-CV方法,采用與ELM相同的結(jié)構(gòu),訓(xùn)練函數(shù)選擇“tansig”,學(xué)習(xí)函數(shù)選擇“l(fā)ogsig”,最大訓(xùn)練次數(shù)為600,學(xué)習(xí)速率為0.1,訓(xùn)練采用LM算法,動(dòng)量因子為0.9,期望誤差為0.001;支持向量機(jī)回歸模型選擇徑向基核函數(shù),采用10-CV方法,通過多次試驗(yàn)尋找最佳參數(shù):徑向基核函數(shù)中的σ=0.5,懲罰參數(shù)Ca=1,ε=0.001。
2.4.3訓(xùn)練結(jié)果及分析
在10-CV階段,5種預(yù)測(cè)模型在D1與D2數(shù)據(jù)集上均具有較好的訓(xùn)練效果,其中IPSO-ELM模型在Emape、Ermse和Edc3個(gè)指標(biāo)方面整體優(yōu)于其他4種預(yù)測(cè)模型,顯示了本文所提算法在該階段具有較好的擬合效果和泛化能力。另外,5種預(yù)測(cè)模型在D1數(shù)據(jù)集上的交叉驗(yàn)證效果整體優(yōu)于D2,說明當(dāng)樣本較少時(shí),考慮參與的徑流影響要素越多,效果反而較差。不同預(yù)測(cè)模型在D1與D2數(shù)據(jù)集上的10-CV性能對(duì)比如表6所示。
表6 不同模型在D1與D2數(shù)據(jù)集上10-CV的性能比較
2.4.4預(yù)測(cè)結(jié)果及分析
考慮到模型評(píng)測(cè)結(jié)果的可靠性,在D1與D2數(shù)據(jù)集上,測(cè)試集設(shè)計(jì)為2006年8月至2008年7月共24組樣本數(shù)據(jù),對(duì)比模型選用BPNN、SVM、ELM和PSO-ELM。IPSO-ELM模型分別與其他4種模型在D1與D2數(shù)據(jù)集上的預(yù)測(cè)結(jié)果對(duì)比如圖3所示。相對(duì)誤差對(duì)比曲線如圖4所示,綜合性能對(duì)比如表7所示。
圖3 IPSO-ELM模型與其他4種模型在D1與D2數(shù)據(jù)集上的預(yù)測(cè)結(jié)果對(duì)比
圖4 不同模型在D1與D2數(shù)據(jù)集上的相對(duì)誤差對(duì)比曲線
表7 不同模型在D1與D2數(shù)據(jù)集上的綜合性能對(duì)比
2.4.4.1 不同模型預(yù)測(cè)結(jié)果比較
在D1數(shù)據(jù)集上,5種預(yù)測(cè)模型均具有較好的預(yù)測(cè)效果,但在不同的評(píng)測(cè)指標(biāo)上展現(xiàn)出具有差異性的結(jié)果。其中:在Emape指標(biāo)上,IPSO-ELM模型最優(yōu),相比較,SVM在該項(xiàng)指標(biāo)上得分較低;Ermse指標(biāo)與研究區(qū)域的年來水量緊密相關(guān),年來水量大的流域,其Ermse指標(biāo)也較大,其中IPSO-ELM模型的Ermse最小,相比較,BPNN模型較大;在Edc指標(biāo)上,5種預(yù)測(cè)模型的確定系數(shù)都較高,其中IPSO-ELM模型最優(yōu),說明5種預(yù)測(cè)模型在基于信息熵的因子篩選基礎(chǔ)上對(duì)流域中長(zhǎng)期徑流預(yù)測(cè)都具有較好的擬合效果;在Eqr指標(biāo)上,5種預(yù)測(cè)模型的合格率都較高,其中IPSO-ELM模型最優(yōu)(IPSO-ELM為75%,BPNN為62.5%,SVM為58.3%,ELM為66.7%,PSO-ELM為66.7%),說明5種預(yù)測(cè)模型均可以應(yīng)用于水文作業(yè),其中基于IPSO-ELM模型的預(yù)報(bào)方案屬于乙等,可用于向水文部門正式提供預(yù)報(bào)成果。
在D2數(shù)據(jù)集上,5種預(yù)測(cè)模型均具有較好的預(yù)測(cè)效果,但在不同的評(píng)測(cè)指標(biāo)上展現(xiàn)出具有差異性的結(jié)果。其中:在Emape指標(biāo)上,IPSO-ELM模型最優(yōu),相比較,BPNN和SVM在該項(xiàng)指標(biāo)上得分較低;在Ermse指標(biāo)上,IPSO-ELM模型最優(yōu),相比較,BPNN和SVM的均方根誤差較大;在Edc指標(biāo)上,IPSO-ELM模型較好,相比較,BP和SVM的確定性系數(shù)較低;在Eqr指標(biāo)上,5種模型的合格率都較高,其中IPSO-ELM模型最優(yōu)(IPSO-ELM合格率為70.8%,BPNN為62.5%,SVM為58.3%,ELM為62.5%,PSO-ELM為66.7%)。
綜上所述,5種預(yù)測(cè)模型在D1與D2數(shù)據(jù)集上均具有較好的預(yù)測(cè)效果。其中,IPSO-ELM模型的預(yù)測(cè)效果最佳。主要原因在于:BPNN和SVM模型結(jié)構(gòu)相對(duì)復(fù)雜,參數(shù)在訓(xùn)練過程中需要初始化與不斷優(yōu)化調(diào)整,整體效率不高,而ELM具有參數(shù)設(shè)置簡(jiǎn)單、計(jì)算速度快、誤差小、泛化能力強(qiáng)等優(yōu)點(diǎn),因而整體預(yù)測(cè)效果優(yōu)于上述兩種常用模型;針對(duì)傳統(tǒng)ELM模型輸入權(quán)值和隱含層閾值隨機(jī)給定,可能導(dǎo)致部分隱含層節(jié)點(diǎn)失效問題,本文結(jié)合K折交叉驗(yàn)證與IPSO算法,加快了ELM模型參數(shù)尋優(yōu)速度,因而提高了預(yù)測(cè)效果。
2.4.4.2 不同數(shù)據(jù)集上的預(yù)測(cè)效果比較
在增加徑流影響要素的情況下,5種預(yù)測(cè)模型在D1數(shù)據(jù)集上的預(yù)測(cè)效果整體上勝于D2(增加了NDVI植被指數(shù)),主要原因在于:流域徑流影響要素增多導(dǎo)致模型的輸入變量增加,從而增加了模型的計(jì)算復(fù)雜度,導(dǎo)致在D2數(shù)據(jù)集上的整體運(yùn)算效率不如D1;與中長(zhǎng)期徑流預(yù)測(cè)有關(guān)的時(shí)間序列較短(訓(xùn)練樣本較少),模型難以充分學(xué)習(xí),導(dǎo)致D2整體預(yù)測(cè)效果差于D1。因此,在流域徑流影響要素增多時(shí),模型的輸入維度也相應(yīng)增加,而時(shí)間序列又相對(duì)較短(訓(xùn)練樣本較少)時(shí),預(yù)測(cè)模型難以充分訓(xùn)練學(xué)習(xí),整體預(yù)測(cè)效果可能會(huì)相對(duì)較差。
a.基于各站控制面積的流域徑流綜合指數(shù)能夠較好地反映流域水情的豐枯變化。在此基礎(chǔ)上采用基于信息熵的因子篩選方法,獲得了影響流域中長(zhǎng)期徑流過程變化的關(guān)鍵因子集合,形成IPSO-ELM模型的特征輸入。
b.以K折交叉驗(yàn)證法求得的均方根誤差作為粒子的適應(yīng)度,以適應(yīng)度值為基礎(chǔ)對(duì)粒子進(jìn)行尋優(yōu),通過迭代更新找到最優(yōu)的個(gè)體粒子,獲得了ELM模型的最優(yōu)參數(shù),由此構(gòu)建了IPSO-ELM模型,并用于流域中長(zhǎng)期徑流預(yù)測(cè),提高了預(yù)測(cè)精度。
c.實(shí)例計(jì)算與對(duì)比分析結(jié)果表明,所提方法具有較好的實(shí)用性,且所建模型性能優(yōu)于BPNN、SVM、ELM和PSO-ELM等預(yù)測(cè)模型,可為流域中長(zhǎng)期徑流變化趨勢(shì)預(yù)測(cè)分析提供一定參考。