劉煒 趙麗霞 趙淑饒 趙晶
摘 要:在水文站洪水期流量測(cè)驗(yàn)中,受風(fēng)浪和漂浮物的影響以及設(shè)施設(shè)備的限制,斷面測(cè)量是一直以來的難點(diǎn)。傳統(tǒng)的斷面鄰近借用法在斷面發(fā)生較大沖淤變化時(shí)會(huì)造成較大的流量計(jì)算誤差。根據(jù)水深與流速之間存在的相關(guān)性,使用隨機(jī)森林算法,以流速分布、水位、河寬等作為輸入?yún)?shù)建立斷面形態(tài)預(yù)測(cè)模型,對(duì)吳堡站測(cè)流斷面形態(tài)進(jìn)行了預(yù)測(cè)。結(jié)果表明:使用基于隨機(jī)森林算法的斷面形態(tài)預(yù)測(cè)模型來確定測(cè)流斷面形態(tài)是對(duì)傳統(tǒng)的斷面鄰近借用法的有力補(bǔ)充:吳堡站流量在3 000 m3/s以上測(cè)次的流量預(yù)測(cè)標(biāo)準(zhǔn)差為13%,大于規(guī)范標(biāo)準(zhǔn),模型仍需改進(jìn)。建議從兩方面來提高斷面形態(tài)預(yù)測(cè)的準(zhǔn)確性:一是增加特征垂線實(shí)測(cè)水深等附加參數(shù):二是從斷面變化角度出發(fā)分析斷面沖淤與水沙過程的關(guān)系,進(jìn)而找到更多的影響因子加入回歸模型。
關(guān)鍵詞:隨機(jī)森林算法:形態(tài)預(yù)測(cè):測(cè)流斷面:吳堡站
中圖分類號(hào):P333:TV882.1
文獻(xiàn)標(biāo)志碼:A
doi: 10.3969/j.issn.1000-1379.2018.06.003
流量是反映江河湖庫(kù)水量變化的基本資料。實(shí)測(cè)流量時(shí),應(yīng)根據(jù)測(cè)流設(shè)施設(shè)備實(shí)際情況,在保證測(cè)驗(yàn)精度的前提下,因地制宜地采用合適的測(cè)流方法。對(duì)于水文測(cè)站,當(dāng)遇大洪水或急漲急落的小洪水時(shí),由于洪水來勢(shì)兇猛,漂浮物較多,因此全面實(shí)測(cè)水深、流速的難度較大,此時(shí)可以依據(jù)有關(guān)規(guī)范采用水面流速法測(cè)流,其形式包括傳統(tǒng)的浮標(biāo)法測(cè)流[1]以及近年來出現(xiàn)的微波流速儀、雷達(dá)槍等非接觸手段。對(duì)于水面流速,高洪期間的過流斷面測(cè)速傳統(tǒng)上采用借用方法,即按照“峰前借峰前,峰后借峰后,鄰近借用”的原則進(jìn)行估算。借用斷面的形態(tài)是否合理是影響高洪流量測(cè)驗(yàn)精度的關(guān)鍵因素。提高斷面形態(tài)的預(yù)測(cè)精度,能有效提高洪水過程的測(cè)驗(yàn)質(zhì)量和報(bào)汛精度。
近年來,人T神經(jīng)網(wǎng)絡(luò)[2-3]、小波神經(jīng)網(wǎng)絡(luò)模型[4-5]和支持向量機(jī)[6-7]等機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用于水文預(yù)報(bào)中。河寬、水深、流速等因素相互作用,共同影響了測(cè)驗(yàn)斷面的基本形態(tài),且水深、流速的相關(guān)性較高,本文以吳堡水文站為例,采用隨機(jī)森林算法構(gòu)建了斷面形態(tài)預(yù)測(cè)模型。
1 隨機(jī)森林?jǐn)嗝嫘螒B(tài)預(yù)測(cè)模型
1.1 隨機(jī)森林算法
隨機(jī)森林算法[5]是機(jī)器學(xué)習(xí)算法的一種,其適應(yīng)性較強(qiáng),可用于解決非線性回歸問題。決策樹是隨機(jī)森林算法的基礎(chǔ)分類器,其構(gòu)造由一個(gè)獨(dú)立同分布的隨機(jī)向量決定。如果將決策樹看成分類任務(wù)中的一個(gè)專家,那么隨機(jī)森林算法是許多專家在一起對(duì)某種任務(wù)進(jìn)行分類。隨機(jī)森林算法是由多個(gè)決策樹組成的分類器,輸入向量的最終所屬類別由算法中所有的決策樹投票決定。決策樹通過對(duì)參數(shù)數(shù)值(白變量)進(jìn)行不斷劃分來確定因變量數(shù)值,從而建立自變量一因變量映射關(guān)系。在每“棵”決策樹的構(gòu)造過程中,其分支處參數(shù)的選擇和劃分都是隨機(jī)的,因此得到的因變量數(shù)值也具有一定隨機(jī)性。在隨機(jī)森林算法中,當(dāng)決策樹數(shù)目很大時(shí)遵循大數(shù)定律,隨機(jī)森林算法不會(huì)隨著分類樹的增加出現(xiàn)過度擬合,但有一個(gè)有限的泛化誤差值。
隨機(jī)森林算法應(yīng)用廣泛,在水文氣象方面,也有基于隨機(jī)森林算法的暴雨洪水預(yù)報(bào)等模型。本文是隨機(jī)森林算法應(yīng)用于洪水期流量測(cè)驗(yàn)斷面預(yù)測(cè)的一次初步嘗試。
1.2 模型構(gòu)建和參數(shù)選擇
本文使用scikit -learn算法集合中的Random Forest類建立斷面形態(tài)預(yù)測(cè)模型,依據(jù)隨機(jī)森林算法在解決非線性問題及其在決策樹構(gòu)建和綜合過程中對(duì)數(shù)據(jù)特征識(shí)別方面的優(yōu)勢(shì),將其作為模型的核心算法。模型總體上包括數(shù)據(jù)集劃分、模型訓(xùn)練、模型測(cè)試和檢驗(yàn)指標(biāo)計(jì)算等組成部分,見圖1。
模型訓(xùn)練是指將訓(xùn)練集合中的選定參數(shù)作為自變量、目標(biāo)函數(shù)的實(shí)測(cè)值(垂線水深)作為因變量輸入模型并建立斷面形態(tài)預(yù)測(cè)模型的過程。本文根據(jù)隨機(jī)互斥原則,將數(shù)據(jù)集按照85:15的比例劃分為訓(xùn)練集和測(cè)試集。在模型測(cè)試階段,將測(cè)試集中的選定參數(shù)輸入模型,模型輸出目標(biāo)函數(shù)預(yù)測(cè)值。模型檢驗(yàn)針對(duì)測(cè)試集目標(biāo)函數(shù)的實(shí)測(cè)值及其預(yù)測(cè)值進(jìn)行,具體而言就是以實(shí)測(cè)水深來檢驗(yàn)預(yù)測(cè)水深的準(zhǔn)確度。采用均方誤差(MSE)和決定系數(shù)(R2)兩個(gè)經(jīng)典檢驗(yàn)指標(biāo)進(jìn)行準(zhǔn)確度判斷:式中:yi為水深預(yù)測(cè)值;yi為水深實(shí)測(cè)值;y為平均水深。
在斷面形態(tài)預(yù)測(cè)模型中,預(yù)測(cè)因子是白變量,斷面形態(tài)是因變量。模型預(yù)測(cè)因子的挑選采用逐步篩選法,對(duì)于所有的檢驗(yàn)樣本,隨機(jī)打亂某一白變量取值,再用模型對(duì)樣本進(jìn)行測(cè)試,擬合誤差越大,說明該解釋變量越重要。隨機(jī)森林模型通過R代碼( RF.impor-tances)給出了每個(gè)白變量對(duì)因變量作用的重要性的計(jì)算命令,計(jì)算得出的各自變量重要性之和為1,計(jì)算值越大表示該變量越重要,在解釋變量重要性的基礎(chǔ)上,采用隨機(jī)森林算法的回歸功能進(jìn)行斷面形態(tài)預(yù)測(cè)。
2 實(shí)例應(yīng)用
2.1 吳堡水文站概況
吳堡水文站于1935年建站,是國(guó)家重要水文站、黃河重點(diǎn)報(bào)汛站、大河干流控制站,位于陜西省吳堡縣宋家川鎮(zhèn)柏樹坪村,距河口站距離為1544 km,集水面積為433 514 km2。吳堡站測(cè)驗(yàn)河段基本順直,河勢(shì)穩(wěn)定,主流偏有。流向與斷面基本垂直?;希ɑ鶞?zhǔn)斷面上游)2 300 m有急彎,基下230 m右岸有一小支溝,流域面積約為30 km2,最大山洪流量為200 m3/s。主槽較穩(wěn)定,主流一般在起點(diǎn)距320 m左有,大水時(shí)略向有岸移動(dòng)。下游小支溝漲水時(shí),若黃河干流流量小于1 000 m3/s,則對(duì)水面比降有一定影響,大于1000 m3/s時(shí)沒有影響。
本文選取吳堡站1953-2012年流量大于1 000m3/s的1 237次實(shí)測(cè)斷面流量測(cè)次(垂線20 855條)作為數(shù)據(jù)全集,使用全集中的85%(1 051個(gè)測(cè)次,垂線17 700條)作為訓(xùn)練集,用于模擬訓(xùn)練,構(gòu)造隨機(jī)森林模型:其他15%(186個(gè)測(cè)次,垂線3 155條)作為測(cè)試集,用來對(duì)模型進(jìn)行檢驗(yàn)和評(píng)估。訓(xùn)練集和測(cè)試集采用隨機(jī)分配的方法進(jìn)行劃分。
2.2 斷面形態(tài)預(yù)測(cè)因子的選取
斷面形態(tài)預(yù)測(cè)模型的回歸目標(biāo)是由垂線水深構(gòu)成的斷面形態(tài)。斷面形態(tài)與水沙量級(jí)有關(guān),水位可以作為其代表,由于斷面形態(tài)與流速分布存在相關(guān)性,因此選擇水位、垂線起點(diǎn)距、垂線平均流速作為首選參數(shù)。又因?yàn)閿嗝嫘螒B(tài)預(yù)測(cè)中影響這3個(gè)參數(shù)的因子有很多,所以從流速分布(起點(diǎn)距一流速數(shù)組)中提取左岸水邊起點(diǎn)距、右岸水邊起點(diǎn)距、垂線最大流速3個(gè)特征值作為模型的待選參數(shù),其中前兩個(gè)值代表了斷面橫向的位置和河寬,后一個(gè)值兼顧表征水沙量級(jí)和流速極值特征。
模型預(yù)測(cè)因子挑選采用逐步篩選法。本文以不同起點(diǎn)距位置的垂線平均流速作為初選預(yù)測(cè)因子,將對(duì)應(yīng)起點(diǎn)距位置的測(cè)次垂線水深作為預(yù)測(cè)對(duì)象,輸入逐步篩選程序,并設(shè)置F檢驗(yàn)的顯著性水平α= 0.1,以垂線流速分布、水位、垂線最大流速、過水?dāng)嗝嫫瘘c(diǎn)距范圍等為參數(shù),采用隨機(jī)森林算法建立回歸模型,預(yù)測(cè)各起點(diǎn)距對(duì)應(yīng)的水深,根據(jù)均方誤差和決定系數(shù)判斷回歸性能,篩選出合適的參數(shù)組合。不同參數(shù)組合的檢驗(yàn)結(jié)果見表1。
由表1可知,參數(shù)組合編號(hào)為119的均方差最小(0.29),決定系數(shù)最大(0.88),所以最終確定模型的6個(gè)參數(shù)為水位、左岸水邊起點(diǎn)距、右岸水邊起點(diǎn)距、垂線最大流速、起點(diǎn)距、垂線平均流速,其中各參數(shù)的敏感度見圖2,可知垂線平均流速在所有參數(shù)中最敏感,其余依次分別為水位、起點(diǎn)距、右岸水邊起點(diǎn)距、左岸水邊起點(diǎn)距和垂線最大流速。
2.3 預(yù)測(cè)結(jié)果及誤差分析
預(yù)測(cè)斷面形態(tài)的目的是進(jìn)行流量計(jì)算,因而本文中斷面形態(tài)預(yù)測(cè)模型的檢驗(yàn)評(píng)估分為斷面形態(tài)、流量?jī)蓚€(gè)方面。
2.3.1 斷面形態(tài)
圖3為2012年9月13日9:00斷面形態(tài)預(yù)測(cè)結(jié)果。以斷面面積相對(duì)誤差作為衡量指標(biāo),其概率分布見圖4(E80、E60分別為80%、60%概率所對(duì)應(yīng)的最大相對(duì)誤差的絕對(duì)值,loc為誤差的平均值.std為標(biāo)準(zhǔn)差),由圖4可知回歸的斷面面積存在1%的系統(tǒng)偏差,相對(duì)標(biāo)準(zhǔn)差為14%,檢驗(yàn)測(cè)次中80%的面積誤差小于16%,60%的面積誤差小于10%。
2.3.2 流量
流量誤差檢驗(yàn)方面仍以相對(duì)標(biāo)準(zhǔn)差作為主要的評(píng)估指標(biāo),結(jié)果見表2。圖5、圖6分別為在測(cè)試集全集、流量大于3 000 m3/s的測(cè)次集合上使用模型進(jìn)行斷面形態(tài)回歸所計(jì)算流量結(jié)果的相對(duì)誤差概率分布。
由圖6可知流量大于3 000m3/s時(shí)相對(duì)誤差絕對(duì)值大都在10%以內(nèi),由圖7可知相對(duì)誤差有隨著流量增大而減小的趨勢(shì),這說明模型對(duì)高洪條件有較好的適應(yīng)性。
從模型在測(cè)試集上的回歸結(jié)果中隨機(jī)抽取10個(gè)3 000 m3/s以上流量測(cè)次,預(yù)測(cè)斷面面積與實(shí)測(cè)斷面面積、預(yù)測(cè)流量與整編流量的比較見表3。
3 結(jié)語
(1)采用數(shù)學(xué)模型來確定測(cè)流斷面形態(tài)是對(duì)傳統(tǒng)的鄰近借用法的有力補(bǔ)充。得益于機(jī)器學(xué)習(xí)算法對(duì)歷史資料中數(shù)據(jù)特征的經(jīng)驗(yàn)性識(shí)別,模型預(yù)測(cè)的斷面形態(tài)比簡(jiǎn)單的鄰近借用法更有依據(jù)。
(2)對(duì)吳堡站流量在3 000 m3/s以上測(cè)次的斷面預(yù)測(cè)結(jié)果表明,流量計(jì)算的標(biāo)準(zhǔn)差為13%,大于流量測(cè)驗(yàn)規(guī)范中浮標(biāo)法測(cè)流標(biāo)準(zhǔn)差小于10%的標(biāo)準(zhǔn)。因此,從生產(chǎn)應(yīng)用角度出發(fā),該模型仍需改進(jìn)。
(3)斷面形態(tài)是水沙過程與河床相互作用的結(jié)果。根據(jù)目前有限的擴(kuò)展研究,筆者認(rèn)為斷面形態(tài)預(yù)測(cè)的改進(jìn)途徑有兩種:一是增加特征垂線實(shí)測(cè)水深等附加參數(shù):二是從斷面變化角度出發(fā),分析斷面沖淤與水沙過程的關(guān)系,進(jìn)而找到更多的影響因子加入回歸模型。
參考文獻(xiàn):
[1]鄭建民,楊禎祥,鄭飛.洪水期浮標(biāo)法測(cè)流應(yīng)用研究[J].東北水利水電,2016,22(2):33-34.
[2] 袁曾任.人T神經(jīng)元網(wǎng)絡(luò)及其應(yīng)用[M].北京:清華大學(xué)出版社.1999:26-41.
[3] KHOTANZAD A, ELRAGAL H, LU T L.Combination ofArtifal Neural Network Forecasters for Prediction of NaturalGas Consumption[J].IEEE, Transactions on Natural Net-work, 2000, 11(2): 464-473.
[4] 陳哲,馮天瑾.小波神經(jīng)網(wǎng)絡(luò)研究進(jìn)展及展望[J].青島海洋大學(xué)學(xué)報(bào)(白然科學(xué)版),1999,29(4):663-668.
[5] 趙學(xué)智,鄒春華,陳統(tǒng)堅(jiān),等.小波神經(jīng)網(wǎng)絡(luò)的參數(shù)初始化研究[J].華南理工丈學(xué)學(xué)報(bào)(白然科學(xué)版),2003,31
(2):77-79.
[6] 李國(guó)正,王猛.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社,2005:33-48.
[7] 李紅蓮,王春花,袁保宗.一種改進(jìn)的支持向量機(jī)NN-SVM[J].計(jì)算機(jī)學(xué)報(bào),2003,26(8):1叭5-1叭9.
[8]
BREIMAN L Random Fore.sts[J]. Machine Learning, 2001, 45(1):5-32.