董慶豪 孫龍飛 王遠見 趙萬杰
關(guān)鍵詞:泥沙粒徑;變量篩選;機器學習;智能預測;黃河下游河道
0引言
懸沙和床沙顆粒級配是影響泥沙運動的重要因素,黃河下游河道的淤積,不僅取決于來白中游泥沙的數(shù)量,而且受來沙顆粒級配的影響。探究黃河下游河道懸沙和床沙顆粒級配變化,有助于分析泥沙整體淤積情況,同時能夠反饋指導優(yōu)化水庫運用方式,為水庫的調(diào)度提供重要依據(jù)。
目前,針對黃河下游河道懸沙和床沙顆粒級配的研究,主要集中于小浪底水庫運行前后懸沙和床沙粒徑的時空變化特征和規(guī)律。其中:孫維婷等通過各水文站多年泥沙數(shù)據(jù).分析了黃河懸移質(zhì)泥沙粒徑的時空變化特征,得到各水文站懸移質(zhì)年平均中數(shù)粒徑變化趨勢不一致的結(jié)論:Hou等分析了黃河下游典型斷面2004-2015年河道床沙和懸沙年平均中數(shù)粒徑沿河道方向的變化趨勢:陳建國等統(tǒng)計1999年和2009年黃河下游各河段床沙中數(shù)粒徑的平均值,得出10a來黃河下游河床表面泥沙粒徑普遍增大1倍以上的結(jié)論;付春蘭等分析小浪底水庫運用前后黃河下游水沙條件的變化,結(jié)果表明自2002年調(diào)水調(diào)沙后,河床質(zhì)中數(shù)粒徑逐漸粗化:薛博文等研究了不同時期黃河下游泥沙粒徑變化情況,分析了其對小浪底水庫調(diào)水調(diào)沙的響應規(guī)律。上述研究雖然很好地分析了懸沙和床沙粒徑的時空變化規(guī)律,但由于影響泥沙粒徑變化的因素較多,因此根據(jù)時空變化規(guī)律仍難以準確預測懸沙和床沙粒徑。此外,在泥沙粒徑變化預測方面,現(xiàn)有研究多采用理論公式進行床沙粒徑的分析,這些理論方法計算過程復雜或有特殊適用條件,具有一定局限性。
機器學習作為人工智能中的一項重要技術(shù),可從大量數(shù)據(jù)中挖掘變量間存在的復雜映射關(guān)系,已廣泛應用于各個科學領(lǐng)域,且取得了良好的應用效果。其中,在水利預測方面,Aires等使用機器學習算法預測多西河流域泥沙濃度,采用變量選擇算法對變量進行篩選,取得良好的預測效果:鮑振鑫等耦合VIC模型和8種機器學習算法構(gòu)建了輸沙量模擬模型,能夠較好地模擬月輸沙量過程;Han等提出一種結(jié)合輸入層和隱藏層兩種注意力機制的LSTM模型AT-LSTM,用于宜昌站和屏山站的長期徑流預測;Yang等提出了基于小樣本學習的LSTM-原型網(wǎng)絡融合模型預測長期徑流,并在兩個數(shù)據(jù)稀缺地區(qū)驗證了模型的有效性。目前,機器學習算法在預測泥沙濃度、輸沙量、徑流量等方面應用較多,但尚缺乏針對懸沙和床沙粒徑預測的相關(guān)研究。
筆者利用黃河下游河道花園口等6個斷面的水沙系列數(shù)據(jù),進行懸沙和床沙粒徑主要影響因子的篩選,并基于機器學習算法構(gòu)建黃河下游不同斷面的懸沙和床沙粒徑的預測模型,以期為實現(xiàn)泥沙粒徑的準確預測提供新的思路。
1研究區(qū)域及數(shù)據(jù)來源
黃河下游以桃花峪為起點至人海口,河長786km,流域面積占黃河流域總面積的3%.河道坡降小,水流平緩,泥沙淤積嚴重,河床升高形成地上“懸河”。本文選取下游花園口、夾河灘、高村、孫口、濼口、利津6個斷面(水文站),開展不同斷面泥沙粒徑預測研究。收集整理2006-2020年黃河小浪底水庫月均出庫流量、出庫含沙量數(shù)據(jù),下游花園口等6個水文站月均流量、含沙量、流速、河寬、水深、比降、水位以及懸沙和床沙中數(shù)粒徑、平均粒徑等數(shù)據(jù),數(shù)據(jù)均來源于黃河水利委員會編制的《黃河流域水文資料》。
2研究方法
首先選取泥沙粒徑主要影響因子,并通過變量篩選算法確定機器學習模型輸入的變量組合:然后基于不同機器學習算法建立預測模型:最后對模型預測結(jié)果進行分析評估。
2.1主要變量篩選
黃河下游河道懸沙和床沙粒徑變化主要受來水來沙條件(流量、流速、含沙量)、河道邊界條件(河寬、水深、比降)等多種因素的影響。為有效提取機器學習模型最佳輸入變量組合,采用遞歸特征消除算法結(jié)合隨機森林(RFE-RF)算法進行變量篩選,消除冗余變量,確定變量組合。RFE-RF算法把需要的特征集合初始化為數(shù)據(jù)集,采用R軟件Caret包中的varlmp函數(shù)計算影響因子的重要性分值并進行排序,每次剔除一個重要性分值最低的特征,直到所有特征都被剔除,并通過模型對不同個數(shù)特征的子集進行評估,輸出最佳特征子集。RFE-RF算法流程如圖1所示。
2.2算法原理
本文采用K最鄰近(KNN)、隨機森林(RF)、支持向量回歸(SVR)3種機器學習算法建立預測模型,各算法的原理如下。
1)KNN算法的核心思想是數(shù)據(jù)庫模式匹配,即從歷史數(shù)據(jù)庫中提取數(shù)據(jù)特征,根據(jù)合理的狀態(tài)向量找到與當前實時觀測數(shù)據(jù)相匹配的k個近鄰數(shù)據(jù),將其作為輸入變量以預測后續(xù)狀態(tài)數(shù)據(jù)值。
2)RF算法是一種通過集成學習思想將多棵樹集成的算法,其基本單元是決策樹,并利用多棵決策樹對樣本進行訓練及預測。
3)SVR算法是運用支持向量機(SVM)解決回歸問題的算法。與傳統(tǒng)的回歸算法不同,SVR不僅考慮了數(shù)據(jù)的擬合程度,而且考慮了模型的泛化能力,能夠有效地處理高維數(shù)據(jù)和非線性數(shù)據(jù)。SVR算法的基本思想是將數(shù)據(jù)映射到高維空間中,通過尋找最優(yōu)的超平面來實現(xiàn)回歸。
2.3模型構(gòu)建
綜合考慮水沙、河道邊界等條件,懸沙和床沙粒徑的主要影響因子包括小浪底水庫出庫流量、出庫含沙量,以及下游6個水文站的流量、含沙量、平均流速、最大流速、河寬、平均水深、最大水深、河床比降、水面比降和水位等共12個變量。
各斷面不同粒徑預測模型建立的主要步驟如下:1)選擇2006-2019年月均數(shù)據(jù)集進行變量篩選,使用篩選后的影響因子作為模型輸入變量,其中懸沙粒徑影響因子選取當月月均數(shù)據(jù):床沙粒徑影響因子篩選考慮滯后性,通過相關(guān)性分析,確定其滯后時間,并采用滑動平均法計算各影響因子的月均數(shù)據(jù)。2)將2006-2019年月均數(shù)據(jù)集按照4:1的比例劃分成訓練集和測試集。3)將訓練集代人3種不同機器學習算法分別進行訓練并建立預測模型。4)將測試集代入模型中,通過決定系數(shù)R2、均方根誤差RMSE、平均絕對誤差MAE指標評估不同算法模型的預測效果,并選出各斷面預測效果最好的模型。5)將2020年數(shù)據(jù)集分別代入選出的各斷面最優(yōu)模型,通過R2值和顯著性檢驗進一步驗證所建模型的性能。
3實例結(jié)果分析
3.1泥沙粒徑關(guān)鍵影響因子提取
采用變量篩選方法,得到各斷面懸沙和床沙粒徑重要性分值排序前5的影響因子,以花園口、夾河灘斷面為例,其結(jié)果分別如圖2和圖3所示(D5o表示中數(shù)粒徑,D表示平均粒徑)。
各斷面經(jīng)篩選后變量的數(shù)量為6~9個,有效減少了初始變量的數(shù)量,有利于提取主要影響因子。由圖2和圖3可見,對于黃河下游懸沙粒徑預測,大部分斷面的來沙條件因素重要性分值較高,對粒徑變化的影響較大,且不同斷面及同一斷面不同粒徑所選取的影響因子之間存在差異;而對于黃河下游床沙粒徑預測,同一斷面不同粒徑重要性分值排序前5的影響因子基本相同,但不同斷面之間影響因子重要性分值差異較為顯著。
3.2預測結(jié)果分析
3.2.1懸沙粒徑預測結(jié)果
根據(jù)各斷面不同粒徑影響因子的篩選結(jié)果,采用篩選后的變量作為模型的輸入變量構(gòu)建預測模型,最終所得不同機器學習算法模型在測試集上的評估指標,見表1。
由表1可知,對于下游河道懸沙粒徑,機器學習模型在各斷面測試集預測方面的整體適用性較好,預測值誤差較小。不同機器學習算法預測結(jié)果的誤差存在差異,其中KNN模型的RMSE均在0.0095mm以下、MAE均在0.0079mm以下,RF模型的RMSE均在0.0085mm以下、MAE均在0.0068mm以下,SVR模型的RMSE均在0.0115mm以下、MAE均在0.0086mm以下。相比之下,RF算法建立的模型在懸沙粒徑預測方面對于各斷面預測結(jié)果的誤差均較小,各斷面優(yōu)選模型均為RF算法建立的模型。
此外,統(tǒng)計由表1選出的各斷面在測試集上綜合效果最好的模型,得到預測值與實測值之間的相關(guān)性,以花園口、夾河灘、利津斷面為例,其懸沙粒徑預測值與實測值之間相關(guān)性如圖4~圖6所示。
由圖4~圖6及其余斷面統(tǒng)計結(jié)果可知,各斷面預測值與實測值R2均在0.64~0.89之間,相關(guān)性良好,模型擬合程度較高。
為進一步驗證所建立模型的效果,選取各斷面優(yōu)選模型分別對2020年懸沙月均粒徑進行預測,各斷面2020年懸沙粒徑實測值與預測值綜合相關(guān)性如圖7所示。由圖7可見,所得實測值與預測值之間R2達0.6097,進一步表明模型對于懸沙粒徑具有良好的預測準確性。
3.2.2床沙粒徑預測結(jié)果
與懸沙粒徑類似,對于床沙不同機器學習算法模型在測試集上的評估指標見表2。
由表2可知,對于下游河道床沙粒徑,機器學習模型在不同斷面測試集上的預測誤差存在較大差異,考慮其與床沙粒徑空間分布不均有關(guān),但整體上各斷面優(yōu)選模型的RMSE最高為0.0448mm、最低為0.0109mm,MAE最高為0.0308mm、最低為0.0086mm,3種機器學習算法在不同斷面床沙預測中具有較好的適用性。
統(tǒng)計由表2選出的各斷面在測試集上綜合效果最好的模型,得到預測值與實測值之間的相關(guān)性,花園口、夾河灘、濼口斷面床沙粒徑預測值與實測值之間相關(guān)性如圖8~圖10所示。
由圖8~圖10及其余斷面統(tǒng)計結(jié)果可知,各斷面預測值與實測值R2均在0.37~0.72之間,不同斷面之間存在顯著差異?;▓@口斷面中數(shù)粒徑,夾河灘斷面、孫口斷面粒徑R2在0.5以下,其余斷面粒徑R2在0.5以上,而濼口斷面粒徑R2達0.7,表明模型預測值與實測值的相關(guān)性及擬合效果整體上較好。
進一步驗證所建立模型的效果,由各斷面的優(yōu)選模型分別對2020年床沙月均粒徑進行預測,各斷面2020年床沙粒徑實測值與預測值綜合相關(guān)性如圖11所示。
由圖11可見,預測值與實測值之間R2達0.4456,預測結(jié)果偏小,其原因可能是床沙組成的調(diào)整是一個緩慢過程,是下泄水沙過程與床面邊界之間長期相互作用的結(jié)果,影響因素和涉及信息遠較懸沙的復雜。盡管從結(jié)果上看床沙粒徑預測精度較懸沙的差,但整體上預測值與實測值仍較為接近,結(jié)果可以接受。
4結(jié)論
為系統(tǒng)掌握黃河下游河道懸沙和床沙粒徑的分布規(guī)律,克服泥沙粒徑預測理論方法復雜或有特殊適用條件的局限性問題,本文綜合考慮不同影響因素,采用變量篩選算法進行變量篩選,并基于機器學習算法進行泥沙粒徑預測。實例分析結(jié)果表明,變量篩選算法能夠減少冗余及不相關(guān)變量,構(gòu)建最優(yōu)特征子集。優(yōu)選模型對懸沙粒徑預測效果良好,在測試集上各斷面預測值與實測值R2在0.64~0.89之間:床沙粒徑預測精度較懸沙相對偏低,在測試集上各斷面預測值與實測值R2在0.37~0.72之間。進一步驗證優(yōu)選模型效果,在對2020年月均泥沙粒徑進行預測時,懸沙粒徑R2可達0.6097,模型擬合相對較好;床沙粒徑R2為0.4456,總體上結(jié)果可以接受。
整體而言,應用機器學習算法構(gòu)建預測模型能夠較好實現(xiàn)黃河下游河道泥沙粒徑的準確預測,可以為黃河調(diào)水調(diào)沙提供參考。