陳柯兵,李圣偉,何奇鍇,孫思瑞
(1.長(zhǎng)江水利委員會(huì)水文局,湖北 武漢 430010;2.油氣地球化學(xué)與環(huán)境湖北省重點(diǎn)實(shí)驗(yàn)室(長(zhǎng)江大學(xué)資源與環(huán)境學(xué)院),湖北 武漢 430100;3.長(zhǎng)江水利委員會(huì)水文局長(zhǎng)江中游水文水資源勘測(cè)局,湖北 武漢 430010)
三峽水利樞紐工程以防洪任務(wù)為首,兼具有發(fā)電、航運(yùn)等多項(xiàng)綜合效益,其地理位置特殊、防洪庫(kù)容巨大,可直接控制下游荊江、城陵磯等處洪水,在目前長(zhǎng)江流域的防洪調(diào)度體系中,處于最重要的核心地位。
城陵磯(蓮花塘)水位為三峽水庫(kù)調(diào)度決策的重要指標(biāo),三峽(正常運(yùn)行期)-葛洲壩水利樞紐梯級(jí)調(diào)度規(guī)程中明確指出,三峽水利樞紐汛期運(yùn)行水位、蓄水方式、防洪調(diào)度等均與其數(shù)值直接相關(guān)。
國(guó)內(nèi)學(xué)者已開展了眾多三峽水庫(kù)對(duì)城陵磯水位影響的研究,如黃群等[1]利用BP神經(jīng)網(wǎng)絡(luò)對(duì)洞庭湖出口城陵磯站的水位過程進(jìn)行模擬,量化了三峽水庫(kù)蓄水對(duì)水位的影響。王蒙蒙等[2]建立了基于支持向量機(jī)的回歸模型,定量描述了三峽逐日出庫(kù)流量與洞庭湖代表水文站之間的關(guān)系。桂梓玲等[3]利用簡(jiǎn)化運(yùn)行策略分析了長(zhǎng)江上游已建21座水庫(kù)群蓄水對(duì)鹿角水位和城陵磯流量的影響。但如何分析城陵磯水位對(duì)三峽水庫(kù)的調(diào)度決策產(chǎn)生的影響,尚待進(jìn)一步探討。
水庫(kù)調(diào)度決策者通常將各種水文信息,如水庫(kù)當(dāng)前水位、預(yù)報(bào)入庫(kù)流量等,與水庫(kù)調(diào)度規(guī)則、發(fā)電需求等結(jié)合起來(lái),以確定水庫(kù)的出庫(kù)。近年來(lái),通過數(shù)據(jù)挖掘方式,獲取調(diào)度決策者的知識(shí)與智慧,并應(yīng)用于水庫(kù)調(diào)度,以提高水庫(kù)運(yùn)行效益,逐漸流行。尹正杰等[4]考慮入庫(kù)流量、水庫(kù)庫(kù)容與時(shí)段信息,采用人工神經(jīng)網(wǎng)絡(luò)中徑向基函數(shù)制定了水庫(kù)供水調(diào)度規(guī)則。Hejazi等[5]把水庫(kù)運(yùn)行中的水文信息分為三種,即過去、當(dāng)前和未來(lái)信息,采用信息理論方法對(duì)美國(guó)數(shù)十個(gè)水庫(kù)的歷史運(yùn)行數(shù)據(jù)進(jìn)行挖掘,從入庫(kù)、水庫(kù)庫(kù)容等信息中,找出影響出庫(kù)流量的重要信息。Yang等[6]使用CART樹算法和隨機(jī)森林算法來(lái)模擬美國(guó)加利福尼亞州水庫(kù)的出庫(kù)流量,并得出水庫(kù)庫(kù)容、季節(jié)和下游水位是水庫(kù)運(yùn)營(yíng)中最為重要的信息。
以上研究針對(duì)水庫(kù)調(diào)度決策中主要的水文信息而展開,揭示了相關(guān)水文信息和出庫(kù)決策之間的關(guān)系,本文將此思想應(yīng)用于三峽水庫(kù)逐日運(yùn)行數(shù)據(jù)。研究擬通過出庫(kù)決策模擬模型分析水庫(kù)歷史運(yùn)行數(shù)據(jù),區(qū)分汛期與非汛期,從多角度對(duì)三峽水庫(kù)調(diào)度所采用的水文信息進(jìn)行排名并判斷其價(jià)值,重點(diǎn)分析下游防洪控制點(diǎn)城陵磯水位對(duì)三峽水庫(kù)調(diào)度決策的影響。
為了建立三峽水庫(kù)出庫(kù)決策模擬模型,將三峽水庫(kù)的歷史運(yùn)行數(shù)據(jù)劃分為模型輸入(決策變量)和輸出(目標(biāo)變量),考慮的模型輸入和輸出信息(變量)具體情況如下:
1)當(dāng)前的信息。當(dāng)前信息包含三個(gè)水文變量,即目前的月份(M),體現(xiàn)不同的時(shí)段對(duì)水庫(kù)運(yùn)行的影響;水庫(kù)當(dāng)前的水位(RWL)和下游防洪控制點(diǎn)城陵磯水位(DWL),是被廣泛應(yīng)用于三峽水庫(kù)出庫(kù)決策制定的指標(biāo)。
2)未來(lái)的信息。未來(lái)信息包含三峽水庫(kù)運(yùn)行中真實(shí)記錄的,預(yù)報(bào)1、2 d和3 d的入庫(kù)流量,即It+1、It+2、It+3。這些數(shù)據(jù)在調(diào)度實(shí)踐中每天都會(huì)更新,由長(zhǎng)江電力的數(shù)據(jù)庫(kù)提取得到。
3)模型的輸出為下個(gè)時(shí)段的日平均出庫(kù)流量。表1列出了模型輸入和輸出變量的介紹。
由于三峽水庫(kù)在汛期與非汛期有不同的運(yùn)用目的,因此將歷史運(yùn)行數(shù)據(jù)分為兩個(gè)部分,以進(jìn)一步分析汛期(6月1日至9月30日)和非汛期之間水庫(kù)運(yùn)行的變化,使用全年數(shù)據(jù)的情況也保留作為比較基準(zhǔn)。
故共有三種方案,使用全年、汛期、非汛期數(shù)據(jù)分別分析和構(gòu)建出庫(kù)決策模擬模型。三峽水庫(kù)2008年開始啟動(dòng)175 m試驗(yàn)性蓄水,收集的三峽歷史運(yùn)行數(shù)據(jù)涵蓋了2008-06-01日到2017-05-31日共9年的資料。使用2008-06-01日到2015-05-31日的數(shù)據(jù)進(jìn)行決策模擬模型的訓(xùn)練和交叉驗(yàn)證,其余數(shù)據(jù)用于模型檢驗(yàn)。
研究利用隨機(jī)森林(Random Forest,RF)算法在輸入和輸出變量之間建立回歸模型。作為非黑箱和非參數(shù)的數(shù)據(jù)挖掘技術(shù),RF由多個(gè)決策樹的集合組成。決策樹的樹狀結(jié)構(gòu)包括決策節(jié)點(diǎn)、枝、葉,最終形成一系列的決策規(guī)則,用于數(shù)據(jù)挖掘中的分類或回歸問題。回歸隨機(jī)森林中的決策樹獲取每個(gè)類別(葉)中目標(biāo)變量的平均值,并儲(chǔ)存相應(yīng)的規(guī)則。為了進(jìn)行回歸,常用的決策節(jié)點(diǎn)選取標(biāo)準(zhǔn)為下式中的最小化相對(duì)誤差之和[7]。
(1)
式中:yl和yr是決策節(jié)點(diǎn)的左右分支,兩分支擁有的變量數(shù)量分別為L(zhǎng)和R;yL和yR是左右分支輸出變量的平均值;d為決策節(jié)點(diǎn)的劃分規(guī)則。
使用隨機(jī)森林算法進(jìn)行回歸時(shí),要調(diào)整的主要超參數(shù)為森林中決策樹的數(shù)量(N)和決策樹的最大深度(depth)。構(gòu)建隨機(jī)森林的過程,如圖1所示,訓(xùn)練數(shù)據(jù)使用上文提及的2008-06-01日到2015-05-31日6個(gè)輸入變量與輸出變量(未來(lái)1 d出庫(kù))。為了評(píng)估隨機(jī)森林的回歸效果,以確定超參數(shù),采用解釋回歸模型的方差得分,如下式,最終建立得到輸入、輸出變量間超參數(shù)最優(yōu)的隨機(jī)森林回歸模型。
圖1 隨機(jī)森林算法示意圖
(2)
式中:ytar是真實(shí)的目標(biāo)值;yout是隨機(jī)森林的輸出值;Var表示方差的計(jì)算。該指標(biāo)的取值范圍為0至1,越接近于1說(shuō)明模型的效果越好。
隨機(jī)森林算法在構(gòu)建模型的過程中,能提供量化的輸入變量間相對(duì)重要性,將幫助建模者對(duì)輸入變量進(jìn)行評(píng)估。
為了比較出庫(kù)決策模擬模型的性能,選擇納什效率系數(shù)(NSE)、水量相對(duì)誤差(RE)作為統(tǒng)計(jì)指標(biāo)[6],NSE計(jì)算公式如下所示:
(3)
水量相對(duì)誤差表示某時(shí)段出庫(kù)總水量的模擬誤差占實(shí)際出庫(kù)總水量的百分比,其值越接近0表明模型模擬效果越好。
經(jīng)試算分別從3至10中選擇森林中決策樹的數(shù)量(N),3至6中選擇決策樹的最大深度(depth)這兩個(gè)參數(shù)。采用機(jī)器學(xué)習(xí)中常用的網(wǎng)格搜索方法進(jìn)行調(diào)試、優(yōu)選,該方法考慮了所有候選的32種參數(shù)組合。
將2008年至2015年的訓(xùn)練數(shù)據(jù)集,逐日地隨機(jī)打亂,利用打亂的數(shù)據(jù)以及提及的三種輸入方案,計(jì)算每種參數(shù)組合下的解釋回歸模型的方差得分。即每種輸入方案都需要計(jì)算32次,在計(jì)算過程中,記錄隨機(jī)森林算法中的變量重要性得分。圖2繪制了三種輸入方案各自經(jīng)過32次計(jì)算后,得到變量重要性得分的平均值。比較這三種情景,無(wú)論是全年、汛期還是非汛期,信息的重要性排名均為未來(lái)預(yù)報(bào)、下游水位、水庫(kù)水位、月份。
圖2 隨機(jī)森林模型輸出的變量重要性得分
此外,在圖2中可明顯看出,汛期未來(lái)預(yù)報(bào)流量重要性較高,尤其是預(yù)報(bào)未來(lái)一天入庫(kù)。非汛期預(yù)報(bào)流量的重要性相對(duì)降低,而下游水位重要性進(jìn)一步提升,說(shuō)明了預(yù)報(bào)流量在汛期的重要性更強(qiáng),城陵磯水位在非汛期也是對(duì)于調(diào)度決策的重要指標(biāo)。
雖然直覺上城陵磯水位在汛期應(yīng)該發(fā)揮更大的作用,可能原因?yàn)椋孩傺雌陬A(yù)報(bào)流量的重要性更強(qiáng),從而相對(duì)降低了城陵磯水位的重要性。②非汛期城陵磯水位也是水資源、水生態(tài)調(diào)度的重要目標(biāo),目前的調(diào)度規(guī)程中明確規(guī)定了枯水期的最小下泄流量,從而間接同城陵磯水位相關(guān)。
將32種候選參數(shù)組合進(jìn)行對(duì)比分析后,利用最大深度、決策樹的數(shù)量參數(shù)為4和7的隨機(jī)森林模型作為三峽水庫(kù)出庫(kù)決策模擬模型。并在檢驗(yàn)期的數(shù)據(jù)集(2015~2017年)上測(cè)試了模型性能。由于檢驗(yàn)期數(shù)據(jù)從未在模型的訓(xùn)練和交叉驗(yàn)證中使用過,因此可將其視為獨(dú)立的測(cè)試時(shí)期,以評(píng)估三種輸入方案下模型的性能。對(duì)于全年模型,測(cè)試期為2015-06-01日至2017-05-31日的全時(shí)段。對(duì)于其他兩模型,僅使用相應(yīng)的汛期或非汛期的數(shù)據(jù)。模型在檢驗(yàn)期性能的統(tǒng)計(jì)匯總在表2中,全年模型的模擬效果與觀測(cè)值對(duì)比,見圖3所示。
表2 決策模擬模型在檢驗(yàn)期的性能
圖3 觀測(cè)和全年模型模擬出庫(kù)流量的對(duì)比情況
根據(jù)文獻(xiàn)[8],如果NSE大于0.50,則可以將模型性能判斷為滿意。由于表2中的NSE值在0.572到0.832之間,因此模型的統(tǒng)計(jì)性能對(duì)于所有三種情況都是令人滿意的。比較這三種情況后,有兩個(gè)發(fā)現(xiàn):
1)將數(shù)據(jù)人為地劃分成汛期、非汛期兩部分不會(huì)明顯改善模型的性能。與全年模型相比,汛期和非汛期模型在三個(gè)不同的待比較時(shí)段內(nèi)均未明顯改善NSE、RE指標(biāo)。
2)模型在汛期的效果要好于非汛期,全年模型的NSE、RE指標(biāo),在汛期的值為0.696、0.89%均好于其在非汛期的0.587、-11.01%。可能的原因是三峽水庫(kù)汛期以防洪調(diào)度為主,調(diào)度決策受到預(yù)報(bào)入庫(kù)流量、城陵磯水位的影響更加直接。而非汛期,三峽水庫(kù)的作用以興利為主,其出庫(kù)決策受到電網(wǎng)需求等影響,更加復(fù)雜,模擬的準(zhǔn)確性將會(huì)下降。
本研究可從多角度探索其應(yīng)用。從水庫(kù)下游用水者的角度來(lái)看,上游水庫(kù)的出庫(kù)流量高度依賴于水庫(kù)調(diào)度者的決策,與自然條件下的流量過程差異明顯。為了建立適當(dāng)?shù)乃Y源管理計(jì)劃,下游用水者需要了解上游水庫(kù)的運(yùn)行模式,可以建立模型來(lái)估算上游水庫(kù)可能的出庫(kù)流量。
從水庫(kù)決策者的角度來(lái)看,建立的出庫(kù)決策模擬模型已經(jīng)包含了歷史上的專家經(jīng)驗(yàn),在應(yīng)用中可以依據(jù)模型計(jì)算出可供參考的出庫(kù)流量,經(jīng)過決策者人工校正后實(shí)際使用。除模型之外,評(píng)估出的水文信息重要性也有一定實(shí)用價(jià)值。對(duì)于三峽水庫(kù)的調(diào)度管理而言,無(wú)論在汛期還是非汛期,城陵磯水位均為調(diào)度決策的重要指標(biāo),需加以考慮。
從研究人員的角度來(lái)看,許多針對(duì)三峽水庫(kù)的優(yōu)化調(diào)度研究是基于調(diào)度規(guī)則開展的,這些調(diào)度規(guī)則會(huì)包含不同的水文信息作為規(guī)則中的變量。哪些變量應(yīng)該優(yōu)先選擇,論文研究成果可提供一定的參考。第一,三峽水庫(kù)在汛期和非汛期的運(yùn)行方式是不同的,調(diào)度規(guī)則應(yīng)有差異。第二,汛期與非汛期的調(diào)度規(guī)則中都應(yīng)包含預(yù)報(bào)入庫(kù)流量、城陵磯水位,尤其在汛期,預(yù)報(bào)流量對(duì)于水庫(kù)調(diào)度規(guī)則的制訂至關(guān)重要。
本文基于隨機(jī)森林算法,利用月份、水庫(kù)水位、城陵磯水位、預(yù)報(bào)入庫(kù)流量等信息,模擬了三峽水庫(kù)的出庫(kù)決策,構(gòu)建了全年、汛期、非汛期三種時(shí)段下的模擬模型。
從三種模型的模擬結(jié)果,與隨機(jī)森林算法中得到的輸入變量的重要性排名兩個(gè)角度,評(píng)估了水文信息對(duì)水庫(kù)出庫(kù)決策的影響,主要結(jié)論如下:
1)對(duì)模擬的三峽出庫(kù)流量與實(shí)際出庫(kù)流量間的統(tǒng)計(jì)指標(biāo)分析表明,隨機(jī)森林算法可以合理地模擬出三峽水庫(kù)的出庫(kù)決策。
2)無(wú)論是全年、汛期還是非汛期,三峽水庫(kù)調(diào)度決策中,重要信息依次為未來(lái)預(yù)報(bào)流量、城陵磯水位、水庫(kù)水位、月份。在汛期的出庫(kù)決策制定中,未來(lái)預(yù)報(bào)流量尤為重要。
3)無(wú)論在汛期還是非汛期,城陵磯水位均為三峽水庫(kù)調(diào)度決策的重要指標(biāo),需在三峽水庫(kù)的調(diào)度管理和優(yōu)化研究中重點(diǎn)考慮。