姜濤
(水利部松遼水利委員會,吉林長春130021)
數(shù)據(jù)挖掘在傳統(tǒng)洪水預(yù)報(bào)方案中的應(yīng)用
姜濤
(水利部松遼水利委員會,吉林長春130021)
數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘一般性規(guī)律規(guī)律。文中利用weka數(shù)據(jù)挖掘平臺的多元線性回歸算法和決策樹算法,對兩種傳統(tǒng)經(jīng)驗(yàn)洪水預(yù)報(bào)方案進(jìn)行了建模和評估,一定程度上提高了洪水預(yù)報(bào)方案精度。
數(shù)據(jù)挖掘;weka;洪水預(yù)報(bào)方案
洪水預(yù)報(bào)方案是開展實(shí)時(shí)洪水作業(yè)預(yù)報(bào)的基礎(chǔ),方案精度的高低直接決定作業(yè)預(yù)報(bào)的成敗。按照水文情報(bào)預(yù)報(bào)規(guī)范的技術(shù)要求,只有精度達(dá)到乙級及以上的洪水預(yù)報(bào)方案方可正式發(fā)布預(yù)報(bào),丙級方案只能為防汛決策提供參考。
目前,水文模型在國內(nèi)應(yīng)用越來越廣泛,但合成流量法、降雨徑流相關(guān)圖法這兩種傳統(tǒng)的經(jīng)驗(yàn)預(yù)報(bào)方法仍在國內(nèi)得到很多應(yīng)用。這兩種預(yù)報(bào)方案參數(shù)少,使用簡單,有一定經(jīng)驗(yàn)的預(yù)報(bào)員很容易完成一次精度較高的實(shí)時(shí)洪水作業(yè)預(yù)報(bào)。但在實(shí)時(shí)洪水作業(yè)預(yù)報(bào)過程中,也暴露出很多問題。一是預(yù)報(bào)方案信息的提取還停留在人工查線讀數(shù)階段,雖然很多系統(tǒng)實(shí)現(xiàn)了自動讀取預(yù)報(bào)方案信息的功能,但信息的“根源”還是來自手工繪制的曲線。二是對歷史水文數(shù)據(jù)的分析深度不夠,常常因?yàn)槿祟惢顒佑绊?,?dǎo)致方案精度不高;三是缺乏理論基礎(chǔ),屬于“黑箱”預(yù)報(bào)方法。
近年來,數(shù)據(jù)挖掘作為一門新興的數(shù)據(jù)處理技術(shù)日益成熟,挖掘平臺功能越來越強(qiáng)大,集成的算法越來越多,它可以在沒有明確假設(shè)的前提下發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關(guān)系,挖掘有價(jià)值信息、發(fā)現(xiàn)知識,與傳統(tǒng)的數(shù)據(jù)分析、查詢有著本質(zhì)區(qū)別,因而在水利上的應(yīng)用也越來越廣泛。
WEKA是一個(gè)開源的數(shù)據(jù)挖掘工作平臺,集成了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。文中主要利用weka數(shù)據(jù)挖掘平臺的回歸分析中多元線性回歸算法和分類中的決策樹算法,實(shí)現(xiàn)兩種傳統(tǒng)經(jīng)驗(yàn)洪水預(yù)報(bào)方案模型化,進(jìn)一步提高洪水預(yù)報(bào)方案精度。算法原理如下:
2.1 回歸分析算法
回歸分析研究一個(gè)變量和一組其它變量之間相關(guān)關(guān)系的方法,是統(tǒng)計(jì)方法中應(yīng)用最廣泛的方法?;貧w分析按照回歸變量的個(gè)數(shù)不同可以分為一元回歸分析和多元回歸分析,按照回歸的形式不同可以分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以通過對變量進(jìn)行變換,從而轉(zhuǎn)換為線性問題來解決?;貧w分析主要解決以下幾個(gè)方面的問題:
1)確定幾個(gè)特定變量之間是否存在相關(guān)關(guān)系,如果存在的話,找出它們之間合適的數(shù)學(xué)表達(dá)式。
2)根據(jù)一個(gè)或幾個(gè)變量的值,預(yù)報(bào)或控制另一個(gè)變量的取值,并且要知道這種預(yù)報(bào)或控制的精確度。
3)進(jìn)行因素分析,確定因素的主次以及因素之間的相互關(guān)系等。
2.2 決策樹算法
決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。決策樹主要的作用是對集合進(jìn)行分類,或者是發(fā)現(xiàn)某類對象的特征模式。它的主要優(yōu)點(diǎn)是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支;在每個(gè)分支子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。
3.1 多元線性回歸算法改進(jìn)合成流量預(yù)報(bào)方案
3.1.1 研究區(qū)概況
大賚水文站位于嫩江干流下游,是嫩江流域總控制站,集水面積221 715 km2。富拉爾基至大賚水文站區(qū)間,右岸有雅魯河、綽爾河、洮兒河幾大支流匯入,左岸沒有支流匯入。大賚水文站洪水一般是以干流來水為主,洮兒河洪水受月亮泡水庫控制一般對干流洪水影響較小,雅魯河支流罕達(dá)罕河在碾子山控制斷面下游匯入雅魯河,因而在特殊大水年份,要考慮該河洪水對干流洪水影響。
大賚水文站現(xiàn)有預(yù)報(bào)方案之一為嫩干富拉爾基水文站、雅魯河碾子山水文站、罕達(dá)罕河景星水文站、綽爾河兩家子水文站合成流量與大賚水文站洪峰流量相關(guān),方案合格率為75%,為乙級方案。
合成流量法是河道洪水預(yù)算方法之一,通常稱為河道相應(yīng)水位(流量)法,是根據(jù)天然河道洪水波運(yùn)動原理,分析洪水波上任一位相水位(流量)沿河道傳播過程中的變化規(guī)律。在支流來水較大的情況下,通常采用合成流量法。
3.1.2 研究步驟
1)數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘的基礎(chǔ)是數(shù)據(jù)的數(shù)量和質(zhì)量。數(shù)據(jù)量越大,越能從數(shù)據(jù)中發(fā)現(xiàn)洪水的一般性規(guī)律,數(shù)據(jù)的準(zhǔn)確性和可靠性也是一切建模和分析是否有效的關(guān)鍵。數(shù)據(jù)挖掘的優(yōu)勢也在于可以從海量的水文歷史資料中按照相關(guān)性、可靠性、最新性等原則,挑選出與研究最有用的部分。
該研究直接從松花江流域?qū)嵱煤樗A(yù)報(bào)方案(2003年版)中摘取了富拉爾基、碾子山、景星、兩家子、大賚水文站的9場合格場次洪水歷史特征數(shù)據(jù),建立符合weka平臺數(shù)據(jù)格式要求的數(shù)據(jù)集,如表1所示。另外,為了驗(yàn)證模型精度,將方案中2場不合格場次洪水特征數(shù)據(jù),作為檢驗(yàn)?zāi)P途鹊臄?shù)據(jù)集,如表2所示。
表1 合格場次洪水特征數(shù)據(jù) 流量:m3/s
表2 不合格場次洪水特征數(shù)據(jù) 流量:m3/s
需要注意的是還有一場不合格場次洪水特征數(shù)據(jù)被棄用,主要是因?yàn)楦焕瓲柣链筚l水文站區(qū)間河段在1998年第三場特大洪水發(fā)生時(shí),堤防多處決口,大賚站洪峰數(shù)據(jù)為還原數(shù)據(jù),因而不參見建模。
2)選擇算法,建模。利用W eka軟件的Explorer讀取數(shù)據(jù),選擇線性回歸建立預(yù)報(bào)模型;選擇表1的數(shù)據(jù)集做為訓(xùn)練數(shù)據(jù),選擇表2的數(shù)據(jù)集做為檢驗(yàn)數(shù)據(jù)集;系統(tǒng)運(yùn)行,得出模型的回歸方程如下:
Q大賚=0.631×Q富拉爾基+1.636×Q碾子山+7.411× Q兩家子+769.692
3.1.3 模型評估
1)利用回歸方程建立的模型,用于檢驗(yàn)的不合格場次洪水測試精度均達(dá)到合格標(biāo)準(zhǔn),方案合格率為11/12×100%=92%,為甲級方案,遠(yuǎn)高于原乙級方案的合格率75%。詳見表3。
2)模型中不包含景星站這個(gè)變量,主要是由于景星站洪水對大賚站洪水貢獻(xiàn)過小,在表1中景星站最大洪峰流量僅為414 m3/s,占大賚站洪峰流量的5%,屬于不敏感參數(shù),在數(shù)據(jù)挖掘過程中被舍棄。但是,當(dāng)景星洪峰較大時(shí),如1998年8月11日8時(shí),景星洪峰流量高達(dá)2 400 m3/s,應(yīng)該將景星洪峰流量與碾子山洪峰流量合并后,再輸入模型計(jì)算,就可以得到令人滿意的預(yù)報(bào)結(jié)果。
表3 不合格場次洪水檢驗(yàn) 流量:m3/s
3)模型使用簡單,可以脫離waka平臺。當(dāng)富拉爾基水文站出現(xiàn)洪峰時(shí),提取其余三站同時(shí)流量,代入模型(可以使用excel或計(jì)算器),即可準(zhǔn)確預(yù)報(bào)出大賚水文站洪峰流量,預(yù)見期長達(dá)7 d以上。
4.1 研究區(qū)概況
五道溝水文站是第二松花江支流輝發(fā)河的把口控制站,集水面積12 391 km2。流域內(nèi)水利工程眾多,大型水庫一座,中小水庫幾十座,控制面積3 000 km2,占五道溝集水面積的24.4%。
五道溝水文站現(xiàn)有預(yù)報(bào)方案之一為:P+Pa~R降雨徑流相關(guān)圖預(yù)報(bào)方案,產(chǎn)流方案合格率為78%,為乙級方案。
4.2 研究步驟
1)數(shù)據(jù)預(yù)處理。該研究直接摘取了五道溝水文站P+Pa~R降雨徑流相關(guān)圖預(yù)報(bào)方案中40場合格場次洪水歷史特征數(shù)據(jù),建立符合weka平臺數(shù)據(jù)格式要求的數(shù)據(jù)集。另外,為了驗(yàn)證模型精度,將方案中11場不合格場次洪水特征數(shù)據(jù),作為檢驗(yàn)?zāi)P途鹊臄?shù)據(jù)集。
2)選擇算法,建模。利用W eka軟件的Explorer讀取數(shù)據(jù),選擇決策樹算法建立預(yù)報(bào)模型;選擇40場合格場次洪水歷史特征數(shù)據(jù)做為訓(xùn)練數(shù)據(jù),選擇11場不合格場次洪水特征數(shù)據(jù)為檢驗(yàn)數(shù)據(jù)集;系統(tǒng)運(yùn)行,得出模型的決策樹結(jié)構(gòu)。
4.3 模型評估
1)決策樹算法建立的預(yù)報(bào)模型,用于檢驗(yàn)的11場不合格場次洪水中,有5場測試精度均達(dá)到合格標(biāo)準(zhǔn),方案合格率為45/51×100%=88%,為甲級方案,高于原乙級方案的合格率78%。詳見表4。
表4 不合格場次洪水檢驗(yàn)
2)由于五道溝上游中小水庫較多,對河道洪水調(diào)蓄作用較大,而又無法量化,容易導(dǎo)致從實(shí)測洪水?dāng)?shù)據(jù)分割本場次洪水時(shí)誤差較大,進(jìn)而使降雨、前期影響雨量與凈流深的關(guān)系偏離原有規(guī)律。
3)徑流深只是P+Pa~R降雨徑流相關(guān)圖產(chǎn)流方案的計(jì)算結(jié)果,但徑流深的預(yù)報(bào)精度直接決定了洪水總量和洪峰的大小。
本文使用兩種數(shù)據(jù)挖掘算法,對兩種傳統(tǒng)預(yù)報(bào)方案進(jìn)行了建模,進(jìn)一步提高了預(yù)報(bào)方案精度,可以為經(jīng)驗(yàn)洪水預(yù)報(bào)方案編制以及實(shí)時(shí)洪水作業(yè)預(yù)報(bào)提供借鑒和參考。但在研究中也發(fā)現(xiàn)數(shù)據(jù)挖掘具有如下特點(diǎn),需要加以注意。
1)數(shù)據(jù)挖掘在某一領(lǐng)域應(yīng)用時(shí),需要結(jié)合各種專業(yè)知識和實(shí)際工作經(jīng)驗(yàn)對建模過程進(jìn)行科學(xué)評估,以確保挖掘到的規(guī)律具有一般性,避免不同的研究人員對同樣的數(shù)據(jù)進(jìn)行挖掘,產(chǎn)生差異較大的結(jié)果。
2)數(shù)據(jù)挖掘平臺功能強(qiáng)大,但只是一個(gè)提供了大量算法的分析工具,并不是萬能的,仍然需要研究人員理解數(shù)據(jù)挖掘流程,了解算法基本原理和專業(yè)知識。
TV124
B
1002-0624(2016)01-0029-03
2016-08-10