數(shù)據(jù)挖掘在傳統(tǒng)洪水預(yù)報(bào)方案中的應(yīng)用

2016-11-30 10:11:33姜濤

東北水利水電 2016年11期

關(guān)鍵詞：場次水文站決策樹

姜濤

（水利部松遼水利委員會，吉林長春130021）

數(shù)據(jù)挖掘在傳統(tǒng)洪水預(yù)報(bào)方案中的應(yīng)用

姜濤

（水利部松遼水利委員會，吉林長春130021）

數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘一般性規(guī)律規(guī)律。文中利用weka數(shù)據(jù)挖掘平臺的多元線性回歸算法和決策樹算法，對兩種傳統(tǒng)經(jīng)驗(yàn)洪水預(yù)報(bào)方案進(jìn)行了建模和評估，一定程度上提高了洪水預(yù)報(bào)方案精度。

數(shù)據(jù)挖掘；weka;洪水預(yù)報(bào)方案

1 前言

洪水預(yù)報(bào)方案是開展實(shí)時(shí)洪水作業(yè)預(yù)報(bào)的基礎(chǔ)，方案精度的高低直接決定作業(yè)預(yù)報(bào)的成敗。按照水文情報(bào)預(yù)報(bào)規(guī)范的技術(shù)要求，只有精度達(dá)到乙級及以上的洪水預(yù)報(bào)方案方可正式發(fā)布預(yù)報(bào)，丙級方案只能為防汛決策提供參考。

目前，水文模型在國內(nèi)應(yīng)用越來越廣泛，但合成流量法、降雨徑流相關(guān)圖法這兩種傳統(tǒng)的經(jīng)驗(yàn)預(yù)報(bào)方法仍在國內(nèi)得到很多應(yīng)用。這兩種預(yù)報(bào)方案參數(shù)少，使用簡單，有一定經(jīng)驗(yàn)的預(yù)報(bào)員很容易完成一次精度較高的實(shí)時(shí)洪水作業(yè)預(yù)報(bào)。但在實(shí)時(shí)洪水作業(yè)預(yù)報(bào)過程中，也暴露出很多問題。一是預(yù)報(bào)方案信息的提取還停留在人工查線讀數(shù)階段，雖然很多系統(tǒng)實(shí)現(xiàn)了自動讀取預(yù)報(bào)方案信息的功能，但信息的“根源”還是來自手工繪制的曲線。二是對歷史水文數(shù)據(jù)的分析深度不夠，常常因?yàn)槿祟惢顒佑绊?，?dǎo)致方案精度不高；三是缺乏理論基礎(chǔ)，屬于“黑箱”預(yù)報(bào)方法。

近年來，數(shù)據(jù)挖掘作為一門新興的數(shù)據(jù)處理技術(shù)日益成熟，挖掘平臺功能越來越強(qiáng)大，集成的算法越來越多，它可以在沒有明確假設(shè)的前提下發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關(guān)系，挖掘有價(jià)值信息、發(fā)現(xiàn)知識，與傳統(tǒng)的數(shù)據(jù)分析、查詢有著本質(zhì)區(qū)別，因而在水利上的應(yīng)用也越來越廣泛。

2 數(shù)據(jù)挖掘

WEKA是一個(gè)開源的數(shù)據(jù)挖掘工作平臺，集成了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法，包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化，是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。文中主要利用weka數(shù)據(jù)挖掘平臺的回歸分析中多元線性回歸算法和分類中的決策樹算法，實(shí)現(xiàn)兩種傳統(tǒng)經(jīng)驗(yàn)洪水預(yù)報(bào)方案模型化，進(jìn)一步提高洪水預(yù)報(bào)方案精度。算法原理如下：

2．1 回歸分析算法

回歸分析研究一個(gè)變量和一組其它變量之間相關(guān)關(guān)系的方法，是統(tǒng)計(jì)方法中應(yīng)用最廣泛的方法?；貧w分析按照回歸變量的個(gè)數(shù)不同可以分為一元回歸分析和多元回歸分析，按照回歸的形式不同可以分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法，遇到非線性回歸問題可以通過對變量進(jìn)行變換，從而轉(zhuǎn)換為線性問題來解決?；貧w分析主要解決以下幾個(gè)方面的問題：

1）確定幾個(gè)特定變量之間是否存在相關(guān)關(guān)系，如果存在的話，找出它們之間合適的數(shù)學(xué)表達(dá)式。

2）根據(jù)一個(gè)或幾個(gè)變量的值，預(yù)報(bào)或控制另一個(gè)變量的取值，并且要知道這種預(yù)報(bào)或控制的精確度。

3）進(jìn)行因素分析，確定因素的主次以及因素之間的相互關(guān)系等。

2．2 決策樹算法

決策樹是一種常用于預(yù)測模型的算法，它通過將大量數(shù)據(jù)有目的分類，從中找到一些有價(jià)值的，潛在的信息。決策樹主要的作用是對集合進(jìn)行分類，或者是發(fā)現(xiàn)某類對象的特征模式。它的主要優(yōu)點(diǎn)是描述簡單，分類速度快，特別適合大規(guī)模的數(shù)據(jù)處理。利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段，建立決策樹的一個(gè)結(jié)點(diǎn)，再根據(jù)字段的不同取值建立樹的分支；在每個(gè)分支子集中，重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程，即可建立決策樹。

3 應(yīng)用實(shí)例

3．1 多元線性回歸算法改進(jìn)合成流量預(yù)報(bào)方案

3．1．1 研究區(qū)概況

大賚水文站位于嫩江干流下游，是嫩江流域總控制站，集水面積221 715 km2。富拉爾基至大賚水文站區(qū)間，右岸有雅魯河、綽爾河、洮兒河幾大支流匯入，左岸沒有支流匯入。大賚水文站洪水一般是以干流來水為主，洮兒河洪水受月亮泡水庫控制一般對干流洪水影響較小，雅魯河支流罕達(dá)罕河在碾子山控制斷面下游匯入雅魯河，因而在特殊大水年份，要考慮該河洪水對干流洪水影響。

大賚水文站現(xiàn)有預(yù)報(bào)方案之一為嫩干富拉爾基水文站、雅魯河碾子山水文站、罕達(dá)罕河景星水文站、綽爾河兩家子水文站合成流量與大賚水文站洪峰流量相關(guān)，方案合格率為75%，為乙級方案。

合成流量法是河道洪水預(yù)算方法之一，通常稱為河道相應(yīng)水位（流量）法，是根據(jù)天然河道洪水波運(yùn)動原理，分析洪水波上任一位相水位（流量）沿河道傳播過程中的變化規(guī)律。在支流來水較大的情況下，通常采用合成流量法。

3．1．2 研究步驟

1）數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘的基礎(chǔ)是數(shù)據(jù)的數(shù)量和質(zhì)量。數(shù)據(jù)量越大，越能從數(shù)據(jù)中發(fā)現(xiàn)洪水的一般性規(guī)律，數(shù)據(jù)的準(zhǔn)確性和可靠性也是一切建模和分析是否有效的關(guān)鍵。數(shù)據(jù)挖掘的優(yōu)勢也在于可以從海量的水文歷史資料中按照相關(guān)性、可靠性、最新性等原則，挑選出與研究最有用的部分。

該研究直接從松花江流域?qū)嵱煤樗A(yù)報(bào)方案（2003年版）中摘取了富拉爾基、碾子山、景星、兩家子、大賚水文站的9場合格場次洪水歷史特征數(shù)據(jù)，建立符合weka平臺數(shù)據(jù)格式要求的數(shù)據(jù)集，如表1所示。另外，為了驗(yàn)證模型精度，將方案中2場不合格場次洪水特征數(shù)據(jù)，作為檢驗(yàn)?zāi)Ｐ途鹊臄?shù)據(jù)集，如表2所示。

表1 合格場次洪水特征數(shù)據(jù) 流量：m3/s

表2 不合格場次洪水特征數(shù)據(jù) 流量：m3/s

需要注意的是還有一場不合格場次洪水特征數(shù)據(jù)被棄用，主要是因?yàn)楦焕瓲柣链筚l水文站區(qū)間河段在1998年第三場特大洪水發(fā)生時(shí)，堤防多處決口，大賚站洪峰數(shù)據(jù)為還原數(shù)據(jù)，因而不參見建模。

2）選擇算法，建模。利用W eka軟件的Explorer讀取數(shù)據(jù)，選擇線性回歸建立預(yù)報(bào)模型；選擇表1的數(shù)據(jù)集做為訓(xùn)練數(shù)據(jù)，選擇表2的數(shù)據(jù)集做為檢驗(yàn)數(shù)據(jù)集；系統(tǒng)運(yùn)行，得出模型的回歸方程如下：

Q大賚=0.631×Q富拉爾基+1.636×Q碾子山+7.411× Q兩家子+769.692

3．1．3 模型評估

1）利用回歸方程建立的模型，用于檢驗(yàn)的不合格場次洪水測試精度均達(dá)到合格標(biāo)準(zhǔn)，方案合格率為11/12×100%=92%，為甲級方案，遠(yuǎn)高于原乙級方案的合格率75%。詳見表3。

2）模型中不包含景星站這個(gè)變量，主要是由于景星站洪水對大賚站洪水貢獻(xiàn)過小，在表1中景星站最大洪峰流量僅為414 m3/s，占大賚站洪峰流量的5%，屬于不敏感參數(shù)，在數(shù)據(jù)挖掘過程中被舍棄。但是，當(dāng)景星洪峰較大時(shí)，如1998年8月11日8時(shí)，景星洪峰流量高達(dá)2 400 m3/s，應(yīng)該將景星洪峰流量與碾子山洪峰流量合并后，再輸入模型計(jì)算，就可以得到令人滿意的預(yù)報(bào)結(jié)果。

表3 不合格場次洪水檢驗(yàn) 流量：m3/s

3）模型使用簡單，可以脫離waka平臺。當(dāng)富拉爾基水文站出現(xiàn)洪峰時(shí)，提取其余三站同時(shí)流量，代入模型（可以使用excel或計(jì)算器），即可準(zhǔn)確預(yù)報(bào)出大賚水文站洪峰流量，預(yù)見期長達(dá)7 d以上。

4 決策樹算法改進(jìn)降雨徑流相關(guān)圖預(yù)報(bào)方案

4．1 研究區(qū)概況

五道溝水文站是第二松花江支流輝發(fā)河的把口控制站，集水面積12 391 km2。流域內(nèi)水利工程眾多，大型水庫一座，中小水庫幾十座，控制面積3 000 km2，占五道溝集水面積的24.4%。

五道溝水文站現(xiàn)有預(yù)報(bào)方案之一為：P+Pa～R降雨徑流相關(guān)圖預(yù)報(bào)方案，產(chǎn)流方案合格率為78%，為乙級方案。

4．2 研究步驟

1）數(shù)據(jù)預(yù)處理。該研究直接摘取了五道溝水文站P+Pa～R降雨徑流相關(guān)圖預(yù)報(bào)方案中40場合格場次洪水歷史特征數(shù)據(jù)，建立符合weka平臺數(shù)據(jù)格式要求的數(shù)據(jù)集。另外，為了驗(yàn)證模型精度，將方案中11場不合格場次洪水特征數(shù)據(jù)，作為檢驗(yàn)?zāi)Ｐ途鹊臄?shù)據(jù)集。

2）選擇算法，建模。利用W eka軟件的Explorer讀取數(shù)據(jù)，選擇決策樹算法建立預(yù)報(bào)模型；選擇40場合格場次洪水歷史特征數(shù)據(jù)做為訓(xùn)練數(shù)據(jù)，選擇11場不合格場次洪水特征數(shù)據(jù)為檢驗(yàn)數(shù)據(jù)集；系統(tǒng)運(yùn)行，得出模型的決策樹結(jié)構(gòu)。

4．3 模型評估

1）決策樹算法建立的預(yù)報(bào)模型，用于檢驗(yàn)的11場不合格場次洪水中，有5場測試精度均達(dá)到合格標(biāo)準(zhǔn)，方案合格率為45/51×100%=88%，為甲級方案，高于原乙級方案的合格率78%。詳見表4。

表4 不合格場次洪水檢驗(yàn)

2）由于五道溝上游中小水庫較多，對河道洪水調(diào)蓄作用較大，而又無法量化，容易導(dǎo)致從實(shí)測洪水?dāng)?shù)據(jù)分割本場次洪水時(shí)誤差較大，進(jìn)而使降雨、前期影響雨量與凈流深的關(guān)系偏離原有規(guī)律。

3）徑流深只是P+Pa～R降雨徑流相關(guān)圖產(chǎn)流方案的計(jì)算結(jié)果，但徑流深的預(yù)報(bào)精度直接決定了洪水總量和洪峰的大小。

5 結(jié)語

本文使用兩種數(shù)據(jù)挖掘算法，對兩種傳統(tǒng)預(yù)報(bào)方案進(jìn)行了建模，進(jìn)一步提高了預(yù)報(bào)方案精度，可以為經(jīng)驗(yàn)洪水預(yù)報(bào)方案編制以及實(shí)時(shí)洪水作業(yè)預(yù)報(bào)提供借鑒和參考。但在研究中也發(fā)現(xiàn)數(shù)據(jù)挖掘具有如下特點(diǎn)，需要加以注意。

1）數(shù)據(jù)挖掘在某一領(lǐng)域應(yīng)用時(shí)，需要結(jié)合各種專業(yè)知識和實(shí)際工作經(jīng)驗(yàn)對建模過程進(jìn)行科學(xué)評估，以確保挖掘到的規(guī)律具有一般性，避免不同的研究人員對同樣的數(shù)據(jù)進(jìn)行挖掘，產(chǎn)生差異較大的結(jié)果。

2）數(shù)據(jù)挖掘平臺功能強(qiáng)大，但只是一個(gè)提供了大量算法的分析工具，并不是萬能的，仍然需要研究人員理解數(shù)據(jù)挖掘流程，了解算法基本原理和專業(yè)知識。

TV124

1002－0624（2016）01－0029－03

2016-08-10