• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘在傳統(tǒng)洪水預(yù)報(bào)方案中的應(yīng)用

      2016-11-30 10:11:33姜濤
      東北水利水電 2016年11期
      關(guān)鍵詞:場次水文站決策樹

      姜濤

      (水利部松遼水利委員會,吉林長春130021)

      數(shù)據(jù)挖掘在傳統(tǒng)洪水預(yù)報(bào)方案中的應(yīng)用

      姜濤

      (水利部松遼水利委員會,吉林長春130021)

      數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘一般性規(guī)律規(guī)律。文中利用weka數(shù)據(jù)挖掘平臺的多元線性回歸算法和決策樹算法,對兩種傳統(tǒng)經(jīng)驗(yàn)洪水預(yù)報(bào)方案進(jìn)行了建模和評估,一定程度上提高了洪水預(yù)報(bào)方案精度。

      數(shù)據(jù)挖掘;weka;洪水預(yù)報(bào)方案

      1 前言

      洪水預(yù)報(bào)方案是開展實(shí)時(shí)洪水作業(yè)預(yù)報(bào)的基礎(chǔ),方案精度的高低直接決定作業(yè)預(yù)報(bào)的成敗。按照水文情報(bào)預(yù)報(bào)規(guī)范的技術(shù)要求,只有精度達(dá)到乙級及以上的洪水預(yù)報(bào)方案方可正式發(fā)布預(yù)報(bào),丙級方案只能為防汛決策提供參考。

      目前,水文模型在國內(nèi)應(yīng)用越來越廣泛,但合成流量法、降雨徑流相關(guān)圖法這兩種傳統(tǒng)的經(jīng)驗(yàn)預(yù)報(bào)方法仍在國內(nèi)得到很多應(yīng)用。這兩種預(yù)報(bào)方案參數(shù)少,使用簡單,有一定經(jīng)驗(yàn)的預(yù)報(bào)員很容易完成一次精度較高的實(shí)時(shí)洪水作業(yè)預(yù)報(bào)。但在實(shí)時(shí)洪水作業(yè)預(yù)報(bào)過程中,也暴露出很多問題。一是預(yù)報(bào)方案信息的提取還停留在人工查線讀數(shù)階段,雖然很多系統(tǒng)實(shí)現(xiàn)了自動讀取預(yù)報(bào)方案信息的功能,但信息的“根源”還是來自手工繪制的曲線。二是對歷史水文數(shù)據(jù)的分析深度不夠,常常因?yàn)槿祟惢顒佑绊?,?dǎo)致方案精度不高;三是缺乏理論基礎(chǔ),屬于“黑箱”預(yù)報(bào)方法。

      近年來,數(shù)據(jù)挖掘作為一門新興的數(shù)據(jù)處理技術(shù)日益成熟,挖掘平臺功能越來越強(qiáng)大,集成的算法越來越多,它可以在沒有明確假設(shè)的前提下發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關(guān)系,挖掘有價(jià)值信息、發(fā)現(xiàn)知識,與傳統(tǒng)的數(shù)據(jù)分析、查詢有著本質(zhì)區(qū)別,因而在水利上的應(yīng)用也越來越廣泛。

      2 數(shù)據(jù)挖掘

      WEKA是一個(gè)開源的數(shù)據(jù)挖掘工作平臺,集成了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。文中主要利用weka數(shù)據(jù)挖掘平臺的回歸分析中多元線性回歸算法和分類中的決策樹算法,實(shí)現(xiàn)兩種傳統(tǒng)經(jīng)驗(yàn)洪水預(yù)報(bào)方案模型化,進(jìn)一步提高洪水預(yù)報(bào)方案精度。算法原理如下:

      2.1 回歸分析算法

      回歸分析研究一個(gè)變量和一組其它變量之間相關(guān)關(guān)系的方法,是統(tǒng)計(jì)方法中應(yīng)用最廣泛的方法?;貧w分析按照回歸變量的個(gè)數(shù)不同可以分為一元回歸分析和多元回歸分析,按照回歸的形式不同可以分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以通過對變量進(jìn)行變換,從而轉(zhuǎn)換為線性問題來解決?;貧w分析主要解決以下幾個(gè)方面的問題:

      1)確定幾個(gè)特定變量之間是否存在相關(guān)關(guān)系,如果存在的話,找出它們之間合適的數(shù)學(xué)表達(dá)式。

      2)根據(jù)一個(gè)或幾個(gè)變量的值,預(yù)報(bào)或控制另一個(gè)變量的取值,并且要知道這種預(yù)報(bào)或控制的精確度。

      3)進(jìn)行因素分析,確定因素的主次以及因素之間的相互關(guān)系等。

      2.2 決策樹算法

      決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。決策樹主要的作用是對集合進(jìn)行分類,或者是發(fā)現(xiàn)某類對象的特征模式。它的主要優(yōu)點(diǎn)是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支;在每個(gè)分支子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。

      3 應(yīng)用實(shí)例

      3.1 多元線性回歸算法改進(jìn)合成流量預(yù)報(bào)方案

      3.1.1 研究區(qū)概況

      大賚水文站位于嫩江干流下游,是嫩江流域總控制站,集水面積221 715 km2。富拉爾基至大賚水文站區(qū)間,右岸有雅魯河、綽爾河、洮兒河幾大支流匯入,左岸沒有支流匯入。大賚水文站洪水一般是以干流來水為主,洮兒河洪水受月亮泡水庫控制一般對干流洪水影響較小,雅魯河支流罕達(dá)罕河在碾子山控制斷面下游匯入雅魯河,因而在特殊大水年份,要考慮該河洪水對干流洪水影響。

      大賚水文站現(xiàn)有預(yù)報(bào)方案之一為嫩干富拉爾基水文站、雅魯河碾子山水文站、罕達(dá)罕河景星水文站、綽爾河兩家子水文站合成流量與大賚水文站洪峰流量相關(guān),方案合格率為75%,為乙級方案。

      合成流量法是河道洪水預(yù)算方法之一,通常稱為河道相應(yīng)水位(流量)法,是根據(jù)天然河道洪水波運(yùn)動原理,分析洪水波上任一位相水位(流量)沿河道傳播過程中的變化規(guī)律。在支流來水較大的情況下,通常采用合成流量法。

      3.1.2 研究步驟

      1)數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘的基礎(chǔ)是數(shù)據(jù)的數(shù)量和質(zhì)量。數(shù)據(jù)量越大,越能從數(shù)據(jù)中發(fā)現(xiàn)洪水的一般性規(guī)律,數(shù)據(jù)的準(zhǔn)確性和可靠性也是一切建模和分析是否有效的關(guān)鍵。數(shù)據(jù)挖掘的優(yōu)勢也在于可以從海量的水文歷史資料中按照相關(guān)性、可靠性、最新性等原則,挑選出與研究最有用的部分。

      該研究直接從松花江流域?qū)嵱煤樗A(yù)報(bào)方案(2003年版)中摘取了富拉爾基、碾子山、景星、兩家子、大賚水文站的9場合格場次洪水歷史特征數(shù)據(jù),建立符合weka平臺數(shù)據(jù)格式要求的數(shù)據(jù)集,如表1所示。另外,為了驗(yàn)證模型精度,將方案中2場不合格場次洪水特征數(shù)據(jù),作為檢驗(yàn)?zāi)P途鹊臄?shù)據(jù)集,如表2所示。

      表1 合格場次洪水特征數(shù)據(jù) 流量:m3/s

      表2 不合格場次洪水特征數(shù)據(jù) 流量:m3/s

      需要注意的是還有一場不合格場次洪水特征數(shù)據(jù)被棄用,主要是因?yàn)楦焕瓲柣链筚l水文站區(qū)間河段在1998年第三場特大洪水發(fā)生時(shí),堤防多處決口,大賚站洪峰數(shù)據(jù)為還原數(shù)據(jù),因而不參見建模。

      2)選擇算法,建模。利用W eka軟件的Explorer讀取數(shù)據(jù),選擇線性回歸建立預(yù)報(bào)模型;選擇表1的數(shù)據(jù)集做為訓(xùn)練數(shù)據(jù),選擇表2的數(shù)據(jù)集做為檢驗(yàn)數(shù)據(jù)集;系統(tǒng)運(yùn)行,得出模型的回歸方程如下:

      Q大賚=0.631×Q富拉爾基+1.636×Q碾子山+7.411× Q兩家子+769.692

      3.1.3 模型評估

      1)利用回歸方程建立的模型,用于檢驗(yàn)的不合格場次洪水測試精度均達(dá)到合格標(biāo)準(zhǔn),方案合格率為11/12×100%=92%,為甲級方案,遠(yuǎn)高于原乙級方案的合格率75%。詳見表3。

      2)模型中不包含景星站這個(gè)變量,主要是由于景星站洪水對大賚站洪水貢獻(xiàn)過小,在表1中景星站最大洪峰流量僅為414 m3/s,占大賚站洪峰流量的5%,屬于不敏感參數(shù),在數(shù)據(jù)挖掘過程中被舍棄。但是,當(dāng)景星洪峰較大時(shí),如1998年8月11日8時(shí),景星洪峰流量高達(dá)2 400 m3/s,應(yīng)該將景星洪峰流量與碾子山洪峰流量合并后,再輸入模型計(jì)算,就可以得到令人滿意的預(yù)報(bào)結(jié)果。

      表3 不合格場次洪水檢驗(yàn) 流量:m3/s

      3)模型使用簡單,可以脫離waka平臺。當(dāng)富拉爾基水文站出現(xiàn)洪峰時(shí),提取其余三站同時(shí)流量,代入模型(可以使用excel或計(jì)算器),即可準(zhǔn)確預(yù)報(bào)出大賚水文站洪峰流量,預(yù)見期長達(dá)7 d以上。

      4 決策樹算法改進(jìn)降雨徑流相關(guān)圖預(yù)報(bào)方案

      4.1 研究區(qū)概況

      五道溝水文站是第二松花江支流輝發(fā)河的把口控制站,集水面積12 391 km2。流域內(nèi)水利工程眾多,大型水庫一座,中小水庫幾十座,控制面積3 000 km2,占五道溝集水面積的24.4%。

      五道溝水文站現(xiàn)有預(yù)報(bào)方案之一為:P+Pa~R降雨徑流相關(guān)圖預(yù)報(bào)方案,產(chǎn)流方案合格率為78%,為乙級方案。

      4.2 研究步驟

      1)數(shù)據(jù)預(yù)處理。該研究直接摘取了五道溝水文站P+Pa~R降雨徑流相關(guān)圖預(yù)報(bào)方案中40場合格場次洪水歷史特征數(shù)據(jù),建立符合weka平臺數(shù)據(jù)格式要求的數(shù)據(jù)集。另外,為了驗(yàn)證模型精度,將方案中11場不合格場次洪水特征數(shù)據(jù),作為檢驗(yàn)?zāi)P途鹊臄?shù)據(jù)集。

      2)選擇算法,建模。利用W eka軟件的Explorer讀取數(shù)據(jù),選擇決策樹算法建立預(yù)報(bào)模型;選擇40場合格場次洪水歷史特征數(shù)據(jù)做為訓(xùn)練數(shù)據(jù),選擇11場不合格場次洪水特征數(shù)據(jù)為檢驗(yàn)數(shù)據(jù)集;系統(tǒng)運(yùn)行,得出模型的決策樹結(jié)構(gòu)。

      4.3 模型評估

      1)決策樹算法建立的預(yù)報(bào)模型,用于檢驗(yàn)的11場不合格場次洪水中,有5場測試精度均達(dá)到合格標(biāo)準(zhǔn),方案合格率為45/51×100%=88%,為甲級方案,高于原乙級方案的合格率78%。詳見表4。

      表4 不合格場次洪水檢驗(yàn)

      2)由于五道溝上游中小水庫較多,對河道洪水調(diào)蓄作用較大,而又無法量化,容易導(dǎo)致從實(shí)測洪水?dāng)?shù)據(jù)分割本場次洪水時(shí)誤差較大,進(jìn)而使降雨、前期影響雨量與凈流深的關(guān)系偏離原有規(guī)律。

      3)徑流深只是P+Pa~R降雨徑流相關(guān)圖產(chǎn)流方案的計(jì)算結(jié)果,但徑流深的預(yù)報(bào)精度直接決定了洪水總量和洪峰的大小。

      5 結(jié)語

      本文使用兩種數(shù)據(jù)挖掘算法,對兩種傳統(tǒng)預(yù)報(bào)方案進(jìn)行了建模,進(jìn)一步提高了預(yù)報(bào)方案精度,可以為經(jīng)驗(yàn)洪水預(yù)報(bào)方案編制以及實(shí)時(shí)洪水作業(yè)預(yù)報(bào)提供借鑒和參考。但在研究中也發(fā)現(xiàn)數(shù)據(jù)挖掘具有如下特點(diǎn),需要加以注意。

      1)數(shù)據(jù)挖掘在某一領(lǐng)域應(yīng)用時(shí),需要結(jié)合各種專業(yè)知識和實(shí)際工作經(jīng)驗(yàn)對建模過程進(jìn)行科學(xué)評估,以確保挖掘到的規(guī)律具有一般性,避免不同的研究人員對同樣的數(shù)據(jù)進(jìn)行挖掘,產(chǎn)生差異較大的結(jié)果。

      2)數(shù)據(jù)挖掘平臺功能強(qiáng)大,但只是一個(gè)提供了大量算法的分析工具,并不是萬能的,仍然需要研究人員理解數(shù)據(jù)挖掘流程,了解算法基本原理和專業(yè)知識。

      TV124

      B

      1002-0624(2016)01-0029-03

      2016-08-10

      猜你喜歡
      場次水文站決策樹
      長江上游高洪水期泥沙輸移特性
      SL流量計(jì)在特殊河段的應(yīng)用——以河源水文站為例
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      基于運(yùn)行場次用時(shí)誤差的載人設(shè)備故障預(yù)警可視化研究
      排考場次分配方法及其SQL實(shí)現(xiàn)
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      郭家屯水文站單斷沙關(guān)系分析
      草壩水文站兩種蒸發(fā)器對比分析
      基于決策樹的出租車乘客出行目的識別
      韓府灣水文站報(bào)汛方案
      工布江达县| 富源县| 宜城市| 三穗县| 梅河口市| 石楼县| 健康| 扬中市| 鄄城县| 陆川县| 申扎县| 灌阳县| 类乌齐县| 米脂县| 山西省| 关岭| 托里县| 龙州县| 廉江市| 平江县| 灌云县| 舞钢市| 公主岭市| 宿迁市| 台湾省| 武乡县| 磐石市| 柘城县| 建水县| 浦县| 法库县| 兰坪| 镇赉县| 崇仁县| 富源县| 陆良县| 湖北省| 台前县| 嘉黎县| 沛县| 登封市|