黃 煒,李雪真,趙 嘉,趙麗華,李臣民
(1.江蘇省水文水資源勘測(cè)局,江蘇南京 210029;2.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇南京 210098)
基于樸素貝葉斯算法的流域降水預(yù)測(cè)方法
黃 煒1,李雪真2,趙 嘉2,趙麗華2,李臣民2
(1.江蘇省水文水資源勘測(cè)局,江蘇南京 210029;2.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇南京 210098)
為了在降水成因尚不明確的情況下有效利用相關(guān)歷史資料提高降水預(yù)報(bào)水平,提出了基于樸素貝葉斯算法的流域降水預(yù)測(cè)方法。以東江流域?yàn)槔?,通過(guò)構(gòu)造不同降水?dāng)?shù)據(jù)特征集預(yù)測(cè)流域內(nèi)降水情況,并與傳統(tǒng)時(shí)間序列方法和BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行預(yù)測(cè)準(zhǔn)確率對(duì)比驗(yàn)證,結(jié)果表明,基于樸素貝葉斯算法的降水預(yù)測(cè)方法取得了比傳統(tǒng)時(shí)間序列方法和BP神經(jīng)網(wǎng)絡(luò)方法更好的降水預(yù)測(cè)效果。
降水預(yù)測(cè);樸素貝葉斯算法;貝葉斯估計(jì);F-measure評(píng)價(jià)方法
準(zhǔn)確、可靠地預(yù)測(cè)未來(lái)降水狀況,特別是暴雨預(yù)測(cè),既是水資源合理開(kāi)發(fā)和科學(xué)調(diào)配的基礎(chǔ),也是確保社會(huì)穩(wěn)定、人民生命財(cái)產(chǎn)安全,以及維護(hù)自然生態(tài)和環(huán)境安全的關(guān)鍵[1]。然而,降水是一種依賴(lài)于非線(xiàn)性動(dòng)態(tài)多時(shí)空尺度環(huán)流系統(tǒng)的氣象現(xiàn)象,同時(shí)也是局地環(huán)流、熱力作用與當(dāng)?shù)夭痪鶆虻牡匦?、地貌相結(jié)合的產(chǎn)物[2-3]。盡管已有許多不同時(shí)空尺度的降水預(yù)測(cè)研究成果,但由于降水產(chǎn)生的內(nèi)部機(jī)理尚不完全明確,有效的降水預(yù)測(cè),尤其是極端降水預(yù)測(cè)仍然是一個(gè)挑戰(zhàn)。從方法上分,降水預(yù)測(cè)方法可分為天氣學(xué)和統(tǒng)計(jì)學(xué)兩種方法。天氣學(xué)降水預(yù)測(cè)方法[4-5]主要依靠機(jī)理預(yù)測(cè),缺點(diǎn)是不同預(yù)報(bào)員做出的降水量預(yù)報(bào)可能會(huì)有很大的差異,并且天氣圖上難以清楚分辨局部地區(qū)的中小尺度暴雨。統(tǒng)計(jì)學(xué)降水預(yù)測(cè)方法[6-7]是根據(jù)已有的氣象資料,利用數(shù)理統(tǒng)計(jì)的方法尋找降水現(xiàn)象發(fā)生的可能規(guī)律,根據(jù)過(guò)去或者現(xiàn)在的天氣氣候給出未來(lái)降水事件出現(xiàn)的概率,可以分為基于生成模型(generative modeling)的預(yù)測(cè)方法和基于判別模型(discrimitive modeling)的預(yù)測(cè)方法[8-10]。生成模型從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況,主要反映同類(lèi)數(shù)據(jù)本身的相似度;判別模型直接學(xué)習(xí)的是決策函數(shù)或者條件概率分布,不能反映訓(xùn)練數(shù)據(jù)本身的特性,但它尋找不同類(lèi)別之間的最優(yōu)分類(lèi)面,反映的是異類(lèi)數(shù)據(jù)之間的差異。由于引發(fā)降水的水汽條件具有連續(xù)性,生成模型從物理機(jī)制上更符合降水事件的預(yù)測(cè),其主要應(yīng)用難點(diǎn)在于特征集的質(zhì)量以及特征選取。
本文提出了基于樸素貝葉斯算法的流域降水預(yù)測(cè)方法,通過(guò)基于函數(shù)的特征生成方法獲取豐富的特征集,針對(duì)樸素貝葉斯的特征獨(dú)立性假設(shè),采用相關(guān)性分析并通過(guò)交叉驗(yàn)證取得最優(yōu)特征集合,以東江流域?yàn)槔龑?duì)所提出的方法進(jìn)行了驗(yàn)證,并與幾種常用的時(shí)間序列方法和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了對(duì)比分析。
1.1 樸素貝葉斯降水預(yù)測(cè)方法
樸素貝葉斯算法[7]是一種基于貝葉斯定理的統(tǒng)計(jì)學(xué)方法。貝葉斯定理是概率統(tǒng)計(jì)學(xué)中的一個(gè)分支,其核心是貝葉斯公式。設(shè)X為某一測(cè)試樣本,Y={y1,y2,…,yk}為類(lèi)別集合,表示樣本X屬于不同類(lèi)別Y的概率,可以認(rèn)為最大概率值對(duì)應(yīng)的類(lèi)別yi就是該樣本被分配的類(lèi)別,可通過(guò)貝葉斯公式求得:
本文中,X={x1,x2,…,xn}表示包含不同特征屬性的降水特征集,Y={y1,y2,…,yk}表示不同降水等級(jí)類(lèi)別集合。樸素貝葉斯算法中的獨(dú)立性假設(shè)要求在給定特征集時(shí)各特征屬性之間相互條件獨(dú)立,基于此,條件分布概率計(jì)算可簡(jiǎn)化為
樸素貝葉斯算法中的獨(dú)立性假設(shè)忽略了特征之間存在的條件依賴(lài)關(guān)系,使樸素貝葉斯算法的計(jì)算變得簡(jiǎn)單,但會(huì)犧牲一定的預(yù)測(cè)準(zhǔn)確率。式(3)中可通過(guò)極大似然估計(jì)法計(jì)算。假設(shè)xj可取值有Sj(j=1,2,…,n)個(gè),Y可取值有k個(gè),則參數(shù)個(gè)數(shù)為,有
式(4)等價(jià)于在隨機(jī)變量各個(gè)取值的頻數(shù)上賦予一個(gè)正數(shù)(λ>0),當(dāng)λ=0時(shí)就是極大似然估計(jì),常取λ=1,這時(shí)稱(chēng)為拉普拉斯平滑。對(duì)任何l、p(l= 1,2,…,n;p=1,2,…,k),有
同理,P(Y)也可通過(guò)貝葉斯估計(jì)得到:
P(X)可通過(guò)以下公式求得:
因此,對(duì)于一個(gè)給定的降水特征集輸入X={x1,x2,…,xn},根據(jù)式(1)可求得:
則降水等級(jí)為最大概率值對(duì)應(yīng)的類(lèi)別yi,即:
1.2 相關(guān)性分析
由于樸素貝葉斯算法中的獨(dú)立性假設(shè)要求各特征屬性之間相互條件獨(dú)立,需要對(duì)算法采用的屬性集進(jìn)行相關(guān)性分析,以排除由于強(qiáng)相關(guān)的特征對(duì)模型預(yù)測(cè)效果帶來(lái)的負(fù)面影響。通過(guò)相關(guān)性分析進(jìn)行屬性約簡(jiǎn),得到滿(mǎn)意的屬性約簡(jiǎn)子集。本文通過(guò)對(duì)候選特征集合進(jìn)行相關(guān)性分析,對(duì)于高于一定相關(guān)性閾值的特征在特征組合選取時(shí)不允許同時(shí)出現(xiàn),以從一定程度上近似滿(mǎn)足樸素貝葉斯算法的獨(dú)立性假設(shè)要求。
1.3 特征集選擇
樸素貝葉斯算法中特征集選擇采用交叉驗(yàn)證(cross validation,CV)方法。交叉驗(yàn)證是用于確保預(yù)測(cè)模型具有較好泛化性能的一種方法,其基本思想是將原始數(shù)據(jù)分成兩部分,一部分作為訓(xùn)練數(shù)據(jù)集,另一部分作為驗(yàn)證數(shù)據(jù)集。先用訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,比如參數(shù)選擇,而對(duì)于樸素貝葉斯模型而言可以用于特征選擇;然后利用驗(yàn)證數(shù)據(jù)集來(lái)測(cè)試訓(xùn)練得到的模型,以此作為評(píng)價(jià)或選擇預(yù)測(cè)模型的性能指標(biāo)。本文采用常用的K-fold CV方法進(jìn)行最優(yōu)特征集選取,該方法將原始數(shù)據(jù)分成K組(一般是均分),將每個(gè)組的數(shù)據(jù)分別充當(dāng)一次驗(yàn)證數(shù)據(jù)集,其余的K-1組的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。為了保持?jǐn)?shù)據(jù)的年際特點(diǎn),取K=5,并且是按年劃分,而不采用隨機(jī)劃分,以此來(lái)確保數(shù)據(jù)劃分保持年內(nèi)變化。通過(guò)相關(guān)性分析去除存在高相關(guān)性的特征組合,然后選取交叉驗(yàn)證中取得最好預(yù)測(cè)性能的特征組合作為選定的特征集。
2.1 數(shù)據(jù)集的獲取
以東江流域?yàn)槔M(jìn)行實(shí)例分析。東江流域是珠江流域的三大水系之一,流域面積27 040 km2,其中廣東省境內(nèi)占87.06%,江西省境內(nèi)占12.94%。采用的數(shù)據(jù)集為從中國(guó)氣象科學(xué)數(shù)據(jù)服務(wù)共享網(wǎng)中獲取的中國(guó)逐日網(wǎng)格降水量實(shí)時(shí)分析系統(tǒng)數(shù)據(jù),該數(shù)據(jù)集是通過(guò)實(shí)時(shí)從綜合庫(kù)提取全國(guó)2 419個(gè)站(包括國(guó)家氣候觀象臺(tái),國(guó)家氣象觀測(cè)一級(jí)站、二級(jí)站)逐日降水量,采用基于“氣候背景場(chǎng)”的最優(yōu)插值方法,實(shí)時(shí)生成中國(guó)區(qū)域逐日降水量的網(wǎng)格產(chǎn)品。在中國(guó)逐日網(wǎng)格降水量的基礎(chǔ)上,結(jié)合實(shí)驗(yàn)流域所對(duì)應(yīng)的格點(diǎn)面積比例進(jìn)行計(jì)算[10],可以得出實(shí)驗(yàn)流域2008年4月1日至2014年3月31日6年的降水量樣本數(shù)據(jù),并依據(jù)中國(guó)氣象局發(fā)布的降雨強(qiáng)度等級(jí)標(biāo)準(zhǔn)劃分為[0 mm,10 mm)、[10 mm,25 mm)、[25mm,50mm)、[50mm,100mm)、[100mm,250mm)5個(gè)等級(jí),以前4年數(shù)據(jù)作為訓(xùn)練樣本,第5年數(shù)據(jù)作為測(cè)試樣本,最后1年數(shù)據(jù)作為應(yīng)用檢驗(yàn)樣本。
2.2 特征集構(gòu)建
通常原始數(shù)據(jù)不能直接使用,需要構(gòu)建特征集[11]。本文通過(guò)合適的特征生成方法,豐富特征表達(dá),充分發(fā)揮各類(lèi)數(shù)據(jù)在模型預(yù)測(cè)中的價(jià)值。在流域逐日網(wǎng)格降水量數(shù)據(jù)以及流域多年降水情況的基礎(chǔ)上,保持可解釋性的前提下,采用聚合、序列指標(biāo)統(tǒng)計(jì)和規(guī)約等方法,從原始特征出發(fā)生成能有效應(yīng)用于流域降水預(yù)測(cè)應(yīng)用的特征集,如表1所示。
2.3 對(duì)比方法
采用傳統(tǒng)時(shí)間序列方法和神經(jīng)網(wǎng)絡(luò)方法等4種常用方法,檢驗(yàn)各方法在流域降水等級(jí)預(yù)測(cè)中的準(zhǔn)確度。
a.簡(jiǎn)單移動(dòng)平均方法(simple moving average method,SMA)。移動(dòng)平均方法根據(jù)證據(jù)窗口的所有序列段的值來(lái)預(yù)測(cè)未來(lái)的值[12]。簡(jiǎn)單移動(dòng)平均方法簡(jiǎn)單地給證據(jù)窗口的所有序列段賦予相等的權(quán)重,即采用證據(jù)窗口的平均降水預(yù)測(cè)未來(lái)時(shí)期的平均降水。
b.線(xiàn)性加權(quán)移動(dòng)平均方法(linear weighted moving average method,Linear_WMA)。根據(jù)證據(jù)窗口內(nèi)不同序列段的數(shù)據(jù)對(duì)預(yù)測(cè)窗口的影響程度,分別給予不同的權(quán)數(shù),然后再采用線(xiàn)性的方法進(jìn)行平均移動(dòng)以預(yù)測(cè)未來(lái)值[13-14]。根據(jù)越是近期數(shù)據(jù)對(duì)預(yù)測(cè)值影響越大這一特點(diǎn),不同地對(duì)待證據(jù)窗口內(nèi)的各個(gè)數(shù)據(jù),對(duì)靠近當(dāng)前點(diǎn)的序列段的數(shù)據(jù)給予較大的權(quán)數(shù),對(duì)較遠(yuǎn)的序列段的數(shù)據(jù)給予較小的權(quán)數(shù),這樣來(lái)彌補(bǔ)簡(jiǎn)單移動(dòng)平均方法的不足。
c.基于先驗(yàn)概率的方法(prior probability based method,PriorPr)。該方法用最高先驗(yàn)概率的降水等級(jí)作為未來(lái)的預(yù)測(cè)值,而不考慮證據(jù)窗口的降水狀況。
d.神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)也常用于預(yù)測(cè)未來(lái)降水。本文選取前饋(back-propagation,BP)神經(jīng)網(wǎng)絡(luò)方法(以下簡(jiǎn)稱(chēng)BP法)作為本文提出的基于樸素貝葉斯算法的流域降水預(yù)測(cè)方法(以下簡(jiǎn)稱(chēng)本文方法)的對(duì)比方法。BP神經(jīng)網(wǎng)絡(luò)模型是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練樣本,其激活轉(zhuǎn)移函數(shù)通常是一個(gè)Sigmoid轉(zhuǎn)移函數(shù),可以實(shí)現(xiàn)輸入到輸出的非線(xiàn)性映射。
2.4 評(píng)價(jià)方法
參考我國(guó)降水預(yù)報(bào)業(yè)務(wù)系統(tǒng)中常用的對(duì)降水事件實(shí)況和預(yù)報(bào)的雙態(tài)分類(lèi)列聯(lián)表,采用F-Measure方法[15]評(píng)價(jià)本文方法的預(yù)測(cè)結(jié)果。F-Measure方法中精確度P和召回率R分別表示為
式中NA、NB、NC分別為雙態(tài)分類(lèi)列聯(lián)表中的實(shí)況發(fā)生、空?qǐng)?bào)和漏報(bào)。
P和R取值為[0,1],數(shù)值越接近1,精確度或召回率就越高。在P和R指標(biāo)出現(xiàn)矛盾的情況下,可對(duì)P和R加權(quán)調(diào)和平均:
當(dāng)參數(shù)α=1時(shí),F(xiàn)就是最常見(jiàn)的統(tǒng)計(jì)參數(shù)F1:
可知F1綜合了P和R的結(jié)果,當(dāng)F1較高時(shí)說(shuō)明預(yù)報(bào)方法比較有效。
2.5 不同特征集的預(yù)測(cè)效果
采用以下3種特征集對(duì)比本文方法和BP法的預(yù)測(cè)效果:①“聚合”特征集,來(lái)自于流域降水序列數(shù)據(jù)中的聚合特征;②“聚合+統(tǒng)計(jì)”特征集,在“聚合”特征集的基礎(chǔ)上進(jìn)一步加入了流域降水序列數(shù)據(jù)中的統(tǒng)計(jì)特征;③“聚合+統(tǒng)計(jì)+規(guī)約”特征集,是進(jìn)一步加入流域多年氣象知識(shí)得到的規(guī)約特征。
2.5.1 流域降水預(yù)測(cè)
為驗(yàn)證不同特征集對(duì)流域降水預(yù)測(cè)準(zhǔn)確率的效果,對(duì)3種不同特征集分別采用BP法和本文方法進(jìn)行短(1 d、3 d)、中(7 d)、長(zhǎng)(15 d、30 d)時(shí)段的降水預(yù)測(cè),以此來(lái)檢驗(yàn)本文采用的特征集的作用。通過(guò)相關(guān)性分析并采用第5年的數(shù)據(jù)進(jìn)行特征選擇,選出各特征集的最佳組合。表2為不同特征集時(shí)兩種方法降水預(yù)測(cè)結(jié)果。
表2 不同特征集時(shí)兩種方法降水預(yù)測(cè)結(jié)果
從表2可知,本文方法總體上優(yōu)于BP法。在全年總體的預(yù)測(cè)準(zhǔn)確率方面,僅采用簡(jiǎn)單聚合特征的本文方法取得了最高的預(yù)測(cè)準(zhǔn)確率,短、中、長(zhǎng)期5組預(yù)測(cè)的平均正確率達(dá)到80.2%,高于BP法最好的一組(聚合+統(tǒng)計(jì)+規(guī)約),其5組預(yù)測(cè)平均正確率為76.3%。
2.5.2 流域暴雨預(yù)測(cè)
由于采用聚合類(lèi)簡(jiǎn)單特征的預(yù)測(cè)結(jié)果中,高準(zhǔn)確率主要依靠預(yù)測(cè)更多的1等級(jí)降水得到,在暴雨(一般會(huì)帶來(lái)流域3等級(jí)以上的整體平均降水)預(yù)測(cè)中存在明顯缺陷。為驗(yàn)證不同特征集對(duì)流域暴雨預(yù)測(cè)的效果,分別對(duì)不同特征集采用BP法和本文方法對(duì)未來(lái)一周每一天的降水等級(jí)進(jìn)行預(yù)測(cè),在其基礎(chǔ)上預(yù)測(cè)未來(lái)一周是否有3等級(jí)以上或者4等級(jí)以上的日降水。以3等級(jí)預(yù)測(cè)為例,采用的標(biāo)準(zhǔn)是:如果未來(lái)一周中預(yù)報(bào)到一天3等級(jí)以上降水,而實(shí)際中確實(shí)也存在某一天3等級(jí)以上降水,則判定為預(yù)測(cè)正確。分別采用不同特征集的兩種方法預(yù)測(cè)結(jié)果如表3和表4所示(表中空值表示因預(yù)報(bào)該等級(jí)的降水次數(shù)為0,根據(jù)式(11)和式(14),相應(yīng)的精確度和F1值無(wú)法計(jì)算)。
表3 不同特征集的兩種方法3等級(jí)以上___________降水預(yù)測(cè)結(jié)果
表4 不同特征集的兩種方法4等級(jí)以上_____________降水預(yù)測(cè)結(jié)果
從表3可以看出,具有全面特征集的本文方法取得了最佳的3等級(jí)以上降水預(yù)報(bào)效果,在預(yù)測(cè)精確度、召回率和F1值三方面都取得了最好的結(jié)果,比最好的BP法分別提高了35%、11%和21%,比采用“聚合+統(tǒng)計(jì)”特征集的本文方法分別提高了65%、131%和116%。而表2中預(yù)測(cè)結(jié)果最好的簡(jiǎn)單聚合特征集在本文方法中表現(xiàn)最差,完全不能預(yù)測(cè)大等級(jí)的降水。
從表4可以看出,對(duì)4等級(jí)以上降水的預(yù)報(bào)方面,BP法也完全不起作用,而采用全面特征集的本文方法則繼續(xù)表現(xiàn)良好,保持了0.56的預(yù)測(cè)精確度、0.28的召回率以及0.37的F1值。
2.6 不同預(yù)測(cè)方法的預(yù)測(cè)效果分析
將前述分析中各特征集選出的本文方法和BP法的最好結(jié)果,和3種時(shí)間序列方法預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果見(jiàn)表5~7。
_表5 不同預(yù)測(cè)方法流域降水預(yù)測(cè)準(zhǔn)確率對(duì)比__
表6 不同預(yù)測(cè)方法流域3等級(jí)以上降水預(yù)測(cè)對(duì)比
表7 不同預(yù)測(cè)方法流域4等級(jí)以上降水預(yù)測(cè)對(duì)比
從表5可以看到,本文方法取得了最好的短中長(zhǎng)時(shí)段整體降水預(yù)測(cè)效果,PriorPr排第二。而在暴雨預(yù)測(cè)方面,PriorPr則不起作用(表6),在4等級(jí)以上降水預(yù)測(cè)方面(表7),除了樸素貝葉斯算法,其他方法都不起作用。
為直觀比較預(yù)測(cè)結(jié)果和實(shí)際降水等級(jí)的差距,將本文方法、BP法和時(shí)間序列方法中最好的代表PriorPr的預(yù)測(cè)結(jié)果做成散點(diǎn)圖進(jìn)行比較,如圖1所示(圖中各預(yù)測(cè)結(jié)果與實(shí)際降水等級(jí)越接近或重合,表示預(yù)測(cè)準(zhǔn)確性越高)。本文方法因?yàn)樵诹饔蚪邓A(yù)測(cè)準(zhǔn)確率和暴雨預(yù)測(cè)效果中的最佳特征集不同,因此選出兩個(gè)代表,“樸素貝葉斯1”代表采用“聚合+統(tǒng)計(jì)+規(guī)約”特征集的本文方法,“樸素貝葉斯2”代表采用“聚合”特征集的本文方法。從圖1可以看出,在降雨等級(jí)為1時(shí),各個(gè)預(yù)測(cè)時(shí)間段所有方法預(yù)測(cè)結(jié)果均能與實(shí)際降水等級(jí)的散點(diǎn)重合,表明各方法在預(yù)測(cè)實(shí)際降水等級(jí)較低的情況準(zhǔn)確率較高。而對(duì)于數(shù)量不多的3等級(jí)以上或者4等級(jí)以上的日降水,采用“聚合+統(tǒng)計(jì)+規(guī)約”特征集的本文方法與實(shí)際降水等級(jí)散點(diǎn)重合度較高,因此具有更好的預(yù)測(cè)性能。
圖1 不同預(yù)測(cè)方法預(yù)測(cè)結(jié)果和實(shí)際降水等級(jí)對(duì)比
本文針對(duì)降水物理機(jī)制和相關(guān)成因關(guān)系未明,
降水預(yù)測(cè)不準(zhǔn)確,特別是極端降水預(yù)測(cè)存在較大誤差的問(wèn)題,提出了基于樸素貝葉斯算法的流域降水預(yù)測(cè)方法。通過(guò)實(shí)例研究,表明該方法取得了比傳統(tǒng)時(shí)間序列方法以及BP神經(jīng)網(wǎng)絡(luò)法更好的降水預(yù)測(cè)效果,尤其是在暴雨預(yù)測(cè)方面。為進(jìn)一步提高預(yù)測(cè)準(zhǔn)確率,需分析更多與降水相關(guān)的氣象知識(shí)及原始數(shù)據(jù),尋找枯水期及前汛期的相關(guān)因素,進(jìn)一步豐富降水特征集,提高預(yù)測(cè)準(zhǔn)確率。
[1]王浩,游進(jìn)軍.水資源合理配置研究歷程與進(jìn)展[J].水利學(xué)報(bào),2008,39(10):1168-1175.(WANG Hao,YOU JinJun.Advancements and development course of research on water resources deployment[J].Journal of Hydraulic Engineering,2008,39(10):1168-1175.(in Chinese))
[2]閔晶晶,孫景榮,劉還珠,等.一種改進(jìn)的BP算法及在降水預(yù)報(bào)中的應(yīng)用[J].應(yīng)用氣象學(xué)報(bào),2010,21(1):55-62.(MIN Jingjing,SUN Jingrong,LIU Huanzhu,et al. An improved BP algorithm and its application to precipitation forecast[J].Journal of Applied Meteorological Science,2010,21(1):55-62.(in Chinese))
[3]劉可晶,王文,朱燁,等.淮河流域過(guò)去60年干旱趨勢(shì)特征及其與極端降水的聯(lián)系[J].水利學(xué)報(bào),2012,43(10):1179-1187.(LIU Kejing,WANGWen,ZHU Ye,et al.Trend of drought and its relationship with extreme precipitation in Huaihe River basin over the last 60 years[J].Journal of Hydraulic Engineering,2012,43(10):1179-1187.(in Chinese))
[4]歐善國(guó).用能量天氣學(xué)方法分析預(yù)報(bào)9405號(hào)熱帶風(fēng)暴暴雨[J].廣東氣象,1995(2):34-35.(OU Shanguo.The analysis of energy meteorology of tropical storm rain caused by No.9405[J].Guangdong Meteorological,1995(2):34-35.(in Chinese))
[5]STAUFFER D R,SEAMAN N L.Use of four-dimensional data assimilation in a limited-areamesoscalemodel:part I experiments with synoptic-scale data[J].MonthlyWeather Review,1990,118(6):1250-1277.
[6]施能.氣象統(tǒng)計(jì)預(yù)報(bào)[M].北京:氣象出版社,2009:128-142.
[7]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[8]林開(kāi)平.人工神經(jīng)網(wǎng)絡(luò)的泛化性能與降水預(yù)報(bào)的應(yīng)用研究[D].南京:南京信息工程大學(xué),2007.
[9]XU Yejun,WANG Huimin.The induced generalized aggregation operators for intuitionistic fuzzy sets and their application in group decision making[J].Applied Soft Computing,2012,12(3):1168-1179.
[10]LIXuezhen,XU Lizhong,MA Zhenli,et al.Quotient space based flood risk analysis[J].International Review on Computers and Software,2012,7(1):344-352.
[11]BENGIO Y,COURVILLE A,VINCENT P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[12]WU Y,HWANG K,YUAN Y,et al,Adaptive workload prediction of grid performance in confidencewindows[J]. IEEE Transactions on Parallel&Distributed Systems Distrib,2010,21(7):925-938.
[13]WANG H M,CHEN Z S,SU S L.Optimal pricing and coordination schemes for the eastern route of the south-tonorth water diversion supply chain system in China[J]. Transportation Journal,2012,51(4):487-505.
[14]CHEN Zhisong,WANG Huimin,QIXiangtong.Pricing and water resource allocation scheme for the south-to-north water diversion project in China[J].Water Resources Management,2013(27):1457-1472.
[15]CHEN T Y,KUO F C,MERKEL R.On the statistical properties of the F-measure[C]//Proceeding 4th International Conference on Quality Software. Braunschweig,Germany:QSIC,2004:505-513.
A precipitation forecasting method for a river basin based on naive Bayes algorithm
HUANGWei1,LIXuezhen2,ZHAO Jia2,ZHAO Lihua2,LIChenmin2(1.Jiangsu Province Hydrology and Water Resources Investigation Bureau,Nanjing 210029,China;2.College of Computer and Information Technology Engineering,Hohai University,Nanjing 210098,China)
In order to effectively use available historical observation data for precipitation forecasting in the case of an uncertain cause of precipitation,a precipitation forecasting method was developed based on the naive Bayes algorithm. Using the Dongjiang Basin as an example,a rich setof featureswas constructed based on the basin's precipitation data and meteorological knowledge.The forecasting accuracy of the proposed method was compared with those of the traditional time seriesmethod and the BP neural network method.The result shows that the proposed method outperformed both the traditional time seriesmethod and the BP neural network method.
precipitation forecasting;naive Bayes algorithm;Bayes estimation;F-measure evaluationmethod
TV125;P338
A
1006- 7647(2016)04- 0065- 05
10.3880/j.issn.1006- 7647.2016.04.012
2015- 06 23 編輯:熊水斌)
國(guó)家自然科學(xué)基金(71433003,51179047);“十二五”國(guó)家科技支撐計(jì)劃(2015BAB07B01)
黃煒(1981—),男,博士,主要從事水文測(cè)驗(yàn)和站網(wǎng)管理研究。E-mail:wei.huang923@gmail.com
李臣明(1969—),男,副教授,博士,主要從事復(fù)雜系統(tǒng)分析與決策等研究。E-mail:lcm@hhu.edu.cn