周勇 李龍 唐四薪
摘 要:對(duì)城市區(qū)域水體數(shù)據(jù)采用改進(jìn)BIRCH聚類(lèi)方法進(jìn)行異常點(diǎn)篩查,運(yùn)用神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)水質(zhì)數(shù)據(jù)進(jìn)行預(yù)測(cè),然后采用基于熵的正交投影方法對(duì)水質(zhì)進(jìn)行評(píng)價(jià),從而得出水質(zhì)的變化趨勢(shì)。
關(guān)鍵詞:BIRCH聚類(lèi);TOPSIS法;正交投影法
基金項(xiàng)目:湖南省教育廳高??蒲杏?jì)劃一般項(xiàng)目(項(xiàng)目編號(hào):15C0202)。
1 引言
隨著現(xiàn)代社會(huì)的發(fā)展,人類(lèi)工業(yè)生產(chǎn)范圍不斷擴(kuò)大,城市不斷擴(kuò)張,整個(gè)社會(huì)的用水量急劇增加,相應(yīng)地排放的污水量也大量增加。目前許多城市區(qū)域的水體都遭受了工業(yè)及生活污水的污染,水污染防治已經(jīng)成了全球性的難題,這種情況在發(fā)展中國(guó)家尤甚。在水污染的防治中,水質(zhì)的評(píng)價(jià)和預(yù)測(cè)非常重要,它可以為防治工作提供很好的決策支持。目前科學(xué)工作者分別對(duì)水質(zhì)的評(píng)價(jià)和預(yù)測(cè)提出了不少方法,評(píng)價(jià)方法主要有:模糊數(shù)學(xué)法、灰色聚類(lèi)法、綜合指數(shù)法等,預(yù)測(cè)方法主要有:灰色系統(tǒng)理論預(yù)測(cè)法、數(shù)理統(tǒng)計(jì)預(yù)測(cè)法、神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)法等[1]。
在防治工作決策中,水質(zhì)的預(yù)測(cè)和評(píng)價(jià)是緊密相關(guān)的兩個(gè)環(huán)節(jié)。預(yù)測(cè)水質(zhì)數(shù)據(jù)的變化、評(píng)價(jià)水質(zhì)的等級(jí)以此來(lái)得出水體質(zhì)量的變化趨勢(shì),對(duì)水體污染防治工作非常重要。本文將采用數(shù)據(jù)挖掘的相關(guān)技術(shù)對(duì)影響水質(zhì)的數(shù)據(jù)變化進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)數(shù)據(jù)對(duì)未來(lái)水質(zhì)進(jìn)行評(píng)價(jià),以此為防治工作提供決策支持。
2 水質(zhì)數(shù)據(jù)預(yù)測(cè)
1)數(shù)據(jù)預(yù)處理。由于水質(zhì)數(shù)據(jù)維度不高,且同一參數(shù)的數(shù)據(jù)類(lèi)型一致,結(jié)構(gòu)簡(jiǎn)單,都是數(shù)值型,因此采用改進(jìn)的BIRCH聚類(lèi)分析可以快速地篩除異常點(diǎn),排除意外干擾。BIRCH聚類(lèi)算法只需掃描一次數(shù)據(jù)庫(kù),聚類(lèi)特征是一個(gè)包含簇的三元組CF=(N,LS,SS)。找異常點(diǎn)時(shí)可采用多棵CF樹(shù),每棵CF樹(shù)代表一個(gè)簇,并結(jié)合DBSCAN算法的點(diǎn)密度的思想,每棵樹(shù)的葉子結(jié)點(diǎn)都是由相鄰的核心點(diǎn)構(gòu)成,聚類(lèi)結(jié)束后不屬于某棵樹(shù)的對(duì)象就是噪聲點(diǎn)[2],作為異常點(diǎn)刪除。
2)數(shù)據(jù)預(yù)測(cè)。將去除異常點(diǎn)的水質(zhì)數(shù)據(jù),分為訓(xùn)練集和測(cè)試集(通常測(cè)試集規(guī)模小于訓(xùn)練集規(guī)模),現(xiàn)采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)預(yù)測(cè),其中訓(xùn)練集用來(lái)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),測(cè)試集用來(lái)測(cè)試訓(xùn)練后得到的BP神經(jīng)網(wǎng)絡(luò)是否合理。表1是湘江流域某監(jiān)測(cè)點(diǎn)經(jīng)過(guò)處理后的2015年二季度的一組水質(zhì)相關(guān)數(shù)據(jù)(單位:mg/L,除PH無(wú)量綱外)。
任選15組數(shù)據(jù)作為訓(xùn)練輸入,剩下1組數(shù)據(jù)作為訓(xùn)練輸出來(lái)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)。訓(xùn)練結(jié)束后,另選15組(組號(hào)與訓(xùn)練集不同)數(shù)據(jù)作為測(cè)試輸入,剩下1組數(shù)據(jù)作為測(cè)試輸出。在MATLAB中選用tansig和purelin作為激活函數(shù)。
訓(xùn)練過(guò)程如圖1:
結(jié)果表明訓(xùn)練得到的網(wǎng)絡(luò)精度符合要求。預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)對(duì)比如表2:
均方誤差MSE的值為0.0051,符合要求。說(shuō)明得到的BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果達(dá)到預(yù)期目標(biāo),可以用于下一時(shí)段該區(qū)域的水質(zhì)指標(biāo)的預(yù)測(cè)。
3 水質(zhì)的評(píng)價(jià)
運(yùn)用上述方法得到流域內(nèi)幾個(gè)不同監(jiān)測(cè)點(diǎn)的預(yù)測(cè)數(shù)據(jù)后,參考中華人民共和國(guó)《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》,采用基于熵權(quán)的正交投影TOPSIS方法進(jìn)行水質(zhì)評(píng)價(jià)[3],可以高效地得到各監(jiān)測(cè)點(diǎn)的水質(zhì)預(yù)測(cè)等級(jí)。
評(píng)價(jià)結(jié)果與實(shí)際檢測(cè)等級(jí)對(duì)比如表3:
由此可知,該預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果吻合度高,方法可行。
4 結(jié)語(yǔ)
在保障用水安全上,水質(zhì)的預(yù)測(cè)和評(píng)價(jià)是緊密相關(guān)的兩個(gè)環(huán)節(jié),實(shí)驗(yàn)證明運(yùn)用數(shù)據(jù)挖掘的相關(guān)技術(shù)對(duì)水質(zhì)數(shù)據(jù)進(jìn)行預(yù)處理,然后再進(jìn)行預(yù)測(cè)分析以及最后對(duì)預(yù)測(cè)水質(zhì)數(shù)據(jù)進(jìn)行評(píng)價(jià),結(jié)果可信,可以為保障用水安全提供有力的預(yù)警支持。
參考文獻(xiàn)
[1]鄭一華.基于支持向量機(jī)的水質(zhì)評(píng)價(jià)和預(yù)測(cè)研究[D].河海大學(xué),碩士學(xué)位論文,2006.
[2]韋相.基于密度的改進(jìn)BIRCH聚類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):201-205.
[3]張先起,梁川,劉慧卿.基于熵權(quán)的改進(jìn)TOPSIS方法在水質(zhì)評(píng)價(jià)中的應(yīng)用[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,39(10):1670-1672.
作者簡(jiǎn)介
周勇(1972-),男,湖南衡陽(yáng),衡陽(yáng)師范學(xué)院講師,碩士,研究方向:智能計(jì)算。