王惠 申瑋 劉興科 王國臣 彭佳紅
摘要:控制農(nóng)業(yè)水環(huán)境污染,保護(hù)農(nóng)業(yè)生產(chǎn)環(huán)境具有重大意義。采用數(shù)據(jù)挖掘技術(shù)Kmeans聚類算法對2013年我國各地區(qū)農(nóng)業(yè)水環(huán)境中化學(xué)需氧量、氨、氮、總磷、石油類、揮發(fā)酚、鉛、汞、鎘、六價鉻、總鉻、砷的排放量等指標(biāo)進(jìn)行聚類分析,并參照地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)GB3838-2002對污染種類與等級進(jìn)行預(yù)警。結(jié)果表明,全國31個地區(qū)分為5類,第一類6個省份屬于第Ⅴ類水環(huán)境等級;第二類11個省份屬于Ⅳ類水環(huán)境等級;第三類8個省份屬于Ⅳ類水環(huán)境等級;第四類1個省份屬于Ⅳ類水環(huán)境等級;第五類5個省份屬于Ⅲ類水環(huán)境等級。從結(jié)果中了解到了全國各地區(qū)農(nóng)業(yè)水環(huán)境污染形成的原因,能夠輔助農(nóng)業(yè)水污染的預(yù)防和治理。
關(guān)鍵詞:農(nóng)業(yè)水環(huán)境;聚類算法;預(yù)警
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)08-0229-03
1概述
隨著國內(nèi)經(jīng)濟(jì)的快速發(fā)展與現(xiàn)代化工業(yè)設(shè)備的高度普及,我國農(nóng)業(yè)生產(chǎn)迅速發(fā)展,嚴(yán)重影響地區(qū)水環(huán)境生態(tài)安全。從環(huán)境保護(hù)的角度來分析,水污染主要是指由人類活動產(chǎn)生的污染物而造成的。它主要有三大污染源:工業(yè)污染源、生活污染源和農(nóng)業(yè)污染源。其中農(nóng)業(yè)作為國民經(jīng)濟(jì)發(fā)展的基礎(chǔ),對于宏觀經(jīng)濟(jì)發(fā)展具有不可替代的作用。因此針對我國突出的農(nóng)業(yè)水環(huán)境問題,迫切需要建立水環(huán)境污染事故應(yīng)急預(yù)警系統(tǒng),水環(huán)境污染預(yù)警系統(tǒng)能夠未雨綢繆,在水質(zhì)惡化的早期階段提醒管理者,從而及時制定水資源保護(hù)計劃,進(jìn)而開展相關(guān)預(yù)警工作,并能有力有效地支持水資源的可持續(xù)利用,為早日實現(xiàn)國家可持續(xù)發(fā)展戰(zhàn)略目標(biāo)奠定基礎(chǔ)。在國內(nèi),預(yù)警系統(tǒng)的發(fā)展還處在起步階段,建成的很少,主要集中于大城市。
聚類分析是多元統(tǒng)計分析方法中的一種,是非監(jiān)督模式識別的一個重要分支。所謂聚類,是將一個數(shù)據(jù)單位的集合(數(shù)據(jù)源)分割成幾個稱為類或類別的子集,每個類內(nèi)的對象之間是相似的,但不同類的對象間區(qū)別相對較大。聚類分析是根據(jù)事物本身的特性研究對被聚類對象進(jìn)行類別劃分的方法。我們采用此方法對全國各地區(qū)2013年的廢水?dāng)?shù)據(jù)及各項相關(guān)指標(biāo)進(jìn)行了相應(yīng)的預(yù)處理,并深入分析水環(huán)境數(shù)據(jù),參照地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)GB3838-2002對污染的種類與等級進(jìn)行處理,并對數(shù)據(jù)進(jìn)行分析、整理與預(yù)處理。
2材料與方法
2.1數(shù)據(jù)來源
來源于2013中國環(huán)境統(tǒng)計年鑒,處理后的數(shù)據(jù)見表1。
2.2聚類技術(shù)Kmeans算法
聚類指一個類簇內(nèi)的實體是相似的,不同類簇的實體不相似;一個類簇是測試空間中點的會聚同一類簇的任意兩個點間的距離小于不同類簇的任意兩個點間的距離。類簇可以描述為一個包含密度相對較高的點集的多維空間中的連通區(qū)域。聚類算法的選取主要取決于所研究數(shù)據(jù)的類型、聚類的目的和應(yīng)用等。聚類算法大致上可分為層次聚類算法、劃分式聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法等。
Kmeans算法是一種基于劃分的聚類算法,它通過不斷的迭代過程來進(jìn)行聚類,當(dāng)算法收斂到一個結(jié)束條件時就終止迭代過程輸出聚類結(jié)果。該算法的基本思想:先指定需要劃分的簇的個數(shù)k值;然后隨機(jī)地選擇幾個初始數(shù)據(jù)對象點作為初始的聚類中心;第三,計算其余的各個數(shù)據(jù)對象到這個初始聚類中心的距離,把數(shù)據(jù)對象劃歸到距離它最近的那個中心所處在的簇類中;最后,調(diào)整新類并且重新計算出新類的中心,如果兩次計算出來的聚類中心未曾發(fā)生任何的變化,那么就可以說明數(shù)據(jù)對象的調(diào)整已結(jié)束,也就是說聚類采用的準(zhǔn)則函數(shù)是收斂的,算法結(jié)束。
2.3數(shù)據(jù)處理
對近來全國歷史數(shù)據(jù)以及特定的邊界條件包括水資源總量,各流域水資源、節(jié)水灌溉面積、農(nóng)業(yè)用水,重要河流、湖泊水質(zhì)狀況評價結(jié)果(河長統(tǒng)計和監(jiān)測斷面統(tǒng)計),各地區(qū)的廢水排放及處理情況:如化學(xué)需氧量、氨、氮、總磷、石油類、揮發(fā)酚、鉛、汞、鎘、六價鉻、總鉻、砷的排放量情況信息的采集,數(shù)據(jù)的傳遞和接收。獲取CSV文件,利用Weka組件導(dǎo)人數(shù)據(jù),進(jìn)行初始處理。預(yù)警模型計算進(jìn)行預(yù)測環(huán)境污染的發(fā)生趨勢,將研究污染物形態(tài)分級與定量結(jié)構(gòu)、環(huán)境污染預(yù)測,建立分析預(yù)警模型。
利用Weka軟件,采用Kmeans聚類算法,對表1的數(shù)據(jù)進(jìn)行聚類處理,得到的挖掘結(jié)果如下所示:
根據(jù)以上聚類結(jié)果,我們可以看到把數(shù)據(jù)中31個地區(qū)分成了5類,各類的特點如下:
①第1類包含6個省份,這些省份磷元素指標(biāo)(均值25402)、揮發(fā)酚指標(biāo)(均值41273.3333)和鉛元素指標(biāo)(均值10082.8333)在平均水平范圍之內(nèi),其他排放量指標(biāo)均超出各省平均水平。
②第2類包含11個省份,這些省份各個元素排放量指標(biāo)均在各省平均水平范圍內(nèi),六價鉻(均值210.6364)、鉻元素指標(biāo)(均值911.4545)遠(yuǎn)遠(yuǎn)低于各省平均水平。
③第3類包含8個省份,這些省份石油類指標(biāo)(均值572)超出各省平均水平,其他元素排放量指標(biāo)均接近各省平均水平。
④第4類包含1個省份,這個省份石油類指標(biāo)(均值1202)和揮發(fā)酚指標(biāo)(均值727247)超出各省平均水平,其他指標(biāo)均在各省平均水平范圍。
⑤第5類包含5個省份,這些省份需氧總量(均值943463.4)、氨(均值49027.8)、氮(均值319458.4)、磷(均值35225.6)、石油類(均值701)排放量指標(biāo)均超出各省平均水平,其他在各省平均水平范圍內(nèi)。
3結(jié)果分析以及結(jié)論
3.1結(jié)果分析
分析聚類Kmeans算法聚類結(jié)果,可以得出以下結(jié)論:
第一類的6個省份,分別是海南、新疆、云南、山東、廣西、四川,這些地區(qū)是我國農(nóng)業(yè)發(fā)展大省,是我國周圍邊陲地區(qū),農(nóng)業(yè)種植面積和產(chǎn)業(yè)比重占較多,所以各個元素指標(biāo)均超全國各地區(qū)平均水平,整體農(nóng)業(yè)水污染也較嚴(yán)重。
第二類的11個省份,分別是內(nèi)蒙古、安徽、福建、江西、湖北、湖南、重慶、貴州、西藏、甘肅、寧夏,具有單位面積農(nóng)資投入量較大的特點但欠發(fā)達(dá),有些省份畜牧業(yè)發(fā)達(dá)帶動草業(yè)農(nóng)業(yè)發(fā)達(dá)展,所以農(nóng)業(yè)水環(huán)境污染相對全國其他地區(qū)較輕。
第三類的8個省份,分別是河北、陜西、遼寧、吉林、河南、廣東、山西、青海,這些省份是我國石油產(chǎn)量前十內(nèi)的省份,大多又都是內(nèi)陸省份,所以石油類指標(biāo)超出全國平均水平,農(nóng)業(yè)投入面積較大但是欠發(fā)達(dá),所以農(nóng)業(yè)水污染并未超標(biāo)。
第四類的1個省,這個省份是黑龍江,黑龍江是我國石油產(chǎn)量最大的省份,此外黑龍江也是我國農(nóng)業(yè)大省,所以它的石油和揮發(fā)酚指標(biāo)超出全國各個省份平均水平,但農(nóng)業(yè)水污染還在全國各省水平范圍內(nèi)。
第五類的5個省份,分別是北京、天津、上海、江蘇、浙江,這些省份具有電子科技輕工業(yè)服務(wù)業(yè)等發(fā)達(dá),農(nóng)業(yè)技術(shù)超前但投入面積小的特點,所以這些省份的氨、氮、磷、需氧總量超全國各省平均水平,但農(nóng)業(yè)水污染在全國各省范圍內(nèi),相對污染較輕。
根據(jù)劃分情況,參照地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)GB3838-2002對污染的種類與等級進(jìn)行處理:第一類的省份屬于第Ⅴ類水環(huán)境等級;第二類屬于Ⅳ類水環(huán)境等級;第三類屬于Ⅳ類水環(huán)境等級;第四類屬于Ⅳ類水環(huán)境等級;第五類屬于Ⅲ類水環(huán)境等級。
3.2結(jié)論
農(nóng)業(yè)水污染具有污染源多樣性、非特定性、不確定性等特點,已經(jīng)對我國現(xiàn)代化產(chǎn)生嚴(yán)重的影響,因此進(jìn)一步提高對廢水污染認(rèn)識,了解其形成原因,輔助快速而有效的控制農(nóng)業(yè)水污染具有重大意義。采用數(shù)據(jù)挖掘聚類技術(shù)對各省份的農(nóng)業(yè)水污染數(shù)據(jù)進(jìn)行聚類處理,將全國各地區(qū)的農(nóng)業(yè)廢水排放情況為標(biāo)準(zhǔn),從分析結(jié)果中我們了解到了各地區(qū)農(nóng)業(yè)水污染形成的原因,從而對其各地區(qū)農(nóng)業(yè)水污染進(jìn)行預(yù)警,便于農(nóng)業(yè)水污染的預(yù)防和治理,從根源上控制農(nóng)業(yè)水污染。