鄭澤豪
(重慶交通大學(xué) 河海學(xué)院,重慶 400074)
對流域?qū)嵭虚L期水質(zhì)監(jiān)測,旨在科學(xué)評估河流的水質(zhì)狀況及掌握水質(zhì)變化規(guī)律,是流域水環(huán)境管理的基礎(chǔ)性也是重要性的工作。為有效、準(zhǔn)確地反映流域水體水質(zhì)狀況,需要建立合適的水質(zhì)監(jiān)測網(wǎng)絡(luò)。隨著監(jiān)測網(wǎng)絡(luò)范圍的擴(kuò)大,大量監(jiān)測數(shù)據(jù)產(chǎn)生的同時(shí),監(jiān)測成本也必然隨之增加。在對獲得的指標(biāo)數(shù)據(jù)分析的同時(shí),進(jìn)一步深入分析各指標(biāo)之間的內(nèi)在聯(lián)系,對優(yōu)化水質(zhì)監(jiān)測網(wǎng)絡(luò)有重要意義。對于有著長時(shí)間序列,多個(gè)監(jiān)測指標(biāo),多個(gè)斷面的流域,采取何種統(tǒng)計(jì)分析方法對動態(tài)監(jiān)測數(shù)據(jù)進(jìn)行挖掘和綜合分析,并借此指導(dǎo)水質(zhì)監(jiān)測網(wǎng)絡(luò)的優(yōu)化、提高監(jiān)測點(diǎn)的代表性,是水質(zhì)監(jiān)測和評價(jià)的研究重點(diǎn)和方向[1]。
隨著水體環(huán)境研究的不斷深入,多元統(tǒng)計(jì)分析方法被廣泛運(yùn)用到水質(zhì)評價(jià)實(shí)踐中,根據(jù)部分學(xué)者所做的研究發(fā)現(xiàn),對于存在多指標(biāo)的監(jiān)測數(shù)據(jù),運(yùn)用聚類分析統(tǒng)計(jì)法可以做出更為客觀、準(zhǔn)確的評價(jià)[2]。本文水質(zhì)數(shù)據(jù)分析采用層次聚類分析方法,通過對水質(zhì)指標(biāo)的相關(guān)系數(shù)進(jìn)行聚類,分析比較各水質(zhì)指標(biāo)之間的相關(guān)關(guān)系,對具有相關(guān)關(guān)系的指標(biāo)進(jìn)行聚類,并對聚類結(jié)果進(jìn)行回歸檢驗(yàn),實(shí)現(xiàn)降低水質(zhì)指標(biāo)維數(shù)的目的,為流域水質(zhì)監(jiān)測工作的優(yōu)化提供一定的科學(xué)依據(jù)。
研究區(qū)是淡水河一級支流,屬于東江水系。流域受南亞熱帶季風(fēng)氣候影響,全年溫度適宜,豐富的降水給河道帶來大量的水資源。河道干流全長為13余km,流域面積約為129.4 km2。根據(jù)區(qū)域內(nèi)雨量站1961—2014年實(shí)測年雨量資料統(tǒng)計(jì)顯示,多年降雨平均值為2 073.5 mm,且雨量在年內(nèi)每月分配嚴(yán)重不均,表現(xiàn)為每年4—9月有大量降雨,降雨量約占全年雨量的85%[3]。多年以來,區(qū)域內(nèi)平均年徑流深為1 050 mm,平均水面蒸發(fā)量為1 345.7 mm。
本文選取了6個(gè)監(jiān)測斷面,選取的監(jiān)測指標(biāo)為PH、溶解氧(DO)、高錳酸鹽指數(shù)(CODMn)、氨氮(NH3-N)、總磷(TP)、總氮(TN)和化學(xué)需氧量(CODCr)等7項(xiàng)。數(shù)據(jù)資料為2018年6個(gè)監(jiān)測斷面7項(xiàng)監(jiān)測指標(biāo)的連續(xù)監(jiān)測數(shù)據(jù),按照國家環(huán)境質(zhì)量標(biāo)準(zhǔn)《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB 3838—2002)[4]進(jìn)行評價(jià)。
聚類分析法是將研究的樣品或變量之間的相似程度大的先歸為一類,把另外還具有一定相似性的聚為一類,然后繼續(xù)聚類進(jìn)程,最終將所有樣本或變量都各自分類,達(dá)到“物以類聚”的效果。運(yùn)用較多的聚類分析算法有層次聚類算法(HCA)、K-Means聚類算法、自組織映射聚類算法(SOM)等[5],其中層次聚類分析應(yīng)用最為廣泛,層次聚類分析又分為Q型(樣本分類)和R型(變量分類)。通過挖掘樣本或變量之間的相似性,將相似程度大的統(tǒng)計(jì)量作為代表進(jìn)行分析,可以簡化數(shù)據(jù)即減少變量個(gè)數(shù),達(dá)到變量降維的目的[6]。本文意在通過R型聚類分析的方法,在多個(gè)水質(zhì)指標(biāo)中篩選出能夠代表其他指標(biāo)的變量,將該變量與其他指標(biāo)進(jìn)行相關(guān)性分析,降低指標(biāo)維數(shù),優(yōu)化水質(zhì)監(jiān)測及評價(jià)工作。
對數(shù)據(jù)標(biāo)準(zhǔn)化處理是進(jìn)行數(shù)據(jù)分析的一項(xiàng)首要工作,尤其是對于基于距離的算法更為重要。零-均值標(biāo)準(zhǔn)化(標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化)是一種常見的將數(shù)據(jù)標(biāo)準(zhǔn)化的方法,經(jīng)處理后的數(shù)據(jù)符合正態(tài)分布,故本文采用此法[7]:
(1)
經(jīng)過標(biāo)準(zhǔn)化后的數(shù)據(jù),可計(jì)算各變量之間的相關(guān)系數(shù)。聚類分析算法是按照各變量之間存在的差異性進(jìn)行分析的,而變量間的差異性通過距離反映,距離越近,相似性越明顯。距離量度方式有多種,本次選用皮爾遜相關(guān)系數(shù)量度各變量之間距離,數(shù)學(xué)定義為[8]:
(2)
式中n為樣本總數(shù);xi和yi分別為兩變量的變量值。
利用SPSS25.0計(jì)算各水質(zhì)指標(biāo)之間的相關(guān)系數(shù)矩陣結(jié)果可參見表1。
表1 各水質(zhì)指標(biāo)相關(guān)系數(shù)矩陣
若算得相關(guān)系數(shù)的絕對值越大,則兩指標(biāo)間的關(guān)系越緊密[9]。由矩陣結(jié)果表1可知,該河水質(zhì)指標(biāo)中CODMn與CODCr相關(guān)性最好,TP和NH3-N相關(guān)性排在第2位,其他指標(biāo)之間的相關(guān)性弱于上述兩者。根據(jù)污染源普查統(tǒng)計(jì)得到,沿岸部分企業(yè)COD、NH3-N和TP的直排入河量占總排放量的13%、15%和19%,且研究區(qū)為城市河流,流經(jīng)居民區(qū)和農(nóng)田,截污納管率較低,河道為污水、污物受納終端,長期的生活污水和農(nóng)業(yè)面源污染排入河道,是NH3-N和TP的主要來源。CODMn與CODCr作為地表水常規(guī)監(jiān)測項(xiàng)目,可反映水體受有機(jī)物污染的狀況;TP和NH3-N是河流治理中污染物排放控制的兩個(gè)重要因子。若兩兩之間存在相關(guān)關(guān)系,則可用CODCr濃度估算CODMn濃度,用NH3-N的濃度估算TP的濃度,以對濃度監(jiān)測值進(jìn)行預(yù)測,降低監(jiān)測頻次,提升應(yīng)急監(jiān)測能力。
由相關(guān)系數(shù)矩陣可知各指標(biāo)間的親疏關(guān)系,為更明了地觀察結(jié)果,對相關(guān)系數(shù)進(jìn)行R型聚類分析,類與類間距離采用組間平均鏈接距離計(jì)算,一步步將各統(tǒng)計(jì)量歸為一類,作出聚類樹形分類示意(見圖1)。
圖1 各指標(biāo)聚類樹狀示意
由SPSS軟件生成的樹狀示意可以看出,CODMn和CODCr兩者、NH3-N和TP兩者距離最為接近,兩兩連線合并成一類;接著是TN與(TP、NH3-N)連成一類,它們間的距離大于NH3-N和TP距離;然后是前兩個(gè)大類合并為一類,以此逐級連線的方式將所有個(gè)體聚成一類。結(jié)合相關(guān)系數(shù)矩陣和聚類分析結(jié)果可知,CODMn濃度和CODCr濃度、NH3-N濃度和TP濃度之間的相關(guān)性極其顯著。
為了更好地描述水質(zhì)指標(biāo)間的線性關(guān)系,明確水質(zhì)指標(biāo)間的數(shù)學(xué)統(tǒng)計(jì)關(guān)系,采用回歸方程驗(yàn)證的形式,利用SPSS軟件分別對CODCr和CODMn、NH3-N和TP進(jìn)行回歸分析,線性回歸關(guān)系如圖2,線性回歸過程如表2。從圖2中可以看出CODMn值隨著CODCr值增大呈現(xiàn)總體增大的趨勢,TP值隨著NH3-N值增大而增大。由表2可知,在CODMn=a×CODCr+b表達(dá)式中,a=0.140,b=1.549,R2=0.629,t檢驗(yàn)值為3.868,與P=0.05相當(dāng)?shù)呐R界值t0.05=2.030相比,P<0.05,符合差異性檢驗(yàn),表明CODCr濃度和CODMn濃度存在線性回歸關(guān)系。同理,在TP=a×NH3-N+b表達(dá)中,a=0.069,b=0.230,R2=0.598,t檢驗(yàn)值為3.376,符合差異性檢驗(yàn),表明NH3-N濃度和TP濃度存在線性回歸關(guān)系。綜和上述分析,列出CODCr和CODMn、NH3-N和TP的線性回歸關(guān)系式:
(3)
圖2 線性回歸擬合示意
表2 線性回歸過程
為了驗(yàn)證2.4中統(tǒng)計(jì)的兩個(gè)線性回歸方程的適用性,選取2018年1—12月斷面X的CODCr和NH3-N監(jiān)測值,分別計(jì)算CODMn和TP的濃度,并與斷面X實(shí)測的CODMn和TP濃度值進(jìn)行對比,結(jié)果見表3。由表3分析知,斷面X全年的監(jiān)測值與計(jì)算值之間的相對偏差小于5%的數(shù)據(jù)超過50%,說明統(tǒng)計(jì)得到的線性回歸關(guān)系式具有較強(qiáng)的的實(shí)用性和較高的準(zhǔn)確性。
表3 斷面X數(shù)據(jù)對比 mg/L
1) 通過對監(jiān)測的水質(zhì)指標(biāo)間的相關(guān)性進(jìn)行分析,確定水環(huán)境中的CODCr和CODMn、NH3-N和TP關(guān)系密切,統(tǒng)計(jì)得到的回歸方程關(guān)系式滿足擬合度檢驗(yàn),表明指標(biāo)間具有較強(qiáng)的線性相關(guān)關(guān)系。
2) 本文通過對相關(guān)關(guān)系矩陣進(jìn)行聚類分析,篩選出相關(guān)系數(shù)最大的指標(biāo),用較少的指標(biāo)表示研究區(qū)域的水體質(zhì)量,減少了指標(biāo)重疊的情況,說明本文運(yùn)用的方法在有大量監(jiān)測數(shù)據(jù)的情況下,可以降低水質(zhì)指標(biāo)的維數(shù),簡化數(shù)據(jù),優(yōu)化水質(zhì)評價(jià)過程,達(dá)到降低水質(zhì)監(jiān)測成本的目的。
3) 針對有多指標(biāo)、長時(shí)間監(jiān)測數(shù)據(jù)的區(qū)域,可以根據(jù)本文的方法,對各斷面水質(zhì)指標(biāo)進(jìn)行多元統(tǒng)計(jì)分析,明確河流污染狀況,為其它地表水水質(zhì)指標(biāo)間相關(guān)性研究提供參考。