黃 鶴,梁秀娟*,肖 霄,邱淑偉,肖長來,王 重(.吉林大學環(huán)境與資源學院,地下水資源與環(huán)境教育部重點實驗室,吉林 長春 300;.吉林森工開發(fā)建設集團有限公司,吉林 長春 30000)
?
基于粗糙集的支持向量機地下水質(zhì)量評價模型
黃 鶴1,梁秀娟1*,肖 霄1,邱淑偉1,肖長來1,王 重2(1.吉林大學環(huán)境與資源學院,地下水資源與環(huán)境教育部重點實驗室,吉林 長春 130021;2.吉林森工開發(fā)建設集團有限公司,吉林 長春 130000)
摘要:以遼寧綏中縣第四系松散巖類孔隙水的10組水質(zhì)監(jiān)測數(shù)據(jù)為基礎,選取pH值、Cl-、S O42-、NH4+、NO2-、NO3-、F-、總硬度、總?cè)芙夤腆w等14項水質(zhì)評價指標,采用粗糙集對指標進行約簡,將基于屬性依賴度和信息熵的啟發(fā)式算法結(jié)合,獲得屬性約簡集,應用支持向量機分別評價約簡前后的地下水質(zhì)量.結(jié)果表明,屬性約簡將14項水質(zhì)指標精簡為8項,水質(zhì)評價結(jié)果與約簡前保持一致,區(qū)域地下水普遍在III類以上,部分地區(qū)鐵、“三氮”等超標,不適宜飲用.粗糙集和支持向量機的聯(lián)合應用,在保證分類能力的前提下有效地減少冗余指標,降低運算維度,保證水質(zhì)評價的合理性.
關鍵詞:粗糙集;支持向量機;地下水;水質(zhì)評價
* 責任作者, 教授, lax64@126.com
地下水污染具有過程緩慢、不易發(fā)現(xiàn)和難以治理的特點,地下水一旦受到污染,水質(zhì)復原一般需要十幾年甚至幾十年.在預防和治理地下水污染過程中,需進行合理的水質(zhì)評價[1].目前常用的水質(zhì)評價方法除加附注評分法外還有主成分分析法[2]、因子分析法[3]、層次分析法[4]、模糊理論法[5]、神經(jīng)網(wǎng)絡法[6]等.由于水質(zhì)指標眾多,污染源多樣,無論單獨選用哪種評價方法,都會面臨處理大量水質(zhì)監(jiān)測數(shù)據(jù)的問題,就特定研究區(qū)而言,考慮所有的指標和污染源不僅識別效率低且效果不佳[7].因此,如何方便、快速、有效地精簡數(shù)據(jù),確保水質(zhì)評價結(jié)果準確已成為眾多環(huán)境學者研究的熱點[8-9].科學的識別方法是進行屬性約簡,降低運算維度.Pai等[10]選擇9項影響人類健康和環(huán)境的水質(zhì)因素,結(jié)合回歸分析法,對指標進行屬性約簡并提出決策規(guī)則,將規(guī)則約簡了62.5%.Li等[11]針對干旱地區(qū)的水質(zhì)進行了約簡,并耦合TOPSIS法,快速有效地評價區(qū)域水質(zhì).
粗糙集不依靠附加信息和先驗知識,僅從數(shù)據(jù)集本身出發(fā),揭示數(shù)據(jù)間存在的規(guī)律,有效地刻畫出數(shù)據(jù)中的關鍵因素.近年來,因其具有模糊處理多分類問題的能力和獨特的數(shù)據(jù)分析觀點而備受關注[10],在數(shù)據(jù)的特征選擇、特征提取、決策支持與分析、機器學習、數(shù)據(jù)挖掘等領域均有成功的應用[12].支持向量機借助核函數(shù),以結(jié)構(gòu)風險最小化為原則,成功的將非線性分類轉(zhuǎn)變?yōu)楦呔S空間中的線性問題[13],其在文本分類、遙感圖像分析、人臉圖像識別、信號處理、語音識別等領域均表現(xiàn)出優(yōu)越的分類性能[14].目前,粗糙集與支持向量機的聯(lián)合應用已在很多領域展開,在水質(zhì)分析方面,學者們的研究主要集中在河湖、水產(chǎn)養(yǎng)殖等地表水的水質(zhì)預警和預測[15-16],將二者共同應用于地下水質(zhì)量評價的實例較少.本研究將粗糙集和支持向量機聯(lián)合應用于地下水質(zhì)量分析,在粗糙集屬性約簡的基礎上,充分利用支持向量在非線性數(shù)據(jù)集中的分類能力,合理地評價地下水質(zhì)量,為地下水質(zhì)量評價的研究提供一種新的方法.
1.1 粗糙集
粗糙集(Rough Set,RS)由Pawlak于20世紀80年代提出,是一種刻畫不完備性和不確定性的數(shù)學工具[17].該理論以代數(shù)學的等價關系和集合運算為基礎,定義信息系統(tǒng)和可辨識矩陣,通過尋求信息系統(tǒng)的約簡集來獲得數(shù)據(jù)的決策規(guī)則.
粗糙集以信息系統(tǒng)為研究對象,表示為:
若去除屬性ai后信息系統(tǒng)的不可辨識關系與未去除時保持一致,則表明ai為冗余屬性.設B?A,如果I(B)=I(A),則B是A的一個約簡,所有約簡的集合記為red(A),所有約簡的交集構(gòu)成屬性的核,記為core(A).尋找信息系統(tǒng)的核并不容易,若系統(tǒng)呈現(xiàn)一致性,即決策屬性D依賴于條件屬性C時,則該信息系統(tǒng)存在核,若不一致,則各屬性均為相對重要屬性,該信息系統(tǒng)沒有核,需計算最小約簡.
1.2 支持向量機
支持向量機(SVM)由Vapnik于20世紀90年代提出,是一種基于統(tǒng)計學習理論的機器學習方法[19].該方法以結(jié)構(gòu)風險最小化為準則,構(gòu)建最優(yōu)分類超平面,將樣本數(shù)據(jù)正確無誤地分開,且分類間隔最大.在多維數(shù)據(jù)空間中,通過核函數(shù)將向量映射到高維特征空間,在特征空間中尋找最優(yōu)分類超平面[20],提高非線性數(shù)據(jù)分類的準確性.
式中:ω為權(quán)向量;b為偏置;ξi為松弛變量;c為懲罰因子,c>0.
根據(jù)Lagrange乘子法,引入乘子α,β ,得到優(yōu)化問題的對偶問題:
求解該對偶問題,得到判斷函數(shù):
1.3 屬性重要度
采用啟發(fā)式算法確定屬性重要度,常用的啟發(fā)式算法有基于屬性依賴度的屬性重要度計算和基于信息熵的屬性重要度計算.
基于屬性依賴度的屬性重要度:決策屬性D對條件屬性C的依賴度為r(C,D),對于?a∈A,則屬性ai的重要度SGF(ai)定義為去除ai時引起的決策屬性對條件屬性依賴度的變化[22]:
基于信息熵的屬性重要度:信息量的大小由所消除的不確定性的大小來度量,設R?C,向R中增加一個屬性ai后信息的增量即為ai的重要度,表示為[22]:
其中,H(D|R)表示已知R時,D的條件熵.
2.1 研究區(qū)自然地理
研究區(qū)位于遼寧省綏中縣狗河下游平原區(qū),面積71.4km2.狗河是綏中縣境內(nèi)一條獨流入海河流,發(fā)源于綏中縣加碑巖鄉(xiāng)窩嶺村大錐子山板石頂,源頭海拔高程946.3m,河長為86.7km.該區(qū)地處中緯度,屬于溫帶季風氣候,年均降水量為671mm,年均蒸發(fā)量為1755mm,多年平均氣溫在9.5℃,地勢平坦,自西北微向東南傾斜,主要為沖洪積傾斜平原以及河谷沖積河床漫灘.
2.2 水文地質(zhì)條件
圖1 水文地質(zhì)剖面Fig.1 Hydrogeologic profile
地下水主要賦存于第四系松散巖類孔隙含水層中,以全新統(tǒng)上部沖積砂礫石卵石層和全新統(tǒng)洪積—沖積亞黏土及砂礫石層為主.狗河左岸單井涌水量1000~3000m2/d,右岸單井涌水量500~1000m2/d.從研究區(qū)水文地質(zhì)剖面圖(圖1)可以看出,含水層巖性以砂礫石及礫卵石為主,頂部覆蓋一層2~3m厚的壤土,底部太古界混合花崗巖構(gòu)成含水層底板.沿河流縱向剖面地勢逐漸降低,地下水位逐漸下降:橫向剖面地勢平穩(wěn),含水層厚度變幅較大:地下水流向自西北至東南方向.區(qū)域地下水的主要補給來源為大氣降水入滲補給,沿河地帶豐水期可接受河水的季節(jié)性補給,排泄方式主要為潛水蒸發(fā)和人工開采,近海1.5km寬度向海排泄.
2.3 數(shù)據(jù)來源
選擇位于研究區(qū)的10個第四系松散巖類孔隙水監(jiān)測孔,作為水質(zhì)分析基礎數(shù)據(jù),監(jiān)測孔位置如圖2所示.實驗室測定各水質(zhì)指標濃度,以地下水環(huán)境質(zhì)量標準(GB/T14848-93)[23]為參照,選取包含pH、NH4+、NO2-、NO3-、Cl-、SO42-、F-、總硬度(TH)、總?cè)芙夤腆w(TDS)、鐵、錳、鋅、氰化物和揮發(fā)性酚類在內(nèi)的14項水質(zhì)指標進行分析評價.
圖2 監(jiān)測孔位置Fig.2 Locations of monitoring drilling
水質(zhì)評價涉及化學指標眾多,各指標對綜合水質(zhì)影響大小存在差異,粗糙集根據(jù)數(shù)據(jù)間的關聯(lián)性去除冗余指標,是進行知識約簡的有效途徑.
支持向量機對非線性數(shù)據(jù)的分類具有優(yōu)勢.將粗糙集與支持向量機聯(lián)合運用,以達到有效約簡冗余指標,提高學習效率,保證水質(zhì)評價結(jié)果合理性的目的.基于RS的SVM水質(zhì)評價步驟為:
Step 1:建立水質(zhì)等級評價的信息系統(tǒng),進行數(shù)據(jù)離散化;
Step 2:判斷信息系統(tǒng)的一致性,依據(jù)RS理論進行屬性約簡;
Step 3:按式(8)對約簡后的樣本進行歸一化處理,控制其在0~1范圍內(nèi);
Step 4:確定核函數(shù)并尋找最優(yōu)參數(shù),建立基于RS的SVM水質(zhì)評價模型;
Step 5:將測試樣本代入模型,實現(xiàn)分類評價.
4.1 屬性約簡
在水質(zhì)評價的信息系統(tǒng)中,評價因子作為屬性集,各因子的屬性值作為集合V,構(gòu)成論域U.以地下水環(huán)境質(zhì)量標準(GB/T14848-93)[23]為原則劃分單因子水質(zhì)級別,將連續(xù)的水質(zhì)濃度以I~V類劃分,使其離散化,離散結(jié)果見表1.
表1 地下水水質(zhì)離散化Table 1 Discretized for groundwater quality
經(jīng)分析,上述信息系統(tǒng)呈現(xiàn)不一致性,由于求解最小約簡屬于NP-hard問題[24],本次通過計算各屬性的重要度來確定最小約簡.根據(jù)文獻[22],基于屬性依賴度和基于信息熵的屬性重要度算法在刻畫重要度時都是不完備的.因此,對兩種算法加權(quán)平均,計算出各屬性的重要度,以屬性依賴度作為主要決策標準,賦權(quán)值0.9,信息熵作為輔助決策標準,賦權(quán)值0.1.
編寫關于該信息系統(tǒng)的屬性約簡程序,借助Matlab R2011b軟件,精簡屬性集,獲得信息系統(tǒng)的最優(yōu)約簡集合為{a3,a4,a6,a9,a10,a11,a13,a14},即TDS、NO3-、NO2-、SO42-、酚、鐵、鋅和氰化物是評價研究區(qū)水質(zhì)的關鍵性指標.
4.2 SVM水質(zhì)分析
分別將約簡前的全部水質(zhì)指標和約簡后的TDS、NO3-、NO2-、SO42-、酚、鐵、鋅、氰化物指標,及其對應的懲罰因子(c)和內(nèi)核參數(shù)(γ)代入Matlab水質(zhì)評價程序,輸出結(jié)果如圖4.水質(zhì)評價結(jié)果見表2.
通過對約簡前后信息系統(tǒng)的分別評價,兩次評價結(jié)果一致,約簡前共有14項評價指標,程序運行時間1.53s,約簡后共有8項評價指標,程序運行時間僅用1.23s.粗糙集將pH值、TH、NH4+、F-、Cl-和錳指標去除,在本信息系統(tǒng)中,以上6項指標的重要度小于其他指標,據(jù)表1可知,這些指標的水質(zhì)等級相對簡單,對分類結(jié)果的影響較弱.可見,經(jīng)過粗糙集的屬性約簡,去除了冗余的評價指標,同時較好地保持了原信息系統(tǒng)的分類能力.
圖3 參數(shù)交叉驗證曲線Fig.3 Parametric cross validation curve (a)約簡前;(b)約簡后;c懲罰因子;gamma內(nèi)核參數(shù)
表2 屬性約簡前后評價結(jié)果Table 2 Assessment results of before and after reduction
根據(jù)各監(jiān)測孔水質(zhì)綜合評價結(jié)果(圖5)可以看到,研究區(qū)地下水水質(zhì)以II、III類居多,其中,II類水占20%,III類水占50%,IV類水占20%,V類水占10%.根據(jù)水質(zhì)標準GB/T14848-93[23],該區(qū)地下水有70%(II、III類)滿足飲用條件,主要分布在研究區(qū)域河流上游西部及北部地區(qū),20%(IV 類)的地下水經(jīng)處理后方可飲用,主要分布在河流下游,研究區(qū)域東部及東南部,10%(V類)的地下水不適宜人類飲用,分布在河流下游入??谔?IV類水在監(jiān)測孔SK6和SK9處出現(xiàn),SK6鐵超標8.3倍,SK9鐵超標36.7倍,NO3-超標1.4倍,兩處地下水水質(zhì)均較差,未經(jīng)處理不可作為飲用水;在監(jiān)測孔SK8中,水質(zhì)呈現(xiàn)出V類極差水,其中鐵超標18.7倍,NH4+超標2.8倍,NO2-超標1.5 倍,Cl-超標1.3倍,此外pH和TDS亦少量超標,可見SK8處地下水不宜作為飲用水.研究區(qū)主要污染因子為鐵和“三氮”,分析其原因是由于狗河上游存在黃鐵礦,致使下游地下水鐵超標,此外化肥和農(nóng)藥等農(nóng)村非點源污染,導致地下水“三氮”超標.從監(jiān)測井的平面位置來看,IV、V類水主要分布在沿海地區(qū),考慮到研究區(qū)位于狗河下游入海口處,地勢由高變低明顯,水力梯度較大,上游溶解于地下水中的鐵、“三氮”等污染物隨水流運移,在下游積聚,致使沿海地區(qū)水質(zhì)惡化.
圖4 Matlab水質(zhì)分類輸出結(jié)果Fig.4 Matlab output for water quality classification (a)約簡前;(b)約簡后;2,3,4,5分別為II,III,IV,V類
圖5 監(jiān)測孔綜合評價結(jié)果Fig.5 Results of monitoring drilling comprehensive assessment
5.1 研究區(qū)地下水部分適宜飲用,以II、III類為主.部分地區(qū)出現(xiàn)IV類較差水、甚至V類極差水,主要污染因子為鐵、“三氮”等,其中鐵超標嚴重,多在8.3倍以上.
5.2 影響地下水環(huán)境質(zhì)量的化學指標眾多,其中不乏冗余指標,粗糙集的屬性約簡方法將14項指標精簡為8項,約簡前后的指標經(jīng)支持向量機法評價,水質(zhì)等級一致.粗糙集與支持向量機的聯(lián)合使用,不僅在保證分類能力的前提下有效地減少冗余指標,降低運算的復雜程度,同時機器算法縮減了計算時間,且其在多維計算中的優(yōu)勢使評價結(jié)果更加準確.
5.3 粗糙集與支持向量機的運算過程均依據(jù)于數(shù)據(jù)間的相關性,在揭示數(shù)據(jù)規(guī)律的同時實現(xiàn)指標約簡和水質(zhì)評價,在地下水質(zhì)量評價中具有普遍的適用性.
參考文獻:
[1] Viala E. Water for food, water for life a comprehensive assessment of water management in agriculture [J]. Irrigation and Drainage Systems, 2008,22(1):127-129.
[2] Shrestha S, Kazama F. Assessment of surface water quality using multivariate statistical techniques: A case study of the Fuji river basin, Japan [J]. Environmental Modelling and Software, 2007, 22(4):464-475.
[3] 劉 博,肖長來,梁秀娟,等.吉林市城區(qū)淺層地下水污染源識別及空間分布 [J]. 中國環(huán)境科學, 2015,35(2):457-464.
[4] 梁小俊,張慶慶,許月萍,等.層次分析法-灰關聯(lián)分析法在京杭運河杭州段水質(zhì)綜合評價中的應用 [J]. 武漢大學學報(工學版), 2011,44(3):312-316,325.
[5] Dahiya S, Singh B, Gaur S, et al. Analysis of groundwater quality using fuzzy synthetic evaluation [J]. Journal of Hazardous Materials, 2007,147(3):938-946.
[6] Maier H R, Morgan N, Chow C W K. Use of artificial neural networks for predicting optimal alum doses and treated water quality parameters [J]. Environmental Modelling and Software, 2004,19(5):485-494.
[7] Huang H, Liang XJ, Xiao CL, et al. Analysis and assessment of confined and phreatic water quality using a rough set theory method in Jilin City, China [J]. Water Science and Technology: Water Supply, 2015,15(4):773-783.
[8] 董海彪,盧文喜,安永凱,等.基于對應分析法的鄂爾多斯盆地東北部地下水污染分析 [J]. 中國環(huán)境科學, 2015,35(11):3371-3378.
[9] 肖傳寧,盧文喜,安永凱,等.基于兩種耦合方法的模擬-優(yōu)化模型在地下水污染源識別中的對比 [J]. 中國環(huán)境科學, 2015,35(8): 2393-2399.
[10] Pai P F, Lee F C. A rough set based model in water quality analysis [J]. Water Resources Management, 2010,24(11):2405-2418.
[11] Li Peiyue, Wu Jianhua, Qian Hui. Groundwater quality assessment based on rough sets attribute reduction and TOPSIS method in a semi-arid area, China [J]. Environmental Monitoring and Assessment, 2012,184(8):4841-4854.
[12] 胡可云,陸玉昌,石純一.粗糙集理論及其應用進展 [J]. 清華大學學報:自然科學版, 2001,41(1):64-68.
[13] 李祚泳,張正健.基于回歸支持向量機的指標規(guī)范值的水質(zhì)評價模型 [J]. 中國環(huán)境科學, 2013,33(8):1502-1508.
[14] 劉雙印,徐龍琴,李道亮,等.基于時間相似數(shù)據(jù)的支持向量機水質(zhì)溶解氧在線預測 [J]. 農(nóng)業(yè)工程學報, 2014,30(3):155-162.
[15] Zhang D Z; Xia B K. Soft measurement of water content in oil-water two-phase flow based on RS-SVM Classifier and GA-NN Predictor [J]. Measurement Science Review, 2014,14(4):219-226.
[16] Liu Shuangyin, Xu Longqin, Li Daoliang. Water quality earlywarning model based on support vector machine optimized by rough set algorithm [J]. Systems Engineering - Theory and Practice, 2015,35(6):1617-1624.
[17] Pawlak Z, Skowron A. Rudiments of rough sets [J]. Information Sciences, 2007,177(1):3-27.
[18] Swiniarski R W, Skowron A. Rough set methods in feature selection and recognition [J]. Pattern recognition letters, 2003, 24(6):833-849.
[19] Vapnik V N. The nature of statistical learning theory [M]. Berlin: Springer-Verlag, 1995.
[20] 牛瑞卿,彭 令,葉潤青,等.基于粗糙集的支持向量機滑坡易發(fā)性評價 [J]. 吉林大學學報(地球科學版), 2012,42(2):430-439.
[21] 梁雪春,龔艷冰,肖 迪.一種多核加權(quán)支持向量機的水質(zhì)預測方法 [J]. 東南大學學報(自然科學版), 2011,41(s):14-17.
[22] 石 峰,婁臻亮,張永清.一種改進的粗糙集屬性約簡啟發(fā)式算法 [J]. 上海交通大學學報, 2002,36(4):478-481.
[23] GB/T14848-93 地下水質(zhì)量標準 [S].
[24] 烏蘭圖雅,李東魁.求解一類NP-HARD問題的一個快速算法[J]. 內(nèi)蒙古大學學報(自然科學版), 2012,43(1):85-88.
Model of groundwater quality assessment with support vector machine based on rough set.
HUANG He1, LIANG Xiu-juan1*, XIAO Xiao1, QIU Shu-wei1, XIAO Chang-lai1, WANG Zhong2(1.Key Laboratory of Groundwater Resources and Environment, Ministry of Education, College of Environment and Resources, Jilin University, Changchun 130021, China;2.Jilin Forest Industry Development and Construction Group Corporation Limited, Changchun 130000, China). China Envrionmental Science, 2016,36(2):619~625
Abstract:A total of 10 quaternary loose rock pore water samples were collected from Suizhong County, Liaoning. The pH, Cl-, SO42-, NH4+, NO2-, NO3-, F-, total hardness, total dissolved solids, iron, manganese, zinc, cyanide and volatile phenols were considered as the water quality parameters. Rough set theory was employed for data reduction. Meanwhile, to find attribute reduction set, the attribute dependence degree and information entropy heuristic algorithms were combined. Support vector machine was employed to evaluate groundwater quality for all parameters before and after reduction, respectively. The results showed that rough set theory reduced the number of chemical parameters from 14 to 8, and assessment results with attribute reduction were the same as those without attribute reduction. The groundwater quality in the study area was mainly class II and III, which meets the permissible limits. However, iron and three nitrogen were exceeded drinking water quality standard. Although the combination of rough set and support vector machine reduced redundant indices, the accuracy of water quality classification remained effective, while the complexity of calculation was reduced and the rationality of assessment results was guaranteed.
Key words:rough set;support vector machine;groundwater;water quality assessment
作者簡介:黃 鶴(1988-),女(滿族),吉林長春人,吉林大學博士研究生,主要從事水資源與水環(huán)境研究.發(fā)表論文7篇.
基金項目:吉林省科技攻關項目(20100452);吉林省自然科學基金(20140101164JC);吉林省水資源專項(0773-1441GNJL00390)
收稿日期:2015-08-25
中圖分類號:X824
文獻標識碼:A
文章編號:1000-6923(2016)02-0619-07