駱術(shù)斌,徐 蕾
(吉林省水文水資源局,吉林 長春 130022)
吉林省西部地區(qū)位于松嫩平原的西南部,東、南、西三面高,北部和中部較低,地形似簸箕狀。該區(qū)地域遼闊,土地面積為46 600 km2,行政區(qū)劃轄洮北區(qū)、寧江區(qū)、洮南市、大安市、通榆縣、鎮(zhèn)賚縣、扶余縣、前郭縣、乾安縣和長嶺縣。覆蓋的水文地質(zhì)單元有中部高平原的一部分、低平原和洮兒河沖積扇。中部高平原為氣候半濕潤地區(qū),隨著地下水徑流的變?nèi)酰畬铀惶孀饔靡蚕鄬?,水化學(xué)蒸發(fā)濃縮作用逐漸增強(qiáng)。松拉河間地塊承壓水小區(qū)局部分布有重碳酸氯化物型水;低平原為氣候干旱、半干旱地區(qū),區(qū)內(nèi)有起伏不平的洼地,泡塘星羅棋布。潛水位埋藏淺,地下水滯流、閉流,地下水蒸發(fā)濃縮作用強(qiáng)烈。地下水化學(xué)類型由礦化度小于1.5 g/L的重碳酸型淡水,到霍林河、大布蘇泡、查干湖一帶我省地勢最低洼處的重碳酸氯化物型水,礦化度為1~3 g/L,屬微咸水;白城沖洪積扇形地位于干旱、半干旱氣候區(qū)。含水層以砂礫石、礫卵石為主,透水性好,含水較豐富。水質(zhì)較好,為礦化度小于0.5 g/L的重碳酸型淡水。扇形地的后緣及軸部,水交替能力極強(qiáng),水循環(huán)條件好,水化學(xué)類型為重碳酸鈣型淡水;扇形地前緣溢出帶受蒸發(fā)濃縮作用影響,可溶鹽含量升高,地下水化學(xué)類型以重碳酸鈣鈉型水為主。
支持向量機(jī)(SVM)則是建立在統(tǒng)計學(xué)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理理論基礎(chǔ)之上的算法。它能盡量提高學(xué)習(xí)機(jī)的泛化能力,即使是由有限訓(xùn)練樣本,在求解問題時仍能得到較為滿意的解;它解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題,有效避免“過擬合”,泛化能力強(qiáng),在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,使它成為一種優(yōu)秀的學(xué)習(xí)算法。
支持向量機(jī)進(jìn)行分類計算的原理是尋找一個滿足分類要求的最優(yōu)分類超平面,使得超平面在保證分類精度的同時,能夠使超平面兩側(cè)的空白區(qū)域最大化。
SVM是從線性可分情況下的最優(yōu)分類面發(fā)展而來的,基本思想可用圖1的兩維情況說明而具體的數(shù)學(xué)描述如下:
如圖1所示,設(shè)線性可分的樣本集有n個樣本(xi,yi),其中i=1,2,…,n,x∈Rd,y,x∈{-1,1}是類別符號。在高維空間中,將兩類樣本無錯分開的分類超平面H滿足:g(x)=ω·x-b=0,進(jìn)行歸一化,可以使所有樣本滿足|g(x)≥1|,所有樣本被無錯誤分開時應(yīng)滿足:
式中:ω——可調(diào)權(quán)向量;b——閾值。
此時,H1和H2之上的點(diǎn)距分類線H的距離為,分類間隔為,要使分類間隔最大相當(dāng)于使‖ω‖2最小,這樣求解最優(yōu)超平面的問題就可以表示成如下的約束優(yōu)化問題
圖1 最優(yōu)分類線示意圖
滿足上述條件的分類面就叫最優(yōu)分類面,H1和H2之上的點(diǎn)共同支持了最優(yōu)分類面,就稱為支持向量,這也是支持向量機(jī)名字的由來。
利用了最小二乘支持向量機(jī)分類算法,即分類函數(shù)用最小二乘算法解出,因此稱為最小二乘支持向量機(jī)分類算法。
支持向量機(jī)只是一個二類分類算法,即它只能把數(shù)據(jù)分成兩類。而我們所進(jìn)行的地下水環(huán)境質(zhì)量評價的標(biāo)準(zhǔn)為五級,因此必須要對標(biāo)準(zhǔn)的SVM算法進(jìn)行改進(jìn),來滿足多級別分類的要求。利用多層次的分類器來解決支持向量機(jī)的多級別分類問題。
該分類器主要由5個SVM標(biāo)準(zhǔn)分類器串聯(lián),每個SVM標(biāo)準(zhǔn)分類器用來辨別地下水環(huán)境質(zhì)量所屬等級。在對數(shù)據(jù)進(jìn)行訓(xùn)練時,將訓(xùn)練樣本集中水質(zhì)等級為Ⅰ的作為一類,其類別標(biāo)識為1,其余的為另一類,類別標(biāo)識為-1,訓(xùn)練分類器1。之后,選取訓(xùn)練樣本集中水質(zhì)等級Ⅱ作為一類,將其類別標(biāo)識為1,并將該類以外的其余樣本為另一類,標(biāo)識為-1,訓(xùn)練分類器2。按此方法,依次訓(xùn)練分類器3,4,5。在進(jìn)行地下水環(huán)境質(zhì)量評價時,將水質(zhì)樣本輸入分類器1,若輸出為1,則評價測試結(jié)束,表明該地區(qū)的地下水水質(zhì)等級為Ⅰ級,否則該指標(biāo)屬性值樣本將被自動輸入到分類器2進(jìn)行判別。若決策函數(shù)輸出仍不為1,則該指標(biāo)屬性值樣本將依次自動輸入到下一級分類器,繼續(xù)進(jìn)行識別分類,直到?jīng)Q策函數(shù)輸出為1,分類結(jié)束。這樣,基于多層次分類器的支持向量機(jī)算法就可以進(jìn)行多級別的分類計算。
在研究區(qū)選出90個采樣點(diǎn)中9個水質(zhì)指標(biāo):pH 值、總硬度、Cl-,SO42-、溶解性總固體、TFe、NO3-,NO2-,F(xiàn)-。地下水質(zhì)量分類指標(biāo)及標(biāo)準(zhǔn)依據(jù)國家技術(shù)監(jiān)督局批準(zhǔn)的(GB/T14848-93)《地下水質(zhì)量標(biāo)準(zhǔn)》。評價標(biāo)準(zhǔn)以及測試數(shù)據(jù)表1。
表1 地下水水質(zhì)評價分級標(biāo)準(zhǔn)表
由于支持向量機(jī)只接受-1~1之間的數(shù)值計算,因此首先將所有的等級標(biāo)準(zhǔn)值進(jìn)行歸一化處理,將換算到0~1之間。應(yīng)用以下公式對原始數(shù)據(jù)進(jìn)行預(yù)處理:
xij=(xij-xjmin)/(xjmax-xjmin)
最后將評價分級指標(biāo)作為訓(xùn)練樣本,具體的測試結(jié)果作為分類樣本,進(jìn)行了支持向量機(jī)的分類計算。
計算采用了交叉驗(yàn)證比較方法來選擇參數(shù)C和 σ2。首先確定懲罰因子參數(shù)集 Sc={c1,c2,…,cn}和核參數(shù)集 Sσ2={σ21,σ22,…,σ2n}。然后從參數(shù)集中選擇參數(shù)進(jìn)行組合,對最小二乘支持向量機(jī)進(jìn)行訓(xùn)練,選出最佳的參數(shù)組合作為支持向量機(jī)模型的最終參數(shù)。
最終經(jīng)過多次模型訓(xùn)練,當(dāng)C=500,σ21=σ22=0.1時,參數(shù)為最佳組合,模型可以用來進(jìn)行分類計算。
將具體的水質(zhì)樣本數(shù)據(jù)帶入到訓(xùn)練好的模型中,可以得到利用支持向量機(jī)進(jìn)行水質(zhì)分類的結(jié)果。同時,利用模糊綜合評判和神經(jīng)網(wǎng)絡(luò)兩種方法的評價結(jié)果進(jìn)行了對比分析。
結(jié)果表明3種綜合評價模型的計算結(jié)果基本一致,在計算過程中,支持向量機(jī)算法的計算步驟、訓(xùn)練速度以及計算效率明顯高于神經(jīng)網(wǎng)絡(luò)算法。
1)支持向量機(jī)算法是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上提出的一種先進(jìn)的算法,其本身具有的在統(tǒng)計樣本量較少的情況下獲得良好的統(tǒng)計規(guī)律和更好的泛化能力,非常適合綜合評價計算。而且經(jīng)過實(shí)證的研究,可以看出該方法的綜合評價結(jié)果正確,但計算難度不大。因此,改進(jìn)支持向量機(jī)算法在水資源研究的綜合評價計算中具有很好的發(fā)展和應(yīng)用前景。
2)根據(jù)1982年、2002年和本次的評價結(jié)果顯示,研究區(qū)有兩個水文地質(zhì)化學(xué)異常區(qū):氟異常區(qū)、鐵異常區(qū)。氟異常區(qū)分布于松嫩低平原的鎮(zhèn)賚、通榆、長嶺、乾安等縣的部分地區(qū),特別是大布蘇泡等地淺層地下水中的氟含量超標(biāo),氟含量普遍超過1 mg/L,局部地區(qū)超過4 mg/L。鐵異常區(qū)位于松原市前郭、寧江、扶余的部分地區(qū)是鐵離子富集區(qū),鐵離子含量超過0.3 mg/L,局部地區(qū)鐵離子含量超過3.5 mg/L。地下水中總Fe超標(biāo),可能是由于天然狀態(tài)下巖石中鐵離子含量較高造成的。
3)通過對系列年水質(zhì)資料的分析,礦化度、總硬度和氨氮的動態(tài)增幅較為明顯,而pH值的變化不大。地下水環(huán)境污染主要來自局部地區(qū)的點(diǎn)源和面源污染物的排泄。點(diǎn)源污染指來自生活污水和工業(yè)廢水的排放,非點(diǎn)源污染主要指由于暴雨徑流沖刷的地面污染物和灌溉排水等進(jìn)入地表水,進(jìn)而造成對地下水水質(zhì)污染。
[1]Chi-Wei HSU,Chih-Jen LIN.A comparison of methods for multiclass support vector machine[J].IEEE Transacatutions On Neural Networks.2002,13(2):415-425.
[2]Kaibo Duan,S.Sathiya Keerthi,Aun Neow Poo.Evaluation of simple performance measures for tuning SVM hyperparameters[J].Neurocomputing.2003,51:41-59.
[3]Md.Mahmudur Rahman,Bipin C.Desai,Prabir Bhattacharya.Medical image retrieval with probabilistic multiclass support vector machine classifiers and adaptive similarity fusion[J].Computerized Medical Imaging and Graphics.2008,32(2):95-108.
[4]王凱軍,曹劍峰,李升.多層次分類支持向量機(jī)在水質(zhì)評價中的應(yīng)用[J].水資源保護(hù).2009,37(9):1092-1096.
[5]賴永標(biāo),喬春生,劉開云等.支持向量機(jī)在圍巖穩(wěn)定性分類中的應(yīng)用[J].水利學(xué)報.2006,37(9):1092-1096.
[6]王煒,趙利飛,吳耿鋒等.地下水觀測數(shù)據(jù)擬合與預(yù)測的支持向量機(jī)方法[J].地震.2007,27(1):9-15.
[7]武晟,解建倉,汪志榮等.基于支持向量機(jī)的綠地徑流系數(shù)預(yù)測模型的建立[J].沈陽農(nóng)業(yè)大學(xué)學(xué)報.2007,38(1):102-105.
[8]盧敏,張展羽,馮寶平等.基于支持向量機(jī)的區(qū)域水安全預(yù)警模型及應(yīng)用[J].計算機(jī)工程.2006,32(5):44-46.
[9]徐紅敏,楊天行.基于支持向量機(jī)分類算法的湖泊水質(zhì)評價研究[J].吉林大學(xué)學(xué)報,2006,36(4):570-573.
[10]徐勁力.支持向量機(jī)在水質(zhì)評價中的應(yīng)用[J].中國農(nóng)村水利水電,2007,3:7-9.