決策樹模型在水環(huán)境監(jiān)測(cè)網(wǎng)絡(luò)中選取代表性樣點(diǎn)的應(yīng)用

2014-04-26 01:31:42薛冬梅王中良

中國環(huán)境監(jiān)測(cè) 2014年1期

薛冬梅，王中良

1．天津師范大學(xué)，天津市水資源與水環(huán)境重點(diǎn)實(shí)驗(yàn)室，天津 300387

2．比利時(shí)根特大學(xué)同位素生物科學(xué)實(shí)驗(yàn)室(ISOFYS)，Ghent B-9000

3．中國科學(xué)院地球化學(xué)研究所，環(huán)境地球化學(xué)國家重點(diǎn)實(shí)驗(yàn)室，貴州貴陽 550002

水體中硝酸鹽的污染在全球范圍內(nèi)日益嚴(yán)重。各國亦建立相關(guān)水體監(jiān)測(cè)網(wǎng)絡(luò)對(duì)水質(zhì)進(jìn)行長(zhǎng)期監(jiān)測(cè)，但隨之而來的是大量監(jiān)測(cè)數(shù)據(jù)的累積，給后續(xù)的科研工作帶來不便。尤其是在龐大的監(jiān)測(cè)網(wǎng)絡(luò)中如何選取有代表性樣點(diǎn)的研究已成為急需解決的問題之一。

科學(xué)的統(tǒng)計(jì)方法對(duì)于龐大的數(shù)據(jù)處理很有意義。多元統(tǒng)計(jì)方法(Multivariatestatistical methods)能夠區(qū)分眾多變量之間的復(fù)雜關(guān)系，對(duì)于源類識(shí)別問題很有意義［1-3］。Alley［2］對(duì)多元統(tǒng)計(jì)方法進(jìn)行了較為詳細(xì)的綜述，該法包括聚類分析(cluster analysis)、主成分分析(PCA)、判別分析(discriminant analysis)、決策樹模型(decision tree)和因子分析(factor analysis)等。對(duì)于源類的分類問題，我們可以應(yīng)用判別分析和決策樹模型［4］。判別分析是多元回歸以尋找最佳線性方程組來分離樣本，但是此種方法很難進(jìn)行合理解釋。決策樹模型的基本理論是根據(jù)一個(gè)已知分類的數(shù)據(jù)集以自上而下的遞歸方式構(gòu)造決策樹，并以此樣本為基礎(chǔ)進(jìn)行歸納學(xué)習(xí)，而其表現(xiàn)形式就是一個(gè)類似于流程圖的樹形結(jié)構(gòu)。決策樹模型分類準(zhǔn)確性較高、計(jì)算過程簡(jiǎn)單，輸出結(jié)果具有圖形化易理解等優(yōu)點(diǎn)［5-7］。國內(nèi)也有一些學(xué)者應(yīng)用決策樹模型研究如何評(píng)價(jià)耕地［8］、分類海岸帶［9］、分類濕地［10-11］以及探討黃河干流缺水［12］問題等。但目前還沒有應(yīng)用這類模型對(duì)于較大水體監(jiān)測(cè)網(wǎng)絡(luò)所收集的時(shí)間序列數(shù)據(jù)進(jìn)行信息抽取挖掘的相關(guān)研究。

該研究以比利時(shí)弗拉芒地區(qū)的水環(huán)境監(jiān)測(cè)網(wǎng)絡(luò)為例，利用決策樹模型分析評(píng)估原有監(jiān)測(cè)點(diǎn)位的污染源專家分類和模型輸出的可匹配率，為進(jìn)一步選取代表性樣點(diǎn)進(jìn)行污染源判斷的深入研究提供理論依據(jù)。

1 決策樹模型的建立

1.1 采樣點(diǎn)概況

專家從環(huán)境監(jiān)測(cè)網(wǎng)絡(luò)選取了47個(gè)采樣點(diǎn)(圖1)，并且根據(jù)硝酸鹽來源劃分為5類：溫室大棚區(qū)(G，11個(gè)點(diǎn)位)、農(nóng)作物區(qū)(A，7個(gè)點(diǎn)位)、有地下水補(bǔ)給的農(nóng)作物區(qū)(AGC，15個(gè)點(diǎn)位)、居民區(qū)(H，8個(gè)點(diǎn)位)以及農(nóng)作物和園藝混合區(qū)(AH，6個(gè)點(diǎn)位)。

圖1 地表水采樣點(diǎn)的分布

1.2 數(shù)據(jù)集合

根據(jù)采樣點(diǎn)在監(jiān)測(cè)網(wǎng)絡(luò)中的編碼、采樣時(shí)間，監(jiān)測(cè)的地表水水體的10個(gè)物理化學(xué)參數(shù)(水溫T，EC20，pH，DO，O2，Cl－，NH4+-N，NO2－，NO3－、PO)以及硝酸鹽來源分類等指標(biāo)創(chuàng)建了數(shù)據(jù)集合，實(shí)例總數(shù)為3 928。其中，數(shù)據(jù)集合中缺失的數(shù)據(jù)根據(jù)多重插補(bǔ)(Multiple Imputation)法進(jìn)行插補(bǔ)。

分類AH以及G中的地表水站點(diǎn)在2002—2009年都具有較高的平均硝酸鹽濃度范圍，質(zhì)量濃度分別為13.5～29.8 mg/L和6.9～44.4 mg/L;分類A以及AGC中的地表水站點(diǎn)的NO3－平均濃度次之，質(zhì)量濃度分別為2～14 mg/L和1～22.4 mg/L;而分類H則為最低，NO3－平均質(zhì)量濃度為0.4～3.6 mg/L(以N計(jì))變化。

1.3 決策樹模型

決策樹模型的基本算法是貪心算法，其生成則是自上而下的遞歸過程通過不斷將樣本分割成子集來構(gòu)造決策樹。算法的核心問題就是屬性選擇和剪枝策略。采用C4.5算法來建立決策樹模型［13］。C4.5對(duì)屬性的選擇基于信息理論(information theory)［14］，通過計(jì)算信息增益來確定節(jié)點(diǎn)的分裂屬性，每個(gè)節(jié)點(diǎn)均選擇具有最大信息增益的屬性。這樣能夠使得樣本在依據(jù)該屬性進(jìn)行分類時(shí)所需要的信息最小，可以有效減少分類所需的分裂次數(shù)。假設(shè)一個(gè)集合M，具有s個(gè)類別，其中個(gè)類在M中出現(xiàn)的比例為p(ci)，那么M的信息熵為

選擇屬性X(在本研究中是指水的物理化學(xué)參數(shù))分裂后的信息增益可表達(dá)為

式中info(M|X)代表X的信息熵，V(X)代表屬性X的可能值的數(shù)量，Mj代表集合M的子集中屬性X的可能值的數(shù)量為j。最優(yōu)屬性則是信息增益gain(X)的最大值。

C4.5對(duì)決策樹的剪枝是自下而上，從樹最底層的節(jié)點(diǎn)，將符合修剪規(guī)則的剪掉，直到?jīng)]有節(jié)點(diǎn)滿足修剪規(guī)則為止。決策樹建立后，根據(jù)10次交叉檢驗(yàn)法進(jìn)行準(zhǔn)確性評(píng)估。

2 結(jié)果與討論

2.1 模型輸出與專家分類對(duì)比

利用47個(gè)地表水樣點(diǎn)的10個(gè)物理化學(xué)參數(shù)數(shù)據(jù)建立了決策樹模型，共有247個(gè)節(jié)點(diǎn)，樹形規(guī)模較大。實(shí)例數(shù)量為3 928個(gè)，其中3 142個(gè)實(shí)例與專家知識(shí)的分類情況一致，剩余的786個(gè)實(shí)例則被分為不同的類別。所以，此決策樹模型的輸出與專家分類的匹配率為80%。決策樹模型中每一硝酸鹽源類實(shí)例的分類情況見圖2。

圖2 決策樹模型中每一硝酸鹽源類實(shí)例的分類情況

從圖2可見，分類A、AGC、G和H具有較高的匹配率(大于80%)，表明使用建模的物理化學(xué)參數(shù)數(shù)據(jù)具有較高的可重構(gòu)性。分類AH則具有較低的匹配率(50%)，表明了這一類樣點(diǎn)的物理化學(xué)參數(shù)數(shù)據(jù)具有較低的可重構(gòu)性，但是引起這一現(xiàn)象的原因目前不詳，需要結(jié)合后續(xù)的氮氧同位素方法進(jìn)行深入研究。此外，每一硝酸鹽源的模型輸出與專家分類的匹配率都不是100%，說明部分實(shí)例與專家分類不相同。所以，了解決策樹模型中每一類實(shí)例的分類情況是比較有意義的。

從圖2中可以看出分類A、AGC、G和H具有較高的匹配率(大于80%)，因而這些分類中相應(yīng)的實(shí)例被劃分為其他分類的百分比則相對(duì)較低。相反地，分類AH因具有較低的匹配率而導(dǎo)致其相當(dāng)部分實(shí)例(大于40%)被決策樹模型重新分到A以及G這2個(gè)類別中。其原因可能是分類AH本身就是農(nóng)作物和園藝混合區(qū)，此類中地表水樣點(diǎn)所構(gòu)成實(shí)例不排除具有其他類別實(shí)例的特征。

另外，47個(gè)采樣點(diǎn)的平均決策樹模型的輸出與專家分類的匹配率為43% ～95%，有近3/4的樣點(diǎn)大于80%。研究中還發(fā)現(xiàn)，分類AH中的采樣點(diǎn)均顯示了較低的數(shù)值，平均匹配率為43% ～60%。此類中的采樣點(diǎn)數(shù)據(jù)重構(gòu)性較差，需選擇另外一種相對(duì)獨(dú)立的方法進(jìn)行分析研究，進(jìn)而對(duì)采樣點(diǎn)分類提供更合理的證據(jù)，并非只是單單從不同土地利用類型和專家知識(shí)而進(jìn)行的分類檢索。

2.2 依據(jù)決策樹模型選擇代表性樣點(diǎn)

如前所述，決策樹模型所評(píng)估的47個(gè)采樣點(diǎn)中，部分樣點(diǎn)數(shù)據(jù)重構(gòu)性較差導(dǎo)致決策樹模型的輸出與專家分類的匹配率較低，需要其它方法進(jìn)行校正。氮氧同位素方法已經(jīng)廣泛應(yīng)用于對(duì)硝酸鹽污染源判斷以及硝酸鹽遷移轉(zhuǎn)化過程的研究。所以，在47個(gè)樣點(diǎn)中選擇了30個(gè)具有代表性的樣點(diǎn)作為后續(xù)研究。另將30個(gè)優(yōu)化后點(diǎn)位的數(shù)據(jù)集再次帶入模型中，該決策樹模型的輸出與專家分類的匹配率達(dá)到84%，優(yōu)于前47個(gè)點(diǎn)位的模型輸出。然而分類AH中的采樣點(diǎn)仍顯示較低的匹配率(48% ～63%)。根據(jù)此決策樹模型，縮減了工作量，選擇的樣點(diǎn)更具有代表性。其目的是通過后續(xù)方法更準(zhǔn)確地對(duì)選擇的樣點(diǎn)進(jìn)行分類，建立輸出結(jié)果更為精確的決策樹模型進(jìn)而對(duì)監(jiān)測(cè)網(wǎng)絡(luò)中其它未知源的樣點(diǎn)進(jìn)行硝酸鹽來源的預(yù)測(cè)。

3 結(jié)論

建立的決策樹模型成功地從47個(gè)采樣點(diǎn)的物理化學(xué)數(shù)據(jù)所組成的數(shù)據(jù)集中挖掘了未知的、有價(jià)值的信息。此決策樹模型評(píng)估了約有80%的樣點(diǎn)分類與專家知識(shí)分類相吻合，然而部分樣點(diǎn)則顯示了較低的匹配率，數(shù)據(jù)的可重構(gòu)性較低。決策樹模型的輸出結(jié)果為選擇有代表性樣點(diǎn)進(jìn)行后續(xù)研究提供了可靠的數(shù)據(jù)保證。

［1］Hem J A．Study and interpretation of natural water［M］．Water Supply Paper 2254．Reston，VA：United States Geol．Survey，1985．

［2］Alley W M．Regional ground-water quality［M］．Van Nostrand Rheinhold．New York：Wiley，1993．

［3］Spruill T B，Showers W J，Howe S S．Application of classification-tree methods to identify nitrate sources in ground water［J］．J Environ Qual，2002，31：1 538-1 549．

［4］Wilkinson L．Classification and regression trees［M］．Chicago：SPSS Inc，2000．

［5］Breiman L J，F(xiàn)riedman J H，Olshen R A et al．Classification and regression trees［M］．New York：Chapman and Hall/CRC，1984．

［6］Han J W，Kamber M．Data mining：Concepts and techniques［M］．San Francisco：Morgan Kaufmann Publisher，2001．

［7］StatSoft． Electronic statistics textbook ［EB/OL］．(2001)［2013-10-24］http：∥www．statsoft．com/．

［8］田劍，胡月明，劉建敏，等．聚類支持下決策樹模型在耕地評(píng)價(jià)中的應(yīng)用［J］．農(nóng)業(yè)工程學(xué)報(bào)，2007，23(12)：58-62．

［9］何厚軍，王文，劉學(xué)工．基于決策樹模型的海岸帶分類方法研究［J］．地理與地理信息科學(xué)，2008，24(5)：25-28．

［10］李慧，余明．基于決策樹模型的濕地信息挖掘與結(jié)果分析［J］．地球信息科學(xué)，2007，9(2)：60-64．

［11］黃穎，周云軒，吳穩(wěn)，等．基于決策樹模型的上海城市濕地遙感提取與分類［J］．吉林大學(xué)學(xué)報(bào)：地球科學(xué)版，2009，39(6)：1156-1162．

［12］吳新，鄧曉青．黃河干流缺水決策樹模型研究［J］．人民黃河，2007，29(6)：25-27．

［13］Quinlan J R．C4.5：Programs for Machine Learning［M］． San Mateo， CA：Morgan Kaufmann Publishers，1993．

［14］Shannon C．A mathematical theory of communication［J］．The Bell Systems Technical Journal，1948，27：379-423．