侍建國,張亦飛
(1.天津市水文水資源勘測管理中心,天津300061;2.天津市水務(wù)工程建設(shè)交易管理中心,天津300204)
拉依達(dá)準(zhǔn)則在處理區(qū)域水文數(shù)據(jù)異常值中的應(yīng)用
侍建國1,張亦飛2
(1.天津市水文水資源勘測管理中心,天津300061;2.天津市水務(wù)工程建設(shè)交易管理中心,天津300204)
區(qū)域水文數(shù)據(jù)具有時(shí)間系列長和數(shù)據(jù)量大的特點(diǎn),以天津市寶坻區(qū)地下水監(jiān)測井埋深觀測數(shù)據(jù)為例,利用Excel繪制地下水埋深動(dòng)態(tài)曲線,分析埋深異常值的原因,通過拉依達(dá)準(zhǔn)則(3σ準(zhǔn)則)法剔除異常值,為區(qū)域水資源的合理開發(fā)利用提供科學(xué)的參考依據(jù)。
拉依達(dá)準(zhǔn)則;異常值;地下水埋深;水文監(jiān)測
水文數(shù)據(jù)是水資源調(diào)查評價(jià)和水資源環(huán)境問題研究的基礎(chǔ),也是水資源管理工作的基礎(chǔ)。研究區(qū)域水資源動(dòng)態(tài)變化特征及趨勢,對揭示各種環(huán)境因素對水資源的影響及合理開發(fā)利用水資源至關(guān)重要,對制定區(qū)域水資源開發(fā)利用規(guī)劃具有重要的意義。在區(qū)域水資源綜合研究中常常需要長序列的水文觀測數(shù)據(jù)作為數(shù)據(jù)支撐,在分析處理觀測數(shù)據(jù)時(shí)往往遇到較多明顯異常變化數(shù)據(jù),對于較早年代的水文異常觀測數(shù)據(jù),由于歷史原因難以辨別真假,將會(huì)直接影響水文觀測數(shù)據(jù)的準(zhǔn)確性。如果不剔除異常水文觀測數(shù)據(jù)就進(jìn)行水資源分析研究,結(jié)果的準(zhǔn)確性將缺乏可靠的數(shù)據(jù)支撐,因此判斷和剔除水文觀測數(shù)據(jù)異常值非常重要。
數(shù)據(jù)是對自然、社會(huì)現(xiàn)象的觀察結(jié)果的定量記錄,是科學(xué)研究的基礎(chǔ)與支撐,其準(zhǔn)確性直接影響以此為基礎(chǔ)研究結(jié)果的正確性。水文數(shù)據(jù)通常指水文的實(shí)測資料,即通過水文測驗(yàn)所收集的各種水文要素的原始記錄。對于水文數(shù)據(jù)的處理,關(guān)注的重點(diǎn)往往是水文數(shù)據(jù)的異常值問題。水文數(shù)據(jù)異常值產(chǎn)生的原因一般有3個(gè)方面:一是水文監(jiān)測設(shè)備原因,當(dāng)水文監(jiān)測設(shè)備在運(yùn)行過程中有元件損壞,監(jiān)測結(jié)果將出現(xiàn)異常值;二是人為原因,在水文監(jiān)測過程中由于人為操作失誤等產(chǎn)生異常值;三是水文監(jiān)測環(huán)境原因,如在地下水水位監(jiān)測過程中,由于采用生產(chǎn)井觀測地下水水位,監(jiān)測的水位數(shù)據(jù)往往出現(xiàn)異常值。水文數(shù)據(jù)異常值一般明顯偏離它所屬樣本的其余觀測值,極大地降低了水文觀測數(shù)據(jù)的準(zhǔn)確性,因此在進(jìn)行水文觀測數(shù)據(jù)分析研究時(shí),首先需要進(jìn)行異常值的識別和剔除。
以天津市寶坻區(qū)3眼地下水埋深觀測井觀測為例[1],識別水位埋深觀測數(shù)據(jù)中的異常值。將寶坻區(qū)相鄰的地下水水位觀測井bd62(太平莊)、bd77(區(qū)井隊(duì))、bd78(鹽業(yè)公司)觀測的序列埋深數(shù)值繪制出埋深過程線,數(shù)據(jù)時(shí)段從1995年1月1日到1999年12月31日,監(jiān)測頻率為5 d/次,每眼監(jiān)測井有360個(gè)監(jiān)測數(shù)據(jù),異常值分別出現(xiàn)在bd62(1998年12月11日)和bd78(1997年5月1日和1999年9月21日),如圖1所示。
圖1 寶坻區(qū)3眼地下水水位觀測井的埋深及異常值動(dòng)態(tài)過程線
水文數(shù)據(jù)異常值的剔除一般采用物理判別法,對于多次重復(fù)觀測的數(shù)值一般采用拉依達(dá)準(zhǔn)則(3σ準(zhǔn)則)法[2]、格拉布斯(Grubbs)準(zhǔn)則法和狄克遜(Dixon)準(zhǔn)則法等方法進(jìn)行異常值的剔除。對比其他方法,拉依達(dá)準(zhǔn)則法具有操作簡單、使用方便等特點(diǎn),尤其觀測次數(shù)較多時(shí)更方便,當(dāng)觀測次數(shù)小于或等于10時(shí)拉依達(dá)準(zhǔn)則法則失效。
區(qū)域水文觀測數(shù)據(jù)一般延續(xù)時(shí)間較長,后期還需長期觀測,積累的數(shù)據(jù)量尤為龐大,通常采用拉依達(dá)準(zhǔn)則法來進(jìn)行水文數(shù)據(jù)的后期處理和分析。
拉依達(dá)準(zhǔn)則法一般假定數(shù)據(jù)具有正態(tài)分布,則基本分布的均值和標(biāo)準(zhǔn)差可以通過計(jì)算數(shù)據(jù)的均值和標(biāo)準(zhǔn)差來估計(jì),然后可以估計(jì)每個(gè)對象在該分布下的概率。正態(tài)分布概率,如圖2所示。
圖2 正態(tài)分布概率
由圖2可以看出,數(shù)值分布在(μ-σ,μ+σ)中的概率為0.682 6,數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544,數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974。由此可以認(rèn)為,Y的取值幾乎全部集中在(μ-3σ,μ+3σ)區(qū)間內(nèi),超出這個(gè)范圍的可能性僅占不到0.3%。根據(jù)拉依達(dá)準(zhǔn)則法,處于(μ-3σ,μ+3σ)區(qū)間內(nèi)的區(qū)域水文觀測數(shù)據(jù)可以視為正常值,反之為異常值。
以天津市寶坻區(qū)地下水埋深觀測值為例,3眼觀測井太平莊監(jiān)測井bd62、區(qū)井隊(duì)監(jiān)測井bd77和鹽業(yè)公司監(jiān)測井bd78觀測數(shù)據(jù)經(jīng)拉依達(dá)準(zhǔn)則法剔除異常值后所繪制的地下水位埋深過程線,如圖3所示。對比圖1,可以看出其平均線的動(dòng)態(tài)趨勢更為平緩和合理,由此可見埋深異常值對平均值的影響較大。
圖3 寶坻區(qū)3眼地下水水位觀測井的埋深異常值剔除后的動(dòng)態(tài)過程線
在Excel中分別定義工作表Data、Calculation、Main。其中,Data為原始數(shù)據(jù),Calculation為數(shù)據(jù)處理過程,Main為最終成果顯示。
(1)在工作表Data中,定義時(shí)間變量Time、數(shù)據(jù)變量Data,并輸入原始數(shù)據(jù)。
(2)在工作表Calculation中分別計(jì)算數(shù)據(jù)個(gè)數(shù)COUNT(Data)、最大值MAX(Data)、最小值MIN(Data)、平均值A(chǔ)VERAGE(Data)、標(biāo)準(zhǔn)偏差STDEV(Data),并以此為基礎(chǔ)計(jì)算出成圖數(shù)據(jù)。其中,分組刻度:B2=AVERAGE(A:A)-340*(MAX(A:A)-MIN(A:A))/650,B3~B21=B2+(MAX(A:A)-MIN(A:A))/ROUNDUP(SQRT(COUNT(A:A)),0);頻率C2~C21{=FREQUENCY(A:A,B2:B22)};正態(tài)分布數(shù)據(jù)D2=NORM.DIST(B2,AVERAGE(A:A),STDEV(A:A),0);異常值E1=IF(A1="","",IF(ABS(A1-AVERAGE(A:A))>3*STDEVP(A:A),"",A1))。
(3)在工作表Main里顯示最終處理成果。以寶坻區(qū)太平莊監(jiān)測井bd62從1995年1月1日到1999年12月31日的觀測數(shù)據(jù)為基礎(chǔ),在Excel里經(jīng)過上述步驟處理,最終處理結(jié)果對比分析見表1。
從表1右側(cè)圖可以看出,bd62地下水埋深觀測數(shù)據(jù)呈正態(tài)分布;bd62地下水埋深過程線(原始數(shù)據(jù))異常值產(chǎn)生的時(shí)間節(jié)點(diǎn)數(shù)據(jù)起伏較大,如1998年12月11日觀測數(shù)據(jù),影響了序列數(shù)據(jù)的整體動(dòng)態(tài)變化趨勢;bd62地下水埋深過程線(處理數(shù)據(jù))為剔除異常值后的數(shù)據(jù)所生成的過程線,其動(dòng)態(tài)變化趨勢更加合理和準(zhǔn)確。
(1)區(qū)域水文觀測數(shù)據(jù)具有時(shí)間序列長、數(shù)據(jù)量大的特點(diǎn),其準(zhǔn)確與否直接影響到區(qū)域水資源的管理和開發(fā)利用,對長序列水文觀測數(shù)據(jù)進(jìn)行分析處理顯得尤為重要。
(2)拉依達(dá)準(zhǔn)則法具有操作簡單、使用方便等特點(diǎn),當(dāng)觀測次數(shù)小于或等于10時(shí)拉依達(dá)準(zhǔn)則法則失效,當(dāng)積累的水文觀測數(shù)據(jù)量十分龐大時(shí)采用該方法處理水文觀測數(shù)據(jù)中的異常值十分便捷。
(3)在Excel基礎(chǔ)上,以天津市寶坻區(qū)太平莊監(jiān)測井觀測數(shù)據(jù)為實(shí)例,分析研究了用拉依達(dá)準(zhǔn)則法處理水文數(shù)據(jù)異常值的詳細(xì)過程,對處理過程中的變量進(jìn)行了編程處理,為區(qū)域水文觀測數(shù)據(jù)異常值的處理提供了科學(xué)的參考依據(jù)。
表1 太平莊監(jiān)測井觀測數(shù)據(jù)異常值處理前后的對比分析
[1]張偉,侍建國.天津市地下水動(dòng)態(tài)序列分析及預(yù)測[R].天津:天津市水文水資源勘測管理中心,2007:38-45.
[2]何少華.試驗(yàn)設(shè)計(jì)與數(shù)據(jù)處理[M].長沙:國防科技大學(xué)出版社,2002.
TV12;P333.9
B
1004-7328(2016)05-0049-03
10.3969/j.issn.1004-7328.2016.05.017
2016—06—12
侍建國(1977—),男,工程師,主要從事水文信息化研究工作。