廖榮偉 房小怡 劉懷玉 曹玉靜 張冬斌 朱玉周
(1.中國(guó)氣象科學(xué)研究院災(zāi)害天氣國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100081;2.中國(guó)氣象局氣象干部培訓(xùn)學(xué)院,北京 100081;3.中國(guó)氣象局氣象發(fā)展與規(guī)劃院,北京 100081;4.國(guó)家氣象信息中心,北京 100081;5.河南省氣象服務(wù)中心,河南 鄭州 450003)
地面氣象觀(guān)測(cè)資料是了解天氣變化、探索天氣—?dú)夂蜓葑円?guī)律、開(kāi)展科學(xué)研究和氣象服務(wù)的基礎(chǔ),是氣象觀(guān)測(cè)的重要資料之一[1]。隨著氣象觀(guān)測(cè)技術(shù)的進(jìn)步,氣象要素的觀(guān)測(cè)精度和時(shí)間頻率越來(lái)越高。隨著業(yè)務(wù)需求的拓展和網(wǎng)絡(luò)技術(shù)的發(fā)展,氣象觀(guān)測(cè)數(shù)據(jù)上傳頻率由1 h一次,提高到了1 m in一次甚至1 s多次,獲取氣象要素?cái)?shù)據(jù)的時(shí)效性快速提升。相對(duì)傳統(tǒng)觀(guān)測(cè),高頻采樣(秒級(jí))觀(guān)測(cè)數(shù)據(jù)能更精細(xì)地描述大氣的微物理過(guò)程,可為數(shù)值預(yù)報(bào)、氣候監(jiān)測(cè)、氣候變化等科研業(yè)務(wù)工作提供重要的基礎(chǔ)數(shù)據(jù)。但是,未經(jīng)處理的高頻采樣數(shù)據(jù)中會(huì)包含信號(hào)噪音引起的異常值以及錯(cuò)誤數(shù)據(jù),需要進(jìn)行檢查修正,從而保證觀(guān)測(cè)資料最大可能的準(zhǔn)確,不影響站點(diǎn)觀(guān)測(cè)資料的代表性[2-3]。在站點(diǎn)觀(guān)測(cè)資料使用前,進(jìn)行質(zhì)量控制檢查,是提高觀(guān)測(cè)資料質(zhì)量,確保資料準(zhǔn)確性的關(guān)鍵環(huán)節(jié)[4]。
關(guān)于地面氣象觀(guān)測(cè)數(shù)據(jù)質(zhì)量控制技術(shù),國(guó)內(nèi)外進(jìn)行了較多的研究,質(zhì)量控制的方法主要包括氣候?qū)W界限值檢查[5-10]、區(qū)域界限值檢查[11-15]、時(shí)間一致性檢查[9,15]、內(nèi)部一致性檢查[6-11]、空間一致性檢查等[16-19]。質(zhì)量控制對(duì)象多為逐小時(shí)、逐日、逐月、逐年溫度、氣壓、濕度、風(fēng)向、風(fēng)速和降水等要素?cái)?shù)據(jù)。針對(duì)氣象高頻(分鐘級(jí))觀(guān)測(cè)資料,國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究。陳柏堃等[1]對(duì)分鐘觀(guān)測(cè)數(shù)據(jù)文件進(jìn)行了質(zhì)量控制探索;許沛華等[20]設(shè)計(jì)開(kāi)發(fā)了分鐘降水?dāng)?shù)據(jù)預(yù)處理系統(tǒng);黃琳等[21]對(duì)分鐘資料進(jìn)行質(zhì)量控制;孫娟等[22]建立了梯度觀(guān)測(cè)數(shù)據(jù)質(zhì)量控制模型并對(duì)梯度數(shù)據(jù)進(jìn)行綜合質(zhì)量控制;吳書(shū)成等[23]利用降水的空間分布和時(shí)程方程以及降水與溫度、濕度的關(guān)聯(lián)特性,開(kāi)展了針對(duì)不同類(lèi)型降水?dāng)?shù)據(jù)的二次質(zhì)量控制;劉雨佳等[24]將自動(dòng)站分鐘降水?dāng)?shù)據(jù)換算為小時(shí)降水?dāng)?shù)據(jù)后進(jìn)行質(zhì)量控制;Jimenez等[25]對(duì)伊比利亞半島東北部41個(gè)自動(dòng)站10—30 m in的平均風(fēng)速風(fēng)向資料進(jìn)行了質(zhì)量控制。
目前在數(shù)據(jù)檢查中,廣泛使用界限值檢查方法進(jìn)行數(shù)據(jù)質(zhì)量控制,即在某一范圍內(nèi)查找超出該范圍的可疑值[2,10]。如王海軍等[2]采用基于日極值的小時(shí)界限值檢查算法進(jìn)行質(zhì)量控制,可較大幅度減少誤檢率;Hasu和Altonen[26]采用了日閾值算法進(jìn)行自動(dòng)站氣象資料質(zhì)量控制;李雁等[27]計(jì)算了中國(guó)不同氣候區(qū)溫度和降水逐月閾值,為實(shí)時(shí)觀(guān)測(cè)數(shù)據(jù)質(zhì)量控制提供參考;王詠薇等[28]利用3倍方差作為閾值檢驗(yàn)標(biāo)準(zhǔn)進(jìn)行質(zhì)量控制;李茂善等[29]、馬小紅等[30]、彭記永和張曉娟[31]用4倍標(biāo)準(zhǔn)差作為閾值剔除由于電子線(xiàn)路或電源不穩(wěn)定、人為操作等因素引起的通量觀(guān)測(cè)數(shù)據(jù)奇異值;Vicker和Mahrt[32]、張烺等[33]使用3.5倍標(biāo)準(zhǔn)差作為閾值去除通量觀(guān)測(cè)數(shù)據(jù)的野點(diǎn)。
以往有關(guān)氣象高頻觀(guān)測(cè)資料的質(zhì)量控制方法研究[34-36],多以小時(shí)及以上時(shí)間尺度資料研究為主[37-38],偏重于局部地區(qū)或某次大的天氣過(guò)程進(jìn)行數(shù)據(jù)綜合質(zhì)量控制。甚至有部分研究人員采用將高頻(分鐘)數(shù)據(jù)換算為小時(shí)數(shù)據(jù)后再進(jìn)行質(zhì)量控制[24],以減少質(zhì)量控制所耗費(fèi)的時(shí)間和運(yùn)算資源。由于高頻(秒級(jí)、分鐘級(jí))觀(guān)測(cè)數(shù)據(jù)量較多,一段時(shí)間內(nèi)相鄰觀(guān)測(cè)數(shù)據(jù)的時(shí)間間隔短,采用傳統(tǒng)質(zhì)量控制方法直接進(jìn)行高頻數(shù)據(jù)質(zhì)控的限制條件較多,質(zhì)量控制流程的時(shí)間長(zhǎng),計(jì)算資源需求大。目前國(guó)內(nèi)外缺少直接針對(duì)氣象高頻(秒級(jí))數(shù)據(jù)的質(zhì)量控制方法研究。因此,本文借鑒湍流通量數(shù)據(jù)的質(zhì)量控制技術(shù)思路[32-33],應(yīng)用一種基于百分位閾值法的質(zhì)量檢查算法,能夠?qū)π陆ǖ膯我桓哳l氣象站點(diǎn),特別是修建在偏遠(yuǎn)地區(qū),缺少人員管理、電力網(wǎng)絡(luò)保障有限的站點(diǎn)觀(guān)測(cè)資料進(jìn)行質(zhì)量檢查,以期及時(shí)識(shí)別突發(fā)的觀(guān)測(cè)端錯(cuò)誤,提高數(shù)據(jù)質(zhì)量檢查的自動(dòng)化水平,為氣象高頻數(shù)據(jù)質(zhì)量控制研究提供參考。
采用中國(guó)氣象局華云集團(tuán)提供的2016年4月30日至5月29日天津東麗空港試驗(yàn)站、沈陽(yáng)試驗(yàn)站、天津東麗蘇莊子試驗(yàn)站秒級(jí)觀(guān)測(cè)試驗(yàn)數(shù)據(jù)(均為CAWS3000-JT自動(dòng)站),數(shù)據(jù)要素包括溫度和氣壓。數(shù)據(jù)時(shí)間分辨率為2 s,每分鐘數(shù)據(jù)30個(gè)。觀(guān)測(cè)站及數(shù)據(jù)基本情況見(jiàn)表1。
本文設(shè)計(jì)的地面氣象高頻數(shù)據(jù)質(zhì)量檢查方法主要原理為:氣壓、溫度等氣象數(shù)據(jù)具有隨時(shí)間變化的規(guī)律,通過(guò)追蹤時(shí)間變化曲線(xiàn),建立上下限閾值,以期通過(guò)氣象高頻數(shù)據(jù)在上下限閾值軌道中的變化狀況,發(fā)現(xiàn)數(shù)據(jù)可能存在的問(wèn)題。對(duì)于超過(guò)上下限閾值的氣象數(shù)據(jù),可“標(biāo)記”為超限數(shù)據(jù)(第一類(lèi)錯(cuò)誤數(shù)據(jù)),一方面設(shè)置同步圖像顯示,方便查看“標(biāo)記”數(shù)據(jù)的位置和出現(xiàn)時(shí)刻,另一方面設(shè)置程序自動(dòng)提醒,方便人工核查,及時(shí)處理突發(fā)的儀器問(wèn)題,保障儀器觀(guān)測(cè)正常。經(jīng)過(guò)檢查的觀(guān)測(cè)數(shù)據(jù),后期仍需進(jìn)入資料綜合加工系統(tǒng),結(jié)合其他質(zhì)量控制步驟或結(jié)合其他氣象要素進(jìn)行質(zhì)量控制檢查,綜合判斷及給出質(zhì)量控制碼。本文設(shè)計(jì)的算法在計(jì)算界限值前,還需要引入兩條前提假設(shè):1)在給定區(qū)間范圍內(nèi)的秒級(jí)氣象數(shù)據(jù),能計(jì)算出他們的統(tǒng)計(jì)特征值(如平均值,標(biāo)準(zhǔn)差等);2)在給定區(qū)間范圍內(nèi)的秒級(jí)氣象數(shù)據(jù),需要隨時(shí)間保持緩慢的變化[26]。界限值計(jì)算方法為
式(1)—式(4)中,ximax,ximin為給定區(qū)間范圍內(nèi)數(shù)據(jù)的上下限閾值;σ為給定區(qū)間范圍內(nèi)數(shù)據(jù)的標(biāo)準(zhǔn)差;ˉx為給定區(qū)間范圍內(nèi)數(shù)據(jù)的平均值;a為比例系數(shù)(a=1,2,3,…,nn);nn為比例系數(shù)的值;p為給定的百分位值[39-40];n為給定區(qū)間范圍內(nèi)所有有效氣象要素的個(gè)數(shù),n個(gè)數(shù)據(jù)需重新按照升序排列x1,x2,…,xn;m為經(jīng)過(guò)式(4)計(jì)算得出的位置編號(hào);xm,xn-m為經(jīng)過(guò)百分位排序后,所在m位置和n-m位置對(duì)應(yīng)的數(shù)據(jù)值。如果有900個(gè)值,那么第99.9個(gè)百分位上的值為排序后的x900(p=99.9234%)和x899(p=99.8123%)的線(xiàn)性插值。
表1 2016年沈陽(yáng)、天津觀(guān)測(cè)試驗(yàn)站及溫度、壓力數(shù)據(jù)介紹Tab le 1 The tem perature and p ressure records at Shenyang and Tianjin stations in 2016 and their introductions
本文對(duì)百分位的選取,主要基于Houchi等[16]的研究成果,采用嚴(yán)格的百分位法取值范圍(p=0.1%,p=99.9%),以99.9%(0.1%)位置對(duì)應(yīng)的數(shù)據(jù)加(減)給定區(qū)間范圍內(nèi)的1倍標(biāo)準(zhǔn)差值,得到該區(qū)間內(nèi)的上(下)限閾值。同時(shí)設(shè)計(jì)滑動(dòng)時(shí)間窗,自動(dòng)更新界限值。考慮到本文設(shè)計(jì)算法中系數(shù)組合(給定區(qū)間和滑動(dòng)窗口)會(huì)對(duì)計(jì)算閾值有影響,因此,著重測(cè)試滑動(dòng)窗口為1 min和給定區(qū)間60 min(方案1)、滑動(dòng)窗口為2 min和給定區(qū)間60 min(方案2)、滑動(dòng)窗口為5 min和給定區(qū)間60 min(方案3)、滑動(dòng)窗口為1m in和給定區(qū)間30 min(方案5)、滑動(dòng)窗口為2 min和給定區(qū)間30 min(方案6)、滑動(dòng)窗口為5 min和給定區(qū)間30 min(方案7)的系數(shù)組合方案的檢測(cè)效果(表2和圖1),其中30 min給定區(qū)間包含900個(gè)數(shù)據(jù),60min給定區(qū)間包含1800個(gè)數(shù)據(jù)。
需要指出的是,本文采用式(5)估計(jì)百分位值,不但計(jì)算方便,而且避免了對(duì)要素序列分布的任何假設(shè)。這種百分位值的估計(jì)方法與Gamma分布比較起來(lái),結(jié)果幾乎相同[37-38]。本文主要針對(duì)2016年4月29日至5月30日的氣象高頻觀(guān)測(cè)試驗(yàn)數(shù)據(jù)進(jìn)行分析,所用資料均為當(dāng)年新建試驗(yàn)站觀(guān)測(cè)資料。文中所分析資料經(jīng)過(guò)人工數(shù)據(jù)完整性檢查和區(qū)域氣候極值檢查,未經(jīng)過(guò)傳統(tǒng)的綜合質(zhì)量控制方案檢查,故本研究只用于驗(yàn)證界限值算法設(shè)計(jì)的可行性,測(cè)試算法設(shè)計(jì)的運(yùn)行效率,以及測(cè)試算法中不同系數(shù)組合方案對(duì)秒級(jí)數(shù)據(jù)(本文考慮為“真值”)的檢測(cè)能力,分析算法中不同方案的誤檢率(標(biāo)記率)大小,探尋算法中的最優(yōu)系數(shù)組合方案,本文試驗(yàn)結(jié)果不代表站點(diǎn)的觀(guān)測(cè)質(zhì)量。此外,天津東麗空港及蘇莊子兩個(gè)試驗(yàn)站直線(xiàn)距離約10 km,觀(guān)測(cè)資料的時(shí)間序列具有相似性,可作為鄰近站分析觀(guān)測(cè)資料的質(zhì)量狀況。沈陽(yáng)站為單一試驗(yàn)站,周邊無(wú)臨近站。天津站的觀(guān)測(cè)數(shù)據(jù)和沈陽(yáng)站的觀(guān)測(cè)數(shù)據(jù)均為同一型號(hào)采集器采集,可作為獨(dú)立樣本,進(jìn)一步驗(yàn)證本研究算法的通用性。
為了比較本文設(shè)計(jì)算法中不同給定區(qū)間以及滑動(dòng)窗口(方案1—3和方案5—7)的運(yùn)行效率,以標(biāo)記“真值”數(shù)據(jù)中的“異?!敝底鳛檎`檢參考,探尋標(biāo)記率最低的組合方案,同時(shí)采用文獻(xiàn)[32-33]使用的3.5倍標(biāo)準(zhǔn)差方法,在30 min(方案8)和60 min(方案4)給定區(qū)間進(jìn)行界限值檢測(cè),對(duì)比結(jié)果如表2所示。從表2可知,8種方案中,以方案5的“標(biāo)記”數(shù)據(jù)率最低;方案1其次,“標(biāo)記”數(shù)據(jù)3個(gè),“標(biāo)記”率0.007%;方案7“標(biāo)記”數(shù)據(jù)率最高,達(dá)到了2.007%。方案2、3、4、6的“標(biāo)記”率居中,分別為0.111%,1.199%,0.109%,0.120%,均大于給定的0.1%(或99.9%)(p=0.1%)統(tǒng)計(jì)預(yù)期值[26]。以上結(jié)果表明,上述方案2、3、4、6、7對(duì)高頻數(shù)據(jù)的檢查,數(shù)據(jù)標(biāo)記率(誤檢率)較高,均不能達(dá)到設(shè)定的統(tǒng)計(jì)預(yù)期效果。方案1、5、8的“標(biāo)記”率(誤檢率)均低于給定的0.1%(或99.9%)(p=0.1%)統(tǒng)計(jì)預(yù)期。其中方案8“標(biāo)記”率為三種中最高,為0.076%,標(biāo)記數(shù)據(jù)33個(gè),方案1和方案5“標(biāo)記”率均較低。結(jié)合算法計(jì)算時(shí)效分析,方案1和方案5的計(jì)算時(shí)效明顯優(yōu)于方案8,即百分位閾值法的檢查效率優(yōu)于3.5倍標(biāo)準(zhǔn)差法。上述結(jié)果表明,對(duì)于高頻數(shù)據(jù)的質(zhì)量控制,百分位閾值法較3.5倍標(biāo)準(zhǔn)差法適用,數(shù)據(jù)的誤檢率較低。圖1a至圖1h為2016年5月23日天津東麗空港站溫度秒級(jí)數(shù)據(jù)界限值檢查時(shí)間變化,8種系數(shù)組合方案中,計(jì)算出的溫度閾值數(shù)據(jù)與觀(guān)測(cè)溫度數(shù)據(jù)大體保持同步變化,觀(guān)測(cè)數(shù)據(jù)能被較好地“限制”在上下界限值中。其中方案5(圖1e)的上下界限值在上升溫過(guò)程中,溫度變化曲線(xiàn)靠近界限值的上限,降溫過(guò)程中,溫度變化曲線(xiàn)靠近界限值的下限,方案8(圖1h)由于閾值更新頻率比方案5低,上下界限值會(huì)出現(xiàn)更多的彎折,這樣的彎折在溫度上升或下降過(guò)程中,容易出現(xiàn)數(shù)據(jù)超出界限值的情況,從而形成“標(biāo)記”數(shù)據(jù)(第一類(lèi)錯(cuò)誤數(shù)據(jù)),形成誤檢。接下來(lái)將采用方案1和方案5繼續(xù)對(duì)同一站點(diǎn)的氣壓要素進(jìn)行界限值檢查試驗(yàn)。
表2 2016年5月23日天津空港站溫度數(shù)據(jù)的界限值檢查試驗(yàn)Table 2 The results of the threshold test for tem perature data at Konggang station in Tianjin on M ay 23,2016
圖1 2016年5月23日天津空港站溫度數(shù)據(jù)采用方案1(a)、方案2(b)、方案3(c)、方案4(d)、方案5(e)、方案6(f)、方案7(g)、方案8(h)的界限值檢查時(shí)間變化Fig.1 The tem poral variations of threshold test results for tem perature data using Schem e 1(a),Scheme 2(b),Scheme 3(c),Scheme 4(d),Scheme 5(e),Scheme 6(f),Scheme 7(g),Scheme 8(h)at Konggang station in Tianjin on M ay 23,2016
采用上述溫度試驗(yàn)中得出的最優(yōu)系數(shù)組合方案(方案1和方案5),利用百分位閾值法對(duì)2016年5月23日東麗空港試驗(yàn)站的氣壓秒級(jí)觀(guān)測(cè)數(shù)據(jù)進(jìn)行界限值檢查試驗(yàn),結(jié)果如表3所示。2種方案中,以方案5的“標(biāo)記”數(shù)據(jù)率最低,方案1“標(biāo)記”數(shù)據(jù)2個(gè),“標(biāo)記”率為0.006%。從東麗空港試驗(yàn)站氣壓數(shù)據(jù)的界限值檢查變化可知(圖2a和圖2b),計(jì)算的界限值數(shù)據(jù)與觀(guān)測(cè)數(shù)據(jù)同步變化,方案5的所有觀(guān)測(cè)數(shù)據(jù)均在界限值的上下限范圍內(nèi)變化,方案1存在2個(gè)“標(biāo)記”的數(shù)據(jù)在界限值范圍外。
綜合以上試驗(yàn)結(jié)果分析,利用百分位閾值法對(duì)溫度和氣壓高頻數(shù)據(jù)進(jìn)行界限值檢查,以系數(shù)組合方案5(每1 min滑動(dòng)+30 min區(qū)間)標(biāo)記出的數(shù)據(jù)少,數(shù)據(jù)誤檢率低;同時(shí),在30 min區(qū)間(30 min×30個(gè)/m in=900個(gè)數(shù)據(jù))內(nèi)進(jìn)行百分位法排序,也比在60 min區(qū)間(數(shù)據(jù)量60 min×30個(gè)/min=1800個(gè)數(shù)據(jù))內(nèi)進(jìn)行百分位法排序的計(jì)算效率高,計(jì)算機(jī)內(nèi)存負(fù)荷較小[26],在不考慮數(shù)據(jù)采集穩(wěn)定性的前提條件下,方案5數(shù)據(jù)檢查效果最好。由此可見(jiàn),通過(guò)上述算法進(jìn)行新建觀(guān)測(cè)端的數(shù)據(jù)界限值檢查,有助于第一時(shí)間發(fā)現(xiàn)觀(guān)測(cè)端可能突發(fā)的問(wèn)題(第一類(lèi)錯(cuò)誤數(shù)據(jù)),及時(shí)提醒人工調(diào)整觀(guān)測(cè)設(shè)備狀態(tài),為后續(xù)提升數(shù)據(jù)質(zhì)量的可靠性提供幫助[34]。
表3 2016年5月23日天津空港站氣壓數(shù)據(jù)的界限值檢查試驗(yàn)Table 3 The results of the threshold test for pressure data at Konggang station in Tianjin on May 23,2016
根據(jù)東麗空港站界限值檢查試驗(yàn)分析結(jié)果,繼續(xù)采用最優(yōu)的系數(shù)組合方案(方案1和方案5)的百分位閾值法對(duì)2016年5月23日天津東麗蘇莊子試驗(yàn)站的溫度和氣壓秒級(jí)觀(guān)測(cè)數(shù)據(jù)進(jìn)行界限值檢查試驗(yàn),氣象要素界限值檢查變化如圖3a至圖3d所示,統(tǒng)計(jì)分析結(jié)果如表4所示。
天津東麗蘇莊子試驗(yàn)站溫度和氣壓界限值檢查試驗(yàn)表明(表4),利用方案5對(duì)溫度秒級(jí)數(shù)據(jù)進(jìn)行界限值檢查,沒(méi)有出現(xiàn)標(biāo)記數(shù)據(jù),方案1“標(biāo)記”1個(gè)數(shù)據(jù),標(biāo)記率為0.002%;利用方案5和方案1對(duì)氣壓秒級(jí)數(shù)據(jù)進(jìn)行界限值檢查,均“標(biāo)記”1個(gè)數(shù)據(jù)。由圖3可知,計(jì)算的溫度和氣壓高頻數(shù)據(jù)界限值與觀(guān)測(cè)數(shù)據(jù)隨時(shí)間同步變化。方案5中所有觀(guān)測(cè)數(shù)據(jù)均在界限值上下限范圍內(nèi),而方案1則有1個(gè)“標(biāo)記”數(shù)據(jù)出現(xiàn)在的界限值范圍外。綜合分析溫度和氣壓界限值檢查結(jié)果,采用方案5的百分位閾值法,“標(biāo)記”率最低,對(duì)兩種氣象要素的檢查適用性較好,檢查效率也較高。
圖2 2016年5月23日天津空港站氣壓數(shù)據(jù)采用方案5(a)、方案1(b)的界限值檢查變化Fig.2 The tem poral variations of threshold test results for pressure data using Scheme 5(a)and Scheme 1(b)at Konggang station in Tianjin on M ay 23,2016
表4 2016年5月23日天津蘇莊子站溫度和氣壓數(shù)據(jù)界限值檢查試驗(yàn)Table 4 The results of the threshold test for pressure and temperature data at Suzhuangzi station in Tianjin on M ay 23,2016
根據(jù)前述試驗(yàn)結(jié)果,采用方案5的百分位閾值法對(duì)2016年4月30日至5月29日共30 d的天津東麗空港站溫度和氣壓秒級(jí)觀(guān)測(cè)數(shù)據(jù)進(jìn)行界限值檢查,并且在2016年4月30日至5月9日人為添加3個(gè)時(shí)次的錯(cuò)誤數(shù)據(jù),以期測(cè)試本算法的檢測(cè)能力(第二類(lèi)錯(cuò)誤的檢查能力)。圖4a和圖4c分別為連續(xù)30日的溫度、氣壓數(shù)據(jù)界限值檢查變化,在30日的連續(xù)觀(guān)測(cè)數(shù)據(jù)序列中,用界限值序列減去原始值序列,沒(méi)有出現(xiàn)超越0值的數(shù)據(jù)即“標(biāo)記”數(shù)據(jù),因此沒(méi)有出現(xiàn)誤判的情況。圖4b和圖4d為連續(xù)10日的溫度和氣壓界限值檢查變化,從圖中可見(jiàn),人為任意添加的3個(gè)“錯(cuò)誤”數(shù)據(jù),均出現(xiàn)在了閾值序列外,表明采用本算法進(jìn)行質(zhì)量檢查,能有效識(shí)別出“錯(cuò)誤”數(shù)據(jù)。因此,采用方案5的百分位閾值法能有效檢查出試驗(yàn)站觀(guān)測(cè)時(shí)的突發(fā)錯(cuò)誤。為了進(jìn)一步驗(yàn)證本文算法對(duì)于不同地區(qū)試驗(yàn)站數(shù)據(jù)的檢測(cè)能力,對(duì)2016年4月30日至5月9日沈陽(yáng)試驗(yàn)站的溫度數(shù)據(jù)進(jìn)行界限值檢查,同時(shí)人為添加1個(gè)時(shí)次的錯(cuò)誤數(shù)據(jù)(圖5)。從圖5a可見(jiàn),對(duì)多日連續(xù)溫度秒級(jí)數(shù)據(jù)進(jìn)行界限值檢查,沒(méi)有出現(xiàn)“標(biāo)記”數(shù)據(jù),即沒(méi)有出現(xiàn)誤判的情況。從圖5b可見(jiàn),人為增加的一個(gè)“錯(cuò)誤”數(shù)據(jù),出現(xiàn)在了閾值序列外,表明算法能有效識(shí)別出“錯(cuò)誤”數(shù)據(jù)。
圖3 2016年5月23日天津蘇莊子站氣壓數(shù)據(jù)采用方案5(a)和方案1(b)、溫度數(shù)據(jù)采用方案5(c)和方案1(d)的界限值檢查變化Fig.3 The tem poral variations of threshold test results for pressure data using Scheme 5(a),Scheme 1(b),and for tem perature data using Scheme 5(c),Scheme 1(d)at Suzhuangzi station in Tianjin on M ay 23,2016
圖4 2016年4月30日至5月29日天津空港站溫度數(shù)據(jù)(a)和包含錯(cuò)誤數(shù)據(jù)(b)、氣壓數(shù)據(jù)(c)和包含錯(cuò)誤數(shù)據(jù)(d)的界限值檢查變化Fig.4 The tem poral variations of threshold test results for tem perature data(a),pressure data(c),and corresponding error data(b,d)at Konggang station in Tianjin from April 30 to M ay 29,2016
綜合上述分析表明,采用方案5的百分位閾值法檢查效率最優(yōu),計(jì)算機(jī)內(nèi)存負(fù)荷較小,漏檢率和誤檢率較低,對(duì)東麗空港、蘇莊子試驗(yàn)站的溫度和氣壓、沈陽(yáng)試驗(yàn)站的溫度秒級(jí)數(shù)據(jù)可以進(jìn)行有效檢查,并有助于減少正確數(shù)據(jù)的誤判,及時(shí)發(fā)現(xiàn)觀(guān)測(cè)儀器端突發(fā)的問(wèn)題,提升數(shù)據(jù)檢查的自動(dòng)化水平。
圖5 2016年4月30日至5月9日沈陽(yáng)站溫度數(shù)據(jù)(a)和包含錯(cuò)誤數(shù)據(jù)(b)的界限值檢查變化Fig.5 The temporal variations of threshold test results for tem perature data(a)and its error data(b)at Shenyang station from April 30 to M ay 9,2016
(1)利用天津東麗空港試驗(yàn)站、蘇莊子試驗(yàn)站以及沈陽(yáng)試驗(yàn)站的溫度、氣壓秒級(jí)數(shù)據(jù),應(yīng)用一種基于百分位閾值法的界限值檢查算法,通過(guò)對(duì)該算法中不同系數(shù)(給定區(qū)間和滑動(dòng)窗口)組合方案的質(zhì)量檢查試驗(yàn),探尋到了最適合試驗(yàn)站秒級(jí)數(shù)據(jù)的系數(shù)組合方案(1 min滑動(dòng)結(jié)合30 min時(shí)間區(qū)間),采用該方案的算法運(yùn)行效率較高,正確數(shù)據(jù)的誤檢率較低,且疑誤數(shù)據(jù)的檢測(cè)性能較高。
(2)該方法可應(yīng)用到無(wú)長(zhǎng)年代歷史觀(guān)測(cè)資料的氣象站、缺乏臨近站資料的氣象站以及新建氣象站。也可應(yīng)用到修建在偏遠(yuǎn)地區(qū),缺少人員管理、電力網(wǎng)絡(luò)保障有限的氣象站。通過(guò)對(duì)秒級(jí)數(shù)據(jù)界限值的自動(dòng)計(jì)算,數(shù)據(jù)質(zhì)量檢查自動(dòng)化程度大為提高。
(3)針對(duì)特殊氣象站,觀(guān)測(cè)數(shù)據(jù)在采用界限值檢查算法前就已經(jīng)發(fā)生系統(tǒng)性數(shù)據(jù)偏差(或是溫度、氣壓傳感器性能下降造成),由于沒(méi)有臨近站資料對(duì)比或無(wú)法統(tǒng)計(jì)出有代表性的歷史極值進(jìn)行限制,會(huì)出現(xiàn)第二類(lèi)錯(cuò)誤數(shù)據(jù)不能檢出的情況,增加誤判率。因此,在開(kāi)始采用本文算法檢查前,需要人工對(duì)檢測(cè)開(kāi)始的前一段時(shí)間的觀(guān)測(cè)數(shù)據(jù)進(jìn)行標(biāo)定[26],以確定儀器觀(guān)測(cè)的待檢數(shù)據(jù)不存在系統(tǒng)性數(shù)據(jù)偏差(溫度、氣壓傳感器性能完好)。在實(shí)際應(yīng)用中,觀(guān)測(cè)端的高頻數(shù)據(jù)經(jīng)過(guò)本算法質(zhì)量檢查后,還需要進(jìn)入數(shù)據(jù)加工處理系統(tǒng),結(jié)合其他質(zhì)量控制方案綜合確定數(shù)據(jù)的質(zhì)量和附加質(zhì)量控制碼。因此,實(shí)際應(yīng)用中須結(jié)合多種方法一起使用[2]。