摘要:氣象觀測(cè)數(shù)據(jù)質(zhì)量好壞直接影響到數(shù)據(jù)應(yīng)用效果,如何進(jìn)行氣象資料質(zhì)量控制,確保氣象自動(dòng)站資料代表性,準(zhǔn)確性和比較性,是氣象資料工作者和氣象資料使用者迫切需要解決科學(xué)問題。本文提出基于關(guān)聯(lián)規(guī)則挖掘技術(shù)自動(dòng)氣象站數(shù)據(jù)質(zhì)量控制算法,以提高氣象觀測(cè)數(shù)據(jù)準(zhǔn)確度。
關(guān)鍵詞:觀測(cè)數(shù)據(jù);質(zhì)量控制;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;
氣象觀測(cè)數(shù)據(jù)綜合質(zhì)量控制工作主要是指對(duì)所觀測(cè)到的氣象數(shù)據(jù)進(jìn)行分析及質(zhì)量檢查,并對(duì)每組數(shù)據(jù)的質(zhì)量控制情況記錄,及時(shí)發(fā)現(xiàn)其中錯(cuò)誤數(shù)據(jù),并及時(shí)改正。一般情況下,地面氣象觀測(cè)數(shù)據(jù)需要通過收集、讀數(shù)、傳輸、編碼及解碼等程序,每個(gè)環(huán)節(jié)誤差都會(huì)導(dǎo)致觀測(cè)數(shù)據(jù)出現(xiàn)偏差,因此,數(shù)據(jù)質(zhì)量控制就成為自動(dòng)站觀測(cè)數(shù)據(jù)應(yīng)用環(huán)節(jié)。目前國(guó)內(nèi)針對(duì)自動(dòng)站實(shí)時(shí)觀測(cè)資料質(zhì)量控制方法主要有:氣候界限值或要素允許值檢查、 臺(tái)站極值檢查、時(shí)間一致性檢查、內(nèi)部一致性檢查、空間一致性檢查,人機(jī)交互檢查等方法。但由于實(shí)際天氣現(xiàn)象復(fù)雜多變,在不同區(qū)域、不同氣候特征下,一些觀測(cè)要素間無(wú)物理意義變化也存在著一定規(guī)律。如何快速準(zhǔn)確地發(fā)現(xiàn)其中關(guān)聯(lián)信息,進(jìn)一步提高自動(dòng)站質(zhì)量控制算法準(zhǔn)確率,引入數(shù)據(jù)挖掘技術(shù)就成為解決問題有效方法之一。
1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘,又譯為資料探勘、數(shù)據(jù)采礦。是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘技術(shù)誕生與發(fā)展帶領(lǐng)氣象領(lǐng)域進(jìn)入了新時(shí)期,國(guó)內(nèi)外越來(lái)越多氣象工作者開始使用數(shù)據(jù)挖掘技術(shù)在氣象數(shù)據(jù)分析、氣象信息存儲(chǔ)、天氣預(yù)報(bào)預(yù)測(cè)和氣象服務(wù)等領(lǐng)域開展一定研究和應(yīng)用,但對(duì)氣象觀測(cè)數(shù)據(jù)的質(zhì)量控制主要還有以下兩點(diǎn)不足:質(zhì)控集中在使用傳統(tǒng)氣象數(shù)據(jù)質(zhì)控方法,根據(jù)歷史資料得出氣候界限值及各要素允許值對(duì)觀測(cè)值質(zhì)控,靈敏度不高;數(shù)據(jù)挖掘算法應(yīng)用主要集中于氣象要素之間相關(guān)性分析,天氣現(xiàn)象分類,降水量預(yù)測(cè)等,在氣象數(shù)據(jù)質(zhì)量控制方面研究工作開展的較少。
2 關(guān)聯(lián)規(guī)則挖掘
2.1 關(guān)聯(lián)規(guī)則定義
1993年,Agrawal等人在首先提出關(guān)聯(lián)規(guī)則概念,同時(shí)給出相應(yīng)挖掘算法AIS,但是性能較差。1994年,他們建立項(xiàng)目集格空間理論,并依據(jù)上述兩個(gè)定理,提出著名的Apriori算法,至今Apriori仍然作為關(guān)聯(lián)規(guī)則挖掘經(jīng)典算法被廣泛討論,以后諸多研究人員對(duì)關(guān)聯(lián)規(guī)則挖掘問題進(jìn)行大量研究。
關(guān)聯(lián)規(guī)則定義為:
假設(shè)I={I1,I2,…,Im}是項(xiàng)的集合,給定一個(gè)交易數(shù)據(jù)庫(kù)D,其中每個(gè)事物(Transaction)T是I的非空子集,即T?I,每一個(gè)事物都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。設(shè)A為一個(gè)數(shù)據(jù)項(xiàng)集合,當(dāng)且僅當(dāng)A?T時(shí),稱事物T包含A。關(guān)聯(lián)規(guī)則形如X?Y形式蘊(yùn)含式,其中X,Y∈I且X∩Y=φ,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。關(guān)聯(lián)規(guī)則X?Y在D中支持度是D中事物包含X∪Y百分比,即概率P(X∪Y);置信度是包含X的事物中同時(shí)包含Y百分比,即條件概率P(Y│X)。
2.2 Apriori算法
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定最小可信度規(guī)則才被留下來(lái)。為生成所有頻集,使用遞推方法。其算法偽代碼如下:
輸入:數(shù)據(jù)集D;最小支持度minsupport
輸出:頻繁項(xiàng)集L
L1= {頻繁1項(xiàng)集} //初始化頻繁項(xiàng)集L[1](也稱單品項(xiàng)集)
for(k=2;Lk-1不為空;k++){
Ck= Apriori_gen(Lk-1); //生成所有長(zhǎng)度為K的候選相集
for all transactions t∈D; { //對(duì)所有的交易記錄做循環(huán)
C = subset(Ck,t); //找出當(dāng)前交易記錄t和候選頻繁項(xiàng)集C[k]的交集
for all candidates c∈C do //對(duì)存在的候選頻繁項(xiàng)集的交集進(jìn)行支持度計(jì)數(shù)
c.count ++; //候選項(xiàng)目支持度計(jì)數(shù)加1
end for;
Lk={c∈Ck|c.count≥min_sup}; //得出滿足最小支持度的頻繁k項(xiàng)集
end for;
return L=UKLK
3 關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用
3.1數(shù)據(jù)處理
選取自動(dòng)站實(shí)時(shí)觀測(cè)資料數(shù)據(jù)庫(kù)中相關(guān)氣象要素觀測(cè)項(xiàng)目,構(gòu)成用于關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)庫(kù)事物集合D。氣溫T,相對(duì)濕度H,氣壓p,降水量R,風(fēng)速Wv,風(fēng)向Wd,就是數(shù)據(jù)庫(kù)D的維,即D={T,T,P,P,Wv,Wd},數(shù)據(jù)庫(kù)中所有記錄就是集合D全部對(duì)象。
3.2 數(shù)據(jù)清洗
在數(shù)據(jù)挖掘過程中,問題數(shù)據(jù)會(huì)直接誤導(dǎo)挖掘過程,并對(duì)挖掘結(jié)果產(chǎn)生影響。數(shù)據(jù)清洗就是填補(bǔ)缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、處理不一致數(shù)據(jù)。對(duì)于氣溫、相對(duì)濕度、氣壓、地表溫度等具有連續(xù)性變化要素,其短時(shí)間序列缺失值采用就近跨距均值法處理,選擇缺失值前后各2h平均值代替缺失值;對(duì)于風(fēng)速、風(fēng)向、降水等離散型變化氣象要素,缺失值填補(bǔ)參考空間插值法處理。長(zhǎng)時(shí)間序列(12h以上)缺測(cè)記錄,則借助對(duì)比人工定時(shí)觀測(cè)記錄將日極值加以補(bǔ)充。
3.3數(shù)據(jù)變換
分析自動(dòng)站實(shí)時(shí)觀測(cè)資料中各觀測(cè)項(xiàng)目變化趨勢(shì)間聯(lián)系,需要將數(shù)據(jù)庫(kù)中以時(shí)間序列存放的具有連續(xù)變化特征數(shù)據(jù)進(jìn)行序列化,即用ΔT、ΔT表示T、H的小時(shí)變化值。以氣象觀測(cè)規(guī)范為依據(jù),將數(shù)據(jù)庫(kù)D中數(shù)據(jù)屬性進(jìn)行泛化,將數(shù)值類型數(shù)據(jù)變換為支持Microsoft關(guān)聯(lián)算法的離散型數(shù)據(jù)。以降水量R、風(fēng) 向Wd為例,將數(shù)據(jù)庫(kù)中的降水量數(shù)值按照氣象等級(jí)概念的無(wú)降水、小雨、中雨、大雨、暴雨等級(jí)別劃分,劃分區(qū)間為[0,1)、[1,10)、[10,25)、[25,50)、[50,100)、…;風(fēng)向Wd按照角度值轉(zhuǎn)換為風(fēng)向標(biāo)識(shí)N、NE、E、SE、S、SW、W、NW。強(qiáng)相對(duì)濕度小時(shí)變量ΔH進(jìn)一步泛化,得到ΔH分別處于[0,30%)、[30%,50%)和[50%,100%]中為變化率低、中、高。
3.4數(shù)據(jù)挖掘
選取武漢市國(guó)家基本氣象觀測(cè)站5年的小時(shí)整點(diǎn)數(shù)據(jù)作為數(shù)據(jù)庫(kù)事物集合,以武漢“千湖之城”的地域特點(diǎn)和相對(duì)濕度變化較快的獨(dú)特氣候條件, 與相關(guān)主導(dǎo)風(fēng)向、風(fēng)速、氣溫、降水量等級(jí)為研究對(duì)象,設(shè)定最小支持度閾值和最小置信度閾值,進(jìn)行數(shù)據(jù)挖掘,找出關(guān)聯(lián)規(guī)則,剔除可疑數(shù)據(jù)。
4 結(jié)語(yǔ)
數(shù)據(jù)挖掘技術(shù)是目前國(guó)際上數(shù)據(jù)庫(kù)和信息系統(tǒng)最前沿的研究方向之一,在商業(yè)領(lǐng)域已經(jīng)取得成功應(yīng)用,利用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)對(duì)大量觀測(cè)數(shù)據(jù)分析,以發(fā)現(xiàn)其數(shù)據(jù)模式及特征,觀察數(shù)據(jù)變化趨勢(shì)和數(shù)據(jù)之間關(guān)聯(lián)規(guī)則,對(duì)進(jìn)一步完善自動(dòng)站數(shù)據(jù)質(zhì)量控制算法提供技術(shù)支撐。今后還將行氣象數(shù)據(jù)深入挖掘研究。
參考文獻(xiàn)
[1]史靜,黨岳,張永欣,等. 自動(dòng)站數(shù)據(jù)質(zhì)量控制中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用[J]. 氣象科技,2014(4)
[2]李曉蘭,曹曉鐘,朱君,等. 基于關(guān)聯(lián)規(guī)則挖掘的自動(dòng)站觀測(cè)數(shù)據(jù)相關(guān)性分析[J]. 氣象科技,2016,44(5).
作者簡(jiǎn)介:陳聲超(1989-),男 ,漢族,湖北武漢黃陂人,大學(xué)本科,助理工程師,從事氣象裝備保障工作。