王宏記 張冰松 楊代才
摘要:分析了數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則分析方法的原理和一般數(shù)據(jù)挖掘的系統(tǒng)結(jié)構(gòu)和主要步驟,通過收集、加工和處理大氣環(huán)流指數(shù)等大量信息,以湖北省汛期異常氣候現(xiàn)象為對象,使用關(guān)聯(lián)規(guī)則挖掘方法試圖找出各物理量和氣象要素與未來一段時間內(nèi)湖北的汛期降水之間的關(guān)系?;贏priori算法2013年針對湖北短期氣候預(yù)測,初步建立了一個關(guān)聯(lián)規(guī)則挖掘系統(tǒng),實現(xiàn)了參數(shù)配置、關(guān)聯(lián)挖掘和規(guī)則顯示等功能。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則挖掘;氣候預(yù)測
中圖分類號:S126 文獻(xiàn)標(biāo)識碼 A 文章編號 0517-6611(2015)08-150-03
隨著通信技術(shù)和數(shù)據(jù)庫技術(shù)的發(fā)展,湖北省氣象局通過INTERNET網(wǎng)、部門交換、本地大氣探測等手段,特別是通過中國氣象局9210衛(wèi)星通信系統(tǒng)每天均能接收到越來越多的氣象數(shù)據(jù)資料,并通過關(guān)系型數(shù)據(jù)庫[1-6]對這些數(shù)據(jù)進(jìn)行了管理。但就氣象應(yīng)用特別是短期氣候預(yù)測業(yè)務(wù)而言,要在越來越堆積的數(shù)據(jù)中間找出有用的數(shù)據(jù)或帶有預(yù)測性質(zhì)的信息是一件非常復(fù)雜的事[7-9]。氣象預(yù)報通常需要使用大量的歷史氣象數(shù)據(jù)和實時氣象數(shù)據(jù),業(yè)務(wù)和研究人員往往首先采用建立數(shù)據(jù)庫的方式,再從這些大量的數(shù)據(jù)中分析天氣的規(guī)律。湖北短期氣候的預(yù)測人員在實際業(yè)務(wù)中既要面對堆積如山的氣象數(shù)據(jù),同時傳統(tǒng)的數(shù)據(jù)分析方法很難處理在時間和空間等多維度的信息,難以找到氣象數(shù)據(jù)屬性信息之間的內(nèi)部關(guān)系,基于這些原因,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于短期氣候預(yù)測領(lǐng)域,從一個新的角度對氣象數(shù)據(jù)進(jìn)行處理,在關(guān)聯(lián)模式挖掘的基礎(chǔ)上,找出部分物理量和未來的氣象要素之間氣候關(guān)系,解決長期困擾預(yù)報員面對海量氣象數(shù)據(jù)無法下手的情況,是氣象業(yè)務(wù)人員努力的一個方向。
數(shù)據(jù)挖掘(Data Mining,簡稱DM)就是要從大量的數(shù)據(jù)中挖掘或獲得實用信息的技術(shù)之一,雖然該技術(shù)出現(xiàn)的時間不長,但20世紀(jì)90年代以來發(fā)展速度很快。此外作為一個多學(xué)科交叉結(jié)合的一項技術(shù),數(shù)據(jù)挖掘正好就是要從海量的數(shù)據(jù)中挖掘出可能有潛在意義信息的技術(shù),這些信息可能為一些科學(xué)研究找到突破點;該技術(shù)已廣泛應(yīng)用于氣象、網(wǎng)絡(luò)安全、電信、零售業(yè)以及保險服務(wù)等行業(yè)[10-12]。筆者主要是探討數(shù)據(jù)挖掘技術(shù)在短期氣候預(yù)測中應(yīng)用的可能性,并提出一個適合于湖北短期氣候預(yù)測的關(guān)聯(lián)挖掘方案,建立了一個關(guān)聯(lián)規(guī)則挖掘系統(tǒng)。
1 關(guān)聯(lián)規(guī)則挖掘技術(shù)分析
關(guān)聯(lián)規(guī)則挖掘[13-14]是從大量的數(shù)據(jù)中挖掘出有價值的描述數(shù)據(jù)項之間相互聯(lián)系的信息技術(shù)之一。通常關(guān)聯(lián)規(guī)則具有以下形式:
XY(S%,C%),即“X1∩X2∩…∩ XM→ Y1∩Y2∩…∩YN”;其中Xi(i∈{1,…,M})和Yj( j ∈{1,…,N})均為屬性值,C%表示確信度(Confidence),S%表示支持度(Support)。支持度S%表示X和Y項集同時出現(xiàn)的概率,而確信度C%表示X項集出現(xiàn)的前提下Y項集出現(xiàn)的概率,兩者之間存在特定關(guān)系,Confidence(XY)= Support(Xi∪Yj)/ Support(Xi)。
如果將某區(qū)域氣候狀況看成屬性Y,而將前期多個氣象因素實況看成屬性X,就可通過設(shè)定支持度S,利用關(guān)聯(lián)規(guī)則挖掘技術(shù)找到一些有用的關(guān)聯(lián)規(guī)則或聯(lián)系,這些規(guī)則具有用戶給定的支持度,這是非常有意義的。
2 數(shù)據(jù)挖掘系統(tǒng)總體結(jié)構(gòu)
2.1 數(shù)據(jù)挖掘系統(tǒng)的組成
2.1.1 數(shù)據(jù)庫或數(shù)據(jù)倉庫。它表示挖掘系統(tǒng)主要是由數(shù)據(jù)倉庫、數(shù)據(jù)表單或其他信息數(shù)據(jù)庫組成。一般需要使用數(shù)據(jù)清洗和數(shù)據(jù)集成等操作過程,對這些數(shù)據(jù)信息進(jìn)行預(yù)處理。
2.1.2 數(shù)據(jù)庫服務(wù)器。它是負(fù)責(zé)根據(jù)用戶的數(shù)據(jù)挖掘請求讀取相關(guān)的數(shù)據(jù)。
2.1.3 知識庫。用于存放數(shù)據(jù)挖掘所需要的知識,這些知識將用于指導(dǎo)數(shù)據(jù)挖掘的搜索過程,或用于幫助對挖掘結(jié)果的評估,如用戶根據(jù)預(yù)測經(jīng)驗定義的閾值就是最簡單的知識。
2.1.4 數(shù)據(jù)挖掘引擎。這是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功能模塊,完成關(guān)聯(lián)分析或分類歸納、進(jìn)化計算和偏差分析等挖掘功能。
2.1.5 規(guī)則評估模塊。該模塊可根據(jù)標(biāo)準(zhǔn),協(xié)助數(shù)據(jù)挖掘模塊更快地收斂到有意義的知識,該模塊能否與數(shù)據(jù)挖掘模塊有機(jī)結(jié)合,與數(shù)據(jù)挖掘模塊所使用的具體挖掘算法有關(guān)。
2.1.6 可視化用戶界面。該模塊幫助用戶與數(shù)據(jù)挖掘系統(tǒng)本身進(jìn)行交互操作。一方面用戶通過該模塊可以將自己的參數(shù)或任務(wù)提交給挖掘系統(tǒng),以及提供挖掘搜索所需要的相關(guān)知識;另一方面系統(tǒng)通過模塊向用戶展示或解釋數(shù)據(jù)挖掘的結(jié)果;此外該模塊還可以幫助用戶瀏覽數(shù)據(jù)對象內(nèi)容與數(shù)據(jù)定義模式、評估所挖掘出的模式規(guī)則,以及以多種形式展示挖掘出的模式規(guī)則。
2.2 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)挖掘是屬于在線分析處理(OLAP)的高級階段,其數(shù)據(jù)分析能力遠(yuǎn)超過以數(shù)據(jù)匯總為主的在線分析處理功能,它能夠?qū)崿F(xiàn)來自多學(xué)科技術(shù)的有機(jī)結(jié)合,這些技術(shù)包括數(shù)據(jù)庫、數(shù)理統(tǒng)計、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索分析等技術(shù)。目前較為成熟的“數(shù)據(jù)挖掘系統(tǒng)”有很多,2012~2013年基于Apriori算法初步建立了一個基于關(guān)聯(lián)規(guī)則的挖掘系統(tǒng),建立了數(shù)據(jù)庫服務(wù)器和數(shù)據(jù)庫表、基于閾值的氣象知識庫、基于Apriori算法等方法的數(shù)據(jù)挖掘算法庫,初步實現(xiàn)了閾值調(diào)整、參數(shù)配置以及規(guī)則顯示等功能。系統(tǒng)結(jié)構(gòu)示意圖如圖1所示。
3 數(shù)據(jù)挖掘技術(shù)的實際應(yīng)用
3.1 短期氣候預(yù)測方法分析 大約50年前,短期天氣預(yù)報和短期氣候預(yù)測工作均還處在同一個水平上的業(yè)務(wù)工作,它們都是根據(jù)當(dāng)?shù)厍捌诘哪承崨r信息來預(yù)測未來的天氣變化,準(zhǔn)確率均不高。到了今天,因為氣象觀測系統(tǒng)的發(fā)展和數(shù)值天氣預(yù)報的成功,短期天氣預(yù)報工作已取得了巨大的成功,然而短期氣候預(yù)測水平還是很低,沒有一整套有效的方法。近幾十年來,業(yè)務(wù)工作人員還是進(jìn)行了大量的研究工作,有人提出“短波制約短期天氣,長波制約中期天氣,超長波制約長期天氣即短期氣候”的想法,多年的實踐和檢驗表明,使用大氣中的波動也沒法根本解決短期氣候預(yù)測問題。后來又有人又提出了三類短期氣候預(yù)測方法,一是事件相關(guān)統(tǒng)計法,就是從業(yè)務(wù)實際工作中注意到某2個事件先后出現(xiàn)的現(xiàn)象,采用常規(guī)的統(tǒng)計方法進(jìn)行一段長序列時間的回算,發(fā)現(xiàn)它們的相關(guān)系數(shù)很高,于是用一個事件的發(fā)生來預(yù)測另一事件的發(fā)生。但往往這樣的聯(lián)系本身太少且找出的難度也很大。二是周期規(guī)律統(tǒng)計法,該方法認(rèn)為氣候變化的規(guī)律可能都隱藏在過去的氣候資料的長時間序列之中,人們可以采用各種常規(guī)數(shù)學(xué)統(tǒng)計方法去找到氣候資料時間序列中的“周期”等規(guī)律,從而做出短期氣候的預(yù)測。20世紀(jì)70年代開始,我國氣象部門開展了大量的常規(guī)數(shù)學(xué)統(tǒng)計工作,但其效果被不斷地證明是不理想的,業(yè)務(wù)人員經(jīng)過分析,認(rèn)為可能是這些方法的歷史擬合率很高,但往往應(yīng)用到實際預(yù)報預(yù)測業(yè)務(wù)工作時,預(yù)報預(yù)測的準(zhǔn)確率均很低。這種現(xiàn)象表明常規(guī)數(shù)學(xué)統(tǒng)計方法發(fā)現(xiàn)的“周期規(guī)律”不一定是客觀存在的,數(shù)學(xué)方法可以證明的是,若干長度的氣候資料內(nèi)部本來沒有因果聯(lián)系,但通過計算機(jī)總是可以找到幾對相關(guān)系數(shù)很高的因子,該類方法可能只是數(shù)字的游戲。第三類是數(shù)值模式方法,20世紀(jì)70年代以來,國內(nèi)外開展了短期氣候預(yù)測的數(shù)值模式方法研究,其基本理論框架與短期天氣預(yù)報是一樣,也是通過大氣動力學(xué)方程組、海洋動力學(xué)方程組以及熱力學(xué)方程,采用離散數(shù)學(xué)以及時間積分等技術(shù)進(jìn)行數(shù)值模擬[15-17],該方法被認(rèn)為可能是短期氣候預(yù)測工作的未來出路,然而40多年過去了,該方法的技術(shù)方案和應(yīng)用效果并不理想。筆者在此以湖北省汛期降水趨勢為對象,采用關(guān)聯(lián)規(guī)則分析方法,探討該方法在湖北短期氣候業(yè)務(wù)中應(yīng)用的可行性。
3.2 對象選擇 短期氣候預(yù)測一般指月、季以及年際尺度的氣候預(yù)測,全年和汛期降水情況的預(yù)測是氣候預(yù)測中的重點之一。在此根據(jù)湖北省汛期趨勢預(yù)測的要求,從數(shù)據(jù)庫中選取了與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù),分析了湖北省1951~2005年的降水情況,分全年1~12月、汛期5~9月、夏季6~8月3個時段統(tǒng)計出5個最多雨年份和5個最少雨年份(表1),選擇其中汛期5個最多雨的年份為研究對象。
3.3 因子選擇 關(guān)聯(lián)規(guī)則分析方法中的因子選擇非常重要,結(jié)合短期氣候預(yù)測的實際情況,對業(yè)務(wù)工作中常用的數(shù)據(jù)和前人的研究成果進(jìn)行了分析。有人發(fā)現(xiàn)湖北異常氣象要素的變化與東海、西風(fēng)環(huán)流、極渦、南亞熱帶、天文因素等方面異常表現(xiàn)有一定關(guān)系。如張順利等通過對青藏高原多雪、少雪的合成分析和數(shù)值試驗,討論了青藏高原對亞洲夏季風(fēng)和我國東部氣候的影響,結(jié)果表明,高原積雪多,亞洲季風(fēng)環(huán)流弱,亞洲夏季風(fēng)弱,副熱帶高壓弱,副高位置偏南,長江流域降水多,認(rèn)為這些因子一方面通過改變下墊面物理性質(zhì)引起大范圍持續(xù)時間較長的大氣環(huán)流變化,從而使得夏季有利于降水產(chǎn)生的天氣系統(tǒng)出現(xiàn),造成主要雨帶位置與強(qiáng)度不同[18]。隨著對災(zāi)害性氣候機(jī)理和預(yù)測研究的不斷深入,很多氣象專家和氣象工作者從不同的角度,采用多種統(tǒng)計方法分析了影響夏季降水的前兆因子[15,19-20]。
根據(jù)這些研究成果,結(jié)合關(guān)聯(lián)規(guī)則分析方法的實際需要,在此選取了北半球500 hPa月平均高度場、北半球100 hPa月平均高度場、北半球SLP月平均氣壓場、西北太平洋月平均海溫場、74項環(huán)流特征量、關(guān)鍵區(qū)海溫指數(shù)、東亞季風(fēng)指數(shù)、阻高強(qiáng)度指數(shù)等因子,對湖北省汛期降水趨勢進(jìn)行了關(guān)聯(lián)規(guī)則分析求解。
3.4 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)進(jìn)行再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性等,對其中的噪音數(shù)據(jù)(如缺測數(shù)據(jù)、錯誤數(shù)據(jù)等)進(jìn)行質(zhì)量控制處理,對缺測的數(shù)據(jù)進(jìn)行填補(bǔ)并將數(shù)據(jù)轉(zhuǎn)換成為有效形式,建立合適的數(shù)據(jù)模型。在此對選取的74項大氣環(huán)流指數(shù)以及5個關(guān)鍵區(qū)海溫指數(shù)對應(yīng)多雨年、少雨年和多年的平均值進(jìn)行了編號和統(tǒng)計,發(fā)現(xiàn)因子序號為0、1、2的因子,多年平均值在多雨年平均和少雨年平均值之間,且多雨年平均值大于少雨年平均值;因子序號為3、14、25等的因子表示歷史上有缺測資料,對這種情況按以上數(shù)據(jù)預(yù)處理的原則進(jìn)行了處理,即忽略對應(yīng)的數(shù)據(jù)項;因子序號為7、22、47的因子,多年平均值、多雨年平均以及少雨年平均值之間沒有規(guī)律,對這類數(shù)據(jù)項按缺測資料處理。
3.5 數(shù)據(jù)挖掘算法選取 Apriori算法是產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的基本算法,該算法是根據(jù)有關(guān)頻繁項集特性的先驗知識而命名的。該算法利用了一個層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作。這一循環(huán)方法就是利用k-項集來產(chǎn)生(k+1)-項集。具體做法就是:首先找出頻繁1-項集,記為L1 ;然后利用L1來挖掘L2,即頻繁2-項集;不斷如此循環(huán)下去直到無法發(fā)現(xiàn)更多的頻繁k-項集為止。每挖掘一層Lk就需要掃描整個數(shù)據(jù)庫一遍。
為提高按層次搜索并產(chǎn)生相應(yīng)頻繁項集的處理效率,Apriori算法利用了一個重要性質(zhì),即一個頻繁項集中任一子集也應(yīng)是頻繁項集,來幫助有效縮小頻繁項集的搜索空間。
3.5.1 Apriori算法詳述。輸入:數(shù)據(jù)庫D;最小支持度閾值sup_min。輸出:D中的頻繁項集L。
4 小結(jié)
采用Apriori算法,在設(shè)定最小支持度0.65以上的情況下,對湖北多降水年進(jìn)行了求解;求解過程中通過數(shù)據(jù)劃分的方法來減少了I/O次數(shù),即對74項氣象環(huán)流指數(shù)數(shù)據(jù)集劃分為3個邏輯數(shù)據(jù)塊,找出局部頻繁項目集,然后將所有局部頻繁項目集合并為全局頻繁項目集上,在支持度0.65時找到了幾組關(guān)聯(lián)規(guī)則,如A(75,77)B(1),顯示前一年因子75和77即關(guān)鍵區(qū)海溫指數(shù)的第1和3項達(dá)到閾值即可認(rèn)為第二年為多雨,其物理含義是:黑潮區(qū)和西風(fēng)漂流區(qū)海溫偏低,預(yù)示第二年湖北為多雨年。湖北省氣象局開發(fā)了一個關(guān)聯(lián)規(guī)則挖掘系統(tǒng),實現(xiàn)了因子錄入、對象數(shù)據(jù)錄入、閾值設(shè)置和規(guī)則可視化顯示等功能,系統(tǒng)在2013~2014年的應(yīng)用中效果良好。當(dāng)降低支持度為0.62時,輸出規(guī)則多達(dá)2 000條以上,由于其規(guī)則表述較為復(fù)雜,且物理意義尚不清楚,文中沒有列出,需要進(jìn)行進(jìn)一步的探索。
參考文獻(xiàn)
[1] 高梅,張文華.基于氣象信息共享系統(tǒng)的雷達(dá)資料網(wǎng)絡(luò)數(shù)據(jù)庫[J].氣象科技,2002,30(1):32-36.
[2] 王勝利.新疆省級氣象數(shù)據(jù)庫建設(shè)及其管理系統(tǒng)軟件設(shè)計[J]. 新疆氣象,2003,26(5):41-42.
[3] 彭駿,劉興華,陳棟.氣象數(shù)據(jù)在網(wǎng)絡(luò)結(jié)構(gòu)中的應(yīng)用模型探討[J].四川氣象,2002(4):44-45.
[4] 覃天信,黃?,摚盥?廣西氣象臺業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)簡介[J]. 廣西氣象,2001,22(4):43-44.
[5] 易烈剛,楊溢,范元品.基于Internet的氣象實時資料查詢系統(tǒng)[J].貴州氣象,2003,27(3):39-41.
[6] 張帆,武疆艷.歷史資料數(shù)據(jù)庫管理系統(tǒng)的研制[J].新疆氣象,1998,21(3):29-31.
[7] 何婧,王麗珍,鄒力鵑. 基于云南氣象數(shù)據(jù)的空間關(guān)聯(lián)規(guī)則挖掘[J]. 計算機(jī)工程與應(yīng)用,2003(34):187-190.
[8] 趙海青,李社宗,周幸福.數(shù)據(jù)庫中的知識發(fā)現(xiàn)及其在氣象中的應(yīng)用[J].河南氣象,2002(2):35-36.
[9] 黃文玲,陳德軍.灰色趨勢災(zāi)變預(yù)測及其在數(shù)據(jù)挖掘中的應(yīng)用[J]. 華中科技大學(xué)學(xué)報, 2005,33(1):55-57.
[10] 郝先臣,張德下.數(shù)據(jù)挖掘工具和應(yīng)用中的問題[J].東北大學(xué)學(xué)報,2001,22(2):183-187.
[11] 曹輝,蔡穎,朱善君.教據(jù)倉庫技術(shù)在電力系統(tǒng)中的應(yīng)用[J].華北電力技術(shù),2001(3):44-54.
[12] HAN J,CAMBER M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2001.
[13] 陳德軍.一般灰色趨勢關(guān)聯(lián)系統(tǒng)及其分析方法研究[J].華中科技大學(xué)學(xué)報,2003,31(8):82-84.
[14] 陳綿云.趨勢關(guān)聯(lián)度及其在灰色建模中的應(yīng)用[J].華中理工大學(xué)學(xué)報,1994,22(8):64-68.
[15] 王革麗.時空結(jié)構(gòu)對短期氣候預(yù)測影響的初步分析[J].氣候與環(huán)境研究,2005,10(2):193-200.
[16] 顧群.顧節(jié)經(jīng). 短期氣候預(yù)測的物理基礎(chǔ)和診斷預(yù)測[J]. 遼寧氣象,2004(4):10-11.
[17] 趙振國.我國短期氣候預(yù)測的業(yè)務(wù)技術(shù)發(fā)展[J].山東氣象,2001(3):4-7.
[18] 張順利,陶詩言.青藏高原積雪對亞洲夏季風(fēng)影響的診斷及數(shù)值研究[J].大氣科學(xué),2001,25(3):372-390.
[19] 陳菊英.山東區(qū)域汛期旱澇預(yù)測概論[J].山東氣象,2001(3):12-17.
[20] 王錦貴,許君強(qiáng).東北地區(qū)夏季低溫與旱澇預(yù)測系統(tǒng)研究[M].北京:氣象出版社,2000.