周 園(云南國土資源職業(yè)學(xué)院 云南 昆明 652501)
?
基于Apriori算法的點線關(guān)聯(lián)模式在地震空間數(shù)據(jù)挖掘中的應(yīng)用
周 園
(云南國土資源職業(yè)學(xué)院云南昆明652501)
摘要:該文根據(jù)對地震空間數(shù)據(jù)中的兩種數(shù)據(jù)類型,點要素類型、線要素類型進行分析,基于Apirori算法,提出一種分析地震空間數(shù)據(jù)的線-點關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法,對算法進行了描述,并以中國云南省地區(qū)發(fā)生的地震空間數(shù)據(jù)作為主要數(shù)據(jù)來源進行了算法的實驗,由于Apriori算法是一種基于概率的挖掘算法,通過算法可以得出云南省地區(qū)地震空間數(shù)據(jù)庫線-點數(shù)據(jù)所蘊含的概率關(guān)系,并為進一步進行空間概率分析及推理有一定的意義。
關(guān)鍵詞:空間數(shù)據(jù)挖掘;Apriori;地理信息系統(tǒng);地震空間數(shù)據(jù)
地震機制及相關(guān)原理表明,地震的發(fā)生與地質(zhì)活動斷裂帶表現(xiàn)出很大的空間相關(guān)性,即地震的發(fā)生地點主要集中在地質(zhì)活動斷裂帶相鄰或相關(guān)區(qū)域。在空間數(shù)據(jù)中,把地質(zhì)活動斷裂帶抽象為線對象,地震的發(fā)生地,即震源抽象為點對象。在數(shù)據(jù)挖掘方法中,關(guān)聯(lián)規(guī)則的挖掘是其中重要的一種類型,關(guān)聯(lián)規(guī)則的挖掘中一種重要算法是Apriori算法。在空間數(shù)據(jù)挖掘中則通過對Apriori算法應(yīng)用在空間數(shù)據(jù)上,提出了空間同位模式co -location的空間關(guān)聯(lián)規(guī)則的挖掘算法[1][2][3][4],然而co-location空間同位算法主要針對的是空間點-點要素之間的關(guān)聯(lián)規(guī)則的挖掘算法,而對線-點關(guān)聯(lián)規(guī)則的挖掘則并無提及。
地震空間數(shù)據(jù)具復(fù)雜性、多源性、多維度等特點,空間數(shù)據(jù)挖掘中,筆者把地震空間數(shù)據(jù)庫進行抽象后,把空間數(shù)據(jù)劃分為點、線、面要素數(shù)據(jù)。根據(jù)對地震空間關(guān)聯(lián)規(guī)則挖掘中的關(guān)注點,把地震數(shù)據(jù)主要構(gòu)成劃分為點要素數(shù)據(jù)及線要素數(shù)據(jù)。
1.1地震點要素數(shù)據(jù)
地震記錄中最常見的記錄是地震編目數(shù)據(jù),編目數(shù)據(jù)是記錄地震震源及其能量的最基礎(chǔ)的地震記錄數(shù)據(jù),地震編目數(shù)據(jù)格式如表1所示,主要記錄了地震的位置、日期、震級、深度等信息。
表1 地震編目數(shù)據(jù)Tab.1 Earthquake catalog data
空間數(shù)據(jù)庫中,地震編目主要記錄的是震源信息,即地震發(fā)生位置,在一定的比例尺條件下,這些編目數(shù)據(jù)被抽象為空間中的點要素,每條地震編目數(shù)據(jù)被抽象成為空間數(shù)據(jù)庫中一個點要素對象。
1.2地震中的線要素數(shù)據(jù)
地質(zhì)斷裂帶是地殼運動產(chǎn)生壓力和張力產(chǎn)生的地殼破裂區(qū)域、是地殼運動及地震活動的原理,斷裂帶數(shù)據(jù)主要包括斷裂帶名稱、活動性質(zhì)、走向、傾角、走坡速率、側(cè)滑速率、形成時期、產(chǎn)狀、地球物理特性等,如表2所示:斷裂帶空間數(shù)據(jù)在空間抽象后表現(xiàn)為地理空間中的線要素數(shù)據(jù),在空間數(shù)據(jù)庫中,不同的線要素表現(xiàn)為不同的線要素對象。
表2 地質(zhì)斷裂帶數(shù)據(jù)線要素格式Tab.2 Line feature in geological fault zone
地震空間數(shù)據(jù)構(gòu)成復(fù)雜,從空間數(shù)據(jù)挖掘的角度,我們僅僅關(guān)注其中的點-線兩種類型的地震空間要素,并且使用空間關(guān)聯(lián)規(guī)則挖掘的方法,分析其中點線要素之間的關(guān)聯(lián)模式。
在空間數(shù)據(jù)中線要素為連續(xù)數(shù)據(jù),而點模式為離散數(shù)據(jù),應(yīng)用Apriori算法分析是一種基于事務(wù)概念的分析方式,首先要定義在點 -線構(gòu)成的連續(xù)空間數(shù)據(jù)庫中抽象出事務(wù)的概念。假設(shè)在地震空間數(shù)據(jù)庫中的每一個地理要素用Ti表示,其中T表示是地震空間數(shù)據(jù)庫中的一種空間數(shù)據(jù)類型,i表示不同空間數(shù)據(jù)類型中的每個數(shù)據(jù)項的ID。我們把地震空間數(shù)據(jù)類型分為兩大類:L表示抽象空間數(shù)據(jù)的線類型,P表示抽象空間數(shù)據(jù)點類型。定義F是一個以L為中心的緩沖區(qū)R(L,θ),表示以L為中心,θ為半徑范圍的一個緩沖區(qū)域。點要素,則表明在空間點-線數(shù)據(jù)類型之間具有空間關(guān)聯(lián)規(guī)則L?PYCS%|CC%Y,其中CS%表示關(guān)聯(lián)規(guī)則的支持度,CC%表示關(guān)聯(lián)規(guī)則的置信度。
在Apirori算法中關(guān)聯(lián)規(guī)則的定義都是基于事物(transaction)進行定義的,在空間點線關(guān)系中,空間線L緩沖區(qū)RYLIθY則表示的是連續(xù)變量。首先要從連續(xù)空間中提取出事物(transaction)的概念。為此,定義L(A)表示線類型L中的某個特定的一種線類型A,LYAYi則表示空間數(shù)據(jù)線類型A中的某個具體對象i,如L(A)表示斷裂帶線數(shù)據(jù),則LYAYi為第i條斷裂帶。根據(jù)設(shè)定的閾值θ,可以得出LYAYi的相應(yīng)的緩沖區(qū),同時根據(jù)不同的的點要素P可以定義處具體的點要素對象PYAY,P(B),等,其中A、B表示不同的點要素類型、P(A)i則表示點要素A類型的具體點對象i,若P(A)iεR(L(A)i,θ),則可以定義為transaction (L(A)i,P(A)i),在點類型A中具有一系列的子類型,用小寫字母表示a,b,c……。其中a∪b∪c∪……=A,并且a∩b∩c=φ,即a、b、c……表示的是其中一個集合A的一個劃分。
定義關(guān)聯(lián)規(guī)則LYAiY?P(a)(CS%CC%),其中表示為關(guān)聯(lián)規(guī)則的支持度,CC%表示關(guān)聯(lián)規(guī)則的置信度。
圖1 點線模式關(guān)系圖Fig.1 Point-line pattern relationship
如圖1所示,圖中空心框表示點要素類型B,實心框表示點要素類型A。其中實心框表示的要素中中●∪▲∪★=P(A)=(A)i,P(a)、P(b)、P(c)分別是P(A)的一個劃分,L(Ai)表示特定的線要素類型L(A)中的一個對象,根據(jù)此對象及設(shè)定的閾值θ,有一條帶狀的緩沖區(qū)域R(L (A)i,θ),所有落入帶狀緩沖區(qū)域的點要素則認為和L(Ai)具有transaction關(guān)系。如圖1所示有transaction(L(Ai),P(a1))表示為一個事物,則,P(A)i)=10,表示落入緩沖帶中的所有A類型點要素對象的數(shù)量為表示所有的A∪B類型點要,P(ai))=4,即表示所有落入緩沖帶中a劃分的數(shù)量為4。針對上圖空間點線關(guān)聯(lián)規(guī)則如關(guān)系見表3。素對象總數(shù)為42,
表3 點線關(guān)系支持度與置信度支持表Tab.3 Support degree and confidence degree of point-line relationship
根據(jù)上述關(guān)聯(lián)規(guī)則的定義可以得出所有的關(guān)聯(lián)規(guī)則,在這些關(guān)聯(lián)規(guī)則中并非所有的支持度及置信度都有一定意義,根據(jù)apriori算法,通過定義相關(guān)支持度及置信度的閾值可以從相應(yīng)關(guān)聯(lián)規(guī)則中挖掘處相應(yīng)的強關(guān)聯(lián)規(guī)則,在實際應(yīng)用具有相應(yīng)意義,我們分別把支持度及置信度的關(guān)聯(lián)規(guī)則閾值定義為θs及θc,通過選取不同的閾值來確定關(guān)聯(lián)規(guī)則的關(guān)聯(lián)強度。在整個關(guān)聯(lián)規(guī)則的分析過程中,可以看出對于線點空間要素之間關(guān)聯(lián)規(guī)則的確定,關(guān)鍵在于幾個值即緩沖區(qū)設(shè)定的范圍閾值θ,和關(guān)聯(lián)規(guī)則的支持度閾值θs和置信度閾值θc的選取,通過對這三個值的確定,可以從線點空間模式中提取處相應(yīng)的空間關(guān)聯(lián)規(guī)則。下面,我們將分析點線模式關(guān)聯(lián)規(guī)則的挖掘算法進行進一步的描述。
挖掘算法的輸入為一個線性類型及相應(yīng)的點類型集合,輸出為其中的空間關(guān)聯(lián)規(guī)則的支持度CS%及CC%,在算法中還需要對相應(yīng)的線性類型的閾值θ進行指定。通過閾值的確定可以確定出特定線類型的相應(yīng)緩沖區(qū),根據(jù)緩沖區(qū)域和點類型的交集計算出相應(yīng)的CS%及CC%。
輸入:a)線類型數(shù)據(jù)L(A)表示表示斷裂帶相關(guān)的線要素數(shù)據(jù)集合;
b)點類型數(shù)據(jù)P(A),P(B)等相關(guān)點要素數(shù)據(jù)集合表示震源點集合;
c)關(guān)注類型點要素P(A)的劃分子集合P(a)、P(b)、P(c);
d)閾值數(shù)據(jù)θ,θs,θc,空間緩沖區(qū)域閾值,支持度CS%及置信度CC%的閾值。
輸出:點線關(guān)聯(lián)規(guī)則L(Ai)?P(i)YCS%|CC%Y及其對應(yīng)的支持度CS%及置信度CC%集合。
變量:L(A)k表示線類型A中具有k個線要素對象的集合;
P(B)m表示點類型B中具有m個要素點對象的集合;
P(A)n表示點類型A中具n個要素點對象的集合;
P(a),P(b),P(c)表示P(A)k的三個劃分子集合;
R(A)k表示L(A)k中k個線要素以θ為閾值的緩沖區(qū)集合;
Rule(L(Ai)?P(i),CS%,CC%)表示關(guān)聯(lián)規(guī)則及支持度置信度集合。
步驟:R(A)k=generate Region(L(A)k,θ);Count=m+n;i=0;
While(i<k){j=0;a=0;b=0;c=0;
while(j<n){
if(InRegion((R(A)i,P(A)j)&&P(A)j∈P (a)){a++;j++;}
Else if(InRegion((R(A)i,P(A)j)&&P(A)j ∈P(b)){b++;j++;}
Else if((InRegion((R(A)i,P(A)j)&&P (A)j∈P(c)){c++;j++}Else j++;}
If(j/count>=θs&&a/j>=θC)AddRule (Rule(L(Ai)?P(a),j/count,a/j);
If(j/count>=θs&&b/j>=θC)AddRule (Rule(L(Ai)?P(b),j/count,b/j);
If(j/count>=θs&&b/j>=θC)AddRule (Rule(L(Ai)?P(c),j/count,c/j);i++;}
上述算法中g(shù)enerate Region(L(A)k,θ)為根據(jù)閾值產(chǎn)生不同的線要素的緩沖區(qū)集合,InRegion(R(A)i,P(A)j)表示判斷點要素P(A)j是否落入特定緩沖區(qū)R(A)i的區(qū)域內(nèi),AddRule()則表示把關(guān)聯(lián)規(guī)則L(Ai)?P(a)及CS%和CC%添加入集合內(nèi)。在上述算法把集合P(A)劃分成為了P(a),P(b),P(c)3個子集,運用中根據(jù)A的不同類型可以劃分出更多的子集合。通過對算法的描述,可以實現(xiàn)對地震空間數(shù)據(jù)中的線要素及點要素之間的關(guān)聯(lián)規(guī)則的挖掘。
筆者對云南省1965-2014年以來的地震數(shù)據(jù)進行了空間關(guān)聯(lián)規(guī)則的挖掘算法實驗,實驗主要采用ArcGIS地理信息系統(tǒng)平臺及Geodatabase空間數(shù)據(jù)庫為主要的實驗平臺及空間數(shù)據(jù)庫。實驗數(shù)據(jù)如下:云南省自1965年以來地震目錄共計122 201次,主要抽象成為了點要素數(shù)據(jù)格式,云南省活動斷裂帶數(shù)據(jù)共計33條,在Geodatabase平臺下建立了云南省地震空間數(shù)據(jù)庫。根據(jù)地震震源數(shù)據(jù)首先按震級進行劃分,即震級4級以上通常為有感地震,地震影響較大的4級以上地震分為P (A)類,震級4級以下地震分為P(B)類。數(shù)據(jù)中P(A)=1 342次發(fā)生,在總地震數(shù)據(jù)中約占1%,在選擇支持度上必須小于這個值,選擇0.4%作為支撐度閾值θs,1%為置信度閾值θc,并且以所有斷裂帶10 km為閾值進行了緩沖區(qū)域的建立,把4級以上地震進一步分為4-5級為一個劃分、5-6級為一個劃分、6級以上地震為一個劃分。根據(jù)選擇的閾值通過ArcGIS平臺,生成了所有活動斷裂帶的以10 km為緩沖區(qū)的緩沖帶,按照算法進行了分析,實驗平臺見圖2,得到的實驗結(jié)果見表4。
表4 云南省地震數(shù)據(jù)點線模式支持度及置信度Tab.4 Support degree and confidence degree of point-line pattern in Yunnan province
通過實驗數(shù)據(jù)可以看出在地震中斷裂地和震源之間一種類似co-location的數(shù)據(jù)挖掘得出的空間關(guān)聯(lián)規(guī)則及其支持度及置信度的具體數(shù)據(jù),通過實驗可以得出,云南省活動的33條斷裂帶和地震震源的關(guān)系,在活動斷裂帶以內(nèi)10 km發(fā)生4級地震的概率為0.45%。而在10 km內(nèi)的4級地震中發(fā)生5-6級的概率分別為15.4%、3.6%,可以看出活動斷裂帶及其10 km范圍內(nèi)發(fā)生4級以上及特大地震的具體概率。
圖2 云南省地點線模式挖掘?qū)嶒瀳DFig.2 Mining experiment of point-line pattern in Yunnan province
根據(jù)上述算法及實驗得出1種通過類似colocation空間挖掘的算法,找到了空間數(shù)據(jù)庫中線、點要素之間的空間關(guān)聯(lián),并且把算法應(yīng)用到的地震空間數(shù)據(jù)關(guān)于活動斷裂帶及地震震源數(shù)據(jù)上進行實驗,得出實驗結(jié)果。實驗結(jié)果表明,地震的活動斷裂帶和震源及震級存在很大的相關(guān)度,實驗通過對點線關(guān)聯(lián)規(guī)則的支持對及置信度表明了這種相關(guān)度。關(guān)于算法及實驗進一步的分析包括:
1)算法中用于計算的全部點數(shù)據(jù)構(gòu)成了全概率的空間,其中的支持度及置信度表示的則為其中的條件概率,通過基于概率的全概率-貝葉斯等方法可以進行進一步的空間推理[5]。
2)實驗數(shù)據(jù)中點數(shù)據(jù)主要包括震源數(shù)據(jù),而地震數(shù)據(jù)的來源復(fù)雜,產(chǎn)生的破壞和人民生活密切相關(guān),在考慮數(shù)據(jù)構(gòu)成的時候,還可以把居民點等其它多種點要素數(shù)據(jù)考慮入分析對象,從概率關(guān)系對居民點選址做分析。
3)地震數(shù)據(jù)是時效性很強的數(shù)據(jù),在空間數(shù)據(jù)建立的時候必須考慮對時間維度的考慮,從而對地震及相關(guān)度進行分析及預(yù)測。
4)地震編目數(shù)據(jù)本身記錄存在缺陷,歷史統(tǒng)計缺乏,造成了數(shù)據(jù)并不全面等[6]。
該文主要提出了一種基于Apriori算法的空間關(guān)聯(lián)規(guī)則的挖掘算法,通過對算法的分析、描述并通過對云南省地震空間數(shù)據(jù)中的活動斷裂帶、震源數(shù)據(jù)進行算法實驗得出了相應(yīng)的實驗數(shù)據(jù)。算法的提出對地震數(shù)據(jù)通過空間關(guān)聯(lián)規(guī)則的方式進行基于概率的分析,為地震活動中斷裂帶周邊地震活動概率分及基于概率的預(yù)測有一定的運用意義。
參考文獻:
[1]Yan Huang,Shashi Shekhar,hui Xiong Discovering colocation patterns from spatial Datasets A General Approach[C].IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 2004:1472-1485.
[2]王煒,林命遇,馬欽忠,等.數(shù)據(jù)挖掘及其在地震預(yù)報中的應(yīng)用前景[J].國際地震動態(tài),2005,(12):1 -3.
[3]劉宏濤.數(shù)據(jù)挖掘在地震預(yù)報中的應(yīng)用研究[D].遼寧工程技術(shù)大學(xué),2006.
[4]馬榮華,馬曉冬,蒲英霞.從GIS數(shù)據(jù)庫中挖掘空間關(guān)聯(lián)研究規(guī)則[J].遙感學(xué)報,2005,9(6):733 -740.
[5]皇甫崗.云南地震活動性研究[D].中國科學(xué)技術(shù)大學(xué),2009.
[6]顧元,朱培明,榮輝,等.基于貝葉斯網(wǎng)絡(luò)的地震相分類[J].地球科學(xué)-中國地質(zhì)大學(xué)學(xué)報,2013,38 (5):1143-1147.
中圖分類號:P208
文獻標識碼:A
文章編號:1004-2660(2015)03-0063-05
收稿日期:2105-07-09.
作者簡介:周園(1981-),女,云南人,講師.主要研究方向:地理信息系統(tǒng),空間數(shù)據(jù)挖掘.
Application of Point-line Association Pattern Based on Apriori Algorithm on Spatial Data Mining of Earthquake
ZHOU Yuan
(Yunnan Land and Resources Vocational College,Kunming 652501,China)
Abstract:The analysis in this paper is based on two data types of spatial data of earthquake,i.e.point feature and line feature.According to Apriori algorithm,a point-line association pattern was used in the spatial data mining of earthquake.This pattern was described and then verified by the earthquake spatial data in Yunnan province.As Apriori algorithm is on the basis of probability,the probabilistic relations in the point-line data of earthquake spatial data in Yunnan province can be obtained,thus enjoying some significance in the further analysis and reasoning of spatial probability.
Key words:spatial data mining;Apriori;GIS;earthquake spatial data