何敏 童威
摘 要:在對(duì)地震事件進(jìn)行分類的過(guò)程中,采用K-means聚類分析法、K-means++算法按照震級(jí)、震源、深度分類標(biāo)準(zhǔn)對(duì)發(fā)生維度、深度、震級(jí)參數(shù)不同的地震進(jìn)行合理有效的分類。
關(guān)鍵詞:K-means K-means++
Abstract: In the process of classifying seismic events, K-means cluster analysis method and K-means++ algorithm are used to classify earthquakes with different dimensions, depths, and magnitudes according to magnitude, source, and depth classification criteria.
Key word: K-means、K-means++
引 言
據(jù)統(tǒng)計(jì),地球上每年會(huì)發(fā)生500萬(wàn)起天然地震事件,每天都會(huì)發(fā)生1萬(wàn)起以上的地震事件。絕大多數(shù)的地震事件都與板塊構(gòu)造相關(guān),發(fā)生在構(gòu)造縫合帶附近。將中國(guó)境內(nèi)2012年至2016年(近五年)的各個(gè)參考地點(diǎn)地震發(fā)生維度、深度、震級(jí)等數(shù)據(jù),作為我們研究震級(jí)、震源、深度這幾個(gè)類別關(guān)系的較為標(biāo)準(zhǔn)的參考數(shù)據(jù)進(jìn)行數(shù)學(xué)模型的建立和求解。
根據(jù)分類的特點(diǎn),采用K-means聚類分析法,對(duì)三個(gè)要素進(jìn)行一個(gè)聚類分析,最終得到近五年的地震事件按照這三個(gè)要素分類的一個(gè)結(jié)果。
1. K-means經(jīng)典算法
K-means算法是硬聚類算法,是典型的基于原型的目標(biāo)函數(shù)聚類方法的代表,它是數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值的方法得到迭代運(yùn)算的調(diào)整規(guī)則。K-means算法以歐式距離作為相似度測(cè)度,它是求對(duì)應(yīng)某一初始聚類中心向量V最優(yōu)分類,使得評(píng)價(jià)指標(biāo)J最小。算法采用誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù)
K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。
K-means算法接受輸入量 k ;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為 k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算的。而求群中心點(diǎn)的方法可由以下三種公式求得:
(1) Minkowski Distan
(2) Euclidean Distance
(3) CityBlock Distance
按照MATLAB既有的經(jīng)典算法,用收集到的數(shù)據(jù)進(jìn)行計(jì)算得到的仿真結(jié)果圖如下:
分析可得:紅、綠、藍(lán)色點(diǎn)均代表了發(fā)生的地震事件,圖2中三個(gè)帶×的圓圈則是按照不同的聚類中心點(diǎn)進(jìn)行的最終一個(gè)分類,地震事件多發(fā)生于經(jīng)度在80-120度的范圍,緯度在25-40度的范圍。圖3則是按照震級(jí)和震源深度對(duì)地震事件進(jìn)行分類的一個(gè)仿真圖,可以看出紅點(diǎn)代表的絕大部分地震事件、藍(lán)點(diǎn)代表的少數(shù)地震事件以及綠點(diǎn)代表的極少數(shù)事件在不同經(jīng)度和緯度之下的震級(jí)和震源深度分布情況。
2.K-means++算法
K-means算法有兩個(gè)重大的缺陷,都和初始值有關(guān)為了優(yōu)化該模型的效果,我們采用K-means++算法對(duì)隨機(jī)種子的問(wèn)題進(jìn)行一個(gè)改進(jìn)。步驟如下:(1)從地震事件中隨機(jī)挑選種子點(diǎn);(2)計(jì)算每個(gè)點(diǎn)和最近的一個(gè)種子點(diǎn)的距離保存與一個(gè)數(shù)據(jù)庫(kù)中,再將這些距離求和得sum;(3)接著取一個(gè)隨機(jī)值,按權(quán)重方式計(jì)算下一個(gè)種子點(diǎn);(4)重復(fù)(2)和(3)直到k個(gè)種子點(diǎn)都被選取出來(lái);(5)進(jìn)行K-means算法。
我們自行選取隨機(jī)的幾組數(shù)值,用GO語(yǔ)言對(duì)K-means++算法進(jìn)行計(jì)算得到仿真圖如下:
我們發(fā)現(xiàn)利用K-means++算法對(duì)初始隨機(jī)種子的優(yōu)化之后,將會(huì)得到非常好的效果,因此起到了對(duì)模型優(yōu)化的效果。
參考文獻(xiàn)
[1] 張瑋瑋. 基于聚類分析的BP神經(jīng)網(wǎng)絡(luò)短時(shí)交通流預(yù)測(cè)方法研究[D].重慶郵電大學(xué),2016.
[2] 肖錦成,歐維新,符海月. 基于BP神經(jīng)網(wǎng)絡(luò)與ETM+遙感數(shù)據(jù)的鹽城濱海自然濕地覆被分類[J]. 生態(tài)學(xué)報(bào),2013,(23):7496-7504.
[3] 張輝. 基于BP神經(jīng)網(wǎng)絡(luò)的遙感影像分類研究[D].山東師范大學(xué),2013.等。