• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種前兆觀測時(shí)序特征量的數(shù)據(jù)檢測方法

      2015-02-15 01:05:20王秀英張聰聰王成亮
      關(guān)鍵詞:前兆符號(hào)化信息熵

      王秀英 張聰聰 王成亮

      1 中國地震局地殼應(yīng)力研究所,北京市安寧莊路1號(hào),100085

      2 邯鄲市地震局,邯鄲市叢臺(tái)路496號(hào),056008

      地震前兆觀測數(shù)據(jù)是進(jìn)行地震預(yù)報(bào)和各種地球科學(xué)研究的基礎(chǔ)。隨著數(shù)據(jù)應(yīng)用研究的深入,前兆觀測系統(tǒng)不斷改善,前兆觀測數(shù)據(jù)的觀測精度和采樣率不斷提高,導(dǎo)致觀測數(shù)據(jù)量激增[1]。由于前兆觀測過程中觀測數(shù)據(jù)會(huì)受到各種干擾和影響,工作人員需對(duì)由干擾導(dǎo)致的“問題數(shù)據(jù)”進(jìn)行預(yù)處理。另外,在進(jìn)行數(shù)據(jù)的常規(guī)方法或特定方法應(yīng)用之前,也需對(duì)問題數(shù)據(jù)進(jìn)行先期處理,以滿足不同方法對(duì)數(shù)據(jù)的要求。由于前兆觀測數(shù)據(jù)量巨大,問題數(shù)據(jù)的定位靠人工檢查,不僅缺少判別的客觀性,效率也很低。由于觀測數(shù)據(jù)的連續(xù)變化,基于這些數(shù)據(jù)提取的常用統(tǒng)計(jì)特征量均值、方差等也在不斷變化,變化的特征量不能反映不同時(shí)段數(shù)據(jù)總體特征,也無法利用它們進(jìn)行比較、分析和判斷,常規(guī)的均值、方差等特征量數(shù)據(jù)判別方法在用于地震前兆觀測數(shù)據(jù)分析時(shí)也不適用。因此,需要研究更有效的方法來進(jìn)行此項(xiàng)工作。

      本文基于大數(shù)據(jù)挖掘的思路,設(shè)計(jì)一種利用信息熵值作特征量檢測地震前兆觀測數(shù)據(jù)的方法,可以快速從大量數(shù)據(jù)中檢測出問題數(shù)據(jù),大大縮短數(shù)據(jù)預(yù)處理中非正常數(shù)據(jù)的定位時(shí)間。

      1 前兆數(shù)據(jù)特征值提取方法

      數(shù)據(jù)特征量提取方法設(shè)計(jì)中,借鑒信息領(lǐng)域信息熵的概念,通過前兆觀測數(shù)據(jù)信息熵的定義來提取前兆觀測數(shù)據(jù)的特征值。

      1.1 信息熵

      Shannon[2]將信息熵定義為:離散隨機(jī)事件出現(xiàn)概率的不確定性。一個(gè)系統(tǒng)越有序,信息熵就越低;越混亂,信息熵就越高。所以,信息熵是系統(tǒng)有序化程度的一個(gè)度量。

      假設(shè)X是一個(gè)離散隨機(jī)變量,它的取值范圍R={x1,x2,…,xn}是有限可數(shù)的。設(shè)pi=P{X=xi}為事件xi的發(fā)生概率,則X的信息熵定義為[2]:

      由信息熵定義知[3],對(duì)于地震前兆觀測時(shí)間序列,如果數(shù)據(jù)變化完全隨機(jī)無規(guī)律,則每個(gè)事件出現(xiàn)的概率大致相等,其信息熵值最大;相反,如果數(shù)據(jù)變化簡單規(guī)律,則某類事件出現(xiàn)的概率較大,其他類事件出現(xiàn)的概率較小,表現(xiàn)為信息熵越??;如果觀測數(shù)據(jù)為一個(gè)常數(shù),則某類事件的出現(xiàn)概率為1,其他類事件的出現(xiàn)概率為0,最終的信息熵值為0。因此,信息熵可以反映觀測數(shù)據(jù)的變化特性,通過檢驗(yàn)信息熵?cái)?shù)據(jù)的變化可以檢測數(shù)據(jù)的變化。這樣,通過一個(gè)特征量使數(shù)據(jù)整體的變化特性得以反映,從而簡化時(shí)間序列數(shù)據(jù)的檢測。

      1.2 地震前兆數(shù)據(jù)信息熵提取

      地震前兆觀測數(shù)據(jù)大多序列較長,重復(fù)數(shù)據(jù)較少。因此,在進(jìn)行信息熵特征量提取之前必須對(duì)觀測時(shí)間序列進(jìn)行有效降維[4]。

      對(duì)時(shí)間序列X用符號(hào)化方法降維及計(jì)算信息熵的具體操作步驟如下:

      1)計(jì)算序列X的均值。

      2)將序列中每一個(gè)觀測值xi與序列均值比較,xi≥時(shí),取值1;xi<時(shí),取值0。

      3)得到一個(gè)與原序列等長的0、1序列。

      4)將序列符號(hào)化。根據(jù)符號(hào)化字符數(shù)長度的要求,將01序列按不同長度截取。如符號(hào)化字符數(shù)取16時(shí),0、1序列截取長度為4,每個(gè)長度為4的0、1序列可以確定一個(gè)字符,這樣原來長度為1 440的時(shí)間序列,降維后成為長度為360的字符序列。

      5)統(tǒng)計(jì)各字符出現(xiàn)的概率,按式(1)計(jì)算信息熵。

      通過符號(hào)化方法可降低數(shù)據(jù)序列的維度。至于序列長度降低的程度,需要依據(jù)數(shù)據(jù)序列的特征及要提取的特征選擇合適的取值。

      2 實(shí)際數(shù)據(jù)應(yīng)用

      為說明信息熵對(duì)數(shù)據(jù)整體情況的反映,以地震前兆臺(tái)網(wǎng)產(chǎn)出的觀測數(shù)據(jù)為例進(jìn)行驗(yàn)證。

      圖1為云南省云龍地震臺(tái)水平擺傾斜觀測北南分量2008~2012得到的信息熵曲線,信息熵計(jì)算中字符長度取值4??梢钥吹?,該測項(xiàng)的信息熵值大致在0.7~0.8,存在一些信息熵值很大和很小的點(diǎn);2008、2009和2011年信息熵?cái)?shù)值變化較平穩(wěn),2010年變化則較為劇烈,2012和2013年更甚,尤其是2013年,信息熵?cái)?shù)據(jù)極不穩(wěn)定,變化非常劇烈,偏離正常值更小的情況非常多。

      圖1 云南省云龍地震臺(tái)水平擺傾斜觀測北南分量2008~2012年觀測數(shù)據(jù)信息熵曲線Fig.1 Informational Entropy Curve of the north-south tilt observation of horizontal pendulum from 2008to 2012at Yunlong station,Yunnan province

      對(duì)這些信息熵值明顯偏離正常變化范圍的點(diǎn),利用其日變時(shí)序曲線進(jìn)行檢查。

      2.1 信息熵值小于正常變化范圍

      篩選2008~2013年得到的信息熵?cái)?shù)據(jù),信息熵值≤0.6的數(shù)據(jù)共有44條,其中2008年2條、2010年2條、2011年4條、2012年6條、2013年30條。這44條信息熵值對(duì)應(yīng)的觀測數(shù)據(jù)時(shí)序曲線全部對(duì)應(yīng)單點(diǎn)大幅突跳或大幅短時(shí)臺(tái)階的情況(圖2)。

      其中圖2(a)的短時(shí)段數(shù)據(jù)跳躍從時(shí)間上與汶川地震發(fā)震時(shí)間對(duì)應(yīng),應(yīng)是汶川地震的地震波造成的觀測數(shù)據(jù)異常,而且幅度非常大。圖2(b)~(d)存在明顯的單點(diǎn)突跳或短時(shí)段數(shù)據(jù)臺(tái)階,由于幅度較大,導(dǎo)致原始曲線形態(tài)無法反映。作為對(duì)比,圖2(e)是該測項(xiàng)正常形態(tài)的日變曲線。圖2(e)與(a)~(d)中各條曲線對(duì)比可以確定,圖2(a)~(d)中的時(shí)序曲線確實(shí)存在偏離正常情況的變化,而這種變化通過信息熵?cái)?shù)據(jù)也得以反映。圖2(e)正常曲線形態(tài)的觀測數(shù)據(jù)計(jì)算所得信息熵為0.73,屬于圖1中大多數(shù)信息熵值的變化范圍;另外幾個(gè)信息熵值都遠(yuǎn)遠(yuǎn)小于正常信息熵值的變化范圍,圖2(a)~(d)曲線反映了這些數(shù)據(jù)的確存在異常變化。

      經(jīng)逐一對(duì)比,在2008~2013年所得信息熵?cái)?shù)據(jù)中篩選44個(gè)明顯偏小的信息熵值,對(duì)應(yīng)日觀測時(shí)序數(shù)據(jù)全部存在明顯的非正常變化。

      2.2 信息熵值大于正常變化范圍

      篩選2008~2013年計(jì)算信息熵中數(shù)值≥0.9的數(shù)據(jù),共382個(gè),其中2008年14個(gè)、2009年10個(gè)、2010年39 個(gè)、2011年11 個(gè)、2012年27 個(gè)、2013年90個(gè)。382個(gè)信息熵對(duì)應(yīng)的觀測數(shù)據(jù)時(shí)序曲線全部存在偏離正常的情況。偏離情況大致可以分為:1)正常形態(tài)上存在短時(shí)較大幅度干擾;2)短時(shí)大幅度干擾導(dǎo)致原曲線形態(tài)壓縮改變;3)有異于常規(guī)的形態(tài)呈現(xiàn);4)觀測數(shù)據(jù)有連續(xù)高頻干擾存在;5)連續(xù)隨機(jī)干擾及較大幅度的突跳,導(dǎo)致曲線形態(tài)改變;6)基本形態(tài)存在連續(xù)小幅度干擾和相對(duì)較大幅度的突跳。圖3為幾類比較典型的觀測數(shù)據(jù)異常曲線形態(tài)。

      由圖3可知,信息熵值較大時(shí),觀測數(shù)據(jù)異于正常形態(tài)的情況多種多樣。這說明信息熵值增加時(shí),數(shù)據(jù)中無規(guī)律變化的成分增加。信息熵值的突然大幅變化可以反映其代表的觀測時(shí)序數(shù)據(jù)發(fā)生較大變化或受到較大干擾。

      圖2 信息熵異常小值及正常值對(duì)應(yīng)觀測數(shù)據(jù)時(shí)序曲線Fig.2 Daily observation data curves corresponding to the very small and normal informational entropy values

      圖3 信息熵異常大值對(duì)應(yīng)觀測數(shù)據(jù)時(shí)序曲線Fig.3 Daily observation data curvescorresponding to the very large informational entropy values

      由計(jì)算實(shí)例可知,對(duì)于信息熵值明顯偏離正常變化范圍的情況,對(duì)應(yīng)的數(shù)據(jù)都存在比較嚴(yán)重的問題,這說明信息熵的確有反映原觀測時(shí)間序列某些特性的能力。對(duì)于信息熵值介于明顯偏大和明顯偏小區(qū)間的數(shù)據(jù),即信息熵值介于[0.6,0.9]的數(shù)據(jù),大部分表現(xiàn)為正常形態(tài),少量處于正常范圍內(nèi)的數(shù)據(jù)有局部小的干擾。雖然這種干擾從曲線形態(tài)上可以明顯看到,但由于幅度較小,持續(xù)時(shí)間較短,無法在信息熵中得以反映。但總的表現(xiàn)規(guī)律為,信息熵較大時(shí)(大于0.9),數(shù)據(jù)曲線形態(tài)表現(xiàn)較復(fù)雜;信息熵較小時(shí),曲線形態(tài)更趨簡單,符合信息熵對(duì)數(shù)據(jù)特性的描述。

      3 分析與討論

      分析表明,信息熵具有反映數(shù)據(jù)總體變化特征的能力,利用信息熵可以快速發(fā)現(xiàn)存在較大異常變化的數(shù)據(jù)。對(duì)2008~2013年6a每日觀測數(shù)據(jù)的信息熵計(jì)算提取,在Intel Core 2 Quad CPU,2.66GHz主頻的計(jì)算機(jī)上,用時(shí)約2′29″。對(duì)于如此巨大的數(shù)據(jù)量,如果以人工逐日查看曲線的方式進(jìn)行檢測,在短時(shí)間內(nèi)根本無法完成。

      信息熵之所以能夠反映觀測數(shù)據(jù)的某些形態(tài)變化,與該方法中數(shù)據(jù)的降維符號(hào)化方法相關(guān)。當(dāng)數(shù)據(jù)中有幅度特別巨大的突跳時(shí),即使持續(xù)時(shí)間很短,也可能造成均值的改變,進(jìn)而影響符號(hào)化過程,最終在信息熵?cái)?shù)值中得以反映。另外,如果數(shù)據(jù)較原有形態(tài)發(fā)生了較大改變,也會(huì)導(dǎo)致符號(hào)化后各符號(hào)出現(xiàn)的概率發(fā)生變化,最終使得信息熵值改變。所以,為了降維所選取的符號(hào)化方法在信息熵計(jì)算過程中非常關(guān)鍵。計(jì)算實(shí)例所用方法是一種最簡單的方法。具體應(yīng)用時(shí),可以結(jié)合應(yīng)用目的和所用數(shù)據(jù)的特征設(shè)計(jì)不同的符號(hào)化方法[5-6],以反映不同的曲線變化特征,從而達(dá)到快速檢測某些數(shù)據(jù)特性變化的目的。

      信息熵值可以作為一個(gè)數(shù)據(jù)序列的特征量使用。地震前兆觀測測項(xiàng)眾多,數(shù)據(jù)在量綱和量級(jí)上都存在很大差異,觀測數(shù)據(jù)無法直接比較,采用統(tǒng)計(jì)中的均值或方差等特征量也不能解決這個(gè)問題。另外,由于觀測數(shù)據(jù)量級(jí)的差異,即使同一觀測測項(xiàng)不同,觀測點(diǎn)的數(shù)據(jù)也不能直接比較。而信息熵值無量綱,且能反映數(shù)據(jù)樣本的某些變化特征,可以利用信息熵特征量,對(duì)不同前兆觀測測項(xiàng)或者同一觀測測項(xiàng)不同觀測地點(diǎn)觀測數(shù)據(jù)進(jìn)行直接比較,解決前兆觀測數(shù)據(jù)無法直接對(duì)比的問題。

      文中給出的信息熵計(jì)算是基于原始觀測數(shù)據(jù)序列的,為了突出某些變化特征,可以先行對(duì)原始序列進(jìn)行轉(zhuǎn)換,如差分等操作,再進(jìn)行信息熵計(jì)算提取,以突出反映更多的數(shù)據(jù)內(nèi)部特性。

      應(yīng)用示例中僅給出了信息熵值明顯偏離正常變化范圍的情況,對(duì)應(yīng)的觀測數(shù)據(jù)都存在比較明顯的非正常變化。對(duì)于信息熵值介于其間的情況,其中也存在一些數(shù)據(jù)異常的案例,但由于異常數(shù)據(jù)持續(xù)時(shí)間較短、幅度較小,通過信息熵?cái)?shù)據(jù)無法反映。所以,利用信息熵值法處理一些特別嚴(yán)重的問題數(shù)據(jù),效果較好。

      4 結(jié) 語

      信息熵方法對(duì)于前兆觀測時(shí)序數(shù)據(jù)具有比較好的檢測效果,可以快速定位問題數(shù)據(jù),而且該方法對(duì)于所有前兆觀測數(shù)據(jù)都適用,不存在學(xué)科或觀測測項(xiàng)處理方法上的差別,尤其適用于目前前兆數(shù)據(jù)中心數(shù)據(jù)量巨大的情況。

      [1]周克昌,趙剛,王晨,等.中國地震前兆臺(tái)網(wǎng)觀測技術(shù)系統(tǒng)整合[J].中國地震,2013,29(2):270-275(Zhou Kechang,Zhao Gang,Wang Chen,et al.Upgrade and Integration of the Precursor Observation Network of China[J].Earthquake Research in China,2013,29(2):270-275)

      [2]Shannon C E.A Mathematical Theory of Communication[J].The Bell System Technical Journal,1948,27(7):379-423

      [3]王棟,朱遠(yuǎn)甡.信息熵在水系統(tǒng)中的應(yīng)用研究綜述[J].水文,2001,21(2):9-14(Wang Dong,Zhu Yuanshen.Informational Entropy and the State-of-the-Art of Its Application in Hydrology,Water Resources and Water Environment[J].Hydrology,2001,21(2):9-14)

      [4]李海林,楊麗彬.時(shí)間序列數(shù)據(jù)降維和特征表示方法[J].控制與決策,2013,28(11):1 718-1 722(Li Hailin,Yang Libin.Method of Dimensionality Reduction and Feature Representation for Time Series[J].Control and Decision,2013,28(11):1 718-1 722)

      [5]任江濤,何武,印鑒,等.一種時(shí)間序列快速分段及符號(hào)化方法[J].計(jì)算機(jī)科學(xué),2005,32(9):166-169(Ren Jiangtao,He Wu,Yin Jian,et al.A Fast Time Series Segmentation and Symbolization Method[J].Computer Science,2005,32(9):166-169)

      [6]鐘清流,蔡自興.基于統(tǒng)計(jì)特征的時(shí)序數(shù)據(jù)符號(hào)化算法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(10):1 857-1 864(Zhong Qingliu,Cai Zixing.The Symbolic Algorithm for Time Series Data Based on Statistic Feature[J].Chinese Journal of Computers,2008,31(10):1 857-1 864)

      猜你喜歡
      前兆符號(hào)化信息熵
      基于信息熵可信度的測試點(diǎn)選擇方法研究
      小學(xué)數(shù)學(xué)教學(xué)中滲透“符號(hào)化”思想的實(shí)踐研究
      哪些現(xiàn)象是地震前兆
      基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
      電子測試(2017年12期)2017-12-18 06:35:48
      關(guān)于一階邏輯命題符號(hào)化的思考
      一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
      現(xiàn)代流行服飾文化視閾下的符號(hào)化消費(fèi)
      基于信息熵的IITFN多屬性決策方法
      右肝區(qū)不適或疼痛是肝癌表現(xiàn)的前兆嗎
      肝博士(2015年2期)2015-02-27 10:49:46
      騰沖地電場震前的前兆異常分析
      地震研究(2014年3期)2014-02-27 09:30:57
      文安县| 烟台市| 南宁市| 疏勒县| 四川省| 姜堰市| 永登县| 峡江县| 阿巴嘎旗| 阳泉市| 德令哈市| 邵武市| 吴川市| 德化县| 延川县| 阿城市| 和田县| 卫辉市| 定襄县| 克东县| 个旧市| 图木舒克市| 平阳县| 台东市| 清苑县| 登封市| 岫岩| 达日县| 景谷| 扶风县| 安福县| 湘西| 英山县| 醴陵市| 乌苏市| 开阳县| 京山县| 峨眉山市| 武冈市| 福安市| 分宜县|