• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      時序數(shù)據(jù)庫在海量地震波形數(shù)據(jù)分布式存儲與處理中的應(yīng)用初探

      2022-02-03 02:03:10陳通韓雪君馬延路
      中國地震 2022年4期
      關(guān)鍵詞:臺網(wǎng)臺站時序

      陳通 韓雪君 馬延路

      中國地震臺網(wǎng)中心,北京 100045

      0 引言

      近幾年,隨著國家對防震減災(zāi)要求不斷提高,我國先后實(shí)施了多個大型地震監(jiān)測工程項(xiàng)目,優(yōu)化和加密觀測臺網(wǎng)和儀器。同時,隨著物聯(lián)網(wǎng)、云計(jì)算和地震預(yù)警技術(shù)的發(fā)展,更多非傳統(tǒng)地震計(jì)類型的地面運(yùn)動傳感器的數(shù)據(jù)接入地震臺網(wǎng),用于地震實(shí)時監(jiān)測和預(yù)警。國家地震烈度速報與預(yù)警工程建設(shè)完成后,地震監(jiān)測臺網(wǎng)中的臺站數(shù)量將由約1300個擴(kuò)充至15000個以上,其匯入中國地震臺網(wǎng)中心的地震波形數(shù)據(jù)也將增長一個數(shù)量級,由約40G/天增至超過400G/天。因此,在原有單臺服務(wù)器上存儲和處理地震數(shù)據(jù)的方式已不適用,針對海量數(shù)據(jù)的匯入,探索分布式的數(shù)據(jù)存儲和處理已事在必行。

      傳統(tǒng)的地震波形數(shù)據(jù)存儲方式一般將連續(xù)波形數(shù)據(jù)記錄以天為單位進(jìn)行分割,將每天每個臺站每個分量上的記錄保存為一個miniSEED文件,這些文件按照“臺網(wǎng).臺站.位置.通道.類型.年.天”的格式命名,并以“/年/臺網(wǎng)代碼/臺站代碼/通道.數(shù)據(jù)類型/文件名”的樹形目錄方式組織,存儲于文件系統(tǒng)中。為了便于查詢使用,可同時在關(guān)系型數(shù)據(jù)庫中構(gòu)建數(shù)據(jù)文件的起始時間、路徑位置等信息表和數(shù)據(jù)包索引表。在請求數(shù)據(jù)時,可以Web服務(wù)接口或人工查詢方式獲得所需臺站一定時間范圍內(nèi)的數(shù)據(jù)文件位置,進(jìn)而下載數(shù)據(jù)進(jìn)行處理。

      當(dāng)數(shù)據(jù)量激增后,數(shù)據(jù)處理效率受限于數(shù)據(jù)獲取的快慢,而獲取數(shù)據(jù)的速度依賴于數(shù)據(jù)存儲方式,傳統(tǒng)以文件形式將全部數(shù)據(jù)集中存儲于大的磁盤陣列的方式,其處理效率會受限于服務(wù)器讀寫磁盤的速率。大量數(shù)據(jù)傳輸回本地既需要較長的傳輸時間,又給本地計(jì)算機(jī)處理增加了壓力。近年發(fā)展的基于Hadoop分布式HDFS文件系統(tǒng)和HBASE分布式數(shù)據(jù)庫,將數(shù)據(jù)分散到集群不同節(jié)點(diǎn)上分別存儲,能夠很好地解決地震數(shù)據(jù)存儲容量不斷擴(kuò)張和數(shù)據(jù)高可用的問題?;贛apReduce、Spark等分布式并行數(shù)據(jù)處理平臺,可將數(shù)據(jù)處理算法和模塊以任務(wù)方式提交至數(shù)據(jù)存儲所在的節(jié)點(diǎn)上進(jìn)行分布式計(jì)算,有效解決大量數(shù)據(jù)傳輸瓶頸和單臺服務(wù)器處理能力有限的問題。對于實(shí)時數(shù)據(jù),Kafka、FLINK、Spark Streaming等流式處理框架能夠分布式處理高流量、高吞吐量數(shù)據(jù),進(jìn)而降低實(shí)時處理延遲。Addair等(2014)和Magana-Zook等(2016)使用Hadoop、MapReduce、Spark對離線地震波形數(shù)據(jù)進(jìn)行分布式存儲,并以此為基礎(chǔ)開展波形互相關(guān)、數(shù)據(jù)質(zhì)量分析等分布式處理研究;Junek等(2017)在Hadoop架構(gòu)上,使用Accumulo分布式數(shù)據(jù)庫來替代miniSEED文件式存儲并進(jìn)行分布式處理分析;劉堅(jiān)等(2015)、王丹寧等(2016)、郭凱等(2017)和單維鋒等(2019)也分別針對地震波形數(shù)據(jù),開展了基于Hadoop、HBase、OpenTSDB、Spark等通用大數(shù)據(jù)平臺對地震波形數(shù)據(jù)存儲與分析處理的研究。這些通用的大數(shù)據(jù)平臺應(yīng)用范圍廣,無論結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)均能處理,盡管可以直接將其應(yīng)用于存儲和處理地震波形數(shù)據(jù),但這些平臺并未針對時間序列形式的地震波形數(shù)據(jù)進(jìn)行優(yōu)化,且平臺涉及的軟件系統(tǒng)種類較多、關(guān)系復(fù)雜、學(xué)習(xí)曲線陡峭,無論是存儲還是處理地震波形數(shù)據(jù)效率均較低。

      針對海量地震專業(yè)波形數(shù)據(jù)的存儲和處理難題,本文嘗試一種輕量級時序數(shù)據(jù)庫技術(shù),通過分析比較目前3個廣泛使用的國產(chǎn)時序數(shù)據(jù)庫系統(tǒng)的特點(diǎn),提出基于時序數(shù)據(jù)庫的地震波形數(shù)據(jù)存儲和處理的技術(shù)方案,經(jīng)過開發(fā)、測試和初步應(yīng)用,能夠較好地解決波形數(shù)據(jù)量激增所帶來的存儲和處理瓶頸,為未來地震預(yù)警中心海量波形數(shù)據(jù)的高效存儲和處理探索新途徑。

      1 時序數(shù)據(jù)庫的技術(shù)特點(diǎn)

      時序數(shù)據(jù)庫已廣泛應(yīng)用于物聯(lián)網(wǎng)、車聯(lián)網(wǎng)等領(lǐng)域,用于存儲儀器設(shè)備的監(jiān)控和實(shí)時采樣數(shù)據(jù)。其是一種專用于存儲時間序列類型數(shù)據(jù)的數(shù)據(jù)庫,通常將數(shù)據(jù)按照產(chǎn)生的時間順序排列,構(gòu)造“時間戳|采樣值”對,按設(shè)備編號以列的形式存儲在不同表中,每張表及其多個備份分布式保存在多個服務(wù)器節(jié)點(diǎn)的多塊硬盤中。作為一種新興技術(shù),其具備大數(shù)據(jù)技術(shù)平臺的基本特征,如支持集群高可用,當(dāng)數(shù)據(jù)庫的部分服務(wù)器節(jié)點(diǎn)宕機(jī)后系統(tǒng)仍可用,保證數(shù)據(jù)完整和持續(xù)提供數(shù)據(jù)服務(wù);支持集群節(jié)點(diǎn)水平擴(kuò)展,在數(shù)據(jù)量增長后,通過簡單的增加節(jié)點(diǎn)自動提升存儲和處理能力;支持分布式處理,使用各節(jié)點(diǎn)數(shù)據(jù)及其副本進(jìn)行在線查詢和計(jì)算,大大提高數(shù)據(jù)查詢和計(jì)算效率。同時,時序數(shù)據(jù)庫可針對時序數(shù)據(jù)存儲和處理進(jìn)行優(yōu)化(如按時間索引和多維度分區(qū)分表等)和預(yù)計(jì)算,相較于關(guān)系型數(shù)據(jù)庫對時序數(shù)據(jù)的存儲和處理,檢索與處理效率大大提高。

      目前最為流行的時序數(shù)據(jù)庫為InfluxDB,但近幾年來國內(nèi)也涌現(xiàn)了諸如TDengine、DolphinDB、IoTDB等優(yōu)秀的自主研發(fā)的時序數(shù)據(jù)庫產(chǎn)品,其在讀寫、聚合查詢、壓縮性能等方面均達(dá)到或超過InfluxDB,且不同于以往的實(shí)時數(shù)據(jù)庫一般只支持一主多備,現(xiàn)在的時序數(shù)據(jù)庫支持集群和線性擴(kuò)展,極大增強(qiáng)了數(shù)據(jù)存儲和處理能力(表1)。

      表1 TDengine、DolphinDB、IoTDB基本情況

      分析 3 款國產(chǎn)時序數(shù)據(jù)庫,總結(jié)時序數(shù)據(jù)庫具備適用于地震波形數(shù)據(jù)的以下技術(shù)特點(diǎn):

      (1)數(shù)據(jù)高速寫入能力。由于地震臺站持續(xù)產(chǎn)生地面振動的海量波形數(shù)據(jù),且在時序數(shù)據(jù)庫中以“時間戳|采樣值”兩列的數(shù)據(jù)結(jié)構(gòu)來存儲,數(shù)據(jù)量不斷增大。按照預(yù)警工程項(xiàng)目建設(shè)完成后實(shí)時接入1.5萬個臺站的4.5萬道數(shù)據(jù)流、每道流每秒采集100條數(shù)據(jù)記錄測算,數(shù)據(jù)庫需實(shí)現(xiàn)每秒450萬條記錄的高速寫入。時序數(shù)據(jù)庫一般采用內(nèi)存表或內(nèi)置消息中間件緩存實(shí)時到達(dá)的數(shù)據(jù),再執(zhí)行并行批量統(tǒng)一落盤的機(jī)制,保證了每秒數(shù)百萬條記錄的高速寫入。

      (2)數(shù)據(jù)的高壓縮率。地震數(shù)據(jù)的永久存儲一般按年計(jì),通過對列式存儲的時序數(shù)據(jù)進(jìn)行壓縮,進(jìn)而減少硬盤空間需求,亦或在同等硬盤容量下可存儲更多數(shù)據(jù)。由于地震波形數(shù)據(jù)均為等間隔采樣,且在無地震發(fā)生的情況下噪音的數(shù)值一般變化不大,這使得時序數(shù)據(jù)庫能夠高效壓縮數(shù)據(jù)成為可能。

      (3)快速響應(yīng)能力。時序數(shù)據(jù)庫通過數(shù)據(jù)分級存儲方式達(dá)到快速響應(yīng)的能力。實(shí)時熱數(shù)據(jù)存儲在內(nèi)置消息隊(duì)列或內(nèi)存緩存中,近實(shí)時溫數(shù)據(jù)保存在SSD硬盤中,以及大量的歷史冷數(shù)據(jù)保存在機(jī)械硬盤中,三類數(shù)據(jù)的存儲、檢索依賴時序數(shù)據(jù)庫的存儲引擎自動管理,實(shí)現(xiàn)自動轉(zhuǎn)存、統(tǒng)一查詢等。

      (4)時序數(shù)據(jù)處理的多功能集成。時序數(shù)據(jù)庫系統(tǒng)能將數(shù)據(jù)庫、消息隊(duì)列、內(nèi)存緩存、流式計(jì)算等功能融為一體,通過存儲和處理引擎的管理和調(diào)度,既實(shí)現(xiàn)了實(shí)時數(shù)據(jù)的計(jì)算處理、結(jié)果的永久保存,又實(shí)現(xiàn)了歷史數(shù)據(jù)的查詢和批量處理。多功能集成減少了數(shù)據(jù)在消息隊(duì)列、數(shù)據(jù)庫、流計(jì)算等不同軟件系統(tǒng)間傳輸所帶來的性能和時間損耗,為實(shí)時全量數(shù)據(jù)處理提供了更簡捷的解決方案。此外,由于無需集成Kafka、Redis、HBase、Spark、HDFS等大數(shù)據(jù)通用軟件,開發(fā)運(yùn)維復(fù)雜度也大幅降低。

      (5)支持基于時間窗的聚合函數(shù)和用戶自定義函數(shù)或插件。在實(shí)時/歷史地震數(shù)據(jù)處理時,通常會使用一段固定時間長度的波形數(shù)據(jù)進(jìn)行計(jì)算,如使用最大值函數(shù)(Max)計(jì)算固定時間窗內(nèi)地面運(yùn)動的峰值速度。時序數(shù)據(jù)庫為用戶提供自定義函數(shù)(UDF)或插件,可在數(shù)據(jù)庫內(nèi)實(shí)現(xiàn)處理地震數(shù)據(jù)所需要的函數(shù),并通過數(shù)據(jù)庫腳本,將相關(guān)處理函數(shù)串聯(lián)形成較復(fù)雜的地震數(shù)據(jù)處理流程。

      (6)支持多種觸發(fā)機(jī)制和有歷史狀態(tài)的流式計(jì)算。地震波形數(shù)據(jù)尤其是實(shí)時波形數(shù)據(jù)的計(jì)算,經(jīng)常依賴時間觸發(fā)或數(shù)據(jù)到達(dá)觸發(fā)相關(guān)的處理,其觸發(fā)機(jī)制可總結(jié)為以下幾類:①數(shù)據(jù)事件觸發(fā),例如每當(dāng)流入一個波形數(shù)據(jù)包時觸發(fā)處理(適用于時效性較高的震相檢測業(yè)務(wù));②時間窗觸發(fā),例如設(shè)定1s時間窗,每當(dāng)流入的最新數(shù)據(jù)達(dá)到1s后便觸發(fā)相應(yīng)計(jì)算(適用于每秒地震動峰值計(jì)算業(yè)務(wù));③定時觸發(fā),例如每天0:00、0:05、0:10、…、23:55相隔5min觸發(fā)啟動網(wǎng)絡(luò)傳輸延時的統(tǒng)計(jì)計(jì)算。觸發(fā)后的處理計(jì)算不僅依賴于當(dāng)前的輸入數(shù)據(jù),而且能保存之前不間斷處理過程產(chǎn)生的歷史狀態(tài),例如常用的實(shí)時震相檢測算法STA/LTA(Allen,1982)、FilterPicker(Lomax et al,2012)均涉及新輸入數(shù)據(jù)加歷史狀態(tài)的迭代計(jì)算,隨著新數(shù)據(jù)流入的觸發(fā),震相檢測程序既輸出新的特征函數(shù)值,同時也更新迭代公式中的中間變量,這些中間變量作為歷史狀態(tài)值保存,與之后新到的數(shù)據(jù)一起進(jìn)入新一輪迭代。時序數(shù)據(jù)庫的實(shí)時數(shù)據(jù)和歷史狀態(tài)數(shù)據(jù)的緩存技術(shù)、數(shù)據(jù)訂閱機(jī)制以及支持多種觸發(fā)機(jī)制的計(jì)算引擎能夠支撐較為復(fù)雜的地震實(shí)時處理需求。

      中國地震臺網(wǎng)中心的地震波形數(shù)據(jù)主要是指由國家地震臺站、各省區(qū)域地震臺網(wǎng)等地震觀測網(wǎng)絡(luò)系統(tǒng)中地震計(jì)采集并傳回中心的數(shù)據(jù),其具有典型的時序數(shù)據(jù)特征:①數(shù)據(jù)按時間順序等間隔產(chǎn)生、持續(xù)傳輸并存儲、一般無更新和刪除操作;②采樣頻率快,10ms間隔采樣一次;③地震傳感器多、數(shù)據(jù)流量大,目前接入超過15000個臺站,傳回的未經(jīng)任何處理的原始miniSEED文件數(shù)據(jù)量超過1T/天;④一次讀取的數(shù)據(jù)量大,繪制一條24h波形曲線需要讀取860萬條采樣點(diǎn)數(shù)據(jù)。地震波形數(shù)據(jù)是開展地震監(jiān)測預(yù)警、數(shù)據(jù)分析與挖掘、地震異常研判等應(yīng)用的基礎(chǔ)材料,數(shù)據(jù)應(yīng)用的基本需求包括地震數(shù)據(jù)歸檔存儲和檢索、歷史地震事件波形分析、實(shí)時波形數(shù)據(jù)處理等。結(jié)合上述時序數(shù)據(jù)庫特點(diǎn)和地震波形數(shù)據(jù)應(yīng)用需求,本文設(shè)計(jì)并實(shí)現(xiàn)了針對地震波形數(shù)據(jù)和地震業(yè)務(wù)需求的基于時序數(shù)據(jù)庫技術(shù)的存儲和處理系統(tǒng)。

      2 系統(tǒng)設(shè)計(jì)方案

      地震時序數(shù)據(jù)庫系統(tǒng)架構(gòu)分為三層,總體框架如圖1所示。其中,最下層為數(shù)據(jù)層,包括多塊本地磁盤,用于存儲地震波形數(shù)據(jù)和描述數(shù)據(jù)包的元數(shù)據(jù)(如數(shù)據(jù)包到達(dá)時間、包中采樣起始時間、實(shí)際采樣點(diǎn)個數(shù)等)。中間層為時序數(shù)據(jù)庫的核心組件,包括內(nèi)存表和消息隊(duì)列,可為實(shí)時數(shù)據(jù)接入提供緩存空間,既便于計(jì)算引擎開展實(shí)時處理,也便于存儲引擎并行將數(shù)據(jù)在磁盤中永久存儲;計(jì)算引擎實(shí)現(xiàn)了基于數(shù)據(jù)流的觸發(fā)計(jì)算、滑動窗計(jì)算等功能,存儲引擎實(shí)現(xiàn)了磁盤的高速讀寫和數(shù)據(jù)快速檢索。上層為業(yè)務(wù)層,其中時序數(shù)據(jù)庫中提供的自定義函數(shù)或插件功能作為計(jì)算和存儲引擎的程序接口,允許用戶定制開發(fā)數(shù)據(jù)庫內(nèi)置的處理函數(shù)和插件,再通過腳本和SQL查詢語句的混合編程方法,可將多個自定義函數(shù)及SQL檢索的命令串聯(lián)形成較復(fù)雜的地震數(shù)據(jù)處理過程。目前,業(yè)務(wù)層包含地震流數(shù)據(jù)接入、解析與存儲模塊,元數(shù)據(jù)存儲模塊,波形數(shù)據(jù)處理工具模塊,實(shí)時震相到時拾取模塊,歷史數(shù)據(jù)三分量能量比計(jì)算模塊等5個主要應(yīng)用模塊,模塊具體功能如下:

      圖1 地震時序數(shù)據(jù)庫系統(tǒng)的總體框架

      (1)地震流數(shù)據(jù)接入、解析與存儲模塊實(shí)現(xiàn)從地震實(shí)時流服務(wù)器接收地震波形數(shù)據(jù)包,并從miniSEED數(shù)據(jù)包中解析出每個采樣點(diǎn)的數(shù)值,以“時間戳|采樣值”對的形式存入內(nèi)存表或消息隊(duì)列,之后存儲引擎自動轉(zhuǎn)移存儲至硬盤中。

      (2)元數(shù)據(jù)存儲模塊負(fù)責(zé)存儲每個入庫的miniSEED數(shù)據(jù)包的描述信息,包括數(shù)據(jù)包的ID號、數(shù)據(jù)采集的起始時間、數(shù)據(jù)包到達(dá)服務(wù)器時間、包內(nèi)實(shí)際采樣點(diǎn)數(shù)、包內(nèi)預(yù)期采樣點(diǎn)數(shù)(miniSEED包頭段信息中標(biāo)識的采樣點(diǎn)數(shù))等,這些信息的留存使得分析數(shù)據(jù)實(shí)時傳輸延時、亂序等情況成為可能。

      (3)波形數(shù)據(jù)處理工具模塊將常用的地震波形處理函數(shù),如濾波、去均值、去趨勢、互相關(guān)等集成至數(shù)據(jù)庫處理工具集中,可直接在類SQL語句中使用這些處理函數(shù),函數(shù)的實(shí)現(xiàn)采用時間閾迭代公式,既可應(yīng)用于實(shí)時數(shù)據(jù),也可以對離線數(shù)據(jù)進(jìn)行處理。

      (4)實(shí)時震相到時拾取模塊,將基于多頻帶濾波方法的FilterPicker震相拾取程序作為計(jì)算插件集成至數(shù)據(jù)庫中,可對實(shí)時入庫的數(shù)據(jù)包進(jìn)行快速震相到時檢測。當(dāng)數(shù)據(jù)包流量較大時,計(jì)算引擎可觸發(fā)多個FilterPicker模塊并行處理,并將檢測出的震相到時存入相應(yīng)的表中。

      (5)歷史數(shù)據(jù)三分量能量比計(jì)算模塊,三分量能量比計(jì)算同一臺站一天內(nèi)每5min窗口東西、南北、上下3個分量能量中每2個分量的比值,保留這些能量比的中位值,通過分析中位值隨時間的變化來判定地震儀器是否正常工作(Pedersen et al,2020)。

      3 系統(tǒng)測試和功能檢驗(yàn)

      在2臺服務(wù)器上搭建地震時序數(shù)據(jù)庫測試系統(tǒng),其中一臺服務(wù)器既作為管理節(jié)點(diǎn),也作為數(shù)據(jù)節(jié)點(diǎn),另一臺服務(wù)器僅作為數(shù)據(jù)節(jié)點(diǎn),服務(wù)器配置如表2所示。測試實(shí)時接入地震預(yù)警臺網(wǎng)15000余個臺站、45000多道數(shù)據(jù)流的數(shù)據(jù)。雖然測試使用的服務(wù)器數(shù)目較少,但每臺服務(wù)器上安裝了多塊硬盤,通過I/O高并行度來提高數(shù)據(jù)庫的讀寫速度。另外,服務(wù)器配備了一塊讀寫速度較快的SSD硬盤作為內(nèi)存與硬盤之間過渡的存儲介質(zhì),用于提高系統(tǒng)整體的響應(yīng)速率。

      表2 數(shù)據(jù)庫服務(wù)器硬件配置

      3.1 波形數(shù)據(jù)與元數(shù)據(jù)存儲

      地震波形數(shù)據(jù)是觀測站點(diǎn)處傳感器記錄的地面運(yùn)動速度或加速度通過數(shù)據(jù)采集設(shè)備放大和數(shù)字化后得到的。通常每個觀測點(diǎn)產(chǎn)出2個水平向、1個垂直向共3個通道的數(shù)據(jù)流。站點(diǎn)的位置由其所屬臺網(wǎng)代碼、臺站代碼和測點(diǎn)位置號碼決定。這一數(shù)據(jù)流的臺網(wǎng)代碼、臺站代碼、位置號碼、通道號碼四分量標(biāo)識存在于每個數(shù)據(jù)包的包頭中(中國地震局,2003)。在地震時序數(shù)據(jù)庫中,針對每一道數(shù)據(jù)流建立一張數(shù)據(jù)表,如表3所示,表名由臺網(wǎng)(network)、臺站(station)、位置號(location)、通道號(channel)4個分量聯(lián)合組成(如JL_ZXT_00_SHE);表中僅有兩列,一列為時間戳,另一列為該時間點(diǎn)的采樣值。地震波形數(shù)據(jù)包的元數(shù)據(jù)也獨(dú)立成表(表4),表中每一個數(shù)據(jù)包為一行,表中各列包含數(shù)據(jù)包的多種描述信息,包括數(shù)據(jù)采集時間、數(shù)據(jù)接收時間、包內(nèi)實(shí)際采樣點(diǎn)數(shù)、包內(nèi)預(yù)期采樣點(diǎn)數(shù)。整個系統(tǒng)共有45000余個數(shù)據(jù)表,存儲45000余個地震數(shù)據(jù)流;共有45000余個元數(shù)據(jù)表,存儲45000余個數(shù)據(jù)流中每個數(shù)據(jù)包的描述信息。

      表3 地震波形數(shù)據(jù)存儲表(以表JL_ZXT_00_SHE為例)

      表4 地震波形元數(shù)據(jù)存儲表(以表JL_ZXT_00_SHE_M(jìn)ETA為例)

      我們在TDengine時序數(shù)據(jù)庫平臺上研發(fā)了從地震預(yù)警快流服務(wù)器通過HTTP協(xié)議獲取地震數(shù)據(jù)包的程序,解析每個miniSEED包所屬的“臺網(wǎng)/臺站/位置號/通道號”和采樣起始時間、采樣率等信息,根據(jù)“臺網(wǎng)/臺站/位置號/通道號”標(biāo)識將波形數(shù)據(jù)寫入對應(yīng)的數(shù)據(jù)表中(表3),并將數(shù)據(jù)包到達(dá)時間等信息寫入元數(shù)據(jù)表中(表4)。

      實(shí)時數(shù)據(jù)流接收和存儲模塊連續(xù)運(yùn)行15天,每天入庫約4000億采樣點(diǎn)的記錄,與預(yù)警系統(tǒng)歸檔的數(shù)據(jù)文件對比,沒有數(shù)據(jù)缺失。且數(shù)據(jù)庫文件與歸檔的miniSEED格式文件占用磁盤空間接近,以四川九寨溝臺三分量30天連續(xù)波形歷史數(shù)據(jù)為例,miniSEED文件大小約693MB,對應(yīng)數(shù)據(jù)庫文件大小約623MB,顯示波形數(shù)據(jù)存儲具備較好的壓縮性能。

      3.2 地震波形數(shù)據(jù)連續(xù)率統(tǒng)計(jì)

      波形數(shù)據(jù)連續(xù)率和延時情況是衡量數(shù)據(jù)質(zhì)量的重要指標(biāo),只有當(dāng)?shù)卣鹋_站觀測的波形數(shù)據(jù)連續(xù)率較高、延時較低時,才能保障監(jiān)測預(yù)警業(yè)務(wù)的正常運(yùn)行。在統(tǒng)計(jì)預(yù)警地震波形數(shù)據(jù)的連續(xù)率時發(fā)現(xiàn),一般臺站(傳感器為簡易烈度計(jì))的波形數(shù)據(jù)存在重疊和缺失,因此在統(tǒng)計(jì)數(shù)據(jù)連續(xù)率之前,必須對數(shù)據(jù)包進(jìn)行排序和去重處理。原有的業(yè)務(wù)模塊采用了離線的工作模式,積累一天全部臺網(wǎng)所有臺站的連續(xù)波形數(shù)據(jù)包后再進(jìn)行批量計(jì)算。我們在地震時序數(shù)據(jù)庫系統(tǒng)中實(shí)現(xiàn)了連續(xù)率的實(shí)時統(tǒng)計(jì)計(jì)算,在波形數(shù)據(jù)包入庫時,已將“時間戳|采樣值”對形式的數(shù)據(jù)進(jìn)行了去重和排序,且將數(shù)據(jù)按臺站/時間行分塊存儲,并在分塊的元數(shù)據(jù)信息中保存了采樣點(diǎn)數(shù)信息。因此,在統(tǒng)計(jì)數(shù)據(jù)一天的連續(xù)率時,可使用時序數(shù)據(jù)庫中的count函數(shù)快速查詢到指定臺站和指定時間段內(nèi)采樣點(diǎn)個數(shù)。由于count函數(shù)通過查詢分塊的元數(shù)據(jù)集中采樣點(diǎn)數(shù)信息并求和實(shí)現(xiàn),比直接統(tǒng)計(jì)某一臺站表中的行數(shù)更快。圖2顯示2021年8月29日地震預(yù)警先行先試的5個省和隨機(jī)抽取的5個省所有分量數(shù)據(jù)(共18870道波形)的3個百分位的連續(xù)率,統(tǒng)計(jì)用時僅需90s,而原有離線文件處理方式則耗時超過30min。

      注:SC四川,YN云南,BJ北京,HE河北,TJ天津,F(xiàn)J福建,GD廣東,XJ新疆,GS甘肅,JL吉林。

      3.3 數(shù)據(jù)包到達(dá)延時統(tǒng)計(jì)

      使用地震時序數(shù)據(jù)庫中數(shù)據(jù)包的元數(shù)據(jù)表(表4),可直接統(tǒng)計(jì)每個數(shù)據(jù)包的延時,計(jì)算公式為:數(shù)據(jù)包延時=數(shù)據(jù)包到達(dá)時間-包中最后1個采樣點(diǎn)時間。

      使用TDengine和DolphinDB兩個時序數(shù)據(jù)庫系統(tǒng)中存儲的2021年8月16—21日每天12:00—13:00數(shù)據(jù)包的元數(shù)據(jù)表統(tǒng)計(jì)延時,并按照每道數(shù)據(jù)流中數(shù)據(jù)流的90%分位延時值的分布繪制小提琴圖(圖3),可以看出2個時序數(shù)據(jù)庫的數(shù)據(jù)包延時絕大多數(shù)在2s以內(nèi)。

      圖3 2021年8月16—21日12:00—13:00數(shù)據(jù)流延時分布

      3.4 FilterPicker模塊檢測

      將FilterPicker作為插件集成至?xí)r序數(shù)據(jù)庫中,對流入數(shù)據(jù)庫的全量實(shí)時數(shù)據(jù)進(jìn)行震相到時檢測,并將檢測結(jié)果按照每個分量一張表存入相應(yīng)表中。圖4展示了QH.MAD.00.BHZ分量震相到時檢測結(jié)果,結(jié)果表分為2列,一列為震相到時時間,另一列為震相到時檢測的時間。

      圖4 FilterPicker插件實(shí)時檢測震相到時結(jié)果

      將地震時序數(shù)據(jù)庫中QH.MAD.00.BHZ分量2021年6月7日0時至8時的FilterPicker檢測震相結(jié)果與FilterPicker源程序?qū)ο嗤x線數(shù)據(jù)震相檢測結(jié)果進(jìn)行對比(圖5),可以看出實(shí)時數(shù)據(jù)和離線數(shù)據(jù)檢測結(jié)果基本一致,F(xiàn)ilterPicker源程序離線檢測的震相到時為113個,時序數(shù)據(jù)庫Filterpicker插件實(shí)時檢測的震相到時為119個,其中113個與離線計(jì)算結(jié)果一致,6個為實(shí)時計(jì)算獨(dú)有的震相到時。

      注:(a)離線波形數(shù)據(jù)和FilterPicker離線檢測的震相到時(紅色短豎線);(b)時序數(shù)據(jù)庫實(shí)時波形數(shù)據(jù)和FilterPicker實(shí)時檢測的震相到時(紅色短豎線),紅圈內(nèi)為實(shí)時檢測獨(dú)有的震相到時。

      3.5 地震波形三分量能量比計(jì)算模塊測試

      對2012—2019年四川九寨溝臺歷史波形數(shù)據(jù)進(jìn)行能量比計(jì)算,首先將離線歷史波形數(shù)據(jù)導(dǎo)入時序數(shù)據(jù)庫,然后應(yīng)用波形處理工具模塊中的濾波、去趨勢等函數(shù)對數(shù)據(jù)進(jìn)行預(yù)處理,之后使用時序數(shù)據(jù)庫的聚合功能,將連續(xù)波形以5min窗進(jìn)行分割,對每個窗口內(nèi)數(shù)據(jù)的采樣值進(jìn)行平方和的聚合計(jì)算,求出各分量能量平方和的比值,最后對一天內(nèi)288個5min窗口的比值再一次聚合取得中位數(shù)。地震時序數(shù)據(jù)庫在計(jì)算時,計(jì)算引擎采用map-reduce方法,將編寫好的處理腳本分發(fā)至各服務(wù)器節(jié)點(diǎn)并發(fā)處理分布在各自服務(wù)器自身硬盤上的數(shù)據(jù),計(jì)算結(jié)果如圖6所示??梢钥闯?015年8月和2017年7月出現(xiàn)能量比異常,對比臺站運(yùn)行維護(hù)記錄,同期均出現(xiàn)地震計(jì)故障、標(biāo)定異常的故障報告。

      圖6 2012—2019年四川九寨溝臺三分量能量比計(jì)算結(jié)果

      我們還對比了時序數(shù)據(jù)庫程序和原有串行程序計(jì)算波形數(shù)據(jù)三分量能量比的計(jì)算效率(表5),對比數(shù)據(jù)采用2017年8月四川九寨溝臺波形數(shù)據(jù),原有串行程序也運(yùn)行在時序數(shù)據(jù)庫的服務(wù)器節(jié)點(diǎn)上。實(shí)驗(yàn)表明,地震時序數(shù)據(jù)庫將波形數(shù)據(jù)分布式保存,地震數(shù)據(jù)處理算法在數(shù)據(jù)庫內(nèi)實(shí)現(xiàn)后,可充分利用多節(jié)點(diǎn)并行處理數(shù)據(jù)。另外,與大量數(shù)據(jù)相比,處理腳本屬輕量級,可以較快地分發(fā)到各個服務(wù)器節(jié)點(diǎn)上進(jìn)行處理計(jì)算,最后僅需返回最終計(jì)算結(jié)果,這種處理模式比原有地震業(yè)務(wù)先將所需大量波形數(shù)據(jù)下載至本地后再進(jìn)行離線計(jì)算的方式更有效率。

      表5 三分量能量比計(jì)算程序計(jì)算效率對比

      4 結(jié)語

      本文設(shè)計(jì)并實(shí)現(xiàn)了針對海量地震波形數(shù)據(jù)的地震時序數(shù)據(jù)庫系統(tǒng),其中包含多種地震業(yè)務(wù)功能模塊。海量地震波形數(shù)據(jù)分布式存儲在集群的各個硬盤上,處理程序也能夠分布式處理,大大提高了數(shù)據(jù)的存儲和計(jì)算效率。地震時序數(shù)據(jù)庫既擁有大數(shù)據(jù)集群系統(tǒng)的高可用性,同時又對地震波形數(shù)據(jù)的存儲和檢索進(jìn)行了優(yōu)化,對分析處理海量波形數(shù)據(jù)工作具有較好的應(yīng)用前景。

      猜你喜歡
      臺網(wǎng)臺站時序
      基于時序Sentinel-2數(shù)據(jù)的馬鈴薯遙感識別研究
      中國科學(xué)院野外臺站檔案工作回顧
      氣象基層臺站建設(shè)
      西藏科技(2021年12期)2022-01-17 08:46:38
      基于Sentinel-2時序NDVI的麥冬識別研究
      地球物理臺網(wǎng)儀器維修信息管理的研究與實(shí)現(xiàn)
      地震研究(2021年1期)2021-04-13 01:05:30
      推進(jìn)報臺網(wǎng)深度融合 做強(qiáng)區(qū)級融媒體中心
      傳媒評論(2018年10期)2019-01-17 01:33:16
      一種毫米波放大器時序直流電源的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:08
      西藏地震應(yīng)急流動臺網(wǎng)淺析
      西藏科技(2016年9期)2016-09-26 12:21:39
      MRG9000媒資衛(wèi)士在市級電視臺全臺網(wǎng)的應(yīng)用
      基層臺站綜合觀測業(yè)務(wù)管理之我見
      西藏科技(2015年6期)2015-09-26 12:12:13
      来宾市| 罗江县| 滁州市| 奉新县| 宜黄县| 朝阳县| 信丰县| 鞍山市| 叶城县| 宿松县| 托克托县| 富源县| 太湖县| 通榆县| 梅河口市| 金川县| 巢湖市| 平利县| 肇州县| 青神县| 凌源市| 麻城市| 定边县| 孝感市| 昆明市| 潞城市| 临朐县| 宜州市| 南通市| 会同县| 丹巴县| 临海市| 石狮市| 汶上县| 安顺市| 泾川县| 玛曲县| 甘孜| 宁武县| 体育| 扎鲁特旗|