• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)技術(shù)的量測(cè)數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)

      2016-12-10 01:16:45謝玉波
      無線互聯(lián)科技 2016年21期
      關(guān)鍵詞:測(cè)數(shù)據(jù)數(shù)據(jù)量批量

      猶 鋒,曹 健,謝玉波

      (國網(wǎng)電力科學(xué)研究院 江蘇瑞中數(shù)據(jù)股份有限公司,江蘇 南京 210000)

      基于大數(shù)據(jù)技術(shù)的量測(cè)數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)

      猶 鋒,曹 健,謝玉波

      (國網(wǎng)電力科學(xué)研究院 江蘇瑞中數(shù)據(jù)股份有限公司,江蘇 南京 210000)

      針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫用于電力信息系統(tǒng)量測(cè)數(shù)據(jù)處理效率低的問題,文章設(shè)計(jì)并實(shí)現(xiàn)了基于大數(shù)據(jù)技術(shù)的量測(cè)數(shù)據(jù)處理系統(tǒng)?;诜植际较㈥?duì)列技術(shù),該系統(tǒng)實(shí)現(xiàn)了大規(guī)模量測(cè)數(shù)據(jù)的緩沖接入;基于流計(jì)算技術(shù),提高了量測(cè)數(shù)據(jù)在入庫前的實(shí)時(shí)處理效率;設(shè)計(jì)了量測(cè)數(shù)據(jù)列式存儲(chǔ)模型,實(shí)現(xiàn)了大規(guī)模量測(cè)數(shù)據(jù)的高效存取。

      量測(cè)數(shù)據(jù);大數(shù)據(jù)技術(shù);列式存儲(chǔ)模型

      隨著智能電網(wǎng)信息化不斷發(fā)展,調(diào)度自動(dòng)化和采集監(jiān)測(cè)類系統(tǒng)積累了海量的電網(wǎng)量測(cè)數(shù)據(jù)[1],量測(cè)數(shù)據(jù)作為電網(wǎng)領(lǐng)域四大數(shù)據(jù)類型之一,是設(shè)備狀態(tài)監(jiān)測(cè)、輔助決策分析、大數(shù)據(jù)挖掘的重要基礎(chǔ),目前其采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ)。隨著大數(shù)據(jù)技術(shù)的不斷成熟,先進(jìn)的存儲(chǔ)與計(jì)算架構(gòu)與傳統(tǒng)架構(gòu)在性能和擴(kuò)展性上不斷拉開差距,采用傳統(tǒng)架構(gòu)的關(guān)系型數(shù)據(jù)庫逐漸暴露出技術(shù)不足與局限性,不能夠很好地支撐大數(shù)據(jù)環(huán)境下對(duì)量測(cè)數(shù)據(jù)的高效計(jì)算與深度挖掘。

      本文提出一種基于大數(shù)據(jù)技術(shù)的量測(cè)數(shù)據(jù)處理系統(tǒng)設(shè)計(jì),解決海量量測(cè)數(shù)據(jù)的數(shù)據(jù)接入、存儲(chǔ)、訪問難的問題。

      1 電網(wǎng)量測(cè)數(shù)據(jù)特點(diǎn)分析

      電網(wǎng)量測(cè)數(shù)據(jù)是一種具有明顯時(shí)序性的半結(jié)構(gòu)化數(shù)據(jù),可描述為三元組<DeviceID, TimeStamp, Value>,其中DeviceID,TimeStamp,Value分別表示設(shè)備ID、時(shí)間戳、值,主要由電力設(shè)備或儀表產(chǎn)生,隨著時(shí)間的推移,設(shè)備或儀表周期性輸出量測(cè)數(shù)據(jù),由采集系統(tǒng)收集并上傳到數(shù)據(jù)庫中。量測(cè)數(shù)據(jù)采集周期較為密集,由于量測(cè)點(diǎn)眾多,一般單個(gè)省電力公司每年產(chǎn)生量測(cè)數(shù)據(jù)量在10 TB以上,由于數(shù)據(jù)量巨大所以對(duì)數(shù)據(jù)處理系統(tǒng)性能要求非常高,主要體現(xiàn)在對(duì)海量數(shù)據(jù)的接入、存儲(chǔ)與查詢3方面。

      電網(wǎng)業(yè)務(wù)模型具有明顯的層次結(jié)構(gòu)如圖1所示,基于電網(wǎng)模型的量測(cè)數(shù)據(jù)業(yè)務(wù)應(yīng)用以批量和斷面兩種訪問方式為主,批量查詢即查詢某個(gè)設(shè)備在一段時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)值,斷面查詢即查詢某個(gè)時(shí)間點(diǎn)某個(gè)范圍內(nèi)所有設(shè)備產(chǎn)生的數(shù)據(jù)值。其中非周期性量測(cè)數(shù)據(jù)以批量查詢?yōu)橹?,固定周期量測(cè)數(shù)據(jù)以斷面查詢?yōu)橹???紤]到目前量測(cè)數(shù)據(jù)中固定周期數(shù)據(jù)(例如低電壓開關(guān)、低電壓線路、用戶表計(jì)的采集數(shù)據(jù))占絕大多數(shù),因而在存儲(chǔ)模型設(shè)計(jì)時(shí)應(yīng)充分滿足固定周期數(shù)據(jù)斷面查詢需求,兼顧批量查詢需求。

      圖1 電網(wǎng)模型示意圖

      2 系統(tǒng)設(shè)計(jì)

      2.1 系統(tǒng)總體架構(gòu)

      本系統(tǒng)主要由數(shù)據(jù)接入、實(shí)時(shí)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)訪問接口4大功能模塊組成,采用大數(shù)據(jù)技術(shù)中對(duì)應(yīng)的開源組件集成實(shí)現(xiàn)。其中數(shù)據(jù)接入由分布式消息隊(duì)列Kafka組件實(shí)現(xiàn);實(shí)時(shí)處理由分布式并行流計(jì)算框架Storm組件實(shí)現(xiàn);數(shù)據(jù)存儲(chǔ)由分布式列式存儲(chǔ)Hbase和緩存數(shù)據(jù)庫Redis以及關(guān)系型數(shù)據(jù)庫MYSQL實(shí)現(xiàn);數(shù)據(jù)訪問由結(jié)合量測(cè)數(shù)據(jù)特點(diǎn)的統(tǒng)一訪問接口UAPI組件實(shí)現(xiàn),整體架構(gòu)如圖2所示。

      系統(tǒng)運(yùn)行時(shí),數(shù)據(jù)源系統(tǒng)通過適配器接口將數(shù)據(jù)傳輸?shù)終afka消息隊(duì)列中,適配器在此過程中對(duì)通信協(xié)議進(jìn)行轉(zhuǎn)換以及對(duì)原始數(shù)據(jù)進(jìn)行規(guī)整;Kafka具有緩沖作用,對(duì)數(shù)據(jù)進(jìn)行高速緩沖,防止數(shù)據(jù)波峰沖垮后續(xù)組件,并將數(shù)據(jù)按照規(guī)則存儲(chǔ)于相應(yīng)的隊(duì)列中,Storm從Kafka中按照隊(duì)列進(jìn)行數(shù)據(jù)訂閱,并將不同隊(duì)列的數(shù)據(jù)應(yīng)用于預(yù)設(shè)的計(jì)算程序中進(jìn)行處理,計(jì)算處理后的數(shù)據(jù)按照業(yè)務(wù)需求存儲(chǔ)于Hbase和Redis中,如果只產(chǎn)生統(tǒng)計(jì)性結(jié)果則存儲(chǔ)于MYSQL中。業(yè)務(wù)應(yīng)用通過統(tǒng)一訪問接口UAPI訪問處理后的數(shù)據(jù),進(jìn)行展示或應(yīng)用,UAPI屏蔽了底層的存儲(chǔ)模型以及不同存儲(chǔ)方式間的調(diào)度復(fù)雜性,對(duì)上層應(yīng)用起到透明訪問作用。

      圖2 系統(tǒng)總體架構(gòu)圖

      2.2 數(shù)據(jù)接入

      由于生產(chǎn)系統(tǒng)眾多,數(shù)據(jù)接口實(shí)現(xiàn)方式千差萬別,量測(cè)數(shù)據(jù)接入系統(tǒng)前需要定制適配器與數(shù)據(jù)源系統(tǒng)對(duì)接,一是用于協(xié)議轉(zhuǎn)換,二是用于對(duì)生數(shù)據(jù)進(jìn)行初步加工,使其格式統(tǒng)一。適配器一端連接數(shù)據(jù)源系統(tǒng),一段連接量測(cè)數(shù)據(jù)處理系統(tǒng)的Kafka組件,根據(jù)接入數(shù)據(jù)類型的不同在Kafka上配置不同的消息隊(duì)列,一個(gè)數(shù)據(jù)源系統(tǒng)接入的量測(cè)數(shù)據(jù)類型可能有多種,即一個(gè)數(shù)據(jù)源系統(tǒng)可能對(duì)應(yīng)Kafka中的多個(gè)隊(duì)列。由于Kafka是分布式消息隊(duì)列,具有異步通信特點(diǎn),其吞吐量非常大,可以同時(shí)接入多套數(shù)據(jù)源系統(tǒng),并且能夠?qū)Ψ逯稻薮蟮臄?shù)據(jù)起到緩沖作用,避免對(duì)整個(gè)系統(tǒng)構(gòu)成沖擊。

      2.3 實(shí)時(shí)計(jì)算

      在量測(cè)數(shù)據(jù)入庫前,采用Storm組件對(duì)數(shù)據(jù)流進(jìn)行流計(jì)算。由于Kafka中不同消息隊(duì)列對(duì)應(yīng)不同的量測(cè)數(shù)據(jù)類型,處理方式千差萬別,所以需要根據(jù)業(yè)務(wù)需求開發(fā)相應(yīng)的Storm處理邏輯。Strom作為一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng)[2],提供了很好的并行流計(jì)算框架,可以對(duì)數(shù)據(jù)進(jìn)行分布式加工處理,支持大規(guī)模數(shù)據(jù)的實(shí)時(shí)計(jì)算。

      此過程主要完成兩類工作,一是對(duì)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行深度加工,例如數(shù)據(jù)補(bǔ)全、數(shù)據(jù)質(zhì)量檢查等,加工后的數(shù)據(jù)一般存儲(chǔ)于Hbase和Redis中;二是對(duì)流過的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,一般分析后的數(shù)據(jù)作廢,只保留分析結(jié)果存儲(chǔ)于MYSQL中。對(duì)于第一種情況,其中的Redis主要用于熱數(shù)據(jù)緩存,因?yàn)榈谝环N情況一般是對(duì)量測(cè)數(shù)據(jù)的入庫處理,入庫后的數(shù)據(jù)需要被頻繁訪問,而越新的數(shù)據(jù)訪問熱度往往越高。為了提高熱數(shù)據(jù)的訪問效率,數(shù)據(jù)存儲(chǔ)到Hbase時(shí)同時(shí)存儲(chǔ)一份到Redis,Redis作為內(nèi)存數(shù)據(jù)庫具有更高的訪問效率。需要說明的是Redis只保存最近一段時(shí)間的數(shù)據(jù),數(shù)據(jù)超過一定時(shí)間將被定期清除。

      2.4 存儲(chǔ)模型

      數(shù)據(jù)的存儲(chǔ)方式至關(guān)重要,對(duì)數(shù)據(jù)的存儲(chǔ)、修改、查詢等操作的效率有著直接的影響??傮w而言,數(shù)據(jù)的存儲(chǔ)方式可以被分為兩種:隨機(jī)存儲(chǔ)方式和固定存儲(chǔ)方式。這兩種方法各有利弊,如何選擇取決于實(shí)際的具體需求。在大數(shù)據(jù)的情況下,數(shù)據(jù)量非常龐大,多達(dá)數(shù)TB乃至數(shù)PB,讀取數(shù)據(jù)時(shí)需要在磁盤或內(nèi)存里四處查找,這樣不僅增加了數(shù)據(jù)讀取代價(jià),而且也加重了系統(tǒng)負(fù)擔(dān)。

      如果能夠把經(jīng)常需要讀取的數(shù)據(jù)集中存儲(chǔ)在一起(物理上放在位置比較靠近的地方),這樣,磁盤在實(shí)際存取時(shí)就能通過少量的IO次數(shù)把數(shù)據(jù)讀取出來,即將隨機(jī)IO轉(zhuǎn)化為順序IO,此時(shí)則不論處理范圍有多大,均能夠獲得非常好的讀取效率。改進(jìn)數(shù)據(jù)存儲(chǔ)策略已經(jīng)成為提升大數(shù)據(jù)系統(tǒng)數(shù)據(jù)處理性能的熱點(diǎn)研究方向[3],本文著重討論海量量測(cè)數(shù)據(jù)在Hbase列式存儲(chǔ)中的存儲(chǔ)模型,在深入研究Hbase存儲(chǔ)機(jī)制(此為公開信息,本文不作詳細(xì)講解)的前提下,針對(duì)量測(cè)數(shù)據(jù)應(yīng)用時(shí)的斷面訪問和批量訪問特點(diǎn)設(shè)計(jì)了高效的存儲(chǔ)模型,如圖3所示。

      (1)表名規(guī)則:數(shù)據(jù)按月分表,每月一張表。表名規(guī)則為“2位省碼_3位業(yè)務(wù)類型碼_6位年月”,如:LN_101_201608表示遼寧用采系統(tǒng)2016年8月份的數(shù)據(jù)。

      (2)分區(qū)規(guī)則:每一張HBase表內(nèi)分多個(gè)Region,Region的數(shù)量根據(jù)機(jī)器數(shù)量和現(xiàn)場(chǎng)的單表數(shù)據(jù)量共同決定,由工程施工時(shí)設(shè)定,設(shè)置的原則是盡量使Region數(shù)量為機(jī)器數(shù)量的整數(shù)倍,單Region所管理的數(shù)據(jù)量在2GB-4GB。

      (3)行鍵規(guī)則:系統(tǒng)設(shè)計(jì)為行鍵規(guī)則可配置,將電網(wǎng)模型的相關(guān)層次信息預(yù)處理到數(shù)據(jù)的RowKey中去,配合時(shí)間等固定屬性形成靈活可配的復(fù)合行鍵,如通過城區(qū)、變電站、時(shí)間、類型組合形成Rowkey,形如“城區(qū)變電站0525123035類型”。通過對(duì)行鍵的設(shè)計(jì)使得同一變電站下的所有數(shù)據(jù)處于一行記錄,根據(jù)測(cè)試分析可知,每行包含的數(shù)量為10~20萬性能最優(yōu)。

      圖3 量測(cè)數(shù)據(jù)在Hbase中的存儲(chǔ)模型

      (4)列名規(guī)則:列名為每一個(gè)數(shù)據(jù)采集設(shè)備的唯一ID。

      通過以上設(shè)計(jì),某一時(shí)刻同一變電站覆蓋的所有設(shè)備數(shù)據(jù)邏輯上將在同一行上,并且物理上存儲(chǔ)在磁盤同一位置。由于Hbase天生擅長列式存儲(chǔ),大規(guī)模的列不會(huì)對(duì)訪問性能造成影響,并且行存儲(chǔ)上是稀疏的,同一行上沒有值的單元不會(huì)占用存儲(chǔ)空間。通過這樣的設(shè)計(jì),當(dāng)發(fā)生斷面查詢時(shí),將能夠很快查出某時(shí)刻指定變電站覆蓋區(qū)域的所有設(shè)備斷面示值。在批量場(chǎng)景下,本設(shè)計(jì)對(duì)表進(jìn)行了按時(shí)間分表分區(qū),數(shù)據(jù)散落在多臺(tái)服務(wù)器上,當(dāng)發(fā)生批量查詢時(shí)多臺(tái)機(jī)器并行處理,查詢效率較高。理論與測(cè)試證明,以上量測(cè)數(shù)據(jù)存儲(chǔ)模型設(shè)計(jì)能夠很好地滿足在大規(guī)模數(shù)據(jù)量情況下批量查詢與斷面查詢的高效需求。

      2.5 數(shù)據(jù)訪問

      本系統(tǒng)根據(jù)數(shù)據(jù)的時(shí)效性特點(diǎn)將數(shù)據(jù)存儲(chǔ)在Redis緩存和Hbase列式存儲(chǔ)中,并且對(duì)量測(cè)數(shù)據(jù)的存儲(chǔ)模型進(jìn)行了設(shè)計(jì),如果要求上層應(yīng)用直接操作多種存儲(chǔ)容器,操作較為復(fù)雜,為了屏蔽數(shù)據(jù)訪問的復(fù)雜度,本系統(tǒng)設(shè)計(jì)基于大數(shù)據(jù)平臺(tái)原生態(tài)接口,構(gòu)造統(tǒng)一訪問接口UAPI,屏蔽底層數(shù)據(jù)的存儲(chǔ)細(xì)節(jié),使得業(yè)務(wù)應(yīng)用根據(jù)電網(wǎng)模型訪問數(shù)據(jù),配套機(jī)制實(shí)現(xiàn)結(jié)果緩存、訪問分流、高可用等功能。

      3 實(shí)驗(yàn)驗(yàn)證

      本文基于JAVA語言以及開源大數(shù)據(jù)產(chǎn)品實(shí)現(xiàn)了以上系統(tǒng),并采用7臺(tái)PC服務(wù)器組建集群對(duì)系統(tǒng)進(jìn)行了實(shí)驗(yàn)驗(yàn)證與測(cè)試,服務(wù)器配置如表1所示。

      表1 服務(wù)器配置

      實(shí)驗(yàn)1斷面訪問效率測(cè)試,驗(yàn)證在10TB數(shù)據(jù)量的情況下,系統(tǒng)斷面查詢效率。

      如圖4所示,X軸為斷面查詢的數(shù)據(jù)量,Y軸為查詢耗時(shí)。結(jié)果顯示查詢數(shù)據(jù)量在1~4萬條時(shí),平均每秒查詢效率達(dá)2萬條左右,隨著查詢數(shù)據(jù)量增大,斷面存儲(chǔ)優(yōu)勢(shì)逐步體現(xiàn),查詢效率不但未降低反而有升高。

      圖4 系統(tǒng)斷面查詢效率示意

      實(shí)驗(yàn)2 批量訪問效率測(cè)試,驗(yàn)證在10TB數(shù)據(jù)量的情況下,系統(tǒng)批量查詢效率。

      如圖5所示,X軸為批量查詢的數(shù)據(jù)量,Y軸為查詢耗時(shí)。結(jié)果顯示查詢數(shù)據(jù)量與耗時(shí)基本成正比,平均每秒查詢效率在2 100條左右,隨著查詢數(shù)據(jù)量增大,查詢效率基本不變。

      4 結(jié)語

      本文針對(duì)電網(wǎng)量測(cè)數(shù)據(jù)特征,并結(jié)合大數(shù)據(jù)技術(shù),設(shè)計(jì)實(shí)現(xiàn)了海量量測(cè)數(shù)據(jù)處理系統(tǒng),解決了電網(wǎng)應(yīng)用中由于量測(cè)數(shù)據(jù)的數(shù)據(jù)量過大,導(dǎo)致接入、存儲(chǔ)、訪問困難的問題。該技術(shù)普適于大數(shù)據(jù)場(chǎng)景下的量測(cè)數(shù)據(jù)處理。本設(shè)計(jì)未對(duì)業(yè)務(wù)模型變動(dòng)導(dǎo)致歷史數(shù)據(jù)需要重建Rowkey問題進(jìn)行考慮,一旦業(yè)務(wù)模型出現(xiàn)變動(dòng),歷史數(shù)據(jù)將無法與變動(dòng)后的業(yè)務(wù)模型對(duì)應(yīng),導(dǎo)致部分歷史數(shù)據(jù)成為死數(shù)據(jù)。

      圖5 批量訪問效率示意

      [1]姚建國,楊勝春.電網(wǎng)調(diào)度自動(dòng)化系統(tǒng)發(fā)展趨勢(shì)展望[J]. 電力系統(tǒng)自動(dòng)化,2007(13):7-11.

      [2]王銘坤,袁少光,朱永利,等. 基于Storm的海量數(shù)據(jù)實(shí)時(shí)聚類[J]. 計(jì)算機(jī)應(yīng)用,2014(11):3078-3081.

      [3]楊俊杰,廖卓凡. 大數(shù)據(jù)存儲(chǔ)架構(gòu)和算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用,2016(9):2465-2471.

      Design of metrology data processing system based on big data technology

      You Feng, Cao Jian, Xie Yubo
      (Jiangsu Ruizhong Data Company Limited by State Ltd of Grid Electric Power Research Institute, Nanjing 210000, China)

      Aiming at the problem of traditional relational database being used for metrology data of electric power information system to process low efficiency, this paper designed and realized the metrology data processing system based on big data technology. Based on the distributed message queue technology, the buffer access of the large-scale metrology data is realized in this system. Based on the stream computing technology, the real-time processing efficiency of the metrology data is improved. The data storage model of metrology data is designed, which realizes the high efficient access of the data of large-scale metrology data.

      metrology data; big data technology; column storage model

      猶鋒(1975— ),男,四川南充,碩士,工程師;研究方向:電力系統(tǒng)自動(dòng)化。

      猜你喜歡
      測(cè)數(shù)據(jù)數(shù)據(jù)量批量
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      批量提交在配置分發(fā)中的應(yīng)用
      計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      基于SCADA和WAMS的線路參數(shù)辨識(shí)研究
      基于PMU/SCADA混合量測(cè)數(shù)據(jù)兼容性的船舶系統(tǒng)狀態(tài)估計(jì)研究
      淺議高校網(wǎng)銀批量代發(fā)
      提高變電站基礎(chǔ)量測(cè)數(shù)據(jù)時(shí)間同步性的方法
      一種新的外測(cè)數(shù)據(jù)隨機(jī)誤差分離方法
      沙河市| 华宁县| 浦江县| 孟村| 尉犁县| 弥渡县| 伊吾县| 东光县| 翁源县| 务川| 九龙城区| 冀州市| 乐山市| 衡山县| 大兴区| 神木县| 太康县| 正定县| 定南县| 泸州市| 宁远县| 乌拉特中旗| 克拉玛依市| 温宿县| 襄汾县| 策勒县| 永兴县| 灌云县| 天长市| 河北省| 尉犁县| 师宗县| 原平市| 盐池县| 乡城县| 股票| 盐边县| 监利县| 繁峙县| 桂阳县| 萨嘎县|