劉小琦
摘 要:本文主要探討如何將云計算技術(shù)應(yīng)用在海量用電信息采集系統(tǒng)中,從而解決海量用電信息數(shù)據(jù)實(shí)時并發(fā)采集入庫的速率問題、歷史大數(shù)據(jù)的秒級查詢和計算問題,提高了系統(tǒng)數(shù)據(jù)的實(shí)時性和可用性,滿足了用電信息采集系統(tǒng)自治區(qū)級集中模式下的各盟市、縣級操作人員對實(shí)時采集數(shù)據(jù)的查詢、統(tǒng)計和分析工作,提高了工作效率。
關(guān)鍵詞:云計算;用電信息采集系統(tǒng);實(shí)時數(shù)據(jù)庫;海量數(shù)據(jù)
中圖分類號:TP315 文獻(xiàn)標(biāo)識碼:A
An Applied Research of Cloud Computing Database in Mass
Electric Energy Data Acquire System
LIU Xiaoqi
(Youth Political College of Inner Mongolia Normal University,Huhehaote 010051,China)
Abstract:This paper mainly discusses how to apply Cloud Computing technology to mass Electric Energy Data Acquire System to solve the problem of the real-time concurrency storing speed of mass Electric Energy Data and the problem of the second-level query and calculation of historical mass-data,and then to improve the instantaneity and availability.Under centralized mode of Electric Energy Data Acquire System of the autonomous-region level,this will meet the demands of the operators of the leagues,the cities,and the counties for query,statistics,and analysis work of the real time collected data.This will improve the work efficiency.
Keywords:cloud computing;electricity consumption information collection system;real-time database;mass data
1 引言(Introduction)
隨著智能電網(wǎng)[1-3]建設(shè)的不斷開展,之前普遍使用Oracle數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲和查詢的方法已經(jīng)不能滿足用電信息采集系統(tǒng)的需要。目前的用電信息采集系統(tǒng),如果用戶數(shù)據(jù)超過百萬級,并發(fā)采集入庫時,系統(tǒng)只能將用戶數(shù)據(jù)先保存到臨時文件中,然后再通過分批次的方式寫入到庫中,而不能把數(shù)據(jù)直接保存到數(shù)據(jù)庫中,從而保證不會因?yàn)閿?shù)據(jù)量過大而出現(xiàn)數(shù)據(jù)庫崩潰的情況。目前的處理方式存在很多弊端,首先是采集數(shù)據(jù)的入庫延遲,無法實(shí)現(xiàn)數(shù)據(jù)實(shí)時監(jiān)控;另外,系統(tǒng)每天都會產(chǎn)生大量的采集數(shù)據(jù),隨著時間的累積,數(shù)據(jù)量也變得異常龐大。這時再進(jìn)行數(shù)據(jù)的查詢或計算工作時,會需要相當(dāng)長的時間,從而失去了時效性,也就失去了查詢的意義,失去了實(shí)時分析的意義,極大地降低了工作效率。
云計算數(shù)據(jù)庫技術(shù)可以通過采用分布式文件存儲與關(guān)系型數(shù)據(jù)庫結(jié)合的模式,優(yōu)化用電信息采集系統(tǒng)大規(guī)模數(shù)據(jù)高效存取和并行計算能力,從而為用電信息采集系統(tǒng)及其他信息系統(tǒng)提供高質(zhì)量的數(shù)據(jù)處理服務(wù),為實(shí)現(xiàn)用電信息采集系統(tǒng)“全覆蓋、全采集、全費(fèi)控”的建設(shè)目標(biāo)提供有力的技術(shù)支撐。
2 系統(tǒng)技術(shù)架構(gòu)設(shè)計(System technical architecture
design)
2.1 系統(tǒng)架構(gòu)
用電信息采集系統(tǒng)從功能上大致可以分為采集集群、云數(shù)據(jù)存儲環(huán)境、并行ETL環(huán)境、并行分析計算環(huán)境、數(shù)據(jù)查詢組件、前端接口以及用于開發(fā)的映射工具。系統(tǒng)總體架構(gòu),如圖1所示。
圖1 系統(tǒng)總體架構(gòu)
Fig.1 Overall system architecture
2.2 技術(shù)性能
(1)高性能的存儲技術(shù)
a.存儲策略的優(yōu)化
云實(shí)時數(shù)據(jù)庫存儲平臺利用分布式存儲機(jī)制,把數(shù)據(jù)分開保存到多個獨(dú)立的存儲服務(wù)器上。包含卷管理服務(wù)器、元數(shù)據(jù)管理服務(wù)器、數(shù)據(jù)存儲節(jié)點(diǎn)服務(wù)器和掛接訪問客戶端以及管理監(jiān)控中心服務(wù)器,它們的結(jié)合構(gòu)成虛擬統(tǒng)一的海量存儲空間。每個服務(wù)器節(jié)點(diǎn)上運(yùn)行云實(shí)時存儲平臺相應(yīng)的軟件服務(wù)程序模塊。
b.分布式文件存儲系統(tǒng)
分布式文件存儲系統(tǒng)包括元數(shù)據(jù)管理、塊數(shù)據(jù)管理和卷管理。元數(shù)據(jù)是指文件的名稱、屬性、數(shù)據(jù)塊位置信息等,元數(shù)據(jù)管理是通過元數(shù)據(jù)服務(wù)程序來完成的。通常元數(shù)據(jù)的訪問比較頻繁,所以系統(tǒng)將元數(shù)據(jù)加載緩存至內(nèi)存中管理,提高訪問效率?;谠獢?shù)據(jù)的重要性,元數(shù)據(jù)損壞或丟失相當(dāng)于文件數(shù)據(jù)丟失,因此實(shí)現(xiàn)了元數(shù)據(jù)服務(wù)器主備雙機(jī)高可用,確保時時不間斷服務(wù)。
c.存儲訪問接口
分布式文件系統(tǒng)為符合POSIX規(guī)范的文件系統(tǒng)提供訪問接口,支持Linux、Windows、MaxOS X等操作系統(tǒng)平臺。云實(shí)時數(shù)據(jù)庫存儲平臺接口為用電信息采集系統(tǒng)提供API函數(shù)、JDBC、ODBC、SQL等多種方式實(shí)現(xiàn)數(shù)據(jù)的存儲和查詢管理,還為其它的系統(tǒng)提供API函數(shù)、JDBC、ODBC、Web Service服務(wù)等接口形式,滿足了數(shù)據(jù)的數(shù)據(jù)挖掘和共享查詢。云實(shí)時數(shù)據(jù)庫存儲平臺對外提供豐富的接口,建立基于云存儲的數(shù)據(jù)共享平臺,為用電信息采集系統(tǒng)、電力營銷管理系統(tǒng)、電能服務(wù)管理系統(tǒng)等提供豐富接口和數(shù)據(jù)服務(wù)。
d.分級動態(tài)存儲方式
云實(shí)時數(shù)據(jù)庫存儲平臺采用了分級技術(shù)進(jìn)行數(shù)據(jù)保存,依據(jù)數(shù)據(jù)的重要性、訪問的頻率等信息對數(shù)據(jù)進(jìn)行分級存儲,一是通過分級存儲可以把元數(shù)據(jù)等重要信息一直保持在線存儲的狀態(tài),數(shù)據(jù)的讀取和修改可以隨時進(jìn)行,從而滿足前端應(yīng)用服務(wù)器或數(shù)據(jù)庫對數(shù)據(jù)訪問的速度要求;二是將訪問量相對比較小的冗余容錯數(shù)據(jù)、備份數(shù)據(jù)等數(shù)據(jù)采用便宜的SATA硬盤存儲。這些數(shù)據(jù)使用離線存儲方式,當(dāng)需要訪問這些數(shù)據(jù),我們可以通過相應(yīng)的喚醒策略來實(shí)現(xiàn),把離線轉(zhuǎn)為在線。
(2)使用合理、高效的檢索技術(shù)
a.數(shù)據(jù)庫檢索技術(shù)。主要包括:順序檢索、倒序檢索、布爾邏輯檢索、限定檢索和聚類檢索。
b.全文檢索技術(shù)。主要包括:截詞檢索、位置檢索和加權(quán)檢索。
3 系統(tǒng)應(yīng)用中的問題探討(Problems in the
application of the system)
系統(tǒng)應(yīng)用由云實(shí)時存儲共享平臺、關(guān)系數(shù)據(jù)庫組成,云存儲共享平臺與原系統(tǒng)前置集群結(jié)合,滿足海量采集數(shù)據(jù)、檔案類數(shù)據(jù)、監(jiān)控信息的存儲需求。關(guān)系數(shù)據(jù)庫存儲檔案數(shù)據(jù)、費(fèi)控數(shù)據(jù)和告警事件數(shù)據(jù),提高實(shí)時業(yè)務(wù)處理能力和系統(tǒng)性能。原系統(tǒng)數(shù)據(jù)庫在過渡階段保持原業(yè)務(wù)流程,起備用和保護(hù)作用。系統(tǒng)成功過渡試運(yùn)行結(jié)束后,關(guān)閉原系統(tǒng)數(shù)據(jù)庫。通過WebService、JDBC、ODBC、SQL等技術(shù)向外圍系統(tǒng)提供標(biāo)準(zhǔn)化、多樣化數(shù)據(jù)訪問。
3.1 海量用電數(shù)據(jù)處理問題
2014年用電信息采集系統(tǒng)全覆蓋目標(biāo)實(shí)現(xiàn)后,采集數(shù)據(jù)量將呈指數(shù)級增長,海量數(shù)據(jù)的計算成為一個重要的問題,為解決大集中后高并發(fā)大容量采集數(shù)據(jù)實(shí)時處理的問題,將采用基于Hadoop的海量用電數(shù)據(jù)并行計算技術(shù),將采集任務(wù)做并行化處理,把計算任務(wù)分配到多個不同的工作節(jié)點(diǎn)完成,實(shí)現(xiàn)系統(tǒng)性能的有效提升。
3.2 基于Hadoop的數(shù)據(jù)并行處理技術(shù)
Hadoop架構(gòu)主要由NameNode、DataNode、JobTracker、TaskTracker幾個角色組成。其中,NameNode是一個中心服務(wù)群,負(fù)責(zé)管理文件系統(tǒng)的名字空間和客戶端對文件的訪問;DataNode負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲,并在NameNode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的操作;JobTracker負(fù)責(zé)將任務(wù)分配給空閑的TaskTracker,讓這些任務(wù)并發(fā)進(jìn)行,并負(fù)責(zé)監(jiān)控任務(wù)的運(yùn)行情況;TaskTracker負(fù)責(zé)執(zhí)行任務(wù),如果某個TaskTracker出現(xiàn)故障,則JobTracker會將其負(fù)責(zé)的任務(wù)轉(zhuǎn)交給另外一個空閑的TaskTracker重新運(yùn)行。
基于Hadoop的海量智能用電數(shù)據(jù)并行處理技術(shù)能夠?qū)崿F(xiàn)多個節(jié)點(diǎn)并行任務(wù)的處理,提高海量數(shù)據(jù)的處理效率,同時支持系統(tǒng)對應(yīng)物理設(shè)備的靈活部署與裝配,對于不斷增長的終端所帶來的海量數(shù)據(jù),可以實(shí)時處理。
4 系統(tǒng)特點(diǎn)和性能分析(System characteristics and
performance analysis)
4.1 系統(tǒng)特點(diǎn)
(1)支持大數(shù)據(jù)實(shí)時入庫。為了防止數(shù)據(jù)堆積,我們采用現(xiàn)有的用電采集系統(tǒng)服務(wù)器集群和云實(shí)時數(shù)據(jù)庫計算平臺相結(jié)合的方式,能夠提高對海量數(shù)據(jù)的快速入庫,入庫速度可以達(dá)到千兆每秒。避免因數(shù)據(jù)入庫能力不足,造成的數(shù)據(jù)堆積。
(2)支持大數(shù)據(jù)實(shí)時索引,秒級計算和查詢。實(shí)時監(jiān)控入
庫的新數(shù)據(jù),對其建立具有高效查詢速度的索引算法,能夠完成對千億級別的數(shù)據(jù)進(jìn)行實(shí)時索引;云分布式調(diào)度引擎系統(tǒng)滿足秒級查詢速度,能夠?qū)⒂脩舻牟樵內(nèi)蝿?wù)分解到平臺的各個服務(wù)器上,實(shí)現(xiàn)分布式并行計算,并完成各種復(fù)雜業(yè)務(wù)應(yīng)用的計算。從而高效的利用系統(tǒng)資源,快速響應(yīng)查詢、統(tǒng)計、分析請求。
4.2 系統(tǒng)性能
用電信息采集系統(tǒng)的數(shù)據(jù)采集后經(jīng)過云實(shí)時數(shù)據(jù)庫計算平臺實(shí)時索引,并將元數(shù)據(jù)和索引數(shù)據(jù)存儲到云實(shí)時存儲平臺上,實(shí)現(xiàn)數(shù)據(jù)冗余。查詢時,通過云實(shí)時數(shù)據(jù)庫計算平臺進(jìn)行并行分布式處理,而云實(shí)時數(shù)據(jù)庫計算平臺在查詢和檢索數(shù)據(jù)方面具有極大的性能優(yōu)勢。云實(shí)時數(shù)據(jù)庫計算平臺是一種處理海量數(shù)據(jù)高效分布式云處理系統(tǒng),云實(shí)時數(shù)據(jù)庫計算平臺可以從TB乃至PB級的數(shù)據(jù)中挖掘出有用的信息,并對這些海量數(shù)據(jù)進(jìn)行快捷、高效的處理。
5 結(jié)論(Conclusion)
本文探討了云計算數(shù)據(jù)庫在海量用電信息采集系統(tǒng)中的理論可行性及相關(guān)技術(shù)要求,利用云計算和關(guān)系數(shù)據(jù)庫互補(bǔ)的方法,以云計算數(shù)據(jù)庫為核心,構(gòu)建電力智能用電私有云,實(shí)現(xiàn)用電信息采集系統(tǒng)對海量用電數(shù)據(jù)的存儲、計算和處理,提高用電數(shù)據(jù)的數(shù)據(jù)挖掘和利用效率,為智能電網(wǎng)用電信息采集系統(tǒng)的可持續(xù)發(fā)展提供了一個方向。
參考文獻(xiàn)(References)
[1] 洪建光,等.基于云計算的用電信息采集系統(tǒng)性能提升關(guān)鍵技術(shù)研究與應(yīng)用[J].ELECTRIC POWER ICT,2014,12(3):1-4.
[2] 宋振偉.云實(shí)時數(shù)據(jù)庫在用電信息采集系統(tǒng)中的應(yīng)用[J].電力技術(shù)探討,2014(9):263-265.
[3] 陳誠,夏峰,蔡龍.用電信息采集系統(tǒng)本地網(wǎng)絡(luò)方案[J].農(nóng)村電氣化,2011(3):39.
[4] 劉鵬.云計算[M].北京:電子工業(yè)出版社,2012.