高丹丹
摘 要:在大數(shù)據(jù)時代,針對大數(shù)據(jù)管理的需求,根據(jù)大數(shù)據(jù)的特點和支持大數(shù)據(jù)管理系統(tǒng)的特定性,電力系統(tǒng)也要在數(shù)據(jù)存儲、數(shù)據(jù)訪問、數(shù)據(jù)分析等方面進行相適應地管理,針對海量數(shù)據(jù),采用NoSQL存儲系統(tǒng)支持海量電力信息數(shù)據(jù)的存儲和柔性管理。其中,介紹相關前沿研究和研究挑戰(zhàn),支持電力信息數(shù)據(jù)的體系結(jié)構(gòu),基于NoSQL的大數(shù)據(jù)管理,進而為電力系統(tǒng)未來發(fā)展趨勢提供分析與預測。
關鍵詞:大數(shù)據(jù) 數(shù)據(jù)管理 電力系統(tǒng) NoSQL
中圖分類號:TP301 文獻標識碼:A 文章編號:1674-098X(2014)02(c)-0190-01
隨著電網(wǎng)建設投入力度的不斷加大,數(shù)字化電網(wǎng)、數(shù)字化變電站等研究應用的不斷深入,電力系統(tǒng)面對的數(shù)據(jù)存儲規(guī)模從目前的GB級發(fā)展到TB級。隨著這種海量大數(shù)據(jù)(big data)成幾何級數(shù)集增長,傳統(tǒng)的關系型數(shù)據(jù)庫已無法滿足其存儲與分析處理的要求,如何高效獲取、存儲、分析、共享甚至于展示海量數(shù)據(jù)已是目前迫切需要解決的問題。
1 大數(shù)據(jù)概述
隨著云時代的來臨,針對用戶網(wǎng)絡數(shù)據(jù)急劇增長,提出大數(shù)據(jù)存儲系統(tǒng)的概念。云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,實現(xiàn)海量數(shù)據(jù)實時交互式的查詢和分析。大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。據(jù)IDC公司統(tǒng)計,2011年全球數(shù)據(jù)總量的75%來自于非結(jié)構(gòu)化數(shù)據(jù),至2012年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例超過75%。大數(shù)據(jù)具有類型復雜、海量、快速和價值的特點(“4V”),其中價值是其他3V服務的目標。大數(shù)據(jù)的總體架構(gòu)分為三層:據(jù)存儲,數(shù)據(jù)處理和數(shù)據(jù)分析,其中,數(shù)據(jù)存儲層解決類型復雜和海量,數(shù)據(jù)處理層解決快速和時效性要求,數(shù)據(jù)分析層解決價值,通過數(shù)據(jù)分析和挖掘?qū)崿F(xiàn)。三層相互配合,讓大數(shù)據(jù)最終產(chǎn)生價值。數(shù)據(jù)存儲層中,通過關系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和hdfs分布式文件系統(tǒng)三種存儲方式實現(xiàn)。其中,NoSQL數(shù)據(jù)庫實現(xiàn)海量數(shù)據(jù)的存儲,屬于非關系型、分布式數(shù)據(jù)存儲系統(tǒng),以Key-Value數(shù)據(jù)格式、面向文檔方式以及圖數(shù)據(jù)方式存儲,實現(xiàn)數(shù)據(jù)極高的并發(fā)讀寫性能、良好的查詢性能、彈性的擴展能力。
2 面向NoSQL的電力信息數(shù)據(jù)的海量存儲
電力系統(tǒng)為確保電網(wǎng)安全穩(wěn)定運行與及時監(jiān)控管理,需要使用多種業(yè)務子系統(tǒng)提供足夠的數(shù)據(jù)支持,為此,各業(yè)務系統(tǒng)運行期間均會產(chǎn)生大量能有效反映電網(wǎng)運行狀況的監(jiān)控數(shù)據(jù)與歷史數(shù)據(jù),同時,各類業(yè)務子系統(tǒng)的二次應用系統(tǒng)數(shù)量不斷增多,產(chǎn)生數(shù)據(jù)的種類與范圍也不斷擴展,存儲數(shù)據(jù)從GB級轉(zhuǎn)向TB級。隨著PMU采集裝置的普及以及廣域動態(tài)監(jiān)測系統(tǒng)WAMS的發(fā)展,帶來了更加突出的海量電力信息數(shù)據(jù)存儲問題。如此海量規(guī)模的電力信息,通過常規(guī)的關系型數(shù)據(jù)庫來存儲,無論從寫入速度還是查詢效率上都將很難滿足應用的需求,因此,NoSQL數(shù)據(jù)庫的特點滿足海量數(shù)據(jù)存儲管理。NoSQL數(shù)據(jù)庫通過集成分布式系統(tǒng)、集群、分區(qū)等技術實現(xiàn)分布式存儲,能有效擴展存儲規(guī)模,實現(xiàn)海量數(shù)據(jù)存儲和檢索。由于,數(shù)據(jù)發(fā)展趨勢是半結(jié)構(gòu)化數(shù)據(jù)(電子郵件、XML等)和非結(jié)構(gòu)化數(shù)據(jù)(文檔、圖片、視頻等),針對每秒數(shù)萬次的讀寫請求,NoSQL數(shù)據(jù)庫能從容應對。
NoSQL數(shù)據(jù)存儲系統(tǒng)總結(jié)起來有兩種架構(gòu):master-slave結(jié)構(gòu)和P2P環(huán)形結(jié)構(gòu)。Master-Slave結(jié)構(gòu)的系統(tǒng)設計簡單,可控性好,通?;谒椒謪^(qū)實現(xiàn)數(shù)據(jù)分布,將master節(jié)點和slave節(jié)點的功能分開,減輕節(jié)點的功能負載,由master節(jié)點維護其管理的slave節(jié)點,但master中心節(jié)點易成為瓶頸;P2P環(huán)形結(jié)構(gòu)的系統(tǒng)無中心節(jié)點,各節(jié)點平等,自協(xié)調(diào)性好,擴展方便,基于Hash分布數(shù)據(jù),負載均衡性好,但不利于支持范圍查詢,并且系統(tǒng)設計復雜,可控性較差。由于所述的兩種體系結(jié)構(gòu)有很大差別,它們所采用的支持技術也不同,導致了不同體系結(jié)構(gòu)的系統(tǒng)所支持功能的局限性,Cloudy為用戶提供了一個可配置采用master-slave或DHT體系結(jié)構(gòu)的Demo系統(tǒng)。在電力系統(tǒng)中,支持數(shù)據(jù)存儲系統(tǒng)的體系結(jié)構(gòu)應結(jié)合P2P分布式結(jié)構(gòu)和master-slave集中式結(jié)構(gòu)兩者的優(yōu)勢,如Chord和master-slave的結(jié)合、CAN與master-slave的結(jié)合等,側(cè)重采用面向組件的靈活可配置的體系結(jié)構(gòu),結(jié)合兩者的優(yōu)勢,綜合考慮數(shù)據(jù)存儲的全局性和局部性。
3 結(jié)語
大數(shù)據(jù)在2013年短短一年的時間里擴展到經(jīng)濟社會的各個層面與領域,像雨后春筍般在各個行業(yè)涌現(xiàn)。NoSQL數(shù)據(jù)存儲系統(tǒng)基于大數(shù)據(jù)的各種應用需求,提出了各具特色的產(chǎn)品。電力系統(tǒng)在大數(shù)據(jù)時代,遇到空前的機遇與挑戰(zhàn),將數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)驅(qū)動等研究,應用到電力系統(tǒng)中,今后還面臨更多新的問題需要研究者去探討研究。
參考文獻
[1] Big data.2011.http://en.wikipedia.org/wiki/Big_data.
[2] Li GJ.The scientific value of big data research. Communications of the China Computer Federation,2012,8(9):8-15(in Chinese).
[3] NoSQL.2011.http://zh.wikipedia.org/wiki/NoSQL.
[4] Tatemura J,Po O,Hsiung WP, Hacigümü H.Partiqle:An elastic SQL engine over key-value stores.In:Proc.of the SIGMOD.New York:ACM Press,2012.
[5] Rao J,Shekita EJ,Tata S. Using Paxos to build a scalable, consistent,and highly available datastore.In:Proc.of the VLDB. 2011.
[6] 互聯(lián)網(wǎng)分析沙龍.海量數(shù)據(jù)來了.2011. http://www.techxue.com/portal.php?mod=view&aid=55.
[7] 李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[8] Divyakant Agrawal,Philip Bernstein,Elisa Bertino et al. Challenges and Opportunities with Big Data,Cyber Center Technical Reports,F(xiàn)ebruary 2012.Available at:http://docs.lib.purdue.edu/cctech/1.endprint