相坤 楊建設(shè)
摘要:以流數(shù)據(jù)為核心主線,通過研究相關(guān)系列的流處理技術(shù),如流采集、流存儲、流計算及流安全等,形成一套先進的分布式流數(shù)據(jù)處理體系。通過引用自適應(yīng)編碼、時分復(fù)用及效用均值等先進技術(shù),提升系統(tǒng)的處理效率和預(yù)測精準度。面對未來廣而大的電網(wǎng)應(yīng)用場景,能夠從容面對龐大數(shù)據(jù)流的沖擊,并且在復(fù)雜的多源異構(gòu)的數(shù)據(jù)業(yè)務(wù)接入時,能夠協(xié)同處理和精準計算,為未來電網(wǎng)順利融合發(fā)展提供數(shù)據(jù)安穩(wěn)傳輸?shù)目煽勘U稀?/p>
關(guān)鍵詞:多源異構(gòu);大數(shù)據(jù);分布式流
中圖分類號:TP391文獻標志碼:A文章編號:1008-1739(2018)23-68-4
0引言
廣域智能電網(wǎng)將涵蓋多態(tài)能源發(fā)電、長短距離靈活輸電、穩(wěn)定可靠變電及態(tài)勢感知配用電等多個環(huán)節(jié)的全景實時系統(tǒng),支撐智能電網(wǎng)安全、自愈、綠色的基礎(chǔ)是電網(wǎng)中采集的數(shù)據(jù),經(jīng)過合理的數(shù)據(jù)處理聯(lián)動系統(tǒng),準確掌握電網(wǎng)運行情況,數(shù)據(jù)信息與廣域電網(wǎng)相伴而生、同伴而行[1]。
電力數(shù)據(jù)處理聯(lián)動系統(tǒng)是一個數(shù)據(jù)全壽命周期管理的平臺,從數(shù)據(jù)的產(chǎn)生、錄入、采集、存儲、計算挖掘及安全應(yīng)用系列管理流程,每一個步驟都應(yīng)選擇合適的流處理算法或手段來增強數(shù)據(jù)傳動的效率。例如在流采集方式選擇時,應(yīng)采用并發(fā)式采集方法,增加數(shù)據(jù)的并發(fā)量,通過強融合技術(shù)將跨業(yè)務(wù)數(shù)據(jù)編碼分類,刪除冗余部分,很大程度上壓縮了數(shù)據(jù)容量。流存儲是處理高效的關(guān)鍵,選擇合適的存儲器部署方式,可壓縮存儲服務(wù)器規(guī)模,提升數(shù)據(jù)調(diào)用及訪問速度。流數(shù)據(jù)挖掘是流處理的難點,計算分析結(jié)果直接影響業(yè)務(wù)系統(tǒng)運行的智能性和先進性,流安全是數(shù)據(jù)運行系統(tǒng)的保障,新業(yè)務(wù)和網(wǎng)絡(luò)的增加都會引入不安全因素,網(wǎng)絡(luò)不法分子會通過信息攻擊手段盜取有用數(shù)據(jù)信息,而造成系統(tǒng)不穩(wěn)定運行,因此需利用監(jiān)控、態(tài)勢感知、報警及阻斷等綜合手段進行非法隔離[2]。
1大數(shù)據(jù)流處理系統(tǒng)
數(shù)據(jù)流是不斷到達的數(shù)據(jù)元所構(gòu)成的無限數(shù)據(jù)集,與傳統(tǒng)靜態(tài)數(shù)據(jù)相比,數(shù)據(jù)流具有無限性、時序性、噪聲性及規(guī)模不可預(yù)知性等特點,并且數(shù)據(jù)之間有一定的關(guān)聯(lián)性,數(shù)據(jù)流的特性會給處理過程帶來好處和挑戰(zhàn)[3]。
分布流處理系統(tǒng)是一個很復(fù)雜的過程,它由多個子系統(tǒng)組成,需要不同的子系統(tǒng)之間相互分工、共同協(xié)作。一個完整的流式數(shù)據(jù)處理系統(tǒng)由4部分組成:①數(shù)據(jù)采集系統(tǒng):用于收集、匯總原始數(shù)據(jù);②數(shù)據(jù)存儲子系統(tǒng):一方面,在一些場景中需要將海量的原始數(shù)據(jù)保存較長時間,供后續(xù)數(shù)據(jù)分析及防止系統(tǒng)故障導(dǎo)致的數(shù)據(jù)丟失;另一方面,原始數(shù)據(jù)被處理之后,部分數(shù)據(jù)會被立刻交付給應(yīng)用系統(tǒng)進行服務(wù)程序,也有部分是需要共享或者長期保存的,將處理后的結(jié)果存儲到可靠介質(zhì)中;③數(shù)據(jù)計算:主要完成對數(shù)據(jù)的深度分析,尋找其關(guān)聯(lián)性,從而預(yù)測下一時間段出現(xiàn)的可能性或者尋找數(shù)據(jù)運行規(guī)律,計算算法系統(tǒng)會不斷擴容新分析算法放大到計算模型庫中;④數(shù)據(jù)安全管理:對系統(tǒng)數(shù)據(jù)全壽命周期過程的創(chuàng)建、存儲、訪問、傳輸、銷毀及回復(fù)等過程進行安全控制。
電網(wǎng)中存在的流數(shù)據(jù)占數(shù)據(jù)信息的絕大部分份額,針對流數(shù)據(jù)的不可控性,通過系列手段對其進行壓縮、智能處理,將數(shù)據(jù)充分融合到業(yè)務(wù)服務(wù)中,通過數(shù)據(jù)作為用戶的行為指導(dǎo),提升電網(wǎng)的運行經(jīng)濟性及社會服務(wù)水平。
2數(shù)據(jù)架構(gòu)層次分析
隨著全球能源互聯(lián)網(wǎng)及北電南送等概念的提出,特高壓技術(shù)支撐著長距離的輸電場景的實現(xiàn),智能電網(wǎng)已經(jīng)不僅僅是表明狹義范圍內(nèi)的電網(wǎng)智能化概念,更添加了廣域場景。在這種泛在的應(yīng)用環(huán)境下,將會發(fā)生數(shù)據(jù)流的量崩,不同渠道的流式數(shù)據(jù)匯聚、交互、融合將會產(chǎn)生更加奇特的功能[4-5]。
流式數(shù)據(jù)應(yīng)用是由數(shù)據(jù)采集、清洗、融合、分析及展示多環(huán)節(jié)所形成的有機整體,針對廣域多源數(shù)據(jù)構(gòu)建適應(yīng)其特征的流數(shù)據(jù)分析架構(gòu),在每一層次中優(yōu)選算法進行數(shù)據(jù)分解、聚合和推導(dǎo),量身定制的數(shù)據(jù)處理平臺更加適合未來電力系統(tǒng)發(fā)展趨勢,流數(shù)據(jù)處理分層架構(gòu)如圖1所示。
從圖1中看到數(shù)據(jù)流處理框架分層明晰,數(shù)據(jù)源將不再局限于某個區(qū)域或某一類數(shù)據(jù),而是將全球電網(wǎng)數(shù)據(jù)形成融合的大型數(shù)據(jù)資源池,不同國度、不同區(qū)域、不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)格式是各異的,數(shù)據(jù)流以一定的速度進入采集系統(tǒng),通過區(qū)域代理的形式映射到數(shù)據(jù)采集區(qū),再利用適配器將數(shù)據(jù)代理前端標識統(tǒng)一轉(zhuǎn)換,并按照一定的規(guī)約統(tǒng)一編碼,龐大的數(shù)據(jù)通過有序采集分類后,進一步壓縮數(shù)據(jù),刪除部分冗余的重復(fù)數(shù)據(jù),形成有效可利用的數(shù)據(jù)資源池,將流數(shù)據(jù)能夠長期保存還需通過下一步的流存儲步驟。
根據(jù)流式文件形式的不同,分為文件型、數(shù)據(jù)型、關(guān)聯(lián)型和即時消息型,采集好的分類數(shù)據(jù)通過流數(shù)據(jù)抽取到不同類型的數(shù)據(jù)庫,數(shù)據(jù)庫內(nèi)部通過壓縮將數(shù)據(jù)長期保存,并可按需隨時調(diào)用。管理數(shù)據(jù)的目的第一是知曉系統(tǒng)運行狀態(tài),第二是預(yù)測未來運行狀況,完成第一目標調(diào)用查看方式即可,完成第二目標則需要流挖掘的方式,在系統(tǒng)內(nèi)部會存取各種數(shù)據(jù)流計算模型及模型調(diào)用程序,分析業(yè)務(wù)計算需求,調(diào)用驅(qū)動程序就能開啟算法運行,從而得到應(yīng)用系統(tǒng)想要的預(yù)測結(jié)果。
由于數(shù)據(jù)是裸露在共享與全球大電網(wǎng)下,因此安全性是至關(guān)重要的,需通過各種安全手段實時監(jiān)控數(shù)據(jù)流經(jīng)過的每一個步驟,并根據(jù)每個環(huán)節(jié)的特點自適應(yīng)開啟相應(yīng)安全防護手段,一旦出現(xiàn)危機則立即報警,利用聯(lián)調(diào)互助手段,在最短時間內(nèi)響應(yīng)故障請求。
3分布式流協(xié)同處理技術(shù)
3.1分布式數(shù)據(jù)流融合采集
數(shù)據(jù)采集最終目的是實現(xiàn)在保證數(shù)據(jù)準確性的前提下,將廣域數(shù)據(jù)清洗融合后存入HDFS中。目前已有的采集方式雖能實現(xiàn)數(shù)據(jù)簡單的融合,并沒有清洗冗余重復(fù)的數(shù)據(jù),并且數(shù)據(jù)在通道傳輸過程中缺少監(jiān)控手段來保障數(shù)據(jù)的可靠性,適配器和代理不是一一對應(yīng)關(guān)系。針對已有的問題,對采集方法進行改進,完善數(shù)據(jù)流采集性能。繼承分散收集和集中處理的思想,打破多個系統(tǒng)之間的割裂封閉狀態(tài),形成統(tǒng)一數(shù)據(jù)模型,整合多系統(tǒng)數(shù)據(jù),并在原有平臺資源動態(tài)支撐的基礎(chǔ)上,完成高級應(yīng)用分析功能,如圖2所示。
數(shù)據(jù)流的來源范圍很廣,甚至遍布全球電網(wǎng)業(yè)務(wù)系統(tǒng),每一個業(yè)務(wù)子系統(tǒng)數(shù)據(jù)都利用一個數(shù)據(jù)代理做數(shù)據(jù)映射,并通過統(tǒng)一的編碼和合適的適配器進行數(shù)據(jù)格式統(tǒng)一后,進入對應(yīng)的傳輸通道,通道內(nèi)啟用自動排序功能,數(shù)據(jù)按從大到小的順序排列,并部署監(jiān)控探針,防止數(shù)據(jù)的丟失和噪聲干擾。電網(wǎng)業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)會存在很大部分的數(shù)據(jù)重復(fù),通過清洗過程,將重復(fù)的部分自動刪除后,仍然選擇分布式采集的方式進入HDFS數(shù)據(jù)庫存儲。
3.2數(shù)據(jù)流存儲技術(shù)
流存儲區(qū)別于靜態(tài)數(shù)據(jù)或文件存儲,數(shù)據(jù)流具有時序性,因此只能按照時間順序先到先存的機制訪問存儲器。本文利用時分復(fù)用的思想,將時間劃分為很短的時間間隔,每個時隙里傳輸一類短數(shù)據(jù)集,加快了存儲速率,也壓縮了通信開銷。流存儲器的帶寬不需太大,但接口速率盡量保持最大,時分復(fù)用流存儲原理如圖3所示。
時分復(fù)用存儲算法是借取了無線通信中數(shù)據(jù)傳輸?shù)乃枷?,流?shù)據(jù)具有時序性,但不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)流傳輸?shù)乃俾适遣煌模褧r間劃分為很小的時隙,對于不同傳輸周期的數(shù)據(jù)流,在某些時隙上是不傳輸數(shù)據(jù)的,充分利用空閑的時隙,自適應(yīng)的見縫插針,達到滿幀時按序排列進入數(shù)據(jù)庫存儲,這種存儲方式充分利用流數(shù)據(jù)的特性,開拓了時間維度的新方法,解決了大量數(shù)據(jù)流快速存儲的問題。
3.3智能流計算技術(shù)
數(shù)據(jù)被實時地收集和匯總形成數(shù)據(jù)流,為了盡快得到實時應(yīng)用系統(tǒng)需要的數(shù)據(jù)結(jié)果,需要數(shù)據(jù)分析系統(tǒng)能完成對原始數(shù)據(jù)的處理。在大數(shù)據(jù)環(huán)境下,單臺服務(wù)器很難滿足短時間內(nèi)大量的數(shù)據(jù)計算要求,且考慮到業(yè)務(wù)和數(shù)據(jù)的增長,這些都要求數(shù)據(jù)分析系統(tǒng)具有良好的擴展性。
由于廣域智能電網(wǎng)中所包含的數(shù)據(jù)領(lǐng)域非常廣,如需對數(shù)據(jù)預(yù)測精準分析,需要一個涵蓋面積大的計算模型池,通過驅(qū)動引擎調(diào)用的方式激活算法執(zhí)行過程,從而得到最優(yōu)結(jié)果。本文采用的是效用最大的驅(qū)動調(diào)用算法,首先將根據(jù)算法模型性質(zhì)分類,計算每個算法的效用值,將同一類算法圈起來,并計算能效平均值,并按從大到小順序排序。當驅(qū)動接收到計算需求的廣播信息后,判斷需求屬于哪種計算類,然后調(diào)用效用值最大的驅(qū)動,最后執(zhí)行對應(yīng)的算法,采用這種方式不但能精準地選擇最優(yōu)算法,而且提升了選擇效率,具體算法過程如圖4所示。
3.4數(shù)據(jù)流防攻擊處理技術(shù)
數(shù)據(jù)的安全管理需貫穿大數(shù)據(jù)全壽命周期的每個環(huán)節(jié),在數(shù)據(jù)執(zhí)行傳輸、存儲、訪問和調(diào)用等操作時,尤其軟件執(zhí)行過程,很容易受到信息安全攻擊,須通過數(shù)據(jù)運行周期安全管理的方法進行管理。
①多源數(shù)據(jù)采集:通過Flume進行多源日志數(shù)據(jù)采集,采集方式包括文本、syslog等。
②數(shù)據(jù)聚合與異步處理:采用kafka對設(shè)備事件信息、實時狀態(tài)信息及網(wǎng)絡(luò)流量數(shù)據(jù)進行收集聚合,事件信息、狀態(tài)信息和網(wǎng)絡(luò)流量都可以視為一種流數(shù)據(jù),作為一種分布式消息處理系統(tǒng),kafka工作在發(fā)布或訂閱方式下,非常適合同時處理日志和網(wǎng)絡(luò)流量,利用kafka的異步消息處理功能能夠解決日志數(shù)據(jù)與網(wǎng)絡(luò)流量間不同速率的匹配問題。
③數(shù)據(jù)挖掘、分析、計算功能:采用Storm的流式計算功能,對采集的日志數(shù)據(jù)進行實時或者準實時的分析,分析的內(nèi)容主要包括關(guān)聯(lián)分析取證、攻擊溯及操作分析審計等功能,這是系統(tǒng)的核心,計算的結(jié)果直接輸出到HBase進行存儲。
④分析結(jié)果展示功能:展示的內(nèi)容包括數(shù)據(jù)生命周期證據(jù)鏈、審計結(jié)果展示界面、統(tǒng)計分析報表功能、告警響應(yīng)功能及設(shè)備聯(lián)動功能等。
4實驗結(jié)果
為了驗證流數(shù)據(jù)處理系統(tǒng)的可行性和有效性,通過從某公司信息化系統(tǒng)調(diào)用1 000個連續(xù)數(shù)據(jù),形成數(shù)據(jù)流在實驗室進行系統(tǒng)平臺驗證。平臺采用Matlab7仿真軟件實施時,每一個步驟的效率提升率及系統(tǒng)整體預(yù)測精準度進行計算,如表1所示。
從上表可以明顯看出,本文提出的算法在處理效率和預(yù)測精準度方面都有所提升,通過實驗驗證了算法的可行性,下一步可應(yīng)用于線上系統(tǒng),為實際應(yīng)用帶來便捷性和智能性。
5結(jié)束語
隨著信息化技術(shù)深入到電網(wǎng)領(lǐng)域,電網(wǎng)各業(yè)務(wù)系統(tǒng)突增大量的數(shù)據(jù)信息。目前由于數(shù)據(jù)量的龐大及數(shù)據(jù)管理手段的缺陷,缺少一個統(tǒng)一的平臺對所有數(shù)據(jù)進行管理,現(xiàn)階段僅僅是融合部分業(yè)務(wù)子系統(tǒng)進行了應(yīng)用,各子系統(tǒng)之間仍然存在信息孤島現(xiàn)象。因此本文的廣域性的大數(shù)據(jù)平臺更加符合未來數(shù)據(jù)發(fā)展需求,但從實驗階段的驗證結(jié)果看還不能完全滿足電網(wǎng)數(shù)據(jù)的性能要求,因此在技術(shù)深度和算法廣度上還需要進一步的探索和突破。
參考文獻
[1] Gibbons P B,Matias Y.New Sampling-based Summary Statistics for Improving Approximate Query Answers[J]. ACM SIGMOD Record,1998,27(2):331-342.
[2] Greenwald M,Khanna,S.Space-efficient Online Computation of Quantile Summaries[J].ACM SIGMOD Record,2001,30(2):58-66.
[3] Condie T,Conway N,Alvaro P,et al.Mapreduce online[J]. Nsdi,2009,156(4):647-667.
[4] Wang H, Fan W, Yu P S, et al. Mining Concept-Drifting Data Streams Using Ensemble Classifi-ers[J].Kdd,2003:226-235
[5] BarbaráD.Requirements for Clustering Data Streams[J]. ACM sIGKDD Explorations Newsletter,2002,3(2):23-27.