• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      流計算與內(nèi)存計算架構(gòu)下的運營狀態(tài)監(jiān)測分析

      2017-12-14 05:35:56趙永彬王佳楠
      計算機應(yīng)用 2017年10期
      關(guān)鍵詞:用電量內(nèi)存用電

      趙永彬,陳 碩,劉 明,王佳楠,賁 馳

      (1.國網(wǎng)遼寧省電力有限公司 信息通信調(diào)度監(jiān)控中心,沈陽 110004; 2.中國科學院 沈陽計算技術(shù)研究所,沈陽 110168;3.中國科學院大學,北京 100049; 4.國家電網(wǎng)公司 東北電力調(diào)控分中心,沈陽 110180) (*通信作者電子郵箱258098970@qq.com)

      流計算與內(nèi)存計算架構(gòu)下的運營狀態(tài)監(jiān)測分析

      趙永彬1,陳 碩1*,劉 明1,王佳楠2,3,賁 馳4

      (1.國網(wǎng)遼寧省電力有限公司 信息通信調(diào)度監(jiān)控中心,沈陽 110004; 2.中國科學院 沈陽計算技術(shù)研究所,沈陽 110168;3.中國科學院大學,北京 100049; 4.國家電網(wǎng)公司 東北電力調(diào)控分中心,沈陽 110180) (*通信作者電子郵箱258098970@qq.com)

      為滿足對電網(wǎng)實時運營狀態(tài)分析過程中對用戶實時用電量數(shù)據(jù)等大規(guī)模實時數(shù)據(jù)進行實時分析處理的需求,實現(xiàn)對電網(wǎng)運營決策提供快速準確的數(shù)據(jù)分析支持,提出一種流計算與內(nèi)存計算相結(jié)合的大規(guī)模數(shù)據(jù)分析處理的系統(tǒng)架構(gòu)。將經(jīng)過時間窗劃分的用戶實時用電量數(shù)據(jù)進行離散傅里葉變換(DFT),實現(xiàn)對異常用電行為評價指標的構(gòu)建;將基于抽樣統(tǒng)計分析構(gòu)造出的用戶用電行為特征,采用K-Means聚類算法實現(xiàn)對用戶用電行為類別的劃分。從實際業(yè)務(wù)系統(tǒng)中抽取實驗數(shù)據(jù),驗證了提出的異常用電行為和用戶用電分析評價指標的準確性。同時,在實驗數(shù)據(jù)集上與傳統(tǒng)的數(shù)據(jù)處理策略進行對比,實驗結(jié)果表明流計算與內(nèi)存計算相結(jié)合的系統(tǒng)架構(gòu)在大規(guī)模數(shù)據(jù)分析處理方面更具優(yōu)勢。

      流計算;內(nèi)存計算;特征構(gòu)建;異常監(jiān)測;行為劃分

      0 引言

      對于電網(wǎng)企業(yè)運營狀態(tài)的描述,通常需要對企業(yè)的眾多業(yè)務(wù)領(lǐng)域中各維度的數(shù)據(jù)進行全流程的監(jiān)測分析,從而實時、精準地獲得企業(yè)當前的業(yè)務(wù)情況[1]?,F(xiàn)如今,電網(wǎng)運營監(jiān)控中心的建設(shè)正朝著規(guī)?;?、集中化、統(tǒng)一化、自動化的趨勢發(fā)展,如何對包含上千萬用戶的各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進行集成,高效處理分析每小時產(chǎn)生的多達上百GB的數(shù)據(jù),成為提高運營監(jiān)測水平的關(guān)鍵問題。同時,傳統(tǒng)依靠專家經(jīng)驗建立起的指標型異常監(jiān)測手段往往不能滿足更為豐富的業(yè)務(wù)場景,因此如何建立準確可靠的分析預(yù)測模型,為運營決策的制定提供可靠的支持,也成為當前電網(wǎng)企業(yè)運營狀態(tài)監(jiān)測分析的主要研究方向[2]。

      當前運營監(jiān)測系統(tǒng)中所采用的傳統(tǒng)分布式數(shù)據(jù)提取工具和批處理離線數(shù)據(jù)分析平臺存在實時性較差的性能短板[3],已無法適應(yīng)當前實時監(jiān)測分析的業(yè)務(wù)需求。電力能源數(shù)據(jù)分析平臺的建設(shè),正不斷朝著規(guī)?;?、云平臺化、集成化的趨勢發(fā)展,其研究方向的重點較多地體現(xiàn)在對業(yè)務(wù)積累數(shù)據(jù)價值的挖掘上[4],缺少一種對實時業(yè)務(wù)數(shù)據(jù)進行快速分析處理實現(xiàn)運營狀態(tài)實時監(jiān)控的策略。內(nèi)存計算框架的普及,進一步加速了大規(guī)模數(shù)據(jù)的分析處理[5],但其仍然無法滿足對大規(guī)模實時業(yè)務(wù)數(shù)據(jù)的分析需求。

      考慮到實際運營監(jiān)測過程中的數(shù)據(jù)規(guī)模與實時性需求,本文采用了將STORM分布式流計算框架[6]與SAP HANA內(nèi)存計算平臺[7]相結(jié)合的方式,作為實時數(shù)據(jù)監(jiān)測分析的系統(tǒng)架構(gòu)。并以用戶實時用電量數(shù)據(jù)為例,通過時間窗劃分、離散傅里葉變換(Discrete Fourier Transform, DFT)、K-Means聚類算法等數(shù)據(jù)分析手段建立起異常用電行為識別和用戶用電類型分析的分析評價模型。最后,基于實際的電量業(yè)務(wù)數(shù)據(jù),評價異常監(jiān)測與用戶分析算法的計算結(jié)果,并比較采用流計算與內(nèi)存計算相結(jié)合的系統(tǒng)架構(gòu)相對于傳統(tǒng)數(shù)據(jù)分析平臺的性能優(yōu)勢。

      1 異常用電與用戶特征的評價指標

      在電網(wǎng)企業(yè)運營狀態(tài)的分析中,根據(jù)用戶的實時用電量數(shù)據(jù),可以針對用戶的用電情況建立起全方位的評價指標。通過分析用戶實時用電量的波動情況,可以對用戶的異常用電行為進行監(jiān)測。通過提取用戶高峰期用電特征,對所有用戶行為進行聚類分析,即可實現(xiàn)對用戶類型的劃分。

      1.1 異常用電行為的評價指標

      用戶的異常用電行為通常根據(jù)其實時用電量的波動情況進行衡量。為實現(xiàn)對用戶異常用電行為的及時發(fā)現(xiàn)并發(fā)出報警,在實際的運營監(jiān)測過程中,需要以較短的分析時間間隔對用戶的實時用電量數(shù)據(jù)進行分析,實現(xiàn)對用戶異常用電行為的實時監(jiān)測。

      因此,本文選擇以5 min為一個時間窗,為避免噪聲數(shù)據(jù)和缺失值的影響,對每個用戶各時間窗內(nèi)的實時用電量數(shù)據(jù)進行等距抽樣,對每個時間窗內(nèi)保留50個數(shù)據(jù)點。基于各時間窗內(nèi)數(shù)據(jù)點的分析計算結(jié)果,實現(xiàn)對每個用戶各時間窗對應(yīng)時段用電行為的異常情況進行判定。

      為實現(xiàn)對時間窗內(nèi)離散數(shù)據(jù)點的波動情況進行更為準確直觀的評價,本文對時間窗內(nèi)用戶實時用電量的離散抽樣點進行DFT,其具體定義[8]如下:

      對于時間窗內(nèi)N(0≤n≤N-1)個實時用電量數(shù)據(jù)構(gòu)成的有限長序列x(n),它的離散傅里葉變換x(k)仍為一個長度為N(0≤k≤N-1)的頻域有限長序列。則有:

      (1)

      基于DFT的計算結(jié)果,分別設(shè)置頻率閾值W和比重閾值A(chǔ),計算所有大于頻率閾值的頻域分量對應(yīng)的權(quán)重分量在所有分量中的占比,即:

      (2)

      其中:k為頻域分量wi大于W的分量數(shù);n為所有的頻域分量數(shù);ai為wi所對應(yīng)的幅值。將計算結(jié)果與比重閾值A(chǔ)進行比較,即可時間對異常用電行為的監(jiān)測。本文將頻域閾值W選置為30π,將比重閾值A(chǔ)置為0.2。

      1.2 用戶用電特征的評價指標

      用戶用電類型的特征向量,可以通過用電高峰時段中一個小時內(nèi)等距劃分出的多個時間段的用電量均值和方差進行描述。本文以每兩個時間窗,即每10 min計算用戶實時用電量的均值和方差,構(gòu)造如下形式的12維特征向量。

      X=[m1,m2,…,m6,v1,v2,…,v6]T

      (3)

      其中:mk(1≤k≤6)為各時間段內(nèi)用戶用電量的均值;vk(1≤k≤6)為各時間段內(nèi)用戶用電量的方差。

      (4)

      其中:n為每個時間段內(nèi)的實時用電量樣本數(shù),根據(jù)異常用電行為監(jiān)測過程中的抽樣結(jié)果,可得n=100。

      基于構(gòu)造的用戶用電行為特征向量,將其代入K-Means聚類算法,獲得平方差準則最小的k個聚類簇,即可劃分出每個用戶用電行為所對應(yīng)的類別,其計算過程[9]如下:

      第1步 設(shè)整體樣本為n,從整體樣本中任意抽取k個對象作為初始簇的中心,記為mi(i=1,2,…,k)。

      第2步 分別計算每個數(shù)據(jù)點p到k個簇中心的距離d(p,m),即:

      d(i,j)=

      其中:i=(xi1,xi2,…,xiq)和j=(xj1,xj2,…,xjq)為q維數(shù)據(jù)點。

      第3步 找到對象p的最小距離,將p劃分到與mi相同的簇中。

      第4步 將所有的對象進行計算,根據(jù)每個新簇內(nèi)的數(shù)據(jù)點,計算出新簇的簇中心。

      (6)

      其中:mk代表第k個簇的中心;N代表該簇的數(shù)據(jù)點數(shù)。

      第5步 重復(fù)上述計算過程,直到每個聚類簇中心位置變化量的平方和小于指定的收斂閾值,停止計算,獲得最終聚類結(jié)果。

      2 數(shù)據(jù)實時監(jiān)測分析系統(tǒng)的實現(xiàn)

      對電網(wǎng)運營狀態(tài)進行實時監(jiān)測分析的過程,通常需要經(jīng)過包括數(shù)據(jù)的抽取、數(shù)據(jù)的清洗、數(shù)據(jù)的整合、數(shù)據(jù)的實時計算、數(shù)據(jù)的階段性分析、數(shù)據(jù)的展示以及數(shù)據(jù)的存儲在內(nèi)的7個數(shù)據(jù)處理階段。

      2.1 數(shù)據(jù)處理流程與系統(tǒng)架構(gòu)劃分

      為滿足對電網(wǎng)企業(yè)運營狀態(tài)實時監(jiān)測分析過程中高實時性與大吞吐量的性能要求,本文采用了如圖1所示的流計算與內(nèi)存計算技術(shù)相結(jié)合的系統(tǒng)架構(gòu),以滿足電網(wǎng)企業(yè)各業(yè)務(wù)類型數(shù)據(jù)的實時監(jiān)測分析需求。

      在使用用戶的實時用電量數(shù)據(jù)實現(xiàn)對異常用電行為的監(jiān)測和用戶用電行為的分析時,共需要經(jīng)過以下9個數(shù)據(jù)處理和分析過程:

      1)將用電量數(shù)據(jù)加入消息隊列,作為流計算的數(shù)據(jù)源;

      2)針對噪聲值完成數(shù)據(jù)清洗等預(yù)處理操作;

      3)根據(jù)區(qū)域、用電等級等數(shù)據(jù)特征進行數(shù)據(jù)分類;

      4)對各時間窗內(nèi)的實時用電量記錄進行等距抽??;

      5)對抽樣結(jié)果調(diào)用離散傅里葉變換實現(xiàn)異常監(jiān)測;

      6)基于流計算結(jié)果,構(gòu)造用戶用電行為的特征向量;

      7)調(diào)用K-Means聚類算法實現(xiàn)用電行為的分析;

      8)讀取內(nèi)存數(shù)據(jù)庫中的結(jié)果實現(xiàn)數(shù)據(jù)的實時展示;

      9)將監(jiān)測分析的結(jié)果作為歷史數(shù)據(jù)寫入磁盤。

      其中:第2)~4)步的數(shù)據(jù)預(yù)處理過程由流計算層實現(xiàn);第5)~7)步的數(shù)據(jù)分析計算過程由內(nèi)存計算層實現(xiàn)。

      圖1 系統(tǒng)總體架構(gòu)

      2.2 基于Kafka并行化數(shù)據(jù)接入

      Kafka憑借其基于話題的分布式消息隊列特性[10]與大多數(shù)分布式流計算系統(tǒng)均有著良好的性能兼容性。故將其作為數(shù)據(jù)接口層中消息隊列的實現(xiàn)方案,用以對數(shù)據(jù)源進行分發(fā)、產(chǎn)生穩(wěn)定的數(shù)據(jù)源。

      Kafka將接收到的數(shù)據(jù)根據(jù)其所屬的業(yè)務(wù)系統(tǒng)和對應(yīng)的業(yè)務(wù)類型分發(fā)進多個話題,每個話題則成為一種類型的數(shù)據(jù)源,如定義用戶實時用電量“話題”。話題中的數(shù)據(jù)存儲進由如圖2所示的多個分區(qū)隊列,為應(yīng)用程序提供并發(fā)讀取每個分區(qū)隊列數(shù)據(jù)的方式,以提高數(shù)據(jù)的讀取效率。

      圖2 Kafka話題的分區(qū)隊列邏輯圖

      2.3 基于Storm完成數(shù)據(jù)預(yù)處理

      憑借其如圖3所示的Master-Worker分布式系統(tǒng)架構(gòu)[11],Storm具備大吞吐量、可擴展性、高容錯性、高可靠性和易操作性的性能優(yōu)勢,符合大規(guī)模用戶實時用電量數(shù)據(jù)的處理需求,故將其作為流計算層的實現(xiàn)方案。

      圖3 Storm集群架構(gòu)

      Storm將數(shù)據(jù)流處理過程抽象為如圖4所示的處理邏輯單元組合[12],通過定義Spout和Bolt分別實現(xiàn)數(shù)據(jù)流過程中對應(yīng)數(shù)據(jù)源操作和各階段數(shù)據(jù)處理操作;同時,配置各處理邏輯單元間的數(shù)據(jù)流向關(guān)系,實現(xiàn)數(shù)據(jù)處理邏輯的高效復(fù)用,提高數(shù)據(jù)處理效率[13]。

      圖4 Storm內(nèi)部處理邏輯圖

      整個數(shù)據(jù)預(yù)處理階段的數(shù)據(jù)操作可劃分為數(shù)據(jù)讀取、數(shù)據(jù)清洗、數(shù)據(jù)分類、數(shù)據(jù)抽樣四個步驟,每個步驟與其對應(yīng)的處理邏輯單元數(shù)量如表1所示。

      表1 數(shù)據(jù)處理操作及其對應(yīng)邏輯單元數(shù)

      2.4 基于SAP HANA加速數(shù)據(jù)分析

      SAP HANA是一款由SAP公司開發(fā)的基于內(nèi)存技術(shù)實現(xiàn)高效數(shù)據(jù)處理的分析平臺[14],其系統(tǒng)架構(gòu)如圖5所示。其內(nèi)存計算引擎與內(nèi)存關(guān)系引擎相結(jié)合的架構(gòu)優(yōu)勢[15],降低了數(shù)據(jù)分析處理過程中的讀寫開銷,滿足對數(shù)據(jù)進行高效分析計算的目的,因此將其作為內(nèi)存計算層的實現(xiàn)方案。

      圖5 內(nèi)存計算模塊邏輯架構(gòu)

      將經(jīng)過Storm完成數(shù)據(jù)合并、清洗、時間窗劃分等一系列預(yù)處理操作后,將預(yù)處理后的結(jié)果數(shù)據(jù)加入SAP HANA的內(nèi)存關(guān)系數(shù)據(jù)庫中,作為后續(xù)分析計算過程中的數(shù)據(jù)源。

      SAP HANA提供了便捷的數(shù)據(jù)建模方式,在滿足各類型數(shù)據(jù)集成需求的同時,為每條數(shù)據(jù)定義處理操作即可實現(xiàn)DFT計算和K-Means聚類分析等處理過程。使用其內(nèi)置的預(yù)測分析算法庫(Prediction and Analysis Library,PAL)即可實現(xiàn)對常用聚類分類算法的調(diào)用。

      2.5 基于內(nèi)存關(guān)系引擎定制存儲模式

      SAP HANA的內(nèi)存關(guān)系引擎提供了行式存儲和列式存儲兩種存儲模式。根據(jù)不同類型的數(shù)據(jù)對應(yīng)的讀寫需求,選擇合適的存儲模式[16],實現(xiàn)最優(yōu)的讀寫效率。

      1)行式存儲。適用于需要讀取數(shù)據(jù)記錄全部字段的數(shù)據(jù)分析操作,同時基于索引提高數(shù)據(jù)的查詢效率,用于存儲完成預(yù)處理后進行數(shù)據(jù)分析的中間結(jié)果。

      2)列式存儲。無需額外索引,提供較高效率的數(shù)據(jù)壓縮方法,適用于需要分別訪問單個屬性的數(shù)據(jù)記錄,用于存儲提供給展示層的最終結(jié)果。

      為實現(xiàn)高效的分析,完成數(shù)據(jù)預(yù)處理過程后的待分析數(shù)據(jù)通常選用行式存儲方式。為加快數(shù)據(jù)的查找讀取,對于數(shù)據(jù)分析結(jié)果則通常采用列式存儲方式。

      3 實驗結(jié)果分析與平臺性能對比

      本文采用的實驗環(huán)境是由包含一個Nimbus節(jié)點和四個Supervisor節(jié)點共計五臺PC構(gòu)成的Storm集群。每臺PC均配備Intel Core I5 6500處理器和8 GB內(nèi)存的計算存儲資源。集群中還部署了Kafka和SAP HANA平臺。

      3.1 異常用電實時監(jiān)測的實驗結(jié)果

      本文將某電力公司在2015年6月10日用電高峰時段中1 000萬條用戶實時用電量數(shù)據(jù)按產(chǎn)生時間順序依次寫入Kafka分布式消息隊列,作為本次實驗的數(shù)據(jù)源;并分別就異常用電行為監(jiān)測的準確性和數(shù)據(jù)處理平臺計算的實時性兩個指標進行實驗測試。

      異常用電行為實時監(jiān)測的準確性由準確率Precision和召回率Recall指標衡量,其計算公式如下:

      Precision=TP/(TP+FP)

      Recall=TP/(TP+FN)

      其中:TP表示識別為正樣本即異常用電行為的數(shù)據(jù)中識別正確的數(shù)量;FP表示識別為正樣本的數(shù)據(jù)中識別錯誤的數(shù)量;FN表示所有識別為負樣本的數(shù)據(jù)中標注錯誤的數(shù)量,即實際為異常用電行為卻未被識別的樣本數(shù)量。

      將原始數(shù)據(jù)經(jīng)由Storm流計算系統(tǒng)完成噪聲過濾、分類合并、時間窗劃分及抽樣等一系列預(yù)處理操作,轉(zhuǎn)換為各用戶在不同時間窗內(nèi)的用電量記錄數(shù)據(jù),并在SAP HANA中完成離散傅里葉變換(DFT)及異常用電行為評價指標的計算,根據(jù)所設(shè)置的閾值對異常用電行為進行識別。

      結(jié)合電量業(yè)務(wù)系統(tǒng)中已有的異常用電記錄,可以得到對實驗數(shù)據(jù)集中1 268個異常用電行為實時監(jiān)測記錄識別結(jié)果的準確率Precision=82.7%,召回率Recall=96.8%。實驗結(jié)果表明,本文采用的DFT方法能夠監(jiān)測出對絕大多數(shù)異常用電行為,但監(jiān)測結(jié)果正確率的進一步提高還需依靠更精確的特征分析算法和專家運營決策共同實現(xiàn)。

      通過統(tǒng)計表2中各處理策略在處理不同規(guī)模數(shù)據(jù)時的時間開銷,實現(xiàn)對異常狀態(tài)監(jiān)控的處理實時性進行全面比較。實驗分別在不同平臺架構(gòu)下設(shè)計了相同功能的處理程序,并以每100萬條數(shù)據(jù)為一個數(shù)據(jù)量梯度,測試了10個數(shù)據(jù)量級下各處理平臺對應(yīng)的時間開銷。在每個數(shù)據(jù)量級下分別進行三次測試,對所獲得時間開銷測試結(jié)果取平均,獲得最終的實驗分析結(jié)果。

      表2 數(shù)據(jù)處理平臺的實現(xiàn)方式

      從圖6所示的實驗結(jié)果可知,將流計算和內(nèi)存計算技術(shù)相結(jié)合的系統(tǒng)架構(gòu)既具備了分布式流處理系統(tǒng)高吞吐量的性能優(yōu)勢,也具備了內(nèi)存計算系統(tǒng)的低讀寫開銷,能夠較好地滿足大規(guī)模數(shù)據(jù)實時處理的性能需求。

      圖6 各實現(xiàn)方式的處理耗時對比

      3.2 用戶用電行為分析的實驗結(jié)果

      基于流計算過程中得到的數(shù)據(jù)抽樣結(jié)果,對每兩個時間窗內(nèi)的數(shù)據(jù)記錄計算其均值和方差,構(gòu)成用戶用電行為的特征向量進行K-Means聚類分析。其中設(shè)置K-Means算法的類別數(shù)K=5,迭代輪次n=1 000,收斂閾值α=1.0。

      將K-Means算法所得到的各用戶類型標簽與業(yè)務(wù)系統(tǒng)中記錄的用戶用電等級進行比對。由表3中所示的比對結(jié)果可知,由K-Means得到的各類別用戶數(shù)與用戶實際用電等級數(shù)量分布基本相同。

      表3 聚類標注與實際用電等級對比

      為驗證流計算和內(nèi)存計算技術(shù)結(jié)合的系統(tǒng)架構(gòu)對數(shù)據(jù)分析性能的優(yōu)化情況,將SAP HANA的PAL算法庫中提供的K-Means算法模型與Hadoop的Mahout算法庫以及Spark的MLlib算法庫所提供的K-Means算法模型進行性能比較。分別統(tǒng)計數(shù)據(jù)處理過程中的計算時間占比與讀寫時間占比,并將3次測試結(jié)果取平均得到如表4所示的結(jié)果。

      表4 數(shù)據(jù)分析過程的算法開銷 s

      由處理性能對比結(jié)果可知,相對于Hadoop將中間結(jié)果寫入硬盤的策略,SAP HANA的內(nèi)存計算引擎顯著降低了數(shù)據(jù)迭代分析過程的讀寫開銷。與同為內(nèi)存計算引擎的Spark計算框架相比,SAP HANA自帶的內(nèi)存數(shù)據(jù)庫進一步加速了待分析數(shù)據(jù)的讀取過程。盡管內(nèi)存資源在系統(tǒng)中仍較為寶貴,但SAP HANA等內(nèi)存計算平臺更適用于較大規(guī)模數(shù)據(jù)的階段性實時迭代分析。

      4 結(jié)語

      針對電網(wǎng)企業(yè)運營狀態(tài)的分析,電量數(shù)據(jù)已成為最為直接有效的特征依據(jù)。兼具高吞吐量與高實時性的優(yōu)勢,流計算與內(nèi)存技術(shù)相結(jié)合已逐漸成為面向企業(yè)大規(guī)模數(shù)據(jù)和高實時需求的解決思路。本文基于用戶實時用電量數(shù)據(jù)實現(xiàn)對用戶異常用電的監(jiān)測以及用電行為的分析,結(jié)合流計算滿足了數(shù)據(jù)的大規(guī)模實時處理的需求,采用內(nèi)存技術(shù)進一步提升了系統(tǒng)的計算性能和讀寫效率,為分析和監(jiān)控提供高實時性、大吞吐量的性能保證。同時,為電力企業(yè)后續(xù)的大規(guī)模實時數(shù)據(jù)分析提供了一種可靠高效的借鑒思路。

      References)

      [1] 蔡勇.數(shù)據(jù)挖掘技術(shù)在電網(wǎng)運營監(jiān)控平臺建設(shè)中的研究與應(yīng)用[D]. 上海: 上海交通大學, 2012: 5-6. (CAI Y. Research and application of data mining technology in grid operational monitoring platform [D]. Shanghai: Shanghai Jiao Tong University, 2012: 5-6.)

      [2] 陳云.分布式電力大數(shù)據(jù)計算分析平臺設(shè)計與實現(xiàn)[D]. 成都: 電子科技大學, 2016. (CHEN Y. The design and implementation of the distributed computing and analysis platform for power system [D]. Chengdu: University of Electronic Science and Technology of China, 2016.)

      [3] 程學旗, 靳小龍, 王元卓, 等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學報, 2014, 25(9): 1889-1908. (CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytic technology [J]. Journal of Software, 2014, 25(9): 1889-1908.)

      [4] 李洋, 何寶靈, 劉海濤, 等.面向全球能源互聯(lián)網(wǎng)的分布式電源云服務(wù)與大數(shù)據(jù)分析平臺研究[J]. 電力信息與通信技術(shù), 2016(3): 30-36. (LI Y, HE B L, LIU H T, et al. Research on distributed generation cloud service and big data analysis platform for global energy interconnection [J]. Electric Power Information and Communication Technology, 2016(3): 30-36.)

      [5] 程敏.基于PostgreSQL和Spark的可擴展大數(shù)據(jù)分析平臺[D]. 北京: 中國科學院大學, 2016. (CHEN M. Scalable big data analysis platform based on Postgre SQL and Spark [D]. Beijing: University of Chinese Academy of Sciences, 2016.)

      [6] Apache Software Foundation. Storm documentation [EB/OL]. [2016- 05- 23]. http://storm.apache.org/releases/1.0.3/index.html.

      [7] SAP Corporation. SAP HANA introduction [EB/OL]. [2016- 06- 14]. https://www.sap.com/china/product/technology-platform/hana.html.

      [8] 熊元新, 陳允平.離散傅里葉變換的定義研究[J]. 武漢大學學報 (工學版), 2006, 39(1): 89-91. (XIONG Y X, CHEN Y P. Research on definition of discrete Fourier transform [J]. Engineering Journal of Wuhan University, 2006, 39(1): 89-91.)

      [9] LIKAS A, VLASSIS N, J. VERBEEK J. The globalk-means clustering algorithm [J]. Pattern Recognition, 2003, 36(2): 451-461.

      [10] Apache Software Foundation. Kafka introduction [EB/OL]. [2016- 07- 08]. http://kafka.apache.org/intro.

      [11] 王銘坤, 袁少光, 朱永利, 等.基于Storm的海量數(shù)據(jù)實時聚類[J]. 計算機應(yīng)用, 2014, 34(11): 3078-3081. (WANG M K, YUAN S G, ZHU Y L, et al. Real-time clustering for massive data using Storm [J]. Journal of Computer Applications, 2014, 34(11): 3078-3081.)

      [12] 李一辰, 李緒志, 閻鎮(zhèn).實時流計算在航天地面數(shù)據(jù)處理系統(tǒng)中的應(yīng)用[J]. 微電子學與計算機, 2014, 31(9): 15-19. (LI Y C, LI X Z, YAN Z. Real-time stream computing in aerospace system’s data disposing [J]. Microelectronics amp; Computer, 2014, 31(9): 15-19.)

      [13] 孫大為, 張廣艷, 鄭緯民.大數(shù)據(jù)流式計算: 關(guān)鍵技術(shù)及系統(tǒng)實例[J]. 軟件學報, 2014, 25(4): 839-862. (SUN D W, ZHANG G Y, ZHENG W M. Big data stream computing: technologies and instances [J]. Journal of Software, 2014, 25(4): 839-862.)

      [14] 嵇智源, 潘巍.面向大數(shù)據(jù)的內(nèi)存數(shù)據(jù)管理研究現(xiàn)狀與展望[J]. 計算機工程與設(shè)計, 2014, 35(10): 3549-3506. (JI Z Y, PAN W. Present research status and prospects of in-memory data management in big data era [J]. Computer Engineering and Design, 2014, 35(10): 3549-3506.)

      [15] 黃嵐, 孫珂, 陳曉竹, 等.內(nèi)存集群計算: 交互式數(shù)據(jù)分析[J]. 華東師范大學學報 (自然科學版), 2014(5): 216-227. (HUANG L, SUN K, CHEN X Z, et al. In-memory cluster computing: Interactive data analysis [J]. Journal of East China Normal University (Natural Science), 2014(5): 216-227.)

      [16] 張延松, 王珊, 周烜.內(nèi)存數(shù)據(jù)倉庫集群技術(shù)研究[J]. 華東師范大學學報 (自然科學版), 2014(5): 117-132. (ZHANG Y S, WANG S, ZHOU X. Research on in-memory data warehouse cluster technologies [J]. Journal of East China Normal University (Natural Science), 2014(5): 117-132.)

      Monitoringandanalysisofoperationstatusunderarchitectureofstreamcomputingandmemorycomputing

      ZHAO Yongbin1, CHEN Shuo1*, LIU Ming1, WANG Jianan2,3, BEN Chi4

      (1.Informationamp;TelecommunicationBranch,StateGridLiaoningElectricPowerCompany,ShenyangLiaoning110004,China;2.ShenyangInstituteofComputingTechnology,ChineseAcademyofSciences,ShenyangLiaoning110168,China;3.UniversityofChineseAcademyofSciences,Beijing100049,China;4.ElectricPowerControlNortheastBranchCenter,StateGridCorporationofChina,ShenyangLiaoning110180,China)

      In real-time operation state analysis of power grid, in order to meet the requirements of real-time analysis and processing of large-scale real-time data, such as real-time electricity consumption data, and provide fast and accurate data analysis support for power grid operation decision, the system architecture for large-scale data analysis and processing based on stream computing and memory computing was proposed. The Discrete Fourier Transform (DFT) was used to construct abnormal electricity behavior evaluation index based on the real-time electricity consumption data of the users by time window. TheK-Means clustering algorithm was used to classify the users’ electricity behavior based on the characteristics of user electricity behavior constructed by sampling statistical analysis. The accuracy of the proposed evaluation indicators of abnormal behavior and user electricity behavior was verified by the experimental data extracted from the actual business system. At the same time, compared with the traditional data processing strategy, the system architecture combined with stream computing and memory computing has good performance in large-scale data analysis and processing.

      stream computing; memory computing; feature construction; anomaly detection; behavior partition

      2017- 05- 02;

      2017- 07- 11。

      遼寧電力公司科技項目(SGLNXT00DKJS1600242)。

      趙永彬(1975—),男,遼寧沈陽人,高級工程師,碩士,主要研究方向:智能電網(wǎng)、Web工程、信息集成; 陳碩(1983—),男,遼寧沈陽人,高級工程師,博士,主要研究方向:智能電網(wǎng)、Web工程、信息集成; 劉明(1979—),男,遼寧沈陽人,高級會計師,碩士,主要研究方向:電力信息; 王佳楠(1993—),男,河南洛陽人,碩士研究生,主要研究方向:智能電網(wǎng)、電網(wǎng)大數(shù)據(jù); 賁馳(1965—),女,遼寧沈陽人,高級工程師,主要研究方向:電量采集與計費統(tǒng)計。

      1001- 9081(2017)10- 3029- 05

      10.11772/j.issn.1001- 9081.2017.10.3029

      TP39

      A

      This work is partially supported by the Science and Technology of Liaoning Electric Power Company (SGLNXT00DKJS1600242).

      ZHAOYongbin, born in 1975, M. S., senior engineer. His research interests include smart grid, Web engineering, information integration.

      CHENShuo, born in 1983, Ph. D., senior engineer. His research interests include smart grid, Web engineering, information integration.

      LIUMing, born in 1979, M. S., senior accountant. His research interests include electric power information.

      WANGJianan, born in 1993, M. S. candidate. His research interests include smart grid, grid big data.

      BENChi, born in 1965, senior engineer. Her research interests include power collection and billing statistics.

      猜你喜歡
      用電量內(nèi)存用電
      用電安全
      02 國家能源局:1~7月全社會用電量同比增長3.4%
      01 國家能源局:3月份全社會用電量同比增長3.5%
      用煤用電用氣保障工作的通知
      安全用電知識多
      “春夏秋冬”的內(nèi)存
      當代陜西(2019年13期)2019-08-20 03:54:22
      用電安全要注意
      1~10月全社會用電量累計56552億千瓦時同比增長8.7%
      2014年全社會用電量
      基于內(nèi)存的地理信息訪問技術(shù)
      巴彦淖尔市| 邵阳市| 廊坊市| 新源县| 皋兰县| 云阳县| 保德县| 安福县| 乌拉特后旗| 靖江市| 中宁县| 宜春市| 合川市| 台安县| 积石山| 巴彦县| 松滋市| 茶陵县| 大化| 封丘县| 平潭县| 丽水市| 海兴县| 榆社县| 吴川市| 冕宁县| 麻栗坡县| 从化市| 郴州市| 方山县| 贞丰县| 西畴县| 界首市| 塘沽区| 永昌县| 尖扎县| 滨州市| 屯留县| 涿鹿县| 虞城县| 红桥区|