劉 濤,李英俊,邢 峰,喬斌強,劉 斌
(烏蘭察布電業(yè)局,內(nèi)蒙古 烏蘭察布 012000)
為了加速現(xiàn)代電網(wǎng)智能化,在電網(wǎng)中廣泛安裝了多種數(shù)據(jù)采集裝置與信息管理系統(tǒng),例如智能電表、遠程測控終端和同步測量裝置、配電管理系統(tǒng)、能量管理系統(tǒng)、用戶管理系統(tǒng)和電廠管理系統(tǒng)等,這些裝置和系統(tǒng)產(chǎn)生了大量數(shù)據(jù),是智能電網(wǎng)大數(shù)據(jù)的主要來源[1-2]。對于這些大數(shù)據(jù)進行分析,能夠為電網(wǎng)的運行控制提供科學的決策依據(jù),以保證電網(wǎng)的安全穩(wěn)定運行。在此過程中,為提升電網(wǎng)管理水平,以電力大數(shù)據(jù)為依托利用先進的技術手段進行電網(wǎng)的實時監(jiān)測與分析,并對其運行狀態(tài)進行預測,由此也產(chǎn)生了海量實時數(shù)據(jù)流[3-4]。但數(shù)據(jù)流中異常值的存在會使得數(shù)據(jù)分析結果產(chǎn)生較大偏差,甚至有可能會造成一些決策失誤[5]。因此為了解決這些問題,需要設計一種快速且準確的異常值檢測方案。
國外主要是上下文對數(shù)據(jù)類別進行劃分,在根據(jù)機器學習中的監(jiān)督、非監(jiān)督以及半監(jiān)督學習方法對數(shù)據(jù)異常進行檢測,但國內(nèi)的方法并不拘泥于以上幾種,而是采用了更加多樣化的方法進行數(shù)據(jù)異常檢測。例如董澤[6]等人提出基于EWT-LOF的數(shù)據(jù)異常值檢測平臺設計方法,該方法結合密度檢測方法以及信號分解法對大數(shù)據(jù)中異常數(shù)值進行檢測。首先對收集的數(shù)據(jù)進行小波變換處理,提取數(shù)據(jù)的時間變化趨勢。通過LOF 局部離群因子和箱型圖分別完成對所有采集數(shù)據(jù)中的局部異常數(shù)值以及序列中的異常點的獲取。金鵬[7]等人提出基于深度信念網(wǎng)絡的數(shù)據(jù)異常值檢測方法,為解決高維度數(shù)據(jù)在異常值在線檢測過程中困難程度相對較高的問題,通過深度信念網(wǎng)絡對原始數(shù)據(jù)進行降維,并對上述高維度數(shù)據(jù)的特征和降維后的原始數(shù)據(jù)分別進行提取以及異常值檢測處理。將滑動窗口模型以及QSSVM 進行結合后應用于數(shù)據(jù)異常值的檢測處理中,從而實現(xiàn)數(shù)據(jù)中異常值的在線檢測。
為了進一步提高電力大數(shù)據(jù)異常值檢測準確率,縮短檢測耗時,本文提出了基于多變量自動回歸的電力大數(shù)據(jù)異常值檢測平臺設計方法,并通過對比實驗,對該平臺的有效性進行了驗證。
為解決電力大數(shù)據(jù)中異常值檢測問題,設計平臺各層面以及具體功能如下:
(1) 首先是由網(wǎng)絡數(shù)據(jù)流、日志、告警數(shù)據(jù)以及大量安全數(shù)據(jù)等所組成的數(shù)據(jù)源層面[8];
(2) 其次由網(wǎng)絡數(shù)據(jù)流、告警數(shù)據(jù)以及日志接入服務所組成的數(shù)據(jù)收集層面,該層面可以對數(shù)據(jù)進行讀取識別,并根據(jù)不同的電力數(shù)據(jù)采取不同的接入方法。利用工具Gopacket 以及Avro 獲取數(shù)據(jù),從中提取出數(shù)據(jù)的維度特征并將特征數(shù)據(jù)傳輸?shù)狡脚_;
(3) 實時計算層面,又稱實時分析層面,該層面主要利用處理工具Flink對數(shù)據(jù)進行低延遲的處理,可對收集的數(shù)據(jù)進行統(tǒng)計、分析、重組,提取數(shù)據(jù)的特征,并將所提取的特征輸入到平臺中;
(4) 利用集群Kafka所構成的數(shù)據(jù)管道層面,可通過該層面將實時分析層面與數(shù)據(jù)收集層面進行連接。Kafka所擁有的緩存數(shù)據(jù)功能具有著可靠性高、吞吐力強的特點;
(5) 由Elasticsearvh、HDFS 所構建成的數(shù)據(jù)存儲層面,為所獲取的大量數(shù)據(jù)提供可靠的存儲服務以及吞吐性較高的讀寫服務;
(6) 最后是數(shù)據(jù)分析,該層面由數(shù)據(jù)的挖掘、網(wǎng)絡異常數(shù)據(jù)檢測模型、關聯(lián)分析和回溯取證等功能模塊所組成。
各層面之間分工明確,首先將收集到的數(shù)據(jù)投放至數(shù)據(jù)管道,最后將經(jīng)過Flink處理工具讀取識別的數(shù)據(jù)移至Elasticsearvh以及HBase進行數(shù)據(jù)分析處理。具體如下圖1。
通過多變量自動回歸的方法對實驗所需的電力數(shù)據(jù)進行收集,并對獲取到的數(shù)據(jù)進行分析比對,從而實現(xiàn)電力數(shù)據(jù)中異常值的檢測。
分析電力的評價數(shù)據(jù)時間變化特點,電力數(shù)據(jù)取值區(qū)間為{1,2…M},且M需要是離散、有序的整數(shù),在該區(qū)間中的取值分布r是M向量,如下式:
式中,所有電力數(shù)據(jù)中評價數(shù)值為d的數(shù)據(jù)占總數(shù)據(jù)量的比例用rd表示。
假設電力數(shù)據(jù)中的時序數(shù)據(jù)用R進行表示,同時R=(r(1),…,r(t),…,r(T)),r(t)代表時間戳為t的電力評價數(shù)據(jù),并且是涵蓋多個變量的向量。為實現(xiàn)評價數(shù)據(jù)的有序性,需要對R進行累積分布處理。如下式:
式中,x(t)代表累積分布,其第d個元素為。
對數(shù)據(jù)進行累積處理后,不僅可以保證數(shù)據(jù)的有序性,同時可以對數(shù)據(jù)分布問題進行更加詳細的描述。假設評價數(shù)據(jù)分布狀態(tài)描述分別為a、b、c,其中a=[1,0,0,0]、b=[0.5,0.5,0,0]、c=[0.5,0,0,0.5]。由于a、b相似度大于a、c之間相似度,需要進行累積分布,其中a'=[1,1,1,1]、b'=[0,5,1,1,1]、c'=[0.5,0.5,0.5,1]。
根據(jù)向量之間相似度的判斷標準對進行累積分布的數(shù)據(jù)進行分析,發(fā)現(xiàn)還有可能存在a、b相似度大于a、c之間相似度的問題,同時發(fā)現(xiàn)數(shù)據(jù)中最后一項始終為1,且數(shù)據(jù)項之間為非遞減關系,因此對其進行描述。具體如下:
式中,電力的時序評價數(shù)據(jù)集為X=(X(1),…,X(T)),D=M-1為累積評價分布參數(shù)X(t)的維度,同時X(t)CD。
根據(jù)上述3.1可知,X=(X(1),…,X(T))為電力的時序評價數(shù)據(jù)集,其中數(shù)據(jù)X中可能會存在異常數(shù)據(jù),所以無法利用X直接對電力數(shù)據(jù)進行直接描述。
考慮上述問題,假設電力的基本數(shù)據(jù)A={a(1),…,a(T)}為潛在變量,電力評價數(shù)據(jù)X(t)(1≤t≤T),且符合下述條件:
式中,a(t)代表基本數(shù)據(jù)的分布描述參數(shù),y代表電力數(shù)據(jù)中異常數(shù)據(jù)的分布參數(shù),時間t的權衡系數(shù)用pt進行表示,pt值的大小反映著電力基本數(shù)據(jù)的權重,pt值越大其權重越大,t時間段內(nèi)的外部環(huán)境噪聲kt進行表示。為保證各參數(shù)在模型中的有序性,電力基本數(shù)據(jù)以及異常數(shù)據(jù)的處理必須是合理有效的,且yCD。
在X中所包含的基本電力數(shù)據(jù)a(t)平滑時,在產(chǎn)生異常數(shù)據(jù)y時,X會隨之產(chǎn)生變化。電力的正常數(shù)據(jù)a(t)也會隨著之前的時間t發(fā)生變化,同時適當?shù)耐蛔冃袨橐彩窃试S的,具體的表達方式如下:
式中,t之間的重要時間點為w[0…1],數(shù)據(jù)變化傾向用bCD表示,初始時間點所產(chǎn)生的基本數(shù)據(jù)用a(0)進行表示。
異常數(shù)據(jù)很少存在于電力時序評價數(shù)據(jù)中,由此可知,在上述公式(5)中,-p 的非零元素是具有稀疏性的。假設電力評價數(shù)據(jù)中的異常數(shù)據(jù)的最大個數(shù)用表示,且。由下式先驗分布函數(shù)獲取p值,同時pt不再相互獨立:
式中,先驗分布函數(shù)包含以下特點:
(1) 易解釋。產(chǎn)生異常數(shù)據(jù)時可以輕松獲取其產(chǎn)生的時間點;
(2) 異常數(shù)據(jù)產(chǎn)生時,累積分布函數(shù)最大熵分布異常數(shù)據(jù)的數(shù)量,不偏向于向量p;
為了檢測出電力數(shù)據(jù)中的異常數(shù)據(jù),且實現(xiàn)對檢測出的數(shù)據(jù)進行詳細的描述,本文利用極大似然估計方法將概率p(X,Z)最大化聯(lián)合,所有的變量集合用Z進行表示。選擇適合的先驗分布方法可以較好地定義上述問題。如果產(chǎn)生的誤差為同分布且獨立的高斯分布,且~N(0,σ2·1)。在公式(5)、(6)中加入以εt及,具體如下式:
式中,a(t),X(t)CD,CD值域范圍的數(shù)據(jù)正態(tài)分布為( )。根據(jù)下式對y、b、ω以及a(0)進行先驗分布且不提供信息:
式中,y、b、ω以及a(0)可以代表自變量x。分析上式可知,向量的取值范圍是有界限的,因此該先驗分布函數(shù)是有效的。
當所有存在變量的取值都在合理且有效的范圍內(nèi)時,p(X,Z)計算公式如下:
式中:
將(11)最大化以獲取目標函數(shù)以及最優(yōu)σ2,具體計算公式如下:
利用Bayesian information criterion可以確定最優(yōu)參數(shù)。在設定參數(shù)的同時,最小化下式(15),從而獲取到的最優(yōu)值,具體計算公式如下:
通過對電力時序評價數(shù)據(jù)的分析,不僅可以獲取到電力基本數(shù)據(jù)以及異常數(shù)據(jù),也可以預測即將出現(xiàn)的評價值。由于采集到的電力數(shù)據(jù)中異常數(shù)據(jù)具有稀疏性的特點,可通過下式(18)對T+1情況下的評價值進行計算,并判斷出即將產(chǎn)生的數(shù)據(jù)是否為異常數(shù)據(jù),具體如下式:
在上述所構建的平臺的基礎上,利用多變量自動回歸的方法對電力數(shù)據(jù)進行收集與分析,檢測出電力數(shù)據(jù)中所存在的異常值,該方法不僅降低了檢測過程中所需的時間消耗,同時又保證了數(shù)據(jù)檢測的準確度。
為了驗證基于多變量自動回歸的電力大數(shù)據(jù)異常值檢測平臺設計方法的整體有效性,需要對該方法進行測試。本實驗通過Matlab平臺實現(xiàn),實驗環(huán)境如下:
(1) CPU為2.20 GHz i7-4702MQ;
(2) 硬盤為1TB;
(3) 內(nèi)存為8GB;
(4) 系統(tǒng)為Windows 8.1。
實驗數(shù)據(jù)來源為中國電力網(wǎng)(網(wǎng)址為http://www.chinapower.com.cn/)。分別采用基于多變量自動回歸的電力大數(shù)據(jù)異常值檢測平臺設計方法(方法1)、基于EWT-LOF 的數(shù)據(jù)異常值檢測平臺設計方法(方法2)和基于深度信念網(wǎng)絡的數(shù)據(jù)異常值檢測平臺設計方法(方法3)進行測試,并對三種方法的錯誤率、消耗時間以及漏報率進行比對,具體結果如下:
(1) 對實驗收集的數(shù)據(jù)進行異常值檢測,并對三種方法的錯誤率進行詳細比較,具體情況如圖2所示。
(2) 選取相同數(shù)據(jù)組進行檢測,觀察三種方法在檢測過程中所消耗的時間,具體情況如圖3所示。
(3) 在與上述相同條件下,對三種方法的漏報率進行對比,具體情況如圖4所示。
對上述圖2、3、4 進行分析可知,與其他兩種方法相比,方法1 的錯誤率、漏報率以及所消耗時間優(yōu)于其他兩種方法。因為基于多變量自動回歸的電力大數(shù)據(jù)異常值檢測平臺設計方法首先建立了具有高存儲、低輸出延遲率等特性的電力數(shù)據(jù)異常值檢測平臺,利用多變量自動回歸的方法對電力數(shù)據(jù)進行檢測,并對獲取到的評價數(shù)據(jù)進行了累積分布處理,在保證了數(shù)據(jù)有序性的同時,又對數(shù)據(jù)分布進行了細致精準描述,最后利用高斯分布解決了電力數(shù)據(jù)評價值中異常值稀疏的問題,因此該方法既能保證檢測準確度的同時又能縮短檢測時間的消耗。
現(xiàn)今電力大數(shù)據(jù)中異常值檢測問題已經(jīng)引起了社會各界的廣泛關注。傳統(tǒng)方法的檢測結果存在著錯誤率較高、消耗時間較長以及漏報率較高等問題,因此本文提出基于多變量自動回歸的電力大數(shù)據(jù)異常值檢測平臺設計方法,在電力數(shù)據(jù)獲取、處理以及存儲等多種功能為一體的電力數(shù)據(jù)異常值檢測平臺上,利用多變量自動回歸的方法完成異常值檢測,該方法不僅能夠縮短檢測時間,同時又能夠提升檢測結果的準確度。