祝永晉,馬吉科,季聰
(江蘇方天電力技術(shù)有限公司, 江蘇 南京 211102)
隨著計(jì)算機(jī)、傳感技術(shù)、通信技術(shù)的廣泛應(yīng)用,配電網(wǎng)運(yùn)營(yíng)監(jiān)測(cè)業(yè)務(wù)的不斷推進(jìn)以及大量監(jiān)測(cè)計(jì)量裝置的部署,配電變壓器(以下簡(jiǎn)稱“配變”)臺(tái)區(qū)監(jiān)測(cè)獲得了海量運(yùn)行數(shù)據(jù)、用戶用電數(shù)據(jù)及設(shè)備狀態(tài)數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析、挖掘、抽取與加工,實(shí)現(xiàn)配變臺(tái)區(qū)安全經(jīng)濟(jì)運(yùn)行、提升服務(wù)質(zhì)量、拓展電量電費(fèi)業(yè)務(wù)成為配電網(wǎng)面臨的挑戰(zhàn)[1-3]。需特別指出的是,用電信息采集系統(tǒng)配變臺(tái)區(qū)監(jiān)測(cè)獲得的海量電網(wǎng)數(shù)據(jù)中存在約10%的異常數(shù)據(jù),有必要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分析,甄別異常數(shù)據(jù),為開(kāi)展監(jiān)測(cè)運(yùn)營(yíng)業(yè)務(wù)提供可靠、精確、有效的數(shù)據(jù)支撐[4-5]。
因計(jì)量裝置故障、通信信號(hào)差、采集器故障、人為因素等原因,用電信息采集系統(tǒng)時(shí)間序列數(shù)據(jù)會(huì)出現(xiàn)異常值[6-10],從而影響用電信息采集系統(tǒng)數(shù)據(jù)質(zhì)量,而數(shù)據(jù)質(zhì)量的好壞很大程度上決定了模型分析結(jié)果的好壞。因此,在建立分析模型前對(duì)用電信息采集系統(tǒng)數(shù)據(jù)中的異常值進(jìn)行檢測(cè)甄別,是提高數(shù)據(jù)質(zhì)量的重要途徑。
目前采用數(shù)據(jù)挖掘技術(shù)進(jìn)行時(shí)間序列數(shù)據(jù)異常值檢測(cè)的方法較為成熟多樣,文獻(xiàn)[11]提出了通過(guò)統(tǒng)計(jì)學(xué)方法得到時(shí)間序列數(shù)據(jù)的概率分布函數(shù)和相應(yīng)的糾偏函數(shù)來(lái)檢測(cè)異常點(diǎn)?;诮y(tǒng)計(jì)學(xué)的方法依賴海量樣本的隨機(jī)分析[12],且必須知道數(shù)據(jù)分布模型,因而該方法有很大的局限性[13]。文獻(xiàn)[14]使用Mahalanobis距離和最小協(xié)方差矩陣對(duì)變壓器油色譜檢測(cè)數(shù)據(jù)進(jìn)行異常值診斷。文獻(xiàn)[15]使用基于數(shù)據(jù)集分割和距離的異常值辨識(shí)方法,該方法能較好地?cái)U(kuò)展到不同的數(shù)據(jù)集大小和維度;基于距離的檢測(cè)方法對(duì)于某些全局異常點(diǎn)效果較好,但其距離函數(shù)和參數(shù)不易選擇,不能檢測(cè)出局部異常點(diǎn)。文獻(xiàn)[16]使用基于聚類和核密度假設(shè)檢驗(yàn)的方法,在樣本量不多的情況下有較好的效果,但不適用樣本量多、高維數(shù)據(jù)場(chǎng)合。文獻(xiàn)[17]將人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)運(yùn)用到異常值檢測(cè),ANN在處理小規(guī)模問(wèn)題上有很好的應(yīng)用效果,但對(duì)大規(guī)模數(shù)據(jù)場(chǎng)景效率較低,難以較好地解決參數(shù)訓(xùn)練問(wèn)題,且訓(xùn)練過(guò)程易陷入局部最優(yōu),模型結(jié)構(gòu)和權(quán)值設(shè)置不當(dāng)還會(huì)嚴(yán)重影響模型精確度。文獻(xiàn)[18]將用戶歷史最近24個(gè)月的用電量數(shù)據(jù)和信用評(píng)級(jí)作為分類特征,通過(guò)訓(xùn)練支持向量機(jī)(support vector machines,SVM)分類,獲得了一定的效果;SVM具有更好的泛化能力,但在處理海量樣本時(shí)有一定的難度[19-20]。
上述基于統(tǒng)計(jì)學(xué)原理的方法和傳統(tǒng)的機(jī)器學(xué)習(xí)方法,在小樣本、低維度的異常數(shù)據(jù)辨識(shí)任務(wù)中獲取了不錯(cuò)的效果,但這些傳統(tǒng)的學(xué)習(xí)方法如SVM、ANN通常難以在海量樣本中進(jìn)行訓(xùn)練,難以完成海量數(shù)據(jù)異常甄別的任務(wù)。相較于傳統(tǒng)的機(jī)器學(xué)習(xí),深度學(xué)習(xí)將訓(xùn)練集事先分成小批量數(shù)據(jù)進(jìn)行計(jì)算,提高了訓(xùn)練效率,且深度學(xué)習(xí)在深層結(jié)構(gòu)中能有效避免梯度消失或梯度爆炸的問(wèn)題。因此深度學(xué)習(xí)方法更適用于學(xué)習(xí)電流、電壓等海量用電信息采集系統(tǒng)數(shù)據(jù)的時(shí)變規(guī)律[21-22],從而進(jìn)行異常值檢測(cè)與甄別。采用深度學(xué)習(xí)的方法可解決傳統(tǒng)機(jī)器學(xué)習(xí)方法在處理海量數(shù)據(jù)時(shí)所存在的占用內(nèi)存高、運(yùn)行處理速度慢及難以處理高維特征數(shù)據(jù)等問(wèn)題。為此,本文主要以用電信息采集系統(tǒng)配變臺(tái)區(qū)監(jiān)測(cè)的電流、電壓和有功功率數(shù)據(jù)為對(duì)象,研究運(yùn)用深度學(xué)習(xí)技術(shù)的用電信息采集系統(tǒng)異常數(shù)據(jù)甄別模型;為避免單一模型在處理不同任務(wù)時(shí)的局限性,同時(shí)采用原型聚類法、密度聚類法和概率密度法等機(jī)器學(xué)習(xí)算法進(jìn)行異常值甄別,以“4取2”的方法交叉驗(yàn)證,提升模型的異常點(diǎn)甄別能力,為運(yùn)行監(jiān)測(cè)業(yè)務(wù)提供精確的數(shù)據(jù)保障。
用電信息采集系統(tǒng)中智能電表的電流、電壓、有功功率、無(wú)功功率曲線中的異常數(shù)據(jù)直接反應(yīng)了智能電表的運(yùn)行狀態(tài),此類異常數(shù)據(jù)屬于表計(jì)方面的測(cè)量異常點(diǎn)以及用戶用電異常點(diǎn)。表計(jì)異常點(diǎn)較為隱蔽,一般存在較長(zhǎng)時(shí)間,如數(shù)據(jù)持續(xù)缺失、偏大或偏小,其中,數(shù)據(jù)持續(xù)缺失問(wèn)題可通過(guò)數(shù)據(jù)預(yù)處理統(tǒng)計(jì)發(fā)現(xiàn)。由于不同用戶用電行為特征和用電數(shù)值大小有區(qū)別,對(duì)用電信息采集系統(tǒng)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和異常甄別時(shí),主要依賴該用戶的用電行為產(chǎn)生的數(shù)據(jù)。若表計(jì)數(shù)據(jù)的變化規(guī)律與時(shí)序規(guī)律未發(fā)生改變,僅出現(xiàn)持續(xù)時(shí)間較長(zhǎng)的數(shù)值偏大或偏小異常。在這種情況下,數(shù)據(jù)樣本中包含表計(jì)發(fā)生該類異常之前的數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘的方法能尋找到異常開(kāi)始發(fā)生的數(shù)據(jù)點(diǎn);若此種情況下,數(shù)據(jù)樣本中不包含表計(jì)發(fā)生該異常之前的數(shù)據(jù),基于數(shù)據(jù)挖掘的方法很難從數(shù)據(jù)中甄別該異常數(shù)據(jù),此時(shí)更加依賴基于電力系統(tǒng)模型的方法,如計(jì)算排查線損率等方法,但該方法需求的數(shù)據(jù)量與數(shù)據(jù)種類較多,工作量大,檢測(cè)效率較低。本文運(yùn)用數(shù)據(jù)挖掘領(lǐng)域的方法進(jìn)行異常數(shù)據(jù)甄別,效率較高,但鑒于目前數(shù)據(jù)挖掘領(lǐng)域方法的局限性,本文主要討論數(shù)據(jù)樣本中此種表計(jì)隱蔽異常數(shù)據(jù)較少情況下的異常數(shù)據(jù)甄別。
原型聚類法是對(duì)樣本空間中具有代表性的點(diǎn)進(jìn)行迭代更新求解的聚類方法,本文采用原型聚類模型中的k-means算法。原型聚類法異常值檢測(cè)模型的輸入與輸出見(jiàn)表1,其中,i、u、P分別為電流、電壓、功率的當(dāng)前采樣點(diǎn)實(shí)際值序列,Δi1、Δu1、ΔP1分別為電流、電壓、功率當(dāng)前采樣點(diǎn)與前一個(gè)采樣點(diǎn)的變化值序列,Δi2、Δu2、ΔP2分別為當(dāng)前采樣點(diǎn)與前兩個(gè)采樣點(diǎn)的變化值序列。該模型的輸入是當(dāng)前采樣點(diǎn)的實(shí)際值與變化,主要檢測(cè)當(dāng)前實(shí)際值與當(dāng)前變化趨勢(shì)的關(guān)系;模型檢測(cè)出的異常點(diǎn)距離各類聚類中心較遠(yuǎn),這些點(diǎn)的當(dāng)前實(shí)際值與當(dāng)前變化趨勢(shì)的關(guān)系異常。
表1 原型聚類法異常值檢測(cè)模型的輸入與輸出Tab.1 Input and output of outlier detection model based on prototype clustering method
密度聚類法假定類別可以通過(guò)樣本分布的緊密程度來(lái)決定,將樣本分為密集樣本類別和離散樣本噪聲點(diǎn)。密度聚類法異常值檢測(cè)模型輸入與輸出見(jiàn)表2。該模型輸入的是2個(gè)不同物理量實(shí)際值的序列,主要檢測(cè)2個(gè)物理量之間的相關(guān)性;模型檢測(cè)出的異常點(diǎn)和其他點(diǎn)相比密度不可達(dá),這些點(diǎn)的2個(gè)物理量之間相關(guān)性異常。
表2 密度聚類法異常值檢測(cè)模型的輸入與輸出Tab.2 Input and output of outlier detection model based on density clustering method
事先難以判斷現(xiàn)場(chǎng)實(shí)際測(cè)量的電壓、電流及功率數(shù)據(jù)的概率分布類型,對(duì)電壓、電流及功率等不同時(shí)間序列進(jìn)行異常值甄別時(shí),先采用核密度函數(shù)分別擬合其概率分布,并獲得概率密度函數(shù);由概率密度函數(shù)可獲得變化值的正常范圍。概率密度法異常值甄別模型的輸入與輸出見(jiàn)表3。該模型的輸入是當(dāng)前采樣點(diǎn)的變化值序列,主要檢測(cè)各采樣點(diǎn)的變化程度;該模型檢測(cè)出的異常點(diǎn)和其他點(diǎn)相比變化程度過(guò)大。
表3 概率密度法異常值檢測(cè)模型的輸入與輸出Tab.3 Input and output of outlier detection model based on probabilistic density method
基于深度學(xué)習(xí)算法的異常值甄別模型中,由訓(xùn)練完成的深度學(xué)習(xí)分位數(shù)回歸模型對(duì)未來(lái)的電流、電壓和功率數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得多組預(yù)測(cè)值,求出時(shí)序數(shù)據(jù)的置信區(qū)間范圍。若預(yù)測(cè)值偏離時(shí)序數(shù)據(jù)的置信區(qū)間范圍,該點(diǎn)即為異常值點(diǎn)。本文在分析長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)基本原理的基礎(chǔ)上,分別對(duì)電流、電壓及功率建立LSTM分位數(shù)回歸模型,實(shí)現(xiàn)對(duì)三者時(shí)間序列的異常值甄別[23]。深度學(xué)習(xí)異常值檢測(cè)模型的輸入與輸出見(jiàn)表4,該模型的輸入為歷史數(shù)據(jù)序列,檢測(cè)出的異常點(diǎn)與其他點(diǎn)相比不符合歷史數(shù)據(jù)的時(shí)序變化規(guī)律。
表4 深度學(xué)習(xí)方法異常值檢測(cè)模型輸入輸出Tab.4 Input and output of outlier detection model based on deep learning method
圖1所示為L(zhǎng)STM各部分結(jié)構(gòu),計(jì)算過(guò)程分別如下[24]。
a)遺忘門計(jì)算過(guò)程如圖1(a)所示,計(jì)算公式為
ft=σf(Wf·[ht-1,xt]+bf) .
(1)
式中:Wf、bf分別為遺忘門權(quán)重矩陣和遺忘門偏置;[ht-1,xt]表示將2個(gè)向量拼接;ht-1為前一時(shí)刻的LSTM輸出;xt為當(dāng)前時(shí)刻輸入;σf為遺忘門激活函數(shù)。
b)輸入門計(jì)算過(guò)程如圖1(b)所示,計(jì)算公式為
it=σi(Wi·[ht-1,xt]+bi) .
(2)
式中:Wi、bi分別為輸入門權(quán)重矩陣和偏置項(xiàng);σi為輸入門結(jié)構(gòu)的激活函數(shù)。
c)當(dāng)前時(shí)刻輸入的單元狀態(tài)c′的計(jì)算過(guò)程如圖1(c)所示,計(jì)算公式為
(3)
式中:Wc、bc分別為該單元的權(quán)重矩陣和偏置項(xiàng)。
(4)
e)輸出門的計(jì)算如圖1(e)所示,即
ot=σo(Wo·[ht-1,xt]+bo) .
(5)
式中:Wo為輸出門權(quán)重矩陣;bo為輸出門偏置項(xiàng);σo為輸出門激活函數(shù)。
f)LSTM最終輸出由輸出門和單元狀態(tài)共同決定,如圖1(f)所示,即
ht=ot°tanh(ct) .
(6)
建立LSTM模型后,分別訓(xùn)練對(duì)應(yīng)于分位數(shù)0.01~0.99的99個(gè)LSTM分位數(shù)回歸模型,預(yù)測(cè)得到99組預(yù)測(cè)曲線數(shù)據(jù),計(jì)算得到置信區(qū)間范圍。通過(guò)比較真實(shí)值與置信區(qū)間范圍,確定最終的異常數(shù)據(jù)辨識(shí)結(jié)果,這樣可以有效避免人為設(shè)置閾值對(duì)結(jié)果帶來(lái)的不確定性。
在模型訓(xùn)練中,損失函數(shù)為分位數(shù)損失函數(shù)。LSTM回歸模型的訓(xùn)練過(guò)程可看作是關(guān)于LSTM的權(quán)重參數(shù)W與網(wǎng)絡(luò)結(jié)構(gòu)偏置項(xiàng)參數(shù)b的優(yōu)化問(wèn)
題的求解,其目標(biāo)函數(shù)為
(7)
式中:τ為分位數(shù),τ∈(0,1);Y為模型訓(xùn)練集的輸出;X為模型訓(xùn)練集中的輸入樣本;N為輸入樣本個(gè)數(shù)。
其中
ρτ(θ)=θ·[τ-I(θ)] .
(8)
(9)
式中θ為自變量。
在多判據(jù)融合模型中,原型聚類法檢測(cè)當(dāng)前采樣點(diǎn)實(shí)際值與當(dāng)前變化趨勢(shì)的關(guān)系是否異常,密度聚類法檢測(cè)電力系統(tǒng)中電壓、電流、功率兩兩之間的相關(guān)性,概率密度法檢測(cè)當(dāng)前采樣點(diǎn)與之前時(shí)刻采樣點(diǎn)的變化值是否會(huì)過(guò)大造成突變異常,深度學(xué)習(xí)法檢測(cè)當(dāng)前的采樣點(diǎn)數(shù)據(jù)是否符合歷史數(shù)據(jù)的時(shí)序變化規(guī)律。4種模型的目標(biāo)檢測(cè)范圍互補(bǔ),通過(guò)“4取2”確定最終甄別結(jié)果,既能互相驗(yàn)證,降低誤檢率,又可以從不同的檢測(cè)維度發(fā)現(xiàn)異常點(diǎn),獲得較高的正檢率。
圖1 LSTM各組成部分結(jié)構(gòu)Fig.1 Structures of components of LSTM
測(cè)試分析的第一部分工作包括:基于正常運(yùn)行計(jì)量裝置采集的電流、電壓、有功功率數(shù)據(jù),在原始數(shù)據(jù)中增加不同程度的隨機(jī)噪聲,形成異常點(diǎn);使用上述4種模型對(duì)含噪聲數(shù)據(jù)進(jìn)行測(cè)試,獲得各個(gè)模型異常值檢測(cè)結(jié)果。測(cè)試中,4種模型檢測(cè)結(jié)果通過(guò)“4取2”策略確定最終的異常值檢測(cè)結(jié)果,即4種模型中有2個(gè)或2個(gè)以上的模型判定待檢測(cè)數(shù)據(jù)點(diǎn)為異常值,則該數(shù)據(jù)點(diǎn)的最終檢測(cè)結(jié)果為異常,否則該數(shù)據(jù)點(diǎn)的最終檢測(cè)結(jié)果為正常。
選取某一正常電表,時(shí)間范圍為2017年7月1日至8月31日共計(jì)5 856點(diǎn),其中有功功率均值為25.625 kW,最大值94.956 kW,最小值5.1 kW,變化平均值為2.866 kW;隨機(jī)生成均值為0、標(biāo)準(zhǔn)差為13的共59個(gè)正態(tài)分布誤差值,噪聲點(diǎn)個(gè)數(shù)占時(shí)序數(shù)據(jù)長(zhǎng)度的1%,并將這些干擾隨機(jī)放入功率原始時(shí)間序列中。圖2為實(shí)際功率序列及隨機(jī)噪聲序列。
圖2 實(shí)際功率序列及隨機(jī)噪聲序列Fig.2 Actual power sequence and random noise sequence
采用4種模型進(jìn)行異常值甄別測(cè)試分析分別如下。
a)基于原型聚類法的異常值甄別測(cè)試。由于原型分類法的分類個(gè)數(shù)k值需預(yù)先設(shè)定,經(jīng)過(guò)多次模型測(cè)試,綜合考慮聚類效果、噪聲甄別效果以及運(yùn)行時(shí)間等,選擇以下參數(shù):聚類類別為4類,異常值點(diǎn)判斷準(zhǔn)則閾值嘗試設(shè)置為3.2,聚類最大循環(huán)次數(shù)為500,距離函數(shù)采用歐式距離。公式(10)表示聚類樣本中任意第i個(gè)樣本和第j個(gè)樣本之間的歐式距離,每個(gè)樣本有n維參數(shù),其中Xi={xi1,xi2,…,xin} ,Xj={xj1,xj2,…,xjn}。
d(i,j)=
(10)
原型聚類功率分析結(jié)果如圖3所示,其中縱坐標(biāo)表示該樣本與所屬類別的聚類中心的相對(duì)距離。將該樣本與所屬類別聚類中心的實(shí)際歐式距離記為L(zhǎng)re,該聚類類別中所有樣本與所屬類別聚類中心的實(shí)際歐式距離的中位數(shù)記為L(zhǎng)me,則相對(duì)距離L=Lre/Lme.
圖3 原型聚類功率分析結(jié)果Fig.3 Prototype clustering power analysis results
由圖3可以看出,該方法的聚類效果較為明顯,標(biāo)為△的異常點(diǎn)明顯與數(shù)據(jù)樣本中大多數(shù)●的樣本點(diǎn)分離;△異常數(shù)據(jù)點(diǎn)表示該采樣點(diǎn)實(shí)際值與變化趨勢(shì)的關(guān)系異常。
b)基于密度聚類法的異常值甄別測(cè)試。選擇的參數(shù)包括:最大距離設(shè)置為0.5、樣本點(diǎn)歸一化范圍為(0, 4)、1類別的最少樣本個(gè)數(shù)為5、距離函數(shù)為歐式距離計(jì)算方法。密度聚類分析結(jié)果如圖4所示。
由圖4可以看出,該方法的聚類效果較為明顯,功率、電流總體成線性關(guān)系,功率、電壓平面分布在左下角?!啊睢毙畏?hào)表示的異常點(diǎn)明顯處于數(shù)據(jù)樣本中大多數(shù)“×”形符號(hào)樣本組成的簇的邊緣,“☆”異常數(shù)據(jù)點(diǎn)表示功率、電流相關(guān)性異常和功率、電壓相關(guān)性異常。
c)基于概率密度法的異常值甄別測(cè)試。圖5為采用該方法測(cè)得的功率變化值概率密度曲線。
圖4 密度聚類分析結(jié)果Fig.4 Density clustering analysis results
圖5 概率分布分析結(jié)果Fig.5 Probability distribution analysis results
由圖5可以看出,功率變化值集中分布于0附近,結(jié)合概率密度函數(shù),可以獲得功率變化值出現(xiàn)某一值時(shí)的概率。假設(shè)功率變化值在0值附近某一范圍內(nèi)的概率為99.9%,則認(rèn)為功率變化值在該范圍內(nèi)是正常的。此時(shí)可計(jì)算出功率變化值端點(diǎn)值為-10.464 6和10.462 8,即認(rèn)為:正常功率變化值范圍為[-10.464 6,10.462 8],不在此范圍的即為異常功率變化,檢測(cè)出的異常數(shù)據(jù)點(diǎn)的異常類型為功率數(shù)值變化率過(guò)大異常。
d)基于深度學(xué)習(xí)算法的異常值甄別測(cè)試。使用LSTM分位數(shù)回歸算法對(duì)功率進(jìn)行預(yù)測(cè),獲得待測(cè)時(shí)間點(diǎn)功率的概率預(yù)測(cè)置信區(qū)間范圍,共同的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置為:4層循環(huán)神經(jīng)網(wǎng)絡(luò),包括輸入層(96×1序列輸入),1層LSTM層(8節(jié)點(diǎn)),1層普通隱含層(4節(jié)點(diǎn)),1層輸出層(1節(jié)點(diǎn));輸入與輸出參數(shù)使用最近歷史96點(diǎn)的數(shù)據(jù)預(yù)測(cè)下一時(shí)刻的電流值(采樣間隔15 min);模型優(yōu)化為RMSProp(帶動(dòng)量的隨機(jī)梯度下降算法),迭代次數(shù)為400,訓(xùn)練批數(shù)512(訓(xùn)練樣本一共5 856個(gè),1次迭代約分為4~5批),訓(xùn)練樣本中驗(yàn)證集所占比率為5%;對(duì)應(yīng)不同的分位數(shù)回歸模型,目標(biāo)函數(shù)為對(duì)應(yīng)的模型輸出值與真實(shí)值的分位數(shù)損失函數(shù)。LSTM分位數(shù)回歸結(jié)果及功率真實(shí)值如圖6所示,橫坐標(biāo)為數(shù)據(jù)點(diǎn)序號(hào),縱坐標(biāo)為功率值大小。對(duì)應(yīng)圖例,實(shí)際值為實(shí)際的功率值曲線,預(yù)測(cè)值為對(duì)應(yīng)于0.5分位數(shù)模型的預(yù)測(cè)值,圖例中100%CI為預(yù)測(cè)的100%置信區(qū)間范圍,對(duì)于不同類型的數(shù)據(jù),可以選擇不同的置信區(qū)間范圍作為閾值范圍。本文經(jīng)多次測(cè)試實(shí)驗(yàn),綜合甄別檢出率和誤判率考慮,采用100%的置信區(qū)間范圍作為閾值。
圖6 LSTM分位數(shù)回歸結(jié)果及功率真實(shí)值Fig.6 LSTM quantile regression results and true power values
由圖6可以看出,實(shí)際值曲線基本在100%置信區(qū)間之內(nèi),且置信區(qū)間范圍比較窄;說(shuō)明LSTM分位數(shù)回歸模型預(yù)測(cè)功率的置信區(qū)間的效果較好,并且區(qū)間范圍對(duì)異常甄別有很好的參考價(jià)值。超出閾值置信區(qū)間范圍的異常點(diǎn)為不符合歷史數(shù)據(jù)樣本的時(shí)序規(guī)律的采樣點(diǎn)。
對(duì)于本文提出的異常甄別模型,采用檢出率kacc和誤檢率kerr作為評(píng)價(jià)指標(biāo),即
(11)
式中:NT為正確檢測(cè)的異常點(diǎn)個(gè)數(shù);NF為錯(cuò)誤檢測(cè)的異常點(diǎn)個(gè)數(shù);Nb為實(shí)際異常點(diǎn)個(gè)數(shù)。改變檢測(cè)時(shí)間序列數(shù)據(jù)類型,添加不同大小方差的噪聲,進(jìn)行多次異常數(shù)據(jù)檢測(cè),異常數(shù)據(jù)檢測(cè)結(jié)果見(jiàn)表5。
由表5可以看出,在不同聚類方法中,概率密度法的檢出率最高,密度聚類法的檢出率最低;同時(shí),概率密度法對(duì)于變化值最敏感,誤檢率最高;LSTM分位數(shù)回歸模型的性能相對(duì)于這些聚類方法,有較為明顯的提升,檢出率指標(biāo)和誤檢率指標(biāo)均更好;基于多判據(jù)融合的異常數(shù)據(jù)甄別模型的甄別效果相比LSTM分位數(shù)回歸模型的甄別效果有所提升,平均檢出率能達(dá)到本文所述方法最高的76.27%,同時(shí)具有最低的平均誤檢率17.23%。
為了驗(yàn)證基于多判據(jù)融合的用電信息采集系統(tǒng)數(shù)據(jù)異常甄別模型在實(shí)際用電曲線序列中的效果,取3只異常電表A、B、C,對(duì)2017年3月6日至2017年5月7日共計(jì)5 952點(diǎn)A相功率值序列、電壓值序列和電流值序列組成原始數(shù)據(jù)集進(jìn)行異常甄別,對(duì)模型檢測(cè)出的異常點(diǎn)進(jìn)行曲線相關(guān)性研究分析,檢驗(yàn)異常數(shù)據(jù)甄別模型是否有效,檢測(cè)具體情況如下。
a)電流變化率過(guò)大異常。對(duì)電表A在5月7日的電流曲線數(shù)據(jù)(如圖7所示)進(jìn)行異常甄別,確定第37點(diǎn)為異常點(diǎn)。由圖7可以看出,在第37點(diǎn)處電流變化值較大,判定為異常值點(diǎn),異常原因?yàn)殡娏魍蛔儺惓?,異常?shù)據(jù)甄別有效。
b)功率變化率過(guò)大異常。對(duì)電表B在5月7日的功率曲線數(shù)據(jù)(如圖8所示)進(jìn)行異常甄別,確定第57點(diǎn)為異常點(diǎn)。由圖8可以看出,在第57點(diǎn)處功率變化值較大,判定為異常值點(diǎn),異常原因?yàn)楣β释蛔儺惓?,異常?shù)據(jù)甄別有效。
c)電流功率相關(guān)性異常。對(duì)電表C在5月7日的功率曲線及電流曲線數(shù)據(jù)(如圖9所示)進(jìn)行異常甄別,確定第75點(diǎn)為異常點(diǎn)。由圖9可以看出,在75點(diǎn)處,電流和功率相關(guān)性,顯著異常,判定為異常值點(diǎn),異常數(shù)據(jù)甄別有效。
實(shí)際電表測(cè)試出的異常甄別結(jié)果可反饋給有關(guān)部門進(jìn)行分析,若某一電表在一段時(shí)間內(nèi)多次檢測(cè)出異常點(diǎn),則它有較高的異常嫌疑;若它在某一較長(zhǎng)的時(shí)間段內(nèi)只有1個(gè)異常點(diǎn),也可比對(duì)異常點(diǎn)發(fā)生前后的數(shù)據(jù),排查是否發(fā)生了數(shù)值偏大或偏小的隱蔽表計(jì)異常。該模型為主動(dòng)排查異常用電計(jì)量裝置提供了可靠的依據(jù),有效縮小了排查范圍,有很高的參考價(jià)值。
圖7 電表A電流及電流變化值曲線Fig.7 A ammeter current and current change curve
圖8 電表B功率及功率變化值曲線Fig.8 B ammeter power and its change curve
表5 異常數(shù)據(jù)檢測(cè)結(jié)果Tab.5 Detection results of anomaly data
圖9 電表C電流及功率曲線Fig.9 C ammeter current and power curve
通過(guò)算例分析,得出以下結(jié)論:
a)基于LSTM分位數(shù)回歸算法的異常數(shù)據(jù)甄別模型具有可行性和有效性,在人工添加噪聲的模擬異常曲線檢測(cè)中,平均檢出率達(dá)到74.58%,平均誤檢率為21.18%。
b)基于多判據(jù)融合的異常數(shù)據(jù)甄別模型具有有效性,且該模型檢出率和誤檢率指標(biāo)水平較基于LSTM分位數(shù)回歸算法的異常數(shù)據(jù)甄別模型有進(jìn)一步改善。在人工添加噪聲的模擬異常曲線檢測(cè)中,平均檢出率達(dá)到76.27%,平均誤檢率為17.23%。
c)本文所提方法在人工添加的異常曲線和實(shí)際運(yùn)行故障的異常曲線中,均能有效檢測(cè)異常數(shù)據(jù)點(diǎn),表明了該方法用于模擬檢測(cè)具有可行性,本文建立的用電信息采集系統(tǒng)數(shù)據(jù)異常甄別模型具有實(shí)用性。
為了驗(yàn)證本文提出模型對(duì)于異常數(shù)據(jù)甄別的檢出率和誤判率,向正常運(yùn)行工況下的用電信息采集系統(tǒng)時(shí)序數(shù)據(jù)中添加正態(tài)分布噪聲,構(gòu)建并模擬用電信息采集系統(tǒng)系統(tǒng)異常數(shù)據(jù)。
本文建立的基于LSTM分位數(shù)回歸的用電信息采集系統(tǒng)數(shù)據(jù)異常甄別模型,實(shí)現(xiàn)了對(duì)智能電表歷史運(yùn)行曲線的有效學(xué)習(xí),運(yùn)用深度學(xué)習(xí)技術(shù)挖掘歷史時(shí)間序列數(shù)據(jù)特征,建立歷史數(shù)據(jù)與待檢測(cè)數(shù)據(jù)之間的映射關(guān)系,進(jìn)而對(duì)測(cè)試時(shí)間點(diǎn)智能電表運(yùn)行曲線進(jìn)行更為精確的概率預(yù)測(cè),獲得更為準(zhǔn)確置信區(qū)間范圍;將其與實(shí)際曲線進(jìn)行對(duì)比,從而尋找出異常點(diǎn)。人工添加噪聲的時(shí)間序列數(shù)據(jù)測(cè)試證明了該算法的有效性。
本文建立了基于多判據(jù)融合的用電信息采集系統(tǒng)數(shù)據(jù)異常甄別模型,通過(guò)原型聚類法、密度聚類法、概率密度法和深度學(xué)習(xí)方法分別檢測(cè),運(yùn)用“4取2”方法交叉驗(yàn)證,提高了異常點(diǎn)甄別檢出率,降低了異常點(diǎn)甄別的誤判率,提升了模型的異常點(diǎn)甄別能力,為運(yùn)營(yíng)檢測(cè)業(yè)務(wù)提供精確數(shù)據(jù)保障,有助于供電企業(yè)進(jìn)行抄核收工作,減少用戶和供電企業(yè)經(jīng)濟(jì)損失。