陳 婧,林 超,薛迎衛(wèi),施煒煒
(國網(wǎng)信通億力科技有限責(zé)任公司,福建 福州 350003)
智能電網(wǎng)是國家電網(wǎng)結(jié)構(gòu)體系的重要組成部分,對國民經(jīng)濟(jì)建設(shè)具有推動作用[1]。傳統(tǒng)電力行業(yè)的電量數(shù)據(jù)增長幅度較低,電量種類不多,且結(jié)構(gòu)不復(fù)雜。隨著智能電網(wǎng)信息化程度的不斷提升,電力電量數(shù)據(jù)發(fā)生很大改變,不但結(jié)構(gòu)、種類呈現(xiàn)多樣性變化,而且電量數(shù)據(jù)規(guī)模增長迅猛,數(shù)據(jù)量突破億萬級[2-4]。對于當(dāng)前電力行業(yè)的海量電量數(shù)據(jù),傳統(tǒng)數(shù)據(jù)處理方法已不能達(dá)到數(shù)據(jù)處理目標(biāo)。另外,電力行業(yè)的供電量要與需求量相平衡。若破壞原本的均衡狀態(tài),會嚴(yán)重影響電力系統(tǒng)的安全、平穩(wěn)運行。利用過去電量數(shù)據(jù)可實現(xiàn)未來用電量的預(yù)測,為電力生產(chǎn)分配及調(diào)度決策提供有力的數(shù)據(jù)支撐。這對于電力系統(tǒng)的高效運行具有重要意義。因此,電量數(shù)據(jù)必須準(zhǔn)確、無異常。
通過數(shù)據(jù)挖掘技術(shù)對智能電網(wǎng)海量電量數(shù)據(jù)進(jìn)行分析,對于異常電量數(shù)據(jù)的快速檢測具有重要意義[5]。張春輝等針對電力系統(tǒng)電量數(shù)據(jù)受外在因素影響生成異常數(shù)據(jù)的問題,提出通過小波方法識別異常電力負(fù)荷。該方法雖能實現(xiàn)異常電量數(shù)據(jù)的檢測,但對異常數(shù)據(jù)的自主修復(fù)能力較弱[6]。蔣華等針對海洋浮標(biāo)異常數(shù)據(jù),提出通過改進(jìn)K均值聚類算法實現(xiàn)異常數(shù)據(jù)檢測的方法。該方法可自適應(yīng)確定聚類中心,通過數(shù)據(jù)與聚類中心的距離均值篩選異常數(shù)據(jù)。該方法的異常數(shù)據(jù)檢測率雖高,但誤檢率也較高[7]。
為保證智能電網(wǎng)中海量電量數(shù)據(jù)質(zhì)量、高效識別異常電量數(shù)據(jù),本文基于數(shù)據(jù)挖掘的電量數(shù)據(jù)異常智能識別和修復(fù),通過粒子群優(yōu)化-可能性模糊C均值(particle swarm optimization-possibilistic fuzzy C-means,PSO-PFCM)聚類算法識別異常電量數(shù)據(jù),并運用徑向基函數(shù)(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)實現(xiàn)異常數(shù)據(jù)的修復(fù),以提高異常電量數(shù)據(jù)的識別準(zhǔn)確率。
由于電力系統(tǒng)的電量數(shù)據(jù)信息規(guī)模巨大,利用可能性模糊C均值(possibilistic fuzzy C-means,PFCM)聚類算法對其進(jìn)行聚類時,聚類數(shù)目難以預(yù)測。通過設(shè)定指標(biāo)函數(shù)的方式,可有效解決PFCM算法的聚類問題。函數(shù)的描述為:
(1)
式中:c為數(shù)據(jù)類別;n為樣本數(shù);r為聚類參數(shù);bi為第i個聚類中心;uij為模糊矩陣。
(2)
式中:tij為概率劃分矩陣;k為歸一化樣本數(shù)。
(3)
(4)
由此說明,PFCM算法的指標(biāo)函數(shù)在符合隸屬度歸一化限制條件的同時,可通過概率劃分矩陣使聚類數(shù)目達(dá)到最優(yōu)[9]。
通過粒子群算法對粒子進(jìn)行初始化。粒子選擇遵循任意性原則,在不斷迭代過程中尋求最佳答案。迭代過程產(chǎn)生兩個最優(yōu)解,分別為局部最優(yōu)解和整體最優(yōu)解,根據(jù)這兩個最優(yōu)解不斷對粒子進(jìn)行替換[10-11]。搜尋區(qū)域為d維。種群包含粒子數(shù)量為n。種群的第i個粒子在d維中的向量為Xi=(xi1,xi2,…,xid),i=1,2,…,n。飛行速度Vi=(vi1,vi2,…,vid),i=1,2,…,n。局部最優(yōu)解為粒子搜尋到的最佳位置:
Pbest=(pi1,pi2,…,pid)
(5)
全局最優(yōu)解為種群搜尋到的最佳位置:
gbest=(pg1,pg2,…,pgd)
(6)
vid=βvid+f1r1(pid-xid)+f2r2(pgd-xid)
(7)
式中:β為慣性權(quán)重;f1、f2為加速度因子,且f1≠f2;r1、r2為區(qū)間[0,1]內(nèi)的任意數(shù),且r1≠r2。
xid=pid+vid
(8)
通過式(7)、式(8),可對粒子的速度及位置進(jìn)行替換。通過粒子群算法可進(jìn)一步獲得PFCM聚類算法的聚類中心。
異常電量數(shù)據(jù)的智能識別流程如圖1所示。
圖1 異常電量數(shù)據(jù)的智能識別流程圖Fig.1 Intelligent identification flowchart of abnormal power data
通過PSO-PFCM算法可實現(xiàn)電量數(shù)據(jù)的異常智能識別。電量數(shù)據(jù)異常智能檢測流程如下。
①電量數(shù)據(jù)預(yù)處理。由于聚類結(jié)果會因電量增長受到一定影響,從而增加計算繁雜度,因此需歸一化電量數(shù)據(jù)。
②電量特征曲線聚類。通過V(c)函數(shù)和粒子群優(yōu)化(particle swarm optimization,PSO)算法確定聚類中心和聚類數(shù)量的最優(yōu)解。PSO-PFCM聚類算法可實現(xiàn)電量曲線的聚類。
③電量數(shù)據(jù)異常智能識別。根據(jù)所獲電量曲線對聚類結(jié)果進(jìn)行研究,并結(jié)合全部類型電量曲線的特性對異常電量數(shù)據(jù)進(jìn)行智能識別。
RBF神經(jīng)網(wǎng)絡(luò)是包含三層結(jié)構(gòu)的前饋網(wǎng)絡(luò)。三層結(jié)構(gòu)分別為輸入層、隱含層及輸出層。本文方法以識別到的異常電量數(shù)據(jù)產(chǎn)生時刻為基點。該時刻前期的異常電量數(shù)據(jù)作為網(wǎng)絡(luò)輸入值,通過網(wǎng)絡(luò)輸出結(jié)果實現(xiàn)異常電量數(shù)據(jù)的修復(fù)。輸出結(jié)果可用式(9)描述:
(9)
式中:x=[x1,x2,…,xm]T為神經(jīng)網(wǎng)絡(luò)的輸入向量;m為輸入層中的節(jié)點個數(shù);y為網(wǎng)絡(luò)輸出向量;ωi為隱含層的第i個節(jié)點與輸出層的權(quán)值向量;Ri(x)為網(wǎng)絡(luò)隱含層的第i個RBF。
RBF選取高斯函數(shù),表達(dá)式為:
(10)
①采用K-means算法對訓(xùn)練樣本進(jìn)行聚類,以確定ci。聚類數(shù)量為隱含層節(jié)點數(shù)。
②根據(jù)ci確定σ,表達(dá)式為:
σ=bmin(ci-cg)
(11)
式中:b為疊加系數(shù);cg為隱含層的聚類中心。
③ω采用最小均方(least mean square,LMS)算法計算,并通過對訓(xùn)練樣本集分配的方式對其進(jìn)行訓(xùn)練。分布式系統(tǒng)結(jié)構(gòu)中增加計算節(jié)點數(shù)量。各節(jié)點構(gòu)建RBF神經(jīng)網(wǎng)絡(luò),將訓(xùn)練樣本均分給各節(jié)點以實現(xiàn)并行處理。
各節(jié)點實現(xiàn)任務(wù)處理后,獲得權(quán)值向量ωi=[ωi1,ωi2,…,ωih]T,0
ω(m+1)=ωT(m)+ηX(m)e(m)
(12)
式中:m為迭代系數(shù),當(dāng)m=0時,ω(0)為極小值;η為學(xué)習(xí)效率;X(m)為輸入樣本;e(m)為理想值與實測值的差值。
e(m)=d(m)-YT(m)
(13)
式中:d(m)為理想輸出;Y(m)為輸出實測值向量。
在得到權(quán)值的基礎(chǔ)上,本文訓(xùn)練各節(jié)點的RBF神經(jīng)網(wǎng)絡(luò),以計算訓(xùn)練準(zhǔn)確率。αi為各節(jié)點對于全部節(jié)點所占的比重,可通過準(zhǔn)確率求得。RBF神經(jīng)網(wǎng)絡(luò)的權(quán)值向量可表達(dá)為:
(14)
異常電量數(shù)據(jù)的修復(fù)流程如下。
①對RBF神經(jīng)網(wǎng)絡(luò)異常數(shù)據(jù)修復(fù)模型進(jìn)行構(gòu)建。該模型可將識別到的大規(guī)模電量數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),并實現(xiàn)唯一結(jié)果的輸出。基于某時刻的異常電量數(shù)據(jù),以該時刻之前的電量數(shù)據(jù)作為歷史數(shù)據(jù),將其傳輸至神經(jīng)網(wǎng)絡(luò)。RBF輸出結(jié)果為異常電量數(shù)據(jù)的修復(fù)值。
②選取訓(xùn)練樣本并對其歸一化。預(yù)處理后的訓(xùn)練樣本集分配到各訓(xùn)練節(jié)點,通過訓(xùn)練樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
③將歷史電量數(shù)據(jù)輸入訓(xùn)練好的RBF神經(jīng)網(wǎng)絡(luò),得到對應(yīng)的輸出結(jié)果,并用輸出結(jié)果替換異常電量數(shù)據(jù)。
④異常電量數(shù)據(jù)修復(fù)后,通過相對誤差檢測修復(fù)是否準(zhǔn)確。相對誤差可描述為:
(15)
式中:Zf為修復(fù)值;Z為原電量數(shù)據(jù)值。
異常電量數(shù)據(jù)修復(fù)流程如圖2所示。
圖2 異常電量數(shù)據(jù)修復(fù)流程圖Fig.2 Abnormal power data repair flowchart
本文以某地區(qū)數(shù)據(jù)采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)系統(tǒng)為研究對象,采集當(dāng)年6月、7月的電量數(shù)據(jù)并建立數(shù)據(jù)集。數(shù)據(jù)集中包含500條電量數(shù)據(jù)。試驗隨機(jī)選取其中300條電量數(shù)據(jù)作為訓(xùn)練樣本,而剩余200條電量數(shù)據(jù)作為測試樣本。為驗證本文方法對于異常電量數(shù)據(jù)的智能識別能力和修復(fù)性能,試驗在數(shù)據(jù)集中人為替換部分異常數(shù)據(jù)。
本文方法通過設(shè)計新指標(biāo)函數(shù)對電量數(shù)據(jù)進(jìn)行聚類,以確定最優(yōu)聚類數(shù);通過與原指標(biāo)函數(shù)的對比,驗證新指標(biāo)函數(shù)對于確定聚類數(shù)量的有效性。最優(yōu)聚類數(shù)確定結(jié)果如圖3所示。
圖3 最優(yōu)聚類數(shù)確定結(jié)果Fig.3 Optimal number of clusters determines results
由圖3可知,當(dāng)采用原指標(biāo)函數(shù)進(jìn)行電量數(shù)據(jù)聚類時,指標(biāo)函數(shù)值不存在最小值,無法判斷出最優(yōu)聚類數(shù)目。本文方法的指標(biāo)函數(shù)在聚類數(shù)目為4時輸出最小值為1。函數(shù)值越小,其聚類結(jié)果越接近真實數(shù)據(jù)規(guī)律。因此,本文確定最優(yōu)聚類數(shù)為4。試驗結(jié)果表明,通過本文方法可確定最佳聚類數(shù)目,且聚類效果較好。
在確定聚類數(shù)目的前提下,試驗對數(shù)據(jù)集中的500條電量數(shù)據(jù)進(jìn)行聚類,并以某個含有異常電量數(shù)據(jù)的聚類結(jié)果為對象,采用本文方法提取電量特征曲線,從而驗證本文方法的聚類效果。電量特征曲線如圖4所示。
圖4 電量特征曲線Fig.4 Power quantity characteristic curves
由圖4可知,在此類別電量曲線中,多數(shù)曲線的運行規(guī)律均與聚類中心的走勢保持一致,僅有個別曲線偏離聚類中心。其中,異常電量曲線明顯偏離聚類中心,且與聚類中心相距較遠(yuǎn),完全違背了該曲線的原有數(shù)據(jù)規(guī)律。由此可判斷,該曲線為異常數(shù)據(jù)曲線。因此,本文方法可智能識別出電量數(shù)據(jù)中的異常數(shù)據(jù)。
采用本文方法對數(shù)據(jù)集中數(shù)據(jù)進(jìn)行智能識別,可判斷各類別電量數(shù)據(jù)中是否存在異常數(shù)據(jù)。異常數(shù)據(jù)用A標(biāo)記。各類電量異常數(shù)據(jù)識別結(jié)果如表1所示。
表1 異常數(shù)據(jù)識別結(jié)果Tab.1 Abnormal data identification results
由表1可知,本文方法可對數(shù)據(jù)集中的全部電量數(shù)據(jù)進(jìn)行聚類,從而有效識別電量數(shù)據(jù)所屬類別以及電量數(shù)據(jù)異常日期、異常時刻、異常電量值,并對異常數(shù)據(jù)進(jìn)行標(biāo)記。第一類電量數(shù)據(jù)6:00的電量值與實際值具有較大偏差,因此可進(jìn)一步驗證圖4結(jié)果。
本文分別采用文獻(xiàn)[6]方法、文獻(xiàn)[7]方法及本文方法對電量數(shù)據(jù)進(jìn)行異常識別,通過檢測率及誤檢率指標(biāo)驗證3種方法的異常數(shù)據(jù)識別能力。異常電量數(shù)據(jù)識別效果分析結(jié)果如表2所示。
表2 異常電量數(shù)據(jù)識別效果分析結(jié)果Tab.2 Results of analyzing the effect of identifying abnormal power data
由表2可知,在同規(guī)模電量數(shù)據(jù)條件下:文獻(xiàn)[7]方法的異常電量數(shù)據(jù)檢測率最低;文獻(xiàn)[6]方法檢測率居中;本文方法的檢測率最高,達(dá)到0.82以上。針對誤檢率指標(biāo),文獻(xiàn)[6]方法最高、文獻(xiàn)[7]方法居中。本文方法最低,低于0.06。試驗結(jié)果表明,在3種方法中,本文方法的異常電量檢測率最高、誤檢率最低,對電量數(shù)據(jù)的異常智能識別能力最強(qiáng),效果最顯著。
本文將訓(xùn)練樣本輸入RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,運用訓(xùn)練后的RBF神經(jīng)網(wǎng)絡(luò)對異常電量數(shù)據(jù)進(jìn)行修復(fù),并與異常電量值、實際電量值進(jìn)行對比,從而分析本文方法的異常數(shù)據(jù)修復(fù)性能。異常電量數(shù)據(jù)修復(fù)曲線如圖5所示。
圖5 異常電量數(shù)據(jù)修復(fù)曲線Fig.5 Abnormal power data fix curves
由圖5可知,電量數(shù)據(jù)的異常時刻發(fā)生在6:00~9:00。在此期間內(nèi),電量數(shù)據(jù)異常值與實際電量值間存在較大偏差。經(jīng)本文方法對其進(jìn)行修復(fù)后,電量數(shù)據(jù)修復(fù)值接近于實際電量值。結(jié)果表明,本文方法可對異常電量數(shù)據(jù)進(jìn)行修復(fù),且準(zhǔn)確度較高。
試驗分別采用本文方法、文獻(xiàn)[6]方法、文獻(xiàn)[7]方法對異常電量數(shù)據(jù)進(jìn)行修復(fù),通過對比分析三種方法的修復(fù)相對誤差,進(jìn)一步驗證本文方法的異常數(shù)據(jù)修復(fù)性能。修復(fù)性能對比曲線如圖6所示。
圖6 修復(fù)性能對比曲線Fig.6 Repair performance comparison curres
由圖6可知,隨著電量數(shù)據(jù)的不斷增多,采用三種方法對異常電量數(shù)據(jù)進(jìn)行修復(fù),其相對誤差呈現(xiàn)逐步升高的趨勢。文獻(xiàn)[6]方法的修復(fù)相對誤差升高幅度最大,而文獻(xiàn)[7]方法次之。本文方法的修復(fù)相對誤差呈小幅度增長,僅增長了20%,且曲線增長更為平穩(wěn)。試驗結(jié)果表明,本文方法的異常電量數(shù)據(jù)修復(fù)相對誤差更小、數(shù)據(jù)修復(fù)更準(zhǔn)確、修復(fù)性能更顯著。
針對智能電網(wǎng)電量數(shù)據(jù)增長迅猛導(dǎo)致的電量數(shù)據(jù)異?,F(xiàn)象,為提高異常數(shù)據(jù)檢測準(zhǔn)確度,本文提出基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)的識別和修復(fù)方法。為驗證本文方法的異常識別和修復(fù)性能,本文首先利用本文方法確定最佳聚類數(shù)目,并對電量數(shù)據(jù)的特征曲線進(jìn)行提取;其次利用本文方法對數(shù)據(jù)集中的電量數(shù)據(jù)進(jìn)行智能識別,判斷是否存在異常電量數(shù)據(jù),并與文獻(xiàn)[6]和文獻(xiàn)[7]方法進(jìn)行比較,以驗證本文方法的異常數(shù)據(jù)識別能力;最后對異常數(shù)據(jù)進(jìn)行修復(fù),以分析本文方法的修復(fù)性能。試驗結(jié)果表明:本文方法可實現(xiàn)聚類數(shù)目及聚類中心的優(yōu)化,通過電量特征曲線可智能識別異常電量數(shù)據(jù);同時,本文方法對異常電量數(shù)據(jù)修復(fù)后,修復(fù)值與實際值的偏差很小。