李紹堅,韋明超,甘靜,王國汪,莫江婷
(廣西電網(wǎng)有限責(zé)任公司南寧供電局,廣西 南寧 530001 )
隨著智能電網(wǎng)建設(shè)的不斷深度,電力系統(tǒng)的全面感知和智能量測,為電網(wǎng)安全、穩(wěn)定和經(jīng)濟運行提供了堅強的信息支持。電網(wǎng)多源數(shù)據(jù)融合已成為基于大數(shù)據(jù)分析的電網(wǎng)態(tài)勢感知和狀態(tài)辨識的基礎(chǔ)。電網(wǎng)電壓檢測和諧波監(jiān)測等都是提升電網(wǎng)電能質(zhì)量的關(guān)鍵。盡管采集技術(shù)日新月異,但時常會因為傳感器、傳輸設(shè)備和轉(zhuǎn)換設(shè)備等故障造成部分采集信號的丟失;又或者是在數(shù)據(jù)傳播過程中由于干擾而導(dǎo)致的數(shù)據(jù)丟失[1]。由于電網(wǎng)數(shù)據(jù)采集的時序性,當數(shù)據(jù)冗余不足時,對電壓缺失數(shù)據(jù)的分析得到的結(jié)論將與實際正確值有較大的偏差。因此,如何對缺失的數(shù)據(jù)進行準確有效的修復(fù),恢復(fù)采集數(shù)據(jù)的原貌,是多源數(shù)據(jù)融合過程中非常重要的問題。
當前,針對數(shù)據(jù)缺失和填補算法的較多,文獻[2]利用一系列線性和非線性回歸模型對缺失值進行填補。文獻[3]在KNN 算法的基礎(chǔ)上,提出結(jié)合機器學(xué)習(xí)和數(shù)據(jù)挖掘的優(yōu)勢,進行數(shù)據(jù)集的異常點檢測和填補,進一步提高填補的精度。數(shù)據(jù)填補算法得到了越來越多研究者的青睞。針對電網(wǎng)數(shù)據(jù)補全的研究也得到了部分研究人員的廣泛關(guān)注,正在開展研究。文獻[4-5] 分別采用插值法和、k 最鄰近法等擬合算法對電網(wǎng)數(shù)據(jù)中缺失較少且數(shù)值變化幅度平緩的情況進行處理。結(jié)果表明,以上方法獲得了較高的數(shù)據(jù)填補結(jié)果。文獻[6]研究了如何對電力系統(tǒng)功率缺失數(shù)據(jù)進行修復(fù),提出了一種機器學(xué)習(xí)算法結(jié)合自適應(yīng)估計學(xué)習(xí),有效地實現(xiàn)了對缺失功率數(shù)據(jù)的填補。文獻[7]研究如何對風(fēng)電功率缺失數(shù)據(jù)進行填補,提出了一種采用自適應(yīng)神經(jīng)模糊推理模型。仿真結(jié)果表明,該算法具有較好的填補正確率,但針對大面積數(shù)據(jù)缺失時,算法的填補效果還有待改進。文獻[8]針對負荷數(shù)據(jù)的缺失問題,提出采用數(shù)據(jù)的橫向關(guān)聯(lián)性方法,利用無監(jiān)督學(xué)習(xí)的策略進行訓(xùn)練,提高了填補的精度。此外,文獻[9]研究對調(diào)控數(shù)據(jù)進行填補,提出一種改進的混沌遺傳優(yōu)化算法填補缺失數(shù)據(jù)。仿真結(jié)果表明,該方法具有較好的填補效果。
以上的研究大多從某一方法或某一維度來分析缺失數(shù)據(jù)的填補方法,但這些方法均較少從多維度相關(guān)性的角度來分析缺失數(shù)據(jù)及對應(yīng)的填補策略。為此,本文提出一種多維度相關(guān)性分析的電壓缺失數(shù)據(jù)辨識方法IMVMDMC。該方法首先基于K均值聚類策略對歷史數(shù)據(jù)進行聚類分析,得到相似數(shù)據(jù)集合;其次,提出一種多維度相關(guān)分析的填補策略,利用皮爾遜系數(shù)獲得缺失數(shù)據(jù)的強關(guān)聯(lián)屬性,并采用基于熵權(quán)分析的多維度相關(guān)屬性綜合加權(quán)策略進行最優(yōu)值的選取和缺失數(shù)據(jù)的填補;最后采用基于核聚類的數(shù)據(jù)校驗方法,進一步改善填補的準確性。真實電網(wǎng)仿真結(jié)果驗證了該方法的有效性和優(yōu)勢。
為了找到和多個電壓缺失數(shù)據(jù)相似的數(shù)據(jù)集合,首先需要對各個時間段內(nèi)缺失值的歷史數(shù)據(jù)進行聚類分析,聚類分析采用K均值聚類算法[10],算法步驟如下:
(1)針對需要填補的缺失電壓數(shù)據(jù)確定填補電壓的范圍。在允許的電壓范圍內(nèi),隨機選取k個電壓值,并以此作為初始聚類中心C={C1,C2,…,Ck}。
(2)計算各聚類中心對象的均值,計算每個個體到中心對象間的距離,采用式(1)計算得到的最小距離對對象進行重新劃分
(1)
式中:wi為聚類中心;uj為聚類對象的個體。
(3)根據(jù)聚類結(jié)果,取各劃分中所有元素的全維度算術(shù)平均值作為均值,重新計算各變化中心的聚類均值。
(4)按照新的聚類中心重新進行聚類。
(5)重復(fù)(2)~(4)的步驟,直到所有聚類不再變化,最終得到K聚類劃分。
在對所有缺失數(shù)據(jù)進行聚類后,得到各缺失數(shù)據(jù)對應(yīng)的集合,傳統(tǒng)缺失數(shù)據(jù)的填補方法大多使用某個距離作為數(shù)據(jù)對象之間相似度的判斷,但是缺失數(shù)據(jù)的多維度屬性不可忽視,其對填補結(jié)果的影響較大?;谝陨系恼J識,本節(jié)首先對缺失數(shù)據(jù)的多維度屬性進行基于皮爾遜系數(shù)的關(guān)聯(lián)性分析,找到關(guān)聯(lián)性較高的多維度相關(guān)屬性;其次采用熵權(quán)分析法,對關(guān)聯(lián)屬性進行加權(quán)處理,得到綜合屬性權(quán)值;最后對綜合屬性權(quán)值進行排序,選取綜合屬性權(quán)值最高的作為填補值。
皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)是一種反應(yīng)不同隨機變量間線性相關(guān)程度的一種度量標準[11]。
當皮爾遜系數(shù)用于總體時,其表達式如式(2)所示。
(2)
式中:X,Y為兩個隨機變量;σX,σY分別為X,Y的標準差;Cov(X,Y)為協(xié)方差,如式(3)所示。
(3)
式中:n為樣本的數(shù)量。
當皮爾遜系數(shù)用于樣本時,其表達式如式(4)所示。
(4)
為了進一步得到和電網(wǎng)缺失數(shù)據(jù)相關(guān)性最高的歷史數(shù)據(jù),需要對關(guān)聯(lián)屬性進行加權(quán)處理,得到屬性的綜合權(quán)值,具體步驟如下:
(1)選擇缺失數(shù)據(jù)所有對應(yīng)的關(guān)聯(lián)屬性。
(2)通過皮爾遜相關(guān)系數(shù)計算各屬性間的互相關(guān)系數(shù),選擇互相關(guān)系數(shù)大于α(α為給定閥值)的屬性存入互相關(guān)集合HG。
(3)進一步計算HG集合中所有屬性的誤差期望EXPError(Xk,Yk)
(5)
式中:Cov(Xk,Yk)為Xk,Yk的協(xié)方差;Var[Xk]為Xk的方差;Var[Yk]為Yk的方差。
(4)若EXPError(Xk,Yk)>β(β為強相關(guān)閥值),則為強相關(guān)屬性,保留到強相關(guān)屬性集合QX中。
(5)對集合QX中的各屬性采用熵權(quán)法確立其屬性間的權(quán)重,得到權(quán)重向量如下:
W=[w1,w2,…,wm]
(6)
式中:m為強關(guān)聯(lián)屬性的個數(shù)。
(6)據(jù)強相關(guān)系數(shù)得到的屬性綜合加權(quán)值SX:
SX=W1S1+W2S1+…+WmSm
(7)
(7)對劃分集合內(nèi)的個體按照屬性綜合加權(quán)值按從大到小排序,選擇SX值最大的作為電壓缺失值的替代。
圖1 多維度屬性相關(guān)性填補策略流程圖
算法總體流程如圖1所示。
核聚類是一種聚類與核方法相結(jié)合的方法,這種方法通過非線性映射,根據(jù)核函數(shù)將數(shù)據(jù)集映射到高維空間,利用高維空間的特性采用線性方法分離核識別歐式空間不可分的問題,同時非線性映射具有放大提取特征的作用,提高聚類效果。本文在K均值聚類的基礎(chǔ)上加入核方法,核函數(shù)定義如下:
對任意的x,z∈X,X∈Rn,若函數(shù)K滿足
K(x,z)=〈ψ(x),ψ(z)〉
(8)
則稱函數(shù)k是核函數(shù)。ψ為從輸入空間X到特征空間的H的映射。
核函數(shù)的種類繁多,通常在沒有相應(yīng)問題的先驗知識的情況下,選用高斯核較多。高斯核相比其他核函數(shù),參數(shù)較少。在參數(shù)一定的情況下,高斯核函數(shù)可用于絕大部分的分布式樣本,公式如式(9)所示。
(9)
此外,由于引入核函數(shù)概念,傳統(tǒng)K均值聚類中定義的歐式距離公式也將通過核函數(shù)而變化。核函數(shù)用于反應(yīng)數(shù)據(jù)間相似度時,可用于距離函數(shù)。
假設(shè)k是歐式空間的核函數(shù),ψ是k的映射,k在空間X上定義的距離如式(10)所示。
(10)
式中:ρ為x,x′之間的相似度量。
數(shù)據(jù)校驗的目的是為了找出聚類中的異常點。因此,本文采用基于K均值核聚類方法進行異常點的檢測。
異常點的定義:假設(shè)存在x∈X且x?Ci,則x為離群點,可以看成目標函數(shù)SSE異常對象,如式(11)所示。
(11)
式中:dist為核距離,如式(10)所示。
異常點通常為偏離期望的離群點,因此,如果填補值為離群點,則很可能填補結(jié)果有誤或不準確?;谶@一特性,本文采用K均值核聚類算法甄別離群點是否是缺失填補值,具體步驟如下:
(1)獲取電壓填補值。
(2)采用式(11)計算聚類集合中的異常點。
(3)判斷異常點是否為電壓填補值。如果是則排除異常點,重新進行缺失值填補計算,知道確認所有異常點都不是填補值為止。
但需要指出的是,這一階段在對待民族主義國家的問題上,中國在從認識到政策實踐的轉(zhuǎn)變和落實過程中,蘇聯(lián)的因素是至關(guān)重要的,因為中國奉為圭臬的“兩大陣營”理論是由蘇聯(lián)所提出,并被用來指導(dǎo)整個東方陣營的對外關(guān)系。所以,雖然中國依據(jù)自身的利益、感受和判斷,試圖調(diào)整對印緬等民族主義國家的政策,但是沒有蘇聯(lián)的首肯,政策調(diào)整依然無法落地。例如,1952年9月,毛澤東電告正在訪問蘇聯(lián)的周恩來,印度和緬甸表示愿同中國簽訂互不侵犯條約,并希望中印兩國總理互訪。毛提出這種提議“不大好拒絕”,請其與蘇方就此進行商談。[51]
通過以上的分析,給出電壓缺失數(shù)據(jù)填補的總體辨識框架,如圖2所示。
本文選取真實電網(wǎng)近1年半的歷史數(shù)據(jù)作為歷史數(shù)據(jù)集,數(shù)據(jù)填補對象為電壓缺失值,為了體現(xiàn)本文提出算法(IMVMDMC)的優(yōu)勢,本文選取KNN方法和隨機森林算法(RF)進行對比分析,通過分析不同缺失率下的數(shù)據(jù)填補正確性,并分析不同方法的填補精度。
本文研究對象為某區(qū)域電網(wǎng)電壓值缺失情況,從歷史數(shù)據(jù)庫中選取挖掘數(shù)據(jù),采樣周期為5 min,對數(shù)據(jù)庫中的所有屬性計算皮爾遜相關(guān)系數(shù)及誤差期望(β取0.5),最終得到的強相關(guān)屬性為: {無功負荷,有功負荷,電流值}。選取強相關(guān)屬性作為數(shù)據(jù)集字段,再通過屬性綜合加權(quán)策略(ψ取0.6),最終得到約5 000組數(shù)據(jù)樣本集合。
圖2 電壓缺失數(shù)據(jù)填補總體辨識框架
為對填補的缺失數(shù)據(jù)進行評價,本文采用均方根誤差(root mean square error,RMSE) 和填補準確度 (accuracy) 評價算法。σRMSE表示填補的誤差,顯然當σRMSE值越小時,填補結(jié)果越好,σRMSE如(12)所示。
(12)
式中:xr,xi為分別為真實值和填補值;n為缺失值的個數(shù);σRMSE為填補值和真實值之間的差距,值越小說明填補結(jié)果可信度越高。
Accuracy反應(yīng)了填補的精度,如 式(13)所示。
(13)
為了充分檢測IMVMDMC算法的有效性,設(shè)置數(shù)據(jù)集中數(shù)據(jù)對象的屬性缺失,數(shù)據(jù)的個數(shù)不受影響,采用隨機刪除策略的1%、5%、10%、15%、20%、25%和30%的缺失數(shù)據(jù)集。為保證試驗結(jié)果的可靠性,對不同的缺失率做3次計算,3次計算的平均值作為最終試驗結(jié)果。
1) 不同算法填補均方差比較
不同缺失率情況下比較本文提出算法、FR算法 和KNN算法之間的差別,對各算法得到的試驗結(jié)果根據(jù)均方根誤差和填補準確度進行分析比較。
從圖3可以看出,本文提出的IMVMDMC算法在不同的缺失率情況下都獲得了最好的均方根誤差,相比RF和KNN算法填補效果最優(yōu)。
圖3 不同算法的均方差比較
2)不同算法填補準確性比較
從圖4可以發(fā)現(xiàn),IMVMDMC的填補效果最好,RF其次,KNN的填補效果最差,且與IMVMDMC和RF都有著較大差距。在缺失率不高的時候IMVMDMC和PF的填補效果相差不大,但是隨著缺失率的增加,IMVMDMC的填補正確率明顯比RF要好,盡管在試驗過程中算法的結(jié)果可能會隨著聚類結(jié)果的不同而有波動,但是總體來說,本文提出的IMVMDMC算法的填補效果要好于KNN和RF算法。
圖4 不同算法填補值填補準確度比較
為進一步分析算法的魯棒性,假設(shè)當前選取的數(shù)據(jù)集合為A,選取另一真實數(shù)據(jù)集合,定義為集合B,比較本文提出的IMVMDMC數(shù)據(jù)填補算法在不同數(shù)據(jù)集下的填補正確率,結(jié)果如圖5所示。
圖5 不同數(shù)據(jù)集合間的準確度比較
如圖5所示,IMVMDMC算法在不同的數(shù)據(jù)集下也能取得不錯的填補正確率。由于跟換了數(shù)據(jù)集,使得填補值結(jié)果的正確率略有下降,但總體上仍然保持了較高的填補的正確率。這也反應(yīng)了IMVMDMC算法的魯棒性,進一步說明了雖然數(shù)據(jù)集本身具有的維度對數(shù)據(jù)填補算法有著影響,但是在這種情況下算法仍能保證較高的正確率,具有良好的適應(yīng)性。
本文重點闡述了電壓數(shù)據(jù)缺失填補的相關(guān)理論,為提高電壓缺失值的填補效率,根據(jù)電壓缺失值的特點,提出了一種多維度相關(guān)性分析的電壓缺失數(shù)據(jù)辨識方法(IMVMDMC)。將K均值聚類策略用于對歷史數(shù)據(jù)的聚類分析,得到相似數(shù)據(jù)集合,并給出一種多維度相關(guān)分析的填補策略,利用皮爾遜系數(shù)獲得缺失數(shù)據(jù)的強關(guān)聯(lián)屬性,采用基于熵權(quán)分析的多維度相關(guān)屬性綜合加權(quán)策略進行電壓缺失數(shù)據(jù)的填補。最后采用基于核聚類的數(shù)據(jù)校驗方法,進一步提高填補的準確性。算例結(jié)果表明,本文提出的算法相比其他填補算法具有一定優(yōu)勢。