文萍芳
(池州職業(yè)技術(shù)學(xué)院實(shí)驗實(shí)訓(xùn)中心 安徽池州 247000)
通常情況下,大部分電力公司均采用電能表采集電力用戶的電力數(shù)據(jù)[1]。在智能電網(wǎng)環(huán)境下,電能表處于持續(xù)創(chuàng)新階段,導(dǎo)致電能表數(shù)據(jù)呈爆炸式趨勢增長。為提升電力數(shù)據(jù)的存儲容量,電力公司會通過云端存儲電能表采集的電力數(shù)據(jù)[2]。為快速、精準(zhǔn)的在云端內(nèi),提取有價值的電能表云端數(shù)據(jù),為電力分析與竊電檢測等應(yīng)用提供有利的數(shù)據(jù)支持,需研究智能的電能表云端數(shù)據(jù)自適應(yīng)聚類方法。例如,劉惠在K-means算法內(nèi),引入核函數(shù),通過改進(jìn)K-means算法,自適應(yīng)聚類電能表云端數(shù)據(jù)。該方法可有效聚類電能表云端數(shù)據(jù),提升數(shù)據(jù)聚類的穩(wěn)定性[5]。李麗亞等人通過Frobeius范數(shù),對加權(quán)自適應(yīng)多視圖聚類算法進(jìn)行改進(jìn),降低數(shù)據(jù)聚類的自由度,將其與K-means聚類算法結(jié)合到一起,用于自適應(yīng)聚類電能表云端數(shù)據(jù)。該方法明顯降低了電能表云端數(shù)據(jù)聚類時間,具備較優(yōu)的聚類效果[3]。對于不平衡數(shù)據(jù)集,這兩種方法的聚類可靠性較低。數(shù)據(jù)挖掘可在海量數(shù)據(jù)內(nèi)挖掘有價值信息[4]。模糊C-均值(Fuzzy C-Means,F(xiàn)CM)聚類算法是常用的數(shù)據(jù)挖掘算法之一。為此設(shè)計基于數(shù)據(jù)挖掘的電能表云端數(shù)據(jù)自適應(yīng)聚類方法,通過FCM算法與過采樣技術(shù)(synthetic minority oversampling technique,SMOTE),解決不平衡數(shù)據(jù)的問題,提升電能表云端數(shù)據(jù)聚類精度,為電力公司提供更好地服務(wù)。
實(shí)際生活中,電能表云端內(nèi)存儲的數(shù)據(jù),通常會出現(xiàn)不平衡數(shù)據(jù)集,在自適應(yīng)聚類電能表云端數(shù)據(jù)時,會將電能表云端數(shù)據(jù)劃分至多數(shù)類,降低電能表云端數(shù)據(jù)聚類的可靠性[5]。為此,利用改進(jìn)SMOTE算法,處理電能表云端內(nèi)的不平衡數(shù)據(jù)集,得到平衡的電能表云端數(shù)據(jù)。利用改進(jìn)SMOTE算法處理不平衡電能表云端數(shù)據(jù)的具體步驟如下:
(1)
式中,第j個多數(shù)類電能表云端數(shù)據(jù)樣本是yj。
(2)求解全部Oi的累加和O,公式如下:
(2)
(3)求解少數(shù)類與多數(shù)類電能表云端數(shù)據(jù)樣本間的歐式距離均值Oave,公式如下:
(3)
(4)按照順序選擇各xi的中心圈定區(qū)域,其半徑是Oave。再統(tǒng)計該區(qū)域內(nèi)yj的數(shù)量,將其當(dāng)成xi的支持度ξ。
(5)按照ξ選取xi,合成新樣本,公式如下:
zi=xi+λ×(xl-xi)
(4)
式(4)中,影響因素是λ;xi的鄰近少數(shù)類電能表云端數(shù)據(jù)樣本是xl;新樣本是zi,即平衡的電能表云端數(shù)據(jù)。λ的計算公式如下:
(5)
式(5)中,隨機(jī)數(shù)是r∈(0,1);xi和yj間的歐式距離均值是δ′;少數(shù)類電能表云端數(shù)據(jù)樣本間的歐式距離均值是δ;合成電能表云端數(shù)據(jù)時[6],xi和xi的K個同類近鄰的歐式距離均值是δ1;xi和xi的K個多數(shù)類鄰近的歐式距離均值是δ2。
不平衡處理后,獲取的平衡電能表云端數(shù)據(jù)集是Z={z1,z2,…,zn};電能表云端數(shù)據(jù)樣本數(shù)量是n;電能表云端數(shù)據(jù)已知類別數(shù)是c。利用FCM算法聚類電能表云端數(shù)據(jù)的目標(biāo)函數(shù)為:
(6)
uij′與sj′的更新公式如下:
(7)
(8)
式(7)中,zi與第k個聚類中心sk間的歐式距離是dik=‖zi-sk‖。
擴(kuò)展式(6)的目標(biāo)函數(shù)獲?。?/p>
(9)
根據(jù)式(9)可知,各電能表云端數(shù)據(jù)樣本zi與其類中心間的模糊距離系數(shù)是1,代表FCM算法內(nèi),各zi對J的貢獻(xiàn)一樣重要,這也包括樣本點(diǎn)是噪聲點(diǎn),此時便會降低電能表云端數(shù)據(jù)聚類效果[7]。為此,在FCM算法內(nèi),添加自適應(yīng)權(quán)重W=(w1,w2,…,wn),W的作用是描繪各zi的重要程度。利用自適應(yīng)權(quán)FCM算法,自適應(yīng)聚類電能表云端數(shù)據(jù)的目標(biāo)函數(shù)為:
(10)
式(10)中,zi的自適應(yīng)權(quán)重是wi。
wi與vj′的更新公式如下:
(11)
(12)
其中,自適應(yīng)指數(shù)是p。
將式(7)、式(11)、式(12)代入式(10),輸出電能表云端數(shù)據(jù)聚類結(jié)果。
利用自適應(yīng)權(quán)FCM算法,自適應(yīng)聚類電能表云端數(shù)據(jù)時,雖然能夠降低噪聲樣本對自適應(yīng)聚類結(jié)果的影響,但卻比較依賴初始聚類中心的選擇。為解決這一問題,將引入的自適應(yīng)權(quán)重,變更成中心自適應(yīng)權(quán)重ω。在FCM算法內(nèi),添加ω,會提升算法的魯棒性,此時,電能表云端數(shù)據(jù)自適應(yīng)聚類的目標(biāo)函數(shù)為:
(13)
式(13)中,vj′的中心自適應(yīng)權(quán)重是ωj′;ωj′的自適應(yīng)指數(shù)是q。
通過拉格朗日插值法,計算ω、U、S的拉格朗日函數(shù)L(ω,U,S),公式如下:
(14)
式(14)中,ωj′與uij′對應(yīng)的拉格朗日乘子是αj′、αi。
在L(ω,U,S)內(nèi),計算ω、U、S的偏導(dǎo),并設(shè)置其值是0,獲?。?/p>
(15)
(16)
(17)
(18)
將式(16)至式(18)的更新結(jié)果代入式(13)內(nèi),獲取電能表云端數(shù)據(jù)的自適應(yīng)聚類結(jié)果。
在中心自適應(yīng)權(quán)FCM算法內(nèi),m與q屬于影響電能表云端數(shù)據(jù)自適應(yīng)聚類的主要參數(shù)。因此,通過自適應(yīng)蟻群算法,優(yōu)化m和q,提升電能表云端數(shù)據(jù)自適應(yīng)聚類效果。具體步驟如下:
(1)蟻群算法初始化。
(19)
式(19)中,加權(quán)因子是θ。
(3)求解更新路徑中的信息素濃度σij′,公式如下:
(20)
式(20)中,迭代次數(shù)是t;σij′的衰減與調(diào)節(jié)因子是ρ、β;待定參數(shù)是Q。
(4)求解zi隸屬于sj′的概率gij′(t),如果gij′(t)>ε,則將zi歸入sj′,并利用式(18)更新sj′;反之,跳轉(zhuǎn)至步驟3。其中,概率閾值是ε。gij′(t)的計算公式如下:
(21)
式(21)中,引導(dǎo)函數(shù)是ζij′;σij′與ζij′的影響因子是κ1、κ2。
σij′(t+1)=ρσij′(t)+Δσij′
(22)
式(22)中,σij′的增加量是Δσij′。
(6)初始化U與ω,利用式(8)計算S。
(7)利用式(16)~(18)更新uij′、ωj′、sj′。
(8)通過式(13)計算電能表云端數(shù)據(jù)自適應(yīng)聚類的目標(biāo)函數(shù),在整個算法收斂情況下,輸出電能表云端數(shù)據(jù)自適應(yīng)聚類結(jié)果。
以某電力公司2021年的電能表云端數(shù)據(jù)為實(shí)驗對象,利用文章方法對該電力公司的電能表云端數(shù)據(jù)進(jìn)行自適應(yīng)聚類,提升后續(xù)電能表云端數(shù)據(jù)的應(yīng)用效果,該電力公司內(nèi)電能表云端數(shù)據(jù)內(nèi)共包含5中類型的電力數(shù)據(jù),具體信息如表1所示。利用文章方法處理該電力公司的電能表云端數(shù)據(jù)集,得到平衡的電能表云端數(shù)據(jù),經(jīng)過處理后的電能表云端數(shù)據(jù)不平衡率如表2所示。對比表1與表2可知,經(jīng)過文章方法處理后,可有效降低各類型電能表云端數(shù)據(jù)的不平衡率,最高不平衡率僅有1.5%。實(shí)驗證明:文章方法可有效處理不平衡電能表云端數(shù)據(jù),降低數(shù)據(jù)不平衡率。
表1 電能表云端數(shù)據(jù)的基本信息
表2 處理后電能表云端數(shù)據(jù)的不平衡率
利用文章方法對電能表云端數(shù)據(jù)集內(nèi)的部分二維數(shù)據(jù)進(jìn)行自適應(yīng)聚類,并在選擇的部分二維電能表云端數(shù)據(jù)內(nèi),加入高斯噪聲,文章方法的自適應(yīng)聚類結(jié)果如圖1所示。根據(jù)圖1(a)可知,加噪后的原始數(shù)據(jù)分布較混亂,同時原始數(shù)據(jù)中夾雜著大量噪聲數(shù)據(jù);根據(jù)圖1(b)可知,經(jīng)過文章方法自適應(yīng)聚類后,可有效將不同類型的電能表云端數(shù)據(jù)自適應(yīng)聚類到一起,且無混淆情況,聚類類別共有4類,與實(shí)際情況相符,說明文章方法的自適應(yīng)聚類精度較高。實(shí)驗證明:文章方法可精準(zhǔn)自適應(yīng)聚類二維電能表云端數(shù)據(jù),且抗噪性能較優(yōu)。
(a)加噪后的原始數(shù)據(jù)分布情況
利用文章方法對電能表云端數(shù)據(jù)集內(nèi)的部分三維數(shù)據(jù)進(jìn)行自適應(yīng)聚類,并在選擇的部分三維電能表云端數(shù)據(jù)內(nèi),加入高斯噪聲,文章方法的自適應(yīng)聚類結(jié)果如圖2所示。根據(jù)圖2可知,文章方法可有效自適應(yīng)聚類三維電能表云端數(shù)據(jù),且自適應(yīng)聚類的類別數(shù)與實(shí)際情況一致,說明文章方法自適應(yīng)聚類的精度較高,且自適應(yīng)聚類后各類型數(shù)據(jù)分布較為集中。實(shí)驗證明:文章方法可精準(zhǔn)自適應(yīng)聚類三維電能表云端數(shù)據(jù)。
利用歸一化互信息指標(biāo)(NMI)與芮氏指標(biāo)(RI),衡量文章方法的自適應(yīng)聚類效果,NMI與RI越高,說明自適應(yīng)聚類效果越佳,在不同類型的二維電能表云端數(shù)據(jù)內(nèi)添加不同程度的干擾信息,分析不同程度干擾信息時,文章方法自適應(yīng)聚類的NMI與RI,分析結(jié)果如圖3、圖4所示。
圖3 自適應(yīng)聚類的NMI分析結(jié)果
圖4 自適應(yīng)聚類的RI分析結(jié)果
根據(jù)圖3可知,隨著干擾信息的增加,文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的NMI值不斷下降,最低NMI值分別在0.87、0.83、0.86左右,均未低于NMI閾值。實(shí)驗證明:在不同程度干擾信息時,文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的NMI值較高,即自適應(yīng)聚類精度較高。
根據(jù)圖4可知,隨著干擾信息的增加,文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的RI值不斷下降,最低RI值分別在0.74、0.77、0.79左右,均未低于RI閾值。實(shí)驗證明:在不同程度干擾信息時,文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的RI值較高,即自適應(yīng)聚類效果較優(yōu)。
為加快電能表云端數(shù)據(jù)的應(yīng)用效率,提升應(yīng)用效果,研究基于數(shù)據(jù)挖掘的電能表云端數(shù)據(jù)自適應(yīng)聚類方法,在FCM聚類算法內(nèi),添加中心權(quán)重與自適應(yīng)指數(shù),可有效降低FCM聚類算法對噪聲的敏感性,幫助該算法跳出局部極值,精準(zhǔn)聚類電能表云端數(shù)據(jù),為電力數(shù)據(jù)分析與制定供電計劃等應(yīng)用,提供更為精準(zhǔn)的數(shù)據(jù)支持,降低后續(xù)電能表云端數(shù)據(jù)應(yīng)用的計算復(fù)雜度。