基于數(shù)據(jù)挖掘的電能表云端數(shù)據(jù)自適應(yīng)聚類方法*

2023-05-10 08:29:12文萍芳

九江學(xué)院學(xué)報(自然科學(xué)版) 2023年1期

文萍芳

(池州職業(yè)技術(shù)學(xué)院實(shí)驗實(shí)訓(xùn)中心安徽池州 247000)

通常情況下，大部分電力公司均采用電能表采集電力用戶的電力數(shù)據(jù)[1]。在智能電網(wǎng)環(huán)境下，電能表處于持續(xù)創(chuàng)新階段，導(dǎo)致電能表數(shù)據(jù)呈爆炸式趨勢增長。為提升電力數(shù)據(jù)的存儲容量，電力公司會通過云端存儲電能表采集的電力數(shù)據(jù)[2]。為快速、精準(zhǔn)的在云端內(nèi)，提取有價值的電能表云端數(shù)據(jù)，為電力分析與竊電檢測等應(yīng)用提供有利的數(shù)據(jù)支持，需研究智能的電能表云端數(shù)據(jù)自適應(yīng)聚類方法。例如，劉惠在K-means算法內(nèi)，引入核函數(shù)，通過改進(jìn)K-means算法，自適應(yīng)聚類電能表云端數(shù)據(jù)。該方法可有效聚類電能表云端數(shù)據(jù)，提升數(shù)據(jù)聚類的穩(wěn)定性[5]。李麗亞等人通過Frobeius范數(shù)，對加權(quán)自適應(yīng)多視圖聚類算法進(jìn)行改進(jìn)，降低數(shù)據(jù)聚類的自由度，將其與K-means聚類算法結(jié)合到一起，用于自適應(yīng)聚類電能表云端數(shù)據(jù)。該方法明顯降低了電能表云端數(shù)據(jù)聚類時間，具備較優(yōu)的聚類效果[3]。對于不平衡數(shù)據(jù)集，這兩種方法的聚類可靠性較低。數(shù)據(jù)挖掘可在海量數(shù)據(jù)內(nèi)挖掘有價值信息[4]。模糊C-均值(Fuzzy C-Means，F(xiàn)CM)聚類算法是常用的數(shù)據(jù)挖掘算法之一。為此設(shè)計基于數(shù)據(jù)挖掘的電能表云端數(shù)據(jù)自適應(yīng)聚類方法，通過FCM算法與過采樣技術(shù)(synthetic minority oversampling technique，SMOTE)，解決不平衡數(shù)據(jù)的問題，提升電能表云端數(shù)據(jù)聚類精度，為電力公司提供更好地服務(wù)。

1 電能表云端數(shù)據(jù)自適應(yīng)聚類

1.1 基于改進(jìn)SMOTE的電能表云端不平衡數(shù)據(jù)處理

實(shí)際生活中，電能表云端內(nèi)存儲的數(shù)據(jù)，通常會出現(xiàn)不平衡數(shù)據(jù)集，在自適應(yīng)聚類電能表云端數(shù)據(jù)時，會將電能表云端數(shù)據(jù)劃分至多數(shù)類，降低電能表云端數(shù)據(jù)聚類的可靠性[5]。為此，利用改進(jìn)SMOTE算法，處理電能表云端內(nèi)的不平衡數(shù)據(jù)集，得到平衡的電能表云端數(shù)據(jù)。利用改進(jìn)SMOTE算法處理不平衡電能表云端數(shù)據(jù)的具體步驟如下：

(1)

式中，第j個多數(shù)類電能表云端數(shù)據(jù)樣本是yj。

(2)求解全部Oi的累加和O，公式如下：

(2)

(3)求解少數(shù)類與多數(shù)類電能表云端數(shù)據(jù)樣本間的歐式距離均值Oave，公式如下：

(3)

(4)按照順序選擇各xi的中心圈定區(qū)域，其半徑是Oave。再統(tǒng)計該區(qū)域內(nèi)yj的數(shù)量，將其當(dāng)成xi的支持度ξ。

(5)按照ξ選取xi，合成新樣本，公式如下：

zi=xi+λ×(xl-xi)

(4)

式(4)中，影響因素是λ；xi的鄰近少數(shù)類電能表云端數(shù)據(jù)樣本是xl；新樣本是zi，即平衡的電能表云端數(shù)據(jù)。λ的計算公式如下：

(5)

式(5)中，隨機(jī)數(shù)是r∈(0，1)；xi和yj間的歐式距離均值是δ′；少數(shù)類電能表云端數(shù)據(jù)樣本間的歐式距離均值是δ；合成電能表云端數(shù)據(jù)時[6]，xi和xi的K個同類近鄰的歐式距離均值是δ1；xi和xi的K個多數(shù)類鄰近的歐式距離均值是δ2。

1.2 基于自適應(yīng)權(quán)FCM的電能表云端數(shù)據(jù)自適應(yīng)聚類

不平衡處理后，獲取的平衡電能表云端數(shù)據(jù)集是Z={z1，z2，…，zn}；電能表云端數(shù)據(jù)樣本數(shù)量是n；電能表云端數(shù)據(jù)已知類別數(shù)是c。利用FCM算法聚類電能表云端數(shù)據(jù)的目標(biāo)函數(shù)為：

(6)

uij′與sj′的更新公式如下：

(7)

(8)

式(7)中，zi與第k個聚類中心sk間的歐式距離是dik=‖zi-sk‖。

擴(kuò)展式(6)的目標(biāo)函數(shù)獲?。?/p>

(9)

根據(jù)式(9)可知，各電能表云端數(shù)據(jù)樣本zi與其類中心間的模糊距離系數(shù)是1，代表FCM算法內(nèi)，各zi對J的貢獻(xiàn)一樣重要，這也包括樣本點(diǎn)是噪聲點(diǎn)，此時便會降低電能表云端數(shù)據(jù)聚類效果[7]。為此，在FCM算法內(nèi)，添加自適應(yīng)權(quán)重W=(w1，w2，…，wn)，W的作用是描繪各zi的重要程度。利用自適應(yīng)權(quán)FCM算法，自適應(yīng)聚類電能表云端數(shù)據(jù)的目標(biāo)函數(shù)為：

(10)

式(10)中，zi的自適應(yīng)權(quán)重是wi。

wi與vj′的更新公式如下：

(11)

(12)

其中，自適應(yīng)指數(shù)是p。

將式(7)、式(11)、式(12)代入式(10)，輸出電能表云端數(shù)據(jù)聚類結(jié)果。

1.3 基于中心自適應(yīng)權(quán)FCM的云端數(shù)據(jù)自適應(yīng)聚類

利用自適應(yīng)權(quán)FCM算法，自適應(yīng)聚類電能表云端數(shù)據(jù)時，雖然能夠降低噪聲樣本對自適應(yīng)聚類結(jié)果的影響，但卻比較依賴初始聚類中心的選擇。為解決這一問題，將引入的自適應(yīng)權(quán)重，變更成中心自適應(yīng)權(quán)重ω。在FCM算法內(nèi)，添加ω，會提升算法的魯棒性，此時，電能表云端數(shù)據(jù)自適應(yīng)聚類的目標(biāo)函數(shù)為：

(13)

式(13)中，vj′的中心自適應(yīng)權(quán)重是ωj′；ωj′的自適應(yīng)指數(shù)是q。

通過拉格朗日插值法，計算ω、U、S的拉格朗日函數(shù)L(ω，U，S)，公式如下：

(14)

式(14)中，ωj′與uij′對應(yīng)的拉格朗日乘子是αj′、αi。

在L(ω，U，S)內(nèi)，計算ω、U、S的偏導(dǎo)，并設(shè)置其值是0，獲?。?/p>

(15)

(16)

(17)

(18)

將式(16)至式(18)的更新結(jié)果代入式(13)內(nèi)，獲取電能表云端數(shù)據(jù)的自適應(yīng)聚類結(jié)果。

1.4 改進(jìn)中心自適應(yīng)權(quán)FCM的數(shù)據(jù)自適應(yīng)聚類

在中心自適應(yīng)權(quán)FCM算法內(nèi)，m與q屬于影響電能表云端數(shù)據(jù)自適應(yīng)聚類的主要參數(shù)。因此，通過自適應(yīng)蟻群算法，優(yōu)化m和q，提升電能表云端數(shù)據(jù)自適應(yīng)聚類效果。具體步驟如下：

(1)蟻群算法初始化。

(19)

式(19)中，加權(quán)因子是θ。

(3)求解更新路徑中的信息素濃度σij′，公式如下：

(20)

式(20)中，迭代次數(shù)是t；σij′的衰減與調(diào)節(jié)因子是ρ、β；待定參數(shù)是Q。

(4)求解zi隸屬于sj′的概率gij′(t)，如果gij′(t)>ε，則將zi歸入sj′，并利用式(18)更新sj′；反之，跳轉(zhuǎn)至步驟3。其中，概率閾值是ε。gij′(t)的計算公式如下：

(21)

式(21)中，引導(dǎo)函數(shù)是ζij′；σij′與ζij′的影響因子是κ1、κ2。

σij′(t+1)=ρσij′(t)+Δσij′

(22)

式(22)中，σij′的增加量是Δσij′。

(6)初始化U與ω，利用式(8)計算S。

(7)利用式(16)～(18)更新uij′、ωj′、sj′。

(8)通過式(13)計算電能表云端數(shù)據(jù)自適應(yīng)聚類的目標(biāo)函數(shù)，在整個算法收斂情況下，輸出電能表云端數(shù)據(jù)自適應(yīng)聚類結(jié)果。

2 實(shí)驗結(jié)果分析

以某電力公司2021年的電能表云端數(shù)據(jù)為實(shí)驗對象，利用文章方法對該電力公司的電能表云端數(shù)據(jù)進(jìn)行自適應(yīng)聚類，提升后續(xù)電能表云端數(shù)據(jù)的應(yīng)用效果，該電力公司內(nèi)電能表云端數(shù)據(jù)內(nèi)共包含5中類型的電力數(shù)據(jù)，具體信息如表1所示。利用文章方法處理該電力公司的電能表云端數(shù)據(jù)集，得到平衡的電能表云端數(shù)據(jù)，經(jīng)過處理后的電能表云端數(shù)據(jù)不平衡率如表2所示。對比表1與表2可知，經(jīng)過文章方法處理后，可有效降低各類型電能表云端數(shù)據(jù)的不平衡率，最高不平衡率僅有1.5%。實(shí)驗證明：文章方法可有效處理不平衡電能表云端數(shù)據(jù)，降低數(shù)據(jù)不平衡率。

表1 電能表云端數(shù)據(jù)的基本信息

表2 處理后電能表云端數(shù)據(jù)的不平衡率

利用文章方法對電能表云端數(shù)據(jù)集內(nèi)的部分二維數(shù)據(jù)進(jìn)行自適應(yīng)聚類，并在選擇的部分二維電能表云端數(shù)據(jù)內(nèi)，加入高斯噪聲，文章方法的自適應(yīng)聚類結(jié)果如圖1所示。根據(jù)圖1(a)可知，加噪后的原始數(shù)據(jù)分布較混亂，同時原始數(shù)據(jù)中夾雜著大量噪聲數(shù)據(jù)；根據(jù)圖1(b)可知，經(jīng)過文章方法自適應(yīng)聚類后，可有效將不同類型的電能表云端數(shù)據(jù)自適應(yīng)聚類到一起，且無混淆情況，聚類類別共有4類，與實(shí)際情況相符，說明文章方法的自適應(yīng)聚類精度較高。實(shí)驗證明：文章方法可精準(zhǔn)自適應(yīng)聚類二維電能表云端數(shù)據(jù)，且抗噪性能較優(yōu)。

(a)加噪后的原始數(shù)據(jù)分布情況

利用文章方法對電能表云端數(shù)據(jù)集內(nèi)的部分三維數(shù)據(jù)進(jìn)行自適應(yīng)聚類，并在選擇的部分三維電能表云端數(shù)據(jù)內(nèi)，加入高斯噪聲，文章方法的自適應(yīng)聚類結(jié)果如圖2所示。根據(jù)圖2可知，文章方法可有效自適應(yīng)聚類三維電能表云端數(shù)據(jù)，且自適應(yīng)聚類的類別數(shù)與實(shí)際情況一致，說明文章方法自適應(yīng)聚類的精度較高，且自適應(yīng)聚類后各類型數(shù)據(jù)分布較為集中。實(shí)驗證明：文章方法可精準(zhǔn)自適應(yīng)聚類三維電能表云端數(shù)據(jù)。

利用歸一化互信息指標(biāo)(NMI)與芮氏指標(biāo)(RI)，衡量文章方法的自適應(yīng)聚類效果，NMI與RI越高，說明自適應(yīng)聚類效果越佳，在不同類型的二維電能表云端數(shù)據(jù)內(nèi)添加不同程度的干擾信息，分析不同程度干擾信息時，文章方法自適應(yīng)聚類的NMI與RI，分析結(jié)果如圖3、圖4所示。

圖3 自適應(yīng)聚類的NMI分析結(jié)果

圖4 自適應(yīng)聚類的RI分析結(jié)果

根據(jù)圖3可知，隨著干擾信息的增加，文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的NMI值不斷下降，最低NMI值分別在0.87、0.83、0.86左右，均未低于NMI閾值。實(shí)驗證明：在不同程度干擾信息時，文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的NMI值較高，即自適應(yīng)聚類精度較高。

根據(jù)圖4可知，隨著干擾信息的增加，文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的RI值不斷下降，最低RI值分別在0.74、0.77、0.79左右，均未低于RI閾值。實(shí)驗證明：在不同程度干擾信息時，文章方法自適應(yīng)聚類電能表云端數(shù)據(jù)的RI值較高，即自適應(yīng)聚類效果較優(yōu)。

3 結(jié)論

為加快電能表云端數(shù)據(jù)的應(yīng)用效率，提升應(yīng)用效果，研究基于數(shù)據(jù)挖掘的電能表云端數(shù)據(jù)自適應(yīng)聚類方法，在FCM聚類算法內(nèi)，添加中心權(quán)重與自適應(yīng)指數(shù)，可有效降低FCM聚類算法對噪聲的敏感性，幫助該算法跳出局部極值，精準(zhǔn)聚類電能表云端數(shù)據(jù)，為電力數(shù)據(jù)分析與制定供電計劃等應(yīng)用，提供更為精準(zhǔn)的數(shù)據(jù)支持，降低后續(xù)電能表云端數(shù)據(jù)應(yīng)用的計算復(fù)雜度。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看