一種基于環(huán)境特征的智能電能表初值優(yōu)選型K-means聚類算法

2022-07-25 12:50:58曹宏宇劉惠穎殷鑫文茹馨陳月

電測與儀表 2022年7期

曹宏宇，劉惠穎，殷鑫，文茹馨，陳月

(1.國網(wǎng)黑龍江省電力有限公司電力科學(xué)研究院，哈爾濱 150000；2.黑龍江省電工儀器儀表工程技術(shù)研究中心有限公司，哈爾濱 150000)

0 引言

智能電能表作為與電力用戶緊密聯(lián)系關(guān)鍵設(shè)備，直觀地展示用電情況。然而在實際運行中，智能電能表所面臨的環(huán)境條件是多變的，嚴寒、高海拔、高濕熱、高鹽霧、高干熱的條件下可能暴露出的更多產(chǎn)品問題。所以，對不同地區(qū)下運行的智能電能表針對環(huán)境條件(溫度、濕度等)進行聚類，同一類中的智能電能表面臨的環(huán)境特征類似，這樣便于有針對性的研究環(huán)境特征對智能電能表運行誤差的影響。

現(xiàn)有對智能電能表的聚類，是基于電能表運行參數(shù)或者負荷條件，缺少利用環(huán)境因素對其進行聚類的研究。文獻[1]研究了電力負荷曲線的聚類方法，該算法集成了多種算法適用于大規(guī)模數(shù)據(jù)集，但算法復(fù)雜度較高。文獻[2]提出了一種分布式的聚類算法，使用自適應(yīng)的K-means算法對智能電能表存儲的用電數(shù)據(jù)進行聚類，適用于大規(guī)模數(shù)據(jù)的聚類。文獻[3]利用改進型K-means算法對用電數(shù)據(jù)進行分析聚類，改進算法注重未知聚類數(shù)量的確定方面。文獻[4]利用自適應(yīng)的差分演化K-均值聚類算法實現(xiàn)了對電信用戶的分類，該方法的輸入變量較多準確率對初始變量的依賴較高。文獻[5]提出了一種基于密度的K-means改進算法，改善了K值難以確定的問題。

綜上，現(xiàn)有的對電能表的聚類缺少對運行環(huán)境的分析，并且聚類算法應(yīng)用場景較為單一。因此文章對各地環(huán)境特征進行了分析并提出選擇方法，應(yīng)用于智能電能表的聚類計算。并且提出初值優(yōu)選型K-means算法，該方法在傳統(tǒng)的K-means算法[6-10]在初值選取和聚類中心移動規(guī)則上進行改進使其更加適用于基于環(huán)境特征的智能電能表聚類問題。改善了分類結(jié)果對初值的依賴性，提高算法的全局搜索能力。這種基于環(huán)境特征的初值優(yōu)選型K-means算法能夠?qū)Χ嗟剡\行的智能電能表進行高效、準確地分類，為進一步挖掘環(huán)境參數(shù)對智能電能表可靠性的影響提供有效地指導(dǎo)。

1 環(huán)境特征的分析及提取方法

國家電網(wǎng)計量中心已在黑龍江漠河、新疆恰特卡勒、西藏羊八井、福建湄洲島四個地區(qū)建立了實驗基地，四個地區(qū)環(huán)境特點如下：

黑龍江漠河縣，地處中國最北部，年平均氣溫在-5.5 ℃。12月、1月、2月在零下25 ℃～40 ℃；恰特卡勒屬獨特的暖溫帶大陸性干旱荒漠環(huán)境，全年平均氣溫為14 ℃，一年中，以一月份最冷，7月份最熱；羊八井，海拔4 300米，年平均大氣氣壓值為0.06兆帕；湄洲島坐落于莆田市南部，年均氣溫21 ℃，年均降雨量1 000 mm左右，6月、7月份多雨。每天中溫度的變化呈現(xiàn)以下規(guī)律：峰值出現(xiàn)在14時左右，谷值一般在日出前約4時左右。

四地區(qū)的智能電能表數(shù)據(jù)實時上傳至主站，包含運行誤差以及溫度、氣壓、濕度等數(shù)據(jù)。為達到將智能電能表準確分類的目的，理論上選取的數(shù)據(jù)越多準確性越高，但隨著數(shù)據(jù)維數(shù)的增加會導(dǎo)致計算速度的下降，計算過程中占用的資源較多。因此，需要針對這一問題找到選擇環(huán)境特征數(shù)據(jù)的原則。

經(jīng)過上述分析，四個地區(qū)的環(huán)境特征為：黑龍江高嚴寒、西藏高海拔即氣壓較低、新疆干熱、福建濕熱。能夠代表各地特點的環(huán)境因素分別為：最低溫度、海拔(氣壓)、最高溫度、濕度。四個因素中選取三個則能夠?qū)崿F(xiàn)四個地區(qū)的電能表聚類。根據(jù)對四地歷史天氣情況的分析，在1月～2月最低溫度、氣壓差異較大，7月～8月的最高溫度、濕度差異較大。文中選擇一年中高溫差異較大的一天中14時的溫度數(shù)據(jù)，和低溫度差異較大的一天中4時的溫度，再增加濕度或氣壓數(shù)據(jù)中的一個為每只電能表建立三維數(shù)據(jù)向量Xi(ai,bi,ci)。這樣選取能夠使得不同類別的電能表數(shù)據(jù)差異較大，更有利于得出準確的聚類結(jié)果。也可根據(jù)不同地區(qū)的環(huán)境特征選擇。需要對向量中的數(shù)據(jù)進行歸一化處理，如式(1)所示，當yi分別為ai,bi,ci時[11]：

(1)

2 初值優(yōu)選型K-means算法

結(jié)合前面所述的環(huán)境特征提取原則，綜合分析數(shù)據(jù)集的特征，顯然數(shù)據(jù)集呈現(xiàn)球形聚集的形態(tài)。因此，基于距離的聚類方法更適用于不同地區(qū)運行的智能電能表的聚類計算。K-means算法是應(yīng)用較為廣泛的基于距離的劃分聚類，其原則是同一分組中的距離越近越好，不同分組間距離越遠越好[12]?；诃h(huán)境特征的分類問題中，同一時間處于同一地區(qū)的智能電能表環(huán)境特征差距不大，且處于不同地區(qū)同一時間的智能電能表環(huán)境特征差異較大。

K-means算法通常采用歐氏距離[13]作為兩個樣本相似程度的評價指標，樣本集合M={xi|xi∈Rm,i=1,2,…n}，其中m表示數(shù)據(jù)的維數(shù)，n表示數(shù)據(jù)集合的大小。樣本xi與樣本xj的歐式距離計算公式如下：

(2)

假設(shè)樣本所屬的類別集N={ct|ct∈Rm,t=1,2,…k}，k為聚類個數(shù)，每一類聚類中心zt由式(3)給出:

(3)

平方誤差準則函數(shù)為：

(4)

式中nt表示類別t中的所有樣本的個數(shù)。

K-means算法具有實現(xiàn)簡單、快速收斂的優(yōu)點，但初始聚類中心點的選擇對聚類結(jié)果影響較大[14]。因此，文中對初始聚類中心的選擇方式進行改進，選擇初值的方式滿足聚類算法要求類別之間差距盡可能大的原則，初值優(yōu)選型K-means算法計算流程如圖1所示。

圖1 初值優(yōu)選型K-means算法計算流程Fig.1 Flow chart of initial value optimization K-means algorithm calculation

具體步驟如下：

(1) 隨機選擇數(shù)據(jù)集合中一個數(shù)據(jù)點作為第一個初始聚類中心；

(2) 計算每個數(shù)據(jù)點與已選聚類中心的距離；

(3)設(shè)置一個閾值ε，如果數(shù)據(jù)點距離任意已選聚類中心的距離小于該閾值，則去掉該數(shù)據(jù)點；

(4)計算余下的各個數(shù)據(jù)點到已選聚類中心的距離和。選擇距離已選聚類中心距離最遠的點為另一個聚類中心。

(5)

式中z1,z2,...zj表示第1到j(luò)個已選聚類中心。重復(fù)步驟(2)～步驟(4)直到k個聚類中心全部被選出，然后進行K-means聚類。

在初始聚類中心全部選擇完成后，求每個樣本點到各個初始聚類中心的距離，將數(shù)據(jù)點與相距最近的中心點歸為一簇。然后更新聚類中心，需要注意的是，在傳統(tǒng)K-means聚類中，將每一類中的數(shù)據(jù)平均值作為新的聚類中心的方式，可能會造成陷入局部最優(yōu)的結(jié)果[15]。因此，文章提出選取數(shù)據(jù)樣本的中位數(shù)作為聚類中心的移動方向。

目標函數(shù)為式(6)，這種聚類中心的選取方式能夠有效的減少數(shù)據(jù)中異常值對聚類的影響，可以改善傳統(tǒng)方法易陷入局部最優(yōu)的情況。

(6)

3 實驗結(jié)果與分析

國網(wǎng)計量中心在黑龍江、新疆、西藏、福建四個地區(qū)建立了實驗基地，每個基地現(xiàn)有70個廠家共600只智能電能表自2017年12月至今的運行數(shù)據(jù)(包括實時誤差、負載電壓、負載電流等)和環(huán)境數(shù)據(jù)(包括實時溫度、氣壓、濕度、風速等)，數(shù)據(jù)每分鐘上傳一次至主站。文章在每個地區(qū)隨機選取100只智能電能表的數(shù)據(jù)進行仿真分析。提取每只智能電能表2018年2月3日4點溫度記為a，2018年8月1日14點溫度記為b，2018年2月3日0點氣壓記為c。每只電能表的環(huán)境信息組成一個三維向量記為Xi(ai,bi,ci)，其中i=1,2,…, 400。對這400只智能電能表的環(huán)境信息進行統(tǒng)計, 得到如表1所示的數(shù)據(jù)分布情況。原始數(shù)據(jù)的分布如圖2所示。根據(jù)文章提出的環(huán)境特征提取原則選擇的智能電能表的環(huán)境數(shù)據(jù)使得四類電能表的差別較大，四簇數(shù)據(jù)區(qū)分較為明顯。這樣的原始數(shù)據(jù)分布便于聚類計算，有效提高聚類結(jié)果的準確性。

表1 原始樣本數(shù)據(jù)統(tǒng)計Tab.1 Statistics of raw sample data

圖2 原始數(shù)據(jù)分布圖Fig.2 Raw data distribution map

將每只智能電能表提取出的環(huán)境信息向量Xi(ai,bi,ci)利用式(1)進行歸一化處理后分別用傳統(tǒng)K-means算法、文獻[1]中的集成算法、文獻[2]中的自適應(yīng)的K-means算法、文獻[4]中的差分演化K-均值算法以及文章提出的初值優(yōu)選型K-means算法進行聚類計算，聚類簇k=4，即初始聚類中心的個數(shù)為4個。五種算法各進行100次計算，記錄100次計算結(jié)果和所用時間。

圖3和圖4中分別用圓圈、方塊、三角、和十字符號代表聚類后的四個聚類簇。由于數(shù)據(jù)較多符號不清晰，因此，圖中圈出了聚類后的4組聚類簇。圖3展示了使用傳統(tǒng)K-means算法的某一次聚類結(jié)果，從圖中可以看出這個聚類結(jié)果錯誤的將新疆和福建省的智能電能表歸為了一類，將西藏的智能電能表分為了兩類。圖4展示了使用文章提出的初值優(yōu)選型K-means算法某一次的聚類結(jié)果，準確的將四省電能表聚類。

圖3 傳統(tǒng)K-means算法聚類結(jié)果Fig.3 Traditional K-means algorithm clustering results

圖4 初值優(yōu)選型K-means算法聚類結(jié)果Fig.4 Initial value optimization K-means algorithm clustering results

圖5是五種算法準確率的對比圖，100次的平均準確率分別為54.4%、69.5%、85.9%、76.3%和89.2%?？梢缘玫轿闹刑岢龅某踔祪?yōu)選型K-means算法準確率較其他幾種算法有顯著提高，準確率提高的原因是初始聚類中心的選擇的準確性。文章改進的初始聚類中心的選擇方式能夠使得所選擇的四個初始聚類中心分別在四個簇中，因此聚類結(jié)果準確率大幅度提升。

圖5 五種算法準確率對比圖Fig.5 Comparison of accuracy of five algorithms

表2是五種算法平均耗時的對比。傳統(tǒng)算法、集成聚類算法在初始聚類中心的選擇上耗時較少，但初始聚類中心的選擇會影響后續(xù)的迭代次數(shù)，迭代次數(shù)較多會導(dǎo)致耗時長。自適應(yīng)的K-means算法和差分演化K-均值算法的復(fù)雜度較高因此耗時較多。而初值優(yōu)選型K-means算法在初始聚類中心的選擇上耗費一定時間，但大大縮短了后續(xù)的迭代次數(shù)，因此相對降低了算法的耗時。綜上所述，可以證明文章提出的初值優(yōu)選K-means算法更加適用于基于環(huán)境特征的電能表聚類問題。

表2 五種算法平均耗時Tab.2 Average time of five algorithms

4 結(jié)束語

文章研究了基于環(huán)境特征的智能電能表聚類算法。針對黑龍江、新疆、西藏、福建四個地區(qū)的環(huán)境特點，提出了環(huán)境特征的提取原則，能夠在不影響計算準確度的前提下有效地降低數(shù)據(jù)維度，從而降低計算復(fù)雜度，提高計算速度。對傳統(tǒng)K-means算法在初始聚類中心選擇方式和聚類中心移動原則進行了改進，提出了初值優(yōu)選型的K-means聚類算法，提高了聚類算法的準確度和計算速度。最后通過數(shù)據(jù)的仿真驗證該方法的準確率較其他算法平均提升17.7%，計算耗時平均減少0.16 s。