李柏新, 雷才嘉, 方兵華, 黃裕春, 賈巍, 馬乙歌
(廣東電網(wǎng)有限責(zé)任公司廣州供電局, 廣州 510620)
負(fù)荷聚類和用電規(guī)律研究是進(jìn)行精細(xì)化負(fù)荷預(yù)測(cè)的前提,不僅可以依據(jù)不同的用電規(guī)律劃分用戶類型,還可以與實(shí)際用戶匹配展開用電特性分析[1]。此外,直接處理海量負(fù)荷數(shù)據(jù)不僅耗費(fèi)計(jì)算資源,還會(huì)由于原始數(shù)據(jù)中存在干擾和低價(jià)值數(shù)據(jù),引發(fā)模型訓(xùn)練難以收斂、耗時(shí)延長(zhǎng)、增大預(yù)測(cè)誤差等問(wèn)題,有必要針對(duì)負(fù)荷數(shù)據(jù)提出一種更高效的降維及聚類方法。
目前,主流的聚類算法包括K-means聚類[2]、層次聚類[3]、模糊聚類[4]、譜聚類[5]等。比如,文獻(xiàn)[6]提出了一種針對(duì)電力大數(shù)據(jù)的三層過(guò)濾機(jī)制,在第二層過(guò)濾中通過(guò)并行計(jì)算的多初始聚類中心對(duì)原始K-means算法進(jìn)行了改進(jìn),彌補(bǔ)了太過(guò)依賴初始聚類中心的缺點(diǎn);文獻(xiàn)[7]利用Spark的RDD編程模型的可擴(kuò)展性和分布式功能來(lái)實(shí)現(xiàn)CURE算法的計(jì)算過(guò)程的并行化,從而提高了算法的數(shù)據(jù)處理速度,使算法能夠適應(yīng)數(shù)據(jù)規(guī)模的擴(kuò)展,并通過(guò)算例表明:基于Spark的CURE聚類算法不僅保證了聚類的準(zhǔn)確性,而且提高了算法的實(shí)時(shí)性;文獻(xiàn)[8]根據(jù)數(shù)據(jù)結(jié)構(gòu)的特點(diǎn),合理地優(yōu)化了譜聚類算法中特征向量的提取過(guò)程,避免了傳統(tǒng)方法導(dǎo)致數(shù)據(jù)信息丟失的問(wèn)題,并以每日負(fù)荷數(shù)據(jù)為例對(duì)現(xiàn)有融合研究結(jié)果進(jìn)行比較,結(jié)果表明該算法具有較高的聚類質(zhì)量和魯棒性。以上方法均對(duì)原始聚類算法進(jìn)行了改進(jìn),并取得了更好的聚類效果,但是對(duì)于日負(fù)荷數(shù)據(jù)而言,本身具有顯著的變化特征,如果能結(jié)合負(fù)荷特征指標(biāo)實(shí)現(xiàn)數(shù)據(jù)降維,會(huì)極大提升聚類算法的效率。
提出了一種基于“峰谷”時(shí)段日負(fù)荷指標(biāo)的數(shù)據(jù)降維及改進(jìn)分布式K-means聚類算法。首先根據(jù)樣本負(fù)荷數(shù)據(jù)的核密度(KDE)分布劃分“峰”、“谷”期,并利用8個(gè)典型日負(fù)荷指標(biāo)實(shí)現(xiàn)原始負(fù)荷數(shù)據(jù)的降維;然后利用熵權(quán)法改進(jìn)的分布式K-means算法進(jìn)行聚類,與原始K-means算法比較后發(fā)現(xiàn),具有更強(qiáng)的樣本辨識(shí)能力,并通過(guò)算例證明了文中所提算法的有效性和時(shí)效性;最后根據(jù)聚類結(jié)果分析每種負(fù)荷類型的用電特性,并與實(shí)際的負(fù)荷類型相匹配,得到4類典型用電規(guī)律的數(shù)據(jù)集,為不同類型負(fù)荷的精細(xì)預(yù)測(cè)提供支持。
電力數(shù)據(jù)具有多源異構(gòu)[9]的特點(diǎn),而且保密性要求高,開放程度低。因此,獲取海量負(fù)荷數(shù)據(jù)首先需要與電力公司配合,并進(jìn)行脫敏處理。此外,政府和第三方機(jī)構(gòu)大多有專門的數(shù)據(jù)網(wǎng)站和開源數(shù)據(jù)庫(kù),通過(guò)搭建API接口可實(shí)現(xiàn)數(shù)據(jù)采集。同時(shí),電力用戶側(cè)的數(shù)據(jù)比較分散,一般需要訪問(wèn)企業(yè)、樓宇的相關(guān)網(wǎng)站,通過(guò)對(duì)HTML爬蟲后整理獲得。
總的來(lái)說(shuō),電力數(shù)據(jù)比較割裂,且各個(gè)系統(tǒng)間互聯(lián)性較低,需要結(jié)合用戶ID、采集日期DATA等用戶信息標(biāo)識(shí)對(duì)獲取的原始數(shù)據(jù)進(jìn)行融合與處理。
在負(fù)荷數(shù)據(jù)采集的過(guò)程中,不可避免會(huì)由于通信中斷、信號(hào)干擾、人工操作失誤等,造成數(shù)據(jù)異常和數(shù)據(jù)缺失等,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。若單日m個(gè)時(shí)間節(jié)點(diǎn)負(fù)荷數(shù)據(jù)表示為一個(gè)樣本,則n條日負(fù)荷數(shù)據(jù)組成n×m階的日負(fù)荷矩陣L。
(1)處理缺失值
單缺失值:根據(jù)負(fù)荷曲線平緩變化的特點(diǎn),采取前后數(shù)據(jù)均值插補(bǔ)的方法,計(jì)算方法如下:
li,j=(li,j-1+li,j+1)/2
(1)
式中l(wèi)i,j為第i天第j個(gè)時(shí)間節(jié)點(diǎn)的負(fù)荷;li,j-1和li,j+1分別為該節(jié)點(diǎn)前、后時(shí)刻的負(fù)荷數(shù)據(jù);若單個(gè)缺失值恰為單日的首、尾節(jié)點(diǎn)位置,則取臨近節(jié)點(diǎn)的值填充。
多個(gè)連續(xù)缺失值:由于樣本連續(xù)缺失值數(shù)量直接影響插值結(jié)果的偏差,因此文中取較小的閾值(連續(xù)缺失值占比6%)來(lái)確保插值結(jié)果的準(zhǔn)確度。超過(guò)閾值時(shí)認(rèn)為該日樣本無(wú)效;否則,采用平滑修正法根據(jù)前后數(shù)據(jù)插值,計(jì)算公式如下:
(2)
式中 Δt1和T1分別為前向采集開始和截止的節(jié)點(diǎn)數(shù)目;Δt2和T2分別為后向采集開始和截止的節(jié)點(diǎn)數(shù)目。
(2)處理異常值
先計(jì)算n條同時(shí)刻樣本的均值和方差,從而設(shè)置閾值加以判斷,然后根據(jù)前后節(jié)點(diǎn)數(shù)據(jù)進(jìn)行插值修正,均值和方差計(jì)算公式如下:
(3)
(4)
li,j=α·(li,j-1+li,j+1)/2+β·li,j+1
(5)
式中α和β分別為該節(jié)點(diǎn)前、后時(shí)刻的負(fù)荷數(shù)據(jù)權(quán)重,且滿足α+β=1。
(3)數(shù)據(jù)標(biāo)準(zhǔn)化
常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有三種:Min-Max歸一化方法、Z-score規(guī)范化方法和Max最大值歸一化。其中,Max方法將原始數(shù)據(jù)縮放,可以保留“峰谷”差值信息,其標(biāo)準(zhǔn)化處理方法如下:
(6)
主成分分析(PCA)[10]、奇異值分解(SVD)[11]、線性判別分析(LDA)[12]等降維方法雖然能從數(shù)據(jù)自身規(guī)律提煉出更少的特征,為后續(xù)學(xué)習(xí)器訓(xùn)練降低難度,并提高了效率,但是降維過(guò)程本身也會(huì)由于高維矩陣消耗大量的計(jì)算資源。對(duì)日負(fù)荷而言,如果能通過(guò)負(fù)荷變化特征,用低維日負(fù)荷指標(biāo)代替高維原始負(fù)荷數(shù)據(jù),會(huì)極大地縮短模型運(yùn)行時(shí)間,提升負(fù)荷聚類的效率。
日負(fù)荷特征降維需要構(gòu)造出能體現(xiàn)負(fù)荷基本特性和變化規(guī)律的特征指標(biāo)?,F(xiàn)階段,國(guó)內(nèi)外日負(fù)荷指標(biāo)還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),大概有以下7種:日最大負(fù)荷Pmax、日最小負(fù)荷Pmin、日平均負(fù)荷Pav、日峰谷差ΔP、日峰谷差率α、日最大負(fù)荷利用小時(shí)數(shù)T、日負(fù)荷率β。以上指標(biāo)雖然能反映日負(fù)荷的基本特征,但總體比較粗糙,還需要結(jié)合負(fù)荷“峰谷”變化規(guī)律構(gòu)建更加顯著的日負(fù)荷特征指標(biāo)。
文獻(xiàn)[13-14]在劃分“峰谷”時(shí)具有極大的主觀性,因此如何根據(jù)海量負(fù)荷樣本確定典型的“峰谷”時(shí)段是建立不同時(shí)段負(fù)荷特征指標(biāo)的前提。由于核密度估計(jì)(Kernel Density Estimation,KDE)方法不使用有關(guān)數(shù)據(jù)分布的先驗(yàn)知識(shí),并且不對(duì)數(shù)據(jù)分布附加任何假設(shè),所以是一種從樣本自身研究數(shù)據(jù)分布概率的方法,適用于從眾多負(fù)荷數(shù)據(jù)中挖掘典型的日負(fù)荷曲線,劃分“峰谷”時(shí)段。
假設(shè)某時(shí)刻有n個(gè)負(fù)荷樣本,x1、x2,…,xn為對(duì)應(yīng)的負(fù)荷值,則負(fù)荷的KDE模型如下:
(7)
式中fh為負(fù)荷的概率密度函數(shù);h為帶寬;K為核函數(shù)。其中,帶寬h反映了整個(gè)KDE曲線的平坦度:h越大,樣本數(shù)據(jù)點(diǎn)在曲線形狀中的比例越小,使得KDE模型更注重整體變化規(guī)律,曲線越平坦;反之,KDE模型更注重細(xì)節(jié),曲線就越波折。
為了確保負(fù)荷概率密度函數(shù)fh的連續(xù)性,核函數(shù)K(x)一般為單峰平滑,且關(guān)于y軸對(duì)稱的非線性函數(shù),滿足以下特性:
(8)
比較常用的核函數(shù)有Uniform函數(shù)、Epanechikov函數(shù)、Gaussian函數(shù)和Quartic函數(shù)。選用Gaussian函數(shù)作為核函數(shù),公式如下:
(9)
比如,當(dāng)h選用0.5時(shí),負(fù)荷概率密度函數(shù)fh可以表示為:
(10)
在KDE曲線上,概率密度最大值對(duì)應(yīng)的負(fù)荷值即為該時(shí)刻負(fù)荷樣本的典型值。針對(duì)樣本其它時(shí)刻分別進(jìn)行KDE處理后,便可整合得到典型日負(fù)荷曲線,從而進(jìn)行“峰谷”劃分。
結(jié)合全天、峰期、谷期3個(gè)時(shí)段,對(duì)原始7個(gè)簡(jiǎn)單日負(fù)荷指標(biāo)進(jìn)行組合變換后,得到表1中的8個(gè)顯著特征指標(biāo)。
表1 日負(fù)荷特征指標(biāo)和計(jì)算方法
表1中,Pup-av為峰期的負(fù)荷平均值,Pdown-av為谷期的負(fù)荷平均值。通過(guò)以上8個(gè)日負(fù)荷指標(biāo)來(lái)表征原始日負(fù)荷數(shù)據(jù),便可結(jié)合負(fù)荷自身變化特征實(shí)現(xiàn)多維負(fù)荷數(shù)據(jù)的降維。
K-means算法是基于劃分的經(jīng)典聚類算法之一,通常歐式距離用作衡量樣本間相似度的指標(biāo),在計(jì)算效率上具有其它方法無(wú)法比擬的優(yōu)勢(shì)。數(shù)據(jù)點(diǎn)越近,歐式距離越小,相似度就越大;由此將相似性較高的數(shù)據(jù)對(duì)象歸為同一類,而相似性較低的數(shù)據(jù)對(duì)象則為不同的類。但是在實(shí)際操作過(guò)程中,兩類具有不同變化規(guī)律的負(fù)荷,如果滿足“互補(bǔ)性”要求,則很容易被錯(cuò)誤劃分為一類,如圖1所示。
圖1中,Type1和Type2兩種負(fù)荷雖然具有截然相反的“互補(bǔ)性”變化規(guī)律,但由于二者到聚類中心的歐式距離相等,兩個(gè)樣本自然被錯(cuò)誤劃分為同一類簇。不難判斷,如果這兩類負(fù)荷到該聚類中心的距離均小于Type1和Type2與其它聚類中心的距離,則兩類負(fù)荷始終被劃分為一個(gè)類簇。因此,基于歐式距離的K-means聚類方法存在局限性。
熵權(quán)法是一種客觀賦權(quán)法,通過(guò)比較各個(gè)評(píng)價(jià)指標(biāo)自身的信息有序地來(lái)判定其權(quán)重。某項(xiàng)特征的樣本差異越大,表示狀態(tài)越混亂,該特征在所有特征中所占的權(quán)重也越大,樣本間的差異被放大。
假如有n個(gè)日負(fù)荷數(shù)據(jù)樣本,經(jīng)過(guò)負(fù)荷指標(biāo)降維后,每個(gè)樣本有m個(gè)特征,則組成一個(gè)n×m維度的日負(fù)荷樣本集Pn×m,則其熵值的計(jì)算方法如下:
(11)
(12)
式中j=1、2…m;pij為日負(fù)荷樣本集的第i行,第j列數(shù)據(jù);根據(jù)熵值Ej計(jì)算結(jié)果,得包含m個(gè)日負(fù)荷特征的信息熵集合為{E|E1,E2,…,En}。當(dāng)樣本數(shù)據(jù)差異較小時(shí),Ej的值趨近于1。根據(jù)熵權(quán)法計(jì)算對(duì)應(yīng)特征的權(quán)值wj,即:
(13)
由此得到特征指標(biāo)的權(quán)重值矩陣[w1,w2,…,wn],且滿足0 結(jié)合如圖2的分布式聚類算法,得到熵權(quán)法改進(jìn)的K-means算法流程如下: 圖2 分布式K-means聚類算法的流程圖 (1)在日負(fù)荷特征矩陣Pn×m中參照層次聚類結(jié)果選取聚類中心,并將其作為n個(gè)輸入,復(fù)制m份后分發(fā)給m臺(tái)計(jì)算機(jī)。第i個(gè)聚類中心為Ci(i=1、2…k),記為Ci=[ci1,ci2,ci3,…cim]; (2)記Pj=[pj1,pj2,pj3,…,pjm],對(duì)Pn×m中所有樣本Pj(j=1、2…n),派發(fā)給各個(gè)計(jì)算機(jī)節(jié)點(diǎn),依次計(jì)算到第i個(gè)聚類中心Ci的加權(quán)歐氏距離: (14) (3)每個(gè)節(jié)點(diǎn)單獨(dú)運(yùn)算一次,將n個(gè)輸入派發(fā)給c個(gè)內(nèi)核,找出每個(gè)Pj對(duì)應(yīng)最小的dist(Pj,Ci),將其劃分到聚類中心Ci所在的類簇; (4)對(duì)每個(gè)簇,更新聚類中心Ci;記類簇Ci中樣本數(shù)目為NCi,則其計(jì)算公式為: (15) (5)重復(fù)(3)和(4)的操作,直至新的聚類中心趨于穩(wěn)定,或者該算法的損失函數(shù)式趨于收斂。 (16) (1)聚類有效性檢驗(yàn) 聚類有效性指標(biāo)用于度量聚類的效果,主要希望同一簇的樣本彼此之間盡量相似,不同簇之間的樣本盡可能不同。常用的聚類算法的評(píng)價(jià)指標(biāo)有:離差平方和(SSE)、卡林斯基-哈拉巴茲指數(shù)(CHI)、輪廓系數(shù)(SIL)、戴維斯-布爾丁指數(shù)(DBI)等。記K為聚類數(shù),則各個(gè)聚類效果評(píng)價(jià)指標(biāo)的計(jì)算方法如下: SSE指標(biāo)的計(jì)算公式為: (17) 式中Xi為第i類簇中的樣本數(shù)據(jù);Ci為對(duì)應(yīng)第i類簇的聚類中心。SSE指標(biāo)值越小,說(shuō)明聚類效果越好。 CHI指標(biāo)的計(jì)算公式為: (18) 式中i為當(dāng)前的類簇;trB(i)為類簇間離差矩陣的跡;trW(i)表示類簇內(nèi)離差矩陣的跡。CHI指標(biāo)越大,說(shuō)明聚類效果越好。 Silhouette指標(biāo)的計(jì)算公式為: (19) (20) 式(19)、式(20)中,M為樣本數(shù);a(n)為樣本n到類內(nèi)其它樣本的平均距離;b(n)為樣本n到類間其它樣本平均距離的最小值。Silhouette指標(biāo)越大,聚類效果越好。 DBI指標(biāo)計(jì)算公式為: (21) (22) 式中d(Xi)為類簇內(nèi)的平均距離;d(Ck,Cj)為兩個(gè)聚類中心的歐氏距離。DBI指標(biāo)越小,說(shuō)明聚類效果越好。 (2)聚類時(shí)效性檢驗(yàn) 傳統(tǒng)聚類評(píng)價(jià)指標(biāo)只考慮有效性,但是對(duì)大數(shù)據(jù)而言,時(shí)效性同樣重要,主要涉及到三個(gè)部分:基于日負(fù)荷指標(biāo)降維方法的耗時(shí)、熵權(quán)法指標(biāo)賦權(quán)計(jì)算的耗時(shí)、K-means聚類算法的耗時(shí)。為了驗(yàn)證本章所提算法在時(shí)效上的優(yōu)越性,在控制處理相同負(fù)荷數(shù)據(jù)條件下,時(shí)效性指標(biāo)可以表示為: Ktn=t2n/t2n-1 (23) 式中n=1,2,…,10表示10個(gè)數(shù)據(jù)樣本;t2n為指標(biāo)降維及改進(jìn)K-means算法的耗時(shí),t2n-1為原始K-means算法的耗時(shí);當(dāng)0 選取某市區(qū)供電網(wǎng)格2015年歷史負(fù)荷數(shù)據(jù),采集間隔為15 min,共計(jì)260 922個(gè)日負(fù)荷樣本。算例編譯環(huán)境為Anconda,編譯語(yǔ)言為python,分布式計(jì)算采用ODPS架構(gòu)。 根據(jù)全樣本的KDE分布特征,提取對(duì)應(yīng)96節(jié)點(diǎn)的典型負(fù)荷數(shù)據(jù),得到日負(fù)荷曲線來(lái)劃分“峰谷”時(shí)段,結(jié)果如圖3所示。 全樣本的“峰”、“谷”期的劃分結(jié)果為:(1)峰期:08:00~11:30,15:00~23:00;(2)谷期:23:00~08:00、11:30~15:00。 根據(jù)表1的負(fù)荷指標(biāo)計(jì)算方法,提取出每個(gè)樣本的8個(gè)顯著日負(fù)荷特征,與原96節(jié)點(diǎn)數(shù)據(jù)比較,數(shù)據(jù)量減少了91.67%,由此實(shí)現(xiàn)原始數(shù)據(jù)的降維。 結(jié)合熵權(quán)法對(duì)降維后的特征進(jìn)行加權(quán),計(jì)算結(jié)果如表2所示。 表2 日負(fù)荷特征指標(biāo)的權(quán)值表 日負(fù)荷特征指標(biāo)的權(quán)重計(jì)算結(jié)果,將用于改進(jìn)K-means算法的中歐式距離的加權(quán)計(jì)算過(guò)程,增加算法對(duì)不同類型負(fù)荷的辨別能力,挖掘新的負(fù)荷類型。 (1)聚類有效性分析 算例中聚類數(shù)K取值為2~20,構(gòu)造以下3個(gè)場(chǎng)景,并對(duì)每個(gè)場(chǎng)景下4個(gè)指標(biāo)(SSE、DBI、Sillouette、CHI)對(duì)應(yīng)的最佳聚類用“ ”進(jìn)行標(biāo)記,結(jié)果如下: 場(chǎng)景一:預(yù)處理前的K-means聚類效果。 圖4中根據(jù)“肘部”法則,場(chǎng)景一的SSE指標(biāo)曲線“拐點(diǎn)”對(duì)應(yīng)的最佳聚類數(shù)6;DBI和Silluoette指標(biāo)呈現(xiàn)單一變化趨勢(shì),原則上無(wú)法挑選出最佳K值,考慮到畸變數(shù)據(jù)影響,以區(qū)間極小值對(duì)應(yīng)的6為最佳聚類數(shù);CHI指標(biāo)對(duì)應(yīng)的最佳聚類數(shù)為3。 圖4 場(chǎng)景一的負(fù)荷聚類效果 綜合分析,聚類數(shù)取值為K=6,并根據(jù)分類結(jié)果得到日負(fù)荷樣本的聚類曲線,如圖5所示。 由圖5知,未剔除畸變數(shù)據(jù)的負(fù)荷樣本總體上實(shí)現(xiàn)了負(fù)荷的分類,但在每類負(fù)荷中明顯存在“毛刺”現(xiàn)象;且在type2、type4負(fù)荷中,紅色聚類中心線沒(méi)能體現(xiàn)出10:00~15:00之間存在的“峰”期。 場(chǎng)景二:除畸變后K-means的聚類效果。 如圖6所示,通過(guò)式(1)、式(2)缺失值處理,以及式(3)~式(5)異常數(shù)據(jù)處理后,場(chǎng)景二的SSE指標(biāo)“拐點(diǎn)”對(duì)應(yīng)的K仍為6;DBI指標(biāo)曲線明顯存在極小值,且對(duì)應(yīng)的K為6;Silluoette和CHI指標(biāo)也明顯存在極大值,對(duì)應(yīng)的K均為8。以上說(shuō)明數(shù)據(jù)預(yù)處理對(duì)提升聚類效果有一定影響,但仍舊未能統(tǒng)一最佳聚類數(shù)。 圖6 場(chǎng)景二的負(fù)荷聚類效果 當(dāng)K=6時(shí),得到日負(fù)荷樣本的聚類曲線如圖7所示。 圖7 場(chǎng)景二條件下的負(fù)荷聚類結(jié)果 由圖7知,與場(chǎng)景一比較,每類負(fù)荷中沒(méi)有“毛刺”現(xiàn)象,且每一類樣本的變化規(guī)律較為一致,說(shuō)明通過(guò)缺失值彌補(bǔ)和異常值替換后消除了畸變數(shù)據(jù)影響,使得聚類效果有了質(zhì)的提升。但是,仔細(xì)觀察發(fā)現(xiàn),如“→”標(biāo)記,type1、type2負(fù)荷中存在很窄的“間隙”,說(shuō)明類中樣本仍舊存在細(xì)微的差異。 場(chǎng)景三:除畸變后改進(jìn)K-means的聚類效果。 如圖8所示,場(chǎng)景三的SSE、DBI、Silluoette和CHI指標(biāo)統(tǒng)一了K值,即最佳聚類數(shù)均為8。說(shuō)明基于日負(fù)荷指標(biāo)降維和熵權(quán)改進(jìn)的K-means算法顯著提升了聚類效果,能從現(xiàn)有聚類結(jié)果中發(fā)現(xiàn)新的類簇。 取K=8得到日負(fù)荷樣本的聚類曲線如圖9所示。 圖9 場(chǎng)景三條件下的負(fù)荷聚類結(jié)果 由圖9知,與場(chǎng)景二比較,場(chǎng)景三多出了兩個(gè)聚類簇。其中,type2、type6原屬場(chǎng)景二中同類,區(qū)別在于05:00~18:00時(shí)間段最低負(fù)荷值,前者在0.1左右,后者基本為0;type3、type8也由場(chǎng)景二中同類分裂而來(lái),兩類負(fù)荷在12:00左右的谷值負(fù)荷差距明顯,前者為0.8,后者為0.9。因此,場(chǎng)景三的基于日負(fù)荷指標(biāo)降維和改進(jìn)K-means算法能夠挖掘出負(fù)荷樣本間更加細(xì)微的差別,從而實(shí)行更精細(xì)的聚類結(jié)果。 對(duì)以上三個(gè)場(chǎng)景的最佳聚類數(shù)K和聚類效果有效性指標(biāo)進(jìn)行統(tǒng)計(jì),結(jié)果如表3所示。 表3 不同場(chǎng)景下的聚類效果 由表3分析知,場(chǎng)景三聚類數(shù)最多,能夠?qū)⒓?xì)小差別的類簇進(jìn)一步劃分,具有更高的類簇辨識(shí)能力;從場(chǎng)景一到場(chǎng)景三,SSE和DBI指標(biāo)的數(shù)值依次減少,說(shuō)明剔除畸變數(shù)據(jù)、日負(fù)荷指標(biāo)降維及改進(jìn)K-means聚類方法能夠一定程度上提高聚類效果;Sillouette指標(biāo)基本不變化,說(shuō)明該指標(biāo)在最佳聚類場(chǎng)景下具有很強(qiáng)的穩(wěn)定性;從場(chǎng)景一到場(chǎng)景二,CHI指標(biāo)顯著減小,說(shuō)明該指標(biāo)對(duì)畸變數(shù)據(jù)比較敏感。 (2)聚類時(shí)效性分析 構(gòu)造10個(gè)不同數(shù)據(jù)量的樣本集,然后記錄各部分的時(shí)間。作出時(shí)效性指標(biāo)Ktn隨樣本占比M的變化曲線,探究算法的時(shí)效性與數(shù)據(jù)量的關(guān)系,如圖10所示。 圖10 時(shí)效性指標(biāo)隨數(shù)據(jù)量變化 由圖10知,Ktn基本分布在[0,1]范圍,且呈現(xiàn)出“1/Mn”型變化規(guī)律,說(shuō)明基于日負(fù)荷指標(biāo)降維及熵權(quán)法改進(jìn)分布式K-means算法在應(yīng)對(duì)大量負(fù)荷數(shù)據(jù)時(shí),可以顯著提升工作效率。 通過(guò)聚類得到的典型負(fù)荷,各自具有不同的時(shí)序性變化規(guī)律,能夠直接反映出用戶的用電特征,甚至可以對(duì)每種典型曲線包含的負(fù)荷類型進(jìn)行初步匹配。8類典型負(fù)荷曲線之間既存在差異,又有一定的相似性,大致歸屬以下4種規(guī)律類型,如表4所示。 對(duì)每種規(guī)律類型包含的負(fù)荷進(jìn)行以下分析: (1)第1種規(guī)律類型 全天負(fù)荷具有“高低雙峰”的特點(diǎn),其中白天09:00~14:00為低峰負(fù)荷段,晚間20:00~22:00為高峰階段,而凌晨和早間的負(fù)荷水平較低。據(jù)此特點(diǎn)分析,type1負(fù)荷大致為商場(chǎng)、店鋪等典型商業(yè)負(fù)荷,負(fù)荷大小與其人流量、營(yíng)業(yè)及休息時(shí)間相適應(yīng)。 (2)第2種規(guī)律類型 該類具有晚間“單高峰”的特點(diǎn),在8:00~16:00保持較為平緩的中等負(fù)荷水平,在晚間20:00左右達(dá)到高峰,至凌晨負(fù)荷達(dá)到最低水平。據(jù)此分析,type4極有可能為上班族的家庭負(fù)荷,白天離家后,冰箱、空氣凈化器等電器繼續(xù)保持工作,直至晚間回家后,做飯、照明、娛樂(lè)等活動(dòng)導(dǎo)致用電增加,在20:00點(diǎn)左右達(dá)到用電高峰,23:00休息后負(fù)荷又恢復(fù)至低水平狀態(tài)。 (3)第3種規(guī)律類型 全天負(fù)荷具有極為典型的“U”型變化特征,在白天5:00~17:00之間負(fù)荷水平很低,而在晚間及凌晨負(fù)荷水平保持較高,且負(fù)荷波動(dòng)較小。據(jù)此知,該大類很可能是公園路燈、公路照明等室外負(fù)荷,或者公共場(chǎng)所的室內(nèi)照明,以及利用分時(shí)電價(jià)將生產(chǎn)任務(wù)更多地轉(zhuǎn)移到晚間進(jìn)行的工業(yè)負(fù)荷。對(duì)照明負(fù)荷而言,根據(jù)type2和type6白天負(fù)荷最低值是否為0,可以判斷前者主要為室內(nèi),后者為室外。 (4)第4種規(guī)律類型 該類型具有顯著的“三峰”特征,09:00~11:00、14:00~17:00、18:00~21:00為三個(gè)峰期階段,且峰期負(fù)荷差別較小;中午12:00和晚間16:00左右有兩個(gè)短時(shí)的“谷期”,與吃飯和午休時(shí)間基本重合。由此推測(cè),type3、type5、type7、type8為普通上班負(fù)荷,該大類應(yīng)該包含普通工廠、車間、寫字樓、科研教學(xué)等場(chǎng)所的商業(yè)、科教,或者工業(yè)負(fù)荷等。 通過(guò)以上分析,將供電區(qū)域的日負(fù)荷數(shù)據(jù)進(jìn)行聚類后,可以根據(jù)負(fù)荷規(guī)律對(duì)其屬性進(jìn)行標(biāo)記,比如商業(yè)、居住、工業(yè)及科教等,構(gòu)造同類負(fù)荷的數(shù)據(jù)集合,為精細(xì)化負(fù)荷預(yù)測(cè)提供高質(zhì)量數(shù)據(jù)。 基于日負(fù)荷指標(biāo)將原始負(fù)荷數(shù)據(jù)進(jìn)行降維,利用熵權(quán)法對(duì)分布式K-means算法的距離計(jì)算實(shí)施加權(quán),提升了聚類算法對(duì)高相似度樣本的辨識(shí)能力,且具有較高的時(shí)效性;通過(guò)算例驗(yàn)證了所提算法的可行性,并對(duì)典型負(fù)荷的用電特性展開分析。同時(shí),存在以下不足: (1)畸變數(shù)據(jù)的處理,其假設(shè)條件是各節(jié)點(diǎn)負(fù)荷值在均值附近隨機(jī)正態(tài)分布,從而過(guò)濾偏離度較大的數(shù)值,實(shí)際上并非完全符合正態(tài)分布規(guī)律,在過(guò)濾過(guò)程中會(huì)損失很多有效樣本; (2)基于熵權(quán)法改進(jìn)的K-means聚類算法雖然能夠提升辨識(shí)能力,劃分更多的類簇,但同時(shí)說(shuō)明其魯棒性較差,容易受小樣本數(shù)據(jù)的影響。3.3 聚類效果的檢驗(yàn)指標(biāo)
4 算例分析
4.1 基于KDE的負(fù)荷數(shù)據(jù)分布及峰谷時(shí)段劃分
4.2 日負(fù)荷指標(biāo)的降維及權(quán)值計(jì)算
4.3 聚類效果分析
4.5 典型日負(fù)荷曲線與用戶特征分析
5 結(jié)束語(yǔ)