• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      采用歐式形態(tài)距離的負(fù)荷曲線近鄰傳播聚類方法

      2022-02-14 10:55:32黨倩崔阿軍尚聞博楊波衛(wèi)祥
      關(guān)鍵詞:歐氏用電聚類

      黨倩,崔阿軍,尚聞博,楊波,衛(wèi)祥

      (1.國(guó)網(wǎng)甘肅省電力公司信息通信公司,730050,蘭州;2.國(guó)網(wǎng)甘肅省電力公司,730000,蘭州)

      近年來,中國(guó)智能電網(wǎng)的建設(shè)大力推進(jìn),智能電表的大量普及使用戶用電數(shù)據(jù)的收集變得簡(jiǎn)單易行,更細(xì)粒度的用電負(fù)荷數(shù)據(jù)保證了供需交互的穩(wěn)定性[1]。然而,海量信息的涌入意味著電力數(shù)據(jù)信息的冗余化與雜亂化。因此,如何運(yùn)用數(shù)據(jù)挖掘技術(shù),從用電數(shù)據(jù)中提取有效信息,分析用戶用電模式,為電力決策提供參考,已被認(rèn)為是電網(wǎng)領(lǐng)域的重要研究?jī)?nèi)容[2]。

      電力負(fù)荷曲線聚類是電力數(shù)據(jù)挖掘中的常見技術(shù),其目的是提取用戶用電負(fù)荷曲線的分布特征,找出其中用戶行為的相似點(diǎn),進(jìn)而歸類分析用戶用電模式[3]。目前,各類聚類分析技術(shù)方法已被應(yīng)用于電力負(fù)荷聚類中,包含基于劃分的聚類方法[4-5]、層次聚類方法[6]、基于圖的聚類方法[7]等。

      相似度量方法決定了聚類方法對(duì)于負(fù)荷曲線變化特征的敏感度,是影響聚類質(zhì)量的重要指標(biāo)[8]。主流方法大多關(guān)注于兩條曲線相同采樣點(diǎn)的負(fù)荷差異,最常見的方法為歐氏距離,通過計(jì)算相同采樣點(diǎn)之間的距離均值,判斷曲線相似程度。為了改善聚類質(zhì)量:卜凡鵬等采用雙層聚類的方式,外層結(jié)合皮爾森系數(shù),內(nèi)層使用歐氏距離,能夠更細(xì)粒度地控制聚類結(jié)果[9];徐勝藍(lán)等將歐氏距離與余弦相似距離結(jié)合,提出雙尺度相似譜聚類集成方法,得到較好的效果[10];馮志穎等引入推土機(jī)距離,結(jié)合歐氏距離從橫縱向兩方面分析負(fù)荷曲線,可用于檢測(cè)異常用電[11];李陽等使用差分算法及分位數(shù)提取負(fù)荷曲線斜率變化特征,根據(jù)對(duì)應(yīng)時(shí)間點(diǎn)特征值是否相同進(jìn)行歸類,忽略了負(fù)荷曲線的位移變化特征[12]。雖然部分方法將兩種相似度量方法行結(jié)合,實(shí)現(xiàn)不同方法優(yōu)勢(shì)的互補(bǔ),但這類相同采樣點(diǎn)之間點(diǎn)對(duì)點(diǎn)匹配的方法只能觀察到負(fù)荷曲線之間整體的差異性,而忽略了用戶用電的時(shí)間差異,隨著負(fù)荷采樣頻率的提高,這類方法所能表達(dá)的信息將更加有限。針對(duì)這些問題,Teeraratkul等將動(dòng)態(tài)時(shí)間彎曲距離(DTW)引入負(fù)荷聚類,實(shí)現(xiàn)了對(duì)曲線的動(dòng)態(tài)匹配,但未能解決方法時(shí)間開銷過大的問題[13]。

      目前負(fù)荷聚類的度量方法主要有以下不足:①多數(shù)方法僅考慮負(fù)荷曲線相同采樣點(diǎn)的數(shù)值差異,忽略了曲線的位移變化;②現(xiàn)有動(dòng)態(tài)匹配方法計(jì)算開銷過大,可能導(dǎo)致過度彎曲。

      針對(duì)現(xiàn)有研究的局限性,本文提出了一種采用歐式形態(tài)距離的負(fù)荷曲線近鄰傳播(AP)聚類方法EMD-AP。將用電負(fù)荷曲線重表達(dá)為離散曲線形態(tài)變化特征,通過基于模式匹配距離的最長(zhǎng)公共子序列(LCS)算法衡量不同特征序列的差異性,結(jié)合歐氏距離構(gòu)造兼顧負(fù)荷曲線動(dòng)態(tài)變化特征以及整體分布特征的相似度度量方法,使用熵權(quán)法對(duì)這2種距離方法進(jìn)行權(quán)重賦值,采用AP聚類對(duì)不同用戶負(fù)荷曲線進(jìn)行區(qū)分。本文方法具有時(shí)間開銷低和聚類準(zhǔn)確性高等優(yōu)點(diǎn)。

      1 曲線相似性度量

      1.1 負(fù)荷曲線特性分析

      為了有效分辨不同負(fù)荷曲線之間的差異,本文從負(fù)荷曲線的整體分布特征和形態(tài)變化特征這2種特征來衡量負(fù)荷曲線之間的相似性。整體分布特征對(duì)應(yīng)曲線相同時(shí)刻采樣點(diǎn)之間的負(fù)荷差異度,反映了負(fù)荷曲線的整體相似度。形態(tài)變化特征對(duì)應(yīng)曲線在采樣時(shí)間內(nèi)整體的形狀變化特征的匹配程度,反映了形態(tài)變化情況。

      1.2 曲線整體分布特征

      歐氏距離是常見的點(diǎn)對(duì)點(diǎn)匹配方式,本文采用歐氏距離來度量負(fù)荷曲線的整體分布特征。給定2個(gè)等長(zhǎng)用電負(fù)荷曲線X=[x1,x2,,xn]和Y=[y1,y2,,yn],X和Y之間的歐氏距離定義為

      (1)

      1.3 曲線形態(tài)變化特征

      1.3.1 曲線形態(tài)變化特征提取 用電負(fù)荷曲線反映了用戶在不同時(shí)刻的用電量,其實(shí)質(zhì)是用戶一系列用電行為的疊加。因此,本小節(jié)將用戶用電負(fù)荷曲線轉(zhuǎn)換為描述用戶在不同時(shí)刻用電行為的特征序列。為了度量不同用戶用電行為特征的差異性(同時(shí)忽略不同用戶用電量級(jí)存在的差異),本文基于不同用戶在每一時(shí)刻的用電量與用電最小負(fù)荷的差值,并且結(jié)合分位數(shù)對(duì)其用電特征進(jìn)行提取與統(tǒng)一性重表達(dá),得到使用離散類屬性表達(dá)的曲線形態(tài)變化特征序列。

      首先,對(duì)于用電負(fù)荷曲線X=[x1,x2,,xn],獲取其最大值xmax與最小值xmin,計(jì)算兩者的差值記為xrange;然后,采用分位數(shù)刻畫其數(shù)據(jù)分布特征,為了去除噪聲擾動(dòng)并保留更多有效信息[14],采用五分位數(shù)組合τ=(0.1,0.3,0.5,0.7,0.9)計(jì)算曲線形態(tài)變化特征序列Xd=[xd1,xd2,,xdn],公式為

      (2)

      式中:Q1,,Q5為對(duì)應(yīng)的五分位數(shù)值,Qi=τixrange+xmin;ddi為負(fù)荷曲線X在第i時(shí)刻的負(fù)荷xi與曲線最小值xmin的差值。

      圖1為曲線形態(tài)變化特征提取圖??梢钥闯?五分位法將負(fù)荷曲線轉(zhuǎn)化為離散的形態(tài)變化特征序列,完整保留了負(fù)荷曲線的波動(dòng)特征,同時(shí)消除了負(fù)荷曲線用電負(fù)荷量級(jí)之間的差異性。

      圖1 負(fù)荷曲線形態(tài)變化特征提取圖Fig.1 Morphological feature extraction of load curves

      1.3.2 曲線形態(tài)變化特征度量 LCS是一種基于互相關(guān)的距離度量方法,用于尋找兩條時(shí)序曲線的最長(zhǎng)公共子序列,該方法能夠抵抗一定程度的環(huán)境噪聲和數(shù)據(jù)失真的情況,常用于模式匹配[15]。本文通過特征提取的方式將原始用戶每一時(shí)刻的用電數(shù)據(jù)統(tǒng)一性重表達(dá)為僅由6種離散型類屬性組成的曲線形態(tài)變化特征序列,消除了原始數(shù)值型數(shù)據(jù)之間存在的量級(jí)間差異。因此,可以提取出不同特征序列之間的公共子序列,并基于序列的長(zhǎng)度來度量用戶用電行為之間的相似性。

      為了最大程度保留曲線的有效信息,本文對(duì)曲線進(jìn)行等時(shí)間分辨率的形態(tài)重表達(dá),使用模式匹配距離衡量用電行為特征的差異性。

      模式匹配距離計(jì)算式為

      (3)

      對(duì)于給定的特征序列X=[x1,x2,,xm]和Y=[y1,y2,,yn],構(gòu)建距離矩陣D∈Rm×n,矩陣元素di,j代表序列X的子序列Xi與序列Y的子序列Yj最大公共子序列的長(zhǎng)度。采用動(dòng)態(tài)規(guī)劃算法求解其最長(zhǎng)公共子序列,動(dòng)態(tài)規(guī)劃算法通常以從部分到整體的順序進(jìn)行解決,后一狀態(tài)的結(jié)果往往由前一狀態(tài)決定。對(duì)于矩陣中任意元素di,j需滿足:①當(dāng)dmode(xi,yj)=0時(shí),公共子序列長(zhǎng)度即為di,j=di-1,j-1+1;②當(dāng)dmode(xi,yj)=1時(shí),di,j為di-1,j和di,j-1的最大值;③為合理限制兩條負(fù)荷曲線特征序列之間的匹配關(guān)系,使用閾值參數(shù)ε控制序列之間參數(shù)匹配的窗口尺寸,即di,j中下標(biāo)i和j的距離需要小于ε。最終,兩條特征序列之間的最長(zhǎng)公共子序列長(zhǎng)度即為dn,m。

      改進(jìn)LCS算法計(jì)算方式為

      fLCS(X,Y)=

      (4)

      式中:m和n分別代表兩條負(fù)荷曲線X和Y的長(zhǎng)度,本文實(shí)驗(yàn)中m=n;閾值參數(shù)ε的取值范圍為[0,m]。ε=0時(shí),LCS算法退化為對(duì)兩條曲線對(duì)應(yīng)時(shí)間點(diǎn)的元素進(jìn)行比較,算法時(shí)間復(fù)雜度為O(n);ε=m時(shí),LCS算法為基于動(dòng)態(tài)規(guī)劃的LCS算法,算法時(shí)間復(fù)雜度為O(n2)。本文數(shù)據(jù)集中,每天包含48個(gè)采樣點(diǎn),假設(shè)同一類用電用戶對(duì)于電氣設(shè)備的使用最多存在2 h的偏差[13],即本文中閾值參數(shù)ε設(shè)為4。

      不同時(shí)間序列之間的形態(tài)距離為

      Dmd(X,Y)=len(Xd)-fLCS(Xd,Yd)

      (5)

      式中:Dmd表示兩條用電行為序列之間的形態(tài)距離;len(Xd)為曲線形態(tài)特征序列Xd的長(zhǎng)度,即Dmd取值范圍為[0,len(Xd)]。Dmd越小說明2條時(shí)序曲線的公共特征子序列越長(zhǎng),曲線的形態(tài)變化特征越相似。

      2 采用歐式形態(tài)距離的AP聚類方法

      2.1 引入形態(tài)距離的必要性

      對(duì)于負(fù)荷曲線,在衡量其相似性時(shí)需要考慮到位移變化、尺度變化和噪聲變化特性,當(dāng)負(fù)荷曲線發(fā)生這些變化后,相似度保持不變[16]。

      傳統(tǒng)采用歐氏距離的相似度量方法,僅考慮了兩條負(fù)荷曲線相同時(shí)刻點(diǎn)之間的用電負(fù)荷差異,將導(dǎo)致聚類方法容易對(duì)具有位移變化的負(fù)荷曲線進(jìn)行誤匹配,造成聚類偏差。DTW能夠?qū)π蛄羞M(jìn)行延展或壓縮,達(dá)到識(shí)別曲線位移變化的目的。但是,這類方法通常是基于兩點(diǎn)之間的歐式距離,對(duì)于用電模式相同但是進(jìn)行了一定尺度變化的用戶也很難做到精確分類,而且時(shí)間開銷大。

      由1.3小節(jié)可知,本文形態(tài)距離度量方法的特征在于:①相比歐氏距離,形態(tài)距離通過動(dòng)態(tài)規(guī)劃的方法,可以實(shí)現(xiàn)具有位移變化的曲線元素之間的匹配,保證了對(duì)曲線整體動(dòng)態(tài)特性的學(xué)習(xí),適用于2條曲線之間存在一定的時(shí)移偏差或者兩條曲線負(fù)荷峰值窗口大小不一致的情形;②相比DTW,形態(tài)距離根據(jù)負(fù)荷曲線的負(fù)荷波動(dòng)提取原始曲線的形態(tài)變化特征,在進(jìn)行特征匹配的時(shí)候使用模式匹配距離,能有效忽略曲線的尺度變化,對(duì)曲線的負(fù)荷值不敏感,更適用于2條曲線形態(tài)相似但距離相近的情形。同時(shí),在計(jì)算成本上,本文所提方法與DTW方法在不考慮閾值參數(shù)設(shè)定的情況下,時(shí)間復(fù)雜度均為O(n2),但是形態(tài)距離將曲線數(shù)值數(shù)據(jù)轉(zhuǎn)換為定性數(shù)據(jù),使用異同的思想衡量曲線形態(tài)差異,每次匹配只需要一次判等操作,計(jì)算過程簡(jiǎn)單,具體執(zhí)行時(shí)間遠(yuǎn)小于DTW的。圖2為形態(tài)相近但有位移變化的負(fù)荷曲線。

      圖2 負(fù)荷曲線形態(tài)特征對(duì)比Fig.2 Morphological feature comparison of load curves

      由圖2可以看出:3條曲線均屬于雙峰型負(fù)荷曲線,負(fù)荷曲線A和B形態(tài)更加相近,但是曲線A相對(duì)于曲線B有3個(gè)采樣點(diǎn)的位移變化,曲線A和D距離更近但是形態(tài)差異更大。分別使用3種相似度量方式計(jì)算3類曲線的相似性。首先,采用歐氏距離計(jì)算,得到Ded(A,B)=1.368 9,Ded(A,D)=0.622 2??梢钥闯?如果僅使用歐氏距離作為曲線相似度的度量方式,那么對(duì)于這類出現(xiàn)位移變化的曲線識(shí)別效果較差。接著,采用DTW距離計(jì)算,得到Ddtw(A,B)=0.083 1,Ddtw(A,D)=0.102 4。采用形態(tài)距離進(jìn)行計(jì)算,得到Dmd(A,B)=5,Dmd(A,D)=10??梢钥闯?DTW方法和形態(tài)距離方法均能得到曲線B與曲線A相似度更高的結(jié)論,更符合實(shí)際情況。

      2.2 歐式形態(tài)距離描述

      歐氏距離是一種基于點(diǎn)對(duì)點(diǎn)的曲線相似性度量方法,通過計(jì)算負(fù)荷曲線對(duì)應(yīng)時(shí)間點(diǎn)之間的距離平均值獲得曲線的相似度特征,能有效識(shí)別曲線的整體分布特征。形態(tài)距離方法通過對(duì)原始用電曲線進(jìn)行離散屬性表示,然后與基于LCS的動(dòng)態(tài)特征匹配,得到曲線的特征匹配度,能有效度量曲線的形態(tài)變化特征以及相應(yīng)的趨勢(shì)匹配信息。

      本文綜合考慮曲線形態(tài)的整體分布特征和曲線的波動(dòng)特征,構(gòu)造一種負(fù)荷曲線雙尺度相似性度量——?dú)W氏形態(tài)距離,計(jì)算式為

      Demd(X,Y)=αDmd(X,Y)+βrm,eDed(X,Y)

      (6)

      式中:Demd(X,Y)為負(fù)荷曲線X和Y之間的歐式形態(tài)距離;α和β分別為相似度矩陣的權(quán)重系數(shù),為保證權(quán)重參數(shù)的客觀性,使用改進(jìn)熵權(quán)法[17]進(jìn)行賦值;rm,e為形態(tài)距離與歐氏距離的比值系數(shù),考慮到不同度量方法取值范圍的不同,使用比例系數(shù)rm,e實(shí)現(xiàn)兩種方法取值范圍的統(tǒng)一,計(jì)算式為

      (7)

      2.3 聚類質(zhì)量評(píng)價(jià)

      2.3.1 內(nèi)部評(píng)價(jià)指標(biāo) 聚類內(nèi)部評(píng)價(jià)指標(biāo)一般用于對(duì)無標(biāo)簽數(shù)據(jù)聚類質(zhì)量的評(píng)價(jià),要求數(shù)據(jù)具有較小的類內(nèi)聚合度和較大的類間差異度。本文采用在電力數(shù)據(jù)集有較好聚類評(píng)價(jià)效果的DB指標(biāo)[18]。

      DB指標(biāo)能綜合計(jì)及簇內(nèi)的集聚度和簇間的分離度,計(jì)算式為

      (8)

      (9)

      式中:d(Xk)和d(Xj)分別為簇Ck和簇Cj中樣本點(diǎn)與樣本中心的平均歐氏距離,表示一個(gè)簇內(nèi)樣本間的聚合度;d(Ck,Cj)為簇Ck和簇Cj中樣本中心之間的平均歐氏距離,表示兩個(gè)類簇之間的分離度。

      考慮到傳統(tǒng)基于歐氏距離的IDB已不能對(duì)本文方法進(jìn)行準(zhǔn)確評(píng)價(jià),提出基于歐式形態(tài)距離的修正指標(biāo)MDB,計(jì)算式為

      (10)

      式中:demd(Xk)和demd(Xj)為簇Ck和簇Cj中樣本點(diǎn)與樣本中心的平均歐氏形態(tài)距離;demd(Ck,Cj)為簇Ck和簇Cj樣本中心之間的平均歐氏形態(tài)距離。

      IDB和IMDB都是將兩簇之間的類內(nèi)聚合度和類間分離度做比,因此數(shù)值越低代表聚類質(zhì)量越高。在選擇最優(yōu)聚類數(shù)時(shí)一般尋找其極小值點(diǎn)。

      2.3.2 外部評(píng)價(jià)指標(biāo) 外部評(píng)價(jià)指標(biāo)用于在樣本真實(shí)標(biāo)簽已知的情況下,將樣本真實(shí)標(biāo)簽及聚類結(jié)果進(jìn)行對(duì)比,以評(píng)估聚類有效性。選擇調(diào)整蘭德系數(shù)(AR)指標(biāo)和FM指標(biāo)共同評(píng)價(jià)各方法聚類結(jié)果的有效性。

      (1)AR指標(biāo)。AR指標(biāo)是一種常見的聚類外部評(píng)價(jià)指標(biāo),通過計(jì)算在真實(shí)標(biāo)簽和聚類結(jié)果中被分配在相同或不同類簇的樣本對(duì)數(shù)來評(píng)價(jià)聚類有效性,計(jì)算式為

      (11)

      (12)

      FM指標(biāo)為成對(duì)的準(zhǔn)確率和召回率的幾何平均值,具體定義為

      (13)

      式中:NTP為在真實(shí)標(biāo)簽與聚類結(jié)果中均被歸為同一類的樣本對(duì)數(shù)量;NFN為在預(yù)測(cè)標(biāo)簽組中不屬于同一簇而屬于真實(shí)標(biāo)簽組的樣本對(duì)數(shù)量;NFP為在預(yù)測(cè)標(biāo)簽組中屬于同一簇而不屬于真實(shí)標(biāo)簽組的樣本對(duì)數(shù)量。

      IAR取值范圍為[-1,1],IFM取值范圍為[0,1],數(shù)值越大表示聚類結(jié)果越貼近真實(shí)情況,取值為1時(shí)表明聚類結(jié)果與真實(shí)標(biāo)簽一致。

      2.4 近鄰傳播聚類方法介紹

      AP聚類方法認(rèn)為所有樣本都有成為聚類中心的可能性,它通過選舉的方式選拔出一組高質(zhì)量的樣本作為聚類中心。相比于傳統(tǒng)的聚類方法,AP聚類方法通過控制參考度調(diào)節(jié)聚類數(shù)[19],并且具有更高的穩(wěn)定性[20]。本文引入歐式形態(tài)距離對(duì)負(fù)荷曲線相似度進(jìn)行度量,提升聚類效果。

      2.4.1 相似度矩陣的構(gòu)建 AP聚類方法以成對(duì)樣本之間相似度距離構(gòu)成的相似性矩陣S作為輸入,矩陣元素S(i,j)一般為序列X和Y之間歐氏距離的相反數(shù)。本文S(i,j)=-Demd(X,Y)。S(i,j)越大則序列X和Y越相似。

      除了相似度量方法的設(shè)定,AP聚類方法還通過參考度p和阻尼系數(shù)λ控制方法的聚類效果。參考度p對(duì)應(yīng)為相似度矩陣的對(duì)角線元素S(i,i),可以通過調(diào)節(jié)參考度p控制最終聚類結(jié)果的粒度,參考度越大則聚類數(shù)越少。本文p的初始值取相似度矩陣的最小值,后續(xù)通過聚類評(píng)價(jià)指標(biāo)進(jìn)行調(diào)節(jié)。為了避免在聚類過程中出現(xiàn)參數(shù)振蕩無法收斂的情況,本文將λ的默認(rèn)值設(shè)定為0.9。

      圖3 本文方法流程Fig.3 Flow chart of proposed method

      步驟1數(shù)據(jù)預(yù)處理。首先,對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,去除全0、全天負(fù)荷不變以及缺失超出10%的負(fù)荷曲線,取8月工作日用電負(fù)荷曲線并取均值,作為典型日用電負(fù)荷曲線。為避免異常負(fù)荷值對(duì)重表達(dá)效果的影響,使用高斯濾波對(duì)曲線進(jìn)行平滑處理,并進(jìn)行極差標(biāo)準(zhǔn)化。

      步驟2參數(shù)初始化。設(shè)定AP聚類的參考度p、阻尼系數(shù)λ和最大迭代數(shù),初始化歸屬度矩陣A和吸引度矩陣R。根據(jù)式(1)計(jì)算基于歐氏距離的相似度矩陣,根據(jù)式(2)~(5)計(jì)算形態(tài)距離相似度矩陣,并根據(jù)改進(jìn)熵權(quán)法計(jì)算不同相似度矩陣權(quán)重系數(shù),根據(jù)式(14)完成對(duì)相似度矩陣的初始化。

      步驟3基于歐式形態(tài)距離的AP聚類結(jié)果。更新吸引度矩陣和歸屬度矩陣,直至矩陣穩(wěn)定或達(dá)到最大迭代數(shù)t。如果聚類數(shù)達(dá)到Nmax,則進(jìn)入步驟4中。否則,調(diào)節(jié)p,重復(fù)執(zhí)行步驟3。

      步驟4確定最優(yōu)聚類結(jié)果。根據(jù)聚類結(jié)果,計(jì)算有效性指標(biāo),選擇IDB最小時(shí)的聚類結(jié)果作為最優(yōu)。

      3 實(shí)驗(yàn)與分析

      本文實(shí)驗(yàn)數(shù)據(jù)集包含兩個(gè)部分。數(shù)據(jù)集1為UCI網(wǎng)站提供的一套標(biāo)準(zhǔn)合成時(shí)間序列數(shù)據(jù)集,如圖4所示。該數(shù)據(jù)集包含600個(gè)有標(biāo)簽時(shí)間序列數(shù)據(jù),分為6種不同的變化趨勢(shì),每種變化趨勢(shì)包含100條時(shí)序曲線,使用數(shù)據(jù)集1驗(yàn)證本文方法的有效性。數(shù)據(jù)集2為愛爾蘭居民用電實(shí)測(cè)數(shù)據(jù)。

      (a)標(biāo)準(zhǔn)趨勢(shì) (b)周期趨勢(shì)

      (c)上升趨勢(shì) (d)下降趨勢(shì)

      (e)陡升趨勢(shì) (f)陡降趨勢(shì)圖4 標(biāo)準(zhǔn)合成時(shí)間序列集Fig.4 Standard synthetic control chart time series

      本文算例均在一臺(tái)Win10操作系統(tǒng)64 bit的計(jì)算機(jī)上完成,其配置為Intel(R) Core(TM) i7-6700 CPU @3.4 GHz,編程語言為Python。

      3.1 形態(tài)距離有效性驗(yàn)證

      為了驗(yàn)證形態(tài)距離用于衡量負(fù)荷曲線相似度的有效性,使用基于形態(tài)距離的AP聚類方法對(duì)數(shù)據(jù)集1進(jìn)行聚類分析。由于數(shù)據(jù)集1時(shí)序曲線長(zhǎng)度為60,設(shè)置閾值參數(shù)ε為6。AP聚類方法通過參考度參數(shù)的設(shè)置來控制聚類數(shù),該參數(shù)一般設(shè)為相似度矩陣的最小值。本文設(shè)定p的初始值為矩陣元素最小值,再通過調(diào)節(jié)該參數(shù)將各方法的聚類數(shù)調(diào)整為6,在此情況下對(duì)各方法聚類效果進(jìn)行比較。

      采用歐氏距離方法(ED-AP)、形態(tài)相似距離方法(MSD-AP)[21]、快速動(dòng)態(tài)彎曲距離方法(FastDTW-AP)[22]、動(dòng)態(tài)彎曲距離方法(DTW-AP)、形態(tài)距離方法(MD-AP)以及本文歐氏形態(tài)距離方法(EMD-AP)的聚類結(jié)果如圖5所示,實(shí)驗(yàn)中設(shè)定聚類數(shù)為6。

      (a)歐氏距離方法

      (b)形態(tài)相似距離方法

      (c)快速動(dòng)態(tài)彎曲距離方法

      (d)動(dòng)態(tài)彎曲距離方法

      (e)形態(tài)距離方法

      (f)本文歐氏形態(tài)距離方法圖5 不同相似度度量方法聚類結(jié)果對(duì)比Fig.5 Clustering results of different similarity measures

      由圖5f可知:本文所提方法能夠準(zhǔn)確識(shí)別曲線整體的形態(tài)變化特征,然而對(duì)于第一類振蕩變化和第二類周期性變化的時(shí)序曲線辨別能力較差。正如在2.1小節(jié)中對(duì)形態(tài)距離的分析,由于對(duì)原始用電數(shù)據(jù)進(jìn)行了類屬型轉(zhuǎn)換,所以原始曲線的數(shù)值差異性會(huì)被忽略。周期性曲線和振蕩變化曲線的差異主要在于點(diǎn)對(duì)點(diǎn)之間的距離以及變化的周期性。形態(tài)距離主要針對(duì)于形態(tài)變化的特征,忽略了點(diǎn)對(duì)點(diǎn)之間數(shù)值的差異性,因此對(duì)于周期性特征和一般性波動(dòng)特征的辨識(shí)度不高。對(duì)比圖5a、5b可以看出,形態(tài)距離在形態(tài)趨勢(shì)變化方面的識(shí)別效果明顯優(yōu)于采用歐式距離和形態(tài)相似距離等方法,后兩種方法均無法分辨時(shí)間序列的漸變趨勢(shì)和陡變趨勢(shì),而本文方法在周期性數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)的辨別方面遜色于DTW。

      為直觀表示形態(tài)距離對(duì)數(shù)據(jù)集1的分類效果,本文給出了方法聚類前后簇的相同元素?cái)?shù)。表1為使用形態(tài)距離對(duì)數(shù)據(jù)集1聚類的結(jié)果,表中,Vi代表在聚類結(jié)果中同一類曲線在各類簇Ui的實(shí)際聚類情況,每一類曲線均為100條。

      表1 形態(tài)距離方法聚類結(jié)果Table 1 Results of morphological distance scheme

      由表1可知,形態(tài)距離方法對(duì)于數(shù)據(jù)集1中后4類變化特征明顯的曲線辨別能力較強(qiáng)??紤]到用戶實(shí)際用電負(fù)荷曲線時(shí)段性特征以及峰谷特征明顯,并且在周期特征方面的識(shí)別問題也可結(jié)合其他方法進(jìn)行優(yōu)化,因此形態(tài)距離方法適用于負(fù)荷聚類的場(chǎng)景。

      3.2 歐式形態(tài)距離度量方法聚類效果驗(yàn)證

      歐式形態(tài)距離綜合考慮了曲線動(dòng)態(tài)波動(dòng)特征和整體分布特征,為檢驗(yàn)該方法的有效性,將本文歐式形態(tài)距離的聚類結(jié)果與采用歐式距離、形態(tài)相似距離[21]、快速動(dòng)態(tài)彎曲距離方法[22]、動(dòng)態(tài)彎曲距離、形態(tài)距離的聚類結(jié)果就聚類質(zhì)量及聚類效率進(jìn)行綜合比較。聚類質(zhì)量通過外部評(píng)價(jià)指標(biāo)IAR、IFM以及內(nèi)部評(píng)價(jià)指標(biāo)IDB、IMDB進(jìn)行綜合評(píng)價(jià);聚類效率通過方法運(yùn)行時(shí)相似度距離矩陣的計(jì)算時(shí)間TSCT、聚類時(shí)間和迭代數(shù)進(jìn)行評(píng)估。為保證在數(shù)據(jù)集1上針對(duì)不同聚類方法聚類有效性指標(biāo)均有統(tǒng)一的聚類質(zhì)量評(píng)判標(biāo)準(zhǔn),在3.2和3.3小節(jié)中聚類有效性內(nèi)部評(píng)價(jià)指標(biāo)IDB和IMDB的計(jì)算,選擇各類簇的均值作為聚類中心,而在實(shí)測(cè)數(shù)據(jù)集上通過推舉的聚類中心進(jìn)行計(jì)算[22]。同時(shí),提供數(shù)據(jù)集1的有效性指標(biāo)幫助衡量聚類質(zhì)量。

      表2為不同相似度量方法聚類結(jié)果比較,可以得出結(jié)論如下。形態(tài)距離方法與傳統(tǒng)的相似度量方法相比,在聚類準(zhǔn)確度和精度方面都有一定的提升,而相似度矩陣計(jì)算時(shí)間也在可接受范圍內(nèi),并且通過犧牲空間復(fù)雜度的情況下還可以對(duì)計(jì)算時(shí)間進(jìn)行進(jìn)一步優(yōu)化。與基于FastDTW的計(jì)算方法和基于DTW的計(jì)算方法相比,形態(tài)距離方法大多數(shù)指標(biāo)均優(yōu)于FastDTW方法,在IAR上和DTW方法有4%左右的精度差距,同時(shí)IDB也高于DTW方法,這也符合3.1小節(jié)中針對(duì)實(shí)際聚類結(jié)果得出的結(jié)論。但是,形態(tài)距離在IMDB和TSCT方面明顯優(yōu)于DTW方法的,具有較低的時(shí)間開銷。歐式形態(tài)距離方法在IAR上相對(duì)于歐氏距離方法和形態(tài)距離方法分別提高了43.8%、13.1%,同時(shí)IDB與標(biāo)準(zhǔn)集僅相差0.014 3。

      表2 不同相似度量方法聚類結(jié)果指標(biāo)比較Table 2 Clustering results of different similarity measures

      在加入曲線整體形態(tài)變化特征后,方法收斂性增強(qiáng),迭代數(shù)有所減少。相比于基于FastDTW和基于DTW等兩種基于動(dòng)態(tài)彎曲距離的方法,本文方法在更低的時(shí)間開銷下能實(shí)現(xiàn)更優(yōu)聚類質(zhì)量,并且得到了更高的分類準(zhǔn)確率以及聚類緊湊度。由圖5f可知:歐式形態(tài)距離方法能有效辨別這6類不同變化特征的曲線,6個(gè)類簇的分布情況非常接近標(biāo)準(zhǔn)集。對(duì)比FastDTW方法和DTW方法,歐式形態(tài)距離方法在聚類有效性和計(jì)算效率上均優(yōu)于DTW方法,這也說明了采用閾值參數(shù)降低方法時(shí)間復(fù)雜度的有效性。

      3.3 不同聚類方法聚類效果對(duì)比

      采用基于DTW的K均值方法(DTW-KM)[13]、基于遺傳算法的譜聚類方法(GA-NJW)[23]、K-medoids方法[24]以及凝聚層次聚類方法[24]進(jìn)行對(duì)比。為避免數(shù)據(jù)預(yù)處理操作對(duì)聚類效果的影響,分別對(duì)這些方法在原數(shù)據(jù)集與高斯平滑濾波處理后的數(shù)據(jù)集上進(jìn)行測(cè)試,選取兩者效果更好的結(jié)果。實(shí)驗(yàn)中各方法聚類數(shù)均設(shè)為6,關(guān)鍵步驟或模型參數(shù)如下:在DTW-KM方法中,DTW的時(shí)間窗口長(zhǎng)度與本文LCS方法一致,均設(shè)為6,K均值方法最大迭代次數(shù)為300;GA-NJW方法引用了原文的實(shí)驗(yàn)結(jié)果以作對(duì)比,并實(shí)現(xiàn)了文獻(xiàn)中提出的NJW(M=11)方法;在K-medoids方法[24]中,本文分別設(shè)置最大迭代數(shù)為300、500和700進(jìn)行實(shí)驗(yàn),并最終設(shè)置最大迭代數(shù)為500。所有方法均完成了20次重復(fù)試驗(yàn),取其最優(yōu)。圖6為部分聚類方法的聚類結(jié)果。

      由圖6可知:K-medoids方法對(duì)于前兩類曲線的識(shí)別效果較差;層次聚類方法對(duì)于漸變趨勢(shì)和陡降趨勢(shì)的曲線識(shí)別效果較差;NJW和DTW-KM方法對(duì)于陡升趨勢(shì)和上升趨勢(shì)的數(shù)據(jù)識(shí)別效果較差。

      表3為多種聚類方法聚類結(jié)果的比較結(jié)果。可以看出,本文方法在IFM和IAR上均具有最優(yōu)的結(jié)果,說明了歐式形態(tài)距離方法最終聚類結(jié)果的準(zhǔn)確度更高。在IDB上,歐式形態(tài)距離方法的聚類結(jié)果雖然大于K-medoids、 層次聚類以及NJW方法的,但是通過對(duì)比發(fā)現(xiàn)各類簇的分布情況更接近于原始數(shù)據(jù)集的。IMDB也具有相同的特點(diǎn)。因此,從多種方法的聚類結(jié)果進(jìn)行分析,歐式形態(tài)聚類方法也具有較高的分類精度。

      (a)K-medoids方法

      (b)層次聚類方法

      (c)DTW-KM方法

      (d)NJW(M=11)方法圖6 不同聚類方法聚類結(jié)果對(duì)比Fig.6 Clustering results of different clustering methods

      表3 各聚類方法指標(biāo)對(duì)比Table 3 Clustering indexes comparison of different methods

      3.4 穩(wěn)定性分析

      在實(shí)際基于負(fù)荷建模的過程中,方法聚類結(jié)果的穩(wěn)定性與可復(fù)現(xiàn)性也是非常關(guān)鍵的因素。20次重復(fù)實(shí)驗(yàn)下的IFM如圖7所示。

      圖7 不同方法聚類穩(wěn)定性對(duì)比Fig.7 Comparison of stability for different methods

      由圖7可知:K-medoids方法20次聚類結(jié)果波動(dòng)較大,且聚類質(zhì)量較差;NJW方法較K-medoids方法穩(wěn)定性更好,但也存在陷入局部最優(yōu)解的情況;DTW-KM、層次聚類方法以及本文方法在多次實(shí)驗(yàn)的情況下均能保持穩(wěn)定的聚類結(jié)果,但本文方法聚類效果明顯優(yōu)于前二者,證明了本文方法聚類結(jié)果的優(yōu)越性以及穩(wěn)定性。

      3.5 實(shí)際負(fù)荷數(shù)據(jù)集測(cè)試

      本小節(jié)數(shù)據(jù)來自于ISSDA網(wǎng)站發(fā)布的愛爾蘭智能電表實(shí)際量測(cè)數(shù)據(jù)[25]。從中隨機(jī)選取800名用戶為實(shí)驗(yàn)對(duì)象,實(shí)驗(yàn)結(jié)果如圖8所示。

      圖8 800位電力用戶用電實(shí)測(cè)數(shù)據(jù)Fig.8 Measured data of 800 power users

      圖9 聚類數(shù)與聚類有效性指標(biāo)的變化關(guān)系Fig.9 Relationship between cluster number and cluster validity indexes

      由圖9可知:聚類數(shù)為5時(shí),IDB明顯下降并且出現(xiàn)最小值,因此選擇最優(yōu)聚類數(shù)為5;IMDB在聚類數(shù)為5時(shí)也出現(xiàn)極小值點(diǎn),這也反映了將最優(yōu)聚類數(shù)定為5的準(zhǔn)確性和合理性。圖10為聚類后的各類用戶用電負(fù)荷曲線。

      圖10 電網(wǎng)實(shí)測(cè)數(shù)據(jù)聚類中心圖Fig.10 Clustering center of measured data in power systems

      由圖10可知:不同類簇之間用電負(fù)荷曲線的形態(tài)差異較大,用戶的用電特征明顯;A類用戶為典型的峰平型負(fù)荷,此類用戶用電特征明顯,08∶00-18∶00為工作時(shí)段,在工作時(shí)段內(nèi)具有較高的用電負(fù)荷,在12∶00因?yàn)槲缧萦秒娯?fù)荷有所下降,在非工作時(shí)段用電負(fù)荷驟降,這類用戶可能為商業(yè)、工廠或辦公樓等工作場(chǎng)所;B類用戶在06∶00-21∶00出現(xiàn)用電高峰,其他時(shí)段用電量偏低,屬于避峰型用戶;C類用戶在12∶00和21∶00出現(xiàn)用電高峰,屬于雙峰型用電用戶;D類用戶分別在10∶00、19∶00和21∶00有多次用電峰值出現(xiàn),屬于典型的三峰或多峰用戶;E類用戶在平時(shí)段用電平穩(wěn),而在18∶00出現(xiàn)用電高峰,可能屬于上班族,白天在外工作,18∶00后回家,出現(xiàn)用電量峰值。

      經(jīng)本節(jié)分析可知,本文方法綜合考慮了負(fù)荷曲線歐氏距離及形態(tài)距離,獲得了考慮用能特性差異的歸類結(jié)果,該歸類結(jié)果說明了用戶各種用電模式的分類情況,可用于為電力企業(yè)提供用戶用電模式信息、電力負(fù)荷預(yù)測(cè)[26]以及制定能源規(guī)劃策略等。同時(shí),通過控制方法的閾值參數(shù)可以獲取更精細(xì)化的分類結(jié)果,幫助電力企業(yè)推出個(gè)性化服務(wù)。

      4 結(jié) 論

      考慮到傳統(tǒng)方法對(duì)于具有位移變化負(fù)荷曲線識(shí)別效果較差,本文提出了一種基于最長(zhǎng)公共子序列的電力負(fù)荷曲線聚類方法,以模式匹配距離作為用戶用電模式的差異度,將傳統(tǒng)點(diǎn)對(duì)點(diǎn)距離計(jì)算簡(jiǎn)化為整數(shù)間的判等操作,有效降低了時(shí)間開銷。相比于DTW方法,本文方法將時(shí)間開銷從千秒級(jí)降低到了十秒級(jí)別,并且保留了對(duì)于陡變趨勢(shì)以及漸變趨勢(shì)這類相似變化特征的識(shí)別效果??紤]到方法在周期性曲線的識(shí)別方面具有一定的劣勢(shì),本文結(jié)合歐氏距離構(gòu)造了一種兼顧負(fù)荷曲線的整體分布特征及局部動(dòng)態(tài)變化特征的相似性度量——?dú)W氏形態(tài)距離。算例證明:歐式形態(tài)距離方法具有較高的聚類精度,與多種經(jīng)典方法相比,在聚類精度及聚類效率上均具有一定的優(yōu)勢(shì),在實(shí)測(cè)電力數(shù)據(jù)集上提取的各類用電負(fù)荷曲線形態(tài)變化特征明顯,可用于負(fù)荷預(yù)測(cè)、典型用電負(fù)荷提取、用戶個(gè)性化服務(wù)及需求響應(yīng)等領(lǐng)域。但是,本文所使用的AP聚類方法無法自動(dòng)確定最優(yōu)聚類數(shù)的遺留問題,有待在未來工作中進(jìn)一步改善。

      猜你喜歡
      歐氏用電聚類
      用電安全
      用煤用電用氣保障工作的通知
      安全用電知識(shí)多
      用電安全要注意
      基于DBSACN聚類算法的XML文檔聚類
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      基于多維歐氏空間相似度的激光點(diǎn)云分割方法
      麗江“思奔記”(上)
      探索地理(2013年5期)2014-01-09 06:40:44
      永平县| 定西市| 临夏县| 资阳市| 寿阳县| 肥城市| 濮阳市| 壤塘县| 冕宁县| 巴马| 临泉县| 七台河市| 南康市| 汝城县| 横峰县| 西峡县| 垫江县| 昌都县| 潜江市| 衡东县| 蓬安县| 合山市| 红安县| 孟州市| 新巴尔虎左旗| 双牌县| 井陉县| 宁武县| 体育| 巍山| 方山县| 屏东县| 天津市| 元氏县| 吉木萨尔县| 苍南县| 永靖县| 万全县| 浪卡子县| 大余县| 图木舒克市|