周 堃 韓 號 陳 偉 夏澤舉
(國網(wǎng)安徽省電力有限公司 合肥 230022)
電力公司在其配電網(wǎng)中部署大量智能電表后,需要有效管理不斷生成的大量用電數(shù)據(jù),并將這些海量用電數(shù)據(jù)解碼為對電力營銷有幫助且有意義的信息[1~2]。此外,隨著智能電網(wǎng)技術(shù)的普及和電力市場的改革壓力,電力公司面臨從服務(wù)可靠性擴展到電力營銷市場化的挑戰(zhàn)。所有這些內(nèi)外部因素促使電力公司需要更加敏感地感知用戶地用電需求,并依據(jù)大數(shù)據(jù)挖掘所得出地有效信息進行更有針對性和個性化的用電需求響應(yīng)[3~4]。定義和描述不同的低壓用戶群體不僅將為電力企業(yè)的決策者提供有助于定價和項目營銷計劃,而且有助于電力公司進行有效資源配置和項目開發(fā)。對客戶用電行為進行更深入的建模和分析還可以幫助電力公司提前基礎(chǔ)設(shè)施規(guī)劃,提前做出用電需求響應(yīng)。為此本文提出了面向電力營銷的電力大數(shù)據(jù)分析模型。所提出的數(shù)據(jù)模型基于預(yù)處理的負荷形狀字典,依據(jù)智能電表所采集地低壓用戶用電數(shù)據(jù)對用戶的生活方式進行分類,以便電力公司實施更有針對性需求響應(yīng)的電力營銷計劃。
本文重點研究如何通過客戶用電數(shù)據(jù)開發(fā)可擴展的生活方式聚類方法,并通過真實數(shù)據(jù)集的聚類結(jié)果分析加以驗證。為了解決這個問題,首先需要定義生活方式。然后提出了在聚類過程中使用的幾種生活方式特征。圖1為基于客戶用電數(shù)據(jù)的生活方式的總體流程。圖2給出了生活方式分段步驟的詳細流程。
圖1 基于用電數(shù)據(jù)的生活方式分段流程
圖2 兩階段聚類流程
生活方式的字面含義是生活條件、行為和習(xí)慣的組合。從電力大數(shù)據(jù)挖掘的角度、生活方式可以看作是與家庭用電模式相關(guān)的特征向量[5~6]。本文將基于低壓用戶電力消耗的“生活方式”定義為給定生活方式特征的概率分布向量。為了生成這些向量,本文開發(fā)了一個生活方式函數(shù)LS():
式1中 ||f表示特征維度。LS()的輸入為用戶i的用電數(shù)據(jù)和對生活方式特征(f)編碼的字典。參數(shù)c表示對用戶i用電數(shù)據(jù)的約束。LS()函數(shù)輸出用戶生活方式的向量(即給定生活方式特征的概率分布向量f)。例如,如果約束條件c是“周末”而f是用電模式,則LS()僅從周末的用電數(shù)據(jù)輸出其用電模式的概率分布向量。
基于用戶電力消耗數(shù)據(jù)的生活方式特征維度有很多,如日總用電量、聚類用電模式的出現(xiàn)頻率等[7]。從聚類計算的角度,如果生活方式特征的維度空間太大則很難聚類計算效率太低[8]。因此本文主要從以下三個維度進行生活方式特征的提取。
1)負載曲線:給定每日用電數(shù)據(jù)l(t)(小時間隔數(shù)據(jù)),將其分解為l(t)=a*s(t),其中
其中a是每日總用電量,s(t)是標(biāo)準(zhǔn)化負載曲線,即負載形狀。為了兼顧負載形狀的代表性質(zhì)量和聚類計算負荷,本文創(chuàng)建大小為200的負載曲線字典用以負載曲線聚類。
2)負載曲線分段:該特征用以分析每日用電模式的高峰時間所在的位置。由此特征值可以知道用戶何時積極地消耗電能,并估計用戶在家的時間。根據(jù)高峰時間,負載曲線可分割為7個耗電高峰曲線段:早晨高峰(M:4:00-10:00)、白天高峰(D:10:00-16:00)、晚上高峰(E:16:00-22:00)、夜間高峰(N:0:00-4:00、22:00-24:00)、早晚雙高峰(M&E)、晚間雙高峰(E&N)、晚間日間雙高峰(D&E)。因此,日常用電模式可以被編碼為這七個負載形狀段之一。
3)用電時段排名:基于負載曲線的合理解釋,從上述的負載曲線分段編碼中人工識別出用電峰值時段。該特征值能夠識別出用電高峰時段,但無法粗略地捕捉一天中用電負載曲線形狀的總體變化規(guī)律。因此,本文對高峰時段排名特征進行精簡以較為概括地表征用電量變化。所提出的新地特征為用電曲線分段排名(RBU)。RBU使用一天中四個分區(qū)作為用電負載形狀段:(M、D、E和N),因此RBU只有24種情況。如果早上的耗電量是最大的并且白天的耗電量是第二大的,則RBU值為“MDEN”。
為了使所得出地排名特征值對使用率相對較低的負載曲線段更加不敏感,可以通過忽略兩個最低使用率負載形狀來將RBU個數(shù)減少到12。如圖3所示,三分之二的日常用電模式集中在兩個負載曲線段中。如果將最小耗電提取為靜態(tài)基本耗電,則四分之三的活躍耗電分段位于兩個頂部負載曲線段中。因此,如果僅對兩個頂部負載曲線段進行排序,則該特征值可以用以下12個編碼表示:{MD、ME、MN、DM、DE、DN、EM、ED、EN、NM、ND、NE}。
圖3 RBU值的經(jīng)驗分布
基于生活方式概率向量LS(i,f|c)對用戶進行分割的最簡單方法是使用具有適當(dāng)距離度量的K-均值聚類[9]。通常,設(shè)置適當(dāng)?shù)腒總是在聚類的簡單性和代表性之間進行權(quán)衡。由于可以通過多種方式減少負載形狀的數(shù)量,本文研究了多種選項以適當(dāng)?shù)販p少字典大小同時最小化聚類代表性的缺失。假設(shè)可以允許10%的用電模式分配給最接近的負載形狀,第一種聚類方法是使用前272個加載形狀,因為90%的用電模式都分配給了它們。第二種聚類方法是在1000負載形狀上進行如圖2所示的兩階段聚類,以便在相同數(shù)量的負載形狀下也能更少犧牲聚類準(zhǔn)確度。第三種方法是對原始數(shù)據(jù)進行簡單的K-均值設(shè)定K=272。在這三種方式中,本文選擇使用第二種方法,原因如圖4所示。
如圖4所示,兩階段聚類和K-均值聚類的閾值分布基本相似,但是兩階段聚類可以通過相同數(shù)量的負載曲線分段能夠表示更多的用電模式[10]。例如,對于200個負載形狀,兩階段聚類可以覆蓋總用電模式的82%,而經(jīng)典的K-均值聚類僅覆蓋45%。因此,兩階段聚類方法實現(xiàn)了更加簡單的分割,同時保留了較好的聚類代表性。
圖4 兩階段聚類和K-均值聚類之間的比較
其中聚類代表性表示分配的負載曲線段與實際負載模式的接近程度。該數(shù)值可以通過估計的閾值來測量[11]。估計閾值的定義是[12]:
其中s(t)是歸一化負載分布,CS是s(t)最接近的負載曲線段。由于該閾值表示地是與指定的聚類中心的相對距離,因此更好的聚類在中心數(shù)量相同的情況下具有較小的值。
圖5指出了對各種減少的字典大小N的聚類錯誤率。如所預(yù)期的,較大的字典可以具有較低的錯誤率。但是,為了更好的可解釋性,本文將字典大小設(shè)定為200,此時聚類錯誤率為10%。
圖5 負載形狀字典大小和聚類錯誤率的關(guān)系曲線
基于“生活方式”函數(shù)的輸出,K-均值聚類可以用一個適當(dāng)?shù)木嚯x度量來劃分用戶。考慮到某些生活方式特征的字典中的每個元素都可以表示為唯一的代碼,余弦距離可以作為距離度量。具有余弦相似性的K-均值算法是高維文本聚類中常用的方法,特別是在比較兩種不同的概率分布向量時。與其他距離測度相比,余弦距離測度的優(yōu)點是對稱的,便于實現(xiàn),計算速度快,適用于K-均值算法[13]。余弦距離的定義是[14]:
為了找到滿足每個聚類組內(nèi)某個統(tǒng)計特性的適當(dāng)K,本文使用基于式(5)中的閾值條件的自適應(yīng)K-均值。
假設(shè)在所有用戶的生活方式向量上應(yīng)用自適應(yīng)k-均值后存在聚類群組。如果給定的生活方式特性的維度很高,那么集群組的數(shù)量仍然可能太大而無法解釋。之前對生活方式向量的聚類方法只考慮了兩個概率分布向量之間的相似性,沒有考慮實際負載形狀之間的距離。因此,考慮到負載形狀之間的實際距離,按負載曲線的聚類組可以再聚類一次[15]。
兩個負荷曲線之間的距離被定義為EMD。對于兩種不同的負載形狀,第i個負載形狀si(t)和第j個負載形狀sj(t),本文定義EMD距離度量d(si(t);sj(t))如下:
此外,各種負載曲線的距離矩陣M(200×200)可以表述如下:
然后,必須定義兩個子集群之間的距離度量(通過自適應(yīng)K-均值獲得)。如果將子集群的中心視為客戶的生活方式向量,這實際上與定義兩個客戶的生活方式向量之間的另一個距離度量相同。為了在如式6所示的不同的負載曲線中考慮實際成本,兩個生活方式向量之間的新距離被定義為另一種EMD,這是將一個用戶的負載曲線分布概率轉(zhuǎn)換成另一個用戶的負載曲線分布概率的最小成本[16]。
當(dāng)負載曲線用作生活方式特征時,將兩個生活方式向量表示為a={a1,…,a200},b={b1,…,b200}。然后,通過求解式(8)中的線性規(guī)劃(LP)問題,可以獲得最小成本dmov(a,b)。式(8)中X是轉(zhuǎn)移矩陣,Xi,j表示一個用戶的第i個負載曲線與另一個用戶的第j個負載曲線匹配的概率。dmov(a,b)的解釋是每天平均將生活方式a轉(zhuǎn)換為生活方式b需要多少用電成本。
當(dāng)聚類群組的數(shù)量太高而不能解釋時,可以進行另一個聚類計算以適當(dāng)?shù)木嚯x度量重新對群組重新聚類。如前述,EMD(dmov(a,b))被提出作為使用負載曲線形狀作為生活方式特征時兩個不同子集群之間的新的距離度量。為了保證同一集群中任意兩個子集群中心之間距離不超過一定水平,選擇具有完全鏈接的分層聚類算法作為聚類算法。
本研究所使用的智能電表數(shù)據(jù)由國家電網(wǎng)公司提供。智能電表218090臺,每日負荷總數(shù)為66434179臺。這些數(shù)據(jù)對應(yīng)于不同的郵政編碼,覆蓋了8個不同的氣候區(qū)域。數(shù)據(jù)記錄時間從2017年8月到2018年7月。本文所研究的區(qū)間用電數(shù)據(jù)時間間隔為1h,如果數(shù)據(jù)的分辨率的不同可能導(dǎo)致聚類方法的改變。例如,如果有15min或1min的間隔數(shù)據(jù),則負載曲線形狀聚類和降維方法就需要改變。
如前所述,負載形狀字典的大小從1000減少到200?;谟稍撠撦d曲線形狀字典的編碼計算生活方式向量。然后使用具有余弦距離的自適應(yīng)K-均值算法對客戶進行聚類。式(5)中的θ被設(shè)置為0.4,因為圖6顯示了解釋能力的邊際增益很小,但是在較低的閾值下需要大量的聚類中心。
圖6 各種閾值下(θ)的聚類數(shù)量
由圖6可知,θ=0.4時有1,268個聚類中心。通過考慮不同負載曲線形狀之間的實際距離來完成基于EMD的分層聚類以減少聚類中心的數(shù)量。
圖7顯示了不同分割高度的聚類群組的數(shù)量。為了最大限度地提高聚類群組的可解釋性,本文選擇在高度為1.4的情況下進行兩階段聚類,從而產(chǎn)生具有1,268個子聚類中心的24個聚類中心。這保證了在任何一個聚類群組中,任何子中心的生活方式都可以與另一個集群中心生活方式基本相同。分割高度1.4意味著對于兩個生活方式相似的用戶,如果其中一個用戶的負載曲線形狀轉(zhuǎn)變成另外一個用戶的負載曲線形狀,改變平均每天用電量的10%則需要14h(或改變平均每天用電量20%則需要7h)。舉個簡單的例子,如果一個日常用電量約為18kWh的用戶從早上8點到晚上10點改變它的10min淋浴(需耗電1.8kWh),那么其時間成本是14h。
圖7 具有不同分割高度的聚類數(shù)量
圖8顯示了前10個生活方式群組的每個中間子群組中心的四個頻繁負載曲線形狀(覆蓋95%用戶),假設(shè)每個中間子群組代表相應(yīng)的群組?;谑剑?)中定義的EMD獲得了子群組。如果從一個子群組到同一群組內(nèi)的其他子群組的EMD的總和是所有子群組的EMD總和中的最小值,則該子集群是中間子群組。
圖8 十大生活方式集群中的中間子集群中的四種頻繁負載形狀
從圖8中可以清楚地看到,負載曲線形狀的頻繁集依據(jù)目標(biāo)生活方式集群而不同。例如,代表集群1(最大集群)的所有四個頻繁負載形狀都具有傍晚峰值。集群2、集群3和集群4的每個代表具有兩個頻繁的傍晚峰值和兩個頻繁的雙峰值負載形狀,盡管比例和峰值定時不同。在集群2的代表中,最頻繁的負載形狀是早晨和傍晚的雙峰,而在集群3的代表中,它是白天和傍晚的雙峰。
在第5組的代表中,所有四種頻繁負載形狀都具有晚上峰值,這與集群1的代表中的負載形狀不同:晚上的功耗部分較高而峰值在晚上。集群6和10的代表具有“U”型頻繁負載形狀,并且它們的兩個頻繁負載形狀實際上是相同的。
集群7的代表具有頻繁的負載形狀和不同的峰值時間。集群8的代表具有頻繁的負載形狀,傍晚峰值和雙峰出現(xiàn)在清晨和傍晚。集群9的代表有夜間峰值和夜間峰值。綜上所述,圖9表明,當(dāng)使用上述兩階段聚類方法時,頻繁負荷形態(tài)峰值時間的差異和這些負荷形態(tài)所占比例的差異是區(qū)分生活方式最重要的因素。
如果將生活方式細分結(jié)果與其他特征(例如:日均消費、消費模式的差異性)聯(lián)系起來,就可以對特定的生活方式群體做出有趣的解釋。圖9為忽略過小的生活方式集群(大小<10)后,19個生活方式集群(24個生活方式集群)的客戶日均消費和差異性散點圖。圓圈的面積與每個生活方式組的大小成比例。如圖所示,由于平均統(tǒng)計量分布在各個集群上,所以大多數(shù)集群都是可區(qū)分的,這意味著按負載形狀劃分的生活方式組在這兩個特征上的分布是不同的:平均日消耗量和差異性。
從圖9中可以看出,集群6、集群10、集群17的耗電量相對較輕,熵值較低,其主導(dǎo)荷載形狀均為“U”形。根據(jù)這些事實,我們可以推測這些家庭用戶可能是一個經(jīng)常在白天工作的人。同時,從圖9中可以看出,考慮到整個客戶的平均熵為5.2,集群11、集群12、集群13、集群14消耗較大,熵值相對較低。
從圖11中可以看出,集群11具有早高峰,集群12具有早高峰,集群13、集群14具有晝高峰??紤]到這些家庭用戶大量耗電,可以推測這些家庭用戶可能安裝了大功率的空調(diào)系統(tǒng)。
圖9 集群中心11~14的中間子集群中的四種頻繁負載形狀
總之,峰值時間和負載曲線形狀的比例對于區(qū)分用戶生活方式非常重要。通過與其他特征的關(guān)系,生活方式的分段可以提供合理的推測。如果任何調(diào)查數(shù)據(jù)或與來自相關(guān)生活方式組的抽樣客戶的通信能夠證實這些猜想,那么這些可能是設(shè)計電力營銷計劃的重要因素。
上述消耗模式差異性是指式(9)中的負載形狀熵。
其中p(Ci)是用戶日常耗電量中每個負載曲線形狀代碼Ci的相對頻率。如果所有負載形狀代碼在數(shù)據(jù)集中具有相同的可能性,則熵最高;如果用戶總是具有單個負載形狀,則熵最低。
圖10的左圖顯示了各種閾值的集群數(shù)。通過應(yīng)用于圖7的相同推理,自適應(yīng)K-均值的閾值被設(shè)置為0.4。圖10的右圖示出了在通過分層聚類將集群的數(shù)量從78減少到22之后的前8個集群的集群中心(覆蓋95%)。如圖10所示,可以通過一個或兩個主要負載形狀段容易地區(qū)分集群。因此,考慮到特征的維度僅為7,通過其最頻繁的負載形狀段來分割客戶可以是簡單且更可解釋的集群。
圖10 基于負載形狀段的自適應(yīng)K-均值結(jié)果
表1提供了基于總用電量分布的關(guān)于每個負載曲線分段聚類群組的實際比例、平均每日耗電量和平均負載形狀熵的信息。如表1所示,大多數(shù)家庭用戶都負荷晚間高峰值群組,晚間高峰值段約占所有用電模式的40%。
表1 圖10中的住戶用電統(tǒng)計數(shù)據(jù)
由表1可以看到白天高峰組和日間和晚間雙峰組的日均耗電量很大。如果一個家庭用戶主要在白天有高峰用電時間表明該家庭用戶在白天在家里有活躍的用電行為。夜間高峰值群組和白天和夜間雙峰群組的平均負載形狀熵較低。夜間高峰值群組的用電統(tǒng)計量與中低熵組的用電統(tǒng)計量相匹配,其負載曲線形狀以“U”為主,用電高峰通常出現(xiàn)在夜間。
使用RBU以便更容易地比較兩個分割結(jié)果。圖11的左圖示出了在各種閾值處的聚類群組數(shù)量,其中自適應(yīng)K-均值的閾值被設(shè)置為0.3。右圖顯示了通過層次聚類將聚類數(shù)量從99減少到22之后前8個聚類的聚類中心(覆蓋95%)。如圖11所示,可以通過一個或兩個主導(dǎo)RBU容易地區(qū)分集群??紤]到RBU的維度僅為12,本文按照上一節(jié)中的最頻繁RBU對用戶負載曲線進行分段。
圖11 基于RBU的自適應(yīng)K-均值結(jié)果
表2列出了基于總分布的關(guān)于每個分段組的實際比例,平均每日消耗和平均負載形狀熵的信息。如表中所示,M、MN、DM組的消耗量很大,平均負荷形狀熵很低(總戶數(shù)平均熵值為5.19)。如果一個家庭主要在早晨和白天消耗電力,這可能再次暗示家庭是一個家庭住戶,其中在早晨和白天在家中進行活動,如白天高峰組的情況。因此,如果某個能源計劃要求客戶具有穩(wěn)定的大量消費,則MD、MN、DM組可以是良好的候選者。NM組具有最低負載形狀平均熵,其負載曲線形狀以“U”為主,用電高峰主要發(fā)生在夜間和早晨。
表2 圖11中的住戶統(tǒng)計數(shù)據(jù)
本文提出了一種基于客戶用電模式的生活方式細分需求管理方法。基于所提出的相關(guān)的生活方式特征對用電數(shù)據(jù)進行了聚類分析。該分析方法首先通過預(yù)處理的負載形狀字典從編碼數(shù)據(jù)中快速提取生活方式特征。其次,在最復(fù)雜的負載曲線分段情況下采用快速近似算法的兩步聚類來計算兩個子聚類之間的EMD距離。通過實驗表明所提出的數(shù)據(jù)分析模型能夠識別用戶的用電模式及其所代表的生活方式,這為制定針對性的電力營銷提供了有效的量化數(shù)據(jù)支撐。