胡昌斌, 張 亞, 李迎麗, 萬上英, 張思路
(中國(guó)南方電網(wǎng) 云南電網(wǎng)有限責(zé)任公司, 昆明 650011)
隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展,2018年全社會(huì)用電量已達(dá)68 449億千瓦時(shí),同比增長(zhǎng)8.5%.而電力需求具有時(shí)段和季節(jié)緊缺的特點(diǎn),與電力能源即發(fā)即用的特點(diǎn)相矛盾,導(dǎo)致用電低谷時(shí)期大量電力資源的浪費(fèi)[1].目前,各電力公司根據(jù)用戶需求響應(yīng)的不同提出了不同的有序用電措施,如基于行政手段的需求響應(yīng)、基于激勵(lì)的需求響應(yīng)和基于價(jià)格的需求響應(yīng)方式[2-3],實(shí)施有序的電力資源管理措施是保障供用電平穩(wěn)和優(yōu)化電力資源配置的有力手段[4-5].
為了有效掌握和管理用戶的實(shí)際用電需求,需要充分分析與掌握用戶的用電行為,并從用戶用電負(fù)荷數(shù)據(jù)中挖掘出其中蘊(yùn)含的用戶用電行為特征.文獻(xiàn)[6]在電力營(yíng)銷分析中使用聚類算法將供電企業(yè)分為不同的組別,并根據(jù)各組別的特點(diǎn)設(shè)計(jì)了不同的電力營(yíng)銷策略;文獻(xiàn)[7]結(jié)合決策樹模型和時(shí)間序列數(shù)據(jù)來預(yù)測(cè)電力系統(tǒng)負(fù)荷;文獻(xiàn)[8]根據(jù)用電客戶的行為、屬性、偏好和需求等因素將客戶進(jìn)行細(xì)分,以提供有特色和針對(duì)性的服務(wù),實(shí)現(xiàn)客戶高效、便捷的管理;文獻(xiàn)[9]針對(duì)用戶行為與夏季氣溫變化的特點(diǎn),采用二次聚類算法總結(jié)氣溫變化對(duì)用電行為的影響;文獻(xiàn)[10]結(jié)合云計(jì)算和K均值聚類方法實(shí)現(xiàn)了典型用電行為的分類.上述方法主要研究用戶用電行為的影響因素,并未細(xì)化到用電行為特征分析與用電行為影響機(jī)理中,嚴(yán)重限制了電力公司需求響應(yīng)和能效評(píng)估工作的開展[11-13].
本文使用機(jī)器學(xué)習(xí)方法深入挖掘用戶的用電數(shù)據(jù),提出了一種基于樸素貝葉斯分析的電網(wǎng)用戶行為分析模型.該方法首先構(gòu)建不同用電模式下用戶的用電負(fù)荷特性指標(biāo),然后,使用樸素貝葉斯分類器提取出影響用戶用電行為的主要因素,并使用某紡織企業(yè)在2018年48個(gè)時(shí)間點(diǎn)的負(fù)荷數(shù)據(jù)進(jìn)行了仿真驗(yàn)證.
本文采用基于時(shí)間維度的數(shù)據(jù)分析方法,將負(fù)荷數(shù)據(jù)表示為特征向量,并對(duì)其進(jìn)行貝葉斯分類.具體包括:數(shù)據(jù)預(yù)處理、用戶用電行為模式分析和用電行為模式的影響因素與影響機(jī)理分析3部分.
電網(wǎng)負(fù)荷指標(biāo)多種多樣,根據(jù)不同的研究目的選擇不同的分析指標(biāo),將會(huì)對(duì)負(fù)荷分類結(jié)果產(chǎn)生較大影響.目前,電力系統(tǒng)負(fù)荷指標(biāo)體系主要分為曲線型和數(shù)值型兩種,其建立涉及到日、月、年等時(shí)間段,傳統(tǒng)描述指標(biāo)有:描述類、比較類和曲線類這3種.日平均負(fù)荷、日最大/最小負(fù)荷和日峰谷差絕對(duì)值屬于描述類指標(biāo);日負(fù)荷率、日最小負(fù)荷率和日峰谷差率為相對(duì)量,屬于比較類指標(biāo);而日負(fù)荷曲線為曲線類指標(biāo).除了這些傳統(tǒng)描述指標(biāo),目前也提出了一些新型負(fù)荷特性指標(biāo):
1) 可中斷/可削減的持續(xù)時(shí)間.設(shè)備在響應(yīng)客戶需求過程中,滿足基本需求的持續(xù)響應(yīng)時(shí)間.
2) 爬坡速率.終端設(shè)備在單位時(shí)間內(nèi)可以削減或增加的額外功率.
3) 負(fù)荷可調(diào)能力.在補(bǔ)償有限的情況下,對(duì)負(fù)荷的控制是否能通過電網(wǎng)技術(shù)實(shí)現(xiàn).
4) 負(fù)荷可調(diào)整時(shí)段.終端設(shè)備能正常開啟并響應(yīng)用戶需求的時(shí)間段.
本文主要研究用戶和企業(yè)單位正常生活、生產(chǎn)時(shí)的日用電特性,所選用的指標(biāo)體系需要能較準(zhǔn)確地反映企業(yè)單位的生產(chǎn)特性、生產(chǎn)班次和用電性質(zhì).本文使用用戶若干時(shí)段的負(fù)荷數(shù)據(jù)作為指標(biāo),然而這些數(shù)據(jù)通常存在諸多噪聲和異常值,因此需要首先對(duì)其進(jìn)行預(yù)處理.使用數(shù)據(jù)平滑技術(shù)來減少噪聲數(shù)據(jù),即
(1)
(2)
(3)
式中,ε為常數(shù)閾值,取值為1~1.5.對(duì)異常數(shù)據(jù)的修正計(jì)算式為
(4)
為了區(qū)分不同的用電模式,本文先使用最短距離聚類法得到初始聚類中心,然后使用模糊C均值聚類判斷用電模式.
在最短距離聚類法中,類間距離的計(jì)算表達(dá)為
DKL=min(d°i,j∶gi∈GK,gj∈GL)
(5)
式中:DKL為類別GK,GL的類間距離;gi為采集到的用戶每天48點(diǎn)負(fù)荷數(shù)據(jù);d°i,j為元素gi,gj間歐式的距離.
將得到的聚類中心作為模糊C均值聚類第一次迭代的初始值,并確定模糊C均值聚類的隸屬度矩陣,即
(6)
(7)
式中:uij為元素i與元素j間的隸屬度;m為總的類別數(shù);q為權(quán)重系數(shù),且有q∈[1,∞);ei為聚類中心位置.
基于隸屬度函數(shù)可以確定價(jià)值函數(shù)為
(8)
基于上述步驟可以將電力用戶的用電模式聚類為m類,并在此基礎(chǔ)上預(yù)測(cè)各用戶的用電行為.
本部分使用貝葉斯分類器建立起日期、氣溫等因素與用電行為模式之間的關(guān)系,并以此為基礎(chǔ)分析,預(yù)測(cè)出用戶的用電行為模式,具體計(jì)算流程如圖1所示.
圖1 用戶用電模式分析流程Fig.1 Analysis flow chart of electricity consumption modes of users
具體計(jì)算分為3個(gè)步驟:
1) 準(zhǔn)備階段.使用相關(guān)分析量來檢測(cè)兩輸入特征的關(guān)聯(lián)程度,從而刪除冗余數(shù)據(jù),分析表達(dá)式為
(9)
本文將所有觀測(cè)日的特征量組合成特征元組x={x1,x2,…,xl},并將其分為訓(xùn)練集和測(cè)試集.
2) 貝葉斯分類器訓(xùn)練.假設(shè)每個(gè)類ci(i=1,2,…,m)的先驗(yàn)概率為P(ci),并假設(shè)各類別相互獨(dú)立,即
P(x1|ci)P(x2|ci)…P(xl|cl)
(10)
式中,xk為元組x的第k個(gè)特征分量.對(duì)于特征量x,需要考慮其為連續(xù)值還是離散值.
當(dāng)特征量x為連續(xù)值時(shí),假設(shè)其服從高斯分布,即
P(xk|cl)=f(xk,μci,σci)=
(11)
式中:μci為第k個(gè)屬性分量的均值;σci為第k個(gè)屬性分量的標(biāo)準(zhǔn)差.
3) 分類器評(píng)估.本文考慮到用戶用電模式的多樣性,使用貝葉斯理論公式計(jì)算得到用戶各種用電模式,即
P(c1|x)c1(t)+…+P(cm|x)cm(t)
(12)
式中,Ds(t)為用電負(fù)荷.
在識(shí)別出用戶的用電模式后,使用主成分分析法識(shí)別出影響用戶用電行為模式的影響機(jī)理和影響因素,具體步驟為:
1) 設(shè)共有n個(gè)待分析樣本,其在m個(gè)觀測(cè)日的樣本矩陣為
(13)
式中,xij為觀測(cè)日i上的第j個(gè)特征的觀測(cè)值,對(duì)特征樣本進(jìn)行歸一化變換則有
(14)
2) 求相關(guān)矩陣R,矩陣各元素的求解表達(dá)式為
(15)
式中,x′jh為觀測(cè)日i的第h個(gè)特征經(jīng)標(biāo)準(zhǔn)化變換后的觀測(cè)值.
3) 使用特征方程|λI-R|=0計(jì)算矩陣R的特征值,得到特征值λj(j=1,2,…,n),并可以得到每個(gè)影響因素的方差貢獻(xiàn)率,即
(16)
本文取方差貢獻(xiàn)率較大的前10個(gè)分量作為主成分,即用戶用電行為模式的主要影響因素.
本文以某紡織企業(yè)的用電數(shù)據(jù)進(jìn)行仿真測(cè)試,選取該企業(yè)在2018年全年每日的48點(diǎn)負(fù)荷數(shù)據(jù)與該地的氣候信息構(gòu)建數(shù)據(jù)集.仿真平臺(tái)使用惠普Envy13-d025tu筆記本電腦和MATLAB軟件進(jìn)行數(shù)據(jù)處理.
本文共采集了6.45 GB用電數(shù)據(jù),為加快數(shù)據(jù)的處理速度,將數(shù)據(jù)讀取出來并分成不同的數(shù)據(jù)塊進(jìn)行分片式處理.經(jīng)預(yù)處理后,可以得到將近10 MB的用電特征數(shù)據(jù).本文將這些數(shù)據(jù)劃分為44 000條訓(xùn)練數(shù)據(jù)和9 000條測(cè)試數(shù)據(jù).
本文通過分析電力數(shù)據(jù)的負(fù)荷特性(如日負(fù)荷率和日峰谷差率)可知電力負(fù)荷的變化具有一定的時(shí)段性,而且峰谷存在閾值,結(jié)合這些值的變化情況來對(duì)用電行為進(jìn)行聚類.本文將該企業(yè)的用電行為進(jìn)行聚類,其中,峰谷差率主要有6種數(shù)值:(0.494 932,0.022 945),(0.399 645,0.027 304),(1,0.205 298),(0.972 414,0.051 151),(1,0.040 948)和(0.979 239,0.961 661),因此本文將用戶的用電行為聚為6類,聚類結(jié)果如圖2所示.從圖2中可以看出,各用電模式最高負(fù)荷的分布不同,其中模式類別2的最高負(fù)荷在5 900~6 100 kW,而模式3的最高負(fù)荷不到1 000 kW.
圖2 不同用電模式聚類結(jié)果比較Fig.2 Comparison of clustering results under different electricity consumption modes
基于上述聚類結(jié)果,本文分析了氣溫對(duì)用戶用電模式的影響,針對(duì)該地區(qū)的平均氣溫情況,將2018年的氣溫分為8個(gè)不重復(fù)的區(qū)間,根據(jù)聚類結(jié)果可以得到氣溫與用電模式及其概率的分布情況,如表1所示.通過分析表1的數(shù)據(jù)可知,氣溫變化能明顯影響用戶的用電模式,如用電模式6只存在于溫度區(qū)間[7 ℃,12 ℃]和[27 ℃,32 ℃];而用電模式3在[32 ℃,40 ℃]時(shí)不存在,而在其他溫度范圍時(shí)則均有使用.
表1 氣溫與用電模式的關(guān)系及其概率Tab.1 Relationship between air temperature and electricity consumption modes and respective probability
本文同時(shí)使用貝葉斯分類法和聚類法對(duì)用電模式進(jìn)行負(fù)荷預(yù)測(cè)應(yīng)用,表2所示為本文預(yù)測(cè)不同工作日情況下的用電模式概率.從表2結(jié)果可以看出,本方法在貝葉斯方法的基礎(chǔ)上,結(jié)合氣候條件和工作日變化,可以估算出用戶的用電負(fù)荷大小.充分驗(yàn)證了本文方法在分析用戶用電模式時(shí)的有效性,為電力系統(tǒng)的調(diào)控與運(yùn)行提供了一種合理、有效的手段.
本文提出了一種基于樸素貝葉斯分析的電網(wǎng)用戶行為分析方法.該方法使用模糊C均值聚類將電網(wǎng)用戶的用電數(shù)據(jù)聚類為6種不同的用電模式,并使用貝葉斯分類器分析氣溫對(duì)用戶用電行為的影響.使用MATLAB軟件對(duì)某企業(yè)48點(diǎn)負(fù)荷數(shù)據(jù)的仿真測(cè)試結(jié)果表明,本文所提出方法在分析用戶用電模式方面效果較理想,為電力系統(tǒng)的調(diào)控和運(yùn)行提供了一種合理、有效的方案.
表2 不同工作日情況下的用電模式概率Tab.2 Probabilities of electricity consumption modes in different working days