曾 楠,許元斌,羅義旺,劉 青,劉燕秋,張 歡
(1.國家電網(wǎng)公司,北京 100000;2.國網(wǎng)信通億力科技有限責(zé)任公司智能電網(wǎng)大數(shù)據(jù)實驗室,福建福州 350003)
電力系統(tǒng)負(fù)荷是整個電力系統(tǒng)安全穩(wěn)定運行中較活躍的一部分。負(fù)荷模型是決定現(xiàn)代電力系統(tǒng)可靠性的重要因素之一,它的建立對電力系統(tǒng)規(guī)劃、設(shè)計和運行等諸方面均有十分重要的意義。
近些年,電力系統(tǒng)負(fù)荷特性的聚類方法研究是諸多學(xué)者關(guān)注的熱點,如支持向量聚類[1-3]、模糊免疫網(wǎng)絡(luò)[4-5]、峰群優(yōu)化算法[6-7]、蟻群優(yōu)化算法[8-10]、分布一致性算法[11]、迭代細(xì)化聚類算法[12]、迭代自組織數(shù)據(jù)分析算法[13-14]等。1979年美國耶魯大學(xué)J. A. Hartigan[15]提出一種將m個點在n維空間劃分為K個簇的K-means聚類算法,使集群內(nèi)點在簇間移動過程中的平方和更小。美國天睿公司學(xué)者Carlos Ordonez[16]在K-means算法基礎(chǔ)上,提出一種不用采樣,不同均值初始化和聚類方式的改進K-means算法,并成功應(yīng)用于數(shù)據(jù)庫管理系統(tǒng)。進而臺灣國立中山大學(xué)Ming Chao Chiang提出一種簡約K-mean算法[17],對人群數(shù)據(jù)進行實驗,驗證了簡約算法運行時間的快速性。加拿大圣瑪麗大學(xué)Pawan Lingras[18]在Hartigan的基礎(chǔ)上,提出一種基于粗糙集理論應(yīng)用于Web數(shù)據(jù)的K-means聚類算法。Francesco Camastra在經(jīng)典K-means的啟發(fā)下,提出一種基于支持向量聚類[19]的集群迭代細(xì)化算法。Tung Shou Chen在文獻[19]的基礎(chǔ)上,利用分層聚類算法縮短集群合并時間,改善了原始數(shù)據(jù)陣列的聚類效率[20]。印度馬德拉斯大學(xué)S. Kalyani通過K-means聚類算法對電力系統(tǒng)的可靠性進行評估[21],對于IEEE 30節(jié)點和IEEE 57節(jié)點測試數(shù)據(jù)可行性已得到驗證。合肥工業(yè)大學(xué)楊善林和周開樂對電力系統(tǒng)負(fù)荷特性中不良數(shù)據(jù)的識別和校正進行討論,并通過負(fù)荷特性曲線進行負(fù)荷特征預(yù)測[22]。文獻[23]利用K-means算法構(gòu)建負(fù)荷峰谷時段模型,反映了劃分結(jié)果時段的負(fù)荷差異。
本文在前人經(jīng)驗的基礎(chǔ)上,將Canopy算法與K-means算法有效地結(jié)合建立了分布式聚類模型,以福建省用戶用電負(fù)荷信息為例進行實驗,對聚類結(jié)果中的各類用戶的負(fù)荷曲線和相應(yīng)的聚類中心分布進行分析,確定了影響算法運行時間的關(guān)鍵因素,并通過聚類結(jié)果預(yù)測了用戶負(fù)荷特征。
K-means算法是以歐式距離進行樣本的相似性區(qū)分,即認(rèn)為彼此間距離值越小,其相似性越大[16],歐氏距離為
(1)
基本思想是給定含有N個數(shù)據(jù)的樣本集合P{p1,p2,…,pN}, 選取聚類劃分目標(biāo)簇的個數(shù)K,每個簇有一個中心,分別計算其余各樣本與該簇中心的歐式距離,將該樣本歸類到距離最小的簇中,并以平方誤差準(zhǔn)則對聚類中心進行調(diào)整,該準(zhǔn)則的函數(shù)形式為
(2)
式中:nj為樣本個數(shù)(第j類);mj為樣本均值(第j類)表示數(shù)據(jù)集合中心。
在迭代計算過程中,若相鄰兩次的聚類中心未變化,則說明J0收斂、聚類完成,最后所有的數(shù)據(jù)對象存放在相應(yīng)的類中[15-17]。其算法過程如圖1所示,具體實現(xiàn)步驟:
輸入:樣本集合和目標(biāo)簇個數(shù)K;
輸出:K個分類簇,并滿足J0小于某設(shè)定值。
步驟:
①從樣本集合中隨機選取K個對象作為初始聚類中心;
②迭代計算樣本集中余下的點到選定的K聚類中心的距離;
③根據(jù)距離進行歸類劃分;
④反復(fù)計算并更新K個聚類中心,直到J0收斂。
K-Means算法的一個不足之處是必須預(yù)先指定簇數(shù)K,在許多實際應(yīng)用中要設(shè)定一個合理的K值不是一件容易的事。此時,借助Canopy算法可以完成簇數(shù)K及初始簇中心的估計[24]。Canopy是一種聚類算法,依據(jù)參數(shù)T1和T2實現(xiàn)對象的粗略劃分。圖2顯示一個典型的Canopy聚類過程。
圖2 Canopy算法過程
圖2中的實線圈為距離閾值T1,虛線圈為距離閾值T2,其中T1和T2的值采用交叉校驗確定。Canopy算法首先將所有對象加入候選集。然后,每次從候選集中取出一個對象,計算它的所有Canopy的距離(第一個對象自動成為Canopy),若它與某個Canopy的距離小于T1,則將其加入該Canopy(圖中實線圈)。若它與某個Canopy的距離還小于T2,則認(rèn)為它們太接近了,不再考慮其作為Canopy的可能性,從候選集中刪除這個對象(圖中虛線圈)。算法迭代運行至所有對象都加入某個Canopy。最后,計算Canopy的數(shù)量即為簇數(shù)K的估計值,而每個Canopy中對象的均值即為初始簇中心。
Canopy算法雖然運行速度較快,但是聚類過程精度較低,因此本文使用Cannopy算法對數(shù)據(jù)初步并行聚類,獲取K個簇。然后把獲得的K個簇作為初始聚類個數(shù)利用用K-means進行進一步聚類。也就是說Canopy算法主要把聚類分為兩個階段。第一階段為數(shù)據(jù)預(yù)處理階段,使用簡便計算方法將相似對象放入一個叫做Canopy的子集中。第二階段為聚類計算階段,在各個子集中使用K-Mean算法計算同一子集中所有數(shù)據(jù)向量的距離。
負(fù)荷模型的描述方程[25-26]為
(3)
式中:P為負(fù)荷有功功率;Q為無功功率;U為母線電壓;ω為頻率;下標(biāo)0表示在其基準(zhǔn)點穩(wěn)態(tài)運行時的值;pU為負(fù)荷有功電壓特性指數(shù);qU為無功電壓特性指數(shù);pω為負(fù)荷有功頻率特性指數(shù);qω為負(fù)荷無功頻率特性指數(shù)。
理論量測式
(4)
只計及負(fù)荷電壓特性而忽略頻率特性時,對式(3)進行泰勒展開,可得動態(tài)過程負(fù)荷計算模型的簡化式
(5)
聚類是指將抽象對象集合重新組成相類似對象多個簇的過程,同一簇中對象相似,不同簇中對象相異。電力系統(tǒng)中的海量數(shù)據(jù)處理問題是眾多學(xué)者較為關(guān)注熱點問題,如何深入挖掘有價值、可以指導(dǎo)實際應(yīng)用的信息是解決這一問題的核心。本文利用分布式框架Mahout的MapReduce設(shè)計出應(yīng)用于電力系統(tǒng)負(fù)荷特性的高效數(shù)據(jù)模型挖掘算法,在提高聚類算法處理數(shù)據(jù)性能的同時,解決并行挖掘的問題,其構(gòu)建總體流程如圖3所示。
圖3 模型構(gòu)建總體流程
基于Mahout的分布式聚類模型構(gòu)建過程主要包括以下幾個步驟:
①輸入歷史一年中全省負(fù)荷值最大的當(dāng)天用戶整點負(fù)荷數(shù)據(jù),針對負(fù)荷數(shù)據(jù)進行預(yù)處理,并進行數(shù)據(jù)歸一化處理;
②執(zhí)行并行聚類算法,確定是否自動確定聚類簇數(shù),如果選擇人工確定簇數(shù),則直接輸入聚類簇數(shù),如果選擇自動確定聚類簇數(shù),則采用并行Conopy算法計算簇數(shù)值和初始簇中心;
③執(zhí)行并行K-Means算法,輸出聚類結(jié)果,進行聚類結(jié)果評估。
原始數(shù)據(jù)不同特征的值域可能存在較大差異。如果直接在原始數(shù)據(jù)上分析,數(shù)值大的特征將湮沒數(shù)值小的特征,使值域較小的特征無法得到有效利用。因此,需要對原始數(shù)據(jù)做區(qū)間規(guī)范化。
原始數(shù)據(jù)分類總個數(shù)為n,每一類的所屬行業(yè)用電數(shù)為m,xij為第i個分類中第j個所屬行業(yè)的基本負(fù)荷特征。
n類的第j個所屬行業(yè)特征的平均值
(6)
n類的第j個所屬行業(yè)特征的標(biāo)準(zhǔn)差
(7)
所屬行業(yè)規(guī)范化值
(8)
數(shù)據(jù)歸一化至[0,1]區(qū)間
(9)
式中:xjmin和xjmax為第j個所屬行業(yè)用電的最小值。
如果某個特征的取值全為0,將導(dǎo)致規(guī)范化公式的分母為0。此時,不對該特征規(guī)范化,即保持原始值0。
樣本數(shù)據(jù)為福建省2015年5月23日用戶整點負(fù)荷數(shù)據(jù),為反映負(fù)荷樣本本質(zhì)特性,需從中提取特征量??煽紤]的特征量包括:樣本模型參數(shù)、負(fù)荷功率、動態(tài)特征、時間因素等。在實際分類過程中,首先對時間特征進行初步劃分,然后再以其他特征進行細(xì)分。
可供選取的歷史負(fù)荷數(shù)據(jù)共包括708 000條,其數(shù)據(jù)類型如表1所示。在進行聚類操作時,采用24個整點負(fù)荷參與聚類分析。由于原始數(shù)據(jù)通常存在缺失或錯漏,故為保證后續(xù)算法的正常分析,對缺失值采用填充、相鄰負(fù)荷均值的方式進行數(shù)據(jù)填充。若相鄰負(fù)荷也是空值,則繼續(xù)向前向后查找非空負(fù)荷值。如果直至第1項負(fù)荷(或最末1項負(fù)荷)仍為空值,則默認(rèn)其為0后再計算均值。異常值的負(fù)荷允許為負(fù)數(shù),不作處理[27]。
表1 關(guān)鍵對象類型數(shù)據(jù)表
另外,由于原始數(shù)據(jù)中存在同一個用戶對應(yīng)多條記錄的情況,故需在分析前進行數(shù)據(jù)過濾。處理方法是將同一個用戶的所有記錄同一時刻的負(fù)荷值進行累加,然后合并成一條記錄[28]。針對記錄中相鄰多個負(fù)荷值連續(xù)為空的情況,設(shè)置一個最大允許值為連續(xù)的空特征數(shù)參數(shù),如果連續(xù)為空的負(fù)荷特征的數(shù)量超過該值時就刪除該記錄。
根據(jù)簇的不同設(shè)置3組方案,分別對3組方案進行自動聚類算法和人工聚類算法的數(shù)據(jù)分析,其方案設(shè)計對照結(jié)果統(tǒng)計如表2所示。
表2 聚類實驗結(jié)果表
由表2可知,參數(shù)T2對聚類結(jié)果有顯著影響。當(dāng)T2值較小時,由于太接近某個Canopy而被刪除的對象較少,因此生成的初始簇較多,系統(tǒng)運行時間也較長。相反地,當(dāng)T2值較大時,較多對象會被刪除,因此生成的初始簇較少,系統(tǒng)運行速度較快。整個系統(tǒng)運行過程中,比較耗時的是Canopy算法的運行及將結(jié)果寫入數(shù)據(jù)庫。Canopy算法受參數(shù)T1和T2影響,運行時間會有較大波動。隨著簇數(shù)的增多,聚類算法運行總時間增加,自動聚類算法的時間增加緩慢,變化不明顯;人工聚類算法的時間在簇個數(shù)較小時,具有快速性的優(yōu)勢,但簇個數(shù)由4變7時,運行總時間驟然增大,是自動聚類算法時間的1.4倍。
圖4 方案1聚類中心分布
圖4為方案1的聚類中心分布圖,由圖可以看出:簇數(shù)為2時的自動聚類算法與人工聚類算法的負(fù)荷規(guī)范化區(qū)間曲線差別不大,經(jīng)進一步計算可得系列1的自動、人工總體標(biāo)準(zhǔn)差分別為0.018 4和0.018 7,系列2的自動、人工總體標(biāo)準(zhǔn)差為0.144 9和0.144 5,各自的均值偏差均不到1%。系列1負(fù)荷規(guī)范化區(qū)間曲線波動范圍較小,表現(xiàn)出穩(wěn)定的特點,可以判定該用電負(fù)荷為一些無大功率負(fù)荷的行業(yè)。系列2的曲線具有中間低、兩頭更低的趨勢,該用電負(fù)荷為農(nóng)業(yè)生產(chǎn)用電,判斷依據(jù)是農(nóng)業(yè)工作時間大部分位于陽光較佳的白天,而中午短暫的負(fù)荷降低與人們的作息規(guī)律具有直接關(guān)系,也可以推測有相當(dāng)一部分工作者在午間休息。
圖5為自動4個簇時的聚類中心分布圖,系列1和系列3曲線與農(nóng)業(yè)生產(chǎn)用電日負(fù)荷曲線趨勢一致。系列2曲線的用電負(fù)荷峰值集中在7:00、12:00及20:00附近,這是因為在居民就餐及休閑時間內(nèi)家用電器使用率增加的原因,因此系列2為普通居民生活用電負(fù)荷。系列4曲線與居民用電負(fù)荷曲線截然不同,其夜間用電負(fù)荷較高,具有避峰用戶的特征,特征為夜間用電成本較低,規(guī)避了白天用電的高峰期。
圖5 方案2自動聚類中心分布
圖6為自動7個簇時的聚類中心分布圖,系列1與普通居民生活用電負(fù)荷的變化趨勢接近,系列2同無大功率用電負(fù)荷行業(yè)的用電負(fù)荷曲線波動形式一致,系列3具有避峰用戶行業(yè)的特征,系列4、系列5和系列7具有農(nóng)業(yè)生產(chǎn)用電負(fù)荷的特點,系列6負(fù)荷規(guī)范化區(qū)間曲線波動范圍較小,表現(xiàn)出穩(wěn)定的特點,且數(shù)值比大部分行業(yè)用戶大,可以判定該用電負(fù)荷為大工業(yè)用電。
圖6 方案3自動聚類中心分布
圖7和圖8分別為2個簇和7個簇時的人工聚類中心分布,人工聚類中心的分布形式與自動聚類中心一致,故人工聚類算法的用電負(fù)荷特征與自動聚類算法相同。
圖7 方案2人工聚類中心分布
圖8 方案3人工聚類中心分布
圖9為4個簇聚類中心誤差棒柱形圖,從圖中看出聚類中心分布的顯著性明顯,系列2、3、4的人工聚類算法均值較高,系列1、3兩種聚類算法顯著性均較大。
圖9 方案2聚類中心error bar
圖10是7個簇聚類中心誤差棒柱狀圖,由圖可知系列1、4的人工聚類算法均值較高,系列5、7的自動聚類算法均值較大,系列1、3、4、7的兩種算法顯著性均較明顯,其中系列7的顯著性最為明顯。
圖10 方案3聚類中心error bar
通過對福建省用戶相關(guān)用電采集數(shù)據(jù)的獲取,采用分布式聚類算法實現(xiàn)對用戶的用電負(fù)荷特性歸類分析,得出如下結(jié)論:
①人工聚類算法的運行時間隨著簇個數(shù)的增加而增加。簇個數(shù)較少時,運行時間較短,簇個數(shù)增大到一定程度后,運行時間成倍增加。
②自動聚類算法的運行時間隨著簇個數(shù)的增加而緩慢增加,變化不明顯。簇個數(shù)越多,其算法的快速運行的優(yōu)勢越明顯。
③距離閾值T2越小,初始簇越多,系統(tǒng)運行時間越長,它的值越大,初始簇越少,系統(tǒng)運行速度越短。
④簇個數(shù)較少時,人工和自動聚類算法的聚類中心負(fù)荷區(qū)間規(guī)范化曲線非常接近,標(biāo)準(zhǔn)差和均值的偏差均不到1%。
⑤簇個數(shù)較大時,無大功率負(fù)荷用電行業(yè)和大工業(yè)用電行業(yè)的負(fù)荷規(guī)范化區(qū)間曲線穩(wěn)定,顯著性不明顯;農(nóng)業(yè)生產(chǎn)用電行業(yè)的負(fù)荷規(guī)范化區(qū)間曲線呈中間低、臨測高和兩側(cè)低的趨勢,顯著性明顯,為預(yù)測用戶負(fù)荷特征及用電特性提供思路借鑒,對不同負(fù)荷特征用戶的移峰填谷提供理論支持。
需要說明的是,分布式聚類模型在運算過程中一旦對象與簇中心集合就不能被撤銷,從而不能糾正運算過程中存在的錯誤,電力負(fù)荷聚類模型的自適應(yīng)問題將是下一階段要研究的核心,本文的研究為其打下理論基礎(chǔ)。
[1] Chicco G, Ilie I S. Support vector clustering of electrical load pattern data[J]. IEEE Transactions on Power Systems, 2009, 24(3): 1619-1628.
[2] 楊再鶴, 向鐵元, 鄭丹. 基于小波變換和SVM算法的微電網(wǎng)短期負(fù)荷預(yù)測研究[J]. 現(xiàn)代電力, 2014, 31(3): 74-79.
[3] 王林川, 白波, 于奉振, 等. 基于QPSO參數(shù)優(yōu)化的WLS-SVM短期負(fù)荷預(yù)測[J]. 現(xiàn)代電力, 2010, 27(5):49-52.
[4] Gu D, Ai Q, Chen C. The application of artificial immune network in load classification[C]//International Conference on Electric Utility Deregulation and Restructuring and Power Technologies, IEEE, 2008: 1394-1398.
[5] 顧丹珍, 艾芊, 陳陳. 一種基于免疫網(wǎng)絡(luò)理論的負(fù)荷分類方法[J]. 電網(wǎng)技術(shù), 2007, 31(S1):6-9.
[6] Gavrilas M, Gavrilas G, Sfintes C V. Application of honey bee mating optimization algorithm to load profile clustering[C]//2010 IEEE International Conference on Computational Intelligence for Measurement Systems and Applications. IEEE, 2010: 113-118.
[7] 任新新, 周玲, 趙峰, 等. 基于人工蜂群算法的配電網(wǎng)無功優(yōu)化[J]. 現(xiàn)代電力, 2012, 29(4) :41-45.
[8] 孫雅明, 王晨力, 張智晟, 等. 基于蟻群優(yōu)化算法的電力系統(tǒng)負(fù)荷序列的聚類分析[J]. 中國電機工程學(xué)報, 2005, 25(18): 40-45.
[9] 李如琦, 楊立成, 蘇媛媛, 等. 基于相似日和蟻群優(yōu)化LS-SVM的短期電力負(fù)荷預(yù)測[J]. 現(xiàn)代電力, 2008, 25(2): 33-37.
[10]方濤, 劉俊勇, 胡燦, 等. 計及動態(tài)負(fù)荷投載的最優(yōu)恢復(fù)策略[J]. 現(xiàn)代電力, 2009, 26(6): 30-34.
[11]Chicco G, Napoli R, Piglione F, et al. Load pattern-based classification of electricity customers[J]. IEEE Transactions on Power Systems, 2004, 19(2): 1232-1239.
[12]Batrinu F, Chicco G, Napoli R, et al. Efficient iterative refinement clustering for electricity customer classification[C]//Power Tech., 2005 IEEE Russia. IEEE, 2005: 1-7.
[13]Mutanen A, Ruska M, Repo S, et al. Customer classification and load profiling method for distribution systems[J]. IEEE Transactions on Power Delivery, 2011, 26(3): 1755-1763.
[14]王華芳, 衛(wèi)志農(nóng), 楊博, 等. 利用基于模糊劃分的ISODATA模糊聚類方法識別電力系統(tǒng)同調(diào)機群[J]. 電網(wǎng)技術(shù), 2005, 29(2): 19-22.
[15]Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1979, 28(1): 100-108.
[16]Ordonez C,Omiecinski E. Efficient disk based k-means clustering for relational databases [J] . IEEE Transactions on Knowledge and Data Engineering, 2004, 16(8): 909-921.
[17]Chiang M C, Tsai C W, Yang C S. A time-efficient pattern reduction algorithm for k-means clustering[J]. Information Sciences, 2011, 181(4): 716-731.
[18]Lingras P, West C. Interval set clustering of web users with rough k-means[J]. Journal of Intelligent Information Systems, 2004, 23(1): 5-16.
[19]Camastra F, Verri A. A novel kernel method for clustering[J]. IEEE Transactions on Pattern Analy-
sis and Machine Intelligence, 2005, 27(5): 801-805.
[20]Chen T S, Tsai T H, Chen Y T, et al. A combined K-means and hierarchical clustering method for improving the clustering efficiency of microarray[C]//2005 International Symposium on Intelligent Signal Processing and Communication Systems. IEEE, 2005: 405-408.
[21]Kalyani S, Swarup K S. Particle swarm optimization based K-means clustering approach for security assessment in power systems[J]. Expert systems with applications, 2011, 38(9): 10839-10846.
[22]Zhou K L, Yang S L,Shen C. A review of electric load classification in smart grid environment[J]. Renewable and Sustainable Energy Reviews, 2013, 24: 103-110.
[23]李娜, 王磊, 張文月, 等. 基于高維數(shù)據(jù)優(yōu)化聚類的長周期峰谷時段劃分模型研究[J]. 現(xiàn)代電力, 2016, 33(4): 67-71.
[24]Zhang T, Ramakrishnan R, Livny M. BIRCH: A new data clustering algorithm and its applications[J]. Data Mining and Knowledge Discovery, 1997, 1(2): 141-182.
[25]Shi J H, Renmu H. Measurement-based load modeling-model structure[C]//Power Tech Conference proceedings, 2003 IEEE Bologna. IEEE, 2003.
[26]倪以信, 陳壽孫, 張寶霖. 動態(tài)電力系統(tǒng)理論和分析[M]. 北京: 清華大學(xué)出版社, 2002: 81-82.
[27]賀仁睦, 王衛(wèi)國, 蔣德斌. 廣東電網(wǎng)動態(tài)負(fù)荷實測建模及模型有效性的研究 [J]. 中國電機工程學(xué)報, 2002, 22(3): 78-82.
[28]趙勇, 胡劍琛, 俞悅,等. 海南電網(wǎng)與南方電網(wǎng)主網(wǎng)聯(lián)網(wǎng)的特性研究[J]. 中國電力, 2010, 43(2): 7-10.