劉 洋, 劉 洋, 許立雄
(四川大學(xué)電氣信息學(xué)院, 四川省成都市 610065)
負(fù)荷分類對電網(wǎng)經(jīng)濟(jì)分析和安全可靠運(yùn)行具有重要意義,并且可對訂制電價[1]、負(fù)荷預(yù)測[2]、系統(tǒng)規(guī)劃、負(fù)荷管理與負(fù)荷建模[3]等提供基礎(chǔ)和參考。長期以來,負(fù)荷分類是智能電網(wǎng)數(shù)據(jù)挖掘的一個重要方面,如何對電力負(fù)荷數(shù)據(jù)高效準(zhǔn)確地分類受到諸多學(xué)者的廣泛關(guān)注和研究[3-6]。
近年來,利用人工智能神經(jīng)網(wǎng)絡(luò)算法進(jìn)行負(fù)荷分類和預(yù)測,取得了良好實(shí)際效果,其根據(jù)訓(xùn)練樣本不斷迭代更新網(wǎng)絡(luò)參數(shù),具有良好的學(xué)習(xí)和容錯能力,且不受負(fù)荷成分和特性限制,具有描述復(fù)雜動態(tài)行為方面的優(yōu)勢。其中,反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)算法作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練采用最多、也是最成熟的分類算法之一,具有極強(qiáng)的函數(shù)逼近與模式分類能力,在負(fù)荷模型辨識中應(yīng)用廣泛。文獻(xiàn)[5]提出了一種基于模糊聚類與改進(jìn)的反向傳播(BP)算法的負(fù)荷特性曲線分類方法,在C-均值聚類得到典型負(fù)荷曲線后,結(jié)合多種環(huán)境因素作為學(xué)習(xí)樣本建立BP模型,取得良好的分類效果。文獻(xiàn)[6]利用模糊理論對典型BPNN算法進(jìn)行參數(shù)修正,提出自適應(yīng)神經(jīng)網(wǎng)絡(luò)有效提高負(fù)荷建模的速度和精度。文獻(xiàn)[7]建立基于知識挖掘分類技術(shù)的自適應(yīng)結(jié)構(gòu)日負(fù)荷曲線BPNN算法預(yù)測模型,通過計算負(fù)荷曲線相似度對歷史數(shù)據(jù)進(jìn)行排序與初步分類,再利用BPNN算法對誤差糾偏得到的負(fù)荷分類模型進(jìn)行更加精確的負(fù)荷預(yù)測。
然而,隨著智能電表的普及與傳感器技術(shù)、通信技術(shù)的發(fā)展,負(fù)荷數(shù)據(jù)采集間隔縮短,數(shù)據(jù)量成倍增加,用戶負(fù)荷數(shù)據(jù)呈現(xiàn)出體量大、類型多、速度快、隨機(jī)性強(qiáng)等特點(diǎn)[7-9]。面向海量負(fù)荷數(shù)據(jù),采用神經(jīng)網(wǎng)絡(luò)分類往往由于學(xué)習(xí)過程中訓(xùn)練樣本過大導(dǎo)致效率低下。而并行計算可將任務(wù)劃分,是應(yīng)對海量數(shù)據(jù)計算速度緩慢的一種有效方式。文獻(xiàn)[8]提出一種基于分布式計算框架Hadoop的電力用戶側(cè)大數(shù)據(jù)管理方案,利用并行化框架對負(fù)荷數(shù)據(jù)挖掘,有效提高數(shù)據(jù)處理效率。文獻(xiàn)[10]提出一種基于Hadoop架構(gòu)的多重分布式短期負(fù)荷預(yù)測方法,在多重概念的基礎(chǔ)上綜合考慮灰色關(guān)聯(lián)度、最短距離聚類法和有效指標(biāo)方式,在達(dá)到傳統(tǒng)BP模型預(yù)測效果且弱化“過擬合”問題的同時,大大降低預(yù)測過程的耗時。與Hadoop框架相比,Spark平臺是一種更加高效的分布式計算平臺,不僅可應(yīng)用Hadoop框架下的分布式文件系統(tǒng)(Hadoop distributed file system,HDFS),具有MapReduce模型的優(yōu)點(diǎn),而且采用彈性分布式數(shù)據(jù)集(resilient distributed dataset,RDD)將集群分布式計算數(shù)據(jù)緩存在各個節(jié)點(diǎn)內(nèi)存中,避免大量I/O過程,在處理迭代問題時效率優(yōu)于Hadoop數(shù)倍,具有計算更加高效的優(yōu)點(diǎn)[11-12]。
本文提出一種適用于海量負(fù)荷數(shù)據(jù)分類的高性能BPNN算法。主要工作為:①在Spark平臺上將BPNN算法并行化,將訓(xùn)練樣本抽樣分塊以減少各網(wǎng)絡(luò)訓(xùn)練時間;②采用集成學(xué)習(xí)以應(yīng)對分塊后訓(xùn)練樣本缺失導(dǎo)致BPNN基分類器分類精度下降的問題[13],集成學(xué)習(xí)過程包括構(gòu)建差異化基分類器與多數(shù)投票獲得分類結(jié)果;③提出一種基于聚類算法的BPNN訓(xùn)練樣本選取方法以適應(yīng)負(fù)荷模型的多樣性,反映真實(shí)用戶負(fù)荷類型。
本文在大數(shù)據(jù)處理平臺Spark上實(shí)現(xiàn)一種差異化BPNN并行集成學(xué)習(xí)(ensemble BPNN based on Spark,EBPNN)算法用于負(fù)荷數(shù)據(jù)分類。其基本思想是:抽樣獲得原訓(xùn)練數(shù)據(jù)集多個子集,通過BPNN并行化實(shí)現(xiàn)單獨(dú)學(xué)習(xí)各子集形成性能差異的基分類器,最終通過多個基分類器共同決定數(shù)據(jù)分類結(jié)果。圖1是集成分布式神經(jīng)網(wǎng)絡(luò)分類方法總體框架。
圖1 基于Spark平臺的EBPNN算法分布式框架Fig.1 Distributed framework of EBPNN algorithm based on Spark platform
圖1中各基分類器的主體是BPNN,BPNN是一種多層前饋網(wǎng)絡(luò),通過輸入信號正向傳播和誤差信號反向傳播對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,具有極強(qiáng)的函數(shù)逼近和模式分類能力[14],BPNN由輸入層、隱含層、輸出層組成。選取log-sigmoid函數(shù)作為網(wǎng)絡(luò)傳遞函數(shù),即
(1)
設(shè)輸入任意訓(xùn)練數(shù)據(jù)為Xr=[x1,x2,…,xm]T,分別得到隱含層向量和輸出層向量為Yr=[y1,y2,…,yp]T和Or=[o1,o2,…,ol]T,期望輸出向量為Dr=[d1,d2,…,dl]T,其中,m,p,l分別表示輸入層、隱含層和輸出層的神經(jīng)元個數(shù);輸入層到隱含層的權(quán)值和偏置值分別為wij和bij(i=1,2,…,m;j=1,2,…,p),隱含層到輸出層的權(quán)值和偏置值分別為wjk和bjk(j=1,2,…,p;k=1,2,…,l)。正向傳遞過程為:
(2)
誤差E為輸出信號Or與期望輸出Dr的距離表示為:
(3)
反向傳播過程按照最速下降法更新權(quán)值和偏置值,使誤差E不斷減小,權(quán)值和偏置值調(diào)整量Δw和Δb以及w和b的調(diào)整過程表示為:
(4)
(5)
式中:α為學(xué)習(xí)速度,α∈(0,1)。
為構(gòu)建多個具有差異化特性的基分類器,需要各基分類器的訓(xùn)練樣本存在差異。有差異的訓(xùn)練樣本可通過對原始數(shù)據(jù)的抽樣產(chǎn)生。本文采用自助法(bootstrapping)[15]、分層抽樣 (stratified random sampling,SRS)[16]和拉丁超立方抽樣 (Latin hypercube sampling,LHS)[17]。但直接抽樣原始數(shù)據(jù)無法保證訓(xùn)練樣本覆蓋所有的數(shù)據(jù)類別,因此采用先對部分?jǐn)?shù)據(jù)聚類再選取類中心附近數(shù)據(jù)的方式以優(yōu)化訓(xùn)練樣本。
K-means算法具有對少量數(shù)據(jù)聚類收斂速度快、聚類復(fù)雜度低及可擴(kuò)展性好的優(yōu)點(diǎn)[18]。其聚類結(jié)果能體現(xiàn)原始負(fù)荷數(shù)據(jù)大致分類,但是處于各類交界的數(shù)據(jù)會出現(xiàn)類別模糊現(xiàn)象。而K-medoids算法是從當(dāng)前類中選取到類內(nèi)其他所有曲線距離之和最小負(fù)荷數(shù)據(jù)作為類簇中心,能夠有效降低極端值的影響[19]。本文采用K-means算法對部分負(fù)荷數(shù)據(jù)聚類,添加數(shù)據(jù)屬性標(biāo)簽,為避免模糊類別負(fù)荷曲線對分類效果的影響,通過K-medoids聚類中心確定方法擇優(yōu)選取部分負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本。
在各基分類器分類結(jié)果的基礎(chǔ)上采用多數(shù)投票機(jī)制[20]獲得集成學(xué)習(xí)分類的最終結(jié)果,假設(shè)某一基分類器Ci的分類結(jié)果為Rij;i=1,2,…,I;j=1,2,…,J;其中I和J分別為分類器數(shù)和類別數(shù);Rij∈{0,1},當(dāng)Ci將該數(shù)據(jù)分類為j類時Rij=1,否則Rij=0。分類結(jié)果表示為:
(6)
EBPNN分類算法主要包括負(fù)荷數(shù)據(jù)的預(yù)處理、負(fù)荷數(shù)據(jù)訓(xùn)練樣本的選取與分塊、負(fù)荷數(shù)據(jù)的樣本訓(xùn)練和負(fù)荷測試數(shù)據(jù)的分類等步驟。圖2是EBPNN算法對海量負(fù)荷數(shù)據(jù)分類的流程示意。
圖2 EBPNN算法流程圖Fig.2 Flow chart of EBPNN algorithm
EBPNN海量負(fù)荷數(shù)據(jù)分類算法的具體步驟可描述如下。
1)負(fù)荷數(shù)據(jù)預(yù)處理:刪除包含空缺值和記錄天數(shù)過少(小于10 d)的用戶負(fù)荷曲線,并按照式(7)進(jìn)行數(shù)據(jù)歸一化處理,即
(7)
式中:xt,xt′,xmax,xmin分別為日負(fù)荷曲線中t時刻負(fù)荷值、歸一化后t時刻負(fù)荷值、最大負(fù)荷值和最小負(fù)荷值;T=48為每日時段數(shù)。
2)負(fù)荷訓(xùn)練樣本分塊過程,通過抽樣原始負(fù)荷訓(xùn)練樣本X獲得n(n=3,5,7,…)個等量負(fù)荷訓(xùn)練樣本塊,其過程表示為:
Xsample={X1,X2,…,Xn}
(8)
式中:X1∪X2∪…∪Xn=X;n為負(fù)荷訓(xùn)練樣本塊數(shù)目;將負(fù)荷測試樣本T加入每個負(fù)荷樣本塊并將文件保存在HDFS中;負(fù)荷訓(xùn)練數(shù)據(jù)格式為〈label,data,target〉,負(fù)荷測試數(shù)據(jù)格式為〈label,data〉,兩者通過行首標(biāo)簽〈label〉區(qū)分;〈data〉為一負(fù)荷曲線特征向量,〈target〉為該負(fù)荷訓(xùn)練數(shù)據(jù)期望輸出,即〈data〉所屬類別。
3)負(fù)荷訓(xùn)練過程,從HDFS上讀取包含負(fù)荷訓(xùn)練樣本塊和負(fù)荷測試樣本的文件,Spark平臺啟動mapper的個數(shù)取決于讀取文件的個數(shù),每個mapper包含一個BPNN。首先,為每個BPNN隨機(jī)初始化權(quán)重和偏置值,其后將Xi輸入到第i個BPNN,通過“train”標(biāo)簽識別負(fù)荷訓(xùn)練數(shù)據(jù),負(fù)荷樣本特征向量維度決定了BPNN輸入層神經(jīng)元個數(shù),正向傳播過程根據(jù)式(2)計算得到隱含層和輸出層結(jié)果。反向傳播過程按照式(3)至式(5)進(jìn)行參數(shù)更新,直到誤差值滿足給定條件時訓(xùn)練結(jié)束,形成分類性能不同的基分類器Trained Sub-BPNNi;i=1,2,…,n,訓(xùn)練過程見附錄A圖A1(a)。
4)負(fù)荷分類過程,通過“test”標(biāo)簽識別負(fù)荷測試數(shù)據(jù)并輸入到所有基分類器,Trained Sub-BPNN基分類器只進(jìn)行正向傳播過程得到某一負(fù)荷測試數(shù)據(jù)分類結(jié)果,表示為〈data,Rij〉。通過reduceByKey將該負(fù)荷數(shù)據(jù)所有分類結(jié)果收集得到〈data:R1,R2,…,Rn〉,按照式(6)投票獲得最終分類結(jié)果。負(fù)荷數(shù)據(jù)分類過程見附錄A圖A1(b)。負(fù)荷數(shù)據(jù)處理過程對應(yīng)彈性分布式數(shù)據(jù)集(RDD)的逐步轉(zhuǎn)換,最終分類結(jié)果寫入HDFS中。
采用BPNN算法進(jìn)行負(fù)荷數(shù)據(jù)分類時,負(fù)荷訓(xùn)練樣本質(zhì)量直接影響分類效果。隨著負(fù)荷設(shè)備構(gòu)成的復(fù)雜化趨勢與新能源接入電網(wǎng)對用戶負(fù)荷特性的影響,傳統(tǒng)負(fù)荷類型難以表征實(shí)際的負(fù)荷變化規(guī)律,海量負(fù)荷數(shù)據(jù)分類的訓(xùn)練樣本難以獲取。提出一種結(jié)合K-means和K-medoids算法的負(fù)荷訓(xùn)練樣本選取方法,立足實(shí)際的負(fù)荷數(shù)據(jù),適應(yīng)更加多元化的用戶用電模式。具體過程如下。
步驟1:初始化類簇中心:在由U個負(fù)荷數(shù)據(jù)對象組成的數(shù)據(jù)集X={x1,x2,…,xU}中,xu={xu1,xu2,…,xuV},初步確定分類個數(shù)K和各類簇中心M={m1,m2,…,mK},mk={mk1,mk2,…,mkV}。其中,U和V分別表示負(fù)荷向量數(shù)量和向量維度,u=1,2,…,U;v=1,2,…,V。
步驟2:簇劃分,按式(9)計算任意一條負(fù)荷曲線與初始類簇中心的歐氏距離,將各曲線分配給距離最近的類簇中心,形成K個類簇,即
(9)
步驟3:更新類簇中心,按式(10)重新計算每個類簇所有負(fù)荷曲線均值作為新的類簇中心,即
(10)
式中:nk為Ck類的負(fù)荷樣本個數(shù);Zk為Ck類的負(fù)荷樣本。
步驟4:重復(fù)步驟2和步驟3,直到聚類中心不再發(fā)生變化時結(jié)束類簇中心更新過程。
步驟5:根據(jù)K-medoids算法聚類中心選取方式,按式(11)計算每條負(fù)荷曲線與其所屬類內(nèi)其他曲線的距離之和DΣ,在每個類中選取DΣ值最小的η個負(fù)荷曲線作為負(fù)荷訓(xùn)練樣本,即
(11)
式中:Dij為負(fù)荷數(shù)據(jù)i到類內(nèi)數(shù)據(jù)j的歐氏距離,DΣi為負(fù)荷數(shù)據(jù)i到類內(nèi)其他所有數(shù)據(jù)點(diǎn)的歐氏距離。
訓(xùn)練樣本的選取過程見附錄A圖A2。圖A2(a)為原始3種類型的數(shù)據(jù)點(diǎn)集。圖A2(b)為K-means聚類后,以圓圈形式覆蓋在原始點(diǎn)集上的聚類結(jié)果。可以看出,通過K-means聚類能比較準(zhǔn)確地反映原始數(shù)據(jù)類別。但是在類間交匯處有少量數(shù)據(jù)點(diǎn)在聚類后與其原始類型不同,為擇優(yōu)選取靠近類別中心的數(shù)據(jù),通過K-medoids算法選取如附錄A圖A2(c)中紫色點(diǎn)集作為訓(xùn)練樣本,從而規(guī)避了模糊類別訓(xùn)練樣本對網(wǎng)絡(luò)學(xué)習(xí)的影響。另外,在原始數(shù)據(jù)中隨機(jī)選取部分?jǐn)?shù)據(jù)作為噪聲點(diǎn)以避免“過擬合”問題[21-22]。
EBPNN算法先在兩個經(jīng)典分類數(shù)據(jù)集上進(jìn)行精度合理性驗(yàn)證,并對比分析參數(shù)變化對精度的影響,再將其應(yīng)用到實(shí)際用戶負(fù)荷數(shù)據(jù)分類中。算例數(shù)據(jù)選取經(jīng)典分類數(shù)據(jù)集Iris和Wheat Seeds數(shù)據(jù)集以及愛爾蘭智能電表實(shí)測用戶用電數(shù)據(jù)。Iris和Wheat Seeds數(shù)據(jù)集數(shù)據(jù)特征如表1所示。
表1 Iris和Wheat Seeds數(shù)據(jù)集數(shù)據(jù)特征Table 1 Data characteristics of data set Iris and Wheat Seeds
用戶負(fù)荷數(shù)據(jù)選取愛爾蘭可持續(xù)能源管理局(Sustainable Energy Authority of Ireland,SEAI)于2011年5月發(fā)布的愛爾蘭智能電表實(shí)測用戶用電數(shù)據(jù)[23],負(fù)荷數(shù)據(jù)特征為:用戶6 000個,日采集點(diǎn)48個,采集天數(shù)536 d,數(shù)據(jù)量約3.06×106個。本文算例在單臺CPU為Core i5 2.50 GHz,內(nèi)存為16 GB的PC機(jī)搭建的3臺虛擬機(jī)上實(shí)現(xiàn),其中一個作為主節(jié)點(diǎn),包括主節(jié)點(diǎn)在內(nèi)的3個節(jié)點(diǎn)作為工作節(jié)點(diǎn),集群配置情況如表2所示,系統(tǒng)采用Ubuntu 16.04.2 LTS,Spark 版本為1.6.2。
表2 計算節(jié)點(diǎn)配置Table 2 Configuration of computation node
3.3.1訓(xùn)練樣本與測試樣本數(shù)據(jù)量對分類結(jié)果的影響
為研究訓(xùn)練樣本與測試樣本數(shù)據(jù)量對分類結(jié)果的影響,固定其他參數(shù)(EBPNN算法訓(xùn)練樣本塊個數(shù)為3,訓(xùn)練樣本塊數(shù)據(jù)量取相應(yīng)訓(xùn)練樣本的1/2),改變訓(xùn)練樣本與測試樣本數(shù)據(jù)量,測試得到不同情況下傳統(tǒng)串行BPNN與EBPNN分類正確率見附錄A圖A3。
可以看出,基于分層抽樣的分布式BPNN算法具有較高的準(zhǔn)確率,并且在樣本數(shù)量較少時,準(zhǔn)確率較單機(jī)BPNN算法更高,且較其他并行BPNN算法更穩(wěn)定。在樣本數(shù)量逐漸增大的過程中,EBPNN算法的準(zhǔn)確度與單機(jī)BPNN算法準(zhǔn)確度逐漸接近,并未表現(xiàn)出分布式后算法由于分割訓(xùn)練數(shù)據(jù)所導(dǎo)致分類準(zhǔn)確度下降。
3.3.2訓(xùn)練樣本塊數(shù)據(jù)量對分類結(jié)果的影響
為研究訓(xùn)練樣本塊數(shù)據(jù)量對分類結(jié)果的影響,固定其他參數(shù)(Iris數(shù)據(jù)集訓(xùn)練樣本/測試樣本=50/100,Wheat Seeds數(shù)據(jù)集訓(xùn)練樣本/測試樣本=60/150,訓(xùn)練樣本塊個數(shù)為3),改變各訓(xùn)練樣本塊數(shù)據(jù)量,測試訓(xùn)練樣本塊數(shù)據(jù)量改變時采用自助法、SRS和LHS的EBPNN算法分類正確率見附錄A圖A4。
訓(xùn)練樣本塊數(shù)據(jù)量增加過程中,分類正確率先提高,而后基本保持不變。這是因?yàn)樵谠摴潭▍?shù)情況下,Iris和Wheat Seeds數(shù)據(jù)集訓(xùn)練樣本塊數(shù)據(jù)量達(dá)到某一體量時已足夠使網(wǎng)絡(luò)學(xué)習(xí)充分且多基分類器的差異性恰能達(dá)到良好的集成學(xué)習(xí)效果。
3.3.3基分類器個數(shù)對分類結(jié)果的影響
集成學(xué)習(xí)過程通過將多個基分類器分類結(jié)果進(jìn)行多數(shù)投票獲得最終分類結(jié)果,為研究基分類器個數(shù)對分類正確率的影響,固定其他參數(shù)(Iris數(shù)據(jù)集訓(xùn)練樣本/測試樣本=50/100,各訓(xùn)練樣本塊為訓(xùn)練樣本數(shù)據(jù)量的1/2,即訓(xùn)練樣本塊數(shù)據(jù)量為25;Wheat Seeds數(shù)據(jù)集訓(xùn)練樣本/測試樣本=60/150,各訓(xùn)練樣本塊為訓(xùn)練樣本數(shù)據(jù)量的1/2,即訓(xùn)練樣本塊數(shù)據(jù)量為30),改變訓(xùn)練樣本塊個數(shù),即基分類器個數(shù),測試各算法分類正確率見附錄A圖A5。
兩數(shù)據(jù)集在訓(xùn)練樣本塊為3時,分類精度較低,訓(xùn)練樣本塊為5,7,9時,分類精度有所提高,但變化不大,僅在Wheat Seeds數(shù)據(jù)集采用EBPNN(LHS)算法時,分類效果較差,這是因?yàn)長HS破壞了原始數(shù)據(jù)的完整性,改變了原始特征向量,在某些情況下會降低分類正確率。此外,應(yīng)適當(dāng)選擇訓(xùn)練樣本塊個數(shù),過少時可能具有偶然性影響分類精度,過多時須考慮系統(tǒng)配置情況。
通過對比Iris和Wheat Seeds數(shù)據(jù)集的分類效果可知,EBPNN算法分類精度較高且在某些情況下高于傳統(tǒng)串行BPNN算法。而SRS法需要根據(jù)具體待分類數(shù)據(jù)特征選擇,自助法抽樣隨著被抽樣數(shù)據(jù)量的增加,所抽數(shù)據(jù)對原始數(shù)據(jù)的覆蓋率逐漸降低,因此EBPNN (Bootstrapping) 算法更適合較小訓(xùn)練數(shù)據(jù)體積的數(shù)據(jù)分類中;LHS法是對輸入概率分布進(jìn)行分層,能夠確保偏遠(yuǎn)事件在模擬的輸出中被準(zhǔn)確地代表,會破壞原始數(shù)據(jù),也因此可能影響所選訓(xùn)練樣本塊的質(zhì)量;EBPNN(SRS) 算法相較于其他兩種EBPNN算法分類效果和穩(wěn)定性更好,一方面SRS法能夠獲得均勻分布的訓(xùn)練樣本,另一方面SRS法不會打亂原始樣本的整體性與屬性間的相關(guān)性。兩經(jīng)典數(shù)據(jù)集分類結(jié)果表明,EBPNN算法具有合理性與有效性,且采用SRS法獲取訓(xùn)練樣本塊更有利于提升分類器的分類性能,可應(yīng)用到電力系統(tǒng)用戶負(fù)荷大數(shù)據(jù)的分類中。
3.4.1負(fù)荷分類
本節(jié)在分布式數(shù)據(jù)處理平臺Spark上對全部愛爾蘭智能電表實(shí)測用戶用電數(shù)據(jù)(約3.06×106條曲線)進(jìn)行分類,并與直接進(jìn)行K-means聚類結(jié)果進(jìn)行對比,與單機(jī)模式進(jìn)行效率對比。
選取第1~236 d負(fù)荷曲線為待選訓(xùn)練樣本,后300 d數(shù)據(jù)作為測試樣本。訓(xùn)練樣本選取過程中,初始聚類數(shù)K值采用誤差平方和(sum of squared error,SSE)確定,將SSE曲線拐點(diǎn)作為最佳聚類數(shù)。
根據(jù)圖3所示SSE曲線,選擇聚類數(shù)K=8。神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)的差異化訓(xùn)練樣本通過SRS獲得,基分類器個數(shù)為5,各訓(xùn)練樣本塊數(shù)據(jù)量取總訓(xùn)練樣本量約2/3,圖4所示為負(fù)荷分類結(jié)果。
圖3 SSE曲線Fig.3 Curve of SSE
圖4 負(fù)荷分類結(jié)果Fig.4 Results of load classification
根據(jù)圖4(a)對居民用電1 d共48時段用電情況的分類結(jié)果可以看出,用戶側(cè)用電形式多樣,差異性大。其中包括平穩(wěn)用電負(fù)荷和尖峰用電負(fù)荷,第1類負(fù)荷始終保持較高水平,尤其在凌晨時段用電偏高;第2類負(fù)荷水平始終很低;第3類和第7類是典型午間負(fù)荷,白天保持較高的用電水平;第4,5,6,8類是典型晚間負(fù)荷,白天用電量很少,而到晚間用電量攀升。圖4(b)為在各類中隨機(jī)抽取的部分負(fù)荷曲線??梢钥闯?同類負(fù)荷曲線具有相似趨勢,平穩(wěn)負(fù)荷曲線與質(zhì)心區(qū)別較大,是歸一化后曲線有尖峰數(shù)值所致??倲?shù)據(jù)量約為1 030 MB,EBPNN算法在Spark平臺分類用時41.2 s。
3.4.2算法性能評估
1)分類質(zhì)量評估
聚類后曲線和質(zhì)心的戴維森堡丁指數(shù)(Davies-Bouldin index,DBI)代表任意兩類別類內(nèi)距離平均值之和與兩類別質(zhì)心距離之比的最大值,其值越小意味類內(nèi)距離越小,類間距離越大;輪廓系數(shù)(silhouette coefficient,SI)能有效表示類別內(nèi)聚度和分離度,值越接近1表明分類效果更佳[24]。設(shè)置不同聚類數(shù)K(K=2~12)時,對比采用K-means和EBPNN(SRS)算法分類時兩指標(biāo)變化情況如圖5所示。可以看出,當(dāng)K=2,DBI和SI分別達(dá)到最小和最大,K=8其次,而類別數(shù)為2時,類別過少,分類過于粗略,因此K=8更加合理。另外,對比聚類數(shù)K=8時的歸一化后數(shù)據(jù)類內(nèi)標(biāo)準(zhǔn)差,各類別標(biāo)準(zhǔn)差如圖5(c)所示,EBPNN(SRS)算法分類結(jié)果較K-means類內(nèi)標(biāo)準(zhǔn)差更小。
圖5 分類質(zhì)量對比Fig.5 Comparison of classification quality
2)分類效率評估
為對比并行EBPNN算法與傳統(tǒng)串行BPNN算法的效率,測試各算法運(yùn)行時間隨數(shù)據(jù)量變化關(guān)系,固定EBPNN算法基分類器個數(shù)為5,得到測試結(jié)果如圖6所示??梢钥闯?當(dāng)數(shù)據(jù)體積小于32 MB時,串行模式的BPNN算法運(yùn)行時間更短,而數(shù)據(jù)量超過32 MB時,EBPNN算法效率顯著提高。這是由于數(shù)據(jù)量較小時,系統(tǒng)開銷占主導(dǎo)作用,而數(shù)據(jù)量大時,系統(tǒng)開銷對運(yùn)行時間影響較小,并行計算效率優(yōu)勢明顯。
圖6 計算效率對比Fig.6 Comparison of computation efficiency
本文提出一種基于集成學(xué)習(xí)的分布式神經(jīng)網(wǎng)絡(luò)負(fù)荷分類方法,在Spark平臺上實(shí)現(xiàn)BPNN算法并行化對用戶側(cè)大數(shù)據(jù)分類,為解決海量用戶負(fù)荷分類問題提供一種新的思路。算法通過K-means聚類少量局部數(shù)據(jù)以獲取類別標(biāo)簽,K-medoids算法對聚類結(jié)果進(jìn)行訓(xùn)練樣本選取,能夠提取更加切合實(shí)際的負(fù)荷類型曲線。經(jīng)典分類數(shù)據(jù)集和愛爾蘭實(shí)測用戶負(fù)荷算例的應(yīng)用表明所提方法具有高效性和實(shí)用性。
該算法能快速提取用戶負(fù)荷類型并進(jìn)行負(fù)荷分類,有效對居民用電模式深入分析,為配電網(wǎng)安全可靠運(yùn)行奠定基礎(chǔ),且能夠延展到多領(lǐng)域數(shù)據(jù)分類分析場景。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx)。