基于改進(jìn)聚類算法的人工神經(jīng)網(wǎng)絡(luò)短期負(fù)荷預(yù)測研究

2022-10-09 06:28:44甘景福馬明晗賀鵬康田新成

電工電能新技術(shù) 2022年9期

甘景福，晏坤，馬明晗，賀鵬康，田新成

(1.國網(wǎng)冀北電力有限公司唐山供電公司，河北唐山 063000； 2.華北電力大學(xué)電力工程系，河北保定 071000)

1 引言

變壓器負(fù)荷預(yù)測是繞組熱點(diǎn)溫度預(yù)測和日方式制定的關(guān)鍵環(huán)節(jié)，傳統(tǒng)負(fù)荷預(yù)測一般基于相似日或簡化的負(fù)荷模型，但區(qū)域負(fù)荷和當(dāng)?shù)亟?jīng)濟(jì)、氣候、產(chǎn)業(yè)構(gòu)成以及用電習(xí)慣有很大關(guān)系，不同地區(qū)的用電規(guī)律不同，不存在普遍適用的負(fù)荷預(yù)測模型，傳統(tǒng)方法針對性和預(yù)測精度均不足[1-3]。隨著計(jì)算機(jī)科學(xué)技術(shù)的迅猛發(fā)展，通過機(jī)器學(xué)習(xí)算法對歷史負(fù)荷、氣象等數(shù)據(jù)進(jìn)行學(xué)習(xí)和建模，針對性地建立輸入、輸出量之間的非線性映射關(guān)系，極大提高了各種場合下的負(fù)荷預(yù)測精度，許多專家學(xué)者在該領(lǐng)域進(jìn)行大量相關(guān)研究[4]。

文獻(xiàn)[5]提出一種基于遺傳算法的灰色神經(jīng)網(wǎng)絡(luò)短期負(fù)荷預(yù)測方法，利用灰色模型弱化數(shù)據(jù)的隨機(jī)性，并采用遺傳算法對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化，提高了預(yù)測的精度，但該方法并未研究歷史數(shù)據(jù)的優(yōu)化問題。文獻(xiàn)[6]研究了一種基于前饋人工神經(jīng)網(wǎng)絡(luò)(Back Propagation Artificial Neural Networks, BP-ANN)與多層聚類歷史數(shù)據(jù)處理的短期負(fù)荷預(yù)測方法，相比傳統(tǒng)方法在預(yù)測精度上有一定的提升，但數(shù)據(jù)處理僅采用聚類算法篩除了異常負(fù)荷樣本，沒有對樣本進(jìn)行分類選擇，也未考慮負(fù)荷本身存在的沖擊及噪聲數(shù)據(jù)。文獻(xiàn)[7]采用小波分析對歷史數(shù)據(jù)進(jìn)行平滑處理并基于BP-ANN進(jìn)行負(fù)荷預(yù)測，但小波去噪只能去掉歷史數(shù)據(jù)中的沖擊及噪聲干擾，對于檢修、停電等異常數(shù)據(jù)無法甄別并剔除。

訓(xùn)練樣本對神經(jīng)網(wǎng)絡(luò)的影響作用甚至超過神經(jīng)網(wǎng)絡(luò)自身結(jié)構(gòu)，因此提供準(zhǔn)確的樣本對提高預(yù)測精度十分重要。對于大量原始樣本，若全部選用，會導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度過慢；若隨機(jī)抽取，數(shù)量較少但有用的樣本可能會遺漏，導(dǎo)致得到預(yù)測模型穩(wěn)定性差。且由于原始樣本中負(fù)荷沖擊、噪聲和異常數(shù)據(jù)的影響，不進(jìn)行有效處理會導(dǎo)致訓(xùn)練得到的網(wǎng)絡(luò)預(yù)測誤差偏大[8]。為了解決上述問題，本文提出了一種采用小波分析結(jié)合改進(jìn)聚類算法對樣本進(jìn)行優(yōu)化選擇的神經(jīng)網(wǎng)絡(luò)預(yù)測方法，并通過仿真與原方法進(jìn)行了比較。

2 負(fù)荷樣本的優(yōu)化處理

2.1 負(fù)荷曲線平滑處理

工業(yè)負(fù)荷較多的地區(qū)，負(fù)荷曲線往往含有較多的瞬時沖擊數(shù)據(jù)，可采用小波閾值去噪進(jìn)行平滑處理。原理是基于某一小波基對負(fù)荷曲線進(jìn)行多尺度分解，并對不同尺度下分解得到的小波系數(shù)設(shè)定閾值，當(dāng)小波系數(shù)大于閾值時，作為信號的有用分量得以保留，當(dāng)小波系數(shù)小于閾值時則認(rèn)為主要由噪聲組成而被濾除[9,10]。與傅里葉頻域?yàn)V波去噪相比，小波閾值去噪能在濾除噪聲的前提下盡可能多地保留波形的形態(tài)和局部細(xì)節(jié)，減少數(shù)據(jù)的失真，并且其運(yùn)算速度更快。

各層閾值λN可依據(jù)公式設(shè)定：

(1)

式中，M為首層小波分解系數(shù)絕對值的中位數(shù)；KG為高斯噪聲標(biāo)準(zhǔn)方差的調(diào)整系數(shù)；N為信號尺度。

對于連續(xù)的Doppler信號，sym8小波去噪效果更好，小波分解尺度的選取對于去噪性能有較大影響，分解尺度較小時，重構(gòu)后的信號不易失真但仍保留較多噪聲，分解尺度較大時，去噪效果更明顯，但可能會濾除較多的有用細(xì)節(jié)導(dǎo)致處理后的數(shù)據(jù)失真[10-12]?；趕ym8小波在5尺度下對負(fù)荷曲線濾波如圖1所示，由圖1可知經(jīng)小波閾值去噪處理后，原始負(fù)荷曲線中的尖峰被濾除，波形更加平滑，但形態(tài)并未發(fā)生變化。

圖1 負(fù)荷曲線小波去噪平滑處理Fig.1 Smoothing of load curves by wavelet denoising

2.2 樣本的篩選分類

當(dāng)無停電、檢修及臨時方式調(diào)整等偶然因素作用時，負(fù)荷變化具有較強(qiáng)的規(guī)律性，因此可利用聚類分析進(jìn)行篩選分類，依據(jù)類別選取樣本用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。相比隨機(jī)選取，聚類分析優(yōu)勢是防止樣本數(shù)較少的類別被遺漏或選取的數(shù)量過少，從而提升訓(xùn)練樣本特征的完整性，同時減少訓(xùn)練樣本的數(shù)量，降低異常樣本干擾，在提升訓(xùn)練速度的同時提高了預(yù)測精度。

負(fù)荷曲線的k-means聚類原理是通過比較各樣本與聚類中心歐式距離，將樣本歸類到距離最小的聚類中心，并更新聚類中心，不斷重復(fù)迭代直到所有聚類中心都收斂為止。將類內(nèi)距離和類間距離指數(shù)度量方法與k-means聚類相結(jié)合，稱為基于有效指數(shù)的k-means聚類算法[13]。該方法可動態(tài)調(diào)整參數(shù)k并計(jì)算有效指數(shù)，使各分類在類內(nèi)有較高的聚集性，而類間則有較高的分散性，使聚類結(jié)果達(dá)到最優(yōu)，當(dāng)聚類數(shù)為k時有效指數(shù)Kc(k)可表示為：

(2)

式中，Sj、Cj分別為第j個分類的曲線和對應(yīng)的聚類中心；Ck1、Ck2為當(dāng)分類數(shù)為k個時的兩個不同聚類中心；Ns為數(shù)據(jù)集中數(shù)據(jù)的個數(shù)。

曲線的聚類是一種基于形態(tài)差異的分類方法，基于這一特性可對具有非典型形態(tài)的曲線進(jìn)行識別。傳統(tǒng)有效指數(shù)k-means聚類方法未考慮異常曲線對分類數(shù)的占用問題，導(dǎo)致有用數(shù)據(jù)未被準(zhǔn)確分類?；谟行е笖?shù)聚類的特點(diǎn)，本文在已有算法的基礎(chǔ)上引入對異常曲線的識別和過濾流程，將樣本數(shù)量過少的分類過濾并重新聚類，確保聚類結(jié)果可靠，其流程圖如圖2所示。

圖2 改進(jìn)的k-means聚類算法流程Fig.2 Process of improved k-means clustering algorithm

3 人工神經(jīng)網(wǎng)絡(luò)負(fù)荷預(yù)測

3.1 負(fù)荷預(yù)測模型

BP神經(jīng)網(wǎng)絡(luò)是眾多機(jī)器學(xué)習(xí)算法中比較基礎(chǔ)的一種，由于良好的非線性擬合能力，成為負(fù)荷預(yù)測常用的手段之一。其原理是將預(yù)測誤差反向傳遞，通過求誤差對各層權(quán)值或閾值的導(dǎo)數(shù)，沿導(dǎo)數(shù)的負(fù)梯度方向不斷對權(quán)值或閾值進(jìn)行調(diào)整，直到預(yù)測誤差在允許范圍內(nèi)[14]。BP神經(jīng)網(wǎng)絡(luò)通常由輸入層、隱含層以及輸出層三層網(wǎng)絡(luò)構(gòu)成，其隱含層可以有多層，但一般系統(tǒng)采用一層隱含層即可，隱含層節(jié)點(diǎn)數(shù)m可依據(jù)經(jīng)驗(yàn)公式確定：

(3)

式中，n為輸入節(jié)點(diǎn)數(shù)；l為輸出節(jié)點(diǎn)數(shù)；α為1～10之間的整數(shù)。

根據(jù)負(fù)荷變化規(guī)律可知，預(yù)測日溫度和天氣對負(fù)荷影響較大，節(jié)假日、雙休日負(fù)荷曲線與工作日亦有明顯差異，且預(yù)測日負(fù)荷是在前一日負(fù)荷基礎(chǔ)上隨著預(yù)測日的天氣、氣溫以及日類型而相應(yīng)變化，因此神經(jīng)網(wǎng)絡(luò)輸入設(shè)置為28×1維向量，包括預(yù)測日前日整點(diǎn)24×1維負(fù)荷值，另4個輸入分別為預(yù)測日最高、最低溫度、預(yù)測當(dāng)日天氣及類型，輸出為預(yù)測日整點(diǎn)24×1維負(fù)荷值。實(shí)際預(yù)測時，模型的輸入通過在線進(jìn)行實(shí)時更新，預(yù)測模型如圖3所示，該模型可根據(jù)前24 h負(fù)荷和預(yù)測時段的天氣、氣溫預(yù)報(bào)對未來24 h的整點(diǎn)負(fù)荷進(jìn)行在線預(yù)測。

圖3 神經(jīng)網(wǎng)絡(luò)短期負(fù)荷預(yù)測模型Fig.3 Neural network short term load forecasting model

預(yù)測日類型和預(yù)測日天氣為非數(shù)值量，作為輸入需要分別進(jìn)行量化處理。預(yù)測日類型主要包含法定節(jié)假日、雙休日和工作日三類，可分別量化為0、0.5、1；預(yù)測日天氣量化方法見表1。

表1 天氣情況量化表Tab.1 Weather quantification table

神經(jīng)網(wǎng)絡(luò)輸入層權(quán)值wia和輸出層權(quán)值vab的更新公式為：

(4)

式中，xi為神經(jīng)網(wǎng)絡(luò)輸入層第i個輸入；ha為隱含層第a個節(jié)點(diǎn)的輸出；yb和yd_b分別為輸出層第b個節(jié)點(diǎn)的輸出和期望輸出；f′為隱含層激勵函數(shù)對隱含層輸入量的導(dǎo)數(shù)；F′為輸出層激勵函數(shù)對輸出層輸入量的導(dǎo)數(shù)；η為學(xué)習(xí)率，η∈(0,1)。

不同類數(shù)據(jù)的量綱和數(shù)據(jù)尺度不同，為避免影響權(quán)重的差異，需對數(shù)據(jù)進(jìn)行歸一化處理，使所有數(shù)據(jù)范圍壓縮到[0,1]之間，min-max歸一化公式為：

(5)

式中，xmin和xmax分別為輸入樣本的最小值及最大值。

隱含層激勵函數(shù)采用sigmoid函數(shù)：

(6)

輸出層激勵函數(shù)為：

F(x)=x

(7)

3.2 模型評價指標(biāo)

第s個預(yù)測值yp(s)與對應(yīng)的真實(shí)值yr(s)的絕對誤差為：

Ep=yp(s)-yr(s)

(8)

多個預(yù)測值的平均誤差為：

(9)

式中，Nc為誤差值的數(shù)量。

平均相對誤差反映多個預(yù)測值的整體誤差：

(10)

均方根誤差PRMSE反映多個預(yù)測值偏離真實(shí)值的程度，其值越小說明預(yù)測結(jié)果越穩(wěn)定，均方根誤差為：

(11)

引入相關(guān)系數(shù)R對神經(jīng)網(wǎng)絡(luò)多日負(fù)荷整體預(yù)測性能進(jìn)行評價，R越趨近于1則代表模型的性能越好。

(12)

4 短期負(fù)荷預(yù)測算例

以某地區(qū)一臺容量為50 MW的變壓器2020年365條日負(fù)荷曲線為原始樣本，進(jìn)行小波閾值去噪處理得到的平滑曲線如圖4所示。

圖4 去噪平滑后的負(fù)荷曲線Fig.4 Load curves after denoising and smoothing

對上述負(fù)荷樣本進(jìn)行歸一化和聚類，當(dāng)聚類上限kmax設(shè)置過小時，不同形態(tài)的曲線可能被歸為同一類，過大時又會導(dǎo)致聚類速度太慢。為得到準(zhǔn)確的類別并提高聚類速度，可根據(jù)去噪后的曲線簇形態(tài)估計(jì)一個大概的分類上限值，根據(jù)圖4估計(jì)kmax=6。聚類結(jié)果見表2和圖5，經(jīng)改進(jìn)k-means聚類后樣本被劃分為4類。圖5(a)～圖5(c)分別為三類負(fù)荷曲線，其中粗線為該分類的聚類中心，圖5(d)為篩除的異常曲線。由聚類結(jié)果可見，該主變的日負(fù)荷曲線有三類典型形態(tài)，其中第一類樣本數(shù)量較少，第二類、第三類數(shù)量較多，且有11個異常樣本被篩除。訓(xùn)練所用樣本僅從聚類得到的典型樣本中選取，除負(fù)荷數(shù)據(jù)外還包括對應(yīng)的日類型和天氣、氣溫等其他輸入?yún)?shù)。訓(xùn)練樣本選取的原則是當(dāng)各類樣本數(shù)量都足夠多時，每類取相同數(shù)量，若某類數(shù)量過少則可全部選用。

表2 負(fù)荷樣本聚類結(jié)果Tab.2 Clustering results of load samples

圖5 改進(jìn)的k-means負(fù)荷聚類結(jié)果Fig.5 Load clustering by improved k-means algorithm

為進(jìn)行對比分析，用三種不同方法得到的樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò)，并采用相同的樣本測試其預(yù)測性能。測試集樣本分別從聚類后的三類負(fù)荷樣本中各選取10個組成。訓(xùn)練集樣本選取方法為：

方法1：除測試集樣本外，余下的335個樣本均納入訓(xùn)練集；方法2：除測試集樣本外，從余下的335個樣本中隨機(jī)抽取60個納入訓(xùn)練集；方法3：除測試集樣本外，從本文所提方法獲得的三類樣本中各隨機(jī)抽取20個納入訓(xùn)練集。

將全部負(fù)荷曲線進(jìn)行降維處理，變換為整點(diǎn)負(fù)荷曲線，利用Matlab建立圖3所示結(jié)構(gòu)的網(wǎng)絡(luò)，其隱含層神經(jīng)元在8～17個之間，經(jīng)試驗(yàn)對比確定最佳隱含層神經(jīng)元個數(shù)[15]，學(xué)習(xí)率為0.01，分別采用上述三種方法得到的樣本對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。以測試集三類樣本的負(fù)荷預(yù)測結(jié)果為例，圖6(a)～圖6(c)為其中三天的負(fù)荷預(yù)測結(jié)果，預(yù)測誤差統(tǒng)計(jì)見表3。

圖6 預(yù)測值與實(shí)際值對比Fig.6 Comparison between prediction value and real value

表3 不同樣本選取方法預(yù)測誤差對比Tab.3 Prediction error comparison of different samples selection methods

對比可以看出，方法1中三類負(fù)荷預(yù)測精度均不高，但彼此間差距較??；方法2中預(yù)測精度較低，尤其是占比少的類別預(yù)測誤差很大，原因是樣本個數(shù)少的分類在訓(xùn)練樣本中占比較低，訓(xùn)練不充分；方法3的平均誤差和均方根誤差較前兩種更小，且各類預(yù)測誤差比較接近，說明采用本文所提樣本優(yōu)化方法后，各點(diǎn)負(fù)荷預(yù)測精度和穩(wěn)定性均得以提高。

為了進(jìn)一步對比分析模型的整體預(yù)測性能，以天為單位，統(tǒng)計(jì)平均誤差、平均相對誤差、均方根誤差以及相關(guān)系數(shù)，對測試集中30個預(yù)測日負(fù)荷進(jìn)行預(yù)測，三種方法所建模型各項(xiàng)性能指標(biāo)對比見表4，可見方法3的平均誤差EM、平均相對誤差PM、均方根誤差PRMSE以及相關(guān)系數(shù)R均明顯更小，模型訓(xùn)練時間Ttrain更短，因此綜合分析上述算例結(jié)果可知，訓(xùn)練樣本經(jīng)小波閾值去噪平滑和改進(jìn)的k-means聚類篩選處理后，不同情況下的負(fù)荷預(yù)測精度、穩(wěn)定性以及速度改善均較為明顯，整體預(yù)測性能有了較大提升。

表4 不同樣本選取方法整體預(yù)測性能對比Tab.4 Comparison of overall prediction performance of different samples selection methods

5 結(jié)論

BP神經(jīng)網(wǎng)絡(luò)常用于電網(wǎng)短期負(fù)荷預(yù)測，其預(yù)測精度與所選用的訓(xùn)練樣本有直接關(guān)系。由于電網(wǎng)的停電、檢修、方式調(diào)整以及沖擊負(fù)荷的存在使得負(fù)荷樣本中常包含尖峰、噪聲及異常數(shù)據(jù)，導(dǎo)致無法建立準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)模型。同時，訓(xùn)練樣本隨機(jī)選取容易遺漏數(shù)量較少的類別，影響神經(jīng)網(wǎng)絡(luò)模型的泛化性能，致使無法對不同情況下的負(fù)荷均作出準(zhǔn)確預(yù)測。通過采用小波閾值去噪以及聚類分析對樣本進(jìn)行處理，濾除尖峰和噪聲數(shù)據(jù)并篩選出各類典型曲線，通過按類別選取訓(xùn)練樣本，可實(shí)現(xiàn)對訓(xùn)練樣本的優(yōu)化處理，據(jù)此建立的神經(jīng)網(wǎng)絡(luò)負(fù)荷預(yù)測模型相比全部選用或隨機(jī)選取訓(xùn)練樣本，其訓(xùn)練速度、預(yù)測精度和穩(wěn)定性得以明顯提升。