基于貝葉斯優(yōu)化的支持向量回歸模型對電能表在線率的預測

2023-11-07 07:09:56余俊澤夏顯威雷春俊趙冬立馬群陳百齡

廣東電力 2023年9期

余俊澤，夏顯威，雷春俊，趙冬立，馬群，陳百齡

(塔里木油田公司 a.新能源事業(yè)部；b.油氣生產(chǎn)技術部，新疆庫爾勒 841000)

電能表作為電力系統(tǒng)中至關重要的計量設備[1]，通常用于核定用戶用電量并進行經(jīng)濟核算[2]。隨著社會進步和科技發(fā)展，數(shù)字式電能表已逐漸取代傳統(tǒng)的機械式電能表[3-5]。

在這一背景下，電能表的在線率成為衡量實時數(shù)據(jù)采集成功率的關鍵指標，對于保障整個電力系統(tǒng)的穩(wěn)定運行具有重要意義。電能表的高在線率對電力企業(yè)進行負荷預測、電力調(diào)度和資源優(yōu)化等關鍵決策具有重要價值，挖掘與電能表在線率相關的數(shù)據(jù)并預測其變化趨勢現(xiàn)已成為一項關鍵任務[6]。為實現(xiàn)這一目標，嘗試通過支持向量回歸(support vector regression，SVR)算法——一種廣泛應用于回歸分析和預測的機器學習方法[7-8]來進行電能表在線率的預測，但是該算法易受過擬合的影響，預測性能差[9-11]。

貝葉斯優(yōu)化方法[12]可有效解決這一問題。它通過定義先驗概率分布，融合不確定信息和專家知識，保證了模型的泛化能力。同時，貝葉斯優(yōu)化可以自動調(diào)整模型的超參數(shù)[13]，避免手工調(diào)參經(jīng)驗性強、不準確的問題，進而尋找到全局最優(yōu)解[14-16]。于是，將貝葉斯優(yōu)化[17]引入SVR模型中，期望通過貝葉斯方法自動優(yōu)化SVR模型中的重要超參數(shù)(如懲罰參數(shù)C和核函數(shù)參數(shù)γ)，從而找到全局最優(yōu)參數(shù)組合，最大限度地發(fā)揮模型的效果[18-19]。

類似的智能優(yōu)化思路還有很多。例如：文獻[20]提出一種主蒸汽壓力的優(yōu)化方法，該方法首先使用聚類算法對數(shù)據(jù)進行預處理，提取關鍵特征，然后采用SVR進行建模和優(yōu)化，可有效提高主蒸汽壓力預測的準確性；文獻[21]提出一種鋰電池健康狀態(tài)預測方法，該方法利用遺傳算法對SVR模型的參數(shù)進行優(yōu)化，可提高模型的泛化能力和預測精度，為電池健康管理提供有力支持；文獻[22]提出一種短期電力負荷區(qū)間預測方法，該方法采用多目標優(yōu)化策略平衡預測精度和計算復雜度，并利用貝葉斯優(yōu)化技術自動調(diào)整模型參數(shù)，可實現(xiàn)短期電力負荷預測的優(yōu)化。

這些智能優(yōu)化方法充分展現(xiàn)了機器學習和優(yōu)化算法在實際生產(chǎn)生活中的巨大潛力。通過整合多種方法，可以進一步提升預測模型的性能，從而為實際應用創(chuàng)造更多價值。

然而，在前述研究中，少有人關注多維度數(shù)據(jù)的收集以及關鍵變量的篩選。本研究針對電能表在線數(shù)等24個變量展開了深入研究，并運用反向特征消除(reverse feature elimination，RFE)方法進行數(shù)據(jù)降維，成功篩選出影響電能表在線率的5個主要變量。借助這種方法，可以更有效地預測電能表的在線狀態(tài)。

以塔里木油田電網(wǎng)為例，不穩(wěn)定的電能表在線率會對實際生產(chǎn)生活產(chǎn)生較大影響。為此根據(jù)各作業(yè)區(qū)的電能表實際在線表計數(shù)、無信號表計數(shù)、停用表計數(shù)等變量，篩選出影響電能表在線率的主要因素，并將其應用于電能表在線率的預測，這對于保障油田生產(chǎn)用電計劃具有重要參考價值。

鑒于此，將整個數(shù)據(jù)分析過程劃分為3個部分：第1部分為數(shù)據(jù)預處理；第2部分為運用RFE方法進行數(shù)據(jù)降維；第3部分為運用基于貝葉斯優(yōu)化的SVR方法完成對電能表在線率的預測。

1 模型使用數(shù)據(jù)

1.1 數(shù)據(jù)概況

本研究所使用數(shù)據(jù)來源于電能表在線統(tǒng)計后臺，數(shù)據(jù)的起止時間為2022年3月5日—2023年4月2日，數(shù)據(jù)包括系統(tǒng)總計電能表在線數(shù)、理論在線電能表數(shù)、實際在線電能表數(shù)、各地區(qū)電能表在線數(shù)、需確認現(xiàn)場表計數(shù)、停用表計數(shù)、無信號表計數(shù)、校驗表計數(shù)、虛擬表計數(shù)、終止用戶表計數(shù)、信號弱表計數(shù)、表計上線率等共24個變量。

1.2 數(shù)據(jù)預處理

因存在原始數(shù)據(jù)部分數(shù)據(jù)缺失且個別數(shù)據(jù)出現(xiàn)較大波動的情況，本研究先進行數(shù)值填充及異常值剔除。

1.2.1 數(shù)據(jù)填充和平滑

為簡化插值計算并確保一定的插值精度，本文在多種方法中選擇了線性插值方法來填充缺失數(shù)據(jù)。線性插值的優(yōu)勢在于其計算簡單、易于理解。與其他復雜的插值方法(如三次樣條插值或高階多項式插值)相比，線性插值的計算速度更快，且在實際應用中的誤差范圍通?？梢越邮埽灰虼?，選擇線性插值方法可以在保持計算效率的同時，滿足相應的精度需求。

此外，本研究采用移動平均法來消除原始數(shù)據(jù)中存在的隨機波動。移動平均法是常用的時間序列分析方法，通過計算一定時間范圍內(nèi)的數(shù)據(jù)平均值來平滑數(shù)據(jù)波動，從而使數(shù)據(jù)更加穩(wěn)定。相較于其他平滑方法(如指數(shù)平滑法)，移動平均法的優(yōu)勢主要體現(xiàn)在簡單易懂、計算過程透明2個方面。而且，移動平均法在處理具有周期性和趨勢性的數(shù)據(jù)時表現(xiàn)尤為出色，有助于揭示數(shù)據(jù)潛在的規(guī)律。

綜上所述，本研究選擇線性插值方法和移動平均法相結(jié)合的方法來完成數(shù)據(jù)預處理，進而在保證保留原始數(shù)據(jù)精度的同時，消除原始數(shù)據(jù)中的隨機波動。

1.2.2 異常數(shù)據(jù)的剔除

箱型圖主要通過計算上下邊緣﹝即上下四分位數(shù)加、減1.5倍的四分位距(interquartile range，IQR)﹞來確定數(shù)據(jù)的正常范圍，超出這個范圍的數(shù)據(jù)點會被標記為異常數(shù)據(jù)。通過清洗和修正異常數(shù)據(jù)，可以提高后續(xù)分析和建模的準確性。

箱型圖如圖1所示：除變量3、變量15箱體較長，其余變量的箱體都呈現(xiàn)出較短的特征；總體而言，各變量分布集中，除變量15的中位數(shù)靠近下四分位數(shù)外，其余變量的中位數(shù)普遍靠近上四分位數(shù)，數(shù)據(jù)整體體現(xiàn)出右偏分布。綜上所述，數(shù)據(jù)整體數(shù)值較大，集中程度較高，但存在部分異常值(圖中紅色十字形標記)，需要進一步處理。

圖1 平滑處理后數(shù)據(jù)的箱型圖Fig.1 Box plot of the data after smoothing treatment

進一步，本文采取IQR方法來確定異常值。具體原理如下：

首先，計算數(shù)據(jù)集的下四分位數(shù)Q1和上四分位數(shù)Q3。四分位數(shù)將數(shù)據(jù)集分為四等份。對于Q1，有25%的數(shù)據(jù)低于該值；對于Q3，有75%的數(shù)據(jù)低于該值。

計算IQR，即Q3與Q1之間的差值

kIQR=Q3-Q1.

(1)

計算異常值的閾值：

BL=Q1-1.5kIQR，

(2)

BU=Q3+1.5kIQR.

(3)

式(2)、(3)中：BL為下界；BU為上界；1.5為常用系數(shù)，用于確定異常值范圍。

對于數(shù)據(jù)集中的每個數(shù)據(jù)點，如果其小于下界或大于上界，那么就被認為是異常值。

2 數(shù)據(jù)降維

常用的數(shù)據(jù)降維方法包括主成分分析(principal components analysis，PCA)、線性判別分析(linear discriminate analysis，LDA)和t-分布鄰域嵌入(t-distributed stochastic neighbor embedding，t-SNE)算法。其中：PCA通過線性變換將原始特征空間映射到新的低維特征空間，最大化地保留數(shù)據(jù)的方差，該方法適用于無監(jiān)督學習場景；LDA同樣采用線性變換，但該方法關注于類別間的分離度最大化，適用于有監(jiān)督學習場景。

PCA方法可降低數(shù)據(jù)維度；但該方法包含自變量和應變量，屬于監(jiān)督學習任務，因此PCA不是最佳的降維方法。LDA方法可降低的維度有限，對于模型的簡化效果并不好；因此其需要模型具有較強的線性關系。

2.1 數(shù)據(jù)說明

由于系統(tǒng)共計電能表在線數(shù)、理論在線電能表數(shù)、實際在線電能表數(shù)為相應變量相加所得，不存在獨立性，因此需先去除。后續(xù)均根據(jù)剔除此3個自變量后的數(shù)據(jù)繼續(xù)分析。

2.2 變量的相關系數(shù)矩陣

為直觀地展示數(shù)據(jù)集中各個變量之間的線性相關性，更好地理解數(shù)據(jù)集中各個變量之間的關系，本研究對表1所示的20個自變量繪制相關系數(shù)矩陣點圖，如圖2所示。

表1 待進行數(shù)據(jù)降維的變量Tab.1 Variables awaiting dimensionality reduction

圖2 20個自變量的相關系數(shù)矩陣點圖Fig.2 Scatter plot matrix of correlation coefficients for 20 independent variables

由圖2可知，變量的相關系數(shù)矩陣點圖的左上側(cè)和右下側(cè)多為紅色，而左下側(cè)和右上側(cè)的顏色多為藍色。這種現(xiàn)象意味著數(shù)據(jù)集中存在2個或多個變量子集，子集內(nèi)部的變量之間具有較強的正相關性，而不同子集之間的變量呈現(xiàn)負相關性。在實際分析過程中，需要關注高度相關的變量，因為它們具有多重共線性，會影響回歸模型的穩(wěn)定性和可解釋性。

結(jié)合以上思考，需要先判斷模型是否屬于復雜的非線性問題，這一步主要通過殘差分析進行。

2.3 殘差分析

殘差分析是評估回歸模型擬合效果和確定模型是否線性的方法。在殘差分析中，判斷模型是否線性可以依據(jù)殘差的隨機分布：如果模型是線性的，那么殘差應該在整個自變量范圍內(nèi)呈現(xiàn)隨機分布，沒有明顯的規(guī)律。通?？梢酝ㄟ^繪制殘差散點圖來觀察殘差的分布情況，如圖3所示。

由圖3可知，殘差散點圖的散點主要集中于圖像下側(cè)，且在[-0.001 5，0.001 5]區(qū)間內(nèi)隨機分布，這說明殘差在這個區(qū)間內(nèi)沒有明顯的偏差。但對于殘差的分布是否具有正態(tài)性，需要進一步的檢驗。可通過繪制如圖4所示的殘差QQ圖(residual quantile-quantile plot)來檢驗模型殘差是否近似服從正態(tài)分布。如果殘差呈現(xiàn)正態(tài)分布的話，QQ圖上的點大多會落在45°線上。

圖4 殘差QQ圖Fig.4 Residual quantile-quantile plot

由圖4可知，殘差QQ圖的數(shù)據(jù)點基本沿同一條直線分布，但尾端數(shù)據(jù)點明顯偏離直線，這說明模型不符合正態(tài)分布的假設。進一步比較正態(tài)分布與殘差分布，繪制如圖5所示正態(tài)分布殘差直方圖，通過觀察圖像的偏度情況，來評估回歸模型擬合的結(jié)果。

圖5 正態(tài)分布殘差直方圖Fig.5 Histogram of normally distributed residuals

由圖5可知，直方圖形狀偏離正態(tài)分布，表明殘差不符合正態(tài)性假設。

綜上所述，嘗試建立簡單的線性回歸模型來解釋應變量隨自變量的變化，是不滿足正態(tài)性假設的，線性模型不具有穩(wěn)定性和可靠性，電能表在線率的預測問題屬于非線性問題。

2.4 基于RFE方法進行數(shù)據(jù)降維

特征選擇方法的目標是在保留原始特征可解釋性的同時，選擇對模型預測貢獻最大的特征子集。通常在處理非線性問題時，特征選擇方法比線性降維方法更具優(yōu)勢。RFE是一種用于特征選擇的降維方法，其基本原理是使用1個模型進行多輪訓練，每輪訓練后移除一部分特征，然后重新訓練模型，最終選擇表現(xiàn)最佳的特征子集。RFE方法的詳細步驟如下：

步驟1，設置自變量矩陣和應變量矩陣；

步驟2，設置RFE的參數(shù)(選擇特征數(shù)量為5，每次迭代時移除1個特征)；

步驟3，判定當前選擇的特征數(shù)量是否小于5；

步驟4，使用當前特征集訓練1個線性回歸基礎模型；

步驟5，獲得回歸系數(shù)的絕對值；

步驟6，從特征集中移除具有最小系數(shù)的特征；

步驟7，更新當前特征數(shù)量，返回步驟2。

經(jīng)過篩選，得到降維后的變量見表2，表中回歸系數(shù)較小是由于自變量和因變量的絕對值偏差較大。

表2 數(shù)據(jù)降維后得到的各變量Tab.2 Variables obtained after data dimensionality reduction

為反映出各數(shù)據(jù)的波動情況，將各變量進行歸一化處理后繪圖，如圖6所示。

圖6 歸一化后的降維數(shù)據(jù)Fig.6 Normalized dimensionality reduction data

由圖6可知，序號為X1、X2、X3的自變量數(shù)據(jù)與因變量之間具有強正相關性，序號為X4、X5的自變量數(shù)據(jù)與因變量之間具有強負相關性。由此可見，數(shù)據(jù)降維過程將原始高維的自變量空間轉(zhuǎn)換為較低維度的新空間，可保留數(shù)據(jù)中的主要結(jié)構(gòu)和信息，減少系統(tǒng)噪聲并解決多重共線性問題。

進一步，通過在整體樣本上不斷重復RFE，以保證變量篩選結(jié)果穩(wěn)定。統(tǒng)計各特征被選中次數(shù)及被選中幾率見表3，其中N100、N500、N1000分別為重復100、500、1 000次RFE后各特征被選中次數(shù)。

表3 RFE重復試驗結(jié)果Tab.3 Results of repeated RFE experiments

綜上，在結(jié)合重復實驗并保留5個被選中次數(shù)最高的變量的條件下，重復執(zhí)行RFE得到的最佳特征子集與前述結(jié)果保持一致。

3 對電能表在線率進行預測

SVR是一種基于支持向量機的回歸算法，用于預測連續(xù)型目標變量。SVR的主要特點是通過引入ε-insensitive損失函數(shù)，使得預測誤差在一定范圍內(nèi)的數(shù)據(jù)點不受懲罰，同時最大化間隔以提高模型的泛化能力。SVR可應用于線性和非線性回歸問題，通過使用核函數(shù)(如徑向基函數(shù)、多項式核等)將原始特征映射到高維空間，從而實現(xiàn)對非線性關系的建模。SVR在處理具有高維特征、非線性關系和噪聲較多的數(shù)據(jù)集時具有較強的魯棒性。

貝葉斯優(yōu)化是一種基于概率模型的全局優(yōu)化算法。它使用高斯過程回歸來擬合目標函數(shù)(ε-insensitive損失函數(shù))，尋找得到最佳參數(shù)。貝葉斯優(yōu)化的主要優(yōu)勢在于僅需要較少的迭代次數(shù)，就能找到全局最優(yōu)解。

對于電能表在線率預測問題，將數(shù)據(jù)集(自變量和因變量)劃分為訓練集和測試集2個部分，使用貝葉斯優(yōu)化方法計算k折交叉模型的損失，以優(yōu)化正則化參數(shù)C以及徑向基核函數(shù)尺度參數(shù)γ2種超參數(shù)，進而獲得穩(wěn)定的模型泛化能力。具體步驟如下：

步驟1，劃分訓練集和測試集(采用70%數(shù)據(jù)的訓練集、30%數(shù)據(jù)的測試集)；

步驟2，定義要搜索的超參數(shù)空間(將正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ均設置為10-5～105)；

步驟3，使用k折交叉驗證評估模型性能(設置k=5)；

步驟4，定義網(wǎng)絡搜索的目標函數(shù)最小值；

步驟5，使用貝葉斯優(yōu)化進行網(wǎng)絡搜索；

步驟6，獲取最佳參數(shù)；

步驟7，使用最佳超參數(shù)訓練SVR模型；

步驟8，使用測試集評估性能；

步驟9，輸出均方誤差。

算法執(zhí)行流程如圖7所示。

圖7 算法執(zhí)行流程Fig.7 Algorithm execution flowchart

運行模型后，得到模型運算的結(jié)果見表4，其中結(jié)果評價可分為最佳和可接受2種結(jié)果。表4中：“最佳”表示目標函數(shù)返回的有限值低于先前計算的目標函數(shù)值；“可接受”則表示目標函數(shù)返回有限值；目標函數(shù)值中第1列所示的“觀測值”表示計算的最小目標函數(shù)值，此值取當前或迭代的目標函數(shù)最小值；而第2列的“估計值”則表示在每次迭代中，軟件使用更新后的高斯過程模型，根據(jù)當前嘗試的所有超參數(shù)集估計目標函數(shù)值的置信邊界上限，然后，軟件選擇具有最小置信邊界上限的點，該值即對應達到該條件后所返回的目標函數(shù)值；最右側(cè)2列數(shù)值即目標函數(shù)所對應的正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ。

表4 貝葉斯優(yōu)化的過程及得到的最優(yōu)超參數(shù)組合Tab.4 The process of Bayesian optimization and the optimal hyperparameter combination obtained

在運行模型后，挑選根據(jù)最終高斯過程模型在最終迭代中產(chǎn)生的最佳目標函數(shù)估計值對應的超參數(shù)集作為最佳超參數(shù)組合，見表5。

表5 最佳超參數(shù)組合Tab.5 The best hyperparameter combination

根據(jù)上述內(nèi)容，傳遞SVR模型相關參數(shù)如下：采用高斯核函數(shù)，設置目標函數(shù)ε-insensitive中的ε=0.016，間隙容忍度為1.0×10-3，正則化參數(shù)C=4.204，核函數(shù)尺度參數(shù)γ=10.249。

通過訓練模型得到的支持向量見表6。

表6 支持向量一覽Tab.6 List of support vectors

圖8展示了優(yōu)化過程中目標函數(shù)最小值隨著迭代次數(shù)的變化情況，優(yōu)化算法在20次計算內(nèi)成功地將目標函數(shù)值顯著降低。這表明優(yōu)化算法在這個問題上的收斂速度較快。在20次計算后，目標函數(shù)值接近0，這意味著模型的泛化能力較好，預測誤差較小。

圖8 最小目標值關于函數(shù)計算次數(shù)圖像Fig.8 The minimum target value with respect to the number of function calculation image

估計的目標函數(shù)值隨正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ這2種超參數(shù)變化情況如圖9所示，圖像呈漏斗狀，漏斗狀的圖像表明，超參數(shù)接近最佳組合。

圖9 估計的目標函數(shù)值隨2種超參數(shù)變化的情況Fig.9 Variation of the estimated objective function values with two hyperparameters

本研究將貝葉斯優(yōu)化的SVR算法同隨機森林算法、梯度提升算法、SVR算法、K最鄰近算法進行比較，繪制各算法預測結(jié)果曲線，如圖10所示。

圖10 各算法預測結(jié)果曲線Fig.10 Comparison image of prediction results from various algorithms

進一步使用加權(quán)平均絕對誤差指標EWMAE和均方差指標EMSE對模型預測結(jié)果進行評價，并統(tǒng)計各算法預測結(jié)果對應的EWMAE和EMSE，見表7。

表7 各算法對應的加權(quán)平均絕對誤差和均方差Tab.7 Weighted average absolute error and mean square deviation corresponding to each algorithm

(4)

(5)

式(4)、(5)中：n為樣本個數(shù)；yci為預測值；yi為實際值。

計算得到貝葉斯優(yōu)化的SVR算法預測結(jié)果對應EWMAE為0.408%，EMSE為0.004%，模型在預測任務上具有較好的性能，誤差較小。

4 結(jié)束語

通過使用貝葉斯優(yōu)化下的SVR方法，可高效且準確地預測電能表的在線率。貝葉斯優(yōu)化技術有助于在超參數(shù)空間中找到最佳組合，從而提高了模型的預測性能。與其他傳統(tǒng)方法相比，這種方法計算時間較短，使得模型能夠在有限的時間內(nèi)快速獲得高質(zhì)量的預測結(jié)果。同時，預測誤差較小，表明模型在預測電能表在線率方面具有較好的準確性和魯棒性。綜上所述，貝葉斯優(yōu)化下的SVR方法在電能表在線率預測任務中表現(xiàn)出色，具有實際應用價值。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看