余俊澤,夏顯威,雷春俊,趙冬立,馬群,陳百齡
(塔里木油田公司 a.新能源事業(yè)部;b.油氣生產(chǎn)技術部,新疆 庫爾勒 841000)
電能表作為電力系統(tǒng)中至關重要的計量設備[1],通常用于核定用戶用電量并進行經(jīng)濟核算[2]。隨著社會進步和科技發(fā)展,數(shù)字式電能表已逐漸取代傳統(tǒng)的機械式電能表[3-5]。
在這一背景下,電能表的在線率成為衡量實時數(shù)據(jù)采集成功率的關鍵指標,對于保障整個電力系統(tǒng)的穩(wěn)定運行具有重要意義。電能表的高在線率對電力企業(yè)進行負荷預測、電力調(diào)度和資源優(yōu)化等關鍵決策具有重要價值,挖掘與電能表在線率相關的數(shù)據(jù)并預測其變化趨勢現(xiàn)已成為一項關鍵任務[6]。為實現(xiàn)這一目標,嘗試通過支持向量回歸(support vector regression,SVR)算法——一種廣泛應用于回歸分析和預測的機器學習方法[7-8]來進行電能表在線率的預測,但是該算法易受過擬合的影響,預測性能差[9-11]。
貝葉斯優(yōu)化方法[12]可有效解決這一問題。它通過定義先驗概率分布,融合不確定信息和專家知識,保證了模型的泛化能力。同時,貝葉斯優(yōu)化可以自動調(diào)整模型的超參數(shù)[13],避免手工調(diào)參經(jīng)驗性強、不準確的問題,進而尋找到全局最優(yōu)解[14-16]。于是,將貝葉斯優(yōu)化[17]引入SVR模型中,期望通過貝葉斯方法自動優(yōu)化SVR模型中的重要超參數(shù)(如懲罰參數(shù)C和核函數(shù)參數(shù)γ),從而找到全局最優(yōu)參數(shù)組合,最大限度地發(fā)揮模型的效果[18-19]。
類似的智能優(yōu)化思路還有很多。例如:文獻[20]提出一種主蒸汽壓力的優(yōu)化方法,該方法首先使用聚類算法對數(shù)據(jù)進行預處理,提取關鍵特征,然后采用SVR進行建模和優(yōu)化,可有效提高主蒸汽壓力預測的準確性;文獻[21]提出一種鋰電池健康狀態(tài)預測方法,該方法利用遺傳算法對SVR模型的參數(shù)進行優(yōu)化,可提高模型的泛化能力和預測精度,為電池健康管理提供有力支持;文獻[22]提出一種短期電力負荷區(qū)間預測方法,該方法采用多目標優(yōu)化策略平衡預測精度和計算復雜度,并利用貝葉斯優(yōu)化技術自動調(diào)整模型參數(shù),可實現(xiàn)短期電力負荷預測的優(yōu)化。
這些智能優(yōu)化方法充分展現(xiàn)了機器學習和優(yōu)化算法在實際生產(chǎn)生活中的巨大潛力。通過整合多種方法,可以進一步提升預測模型的性能,從而為實際應用創(chuàng)造更多價值。
然而,在前述研究中,少有人關注多維度數(shù)據(jù)的收集以及關鍵變量的篩選。本研究針對電能表在線數(shù)等24個變量展開了深入研究,并運用反向特征消除(reverse feature elimination,RFE)方法進行數(shù)據(jù)降維,成功篩選出影響電能表在線率的5個主要變量。借助這種方法,可以更有效地預測電能表的在線狀態(tài)。
以塔里木油田電網(wǎng)為例,不穩(wěn)定的電能表在線率會對實際生產(chǎn)生活產(chǎn)生較大影響。為此根據(jù)各作業(yè)區(qū)的電能表實際在線表計數(shù)、無信號表計數(shù)、停用表計數(shù)等變量,篩選出影響電能表在線率的主要因素,并將其應用于電能表在線率的預測,這對于保障油田生產(chǎn)用電計劃具有重要參考價值。
鑒于此,將整個數(shù)據(jù)分析過程劃分為3個部分:第1部分為數(shù)據(jù)預處理;第2部分為運用RFE方法進行數(shù)據(jù)降維;第3部分為運用基于貝葉斯優(yōu)化的SVR方法完成對電能表在線率的預測。
本研究所使用數(shù)據(jù)來源于電能表在線統(tǒng)計后臺,數(shù)據(jù)的起止時間為2022年3月5日—2023年4月2日,數(shù)據(jù)包括系統(tǒng)總計電能表在線數(shù)、理論在線電能表數(shù)、實際在線電能表數(shù)、各地區(qū)電能表在線數(shù)、需確認現(xiàn)場表計數(shù)、停用表計數(shù)、無信號表計數(shù)、校驗表計數(shù)、虛擬表計數(shù)、終止用戶表計數(shù)、信號弱表計數(shù)、表計上線率等共24個變量。
因存在原始數(shù)據(jù)部分數(shù)據(jù)缺失且個別數(shù)據(jù)出現(xiàn)較大波動的情況,本研究先進行數(shù)值填充及異常值剔除。
1.2.1 數(shù)據(jù)填充和平滑
為簡化插值計算并確保一定的插值精度,本文在多種方法中選擇了線性插值方法來填充缺失數(shù)據(jù)。線性插值的優(yōu)勢在于其計算簡單、易于理解。與其他復雜的插值方法(如三次樣條插值或高階多項式插值)相比,線性插值的計算速度更快,且在實際應用中的誤差范圍通??梢越邮埽灰虼?,選擇線性插值方法可以在保持計算效率的同時,滿足相應的精度需求。
此外,本研究采用移動平均法來消除原始數(shù)據(jù)中存在的隨機波動。移動平均法是常用的時間序列分析方法,通過計算一定時間范圍內(nèi)的數(shù)據(jù)平均值來平滑數(shù)據(jù)波動,從而使數(shù)據(jù)更加穩(wěn)定。相較于其他平滑方法(如指數(shù)平滑法),移動平均法的優(yōu)勢主要體現(xiàn)在簡單易懂、計算過程透明2個方面。而且,移動平均法在處理具有周期性和趨勢性的數(shù)據(jù)時表現(xiàn)尤為出色,有助于揭示數(shù)據(jù)潛在的規(guī)律。
綜上所述,本研究選擇線性插值方法和移動平均法相結(jié)合的方法來完成數(shù)據(jù)預處理,進而在保證保留原始數(shù)據(jù)精度的同時,消除原始數(shù)據(jù)中的隨機波動。
1.2.2 異常數(shù)據(jù)的剔除
箱型圖主要通過計算上下邊緣﹝即上下四分位數(shù)加、減1.5倍的四分位距(interquartile range,IQR)﹞來確定數(shù)據(jù)的正常范圍,超出這個范圍的數(shù)據(jù)點會被標記為異常數(shù)據(jù)。通過清洗和修正異常數(shù)據(jù),可以提高后續(xù)分析和建模的準確性。
箱型圖如圖1所示:除變量3、變量15箱體較長,其余變量的箱體都呈現(xiàn)出較短的特征;總體而言,各變量分布集中,除變量15的中位數(shù)靠近下四分位數(shù)外,其余變量的中位數(shù)普遍靠近上四分位數(shù),數(shù)據(jù)整體體現(xiàn)出右偏分布。綜上所述,數(shù)據(jù)整體數(shù)值較大,集中程度較高,但存在部分異常值(圖中紅色十字形標記),需要進一步處理。
圖1 平滑處理后數(shù)據(jù)的箱型圖Fig.1 Box plot of the data after smoothing treatment
進一步,本文采取IQR方法來確定異常值。具體原理如下:
首先,計算數(shù)據(jù)集的下四分位數(shù)Q1和上四分位數(shù)Q3。四分位數(shù)將數(shù)據(jù)集分為四等份。對于Q1,有25%的數(shù)據(jù)低于該值;對于Q3,有75%的數(shù)據(jù)低于該值。
計算IQR,即Q3與Q1之間的差值
kIQR=Q3-Q1.
(1)
計算異常值的閾值:
BL=Q1-1.5kIQR,
(2)
BU=Q3+1.5kIQR.
(3)
式(2)、(3)中:BL為下界;BU為上界;1.5為常用系數(shù),用于確定異常值范圍。
對于數(shù)據(jù)集中的每個數(shù)據(jù)點,如果其小于下界或大于上界,那么就被認為是異常值。
常用的數(shù)據(jù)降維方法包括主成分分析(principal components analysis,PCA)、線性判別分析(linear discriminate analysis,LDA)和t-分布鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法。其中:PCA通過線性變換將原始特征空間映射到新的低維特征空間,最大化地保留數(shù)據(jù)的方差,該方法適用于無監(jiān)督學習場景;LDA同樣采用線性變換,但該方法關注于類別間的分離度最大化,適用于有監(jiān)督學習場景。
PCA方法可降低數(shù)據(jù)維度;但該方法包含自變量和應變量,屬于監(jiān)督學習任務,因此PCA不是最佳的降維方法。LDA方法可降低的維度有限,對于模型的簡化效果并不好;因此其需要模型具有較強的線性關系。
由于系統(tǒng)共計電能表在線數(shù)、理論在線電能表數(shù)、實際在線電能表數(shù)為相應變量相加所得,不存在獨立性,因此需先去除。后續(xù)均根據(jù)剔除此3個自變量后的數(shù)據(jù)繼續(xù)分析。
為直觀地展示數(shù)據(jù)集中各個變量之間的線性相關性,更好地理解數(shù)據(jù)集中各個變量之間的關系,本研究對表1所示的20個自變量繪制相關系數(shù)矩陣點圖,如圖2所示。
表1 待進行數(shù)據(jù)降維的變量Tab.1 Variables awaiting dimensionality reduction
圖2 20個自變量的相關系數(shù)矩陣點圖Fig.2 Scatter plot matrix of correlation coefficients for 20 independent variables
由圖2可知,變量的相關系數(shù)矩陣點圖的左上側(cè)和右下側(cè)多為紅色,而左下側(cè)和右上側(cè)的顏色多為藍色。這種現(xiàn)象意味著數(shù)據(jù)集中存在2個或多個變量子集,子集內(nèi)部的變量之間具有較強的正相關性,而不同子集之間的變量呈現(xiàn)負相關性。在實際分析過程中,需要關注高度相關的變量,因為它們具有多重共線性,會影響回歸模型的穩(wěn)定性和可解釋性。
結(jié)合以上思考,需要先判斷模型是否屬于復雜的非線性問題,這一步主要通過殘差分析進行。
殘差分析是評估回歸模型擬合效果和確定模型是否線性的方法。在殘差分析中,判斷模型是否線性可以依據(jù)殘差的隨機分布:如果模型是線性的,那么殘差應該在整個自變量范圍內(nèi)呈現(xiàn)隨機分布,沒有明顯的規(guī)律。通??梢酝ㄟ^繪制殘差散點圖來觀察殘差的分布情況,如圖3所示。
由圖3可知,殘差散點圖的散點主要集中于圖像下側(cè),且在[-0.001 5,0.001 5]區(qū)間內(nèi)隨機分布,這說明殘差在這個區(qū)間內(nèi)沒有明顯的偏差。但對于殘差的分布是否具有正態(tài)性,需要進一步的檢驗。可通過繪制如圖4所示的殘差QQ圖(residual quantile-quantile plot)來檢驗模型殘差是否近似服從正態(tài)分布。如果殘差呈現(xiàn)正態(tài)分布的話,QQ圖上的點大多會落在45°線上。
圖4 殘差QQ圖Fig.4 Residual quantile-quantile plot
由圖4可知,殘差QQ圖的數(shù)據(jù)點基本沿同一條直線分布,但尾端數(shù)據(jù)點明顯偏離直線,這說明模型不符合正態(tài)分布的假設。進一步比較正態(tài)分布與殘差分布,繪制如圖5所示正態(tài)分布殘差直方圖,通過觀察圖像的偏度情況,來評估回歸模型擬合的結(jié)果。
圖5 正態(tài)分布殘差直方圖Fig.5 Histogram of normally distributed residuals
由圖5可知,直方圖形狀偏離正態(tài)分布,表明殘差不符合正態(tài)性假設。
綜上所述,嘗試建立簡單的線性回歸模型來解釋應變量隨自變量的變化,是不滿足正態(tài)性假設的,線性模型不具有穩(wěn)定性和可靠性,電能表在線率的預測問題屬于非線性問題。
特征選擇方法的目標是在保留原始特征可解釋性的同時,選擇對模型預測貢獻最大的特征子集。通常在處理非線性問題時,特征選擇方法比線性降維方法更具優(yōu)勢。RFE是一種用于特征選擇的降維方法,其基本原理是使用1個模型進行多輪訓練,每輪訓練后移除一部分特征,然后重新訓練模型,最終選擇表現(xiàn)最佳的特征子集。RFE方法的詳細步驟如下:
步驟1,設置自變量矩陣和應變量矩陣;
步驟2,設置RFE的參數(shù)(選擇特征數(shù)量為5,每次迭代時移除1個特征);
步驟3,判定當前選擇的特征數(shù)量是否小于5;
步驟4,使用當前特征集訓練1個線性回歸基礎模型;
步驟5,獲得回歸系數(shù)的絕對值;
步驟6,從特征集中移除具有最小系數(shù)的特征;
步驟7,更新當前特征數(shù)量,返回步驟2。
經(jīng)過篩選,得到降維后的變量見表2,表中回歸系數(shù)較小是由于自變量和因變量的絕對值偏差較大。
表2 數(shù)據(jù)降維后得到的各變量Tab.2 Variables obtained after data dimensionality reduction
為反映出各數(shù)據(jù)的波動情況,將各變量進行歸一化處理后繪圖,如圖6所示。
圖6 歸一化后的降維數(shù)據(jù)Fig.6 Normalized dimensionality reduction data
由圖6可知,序號為X1、X2、X3的自變量數(shù)據(jù)與因變量之間具有強正相關性,序號為X4、X5的自變量數(shù)據(jù)與因變量之間具有強負相關性。由此可見,數(shù)據(jù)降維過程將原始高維的自變量空間轉(zhuǎn)換為較低維度的新空間,可保留數(shù)據(jù)中的主要結(jié)構(gòu)和信息,減少系統(tǒng)噪聲并解決多重共線性問題。
進一步,通過在整體樣本上不斷重復RFE,以保證變量篩選結(jié)果穩(wěn)定。統(tǒng)計各特征被選中次數(shù)及被選中幾率見表3,其中N100、N500、N1000分別為重復100、500、1 000次RFE后各特征被選中次數(shù)。
表3 RFE重復試驗結(jié)果Tab.3 Results of repeated RFE experiments
綜上,在結(jié)合重復實驗并保留5個被選中次數(shù)最高的變量的條件下,重復執(zhí)行RFE得到的最佳特征子集與前述結(jié)果保持一致。
SVR是一種基于支持向量機的回歸算法,用于預測連續(xù)型目標變量。SVR的主要特點是通過引入ε-insensitive損失函數(shù),使得預測誤差在一定范圍內(nèi)的數(shù)據(jù)點不受懲罰,同時最大化間隔以提高模型的泛化能力。SVR可應用于線性和非線性回歸問題,通過使用核函數(shù)(如徑向基函數(shù)、多項式核等)將原始特征映射到高維空間,從而實現(xiàn)對非線性關系的建模。SVR在處理具有高維特征、非線性關系和噪聲較多的數(shù)據(jù)集時具有較強的魯棒性。
貝葉斯優(yōu)化是一種基于概率模型的全局優(yōu)化算法。它使用高斯過程回歸來擬合目標函數(shù)(ε-insensitive損失函數(shù)),尋找得到最佳參數(shù)。貝葉斯優(yōu)化的主要優(yōu)勢在于僅需要較少的迭代次數(shù),就能找到全局最優(yōu)解。
對于電能表在線率預測問題,將數(shù)據(jù)集(自變量和因變量)劃分為訓練集和測試集2個部分,使用貝葉斯優(yōu)化方法計算k折交叉模型的損失,以優(yōu)化正則化參數(shù)C以及徑向基核函數(shù)尺度參數(shù)γ2種超參數(shù),進而獲得穩(wěn)定的模型泛化能力。具體步驟如下:
步驟1,劃分訓練集和測試集(采用70%數(shù)據(jù)的訓練集、30%數(shù)據(jù)的測試集);
步驟2,定義要搜索的超參數(shù)空間(將正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ均設置為10-5~105);
步驟3,使用k折交叉驗證評估模型性能(設置k=5);
步驟4,定義網(wǎng)絡搜索的目標函數(shù)最小值;
步驟5,使用貝葉斯優(yōu)化進行網(wǎng)絡搜索;
步驟6,獲取最佳參數(shù);
步驟7,使用最佳超參數(shù)訓練SVR模型;
步驟8,使用測試集評估性能;
步驟9,輸出均方誤差。
算法執(zhí)行流程如圖7所示。
圖7 算法執(zhí)行流程Fig.7 Algorithm execution flowchart
運行模型后,得到模型運算的結(jié)果見表4,其中結(jié)果評價可分為最佳和可接受2種結(jié)果。表4中:“最佳”表示目標函數(shù)返回的有限值低于先前計算的目標函數(shù)值;“可接受”則表示目標函數(shù)返回有限值;目標函數(shù)值中第1列所示的“觀測值”表示計算的最小目標函數(shù)值,此值取當前或迭代的目標函數(shù)最小值;而第2列的“估計值”則表示在每次迭代中,軟件使用更新后的高斯過程模型,根據(jù)當前嘗試的所有超參數(shù)集估計目標函數(shù)值的置信邊界上限,然后,軟件選擇具有最小置信邊界上限的點,該值即對應達到該條件后所返回的目標函數(shù)值;最右側(cè)2列數(shù)值即目標函數(shù)所對應的正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ。
表4 貝葉斯優(yōu)化的過程及得到的最優(yōu)超參數(shù)組合Tab.4 The process of Bayesian optimization and the optimal hyperparameter combination obtained
在運行模型后,挑選根據(jù)最終高斯過程模型在最終迭代中產(chǎn)生的最佳目標函數(shù)估計值對應的超參數(shù)集作為最佳超參數(shù)組合,見表5。
表5 最佳超參數(shù)組合Tab.5 The best hyperparameter combination
根據(jù)上述內(nèi)容,傳遞SVR模型相關參數(shù)如下:采用高斯核函數(shù),設置目標函數(shù)ε-insensitive中的ε=0.016,間隙容忍度為1.0×10-3,正則化參數(shù)C=4.204,核函數(shù)尺度參數(shù)γ=10.249。
通過訓練模型得到的支持向量見表6。
表6 支持向量一覽Tab.6 List of support vectors
圖8展示了優(yōu)化過程中目標函數(shù)最小值隨著迭代次數(shù)的變化情況,優(yōu)化算法在20次計算內(nèi)成功地將目標函數(shù)值顯著降低。這表明優(yōu)化算法在這個問題上的收斂速度較快。在20次計算后,目標函數(shù)值接近0,這意味著模型的泛化能力較好,預測誤差較小。
圖8 最小目標值關于函數(shù)計算次數(shù)圖像Fig.8 The minimum target value with respect to the number of function calculation image
估計的目標函數(shù)值隨正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ這2種超參數(shù)變化情況如圖9所示,圖像呈漏斗狀,漏斗狀的圖像表明,超參數(shù)接近最佳組合。
圖9 估計的目標函數(shù)值隨2種超參數(shù)變化的情況Fig.9 Variation of the estimated objective function values with two hyperparameters
本研究將貝葉斯優(yōu)化的SVR算法同隨機森林算法、梯度提升算法、SVR算法、K最鄰近算法進行比較,繪制各算法預測結(jié)果曲線,如圖10所示。
圖10 各算法預測結(jié)果曲線Fig.10 Comparison image of prediction results from various algorithms
進一步使用加權(quán)平均絕對誤差指標EWMAE和均方差指標EMSE對模型預測結(jié)果進行評價,并統(tǒng)計各算法預測結(jié)果對應的EWMAE和EMSE,見表7。
表7 各算法對應的加權(quán)平均絕對誤差和均方差Tab.7 Weighted average absolute error and mean square deviation corresponding to each algorithm
(4)
(5)
式(4)、(5)中:n為樣本個數(shù);yci為預測值;yi為實際值。
計算得到貝葉斯優(yōu)化的SVR算法預測結(jié)果對應EWMAE為0.408%,EMSE為0.004%,模型在預測任務上具有較好的性能,誤差較小。
通過使用貝葉斯優(yōu)化下的SVR方法,可高效且準確地預測電能表的在線率。貝葉斯優(yōu)化技術有助于在超參數(shù)空間中找到最佳組合,從而提高了模型的預測性能。與其他傳統(tǒng)方法相比,這種方法計算時間較短,使得模型能夠在有限的時間內(nèi)快速獲得高質(zhì)量的預測結(jié)果。同時,預測誤差較小,表明模型在預測電能表在線率方面具有較好的準確性和魯棒性。綜上所述,貝葉斯優(yōu)化下的SVR方法在電能表在線率預測任務中表現(xiàn)出色,具有實際應用價值。