• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于貝葉斯優(yōu)化的支持向量回歸模型對電能表在線率的預測

      2023-11-07 07:09:56余俊澤夏顯威雷春俊趙冬立馬群陳百齡
      廣東電力 2023年9期
      關鍵詞:電能表殘差變量

      余俊澤,夏顯威,雷春俊,趙冬立,馬群,陳百齡

      (塔里木油田公司 a.新能源事業(yè)部;b.油氣生產(chǎn)技術部,新疆 庫爾勒 841000)

      電能表作為電力系統(tǒng)中至關重要的計量設備[1],通常用于核定用戶用電量并進行經(jīng)濟核算[2]。隨著社會進步和科技發(fā)展,數(shù)字式電能表已逐漸取代傳統(tǒng)的機械式電能表[3-5]。

      在這一背景下,電能表的在線率成為衡量實時數(shù)據(jù)采集成功率的關鍵指標,對于保障整個電力系統(tǒng)的穩(wěn)定運行具有重要意義。電能表的高在線率對電力企業(yè)進行負荷預測、電力調(diào)度和資源優(yōu)化等關鍵決策具有重要價值,挖掘與電能表在線率相關的數(shù)據(jù)并預測其變化趨勢現(xiàn)已成為一項關鍵任務[6]。為實現(xiàn)這一目標,嘗試通過支持向量回歸(support vector regression,SVR)算法——一種廣泛應用于回歸分析和預測的機器學習方法[7-8]來進行電能表在線率的預測,但是該算法易受過擬合的影響,預測性能差[9-11]。

      貝葉斯優(yōu)化方法[12]可有效解決這一問題。它通過定義先驗概率分布,融合不確定信息和專家知識,保證了模型的泛化能力。同時,貝葉斯優(yōu)化可以自動調(diào)整模型的超參數(shù)[13],避免手工調(diào)參經(jīng)驗性強、不準確的問題,進而尋找到全局最優(yōu)解[14-16]。于是,將貝葉斯優(yōu)化[17]引入SVR模型中,期望通過貝葉斯方法自動優(yōu)化SVR模型中的重要超參數(shù)(如懲罰參數(shù)C和核函數(shù)參數(shù)γ),從而找到全局最優(yōu)參數(shù)組合,最大限度地發(fā)揮模型的效果[18-19]。

      類似的智能優(yōu)化思路還有很多。例如:文獻[20]提出一種主蒸汽壓力的優(yōu)化方法,該方法首先使用聚類算法對數(shù)據(jù)進行預處理,提取關鍵特征,然后采用SVR進行建模和優(yōu)化,可有效提高主蒸汽壓力預測的準確性;文獻[21]提出一種鋰電池健康狀態(tài)預測方法,該方法利用遺傳算法對SVR模型的參數(shù)進行優(yōu)化,可提高模型的泛化能力和預測精度,為電池健康管理提供有力支持;文獻[22]提出一種短期電力負荷區(qū)間預測方法,該方法采用多目標優(yōu)化策略平衡預測精度和計算復雜度,并利用貝葉斯優(yōu)化技術自動調(diào)整模型參數(shù),可實現(xiàn)短期電力負荷預測的優(yōu)化。

      這些智能優(yōu)化方法充分展現(xiàn)了機器學習和優(yōu)化算法在實際生產(chǎn)生活中的巨大潛力。通過整合多種方法,可以進一步提升預測模型的性能,從而為實際應用創(chuàng)造更多價值。

      然而,在前述研究中,少有人關注多維度數(shù)據(jù)的收集以及關鍵變量的篩選。本研究針對電能表在線數(shù)等24個變量展開了深入研究,并運用反向特征消除(reverse feature elimination,RFE)方法進行數(shù)據(jù)降維,成功篩選出影響電能表在線率的5個主要變量。借助這種方法,可以更有效地預測電能表的在線狀態(tài)。

      以塔里木油田電網(wǎng)為例,不穩(wěn)定的電能表在線率會對實際生產(chǎn)生活產(chǎn)生較大影響。為此根據(jù)各作業(yè)區(qū)的電能表實際在線表計數(shù)、無信號表計數(shù)、停用表計數(shù)等變量,篩選出影響電能表在線率的主要因素,并將其應用于電能表在線率的預測,這對于保障油田生產(chǎn)用電計劃具有重要參考價值。

      鑒于此,將整個數(shù)據(jù)分析過程劃分為3個部分:第1部分為數(shù)據(jù)預處理;第2部分為運用RFE方法進行數(shù)據(jù)降維;第3部分為運用基于貝葉斯優(yōu)化的SVR方法完成對電能表在線率的預測。

      1 模型使用數(shù)據(jù)

      1.1 數(shù)據(jù)概況

      本研究所使用數(shù)據(jù)來源于電能表在線統(tǒng)計后臺,數(shù)據(jù)的起止時間為2022年3月5日—2023年4月2日,數(shù)據(jù)包括系統(tǒng)總計電能表在線數(shù)、理論在線電能表數(shù)、實際在線電能表數(shù)、各地區(qū)電能表在線數(shù)、需確認現(xiàn)場表計數(shù)、停用表計數(shù)、無信號表計數(shù)、校驗表計數(shù)、虛擬表計數(shù)、終止用戶表計數(shù)、信號弱表計數(shù)、表計上線率等共24個變量。

      1.2 數(shù)據(jù)預處理

      因存在原始數(shù)據(jù)部分數(shù)據(jù)缺失且個別數(shù)據(jù)出現(xiàn)較大波動的情況,本研究先進行數(shù)值填充及異常值剔除。

      1.2.1 數(shù)據(jù)填充和平滑

      為簡化插值計算并確保一定的插值精度,本文在多種方法中選擇了線性插值方法來填充缺失數(shù)據(jù)。線性插值的優(yōu)勢在于其計算簡單、易于理解。與其他復雜的插值方法(如三次樣條插值或高階多項式插值)相比,線性插值的計算速度更快,且在實際應用中的誤差范圍通??梢越邮埽灰虼?,選擇線性插值方法可以在保持計算效率的同時,滿足相應的精度需求。

      此外,本研究采用移動平均法來消除原始數(shù)據(jù)中存在的隨機波動。移動平均法是常用的時間序列分析方法,通過計算一定時間范圍內(nèi)的數(shù)據(jù)平均值來平滑數(shù)據(jù)波動,從而使數(shù)據(jù)更加穩(wěn)定。相較于其他平滑方法(如指數(shù)平滑法),移動平均法的優(yōu)勢主要體現(xiàn)在簡單易懂、計算過程透明2個方面。而且,移動平均法在處理具有周期性和趨勢性的數(shù)據(jù)時表現(xiàn)尤為出色,有助于揭示數(shù)據(jù)潛在的規(guī)律。

      綜上所述,本研究選擇線性插值方法和移動平均法相結(jié)合的方法來完成數(shù)據(jù)預處理,進而在保證保留原始數(shù)據(jù)精度的同時,消除原始數(shù)據(jù)中的隨機波動。

      1.2.2 異常數(shù)據(jù)的剔除

      箱型圖主要通過計算上下邊緣﹝即上下四分位數(shù)加、減1.5倍的四分位距(interquartile range,IQR)﹞來確定數(shù)據(jù)的正常范圍,超出這個范圍的數(shù)據(jù)點會被標記為異常數(shù)據(jù)。通過清洗和修正異常數(shù)據(jù),可以提高后續(xù)分析和建模的準確性。

      箱型圖如圖1所示:除變量3、變量15箱體較長,其余變量的箱體都呈現(xiàn)出較短的特征;總體而言,各變量分布集中,除變量15的中位數(shù)靠近下四分位數(shù)外,其余變量的中位數(shù)普遍靠近上四分位數(shù),數(shù)據(jù)整體體現(xiàn)出右偏分布。綜上所述,數(shù)據(jù)整體數(shù)值較大,集中程度較高,但存在部分異常值(圖中紅色十字形標記),需要進一步處理。

      圖1 平滑處理后數(shù)據(jù)的箱型圖Fig.1 Box plot of the data after smoothing treatment

      進一步,本文采取IQR方法來確定異常值。具體原理如下:

      首先,計算數(shù)據(jù)集的下四分位數(shù)Q1和上四分位數(shù)Q3。四分位數(shù)將數(shù)據(jù)集分為四等份。對于Q1,有25%的數(shù)據(jù)低于該值;對于Q3,有75%的數(shù)據(jù)低于該值。

      計算IQR,即Q3與Q1之間的差值

      kIQR=Q3-Q1.

      (1)

      計算異常值的閾值:

      BL=Q1-1.5kIQR,

      (2)

      BU=Q3+1.5kIQR.

      (3)

      式(2)、(3)中:BL為下界;BU為上界;1.5為常用系數(shù),用于確定異常值范圍。

      對于數(shù)據(jù)集中的每個數(shù)據(jù)點,如果其小于下界或大于上界,那么就被認為是異常值。

      2 數(shù)據(jù)降維

      常用的數(shù)據(jù)降維方法包括主成分分析(principal components analysis,PCA)、線性判別分析(linear discriminate analysis,LDA)和t-分布鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法。其中:PCA通過線性變換將原始特征空間映射到新的低維特征空間,最大化地保留數(shù)據(jù)的方差,該方法適用于無監(jiān)督學習場景;LDA同樣采用線性變換,但該方法關注于類別間的分離度最大化,適用于有監(jiān)督學習場景。

      PCA方法可降低數(shù)據(jù)維度;但該方法包含自變量和應變量,屬于監(jiān)督學習任務,因此PCA不是最佳的降維方法。LDA方法可降低的維度有限,對于模型的簡化效果并不好;因此其需要模型具有較強的線性關系。

      2.1 數(shù)據(jù)說明

      由于系統(tǒng)共計電能表在線數(shù)、理論在線電能表數(shù)、實際在線電能表數(shù)為相應變量相加所得,不存在獨立性,因此需先去除。后續(xù)均根據(jù)剔除此3個自變量后的數(shù)據(jù)繼續(xù)分析。

      2.2 變量的相關系數(shù)矩陣

      為直觀地展示數(shù)據(jù)集中各個變量之間的線性相關性,更好地理解數(shù)據(jù)集中各個變量之間的關系,本研究對表1所示的20個自變量繪制相關系數(shù)矩陣點圖,如圖2所示。

      表1 待進行數(shù)據(jù)降維的變量Tab.1 Variables awaiting dimensionality reduction

      圖2 20個自變量的相關系數(shù)矩陣點圖Fig.2 Scatter plot matrix of correlation coefficients for 20 independent variables

      由圖2可知,變量的相關系數(shù)矩陣點圖的左上側(cè)和右下側(cè)多為紅色,而左下側(cè)和右上側(cè)的顏色多為藍色。這種現(xiàn)象意味著數(shù)據(jù)集中存在2個或多個變量子集,子集內(nèi)部的變量之間具有較強的正相關性,而不同子集之間的變量呈現(xiàn)負相關性。在實際分析過程中,需要關注高度相關的變量,因為它們具有多重共線性,會影響回歸模型的穩(wěn)定性和可解釋性。

      結(jié)合以上思考,需要先判斷模型是否屬于復雜的非線性問題,這一步主要通過殘差分析進行。

      2.3 殘差分析

      殘差分析是評估回歸模型擬合效果和確定模型是否線性的方法。在殘差分析中,判斷模型是否線性可以依據(jù)殘差的隨機分布:如果模型是線性的,那么殘差應該在整個自變量范圍內(nèi)呈現(xiàn)隨機分布,沒有明顯的規(guī)律。通??梢酝ㄟ^繪制殘差散點圖來觀察殘差的分布情況,如圖3所示。

      由圖3可知,殘差散點圖的散點主要集中于圖像下側(cè),且在[-0.001 5,0.001 5]區(qū)間內(nèi)隨機分布,這說明殘差在這個區(qū)間內(nèi)沒有明顯的偏差。但對于殘差的分布是否具有正態(tài)性,需要進一步的檢驗。可通過繪制如圖4所示的殘差QQ圖(residual quantile-quantile plot)來檢驗模型殘差是否近似服從正態(tài)分布。如果殘差呈現(xiàn)正態(tài)分布的話,QQ圖上的點大多會落在45°線上。

      圖4 殘差QQ圖Fig.4 Residual quantile-quantile plot

      由圖4可知,殘差QQ圖的數(shù)據(jù)點基本沿同一條直線分布,但尾端數(shù)據(jù)點明顯偏離直線,這說明模型不符合正態(tài)分布的假設。進一步比較正態(tài)分布與殘差分布,繪制如圖5所示正態(tài)分布殘差直方圖,通過觀察圖像的偏度情況,來評估回歸模型擬合的結(jié)果。

      圖5 正態(tài)分布殘差直方圖Fig.5 Histogram of normally distributed residuals

      由圖5可知,直方圖形狀偏離正態(tài)分布,表明殘差不符合正態(tài)性假設。

      綜上所述,嘗試建立簡單的線性回歸模型來解釋應變量隨自變量的變化,是不滿足正態(tài)性假設的,線性模型不具有穩(wěn)定性和可靠性,電能表在線率的預測問題屬于非線性問題。

      2.4 基于RFE方法進行數(shù)據(jù)降維

      特征選擇方法的目標是在保留原始特征可解釋性的同時,選擇對模型預測貢獻最大的特征子集。通常在處理非線性問題時,特征選擇方法比線性降維方法更具優(yōu)勢。RFE是一種用于特征選擇的降維方法,其基本原理是使用1個模型進行多輪訓練,每輪訓練后移除一部分特征,然后重新訓練模型,最終選擇表現(xiàn)最佳的特征子集。RFE方法的詳細步驟如下:

      步驟1,設置自變量矩陣和應變量矩陣;

      步驟2,設置RFE的參數(shù)(選擇特征數(shù)量為5,每次迭代時移除1個特征);

      步驟3,判定當前選擇的特征數(shù)量是否小于5;

      步驟4,使用當前特征集訓練1個線性回歸基礎模型;

      步驟5,獲得回歸系數(shù)的絕對值;

      步驟6,從特征集中移除具有最小系數(shù)的特征;

      步驟7,更新當前特征數(shù)量,返回步驟2。

      經(jīng)過篩選,得到降維后的變量見表2,表中回歸系數(shù)較小是由于自變量和因變量的絕對值偏差較大。

      表2 數(shù)據(jù)降維后得到的各變量Tab.2 Variables obtained after data dimensionality reduction

      為反映出各數(shù)據(jù)的波動情況,將各變量進行歸一化處理后繪圖,如圖6所示。

      圖6 歸一化后的降維數(shù)據(jù)Fig.6 Normalized dimensionality reduction data

      由圖6可知,序號為X1、X2、X3的自變量數(shù)據(jù)與因變量之間具有強正相關性,序號為X4、X5的自變量數(shù)據(jù)與因變量之間具有強負相關性。由此可見,數(shù)據(jù)降維過程將原始高維的自變量空間轉(zhuǎn)換為較低維度的新空間,可保留數(shù)據(jù)中的主要結(jié)構(gòu)和信息,減少系統(tǒng)噪聲并解決多重共線性問題。

      進一步,通過在整體樣本上不斷重復RFE,以保證變量篩選結(jié)果穩(wěn)定。統(tǒng)計各特征被選中次數(shù)及被選中幾率見表3,其中N100、N500、N1000分別為重復100、500、1 000次RFE后各特征被選中次數(shù)。

      表3 RFE重復試驗結(jié)果Tab.3 Results of repeated RFE experiments

      綜上,在結(jié)合重復實驗并保留5個被選中次數(shù)最高的變量的條件下,重復執(zhí)行RFE得到的最佳特征子集與前述結(jié)果保持一致。

      3 對電能表在線率進行預測

      SVR是一種基于支持向量機的回歸算法,用于預測連續(xù)型目標變量。SVR的主要特點是通過引入ε-insensitive損失函數(shù),使得預測誤差在一定范圍內(nèi)的數(shù)據(jù)點不受懲罰,同時最大化間隔以提高模型的泛化能力。SVR可應用于線性和非線性回歸問題,通過使用核函數(shù)(如徑向基函數(shù)、多項式核等)將原始特征映射到高維空間,從而實現(xiàn)對非線性關系的建模。SVR在處理具有高維特征、非線性關系和噪聲較多的數(shù)據(jù)集時具有較強的魯棒性。

      貝葉斯優(yōu)化是一種基于概率模型的全局優(yōu)化算法。它使用高斯過程回歸來擬合目標函數(shù)(ε-insensitive損失函數(shù)),尋找得到最佳參數(shù)。貝葉斯優(yōu)化的主要優(yōu)勢在于僅需要較少的迭代次數(shù),就能找到全局最優(yōu)解。

      對于電能表在線率預測問題,將數(shù)據(jù)集(自變量和因變量)劃分為訓練集和測試集2個部分,使用貝葉斯優(yōu)化方法計算k折交叉模型的損失,以優(yōu)化正則化參數(shù)C以及徑向基核函數(shù)尺度參數(shù)γ2種超參數(shù),進而獲得穩(wěn)定的模型泛化能力。具體步驟如下:

      步驟1,劃分訓練集和測試集(采用70%數(shù)據(jù)的訓練集、30%數(shù)據(jù)的測試集);

      步驟2,定義要搜索的超參數(shù)空間(將正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ均設置為10-5~105);

      步驟3,使用k折交叉驗證評估模型性能(設置k=5);

      步驟4,定義網(wǎng)絡搜索的目標函數(shù)最小值;

      步驟5,使用貝葉斯優(yōu)化進行網(wǎng)絡搜索;

      步驟6,獲取最佳參數(shù);

      步驟7,使用最佳超參數(shù)訓練SVR模型;

      步驟8,使用測試集評估性能;

      步驟9,輸出均方誤差。

      算法執(zhí)行流程如圖7所示。

      圖7 算法執(zhí)行流程Fig.7 Algorithm execution flowchart

      運行模型后,得到模型運算的結(jié)果見表4,其中結(jié)果評價可分為最佳和可接受2種結(jié)果。表4中:“最佳”表示目標函數(shù)返回的有限值低于先前計算的目標函數(shù)值;“可接受”則表示目標函數(shù)返回有限值;目標函數(shù)值中第1列所示的“觀測值”表示計算的最小目標函數(shù)值,此值取當前或迭代的目標函數(shù)最小值;而第2列的“估計值”則表示在每次迭代中,軟件使用更新后的高斯過程模型,根據(jù)當前嘗試的所有超參數(shù)集估計目標函數(shù)值的置信邊界上限,然后,軟件選擇具有最小置信邊界上限的點,該值即對應達到該條件后所返回的目標函數(shù)值;最右側(cè)2列數(shù)值即目標函數(shù)所對應的正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ。

      表4 貝葉斯優(yōu)化的過程及得到的最優(yōu)超參數(shù)組合Tab.4 The process of Bayesian optimization and the optimal hyperparameter combination obtained

      在運行模型后,挑選根據(jù)最終高斯過程模型在最終迭代中產(chǎn)生的最佳目標函數(shù)估計值對應的超參數(shù)集作為最佳超參數(shù)組合,見表5。

      表5 最佳超參數(shù)組合Tab.5 The best hyperparameter combination

      根據(jù)上述內(nèi)容,傳遞SVR模型相關參數(shù)如下:采用高斯核函數(shù),設置目標函數(shù)ε-insensitive中的ε=0.016,間隙容忍度為1.0×10-3,正則化參數(shù)C=4.204,核函數(shù)尺度參數(shù)γ=10.249。

      通過訓練模型得到的支持向量見表6。

      表6 支持向量一覽Tab.6 List of support vectors

      圖8展示了優(yōu)化過程中目標函數(shù)最小值隨著迭代次數(shù)的變化情況,優(yōu)化算法在20次計算內(nèi)成功地將目標函數(shù)值顯著降低。這表明優(yōu)化算法在這個問題上的收斂速度較快。在20次計算后,目標函數(shù)值接近0,這意味著模型的泛化能力較好,預測誤差較小。

      圖8 最小目標值關于函數(shù)計算次數(shù)圖像Fig.8 The minimum target value with respect to the number of function calculation image

      估計的目標函數(shù)值隨正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ這2種超參數(shù)變化情況如圖9所示,圖像呈漏斗狀,漏斗狀的圖像表明,超參數(shù)接近最佳組合。

      圖9 估計的目標函數(shù)值隨2種超參數(shù)變化的情況Fig.9 Variation of the estimated objective function values with two hyperparameters

      本研究將貝葉斯優(yōu)化的SVR算法同隨機森林算法、梯度提升算法、SVR算法、K最鄰近算法進行比較,繪制各算法預測結(jié)果曲線,如圖10所示。

      圖10 各算法預測結(jié)果曲線Fig.10 Comparison image of prediction results from various algorithms

      進一步使用加權(quán)平均絕對誤差指標EWMAE和均方差指標EMSE對模型預測結(jié)果進行評價,并統(tǒng)計各算法預測結(jié)果對應的EWMAE和EMSE,見表7。

      表7 各算法對應的加權(quán)平均絕對誤差和均方差Tab.7 Weighted average absolute error and mean square deviation corresponding to each algorithm

      (4)

      (5)

      式(4)、(5)中:n為樣本個數(shù);yci為預測值;yi為實際值。

      計算得到貝葉斯優(yōu)化的SVR算法預測結(jié)果對應EWMAE為0.408%,EMSE為0.004%,模型在預測任務上具有較好的性能,誤差較小。

      4 結(jié)束語

      通過使用貝葉斯優(yōu)化下的SVR方法,可高效且準確地預測電能表的在線率。貝葉斯優(yōu)化技術有助于在超參數(shù)空間中找到最佳組合,從而提高了模型的預測性能。與其他傳統(tǒng)方法相比,這種方法計算時間較短,使得模型能夠在有限的時間內(nèi)快速獲得高質(zhì)量的預測結(jié)果。同時,預測誤差較小,表明模型在預測電能表在線率方面具有較好的準確性和魯棒性。綜上所述,貝葉斯優(yōu)化下的SVR方法在電能表在線率預測任務中表現(xiàn)出色,具有實際應用價值。

      猜你喜歡
      電能表殘差變量
      基于雙向GRU與殘差擬合的車輛跟馳建模
      巧數(shù)電能表
      抓住不變量解題
      基于殘差學習的自適應無人機目標跟蹤算法
      也談分離變量
      認識電能表
      基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
      自動化學報(2019年6期)2019-07-23 01:18:32
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      平穩(wěn)自相關過程的殘差累積和控制圖
      河南科技(2015年8期)2015-03-11 16:23:52
      分離變量法:常見的通性通法
      中卫市| 新邵县| 阿克苏市| 建宁县| 东台市| 休宁县| 博爱县| 柳河县| 宝山区| 博罗县| 东明县| 株洲县| 屏东市| 板桥市| 景宁| 和田县| 尉氏县| 毕节市| 怀化市| 罗田县| 调兵山市| 新乡县| 河津市| 宁河县| 吉首市| 宣恩县| 嵊州市| 衡阳县| 陇川县| 太康县| 桦甸市| 博爱县| 黎川县| 惠水县| 文成县| 大田县| 湘潭县| 平邑县| 屏南县| 巢湖市| 岑溪市|