侯 慧,朱韶華,俞菊芳,李顯強(qiáng),魏瑞增,黃 勇
(1. 武漢理工大學(xué)自動化學(xué)院,湖北省 武漢市 430070;2. 中國能源建設(shè)集團(tuán)浙江省電力設(shè)計(jì)院有限公司,浙江省 杭州市 310012;3. 廣東省電力裝備可靠性重點(diǎn)實(shí)驗(yàn)室,廣東電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,廣東省 廣州市 510080)
風(fēng)災(zāi)可能導(dǎo)致嚴(yán)重的停電事故,對該災(zāi)害下配電網(wǎng)停電用戶數(shù)量進(jìn)行預(yù)測分析,可有效提升電網(wǎng)防災(zāi)減災(zāi)工作的精準(zhǔn)性及科學(xué)性,加強(qiáng)極端天氣應(yīng)對能力,降低發(fā)生停電事故的風(fēng)險(xiǎn)[1]。
許多研究已從不同角度進(jìn)行了極端天氣下配電網(wǎng)損毀預(yù)測方法的探索。文獻(xiàn)[2]以輸電線路與桿塔為研究對象,對臺風(fēng)、暴雨及其次生災(zāi)害對配電網(wǎng)故障的影響進(jìn)行分析。文獻(xiàn)[3]針對單一災(zāi)害評估的局限,建立了復(fù)合自然災(zāi)害和群發(fā)故障下輸電線路與桿塔的故障率計(jì)算模型。文獻(xiàn)[4]采用應(yīng)力強(qiáng)度干涉模型進(jìn)行了臺風(fēng)下的桿塔故障預(yù)警模型,但運(yùn)行效率較低,不適用于配電網(wǎng)這類研究對象數(shù)量龐大的場景。文獻(xiàn)[5]以配電變壓器設(shè)備為研究對象,提出了極端天氣下設(shè)備故障概率計(jì)算方法。然而,現(xiàn)有研究多以配電網(wǎng)設(shè)備、桿塔或輸電線路等為研究對象,尚少有文獻(xiàn)對配電網(wǎng)停電用戶的情況進(jìn)行探討。
隨著配電網(wǎng)停電用戶數(shù)據(jù)的增加及規(guī)范化,使用數(shù)據(jù)驅(qū)動方法進(jìn)行配電網(wǎng)停電用戶預(yù)測成為可能[6]。但臺風(fēng)隨機(jī)性較大,考慮不同影響因素可能導(dǎo)致模型預(yù)測精度有偏差,如何選擇合適特征變量成為研究重點(diǎn)。文獻(xiàn)[7]基于公開氣象與地理數(shù)據(jù),實(shí)現(xiàn)了颶風(fēng)下停電范圍及停電空間分布的有效評估。文獻(xiàn)[2]認(rèn)為有效防御臺風(fēng)及暴雨引發(fā)大范圍停電,掌握輸電走廊的地形、地質(zhì)及植被等非電氣量數(shù)據(jù)、電氣設(shè)備位置及走向等相關(guān)信息也十分重要。文獻(xiàn)[8]提出一種計(jì)及天氣因素的配電網(wǎng)故障停電風(fēng)險(xiǎn)等級預(yù)測方法,考慮了配電網(wǎng)運(yùn)行數(shù)據(jù)與負(fù)荷數(shù)據(jù),但缺少對地理因素的探討。文獻(xiàn)[9]基于分類回歸樹分析了土壤、地形等因素對配電網(wǎng)停電用戶的影響,但對模型預(yù)測精度提升有所欠缺??梢姡F(xiàn)有配電網(wǎng)災(zāi)損預(yù)測研究對影響因素考慮不夠全面,且預(yù)測精度和準(zhǔn)確度上還有待提升。
因此,針對少有研究涉及配電網(wǎng)停電用戶數(shù)量預(yù)測等問題,本文提出了一種基于高效數(shù)據(jù)降維的配電網(wǎng)風(fēng)災(zāi)停電用戶數(shù)量預(yù)測模型。充分利用較為全面的26 個特征變量(覆蓋氣象、電網(wǎng)、地理等各類因素),構(gòu)建了考慮所有特征變量即全局變量的配電網(wǎng)停電用戶數(shù)量預(yù)測模型。然后,著重分析了多種特征變量與響應(yīng)變量之間的關(guān)系以及各特征變量的重要性等,利用部分依賴圖(partial dependence plots,PDP)進(jìn)行了特征降維,提取降維后的8 個重要變量進(jìn)行了配電網(wǎng)停電用戶數(shù)量預(yù)測模型二次建模。結(jié)果表明,特征降維后的二次建模在確保精度的情況下減少了數(shù)據(jù)收集工作量,提高了模型計(jì)算效率。
為了更好地為災(zāi)后搶修復(fù)電工作提供有力依據(jù),本文以配電網(wǎng)用戶為對象,建立了配電網(wǎng)停電用戶數(shù)量預(yù)測評估框架,如圖1 所示。
圖1 配電網(wǎng)停電用戶數(shù)量預(yù)測框架Fig.1 Framework for predicting user number in power outages for distribution network
首先,進(jìn)行了數(shù)據(jù)樣本空間構(gòu)建,考慮氣象、電網(wǎng)與地理因素,廣泛搜集了26 個特征變量,并分析了特征變量之間的相關(guān)性。
其次,以26 個特征變量構(gòu)建了基于隨機(jī)森林算法的配電網(wǎng)停電用戶數(shù)量預(yù)測模型,并對模型預(yù)測結(jié)果進(jìn)行了分析。
最后,對所有特征變量進(jìn)行了特征降維,選取其中對結(jié)果影響最大的8 個特征變量作為重要變量進(jìn)行配電網(wǎng)停電用戶數(shù)量預(yù)測模型二次建模,將全局變量建模結(jié)果與特征降維后的二次建模結(jié)果以及傳統(tǒng)No-model 模型結(jié)果進(jìn)行了對比分析,以說明本文所提配電網(wǎng)停電用戶數(shù)量預(yù)測模型以及特征降維方法的有效性及精確性。
風(fēng)災(zāi)下配電網(wǎng)停電用戶數(shù)量受多種因素共同影響。為此,首先對配電網(wǎng)停電用戶數(shù)量預(yù)測模型的數(shù)據(jù)進(jìn)行描述,構(gòu)建數(shù)據(jù)樣本空間。
將研究區(qū)域進(jìn)行網(wǎng)格劃分,一方面可以方便數(shù)據(jù)收集和匹配,另一方面方便進(jìn)行停電情況可視化展示,為后續(xù)搶修工作提供參考。所以,本文將目標(biāo)區(qū)域劃分為1 km×1 km 的網(wǎng)格,便于后續(xù)處理。網(wǎng)格劃分情況見附錄A 圖A1[10]。
如附錄A 圖A1 所示,按照網(wǎng)格進(jìn)行樣本數(shù)據(jù)收集整理,每次臺風(fēng)下第i 個網(wǎng)格中特征變量xi可表示為:
式中:m 為特征變量個數(shù);xij為第i 個網(wǎng)格中第j 個特征變量的特征值。其中,特征變量為影響停電用戶的變量,主要包括氣象因素、地理因素及電網(wǎng)因素。氣象因素?cái)?shù)據(jù)一般從氣象部門獲得,以網(wǎng)格中心的數(shù)據(jù)值作為本網(wǎng)格該特征變量的特征值。地理因素?cái)?shù)據(jù)從地理部門獲得,其中連續(xù)型變量(如海拔、坡度、經(jīng)緯度)以其網(wǎng)格中心的數(shù)據(jù)值作為本網(wǎng)格中該特征變量的特征值,而離散型變量(如地表類型、下墊面類型)則以網(wǎng)格中占比最高的值作為本網(wǎng)格中該特征變量的特征值。電網(wǎng)因素?cái)?shù)據(jù)由電網(wǎng)公司以網(wǎng)格為單位搜集得到。
為了挖掘影響配電網(wǎng)停電用戶數(shù)量的相關(guān)因素,提高配電網(wǎng)停電用戶數(shù)量預(yù)測模型精度,在現(xiàn)有停電預(yù)測模型的基礎(chǔ)上將特征變量[11]擴(kuò)充到26 個,其選取的預(yù)測模型特征變量見附錄A 表A1。本文以影響中國廣東省徐聞縣的3 次歷史臺風(fēng)(“威馬遜(2014)”“海鷗(2014)”“彩虹(2015)”)為樣本數(shù)據(jù)進(jìn)行配電網(wǎng)停電用戶數(shù)量預(yù)測模型建立及評估分析,基于1 km×1 km 的區(qū)域網(wǎng)格劃分,其中每次臺風(fēng)產(chǎn)生1 641 條樣本,共26 個特征變量A 和2 個響應(yīng)變量B,為此所有樣本空間大小Φ=(A,B)4923×28。
本文對風(fēng)災(zāi)下配電網(wǎng)停電用戶數(shù)量進(jìn)行預(yù)測,為此,將配電網(wǎng)停電用戶數(shù)量Y1作為響應(yīng)變量,其樣本配電網(wǎng)停電用戶數(shù)量描述性統(tǒng)計(jì)如下:最小值為0,最大值為6 121,平均值為70.51,標(biāo)準(zhǔn)差為297.12,第一四分位數(shù)、第二四分位數(shù)及第三四分位數(shù)分別為0、0、18。樣本數(shù)據(jù)中響應(yīng)變量分布范圍較廣,樣本較多集中于小數(shù)據(jù)值范圍內(nèi)。
然而,每個網(wǎng)格中用戶數(shù)量不同,僅用停電用戶數(shù)量作為響應(yīng)變量不能很好地反映網(wǎng)格內(nèi)停電嚴(yán)重程度。本文將配電網(wǎng)停電用戶數(shù)量規(guī)范化,將響應(yīng)變量轉(zhuǎn)化為停電占比[12],其中停電占比為停電用戶數(shù)量與配電網(wǎng)用戶數(shù)量的比,預(yù)測范圍為0~1,停電占比的大小在一定程度上反映了停電的嚴(yán)重程度,停電占比較高的網(wǎng)格,在進(jìn)行搶修復(fù)電時往往需要優(yōu)先考慮。
為了直觀展示各特征變量與響應(yīng)變量之間的關(guān)系,將各特征變量與響應(yīng)變量之間的散點(diǎn)圖可視化,見附錄A 圖A2。
由附錄A 圖A2 可知,各特征變量與響應(yīng)變量之間并沒有顯著線性關(guān)系,說明直接用線性模型進(jìn)行預(yù)測評估效果會較差。為進(jìn)一步挖掘特征變量與響應(yīng)變量及特征變量與特征變量之間的關(guān)系,采用皮爾遜相關(guān)系數(shù)進(jìn)行相關(guān)性定量分析。假設(shè)存在2 個變量X 和Y,則對應(yīng)的皮爾遜相關(guān)系數(shù)rXY[13]的計(jì)算公式如下。
式中:Cov(·)表示求協(xié)方差函數(shù);Var(·)表示求方差函數(shù)。
若|rXY|<0.4,則變量X 和Y 為弱相關(guān);若0.4 ≤|rXY|<0.7,則變量X 和Y 為顯著相關(guān);若0.7 ≤|rXY|<1,則變量X 和Y 為強(qiáng)相關(guān)。相關(guān)性熱力圖見附錄A 圖A3,圖中每個網(wǎng)格中的數(shù)字為橫縱坐標(biāo)所示變量間的皮爾遜系數(shù),其絕對值越大,表明變量間相關(guān)性越強(qiáng)。
從附錄A 圖A3 可以看出,最大風(fēng)速(X1)與降雨量(X3)、風(fēng)速持續(xù)時間(X6、X7)及登陸區(qū)域(X11)有較強(qiáng)正相關(guān)性,即臺風(fēng)在研究區(qū)域登陸,會伴隨較快的風(fēng)速及較強(qiáng)的降水量,進(jìn)一步加快的風(fēng)速使得風(fēng)速持續(xù)時間較長。
本文在研究初期對多種以監(jiān)督學(xué)習(xí)思想為中心的機(jī)器學(xué)習(xí)算法進(jìn)行了對比,最終決定采用效果較優(yōu)的隨機(jī)森林算法[14]建立配電網(wǎng)停電用戶數(shù)量預(yù)測模型。隨機(jī)森林算法是一種基于樹的非參數(shù)集成數(shù)據(jù)挖掘算法,不像具有高方差及低偏差的單個回歸樹,隨機(jī)森林算法利用模型平均克服了高方差問題。該算法的優(yōu)點(diǎn)是可以很好地捕獲數(shù)據(jù)的非線性結(jié)構(gòu),并且對異常值和噪聲具有魯棒性,通常還具有很強(qiáng)的預(yù)測準(zhǔn)確性。
風(fēng)災(zāi)下配電網(wǎng)停電用戶數(shù)量預(yù)測模型構(gòu)建后,有必要對模型優(yōu)劣進(jìn)行評估。本文選擇回歸模型評估指標(biāo)為平均絕對誤差(mean absolute error,MAE)RMAE、均方誤差(mean square error,MSE)RMSE及均方根誤差(root mean square error,RMSE)RRMSE[15]。同時,為了減少異常值對預(yù)測準(zhǔn)確性的影響,增加了對噪聲魯棒性高的絕對中位差(median absolute deviation,MAD)RMAD和均方對數(shù)誤差(mean squared log error,MSLE)RMSLE。假設(shè)數(shù)據(jù)集為{(xi,yi),i=1,2,…,n},其中yi為第i 個網(wǎng)格的響應(yīng)變量,n 為網(wǎng)格總數(shù),預(yù)測回歸函數(shù)為f (xi),則各類誤差表達(dá)式如下。
式中:median(·)表示求中位數(shù)函數(shù)。
為了盡可能挖掘各特征變量與響應(yīng)變量之間的潛在聯(lián)系,本文首先基于全局變量建立配電網(wǎng)停電用戶數(shù)量預(yù)測模型。為了證明模型在不同臺風(fēng)下的普適性,從3 場臺風(fēng)數(shù)據(jù)中選取1 場作為模型測試樣本,其余2 場臺風(fēng)作為模型訓(xùn)練樣本,依次循環(huán)一遍,分別求出3 場臺風(fēng)中每場臺風(fēng)在另外2 場臺風(fēng)作為訓(xùn)練集下的預(yù)測誤差和預(yù)測準(zhǔn)確度,驗(yàn)證該預(yù)測模型在不同臺風(fēng)情況下的預(yù)測結(jié)果,求取MAE、MSE、RMSE、MAD、MSLE 各指標(biāo)平均值見表1。
表1 全局變量模型誤差分析Table 1 Error analysis of global variable model
如表1 所示,以停電占比為響應(yīng)變量構(gòu)建停電數(shù)量預(yù)測模型,測試誤差中3 場臺風(fēng)的MAE、MSE、RMSE、MAD、MSLE 都較低。為了直觀反映模型預(yù)測效果,新增模型評估指標(biāo)R100、R200、R300(分別表示將預(yù)測數(shù)量與實(shí)際數(shù)量之間的偏差在±100、±200、±300 以內(nèi)的網(wǎng)格視為預(yù)測正確的情況下,預(yù)測正確網(wǎng)格占全部網(wǎng)格的比例)和R10%、R20%、R30%(分別表示預(yù)測數(shù)量與實(shí)際數(shù)量之間的偏差占實(shí)際數(shù)量的比例在±10%、±20%、±30%以內(nèi)的網(wǎng)格視為預(yù)測正確的情況下,預(yù)測正確網(wǎng)格占全部網(wǎng)格的比例),則所建停電數(shù)量預(yù)測模型的準(zhǔn)確率分析見表2。
如表2 所示,預(yù)測數(shù)量與實(shí)際數(shù)量的誤差在±100、±200、±300 內(nèi)的準(zhǔn)確率均高于85%,效果較好,但考慮到大多數(shù)實(shí)際網(wǎng)格內(nèi)配電網(wǎng)用戶數(shù)量較少,以誤差對模型進(jìn)行評估有可能高估模型的預(yù)測效果。為此,基于浮動誤差的評估指標(biāo)R10%、R20%、R30%被構(gòu)建,且都在75%以上,預(yù)測準(zhǔn)確度較高。綜合表1 和表2 可知,本文所提基于隨機(jī)森林算法的配電網(wǎng)停電用戶數(shù)量預(yù)測模型表現(xiàn)效果較好。附錄A 圖A4(a)至(f)為3 場臺風(fēng)實(shí)際情況與配電網(wǎng)停電用戶數(shù)量預(yù)測模型的預(yù)測結(jié)果,從圖中可以看出,針對停電占比較大、停電較為嚴(yán)重的網(wǎng)格,所提模型能很好地對其進(jìn)行預(yù)測。
表2 全局變量模型準(zhǔn)確率分析Table 2 Model accuracy analysis of global variables
為了評估所構(gòu)建配電網(wǎng)停電用戶數(shù)量預(yù)測模型中各特征變量的貢獻(xiàn)程度,基于隨機(jī)森林算法,對特征變量進(jìn)行重要性評估[16],全局變量重要性分析結(jié)果如圖2 所示。
圖2 變量重要性雷達(dá)圖Fig.2 Radar chart of variable importance
由圖2 可知,經(jīng)度、緯度、最大風(fēng)速、風(fēng)向、降雨量、配電網(wǎng)用戶數(shù)量、線路長度及海拔等特征變量對預(yù)測模型精度貢獻(xiàn)較大,而登陸時間、登陸區(qū)域(是否在研究區(qū)域登陸)及風(fēng)力等級等特征變量對預(yù)測模型的精度貢獻(xiàn)較小。為此,本文對全局變量進(jìn)行特征降維,重點(diǎn)分析了對預(yù)測模型貢獻(xiàn)較大的變量,分析研究其對停電配電網(wǎng)用戶數(shù)量的影響,并使用降維后的變量進(jìn)行建模,分析其與全局變量建模的精度變化情況。
經(jīng)典的PDP[17]有助于可視化響應(yīng)變量和一個或多個特征之間的平均關(guān)系。當(dāng)指定特征在其邊際分布上變化時,PDP 會顯示平均預(yù)測值的變化。借助PDP,可以更好地理解所訓(xùn)練的監(jiān)督學(xué)習(xí)模型。
為了分析各特征變量對響應(yīng)變量的影響,本文基于變量重要性分析結(jié)果,對建模最重要的9 個特征變量(經(jīng)度X18、緯度X19、配電網(wǎng)用戶數(shù)量X20、最大風(fēng)速X1、降雨量X3、線路長度X26、有無配電網(wǎng)用戶X12、風(fēng)向X2及海拔X13)進(jìn)行分析,作PDP 見圖3。其中,有無配電網(wǎng)用戶對應(yīng)特征變量用X12表示,有配電網(wǎng)用戶則X12取值為1,反之為0。
由圖3 可知,經(jīng)度X18及緯度X19對配電網(wǎng)停電用戶影響呈正相關(guān)的趨勢,即經(jīng)緯度增加,配電網(wǎng)用戶受影響的程度也增加,分析其主要原因可能為本文研究區(qū)域?yàn)檠睾^(qū)域,越靠近海域范圍,其配電網(wǎng)用戶遭受臺風(fēng)襲擊越強(qiáng)烈,影響越嚴(yán)重。而模型對于配電網(wǎng)用戶數(shù)量X20的依賴性變化不明顯,影響比較平穩(wěn);對于最大風(fēng)速X1及降雨量X3,其值越大對配電網(wǎng)停電用戶事故影響越大;地理信息中海拔X13對于配電網(wǎng)停電用戶影響呈負(fù)相關(guān)趨勢,即該區(qū)域海拔越高,對配電網(wǎng)停電用戶的影響越小,和經(jīng)緯度影響趨勢較為一致;而對于線路長度X26,其影響呈正相關(guān)趨勢,即線路越長,配電網(wǎng)停電用戶的概率也會越高;對于分類變量有無配電網(wǎng)用戶X12,則呈現(xiàn)較為明顯的正相關(guān),因?yàn)橹挥芯W(wǎng)格內(nèi)存在配電網(wǎng)用戶,風(fēng)災(zāi)下才可能出現(xiàn)配電網(wǎng)停電用戶事故;對于風(fēng)向X2,從PDP 中并不能識別較為明顯的相關(guān)關(guān)系,主要原因可能為風(fēng)向數(shù)據(jù)變化迅速,模型并不能較好地抓取其表現(xiàn)特征,在變量重要性分析中,風(fēng)向變量的重要性較高,因此仍有必要對其進(jìn)一步分析。
圖3 變量的PDPFig.3 PDP of variables
由于經(jīng)度和緯度、風(fēng)速和風(fēng)向、風(fēng)速和降雨量經(jīng)常同時出現(xiàn),對這些組合的兩兩變量特征依賴進(jìn)行分析,具體如圖4 所示。
如圖4(a)所示,經(jīng)緯度組合即可確定一個區(qū)域,當(dāng)經(jīng)度較大而緯度較小時,其對配電網(wǎng)停電用戶的影響較大,該區(qū)域位于研究區(qū)域的東南角,較為靠近臺風(fēng)登陸區(qū)域。
一般情況下,大風(fēng)往往會帶來降雨,加重對電力配電網(wǎng)用戶的影響,如圖4(b)所示,風(fēng)速越大及降雨量越大對配電網(wǎng)停電用戶事故的影響越大。
如圖4(c)所示,風(fēng)向?qū)ε潆娋W(wǎng)停電用戶的影響并無明顯的相關(guān)關(guān)系,而風(fēng)速越大,配電網(wǎng)停電用戶的概率越大。所以,在后續(xù)的分析與建模中,剔除了特征變量風(fēng)向,只用剩下的8 個變量進(jìn)行建模分析。
圖4 兩兩變量的PDPFig.4 PDP of pairwise variables
第3 章通過全局變量進(jìn)行建模,并對配電網(wǎng)停電用戶數(shù)量預(yù)測結(jié)果進(jìn)行評估分析,其基于歷史數(shù)據(jù),挖掘較多特征變量以支撐停電數(shù)量預(yù)測精度,但在實(shí)際情況下,一些特征變量較難獲取,如20 m/s及30 m/s 風(fēng)速持續(xù)時間等,并且較多變量對預(yù)測精度的貢獻(xiàn)較小。為此,本節(jié)擬基于特征降維結(jié)果進(jìn)行二次建模,并對二次建模模型和考慮全局變量的預(yù)測模型的預(yù)測精度進(jìn)行對比分析,以增加模型的效率及可用性。
根據(jù)4.2 節(jié)的分析結(jié)果,本節(jié)擬以對預(yù)測結(jié)果最重要的8 個特征變量:經(jīng)度X18、緯度X19、最大風(fēng)速X1、降雨量X3、配電網(wǎng)用戶數(shù)量X20、線路長度X26、有無配電網(wǎng)用戶X12及海拔X13作為特征變量,進(jìn)行停電數(shù)量預(yù)測模型訓(xùn)練。在作為樣本的3 場臺風(fēng)中,選取1 場作為模型測試樣本,其余2 場臺風(fēng)作為模型訓(xùn)練樣本,依次循環(huán)一遍,分別求出3 場臺風(fēng)中每場臺風(fēng)在另外2 場臺風(fēng)作為訓(xùn)練集下的預(yù)測誤差和預(yù)測準(zhǔn)確度,訓(xùn)練測試誤差結(jié)果見表3。
表3 二次建模誤差分析Table 3 Error analysis of secondary modeling
由表3 可知,使用特征降維后的二次建模模型進(jìn)行預(yù)測,3 場臺風(fēng)的MAE、MSE、RMSE、MAD、MSLE 等誤差較低,總體預(yù)測效果較好。更改評估指標(biāo)計(jì)算模型預(yù)測準(zhǔn)確率如表4 所示。
表4 二次建模準(zhǔn)確率分析Table 4 Accuracy analysis of secondary modeling
由表4 可知,使用8 個變量進(jìn)行配電網(wǎng)停電用戶數(shù)量預(yù)測模型訓(xùn)練,其R100、R200、R300的準(zhǔn)確率都在85%以上,R10%、R20%、R30%的準(zhǔn)確率也較高,模型預(yù)測精度與全局變量模型精度較為接近,說明使用較少重要變量進(jìn)行預(yù)測模型構(gòu)建,并不會顯著降低模型的精度,同時也使得停電數(shù)量預(yù)測評估過程更加高效(省去收集整理其余變量的時間),加速了風(fēng)災(zāi)下配電網(wǎng)停電用戶數(shù)量的評估,為進(jìn)一步應(yīng)急決策準(zhǔn)備條件。附錄A 圖A4(g)至(i)為二次建模下3 場臺風(fēng)的預(yù)測結(jié)果??梢钥闯?,二次建模對于停電較為嚴(yán)重的網(wǎng)格有著較高的準(zhǔn)確率。
為了進(jìn)一步分析基于特征降維后二級建模的優(yōu)劣,以臺風(fēng)彩虹為例,使用No-model 模型(以訓(xùn)練集的響應(yīng)變量平均值作為測試臺風(fēng)預(yù)測結(jié)果)與所訓(xùn)練的特征降維前后的數(shù)據(jù)驅(qū)動模型進(jìn)行對比,如表5 所示,同時為直觀展示各模型的預(yù)測效果,各模型誤差分析結(jié)果如圖5 所示。
表5 各模型對比分析Table 5 Comparative analysis of each model
圖5 各模型誤差分析Fig.5 Error analysis of each model
由表5 和圖5 可知,本文所訓(xùn)練的配電網(wǎng)停電用戶數(shù)量預(yù)測模型的預(yù)測效果較好,其MAE、MSE 及RMSE、MAD、MSLE 等誤差均比No-model 模型小,其中相對于No-model 模型,基于全局變量模型的MAE 平均降低了69.5%,MSE 平均降低了79.9%,RMSE 平均降低了55.2%,MAD 平均降低了71.1%,MSLE 平均降低了73.0%。這說明了所訓(xùn)練全局變量模型的有效性。而相較于全局變量模型,二次建模(僅考慮8 個變量)的MAE 平均降低了0.4%,MSE 平均降低了5.4%,RMSE 平均降低了2.8%,MAD 平均降低了4.8%,MSLE 平均降低了12.0%。結(jié)果表明,二次建模與基于全局變量模型相比誤差小,預(yù)測效果更佳。其原因主要為在進(jìn)行全局變量建模時,引入了較多存在強(qiáng)相關(guān)關(guān)系的特征變量,如降雨量與最大風(fēng)速、風(fēng)速持續(xù)時間與登陸區(qū)域等,使得這些變量在模型訓(xùn)練時可能會占據(jù)虛高的重要度,影響模型預(yù)測準(zhǔn)確度。
綜上,本文提出的停電數(shù)量預(yù)測模型效果較好,其誤差均較No-model 模型降低,同時基于PDP 的特征降維方法較為有效,降維后模型預(yù)測效果稍好,而且二次建模的原始數(shù)據(jù)收集整理時間較少,提高了預(yù)測評估效率,為應(yīng)急搶修資源的提前分配、減小停電損失贏得了時間,為電網(wǎng)防災(zāi)減災(zāi)工作提供了有效依據(jù)。
本文研究了風(fēng)災(zāi)下配電網(wǎng)停電用戶數(shù)量預(yù)測評估方法,提出了一種基于高效數(shù)據(jù)降維的配電網(wǎng)停電用戶數(shù)量預(yù)測數(shù)據(jù)驅(qū)動模型。
1)以較為全面的26 個特征變量構(gòu)建了配電網(wǎng)用戶數(shù)量預(yù)測模型,預(yù)測誤差較小,可以較好地對臺風(fēng)下的配電網(wǎng)停電用戶數(shù)量進(jìn)行預(yù)估。
2)為了使得評估過程更加便捷,本文利用PDP對變量進(jìn)行了特征降維,選取最重要的8 個特征變量進(jìn)行二次建模。結(jié)果發(fā)現(xiàn),模型誤差并沒有嚴(yán)重增加,反而有略微下降,提高了配電網(wǎng)停電用戶數(shù)量預(yù)測模型的計(jì)算效率。
3)與No-model 模型進(jìn)行比較,發(fā)現(xiàn)所訓(xùn)練的配電網(wǎng)停電用戶數(shù)量預(yù)測模型效果較好,MAE、MSE及RMSE 均顯著降低。其中,特征降維后二次建模的預(yù)測效果比全局變量模型的預(yù)測效果稍好,可在一定程度上減輕數(shù)據(jù)收集工作負(fù)擔(dān),為電網(wǎng)防災(zāi)減災(zāi)提供有效依據(jù)。
本文特征變量考慮有限,未能把飄掛物、臺風(fēng)路徑等因素考慮進(jìn)來,這將是下一步的研究重點(diǎn)。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。