王 蕊
(杭州市城市建設(shè)科學(xué)研究院,浙江 杭州 310003)
公共建筑能耗是建筑能耗的重要組成部分,“十二五”期間我國建筑能耗總量呈現(xiàn)持續(xù)增長趨勢,據(jù)《中國建筑能耗研究報(bào)告(2017)》統(tǒng)計(jì),截止到2015年,全國建筑能耗8.57億t標(biāo)準(zhǔn)煤,其中公共建筑能耗2.92億t標(biāo)準(zhǔn)煤,占建筑能耗總量的34%。隨著互聯(lián)網(wǎng)的發(fā)展及大數(shù)據(jù)時(shí)代的到來,“用數(shù)據(jù)說話”來進(jìn)行能耗管理成為必然。然而,現(xiàn)實(shí)生活中,由于公共建筑功能復(fù)雜、數(shù)據(jù)傳輸系統(tǒng)、配電設(shè)備壽命、環(huán)境多變等因素的影響,往往導(dǎo)致能耗監(jiān)測平臺(tái)收集的數(shù)據(jù)不準(zhǔn)確,甚至缺失,這就使得能耗監(jiān)測平臺(tái)難以發(fā)揮相應(yīng)的作用。
為了解決上述問題,我們需要對(duì)能耗監(jiān)測平臺(tái)采集的數(shù)據(jù)進(jìn)行甄別、補(bǔ)充。本文以杭州市建筑節(jié)能信息管理平臺(tái)為數(shù)據(jù)來源,比較分析幾種能耗異常數(shù)據(jù)的修正方法,并通過實(shí)驗(yàn)檢驗(yàn)幾種能耗異常數(shù)據(jù)修正方法的有效性、準(zhǔn)確性。
能耗監(jiān)測平臺(tái)不僅可以用于觀測公共建筑當(dāng)前能耗消耗情況,還可以通過歷史能耗數(shù)據(jù)綜合分析公共建筑的用能特點(diǎn),實(shí)現(xiàn)節(jié)能管理,所以保證高質(zhì)量的能耗監(jiān)測數(shù)據(jù)十分必要。但是,現(xiàn)實(shí)生活中由于各種外界因素的干擾,采集到的能耗監(jiān)測數(shù)據(jù)往往不能達(dá)到所需要求。數(shù)據(jù)異常主要存在三種問題:1)數(shù)據(jù)丟失,由于傳輸信號(hào)中斷導(dǎo)致的“0”數(shù)據(jù)或空數(shù)據(jù)問題;2)數(shù)據(jù)錯(cuò)誤,由于差分的計(jì)量方式導(dǎo)致的數(shù)據(jù)極值或負(fù)值問題;3)數(shù)據(jù)不平衡,由于計(jì)量設(shè)備配備不齊全導(dǎo)致的能耗監(jiān)測數(shù)據(jù)超高問題[1]。
為了提高能耗監(jiān)測數(shù)據(jù)質(zhì)量,需要剔除異常數(shù)據(jù)并補(bǔ)充合理的預(yù)測值,目前有很多基于數(shù)據(jù)統(tǒng)計(jì)的智能算法用于缺失值的補(bǔ)充,如SVD算法、聚類算法、模糊理論、多元回歸預(yù)測分析等,但這類算法需要大量的有效歷史數(shù)據(jù)進(jìn)行訓(xùn)練,建立準(zhǔn)確的數(shù)學(xué)模型來預(yù)測。而公共建筑實(shí)時(shí)能耗監(jiān)測數(shù)據(jù)并不完整,用復(fù)雜算法對(duì)單一變量(電能)進(jìn)行研究,難以建立準(zhǔn)確的數(shù)學(xué)模型,且算法計(jì)算時(shí)間長。
本文選取了三種能耗監(jiān)測異常數(shù)據(jù)修正的方法,并通過實(shí)驗(yàn)分析比較三種方法對(duì)公共建筑能耗異常數(shù)據(jù)修正的有效性、準(zhǔn)確性。
一階差分法是較為常見的剔除異常數(shù)據(jù)的方法,它認(rèn)為當(dāng)系統(tǒng)的采樣頻率符合奈奎斯特采樣定理時(shí),相鄰兩個(gè)采樣點(diǎn)間的數(shù)值相差不大[2],即
xt-1-xt-2=xt-xt-1
因此,可以通過t-1時(shí)刻和t-2時(shí)刻的值對(duì)t時(shí)刻的能耗值進(jìn)行預(yù)測,即
能耗數(shù)據(jù)變化規(guī)律具有相似性、周期性,因此短期內(nèi)相似日的能耗數(shù)據(jù)變化應(yīng)維持在一定范圍內(nèi)[3],如果某一時(shí)刻能耗檢測值超出這一范圍,則認(rèn)定為異常值剔除。最大閾值公式如下:
綜上所述,最大閾值法只考慮異常時(shí)刻前的能耗值,可以滿足能耗監(jiān)測數(shù)據(jù)當(dāng)日修正的要求,從而提高監(jiān)測數(shù)據(jù)質(zhì)量。
1968年Cover和Hart提出了KNN算法的概念(圖1),因其思路簡單、易于實(shí)現(xiàn)、準(zhǔn)確度較高的特點(diǎn),常被用于數(shù)據(jù)分類[4],隨著人們對(duì)KNN算法的不斷改進(jìn),其應(yīng)用范圍也越來越廣泛,并在人臉識(shí)別、文字識(shí)別、醫(yī)學(xué)圖像處理等領(lǐng)域取得了較好的效果[5]。同時(shí),KNN算法也是常見的數(shù)據(jù)填補(bǔ)方法,其計(jì)算過程如下[6-7]:
1)構(gòu)建數(shù)據(jù)矩陣Z(包含缺失項(xiàng));
3)選取k個(gè)di最小的數(shù)據(jù)作為目標(biāo)數(shù)據(jù)的最近鄰;
4)計(jì)算目標(biāo)數(shù)據(jù)的最近鄰加權(quán)系數(shù)
5)計(jì)算最近鄰加權(quán)平均值填充缺失值
但是,在公建能耗數(shù)據(jù)中存在一類不同于上述異常數(shù)據(jù)的值,他們并非異常,但不符合公共建筑能耗變化的客觀規(guī)律,這類數(shù)據(jù)通常定義為噪聲。如果KNN算法選取的最近鄰包含噪聲數(shù)據(jù),則會(huì)影響填充數(shù)據(jù)的精度,所以文獻(xiàn)[8]提出了一種相互最近鄰算法——MkNNI算法,實(shí)現(xiàn)缺失數(shù)據(jù)和最近鄰?fù)耆珨?shù)據(jù)的相互k最近鄰,有效解決了存在噪聲的問題。給定完全數(shù)據(jù)集T和參數(shù)k,x的相互k最近鄰數(shù)據(jù)為:
Mk(x)={xi∈T/xi∈Nk(x)∩x∈Nk(xi)}
其中,Nk(x)是x的k最近鄰數(shù)據(jù)集。
《企業(yè)會(huì)計(jì)準(zhǔn)則》重新制定關(guān)于企業(yè)內(nèi)部研發(fā)費(fèi)用的會(huì)計(jì)處理,批準(zhǔn)其符合標(biāo)準(zhǔn)可資本化。促進(jìn)了無形資產(chǎn)的會(huì)計(jì)處理和信息披露的標(biāo)準(zhǔn)化。然而,實(shí)際運(yùn)用中,行業(yè)標(biāo)準(zhǔn)缺乏標(biāo)準(zhǔn)型和統(tǒng)一性,企業(yè)往往依賴主觀判斷和內(nèi)部未來計(jì)劃標(biāo)準(zhǔn)去進(jìn)行實(shí)際會(huì)計(jì)操作,研發(fā)支出費(fèi)用化或資本化不僅從一方面可說明企業(yè)會(huì)計(jì)處理的謹(jǐn)慎性,其裝化為無形資產(chǎn)可調(diào)整利潤,無形中提高了市場乃至社會(huì)對(duì)于相關(guān)信息的披露要求。
圖1 MkNNI算法說明圖
例如,圖1中x的k=3最近鄰為x1、x2、x3,同樣的x1、x2、x3的k=3的最近鄰分別是{x,x2,x7}、{x,x1,x7}、{x4,x5,x6}。最終得到x的相互k=3最近鄰為{x1、x2}。
用MATLAB實(shí)現(xiàn)MkNNI算法的偽代碼如下:
1 能耗數(shù)據(jù)規(guī)范化;
2 While (循環(huán)次數(shù)為當(dāng)月天數(shù))
3 目標(biāo)數(shù)據(jù)與基礎(chǔ)數(shù)據(jù)逐條計(jì)算歐式距離;
4 End
5 從完全數(shù)據(jù)集中得到目標(biāo)數(shù)據(jù)的k個(gè)最近鄰Nk(x);
6 For 每個(gè)最近鄰y∈Nk(x)
添加到Mk(x)中 ;
8 If (Mk(x)≠?))
9 用Mk(x)中每條數(shù)據(jù)的加權(quán)平均值填充目標(biāo)數(shù)據(jù);
10 Else
11 用KNN算法填充目標(biāo)數(shù)據(jù)
12 End
杭州市城市建筑能耗監(jiān)測平臺(tái)是對(duì)區(qū)域內(nèi)建筑能耗的總體管理和分析,主要為政府建筑節(jié)能管理服務(wù)[9]。本文選取杭州五洋賓館2017年9月的能耗監(jiān)測數(shù)據(jù)來檢驗(yàn)以上三種能耗異常數(shù)據(jù)修正方法的效果,并用RMSE評(píng)價(jià)指標(biāo)衡量準(zhǔn)確率,計(jì)算公式如下:
圖2是杭州五洋賓館2017年9月的逐時(shí)能耗監(jiān)測數(shù)據(jù),可以看出能耗監(jiān)測數(shù)據(jù)的變化呈明顯的周期性和相似性。在實(shí)際工況中,能耗異常數(shù)據(jù)包括“0”數(shù)據(jù)或恒定數(shù)據(jù)、單點(diǎn)數(shù)據(jù)異常、連續(xù)時(shí)刻數(shù)據(jù)異常,下面本文主要針對(duì)后面兩種異常情況進(jìn)行數(shù)據(jù)驗(yàn)證,其中,異常時(shí)刻數(shù)據(jù)剔除后用“0”代替計(jì)算。
1)單點(diǎn)數(shù)據(jù)異常
我們選取杭州五洋賓館2017年9月21日0時(shí)至23時(shí)的能耗監(jiān)測數(shù)據(jù)為目標(biāo)數(shù)據(jù),隨機(jī)剔除4個(gè)時(shí)刻的數(shù)據(jù)為異常點(diǎn),見表1。
圖2 杭州五洋賓館2017年9月逐時(shí)能耗監(jiān)測數(shù)據(jù)
時(shí)刻0時(shí)1時(shí)2時(shí)3時(shí)4時(shí)5時(shí)6時(shí)7時(shí)8時(shí)9時(shí)10時(shí)11時(shí)能耗值17015314514101591872100239238268時(shí)刻12時(shí)13時(shí)14時(shí)15時(shí)16時(shí)17時(shí)18時(shí)19時(shí)20時(shí)21時(shí)22時(shí)23時(shí)能耗值26725121502642900292285254216195
分別用MkNNI法、一階差分法、最大閾值法對(duì)異常點(diǎn)的數(shù)據(jù)進(jìn)行修正填充,得到結(jié)果見表2。通過計(jì)算三種修正方法的均根方差RMSE值可以看出,MkNNI算法的修正結(jié)果遠(yuǎn)遠(yuǎn)好于一階差分法和最大閾值法。圖3反映了三種方法修正數(shù)據(jù)逼近原數(shù)據(jù)的情況。其中,最大閾值法在異常時(shí)刻的修正值遠(yuǎn)遠(yuǎn)大于實(shí)際監(jiān)測值,誤差偏大,修正效果不理想;一階差分法在數(shù)據(jù)變化拐點(diǎn)處,修正值的變化趨勢與實(shí)際值相反,如在15時(shí)由于數(shù)據(jù)變化趨勢反向?qū)е滦拚颠h(yuǎn)遠(yuǎn)小于實(shí)際監(jiān)測值,修正效果較差;MkNNI算法在各個(gè)異常時(shí)刻的修正值均在實(shí)際監(jiān)測值附近浮動(dòng),且變化趨勢與原數(shù)據(jù)一致,誤差小,修正效果較好。
表2 三種方法修正單點(diǎn)異常數(shù)據(jù)結(jié)果及RMSE值
圖3 單點(diǎn)數(shù)據(jù)異常情況下三種方法修正結(jié)果對(duì)比圖
2)連續(xù)時(shí)刻數(shù)據(jù)異常
我們選取杭州五洋賓館2017年9月27日0時(shí)至23時(shí)的能耗監(jiān)測數(shù)據(jù)為目標(biāo)數(shù)據(jù),隨機(jī)剔除8個(gè)連續(xù)時(shí)刻的數(shù)據(jù)為異常點(diǎn),見表3。
表3 含連續(xù)時(shí)刻數(shù)據(jù)異常能耗監(jiān)測數(shù)據(jù)表
通過三種方法得到的異常值修正結(jié)果見表4,從均根方差RMSE來看,MkNNI算法依然是修正效果最好的。而圖4也反映出,MkNNI算法最逼近實(shí)際監(jiān)測值;一階差分法明顯在連續(xù)時(shí)刻數(shù)據(jù)異常的情況下,無法預(yù)測數(shù)據(jù)變化趨勢,且在14時(shí)修正數(shù)據(jù)與實(shí)際變化趨勢相反,修正值失真;最大閾值法得到的所有修正值均偏大于實(shí)際監(jiān)測值,修正效果均不理想。
表4 三種方法修正連續(xù)時(shí)刻數(shù)據(jù)異常結(jié)果及RMSE值
圖4 連續(xù)時(shí)刻數(shù)據(jù)異常修正結(jié)果對(duì)比圖
在數(shù)據(jù)統(tǒng)計(jì)方面,一階差分法、最大閾值法和最近鄰法,是比較常見的、易于實(shí)現(xiàn)的缺失值填充方法。公共建筑能耗監(jiān)測數(shù)據(jù)具有比較明顯的規(guī)律性、相似性和周期性,但天氣、建筑類型等外界因素對(duì)不同類別的公共建筑能耗量有較大的影響,而最大閾值法進(jìn)行數(shù)據(jù)修正時(shí)往往要參考至少近一個(gè)月的數(shù)據(jù),由于時(shí)間范圍過大,這就導(dǎo)致修正結(jié)果與實(shí)際監(jiān)測值偏差較大,修正效果差。公共建筑能耗監(jiān)測平臺(tái)的監(jiān)測數(shù)據(jù)是時(shí)間規(guī)范化后的差分?jǐn)?shù)據(jù),而非電表直接讀取的累積值,所以當(dāng)監(jiān)測數(shù)據(jù)連續(xù)異常時(shí),一階差分法不能準(zhǔn)確地預(yù)測能耗數(shù)據(jù)的變化趨勢,在監(jiān)測數(shù)據(jù)變化的拐點(diǎn)處,就會(huì)出現(xiàn)修正值與實(shí)際數(shù)據(jù)變化趨勢完全相反的偏差,使得修正結(jié)果失真。相互最近鄰算法(MkNNI)無論是單點(diǎn)數(shù)據(jù)異常還是連續(xù)時(shí)刻數(shù)據(jù)異常,都能夠很好地逼近實(shí)際的能耗監(jiān)測值,修正偏差在可接受范圍內(nèi)。
綜上所述,比較之下相互最近鄰法(MkNNI)對(duì)公共建筑能耗異常數(shù)據(jù)修正效果明顯,對(duì)能耗各種異常情況的修正準(zhǔn)確率較高,且算法簡捷,滿足對(duì)公共建筑能耗異常數(shù)據(jù)修正的要求,可以作為參考,用于公共建筑能耗數(shù)據(jù)異常的修正。但是,MkNNI算法對(duì)于連續(xù)24 h“0”數(shù)據(jù)或恒定不變數(shù)據(jù)的失真情況,修正效果不佳,有待進(jìn)一步探索研究。