慕慧娟,馮雪峰
(新疆計(jì)量測試研究院,新疆烏魯木齊,830013)
“節(jié)能減排”是貫徹落實(shí)科學(xué)發(fā)展觀,統(tǒng)籌經(jīng)濟(jì)、社會與環(huán)境協(xié)調(diào)發(fā)展的必然要求,加快高污染、高耗能、資源型行業(yè)的“節(jié)能減排”工作,是促進(jìn)國民經(jīng)濟(jì)與社會可持續(xù)發(fā)展的一項(xiàng)長期戰(zhàn)略部署。為發(fā)揮計(jì)量在推動節(jié)能減排工作中的重要作用,國家成立國家城市能源計(jì)量中心(新疆),并搭建新疆能耗數(shù)據(jù)在線監(jiān)測平臺,經(jīng)過十多年的運(yùn)行,已實(shí)現(xiàn)疆內(nèi)200多家重點(diǎn)耗能企業(yè)能耗數(shù)據(jù)實(shí)時在線采集,積累了豐富的能耗管理實(shí)踐經(jīng)驗(yàn),在服務(wù)政府能效管控方面提供了決策依據(jù)。但對企業(yè)直報(bào)數(shù)據(jù)和在線采集數(shù)據(jù)挖掘程度不夠,企業(yè)對于科學(xué)有效降低能耗實(shí)現(xiàn)節(jié)能減排方法措施也較為有限,隨著大數(shù)據(jù)領(lǐng)域研究的不斷深入,啟發(fā)式算法能為能源大數(shù)據(jù)分析提供了強(qiáng)有力的工具。本文將聚焦探討新疆能耗在線監(jiān)測平臺大數(shù)據(jù)挖掘關(guān)鍵技術(shù),以期助力政府節(jié)能減排科學(xué)決策,服務(wù)企業(yè)能耗管理有效綠色發(fā)展做出更大的貢獻(xiàn)。
主要是開展能源消耗數(shù)據(jù)特性研究,進(jìn)行能源消耗數(shù)據(jù)清洗,研究大數(shù)據(jù)技術(shù)應(yīng)用,構(gòu)建能效數(shù)據(jù)挖掘理論模型,深度學(xué)習(xí)技術(shù)建模實(shí)現(xiàn)等[1]。
以水、電、煤、天然氣、人工煤氣、液化石油氣、汽油、柴油等能源類型為主,結(jié)合用能單位的地理位置、企業(yè)性質(zhì)、企業(yè)規(guī)模、企業(yè)產(chǎn)出、計(jì)量設(shè)備等數(shù)據(jù),對國家城市能源計(jì)量中心(新疆)能耗數(shù)據(jù)在線監(jiān)測平臺已采集數(shù)據(jù)的有效性、準(zhǔn)確性、完整性、表示的一致性、計(jì)量單位的正確性、標(biāo)準(zhǔn)煤系數(shù)的可靠性、不同數(shù)據(jù)之間的相關(guān)性、高緯低密度等特性開展研究,為清洗能源消耗數(shù)據(jù)奠定初步基礎(chǔ)。
由于高維、低密度的特性,能耗數(shù)據(jù)必須經(jīng)過清洗才能保證數(shù)據(jù)格式的一致性、正確性、無重復(fù)、無NULL值等可能導(dǎo)致挖掘失效的數(shù)據(jù)。采用ETL工具和分布式并行處理框架來實(shí)現(xiàn)能耗數(shù)據(jù)的清洗。主要針對不同質(zhì)量的能耗數(shù)據(jù)采用統(tǒng)計(jì)學(xué)方法、聚類、分類、基于距離的方法、關(guān)聯(lián)規(guī)則等方法進(jìn)行分類清洗,從而清洗普遍存在的空缺值、噪音值和不一致數(shù)據(jù)。數(shù)據(jù)清洗過程采用可視化技術(shù),從而實(shí)現(xiàn)有效的展示和交互,用于提高數(shù)據(jù)錯誤識別和清理的效率,這種透明化的清洗過程,有助于故障、錯誤發(fā)生時的自我診斷與排查。清洗后的能耗數(shù)據(jù)在匯聚多個維度、多個來源、多種結(jié)構(gòu)的數(shù)據(jù)之后,就可以對數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、集成加載。從而為大數(shù)據(jù)挖掘奠定基礎(chǔ)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個新領(lǐng)域,在處理大數(shù)據(jù)方面很有優(yōu)勢,可以通過大量數(shù)據(jù)訓(xùn)練學(xué)習(xí),進(jìn)而提取數(shù)據(jù)底層特征形成更加抽象的高層特征,形成一定類型的模型,來對其他數(shù)據(jù)進(jìn)行預(yù)測。目前深度學(xué)習(xí)在計(jì)算機(jī)視覺、語音識別和自然語言處理等領(lǐng)域都有很好的應(yīng)用。采用深度學(xué)習(xí)算法的理論,并基于模式識別、圖像識別、復(fù)雜動力系統(tǒng)模擬等應(yīng)用領(lǐng)域,學(xué)習(xí)并選擇出能夠與能耗數(shù)據(jù)挖掘目的相匹配的深度學(xué)習(xí)算法。
常規(guī)的能源數(shù)據(jù)分析方法一般通過擬合用能單位往期能源消耗的規(guī)律,來達(dá)到分析未來能源消耗數(shù)據(jù)的目的,在分析模型的選擇上為了提高分析的準(zhǔn)確性往往是利用兩種或者多種分析模型的組合,而很少采用單一分析模型。傳統(tǒng)的分析模型是基于殘差的分析模型,首先使用一個線性分析模型對原始數(shù)據(jù)序列進(jìn)行分析得到一個線性分析分量,再使用原始數(shù)據(jù)減去線性分析分量得到一個殘差序列,最后使用非線性分析模型分析殘差序列得到殘差分析序列,最后將線性分析分量與殘差分析分量相加得到最終的分析分量。但是由于這種傳統(tǒng)分析模型在構(gòu)建模型的時候,沒有分析數(shù)據(jù)特性而直接用真實(shí)數(shù)據(jù)減去線性模型的分析數(shù)據(jù)而分解出非線性分量,在實(shí)際使用場景中具有一定的局限性[2]。
針對傳統(tǒng)混合模型的缺點(diǎn),基于幾種常用的時序分析算法模型,使用一種新模型來完成對能源消耗數(shù)據(jù)的分析。其主要思是使用經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,簡稱 EMD)分解原始數(shù)據(jù),得到多個數(shù)據(jù)分量,通過分析各數(shù)據(jù)分量特性,然后針對不同的分量使用與其相對應(yīng)的模型進(jìn)行分析。
基于清洗后的能耗數(shù)據(jù)和能效數(shù)據(jù)挖掘理論模型,采用Java或Python等軟件技術(shù),選擇合適的深度學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,并驗(yàn)證模型的有效性。
能源消費(fèi)量在線監(jiān)測由用能單位能源計(jì)量,儀表測量實(shí)時能源消費(fèi)量數(shù)據(jù),通過安裝在用能單位的數(shù)據(jù)集中采集終端進(jìn)行匯總后,不同地區(qū)、不同行業(yè)、不同企業(yè)按照制定好的傳輸協(xié)議,通過網(wǎng)絡(luò)向能源數(shù)據(jù)中心上傳其能源消費(fèi)量數(shù)據(jù)。能源消費(fèi)量在線監(jiān)測架構(gòu)如圖1所示[3]。
圖1 能源消費(fèi)量在線監(jiān)測架構(gòu)圖
針對分布式異構(gòu)系統(tǒng)資源性能的變化引起的系統(tǒng)負(fù)載不平衡現(xiàn)象,設(shè)計(jì)一種基于虛擬網(wǎng)絡(luò)映射有效的任務(wù)處理方法,如貝葉斯算法,強(qiáng)化學(xué)習(xí)等,減少額外的計(jì)算和能量消耗,以實(shí)現(xiàn)高資源利用率、低帶寬成本和低能耗的大規(guī)模任務(wù)高效并行執(zhí)行。針對大規(guī)模事務(wù)數(shù)據(jù)高效處理的兩階段任務(wù)部署如圖2所示。
圖2 大數(shù)據(jù)環(huán)境拓?fù)浣Y(jié)構(gòu)
(1)數(shù)據(jù)離散化
面對海量的待處理數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),針對部分?jǐn)?shù)據(jù)存在連續(xù)屬性值的問題,研究數(shù)據(jù)離散化來減少給定連續(xù)屬性值,簡化數(shù)據(jù)結(jié)構(gòu)。
(2)缺失填補(bǔ)
針對數(shù)據(jù)存在缺失值的問題,在數(shù)據(jù)處理過程中,無法避免的會丟失一定的數(shù)據(jù)點(diǎn),而一旦一些關(guān)鍵部分缺失,整個數(shù)據(jù)就會失去作用,也就沒有了存在價值,同時也會影響數(shù)據(jù)挖掘結(jié)果,因此,需要進(jìn)行缺失值填補(bǔ)。
(3)數(shù)據(jù)標(biāo)準(zhǔn)化
針對為便于不同單位或量級指標(biāo)的比較評價問題,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。考慮到使用的數(shù)據(jù)集中的特征值均為正值,所以使用簡化后的轉(zhuǎn)換函數(shù)來對每個分量進(jìn)行歸一化處理。從而,消除了特征空間因值域差異造成的特征值選擇誤差。
(4)數(shù)據(jù)約簡
綜合能源消耗數(shù)據(jù)規(guī)模較大,若都用于數(shù)據(jù)挖掘分析當(dāng)中,工作量將是巨大的,因此,需要對其進(jìn)行約簡,在減少數(shù)據(jù)量的同時,并不破壞原有數(shù)據(jù)完整性,只是減少了與研究目的不相關(guān)的冗余數(shù)據(jù)。數(shù)據(jù)預(yù)處理的算法如圖3所示。
圖3 數(shù)據(jù)預(yù)處理算法
(1)針對析分尋找給定數(shù)據(jù)集中數(shù)據(jù)項(xiàng)之間隱藏的關(guān)聯(lián)關(guān)系問題,利用如Apriori 算法和K-means 算法等因子分析法和關(guān)聯(lián)性分析法描述數(shù)據(jù)之間的密切程度、發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)規(guī)則或者相關(guān)關(guān)系,更迅速準(zhǔn)確的找出有價值的規(guī)則,提高關(guān)聯(lián)規(guī)則的理解性[4]。
(2)針對傳統(tǒng)數(shù)據(jù)挖掘方法在處理大數(shù)據(jù)方面能力有限的問題,使用如CNN,RNN等魯棒性高、學(xué)習(xí)能力強(qiáng)且擁有強(qiáng)大的表征能力和非線性建模能力的機(jī)器學(xué)習(xí)框架,深入挖掘能源消耗大數(shù)據(jù)與目標(biāo)問題的關(guān)聯(lián)性,建立更精確的智能學(xué)習(xí)模型。
(3)針對不同的自學(xué)習(xí)算法對于處理不同特征數(shù)據(jù)的分析效率和準(zhǔn)確性問題,探究不同的網(wǎng)絡(luò)架構(gòu)對于能耗數(shù)據(jù)的適用性。對于不同機(jī)器學(xué)習(xí)模型和模型的組合使用如圖4所示。
圖4 能耗大數(shù)據(jù)應(yīng)用研究框架圖
針對如何利用模型分析和數(shù)據(jù)挖掘后對于節(jié)能減排的結(jié)果為節(jié)能減排提供數(shù)據(jù)支撐問題,研究預(yù)警分析、分析評價、模擬規(guī)劃、系統(tǒng)實(shí)現(xiàn)等功能的實(shí)現(xiàn),通過多樣化的結(jié)果展示,從而在實(shí)際中起到?jīng)Q策支持的作用,為政府的決策提供依據(jù)[5]。能耗大數(shù)據(jù)挖掘與節(jié)能減排應(yīng)用研究框架如圖5所示。
在廣泛借鑒國際、國內(nèi)能耗監(jiān)測平臺建設(shè)經(jīng)驗(yàn)的基礎(chǔ)上,結(jié)合新疆自身的工業(yè)資源稟賦特色實(shí)際,提出機(jī)制建設(shè)總體思路和各項(xiàng)機(jī)制建設(shè)備選方案。重點(diǎn)抓好新疆能耗在線監(jiān)測平臺標(biāo)準(zhǔn)化管理與產(chǎn)業(yè)提質(zhì)增效發(fā)展促進(jìn)機(jī)制;探討構(gòu)建新疆能耗在線監(jiān)測產(chǎn)業(yè)聯(lián)盟長效運(yùn)行機(jī)制;深入研究細(xì)分行業(yè)大數(shù)據(jù)應(yīng)用示范規(guī)范與標(biāo)準(zhǔn)機(jī)制;
深入分析“一帶一路”戰(zhàn)略給新疆工業(yè)行業(yè)產(chǎn)業(yè)帶來的機(jī)遇,挖掘新疆作為核心區(qū)建設(shè)“一帶一路”中心節(jié)點(diǎn)城市面臨的資源、科技、人才、政策、機(jī)制、基礎(chǔ)設(shè)施等各方面的優(yōu)勢和短板。
集成促進(jìn)新疆能耗在線監(jiān)測平臺的多項(xiàng)長效機(jī)制,整合多種資金資源,建立新疆工業(yè)產(chǎn)業(yè)轉(zhuǎn)型升級,提質(zhì)增效的發(fā)展基金。
基于國家城市能源計(jì)量中心(新疆)能耗數(shù)據(jù)在線監(jiān)測平臺已收集的高維、低密度特征的大數(shù)據(jù),采用以深度學(xué)習(xí)為主的大數(shù)據(jù)分析技術(shù),對新疆不同行業(yè)、地區(qū)的能源利用效率、節(jié)能潛力、供給側(cè)和需求側(cè)的能源供需情況開展大數(shù)據(jù)建模研究,建立多領(lǐng)域融合,多任務(wù)處理的大數(shù)據(jù)分析機(jī)制,挖掘能耗數(shù)據(jù)價值,制定能源消費(fèi)量在線檢測指標(biāo)體系及計(jì)算方法,實(shí)現(xiàn)對新疆能耗數(shù)據(jù)的綜合分析、評價和預(yù)測,找出新疆節(jié)能減排的關(guān)鍵點(diǎn),為新疆節(jié)能減排工作部署、產(chǎn)業(yè)鏈的形成等政策制定提供有效的決策數(shù)據(jù)依據(jù)。