王成輝++王堅(jiān)++戴毅茹
摘要:為了提高鋼鐵企業(yè)的能耗水平,提出一種基于Hadoop的節(jié)能潛力大數(shù)據(jù)分析系統(tǒng)構(gòu)建方法,并對該系統(tǒng)進(jìn)行實(shí)例應(yīng)用,實(shí)例證明該方法在鋼鐵企業(yè)節(jié)能潛力分析中,具有方便操作、易于推廣的特點(diǎn)。
關(guān)鍵詞:節(jié)能潛力;大數(shù)據(jù)分析;Hadoop
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)03-0016-03
Design and Implementation of Energy Saving Potential Data Analysis System for Iron and Steel Enterprises Based on Hadoop
WANG Cheng-hui, WANG Jian, DAI Yi-ru
(CIMS Research Center,Tongji University, Shanghai 201804, China)
Abstract: In order to improve the level of energy consumption of iron and steel enterprises, put forward a kind of energy saving potential of big data analysis based on Hadoop system construction method, and application of the system, an example proves that the method analysis in the energy saving potential of the iron and steel enterprise, has the characteristics of convenient operation and easy popularization.
Key words: energy saving potential; big data analysis; Hadoop
我國做為能耗大國,能源消耗量十分巨大,然而,能源利用率卻遠(yuǎn)遠(yuǎn)低于發(fā)達(dá)國家,這個(gè)問題嚴(yán)重制約了國家可持續(xù)發(fā)展戰(zhàn)略的落實(shí)。鋼鐵企業(yè)作為國民經(jīng)濟(jì)的支柱產(chǎn)業(yè),提高鋼鐵企業(yè)的能耗水平,對我國建設(shè)“資源節(jié)約型”國家戰(zhàn)略部署具有重大意義。然而,我國鋼鐵企業(yè)的能耗水平與發(fā)達(dá)國家相比,仍然存在著十分巨大的差距。面向我國鋼鐵工業(yè)節(jié)能減排發(fā)展目標(biāo),針對其生產(chǎn)過程中的高能耗、高排放的運(yùn)行特點(diǎn),不斷挖掘自身的節(jié)能潛力,在保證鋼鐵生產(chǎn)質(zhì)量和產(chǎn)量的前提下減少能源的消耗量,提高企業(yè)的能耗水平。加熱爐是鋼鐵企業(yè)重點(diǎn)能耗設(shè)備,是軋鋼生產(chǎn)的主要耗能設(shè)備,其能耗占軋鋼工序能耗的60%—70%,因此,提高加熱爐的能耗水平對鋼鐵企業(yè)節(jié)能起到至關(guān)重要的作用。本文通過分析鋼鐵企業(yè)加熱爐生產(chǎn)過程產(chǎn)生的海量能耗數(shù)據(jù),利用本體建模技術(shù)構(gòu)建鋼鐵企業(yè)加熱爐本體模型,并將本體模型與加熱爐能耗數(shù)據(jù)進(jìn)行數(shù)據(jù)映射,利用比較流行的大數(shù)據(jù)分析技術(shù),構(gòu)建加熱爐生產(chǎn)能耗模型,從中挖掘出加熱爐能耗規(guī)律,進(jìn)而分析出加熱爐的節(jié)能潛力所在,并給出加熱爐生產(chǎn)過程中的最佳工況參數(shù)去填補(bǔ)這部分的節(jié)能潛力。
1 系統(tǒng)構(gòu)建
系統(tǒng)設(shè)計(jì)思路可以概括為:首先進(jìn)行系統(tǒng)數(shù)據(jù)準(zhǔn)備,然后將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,接著對處理后的高品質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,最后挖掘出數(shù)據(jù)背后隱藏的價(jià)值找出節(jié)能潛力所在,并找出最佳工況參數(shù)彌補(bǔ)這部分節(jié)能潛力所在。具體由以下六部分組成。
1.1 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)采集負(fù)責(zé)將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)采集到大數(shù)據(jù)分析系統(tǒng)。數(shù)據(jù)采集工作本身不在Hadoop分析平臺中,但是在整個(gè)分析系統(tǒng)中起著重要的作用,起著橋梁作用,連接業(yè)務(wù)系統(tǒng)和分析系統(tǒng),將業(yè)務(wù)系統(tǒng)與分析系統(tǒng)實(shí)現(xiàn)了解耦。企業(yè)由于生產(chǎn)管理的需要對于有些數(shù)據(jù)甚至只有紙質(zhì)記錄,因此第一步需要將這些生產(chǎn)數(shù)據(jù)進(jìn)行整合,將這些紙質(zhì)數(shù)據(jù)進(jìn)行電子化。數(shù)據(jù)準(zhǔn)備是為分析系統(tǒng)提供數(shù)據(jù)支撐,是整個(gè)系統(tǒng)的基礎(chǔ)模塊。
1.2 分布式存儲
分布式文件系統(tǒng)(The Hadoop Distributed File System,HDFS)是一個(gè)運(yùn)行在普通的組件集群上的分布式文件系統(tǒng),它是HADOOP框架主要的存儲系統(tǒng)。由于HADOOP具有高數(shù)據(jù)吞吐量、高度容錯的特性,因此使得其具有很高的效能。HDFS還為數(shù)據(jù)存儲提供了包括API以及各種操作命令等多種訪問接口。使用HDFS,我們可以為海量的原始數(shù)據(jù)集提供存儲空間,對臨時(shí)文件進(jìn)行存儲,為數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析提供輸入數(shù)據(jù),同時(shí)也可以將分析輸出的數(shù)據(jù)存入到HDFS中。HDFS采用master/slave架構(gòu)。通常情況下,一個(gè)名稱節(jié)點(diǎn)NameNodes和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNodes便可構(gòu)成一個(gè)HDFS數(shù)據(jù)集群。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對文件的訪問。在HDFS集群中,每一個(gè)文件都會被劃分為一個(gè)或幾個(gè)數(shù)據(jù)塊(blocks)分別保存在不同的數(shù)據(jù)節(jié)點(diǎn)DataNode中。集群中的Datanode主要負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲。HDFS將文件系統(tǒng)的名字空間暴露給用戶,用戶可以以文件的形式在上面存儲數(shù)據(jù)。
1.3 數(shù)據(jù)預(yù)處理
大數(shù)據(jù)分析本身就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,分析出隱藏在數(shù)據(jù)背后的規(guī)律和價(jià)值。因此,需要對這些有噪聲的、不一致的數(shù)據(jù)源,進(jìn)行數(shù)據(jù)預(yù)處理操作。數(shù)據(jù)預(yù)處理主要是為分析系統(tǒng)提供高品質(zhì)的數(shù)據(jù)。數(shù)據(jù)抽取主要是從原始數(shù)據(jù)中選出與分析目標(biāo)有關(guān)聯(lián)的數(shù)據(jù)源。如果不能排除無關(guān)的數(shù)據(jù)屬性,既會增加數(shù)據(jù)分析的復(fù)雜度,也會提高數(shù)據(jù)分析的時(shí)間,同時(shí)會降低數(shù)據(jù)分析的準(zhǔn)確性。數(shù)據(jù)清洗主要是解決數(shù)據(jù)的空缺值、錯誤數(shù)據(jù)、孤立數(shù)據(jù)點(diǎn)、數(shù)據(jù)噪聲問題。其中對數(shù)據(jù)空缺值和錯誤數(shù)據(jù)是進(jìn)行處理是數(shù)據(jù)清洗的重點(diǎn),而后兩者因?yàn)橛锌赡茉谄渲邪l(fā)現(xiàn)某些特殊的數(shù)據(jù)規(guī)律,因此可以暫時(shí)不需要進(jìn)行數(shù)據(jù)處理。
1.4 本體模型構(gòu)建
本體是概念化的明確的規(guī)范說明。能夠描述類、實(shí)例以及它們的屬性是如何定義、描述和關(guān)聯(lián)的,是對領(lǐng)域中的概念及概念之間聯(lián)系的顯式描述。詳細(xì)來說,就是要描述一個(gè)領(lǐng)域需要哪些概念,概念由哪些屬性標(biāo)識,屬性又具有什么約束,概念對應(yīng)于哪些實(shí)例。并將本體模型與具體數(shù)據(jù)屬性進(jìn)行映射,為數(shù)據(jù)分析提供數(shù)據(jù)源。
1.5 分布式計(jì)算框架
分布式計(jì)算框架是大數(shù)據(jù)分析系統(tǒng)的核心功能,分布式計(jì)算可以使用多臺服務(wù)器同時(shí)進(jìn)行數(shù)據(jù)計(jì)算,可以很大程度提高數(shù)據(jù)分析的效率。基于Hadoop的大數(shù)據(jù)分析系統(tǒng)主要采用的是MapReduce分布式編程模型。該模型簡單易用,對于程序員來說在沒有了解其底層實(shí)現(xiàn)細(xì)節(jié)的情況下仍能夠?qū)懗鎏幚砗A繑?shù)據(jù)的程序。MapReduce首先通過Map程序?qū)⒑A繑?shù)據(jù)分割成多個(gè)小區(qū)塊,將其分配給大量服務(wù)器進(jìn)行處理;然后將處理結(jié)果交給Reduce,最后Reduce將處理結(jié)果匯總后輸出到客戶端。
1.6 分析結(jié)果展示
分析結(jié)果可視化,主要是給用戶提供一個(gè)友好的、直觀的方式查看分析系統(tǒng)進(jìn)行大數(shù)據(jù)分析以后得到的分析結(jié)果。
2 系統(tǒng)應(yīng)用
加熱爐是鋼鐵企業(yè)重點(diǎn)能耗設(shè)備,是軋鋼生產(chǎn)的主要耗能設(shè)備,因此提高加熱爐的能耗水平對鋼鐵行業(yè)節(jié)能具有重要意義?,F(xiàn)以某大型鋼鐵企業(yè)步進(jìn)式加熱爐為例進(jìn)行系統(tǒng)構(gòu)建應(yīng)用。在軋鋼生產(chǎn)中,必須將鋼坯加熱到一定的溫度,才能對鋼坯進(jìn)行軋制。對鋼坯進(jìn)行加熱的設(shè)備就是加熱爐。步進(jìn)式加熱爐是依靠步進(jìn)梁的順序、往復(fù)運(yùn)動使得加熱爐鋼坯從爐尾移動到出料口,中間經(jīng)過預(yù)熱段、加熱段、均熱段。最終使得鋼坯達(dá)到規(guī)定的溫度后出爐。加熱爐在生產(chǎn)過程中產(chǎn)生海量的數(shù)據(jù),利用HDFS實(shí)現(xiàn)海量的能耗數(shù)據(jù)的分布式存儲,通過本體建模技術(shù)實(shí)現(xiàn)加熱爐本體模型構(gòu)建與數(shù)據(jù)屬性映射,為大數(shù)據(jù)分析提供數(shù)據(jù)源;系統(tǒng)的分析主要是通過在MapReduce分布式分析模型上運(yùn)用線性回歸、遺傳算法等對Hadoop平臺篩選出來的數(shù)據(jù)進(jìn)行分析,從而挖掘海量數(shù)據(jù)背后隱藏的能耗模型,挖掘加熱爐的節(jié)能潛力,分析加熱爐的最佳工況運(yùn)行參數(shù),提高加熱爐的能耗水平,構(gòu)建加熱爐大數(shù)據(jù)節(jié)能潛力分析系統(tǒng)。系統(tǒng)主要模塊如下:
1)大數(shù)據(jù)管理:本體模型、大數(shù)據(jù)管理;
2)工藝參數(shù)模型:工藝參數(shù)模型;
3)工藝參數(shù)模型管理:工藝參數(shù)模型管理;
4)工藝優(yōu)化:工藝模型參數(shù)配置、工藝優(yōu)化。
2.1 大數(shù)據(jù)管理
大數(shù)據(jù)管理主要實(shí)現(xiàn)對加熱爐生產(chǎn)能耗數(shù)據(jù)提供統(tǒng)一的接入接口,并對加熱爐實(shí)現(xiàn)本體建模與數(shù)據(jù)映射,為數(shù)據(jù)分析提供數(shù)據(jù)源。
2.2 工藝參數(shù)模型
工藝參數(shù)模型主要是運(yùn)用大數(shù)據(jù)管理模塊提供的一致性的多源數(shù)據(jù),運(yùn)用大數(shù)據(jù)處理的智能分析能力,通過運(yùn)用神經(jīng)網(wǎng)絡(luò)算法對海量的數(shù)據(jù)進(jìn)行深度挖掘,提取出數(shù)據(jù)背后潛在的工藝能耗模型,為面向節(jié)能減排的工藝分析與參數(shù)優(yōu)化提供能耗模型。
2.3 工藝參數(shù)模型管理
工藝參數(shù)模型管理主要是對已經(jīng)構(gòu)建完成的模型實(shí)現(xiàn)直觀的管理與展示工作。用戶可以根據(jù)需要對已經(jīng)存在的模型進(jìn)行在線編輯,而且模型編輯完成進(jìn)行保存導(dǎo)數(shù)據(jù)庫以后可以為工藝參數(shù)優(yōu)化提供優(yōu)化模型。
2.4 工藝優(yōu)化
實(shí)現(xiàn)對模型參數(shù)進(jìn)行配置,利用工藝模型參數(shù)配置的參數(shù)范圍與工藝能耗模型模塊構(gòu)建的模型最為輸入,通過使用遺傳算法對加熱爐運(yùn)行工況參數(shù)進(jìn)行模型尋優(yōu),從而找出加熱爐面向節(jié)能減排的最佳工況運(yùn)行參數(shù)。
3 結(jié)束語
本系統(tǒng)在Hadoop平臺下可以方便地實(shí)現(xiàn)數(shù)據(jù)的分布式存儲、管理和查看,為企業(yè)歷史生產(chǎn)能耗數(shù)據(jù)的管理和分析提供方便,利用MapReduce分布式計(jì)算模型,運(yùn)用線性回歸、遺傳算法通過對生產(chǎn)能耗數(shù)據(jù)進(jìn)行分析、優(yōu)化,從而找出數(shù)據(jù)背后隱藏的價(jià)值與節(jié)能潛力所在,輸出最佳工況參數(shù),彌補(bǔ)這部分節(jié)能潛力。因此,所述方法對于挖掘鋼鐵行業(yè)節(jié)能潛力并實(shí)現(xiàn)節(jié)能降耗有著重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值,具有方便操作、易于推廣的特點(diǎn)。
參考文獻(xiàn):
[1] 高洪, 楊慶平, 黃震江. 基于Hadoop平臺的大數(shù)據(jù)分析關(guān)鍵技術(shù)標(biāo)準(zhǔn)化探討[J]. 信息技術(shù)與標(biāo)準(zhǔn)化, 2013(5): 27-30.
[2] 菅志剛, 金旭. 數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用研究, 2004(7): 117-118,157.
[3] 楊軍, 徐鐵軍. 鋼鐵企業(yè)節(jié)能潛力分析[C]// 中國金屬學(xué)會, 冶金循環(huán)經(jīng)濟(jì)發(fā)展論壇論文集. 中國金屬學(xué)會, 2008: 4.
[4] 唐杰, 梁邦勇, 李涓子, 等. 語義Web中的本體自動映射[J]. 計(jì)算機(jī)學(xué)報(bào), 2006(11): 1956-1976.
[5] 程學(xué)旗, 靳小龍, 王元卓, 等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014(9): 1889-1908.
[6] 王維興. 鋼鐵企業(yè)工序能耗和節(jié)能潛力[J]. 冶金管理, 2005(6): 32-34.