王強(qiáng)
【關(guān)鍵詞】大數(shù)據(jù);制造業(yè);系統(tǒng)架構(gòu)設(shè)計(jì)
大數(shù)據(jù)時(shí)代下,利用生產(chǎn)過(guò)程中采集到的數(shù)據(jù)對(duì)能源消耗進(jìn)行及時(shí)、準(zhǔn)確的預(yù)測(cè),進(jìn)而達(dá)到節(jié)能減排的目的,利用科學(xué)的算法對(duì)數(shù)據(jù)進(jìn)行分析進(jìn)而調(diào)整產(chǎn)業(yè)結(jié)構(gòu),都將成為制造企業(yè)發(fā)展的新方向。但傳統(tǒng)的數(shù)據(jù)分析、預(yù)測(cè)架構(gòu)結(jié)構(gòu)單一固定并且動(dòng)態(tài)適應(yīng)能力與可拓展性較差,很明顯已經(jīng)不能適應(yīng)企業(yè)對(duì)于海量數(shù)據(jù)的處理和快速、深度挖掘的需求,因此作者認(rèn)為制造企業(yè)迫切需要運(yùn)用大數(shù)據(jù)技術(shù)對(duì)企業(yè)能源消耗進(jìn)行預(yù)測(cè)。本文試圖對(duì)制造企業(yè)運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行能耗預(yù)測(cè)時(shí)面臨的機(jī)遇與挑戰(zhàn)進(jìn)行分析,并給出制造企業(yè)大數(shù)據(jù)能耗預(yù)測(cè)的一種可選框架。
大數(shù)據(jù)背景下的制造企業(yè),僅對(duì)直接生產(chǎn)數(shù)據(jù)進(jìn)行處理是不能滿足其需求的,因而要處理多元化的數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,我們可以便捷地獲取和存儲(chǔ)各類數(shù)據(jù),從而幫助我們實(shí)現(xiàn)全集數(shù)據(jù)庫(kù)的建立。全集數(shù)據(jù)使數(shù)據(jù)的分析過(guò)程更加全面,能夠發(fā)現(xiàn)很多隱性的細(xì)節(jié),使數(shù)據(jù)分析的結(jié)果更加精確。
制造企業(yè)中的全集數(shù)據(jù)具有不同的數(shù)據(jù)來(lái)源,不同數(shù)據(jù)間的獲取、轉(zhuǎn)換相互獨(dú)立,因此傳統(tǒng)的集中數(shù)據(jù)存儲(chǔ)方法已不再適用。分布式存儲(chǔ)已成為當(dāng)前大數(shù)據(jù)分析中的主流解決方案,該技術(shù)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺(tái)存儲(chǔ)服務(wù)器和位置服務(wù)器,對(duì)存儲(chǔ)負(fù)荷進(jìn)行負(fù)載均衡,對(duì)存儲(chǔ)信息進(jìn)行定位,大大增強(qiáng)了系統(tǒng)的穩(wěn)定性以及數(shù)據(jù)的存取效率,并具有易于擴(kuò)展的優(yōu)點(diǎn),動(dòng)態(tài)適應(yīng)能力較強(qiáng)。
在本文的架構(gòu)當(dāng)中,全集數(shù)據(jù)被分散的存儲(chǔ)在分布式系統(tǒng)的各個(gè)節(jié)點(diǎn)中,針對(duì)當(dāng)前大數(shù)據(jù)環(huán)境下的數(shù)據(jù)增長(zhǎng)速度較快的問題,僅需在當(dāng)前的分布式存儲(chǔ)系統(tǒng)中增加相應(yīng)數(shù)量的節(jié)點(diǎn)即可,這樣就保證了系統(tǒng)的拓展性問題。
雖然分布式的數(shù)據(jù)存儲(chǔ)系統(tǒng)為我們解決了數(shù)據(jù)存儲(chǔ)的問題,但是未能實(shí)現(xiàn)對(duì)大量數(shù)據(jù)的實(shí)時(shí)獲取功能,造成了企業(yè)的業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行獲取以及使用的過(guò)程中,存在較為嚴(yán)重的數(shù)據(jù)滯后問題。因此在本文設(shè)計(jì)的架構(gòu)中,在分布式節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)之后,會(huì)將計(jì)算節(jié)點(diǎn)融合在數(shù)據(jù)旁的CPU之中,將計(jì)算推向數(shù)據(jù),取代傳統(tǒng)意義程序從數(shù)據(jù)庫(kù)獲取數(shù)據(jù)進(jìn)行計(jì)算,進(jìn)而轉(zhuǎn)變?yōu)樵朴?jì)算的架構(gòu)模式。
分布式數(shù)據(jù)存儲(chǔ)、計(jì)算系統(tǒng)在功能結(jié)構(gòu)上包括分布式基礎(chǔ)設(shè)施層、平臺(tái)層與軟件層3個(gè)層次。
(一)基礎(chǔ)層
在分布式架構(gòu)的基礎(chǔ)層中主要是分布式存儲(chǔ)的各個(gè)結(jié)點(diǎn)和計(jì)算系統(tǒng)的計(jì)算單元,各結(jié)點(diǎn)位于分布式結(jié)構(gòu)的基礎(chǔ)設(shè)施當(dāng)中,并且它們之間可以進(jìn)行分組,每組中都會(huì)有一個(gè)目錄服務(wù)器節(jié)點(diǎn),它的作用是對(duì)該組節(jié)點(diǎn)進(jìn)行統(tǒng)一任務(wù)分配,并且對(duì)計(jì)算結(jié)果進(jìn)行匯總,而且可以作為各結(jié)點(diǎn)的文件和數(shù)據(jù)索引。在每一組結(jié)點(diǎn)的外部,都存在一個(gè)總目錄服務(wù)器的節(jié)點(diǎn),對(duì)于所有的分布式基礎(chǔ)設(shè)施進(jìn)行任務(wù)分配以及計(jì)算結(jié)果的匯總,并且作為下層各目錄服務(wù)器的文件和數(shù)據(jù)索引。
(二)平臺(tái)層
服務(wù)類引擎以及數(shù)據(jù)類引擎等均位于平臺(tái)層中,其中數(shù)據(jù)引擎主要包括能源數(shù)據(jù)引擎,供應(yīng)鏈數(shù)據(jù)引擎,人力數(shù)據(jù)引擎,財(cái)務(wù)數(shù)據(jù)引擎,生產(chǎn)數(shù)據(jù)引擎等。服務(wù)引擎主要包括用戶身份認(rèn)證引擎,企業(yè)報(bào)表引擎,數(shù)據(jù)統(tǒng)計(jì)分析引擎等,上述的服務(wù)引擎和數(shù)據(jù)引擎作為架構(gòu)中軟件層的核心,為上層提供相應(yīng)的數(shù)據(jù)接口以及一些通用功能類接口。比如,系統(tǒng)中各類對(duì)能源數(shù)據(jù)有需求的業(yè)務(wù)系統(tǒng)可以調(diào)用能源類數(shù)據(jù)引擎所提供的數(shù)據(jù)接口,通過(guò)傳遞參數(shù)的方式獲取到所需的能源數(shù)據(jù)。文中提及的平臺(tái)層的引擎均具備較強(qiáng)的通用性和適應(yīng)性,根據(jù)不同的業(yè)務(wù)邏輯需求進(jìn)行適配。目前平臺(tái)層采用的是Google公司的MapReduce數(shù)據(jù)分析處理框架。2004年Google公司提出的MapReduce[1]編程模型采用批處理模式,其為目前批處理方式采用的主要模型。
(三)軟件層
軟件層作為該架構(gòu)的最頂層,本層主要包括了與大數(shù)據(jù)綜合分析直接相關(guān)的各個(gè)業(yè)務(wù)系統(tǒng),軟件層的最終目標(biāo)是將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息,并通過(guò)合理的方式將其展現(xiàn)在企業(yè)高層與相關(guān)用戶面前。要完成本層中各個(gè)業(yè)務(wù)系統(tǒng)的功能目標(biāo),需要通過(guò)調(diào)用平臺(tái)層提供的各類數(shù)據(jù)接口,將數(shù)據(jù)篩選條件作為參數(shù)傳遞給平臺(tái)層,從而獲取到對(duì)應(yīng)的數(shù)據(jù),將數(shù)據(jù)進(jìn)行處理后,使用數(shù)據(jù)挖掘方法對(duì)數(shù)據(jù)進(jìn)行深層次加工,進(jìn)而實(shí)現(xiàn)系統(tǒng)功能。顯而易見,該部分的核心內(nèi)容就是數(shù)據(jù)挖掘算法,挖掘算法的精確程度將對(duì)系統(tǒng)分析結(jié)果的精確性和準(zhǔn)確性產(chǎn)生影響。