楊 濤,黃若愚,敖 宇,譚善偉
(1.貴州創(chuàng)新輕金屬工藝裝備工程技術(shù)研究中心有限公司,貴州 貴陽(yáng) 550081;2.貴陽(yáng)鋁鎂設(shè)計(jì)研究院有限公司,貴州 貴陽(yáng) 550081)
隨著NET、IoT、云計(jì)算和大數(shù)據(jù)技術(shù)的不斷鼎新與應(yīng)用,現(xiàn)代社會(huì)已經(jīng)邁入全新的大數(shù)據(jù)時(shí)代[1-3]。通過(guò)大數(shù)據(jù)相關(guān)技術(shù)掌握企業(yè)大數(shù)據(jù)資產(chǎn),進(jìn)行智能化決策,已成為企業(yè)勝出的關(guān)鍵。工業(yè)4.0的到來(lái)也使越來(lái)越多的企業(yè)開(kāi)始重視大數(shù)據(jù)戰(zhàn)略布局,以提升自己的核心競(jìng)爭(zhēng)力,用數(shù)據(jù)揭示生產(chǎn)管理過(guò)程,了解過(guò)去、知悉現(xiàn)在、洞悉未來(lái)[4-6]。通過(guò)數(shù)據(jù)驅(qū)動(dòng)企業(yè)運(yùn)行與決策,從而構(gòu)建智慧企業(yè),打造核心競(jìng)爭(zhēng)力。
數(shù)據(jù)爆炸式的增長(zhǎng)與價(jià)值的擴(kuò)大化,對(duì)企業(yè)發(fā)展有著深遠(yuǎn)影響[5-11]。將企業(yè)數(shù)據(jù)資產(chǎn)化,從而挖掘出數(shù)據(jù)價(jià)值,可為企業(yè)發(fā)展保駕護(hù)航,這將是企業(yè)智能化轉(zhuǎn)型發(fā)展的重點(diǎn)。隨著工業(yè)信息化過(guò)程的發(fā)展和革新,鋁冶煉企業(yè)在流程、管理和運(yùn)營(yíng)等各方面的問(wèn)題也愈加凸顯,主要包括:受高溫、高熱的環(huán)境影響,生產(chǎn)運(yùn)行的關(guān)鍵參數(shù)在線采集困難,而依靠人工或離線設(shè)備采集,工作量大,時(shí)效性差;由于生產(chǎn)過(guò)程各工序相對(duì)獨(dú)立,各自存在相應(yīng)的DCS、PLC等控制和管理系統(tǒng),孤島運(yùn)行,對(duì)企業(yè)的管控帶來(lái)了困難;由于各工序間管理和控制系統(tǒng)不連通,工序內(nèi)數(shù)據(jù)流通不暢,數(shù)據(jù)采集時(shí)效性差等原因,相應(yīng)的管控模型建立難度大;以及由于歷史原因,各業(yè)務(wù)系統(tǒng)擴(kuò)展性差和系統(tǒng)接口難以統(tǒng)一。
隨著新一代信息技術(shù)和大數(shù)據(jù)分析技術(shù)逐漸成熟,同時(shí)為推進(jìn)鋁冶煉行業(yè)智能化進(jìn)程,歐美等地的世界鋁工業(yè)先進(jìn)國(guó)家非常重視鋁冶煉行業(yè)的技術(shù)創(chuàng)新,不斷研發(fā)新技術(shù)和新裝備,有力的促進(jìn)了鋁冶煉行業(yè)的可持續(xù)性發(fā)展。在進(jìn)入21世紀(jì)以來(lái),采用新一代信息技術(shù),提高鋁冶煉生產(chǎn)過(guò)程的檢測(cè)、控制和管理水平,促進(jìn)智能化生產(chǎn)的垂直集成和產(chǎn)業(yè)價(jià)值鏈的橫向集成[4,12-14],已經(jīng)成為國(guó)際先進(jìn)鋁工業(yè)國(guó)家企業(yè)和研究機(jī)構(gòu)努力的方向。
以鋁冶煉大數(shù)據(jù)平臺(tái)為基礎(chǔ),研發(fā)集專(zhuān)家推理系統(tǒng)、先進(jìn)控制系統(tǒng)、遠(yuǎn)程運(yùn)維系統(tǒng)、遠(yuǎn)程診斷系統(tǒng)和生產(chǎn)運(yùn)營(yíng)實(shí)時(shí)對(duì)標(biāo)于一體的智能化應(yīng)用系統(tǒng),也成為當(dāng)今行業(yè)努力的方向之一。
針對(duì)鋁冶煉企業(yè)生產(chǎn)過(guò)程數(shù)據(jù)的特征,本文面向鋁冶煉企業(yè)構(gòu)建了集數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)融合、數(shù)據(jù)交換、數(shù)據(jù)治理和數(shù)據(jù)服務(wù)等功能于一體的大數(shù)據(jù)分析管理平臺(tái),其架構(gòu)圖1所示。
圖1 鋁冶煉大數(shù)據(jù)平臺(tái)架構(gòu)圖
數(shù)據(jù)采集傳輸技術(shù)是大數(shù)據(jù)平臺(tái)底層建設(shè)的核心關(guān)鍵,用于實(shí)現(xiàn)工廠結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)的收集。由于工廠設(shè)備眾多且數(shù)據(jù)接口各異,因此常用的數(shù)據(jù)采集傳輸方式主要有以下三種:
(1)直接聯(lián)網(wǎng)通信采集傳輸方式
此種方式依賴于設(shè)備自身的通信協(xié)議與通信網(wǎng)口,不需要額外部署其他硬件,數(shù)據(jù)采集服務(wù)器通過(guò)局域網(wǎng)與設(shè)備直接連接,從而實(shí)現(xiàn)數(shù)據(jù)的交換。
(2)工業(yè)網(wǎng)關(guān)采集傳輸方式
此方式主要針對(duì)沒(méi)有以太網(wǎng)通接口的設(shè)備,或不支持以太網(wǎng)通信的設(shè)備,通過(guò)部署工業(yè)以太網(wǎng)關(guān)來(lái)連接設(shè)備,以實(shí)現(xiàn)對(duì)設(shè)備的數(shù)據(jù)采集。
(3)遠(yuǎn)程IO采集傳輸方式
此方式用于針對(duì)不能直接通過(guò)以太網(wǎng)接口通信,且沒(méi)有控制單元的設(shè)備。通過(guò)部署遠(yuǎn)程IO的方式來(lái)實(shí)現(xiàn)設(shè)備數(shù)據(jù)采集。
鋁冶煉作為典型的流程性企業(yè),其數(shù)據(jù)具有分散性、數(shù)據(jù)體量大、異構(gòu)性等特征。因此,傳統(tǒng)的DAS、SAN、NAS 等數(shù)據(jù)存儲(chǔ)方式已不能滿足大數(shù)據(jù)環(huán)境下的業(yè)務(wù)需求。HDFS存儲(chǔ)方式因其高容錯(cuò)、高可靠性、高吞吐率等[14-15]特性而得到了國(guó)內(nèi)外研究者的認(rèn)可。
HDFS存儲(chǔ)方式采用master/slave主從架構(gòu),由一個(gè)控制節(jié)點(diǎn)和多個(gè)數(shù)據(jù)節(jié)點(diǎn)構(gòu)成[15-16],架構(gòu)如圖2所示。通常,HDFS存儲(chǔ)方式會(huì)將一個(gè)完整的文件信息拆分為若干個(gè)子信息,并存放在不同的數(shù)據(jù)節(jié)點(diǎn),控制節(jié)點(diǎn)則用于存儲(chǔ)數(shù)據(jù)節(jié)點(diǎn)的文件元數(shù)據(jù),相當(dāng)于整個(gè)集群目錄。
圖2 master/slave主從架構(gòu)圖
傳統(tǒng)的MySQL等關(guān)系型數(shù)據(jù)庫(kù)通常被部署在一臺(tái)服務(wù)器上。而HBase是一種基于HDFS的分布式非關(guān)系型數(shù)據(jù)庫(kù),通常部署于多臺(tái)服務(wù)器上。
Hadoop通常采用Map/Reduce模型來(lái)實(shí)現(xiàn)海量數(shù)據(jù)的分析處理,該模型的核心思想為“分而治之”,即將一個(gè)復(fù)雜的任務(wù)分解為多個(gè)簡(jiǎn)單的子任務(wù)進(jìn)行并行處理,而后將處理結(jié)果匯總分析。其中Map 負(fù)責(zé)“分”,Reduce負(fù)責(zé)“合”。工作流程如圖3所示。
圖3 Map/Reduce模型工作流程圖
大數(shù)據(jù)分析挖掘技術(shù)用于揭示所收集數(shù)據(jù)中隱藏的、未知的、有價(jià)值的信息。針對(duì)不同的生產(chǎn)流程,構(gòu)建相應(yīng)的數(shù)據(jù)模型,而后用于對(duì)采集的數(shù)據(jù)進(jìn)行分析挖掘和評(píng)價(jià)。
可視化技術(shù)用于對(duì)通過(guò)數(shù)據(jù)挖掘技術(shù)得到的信息直觀的展示出來(lái),是建立在數(shù)據(jù)分析挖掘的基礎(chǔ)上。通過(guò)借助可視化工具或其他方式將挖掘到的數(shù)據(jù)信息形象化展示出來(lái)。
鋁冶煉企業(yè)作為典型的流程性企業(yè),工序多、控制系統(tǒng)多、業(yè)務(wù)系統(tǒng)多。生產(chǎn)過(guò)程數(shù)據(jù)類(lèi)型涵蓋了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)。各控制系統(tǒng)主要分散于各生產(chǎn)工序、各業(yè)務(wù)系統(tǒng)分布于辦公區(qū)域。生產(chǎn)過(guò)程數(shù)據(jù)未能實(shí)現(xiàn)數(shù)據(jù)共享,數(shù)據(jù)價(jià)值未能挖掘利用。因此,本文針對(duì)某鋁生產(chǎn)企業(yè)設(shè)計(jì)開(kāi)發(fā)了大數(shù)據(jù)平臺(tái),具體實(shí)施情況參見(jiàn)下文。
針對(duì)全廠生產(chǎn)過(guò)程數(shù)據(jù),本文采用直接聯(lián)網(wǎng)通信采集傳輸方式、工業(yè)網(wǎng)關(guān)采集傳輸方式、遠(yuǎn)程IO采集傳輸方式相結(jié)合來(lái)采集生產(chǎn)過(guò)程數(shù)據(jù)??紤]工控設(shè)備的安全運(yùn)行,通過(guò)部署工業(yè)網(wǎng)關(guān)將辦公系統(tǒng)與工控系統(tǒng)進(jìn)行隔離,以防止外部病毒的侵入攻擊工控系統(tǒng)。
由于各控制系統(tǒng)、業(yè)務(wù)系統(tǒng)分散于各工序,針對(duì)這一特點(diǎn),本文通過(guò)分布式多線程方式來(lái)實(shí)現(xiàn)數(shù)據(jù)的采集傳輸,即一個(gè)主采集點(diǎn)部署于數(shù)據(jù)中心,多個(gè)子采集節(jié)點(diǎn)部署于各個(gè)生產(chǎn)控制系統(tǒng)與業(yè)務(wù)系統(tǒng)。同時(shí),各個(gè)采集節(jié)點(diǎn)支持多種接口協(xié)議,從而滿足企業(yè)數(shù)據(jù)的采集、傳輸。分布式架構(gòu)如圖4所示。
圖4 數(shù)據(jù)采集傳輸網(wǎng)絡(luò)圖
針對(duì)關(guān)系型數(shù)據(jù),如門(mén)禁系統(tǒng)、人力資源管理系統(tǒng)和MES等數(shù)據(jù)源的采集,當(dāng)數(shù)據(jù)量比較大時(shí)使用sqoop進(jìn)行數(shù)據(jù)抽取,每日定時(shí)更新的數(shù)據(jù)則通過(guò)使用Kettle數(shù)據(jù)抽取工具,最后通過(guò)建立的數(shù)據(jù)采集任務(wù)將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)抽取到基于Hadoop的HDFS存儲(chǔ)的Hive中。
對(duì)于在線檢測(cè)裝置和PLC/DCS系統(tǒng)生成的非關(guān)系型數(shù)據(jù),通過(guò)使用OpenTSDB時(shí)序數(shù)據(jù)庫(kù)開(kāi)放的API接口編寫(xiě)JAVA代碼,實(shí)現(xiàn)數(shù)據(jù)的讀取工作。
針對(duì)數(shù)據(jù)存儲(chǔ),本文采用分布式架構(gòu),利用多臺(tái)服務(wù)器、Hadoop及其生態(tài)軟件搭建企業(yè)數(shù)據(jù)中心,并在各服務(wù)器部署關(guān)系型數(shù)據(jù)庫(kù)、實(shí)時(shí)數(shù)據(jù)庫(kù),用于滿足不同數(shù)據(jù)類(lèi)型存儲(chǔ)需求。
對(duì)于關(guān)系型數(shù)據(jù),本文利用Oracle、MySQL、SQL Server等數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。此外,由于工控?cái)?shù)據(jù)為時(shí)序數(shù)據(jù),因此產(chǎn)生頻率快、數(shù)據(jù)量大。一般的關(guān)系型數(shù)據(jù)庫(kù)并不適合對(duì)本文工控實(shí)時(shí)數(shù)據(jù)的存儲(chǔ)和管理。因此,本文針對(duì)海量實(shí)時(shí)數(shù)據(jù),利用OpenTSDB、RRDtool、Kdb+、TimescaleDB、InfluxDB等數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。工控實(shí)時(shí)數(shù)據(jù)存儲(chǔ)算法如表1所示。
表1 數(shù)據(jù)存儲(chǔ)算法
(1)常規(guī)數(shù)據(jù)可視化
Kibana、grafana作為一款開(kāi)源的數(shù)據(jù)挖掘與可視化工具,可以用于日志數(shù)據(jù)分析、時(shí)間序列數(shù)據(jù)分析等。它們不僅功能強(qiáng)大,如支持直方圖、線形圖、餅圖、熱圖和內(nèi)置的地理空間等常見(jiàn)的可視化展示,同時(shí)也易用。
針對(duì)常規(guī)數(shù)據(jù)的可視化,平臺(tái)嵌入了Kibana、grafana等可視化組件,用于實(shí)現(xiàn)數(shù)據(jù)的分析和可視化。
(2)模型開(kāi)發(fā)與可視化
為了實(shí)現(xiàn)工藝生產(chǎn)流程數(shù)據(jù)可視化分析,平臺(tái)開(kāi)發(fā)了模型管理模塊,為工藝機(jī)理模型、機(jī)器學(xué)習(xí)模型等的開(kāi)發(fā)提供了開(kāi)發(fā)環(huán)境,開(kāi)發(fā)者可在此模塊根據(jù)工藝生產(chǎn)需求構(gòu)建相應(yīng)的分析模型。目前系統(tǒng)嵌入了常規(guī)的加權(quán)平均模型、關(guān)系分析模型、特征聚類(lèi)模型等。
圖5 鋁液波動(dòng)與極距可視化圖
圖6 模型管理模塊界面圖
本文利用物聯(lián)網(wǎng)與大數(shù)據(jù)等相關(guān)技術(shù)構(gòu)建了面向鋁冶煉的大數(shù)據(jù)平臺(tái),完成了從數(shù)據(jù)采集到數(shù)據(jù)使用的統(tǒng)一管理。通過(guò)對(duì)生產(chǎn)管理信息系統(tǒng)和生產(chǎn)過(guò)程系統(tǒng)的數(shù)據(jù)集成,實(shí)現(xiàn)了鋁冶煉企業(yè)生產(chǎn)過(guò)程數(shù)據(jù)的規(guī)范化和多維度融合。主要貢獻(xiàn)如下:
(1)平臺(tái)具有多樣化數(shù)據(jù)接口,能適應(yīng)不同場(chǎng)景的數(shù)據(jù)采集傳輸。
(2)平臺(tái)解決了企業(yè)內(nèi)部各業(yè)務(wù)應(yīng)用系統(tǒng)信息孤島問(wèn)題,實(shí)現(xiàn)了數(shù)據(jù)的一站式管理。
(3)平臺(tái)具備一站式數(shù)據(jù)挖掘與分析功能,能對(duì)采集的數(shù)據(jù)進(jìn)行挖掘分析。