構(gòu)建重型機械裝備制造企業(yè)大數(shù)據(jù)平臺相關(guān)的技術(shù)架構(gòu)研究

2023-07-17 15:09:20汪憶鐘世成陳素瓊

計算機應(yīng)用文摘·觸控 2023年13期

汪憶鐘世成陳素瓊

摘要：文章基于重型機械裝備制造企業(yè)的數(shù)字化發(fā)展現(xiàn)狀．對企業(yè)在進行數(shù)字化轉(zhuǎn)型中面臨的數(shù)據(jù)孤島、數(shù)據(jù)沉睡束發(fā)揮價值、數(shù)據(jù)使用成本較高等問題進行了分析，并深入闡述了數(shù)字化轉(zhuǎn)型涉及的大數(shù)據(jù)相關(guān)技術(shù)架構(gòu)，提出了大數(shù)據(jù)平臺建設(shè)可選的技術(shù)解決方案，為重型機械裝備制造企業(yè)構(gòu)建大數(shù)據(jù)平臺技術(shù)架構(gòu)提供借鑒和參考。

關(guān)鍵詞：機械裝備制造企業(yè)；大數(shù)據(jù)平臺；技術(shù)架構(gòu)

中圖法分類號：TP311 文獻標(biāo)識碼：A

１概述

１．１研究背景

作為國民經(jīng)濟的主體，重型機械裝備制造企業(yè)面臨數(shù)字化轉(zhuǎn)型的諸多難題和挑戰(zhàn)，其中最突出的問題是：傳統(tǒng)的“煙囪式” 應(yīng)用開發(fā)模式造成的“數(shù)據(jù)孤島”現(xiàn)象嚴(yán)重，使得數(shù)據(jù)難以發(fā)揮價值；諸多業(yè)務(wù)系統(tǒng)數(shù)據(jù)（如ＰＤＭ系統(tǒng)、ＥＲＰ系統(tǒng)）集成度不高，經(jīng)常出現(xiàn)數(shù)據(jù)找不到、用不上、不準(zhǔn)確等困難；由于數(shù)據(jù)存儲格式、代碼標(biāo)準(zhǔn)不統(tǒng)一以及數(shù)據(jù)質(zhì)量參差不齊導(dǎo)致數(shù)據(jù)不可用的現(xiàn)象時有發(fā)生；數(shù)據(jù)出現(xiàn)重復(fù)存儲，重復(fù)計算，取數(shù)技術(shù)難度較大，對業(yè)務(wù)人員及ＩＴ人員技術(shù)要求過高，造成數(shù)據(jù)使用成本較高；企業(yè)目前的信息化系統(tǒng)繁多，集成度低，缺乏高效可用的數(shù)據(jù)中心，企業(yè)內(nèi)部的數(shù)據(jù)資產(chǎn)很難盤點，而且缺乏有效應(yīng)用服務(wù)，數(shù)據(jù)資產(chǎn)價值也很難評估；信息化技術(shù)平臺工具繁多，多廠商技術(shù)平臺集成困難，以至于體驗差、運維成本極高。

１．２問題的提出

本文基于重型機械裝備制造企業(yè)業(yè)務(wù)領(lǐng)域的大數(shù)據(jù)平臺構(gòu)建需求，對其進行了分析，并指出研究方向。在此基礎(chǔ)上，如何基于大數(shù)據(jù)平臺生態(tài)技術(shù)架構(gòu)，構(gòu)建重型機械裝備制造企業(yè)大數(shù)據(jù)平臺技術(shù)解決方案是本文的核心研究問題。

２認(rèn)識Ｈａｄｏｏｐ大數(shù)據(jù)平臺

２．１Ｈａｄｏｏｐ的起源

Ｈａｄｏｏｐ是一個由Ａｐａｃｈｅ基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架，主要解決海量數(shù)據(jù)的存儲和分析計算問題。Ｈａｄｏｏｐ是由ＤｏｕｇＣｕｔｔｉｎｇ和ＭｉｋｅＣａｆａｒｅｌｌａ于２００２年所創(chuàng)建的Ｎｕｔｃｈ項目，Ｎｕｔｃｈ是一個開源Ｊａｖａ實現(xiàn)的搜索引擎，目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎，包括網(wǎng)頁抓取、索引、查詢等功能［１］。

２００３～２００４年，Ｇｏｏｇｌｅ發(fā)表了ＧＦＳ（ＧｏｏｇｌｅＦｉｌｅＳｙｓｔｅｍ，分布式文件系統(tǒng)）和ＭａｐＲｅｄｕｃｅ（開源分布式并行計算框架）２篇論文，受此論文的啟發(fā)，２００４年，Ｎｕｔｃｈ創(chuàng)始人ＤｏｕｇＣｕｔｔｉｎｇ基于Ｇｏｏｇｌｅ的ＧＦＳ論文實現(xiàn)了分布式文件存儲系統(tǒng)ＮＤＦＳ。２００５年，ＤｏｕｇＣｕｔｔｉｎｇ又基于Ｇｏｏｇｌｅ的ＭａｐＲｅｄｕｃｅ論文，在Ｎｕｔｃｈ搜索引擎實現(xiàn)了該功能，同年Ｈａｄｏｏｐ作為Ｌｕｃｅｎｅ的子項目Ｎｕｔｃｈ的一部分正式引入Ａｐａｃｈｅ基金會。２００６年２月，Ｎｕｔｃｈ被分離出來成為一套完整獨立的軟件，命名為Ｈａｄｏｏｐ，它是以ＤｏｕｇＣｕｔｔｉｎｇ兒子的毛絨玩具象命名的，Ｈａｄｏｏｐ起源于Ｇｏｏｇｌｅ的三大論文，ＧＦＳ對應(yīng)演變?yōu)椋龋模疲樱?ＧｏｏｇｌｅＭａｐＲｅｄｕｃｅ對應(yīng)演變?yōu)椋龋幔洌铮铮?ＭａｐＲｅｄｕｃｅ，ＢｉｇＴａｂｌｅ對應(yīng)演變?yōu)椋龋拢幔螅澹郏玻?。

２．２Ｈａｄｏｏｐ的核心組件

在大數(shù)據(jù)時代，如何解決大規(guī)模海量數(shù)據(jù)存儲和分析是關(guān)鍵，而Ｈａｄｏｏｐ項目作為大數(shù)據(jù)處理的框架，其核心功能就是分布式存儲（ＨＤＦＳ）和分布式計算（ＭａｐＲｅｄｕｃｅ）以及資源管理調(diào)度器（ＹＡＲＮ），下文介紹Ｈａｄｏｏｐ的核心功能。

（１）分布式文件存儲ＨＤＦＳ。

ＨＤＦＳ源于Ｇｏｏｇｌｅ發(fā)表的一篇ＧＦＳ的論文，是描述Ｇｏｏｇｌｅ內(nèi)部的一個叫做ＧＦＳ的分布式大規(guī)模文件系統(tǒng)，其具有強大的可伸縮性和容錯性，之后ＤｏｕｇＣｕｔｔｉｎｇ以ＧＦＳ的論文思想為基礎(chǔ)，開發(fā)出了一個新的文件系統(tǒng)叫ＨＤＦＳ，并在此基礎(chǔ)上形成了一個單獨的子項目，最終成為Ｈａｄｏｏｐ的核心組件之一。作為大數(shù)據(jù)生態(tài)最底層的分布式存儲文件系統(tǒng)，其主要解決海量數(shù)據(jù)的存儲問題，ＨＤＦＳ將數(shù)據(jù)存儲在物理分散的多個存儲節(jié)點上，然后對這些節(jié)點的資源進行統(tǒng)一的管理與分配，并且提供統(tǒng)一的訪問接口，像是訪問一個普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。

（２）分布式計算ＭａｐＲｅｄｕｃｅ。

作為Ｈａｄｏｏｐ生態(tài)的分布式計算組件，ＭａｐＲｅｄｕｃｅ是一種并行編程模式，采用了分而治之的思想———先分后合，適用于大規(guī)模數(shù)據(jù)的并行處理，其工作原理是將待求解的復(fù)雜計算問題，先分解成若干規(guī)模較小的問題，然后分別求得各部分的結(jié)果，把各部分的結(jié)果進行合并，最后得到整個問題的最終結(jié)果。

ＭａｐＲｅｄｕｃｅ的特點是易于編程，具有良好的擴展性和高容錯性，適合大規(guī)模海量數(shù)據(jù)的離線處理。

ＭａｐＲｅｄｕｃｅ的核心思想是Ｍａｐ和Ｒｅｄｕｃｅ，它們分別對應(yīng)ｍａｐ函數(shù)和ｒｅｄｕｃｅ函數(shù)，這２個函數(shù)由應(yīng)用程序開發(fā)者負(fù)責(zé)具體實現(xiàn)，開發(fā)者僅需要編寫少量的業(yè)務(wù)邏輯代碼，不需要處理其他應(yīng)用方面的各種復(fù)雜問題，如數(shù)據(jù)存儲、資源調(diào)度、容錯處理、結(jié)果收集、網(wǎng)絡(luò)通信等，這些問題全部由ＭａｐＲｅｄｕｃｅ框架負(fù)責(zé)處理。需注意的是，并不是所有任務(wù)都適合用ＭａｐＲｅｄｕｃｅ，能用ＭａｐＲｅｄｕｃｅ來處理的任務(wù)有一個基本要求，即待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集，而且每一個小數(shù)據(jù)集都可以完全并行地進行處理。

３Ｈａｄｏｏｐ生態(tài)圈

３．１Ｈａｄｏｏｐ生態(tài)圈組件

Ｈａｄｏｏｐ是一個分布式系統(tǒng)基礎(chǔ)架構(gòu)，其利用分布式集群對海量數(shù)據(jù)進行高速并行運算以及存儲，開發(fā)人員在進行開發(fā)分布式程序中，無需了解分布式底層細(xì)節(jié)。Ｈａｄｏｏｐ不是一個孤立的技術(shù)，而是一套完整的生態(tài)圈，目前Ｈａｄｏｏｐ生態(tài)包含多個組件，除了核心組件ＨＤＦＳ和ＭａｐＲｅｄｕｃｅ及ＹＡＲＮ外，還包括ＨＢａｓｅ，Ｈｉｖｅ，ＹＡＲＮ，Ｆｌｕｍｅ，Ｓｑｏｏｐ，Ｚｏｏｋｅｅｐｅｒ，Ａｍｂａｒｉ，Ｏｏｚｉｅ，Ｍａｈｏｕｔ，Ｐｉｇ等。

３．２Ｈａｄｏｏｐ版本

大數(shù)據(jù)處理框架Ｈａｄｏｏｐ的版本經(jīng)歷了Ｈａｄｏｏｐ１．ｘ，Ｈａｄｏｏｐ２．ｘ以及最新Ｈａｄｏｏｐ３．ｘ版本。首先，Ｈａｄｏｏｐ１１．ｘ版本到Ｈａｄｏｏｐ１２．ｘ版本變遷的最大變化是對ＭａｐＲｅｄｕｃｅ進行了大的拆分，Ｈａｄｏｏｐ１．ｘ主要由ＭａｐＲｅｄｕｃｅ（分布式計算）和ＨＤＦＳ（分布式存儲）構(gòu)成，Ｈａｄｏｏｐ２．ｘ在第１代版本的基礎(chǔ)上演變而來，在此基礎(chǔ)上增加了ＹＡＲＮ（資源調(diào)度管理系統(tǒng)）以及其他的一些組件，主要解決了Ｈａｄｏｏｐ１．ｘ中ＭａｐＲｅｄｕｃｅ和ＨＤＦＳ中存在的各種問題，如ＭａｐＲｅｄｕｃｅ在擴展性和多框架方面支持不足等。在Ｈａｄｏｏｐ２．ｘ時代增加的ＹＡＲＮ組件不僅支持ＭａｐＲｅｄｕｃｅ，還支持其他的計算框架，其具有較好的擴展性、可用性及向后兼容性等，如兼容支持后來的Ｓｐａｒｋ，Ｆｌｉｎｋ等框架。

Ｈａｄｏｏｐ３．ｘ架構(gòu)組件和Ｈａｄｏｏｐ２．ｘ架構(gòu)組件類似，Ｈａｄｏｏｐ３．ｘ著重于性能優(yōu)化。從Ｈａｄｏｏｐ２．ｘ到Ｈａｄｏｏｐ３．ｘ版本，構(gòu)架組件已經(jīng)沒有太大的改變，Ｈａｄｏｏｐ３．ｘ增加了許多新特性，如支持ｃｕｐ的多重運算、多重備份，而且內(nèi)部的數(shù)據(jù)還支持動態(tài)平衡，提高了存儲效率，采用了糾刪碼存儲等，主要性能優(yōu)化有以下幾個方面。

（１）通用方面：精簡內(nèi)核、類路徑隔離、ｓｈｅｌｌ腳本重構(gòu)。

（２）ＨＤＦＳ存儲方面：支持ＥＣ（ＥｒａｓｕｒｅＣｏｄｅ）糾刪碼、支持多ＮａｍｅＮｏｄｅ。

（３）ＭａｐＲｅｄｕｃｅ計算方面：任務(wù)本地化優(yōu)化、內(nèi)存參數(shù)自動推斷。

（４）ＨａｄｏｏｐＹＡＲＮ時間線服務(wù)方面：Ｈａｄｏｏｐ３．ｘ采用ＴｉｍｅｌｉｎｅＳｅｒｖｉｃｅＶ２時間線版本服務(wù)，具有分布式寫入器體系結(jié)構(gòu)和可擴展的后端存儲，并將數(shù)據(jù)的寫入與讀取分開，具有更強的可伸縮性、隊列配置、可靠性等。

４大數(shù)據(jù)計算架構(gòu)

４．１離線計算架構(gòu)

離線計算是指對海量靜態(tài)數(shù)據(jù)進行處理和分析，并產(chǎn)生相應(yīng)的數(shù)據(jù)結(jié)果，供下一步數(shù)據(jù)應(yīng)用使用的過程。其特點是處理時間要求不高，處理數(shù)據(jù)量大，處理格式多樣，占用計算存儲資源多，通常使用ＭａｐＲｅｄｕｃｅ，Ｓｐａｒｋ，ＳｐａｒｋＳＱＬ等計算框架，以ＨＤＦＳ為數(shù)據(jù)存儲，ＹＡＲＮ為資源調(diào)度引擎，為各種離線批處理引擎提供資源調(diào)度能力，實現(xiàn)了多租戶資源分配的基礎(chǔ)。根據(jù)數(shù)據(jù)來源到應(yīng)用的流程，可以將離線處理架構(gòu)分為數(shù)據(jù)源、數(shù)據(jù)采集、離線處理引擎、業(yè)務(wù)應(yīng)用層［３］。

（１）數(shù)據(jù)源：數(shù)據(jù)源的種類包括流式數(shù)據(jù)（如Ｓｏｃｋｅｔ數(shù)據(jù)流），文件數(shù)據(jù)庫等。

（２）數(shù)據(jù)采集系統(tǒng)：Ｆｌｕｍｅ用于批量采集數(shù)據(jù)文件、日志文件，Ｓｑｏｏｐ用于批量采集數(shù)據(jù)庫的數(shù)據(jù)，第三方ＥＴＬ采集工具用于數(shù)據(jù)采集加載轉(zhuǎn)換。

（３）離線處理引擎：離線處理的引擎有Ｈｉｖｅ，ＳｐａｒｋＳＱＬ，ＭａｐＲｅｄｕｃｅ，Ｓｐａｒｋ。Ｈｉｖｅ使用傳統(tǒng)ＳＱＬ批處理引擎，用于處理ＳＱＬ類批處理作業(yè)，在處理海量數(shù)據(jù)時表現(xiàn)穩(wěn)定，但處理速度較慢。ＭａｐＲｅｄｕｃｅ為傳統(tǒng)批處理引擎，用于處理非ＳＱＬ類，其廣泛應(yīng)用于數(shù)據(jù)挖掘和機器學(xué)習(xí)類的批處理作業(yè)，在處理海量數(shù)據(jù)時表現(xiàn)穩(wěn)定，但處理速度較慢。ＳｐａｒｋＳＱＬ為新型ＳＱＬ批處理引擎，用于處理ＳＱＬ類批處理作業(yè)，相較于ＭａｐＲｅｄｕｃｅ，其處理速度較快。Ｓｐａｒｋ為新型批處理引擎，用于處理非ＳＱＬ類，以及數(shù)據(jù)挖掘和機器學(xué)習(xí)類的批處理作業(yè)，處理速度較快。一般推薦優(yōu)先采用Ｓｐａｒｋ／ＳｐａｒｋＳＱＬ，當(dāng)有存量應(yīng)用時可以使用ＭａｐＲｅｄｕｃｅ／Ｈｉｖｅ，２種處理引擎也可以同時使用。

４．２實時計算架構(gòu)

實時計算是指數(shù)據(jù)從生成到實時采集、實時緩存、實時計算分析、實時展示應(yīng)用等處理流程，完成時間在秒級甚至毫秒級。其特點是處理速度快，且要求端到端的處理速度需要達到秒級，甚至毫秒級。實時計算架構(gòu)分成數(shù)據(jù)源、數(shù)據(jù)采集、實時計算處理引擎、業(yè)務(wù)應(yīng)用層。

（１）數(shù)據(jù)源：包括關(guān)系型數(shù)據(jù)庫數(shù)據(jù)、實時數(shù)據(jù)流、實時文件數(shù)據(jù)。

（２）數(shù)據(jù)采集：實時采集數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)，并將數(shù)據(jù)緩存到分布式消息系統(tǒng)Ｋａｆｋａ中，通過實時采集工具Ｋａｆｋａ和第三方采集工具（如ＧｏｌｄｅｎＧａｔｅ數(shù)據(jù)庫）實時采集與定制化實時采集數(shù)據(jù)。

（３）實時處理引擎：實時處理引擎包括ＳｐａｒｋＳｔｒｅａｍｉｎｇ，ＳｔｒｕｃｔｕｒｅｄＳｔｒｅａｍｉｎｇ，Ｆｌｉｎｋ，Ｓｔｏｒｍ，其主要作用是對實時數(shù)據(jù)進行快速分析。ＳｔｒｕｃｔｕｒｅｄＳｔｒｅａｍｉｎｇ是基于Ｓｐａｒｋ的流處理引擎，支持秒以內(nèi)的流處理分析；Ｆｌｉｎｋ是新一代流處理引擎，支持毫秒級的流處理分析；ＳｐａｒｋＳｔｒｅａｍｉｎｇ以ＳｐａｒｋＣｏｒｅ為基礎(chǔ)，提供數(shù)據(jù)的流式計算功能，支持秒以內(nèi)的流處理分析；Ｓｔｏｒｍ是一個事件驅(qū)動的實時流計算框架，支持毫秒級以內(nèi)的流處理分析。一般根據(jù)實際需求，選擇不同的流計算引擎。

（４）實時應(yīng)用：數(shù)據(jù)應(yīng)用是大數(shù)據(jù)技術(shù)和應(yīng)用的目標(biāo)。大數(shù)據(jù)實時計算架構(gòu)為大數(shù)據(jù)的實時業(yè)務(wù)應(yīng)用提供了一種通用的架構(gòu)，其需要根據(jù)行業(yè)領(lǐng)域、公司技術(shù)積累以及業(yè)務(wù)場景等，對業(yè)務(wù)需求、產(chǎn)品設(shè)計、技術(shù)選型到實現(xiàn)方案流程等進行具體問題具體分析，并應(yīng)用大數(shù)據(jù)可視化技術(shù)，對其進行深入研究，最終形成更為明確的應(yīng)用標(biāo)準(zhǔn)。

５重型裝備制造業(yè)大數(shù)據(jù)技術(shù)解決方案

通過構(gòu)建統(tǒng)一的大數(shù)據(jù)共享和分析平臺，對重型機械裝備制造企業(yè)各類業(yè)務(wù)進行前瞻性預(yù)測及分析，為集團各層次用戶提供統(tǒng)一的決策分析支持，同時可以提高數(shù)據(jù)的共享與流轉(zhuǎn)、交換能力。

５．１總體解決方案

重型機械裝備制造企業(yè)大數(shù)據(jù)平臺主要實現(xiàn)以下幾方面的應(yīng)用。

（１）實現(xiàn)數(shù)據(jù)共享。通過數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)集中，確保企業(yè)集團各級部門均可在保證數(shù)據(jù)隱私和安全的前提下使用數(shù)據(jù)，充分發(fā)揮數(shù)據(jù)作為企業(yè)重要資產(chǎn)的業(yè)務(wù)價值。

（２）加強業(yè)務(wù)協(xié)作。各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)在數(shù)據(jù)平臺中進行整合，建立產(chǎn)品、客戶等數(shù)據(jù)的企業(yè)級視圖，有效促進業(yè)務(wù)的集成和協(xié)作，并為企業(yè)級分析、銷售提供基礎(chǔ)。

（３）促進業(yè)務(wù)及管理創(chuàng)新。企業(yè)集團營銷人員可以基于明細(xì)、可信的數(shù)據(jù)，進行多維分析和數(shù)據(jù)挖掘，為企業(yè)業(yè)務(wù)及管理創(chuàng)新創(chuàng)造有利條件。

（４）改善數(shù)據(jù)質(zhì)量。從中長期看，數(shù)據(jù)倉庫對企業(yè)分散在各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進行整合、清洗，有助于改善企業(yè)整體數(shù)據(jù)質(zhì)量，提高數(shù)據(jù)的實用性。

（５）提升企業(yè)數(shù)字化、智能化建設(shè)效率。通過大數(shù)據(jù)平臺對數(shù)據(jù)進行集中，為管理分析、挖掘預(yù)測類等系統(tǒng)提供一致的數(shù)據(jù)基礎(chǔ)，改變現(xiàn)有系統(tǒng)數(shù)據(jù)來源多、數(shù)據(jù)處理復(fù)雜的現(xiàn)狀，實現(xiàn)應(yīng)用系統(tǒng)建設(shè)模式的轉(zhuǎn)變，提升相關(guān)ＩＴ系統(tǒng)的建設(shè)和運行效率。

本文提出的重型機械裝備制造企業(yè)大數(shù)據(jù)平臺架構(gòu)是基于信創(chuàng)龍頭企業(yè)“中國電子”的產(chǎn)品線。其主要產(chǎn)品有大數(shù)據(jù)基礎(chǔ)平臺、數(shù)據(jù)中臺，如圖１所示。

５．２大數(shù)據(jù)基礎(chǔ)平臺技術(shù)架構(gòu)

將中國電子的大數(shù)據(jù)基礎(chǔ)平臺產(chǎn)品作為解決方案，該公司產(chǎn)品“大數(shù)據(jù)基礎(chǔ)平臺”兼容Ｈａｄｏｏｐ等主流開源存儲與計算引擎、兼容市面上常見的商用大數(shù)據(jù)基礎(chǔ)平臺，最大化兼容目標(biāo)企業(yè)已有的大數(shù)據(jù)平臺體系，充分利舊、保護投資［４］。大數(shù)據(jù)基礎(chǔ)平臺技術(shù)架構(gòu)如圖２所示。

５．３數(shù)據(jù)中臺技術(shù)架構(gòu)

在大數(shù)據(jù)平臺總體架構(gòu)中，作為技術(shù)解決方案架構(gòu)中的核心產(chǎn)品，數(shù)據(jù)中臺部署于ＩＡＡＳ層、ＰＡＡＳ層之上和應(yīng)用體系之下，處于企業(yè)的數(shù)字化轉(zhuǎn)型總體架構(gòu)中的底座位置。數(shù)據(jù)中臺是大型企業(yè)總體ＩＴ架構(gòu)中的核心，該產(chǎn)品是構(gòu)建數(shù)據(jù)資產(chǎn)中心的一站式數(shù)據(jù)技術(shù)工具，是支撐各類數(shù)據(jù)應(yīng)用建設(shè)的基礎(chǔ)服務(wù)體系，將長期承載著大型企業(yè)的數(shù)據(jù)資產(chǎn)統(tǒng)一運營，提供螺旋向上的數(shù)據(jù)治理與數(shù)據(jù)價值發(fā)揮的能力。數(shù)據(jù)中臺技術(shù)架構(gòu)如圖３所示。

６結(jié)束語

本文從研究背景、問題的提出，再到具體技術(shù)架構(gòu)的研究，對Ｈａｄｏｏｐ大數(shù)據(jù)平臺及生態(tài)圈、Ｓｐａｒｋ技術(shù)架構(gòu)、大數(shù)據(jù)離線計算架構(gòu)、實時計算架構(gòu)進行闡述，并提出了重型機械裝備制造企業(yè)以信創(chuàng)龍頭企業(yè)的產(chǎn)品線為基礎(chǔ)的大數(shù)據(jù)平臺技術(shù)解決方案，旨在為重型機械裝備制造業(yè)大數(shù)據(jù)平臺的構(gòu)建提供參考。

參考文獻：

［１］盧瀅．大數(shù)據(jù)技術(shù)在智慧工程中的應(yīng)用［Ｊ］．電子技術(shù)與軟件工程，２０２２（２）：２０８?２１１．

［２］黃碩．省級廣電網(wǎng)絡(luò)大數(shù)據(jù)平臺設(shè)計與建設(shè)［Ｊ］．廣播與電視技術(shù)，２０２２，４９（６）：８１?８５．

［３］凌諾娟．云農(nóng)場智慧服務(wù)大數(shù)據(jù)平臺研究與實現(xiàn)［Ｄ］．合肥：安徽農(nóng)業(yè)大學(xué)，２０２２．

［４］中國電子技術(shù)標(biāo)準(zhǔn)化研究院．大數(shù)據(jù)平臺技術(shù)白皮書［Ｒ］．北京：中國電子系統(tǒng)技術(shù)有限公司，２０２１．

作者簡介：汪憶（１９８１—），碩士，高級工程師，研究方向：大數(shù)據(jù)技術(shù)、人工智能技術(shù)、機械裝備制造業(yè)信息化、高等職業(yè)教育。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

構(gòu)建重型機械裝備制造企業(yè)大數(shù)據(jù)平臺相關(guān)的技術(shù)架構(gòu)研究