• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      構(gòu)建重型機械裝備制造企業(yè)大數(shù)據(jù)平臺相關(guān)的技術(shù)架構(gòu)研究

      2023-07-17 15:09:20汪憶鐘世成陳素瓊
      計算機應(yīng)用文摘·觸控 2023年13期
      關(guān)鍵詞:大數(shù)據(jù)平臺

      汪憶 鐘世成 陳素瓊

      摘要:文章基于重型機械裝備制造企業(yè)的數(shù)字化發(fā)展現(xiàn)狀.對企業(yè)在進行數(shù)字化轉(zhuǎn)型中面臨的數(shù)據(jù)孤島、數(shù)據(jù)沉睡束發(fā)揮價值、數(shù)據(jù)使用成本較高等問題進行了分析,并深入闡述了數(shù)字化轉(zhuǎn)型涉及的大數(shù)據(jù)相關(guān)技術(shù)架構(gòu),提出了大數(shù)據(jù)平臺建設(shè)可選的技術(shù)解決方案,為重型機械裝備制造企業(yè)構(gòu)建大數(shù)據(jù)平臺技術(shù)架構(gòu)提供借鑒和參考。

      關(guān)鍵詞:機械裝備制造企業(yè);大數(shù)據(jù)平臺;技術(shù)架構(gòu)

      中圖法分類號:TP311 文獻標(biāo)識碼:A

      1 概述

      1.1 研究背景

      作為國民經(jīng)濟的主體,重型機械裝備制造企業(yè)面臨數(shù)字化轉(zhuǎn)型的諸多難題和挑戰(zhàn),其中最突出的問題是:傳統(tǒng)的“煙囪式” 應(yīng)用開發(fā)模式造成的“數(shù)據(jù)孤島”現(xiàn)象嚴(yán)重,使得數(shù)據(jù)難以發(fā)揮價值;諸多業(yè)務(wù)系統(tǒng)數(shù)據(jù)(如PDM 系統(tǒng)、ERP 系統(tǒng))集成度不高,經(jīng)常出現(xiàn)數(shù)據(jù)找不到、用不上、不準(zhǔn)確等困難;由于數(shù)據(jù)存儲格式、代碼標(biāo)準(zhǔn)不統(tǒng)一以及數(shù)據(jù)質(zhì)量參差不齊導(dǎo)致數(shù)據(jù)不可用的現(xiàn)象時有發(fā)生;數(shù)據(jù)出現(xiàn)重復(fù)存儲,重復(fù)計算,取數(shù)技術(shù)難度較大,對業(yè)務(wù)人員及IT 人員技術(shù)要求過高,造成數(shù)據(jù)使用成本較高;企業(yè)目前的信息化系統(tǒng)繁多,集成度低,缺乏高效可用的數(shù)據(jù)中心,企業(yè)內(nèi)部的數(shù)據(jù)資產(chǎn)很難盤點,而且缺乏有效應(yīng)用服務(wù),數(shù)據(jù)資產(chǎn)價值也很難評估;信息化技術(shù)平臺工具繁多,多廠商技術(shù)平臺集成困難,以至于體驗差、運維成本極高。

      1.2 問題的提出

      本文基于重型機械裝備制造企業(yè)業(yè)務(wù)領(lǐng)域的大數(shù)據(jù)平臺構(gòu)建需求,對其進行了分析,并指出研究方向。在此基礎(chǔ)上,如何基于大數(shù)據(jù)平臺生態(tài)技術(shù)架構(gòu),構(gòu)建重型機械裝備制造企業(yè)大數(shù)據(jù)平臺技術(shù)解決方案是本文的核心研究問題。

      2 認(rèn)識Hadoop 大數(shù)據(jù)平臺

      2.1 Hadoop 的起源

      Hadoop 是一個由Apache 基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,主要解決海量數(shù)據(jù)的存儲和分析計算問題。Hadoop 是由Doug Cutting 和Mike Cafarella 于2002 年所創(chuàng)建的Nutch 項目,Nutch 是一個開源Java實現(xiàn)的搜索引擎,目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能[1] 。

      2003~ 2004 年,Google 發(fā)表了GFS(Google FileSystem,分布式文件系統(tǒng))和MapReduce(開源分布式并行計算框架)2 篇論文,受此論文的啟發(fā),2004 年,Nutch 創(chuàng)始人Doug Cutting 基于Google 的GFS 論文實現(xiàn)了分布式文件存儲系統(tǒng)NDFS。2005 年, DougCutting 又基于Google 的MapReduce 論文,在Nutch 搜索引擎實現(xiàn)了該功能,同年Hadoop 作為Lucene 的子項目Nutch 的一部分正式引入Apache 基金會。2006年2 月,Nutch 被分離出來成為一套完整獨立的軟件,命名為Hadoop,它是以Doug Cutting 兒子的毛絨玩具象命名的,Hadoop 起源于Google 的三大論文,GFS 對應(yīng)演變?yōu)椋龋模疲樱?Google MapReduce 對應(yīng)演變?yōu)椋龋幔洌铮铮?MapReduce,Big Table 對應(yīng)演變?yōu)椋龋拢幔螅澹郏玻?。

      2.2 Hadoop 的核心組件

      在大數(shù)據(jù)時代,如何解決大規(guī)模海量數(shù)據(jù)存儲和分析是關(guān)鍵,而Hadoop 項目作為大數(shù)據(jù)處理的框架,其核心功能就是分布式存儲(HDFS) 和分布式計算(MapReduce)以及資源管理調(diào)度器(YARN),下文介紹Hadoop 的核心功能。

      (1)分布式文件存儲HDFS。

      HDFS 源于Google 發(fā)表的一篇GFS 的論文,是描述Google 內(nèi)部的一個叫做GFS 的分布式大規(guī)模文件系統(tǒng),其具有強大的可伸縮性和容錯性,之后DougCutting 以GFS 的論文思想為基礎(chǔ),開發(fā)出了一個新的文件系統(tǒng)叫HDFS,并在此基礎(chǔ)上形成了一個單獨的子項目,最終成為Hadoop 的核心組件之一。作為大數(shù)據(jù)生態(tài)最底層的分布式存儲文件系統(tǒng),其主要解決海量數(shù)據(jù)的存儲問題,HDFS 將數(shù)據(jù)存儲在物理分散的多個存儲節(jié)點上,然后對這些節(jié)點的資源進行統(tǒng)一的管理與分配,并且提供統(tǒng)一的訪問接口,像是訪問一個普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。

      (2)分布式計算MapReduce。

      作為Hadoop 生態(tài)的分布式計算組件,MapReduce是一種并行編程模式,采用了分而治之的思想———先分后合,適用于大規(guī)模數(shù)據(jù)的并行處理,其工作原理是將待求解的復(fù)雜計算問題,先分解成若干規(guī)模較小的問題,然后分別求得各部分的結(jié)果,把各部分的結(jié)果進行合并, 最后得到整個問題的最終結(jié)果。

      MapReduce 的特點是易于編程,具有良好的擴展性和高容錯性, 適合大規(guī)模海量數(shù)據(jù)的離線處理。

      MapReduce 的核心思想是Map 和Reduce,它們分別對應(yīng)map 函數(shù)和reduce 函數(shù),這2 個函數(shù)由應(yīng)用程序開發(fā)者負(fù)責(zé)具體實現(xiàn),開發(fā)者僅需要編寫少量的業(yè)務(wù)邏輯代碼,不需要處理其他應(yīng)用方面的各種復(fù)雜問題,如數(shù)據(jù)存儲、資源調(diào)度、容錯處理、結(jié)果收集、網(wǎng)絡(luò)通信等,這些問題全部由MapReduce 框架負(fù)責(zé)處理。需注意的是,并不是所有任務(wù)都適合用MapReduce,能用MapReduce 來處理的任務(wù)有一個基本要求,即待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集,而且每一個小數(shù)據(jù)集都可以完全并行地進行處理。

      3 Hadoop 生態(tài)圈

      3.1 Hadoop 生態(tài)圈組件

      Hadoop 是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),其利用分布式集群對海量數(shù)據(jù)進行高速并行運算以及存儲,開發(fā)人員在進行開發(fā)分布式程序中,無需了解分布式底層細(xì)節(jié)。Hadoop 不是一個孤立的技術(shù),而是一套完整的生態(tài)圈,目前Hadoop 生態(tài)包含多個組件,除了核心組件HDFS 和MapReduce 及YARN 外,還包括HBase,Hive,YARN,Flume,Sqoop,Zookeeper,Ambari,Oozie,Mahout,Pig 等。

      3.2 Hadoop 版本

      大數(shù)據(jù)處理框架Hadoop 的版本經(jīng)歷了Hadoop1.x,Hadoop2.x 以及最新Hadoop3.x 版本。首先,Hadoop11.x 版本到Hadoop12.x 版本變遷的最大變化是對MapReduce 進行了大的拆分,Hadoop1.x 主要由MapReduce(分布式計算)和HDFS(分布式存儲)構(gòu)成,Hadoop2.x 在第1 代版本的基礎(chǔ)上演變而來,在此基礎(chǔ)上增加了YARN(資源調(diào)度管理系統(tǒng))以及其他的一些組件,主要解決了Hadoop1.x 中MapReduce和HDFS 中存在的各種問題,如MapReduce 在擴展性和多框架方面支持不足等。在Hadoop2.x 時代增加的YARN 組件不僅支持MapReduce,還支持其他的計算框架,其具有較好的擴展性、可用性及向后兼容性等,如兼容支持后來的Spark,Flink 等框架。

      Hadoop3.x 架構(gòu)組件和Hadoop2.x 架構(gòu)組件類似,Hadoop3. x 著重于性能優(yōu)化。從Hadoop2. x 到Hadoop3.x 版本,構(gòu)架組件已經(jīng)沒有太大的改變,Hadoop3.x 增加了許多新特性,如支持cup 的多重運算、多重備份,而且內(nèi)部的數(shù)據(jù)還支持動態(tài)平衡,提高了存儲效率,采用了糾刪碼存儲等,主要性能優(yōu)化有以下幾個方面。

      (1)通用方面:精簡內(nèi)核、類路徑隔離、shell 腳本重構(gòu)。

      ( 2)HDFS 存儲方面:支持EC(Erasure Code)糾刪碼、支持多NameNode。

      (3)MapReduce 計算方面:任務(wù)本地化優(yōu)化、內(nèi)存參數(shù)自動推斷。

      (4) Hadoop YARN 時間線服務(wù)方面:Hadoop3.x采用TimelineServiceV2 時間線版本服務(wù),具有分布式寫入器體系結(jié)構(gòu)和可擴展的后端存儲,并將數(shù)據(jù)的寫入與讀取分開,具有更強的可伸縮性、隊列配置、可靠性等。

      4 大數(shù)據(jù)計算架構(gòu)

      4.1 離線計算架構(gòu)

      離線計算是指對海量靜態(tài)數(shù)據(jù)進行處理和分析,并產(chǎn)生相應(yīng)的數(shù)據(jù)結(jié)果,供下一步數(shù)據(jù)應(yīng)用使用的過程。其特點是處理時間要求不高,處理數(shù)據(jù)量大,處理格式多樣, 占用計算存儲資源多, 通常使用MapReduce,Spark,Spark SQL 等計算框架,以HDFS 為數(shù)據(jù)存儲,YARN 為資源調(diào)度引擎,為各種離線批處理引擎提供資源調(diào)度能力,實現(xiàn)了多租戶資源分配的基礎(chǔ)。根據(jù)數(shù)據(jù)來源到應(yīng)用的流程,可以將離線處理架構(gòu)分為數(shù)據(jù)源、數(shù)據(jù)采集、離線處理引擎、業(yè)務(wù)應(yīng)用層[3] 。

      (1) 數(shù)據(jù)源:數(shù)據(jù)源的種類包括流式數(shù)據(jù)(如Socket 數(shù)據(jù)流),文件數(shù)據(jù)庫等。

      (2)數(shù)據(jù)采集系統(tǒng):Flume 用于批量采集數(shù)據(jù)文件、日志文件,Sqoop 用于批量采集數(shù)據(jù)庫的數(shù)據(jù),第三方ETL 采集工具用于數(shù)據(jù)采集加載轉(zhuǎn)換。

      (3) 離線處理引擎:離線處理的引擎有Hive,Spark SQL,MapReduce,Spark。Hive 使用傳統(tǒng)SQL 批處理引擎,用于處理SQL 類批處理作業(yè),在處理海量數(shù)據(jù)時表現(xiàn)穩(wěn)定,但處理速度較慢。MapReduce 為傳統(tǒng)批處理引擎,用于處理非SQL 類,其廣泛應(yīng)用于數(shù)據(jù)挖掘和機器學(xué)習(xí)類的批處理作業(yè),在處理海量數(shù)據(jù)時表現(xiàn)穩(wěn)定,但處理速度較慢。Spark SQL 為新型SQL 批處理引擎,用于處理SQL 類批處理作業(yè),相較于MapReduce,其處理速度較快。Spark 為新型批處理引擎,用于處理非SQL 類,以及數(shù)據(jù)挖掘和機器學(xué)習(xí)類的批處理作業(yè),處理速度較快。一般推薦優(yōu)先采用Spark/ Spark SQL, 當(dāng)有存量應(yīng)用時可以使用MapReduce/ Hive,2 種處理引擎也可以同時使用。

      4.2 實時計算架構(gòu)

      實時計算是指數(shù)據(jù)從生成到實時采集、實時緩存、實時計算分析、實時展示應(yīng)用等處理流程,完成時間在秒級甚至毫秒級。其特點是處理速度快,且要求端到端的處理速度需要達到秒級,甚至毫秒級。實時計算架構(gòu)分成數(shù)據(jù)源、數(shù)據(jù)采集、實時計算處理引擎、業(yè)務(wù)應(yīng)用層。

      (1)數(shù)據(jù)源:包括關(guān)系型數(shù)據(jù)庫數(shù)據(jù)、實時數(shù)據(jù)流、實時文件數(shù)據(jù)。

      (2)數(shù)據(jù)采集:實時采集數(shù)據(jù)源產(chǎn)生的數(shù)據(jù),并將數(shù)據(jù)緩存到分布式消息系統(tǒng)Kafka 中,通過實時采集工具Kafka 和第三方采集工具(如GoldenGate 數(shù)據(jù)庫)實時采集與定制化實時采集數(shù)據(jù)。

      (3) 實時處理引擎:實時處理引擎包括SparkStreaming,Structured Streaming,Flink,Storm,其主要作用是對實時數(shù)據(jù)進行快速分析。Structured Streaming是基于Spark 的流處理引擎,支持秒以內(nèi)的流處理分析;Flink 是新一代流處理引擎,支持毫秒級的流處理分析;Spark Streaming 以Spark Core 為基礎(chǔ),提供數(shù)據(jù)的流式計算功能,支持秒以內(nèi)的流處理分析;Storm 是一個事件驅(qū)動的實時流計算框架,支持毫秒級以內(nèi)的流處理分析。一般根據(jù)實際需求,選擇不同的流計算引擎。

      ( 4)實時應(yīng)用:數(shù)據(jù)應(yīng)用是大數(shù)據(jù)技術(shù)和應(yīng)用的目標(biāo)。大數(shù)據(jù)實時計算架構(gòu)為大數(shù)據(jù)的實時業(yè)務(wù)應(yīng)用提供了一種通用的架構(gòu),其需要根據(jù)行業(yè)領(lǐng)域、公司技術(shù)積累以及業(yè)務(wù)場景等,對業(yè)務(wù)需求、產(chǎn)品設(shè)計、技術(shù)選型到實現(xiàn)方案流程等進行具體問題具體分析,并應(yīng)用大數(shù)據(jù)可視化技術(shù),對其進行深入研究,最終形成更為明確的應(yīng)用標(biāo)準(zhǔn)。

      5 重型裝備制造業(yè)大數(shù)據(jù)技術(shù)解決方案

      通過構(gòu)建統(tǒng)一的大數(shù)據(jù)共享和分析平臺,對重型機械裝備制造企業(yè)各類業(yè)務(wù)進行前瞻性預(yù)測及分析,為集團各層次用戶提供統(tǒng)一的決策分析支持,同時可以提高數(shù)據(jù)的共享與流轉(zhuǎn)、交換能力。

      5.1 總體解決方案

      重型機械裝備制造企業(yè)大數(shù)據(jù)平臺主要實現(xiàn)以下幾方面的應(yīng)用。

      (1)實現(xiàn)數(shù)據(jù)共享。通過數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)集中,確保企業(yè)集團各級部門均可在保證數(shù)據(jù)隱私和安全的前提下使用數(shù)據(jù),充分發(fā)揮數(shù)據(jù)作為企業(yè)重要資產(chǎn)的業(yè)務(wù)價值。

      (2)加強業(yè)務(wù)協(xié)作。各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)在數(shù)據(jù)平臺中進行整合,建立產(chǎn)品、客戶等數(shù)據(jù)的企業(yè)級視圖,有效促進業(yè)務(wù)的集成和協(xié)作,并為企業(yè)級分析、銷售提供基礎(chǔ)。

      (3)促進業(yè)務(wù)及管理創(chuàng)新。企業(yè)集團營銷人員可以基于明細(xì)、可信的數(shù)據(jù),進行多維分析和數(shù)據(jù)挖掘,為企業(yè)業(yè)務(wù)及管理創(chuàng)新創(chuàng)造有利條件。

      (4)改善數(shù)據(jù)質(zhì)量。從中長期看,數(shù)據(jù)倉庫對企業(yè)分散在各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進行整合、清洗,有助于改善企業(yè)整體數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)的實用性。

      (5)提升企業(yè)數(shù)字化、智能化建設(shè)效率。通過大數(shù)據(jù)平臺對數(shù)據(jù)進行集中,為管理分析、挖掘預(yù)測類等系統(tǒng)提供一致的數(shù)據(jù)基礎(chǔ),改變現(xiàn)有系統(tǒng)數(shù)據(jù)來源多、數(shù)據(jù)處理復(fù)雜的現(xiàn)狀,實現(xiàn)應(yīng)用系統(tǒng)建設(shè)模式的轉(zhuǎn)變,提升相關(guān)IT 系統(tǒng)的建設(shè)和運行效率。

      本文提出的重型機械裝備制造企業(yè)大數(shù)據(jù)平臺架構(gòu)是基于信創(chuàng)龍頭企業(yè)“中國電子”的產(chǎn)品線。其主要產(chǎn)品有大數(shù)據(jù)基礎(chǔ)平臺、數(shù)據(jù)中臺,如圖1 所示。

      5.2 大數(shù)據(jù)基礎(chǔ)平臺技術(shù)架構(gòu)

      將中國電子的大數(shù)據(jù)基礎(chǔ)平臺產(chǎn)品作為解決方案,該公司產(chǎn)品“大數(shù)據(jù)基礎(chǔ)平臺”兼容Hadoop 等主流開源存儲與計算引擎、兼容市面上常見的商用大數(shù)據(jù)基礎(chǔ)平臺,最大化兼容目標(biāo)企業(yè)已有的大數(shù)據(jù)平臺體系,充分利舊、保護投資[4] 。大數(shù)據(jù)基礎(chǔ)平臺技術(shù)架構(gòu)如圖2 所示。

      5.3 數(shù)據(jù)中臺技術(shù)架構(gòu)

      在大數(shù)據(jù)平臺總體架構(gòu)中,作為技術(shù)解決方案架構(gòu)中的核心產(chǎn)品,數(shù)據(jù)中臺部署于IAAS 層、PAAS 層之上和應(yīng)用體系之下,處于企業(yè)的數(shù)字化轉(zhuǎn)型總體架構(gòu)中的底座位置。數(shù)據(jù)中臺是大型企業(yè)總體IT 架構(gòu)中的核心,該產(chǎn)品是構(gòu)建數(shù)據(jù)資產(chǎn)中心的一站式數(shù)據(jù)技術(shù)工具,是支撐各類數(shù)據(jù)應(yīng)用建設(shè)的基礎(chǔ)服務(wù)體系,將長期承載著大型企業(yè)的數(shù)據(jù)資產(chǎn)統(tǒng)一運營,提供螺旋向上的數(shù)據(jù)治理與數(shù)據(jù)價值發(fā)揮的能力。數(shù)據(jù)中臺技術(shù)架構(gòu)如圖3 所示。

      6 結(jié)束語

      本文從研究背景、問題的提出,再到具體技術(shù)架構(gòu)的研究,對Hadoop 大數(shù)據(jù)平臺及生態(tài)圈、Spark 技術(shù)架構(gòu)、大數(shù)據(jù)離線計算架構(gòu)、實時計算架構(gòu)進行闡述,并提出了重型機械裝備制造企業(yè)以信創(chuàng)龍頭企業(yè)的產(chǎn)品線為基礎(chǔ)的大數(shù)據(jù)平臺技術(shù)解決方案,旨在為重型機械裝備制造業(yè)大數(shù)據(jù)平臺的構(gòu)建提供參考。

      參考文獻:

      [1] 盧瀅.大數(shù)據(jù)技術(shù)在智慧工程中的應(yīng)用[J].電子技術(shù)與軟件工程,2022(2):208?211.

      [2] 黃碩.省級廣電網(wǎng)絡(luò)大數(shù)據(jù)平臺設(shè)計與建設(shè)[J].廣播與電視技術(shù),2022,49(6):81?85.

      [3] 凌諾娟.云農(nóng)場智慧服務(wù)大數(shù)據(jù)平臺研究與實現(xiàn)[D].合肥:安徽農(nóng)業(yè)大學(xué),2022.

      [4] 中國電子技術(shù)標(biāo)準(zhǔn)化研究院.大數(shù)據(jù)平臺技術(shù)白皮書[R].北京:中國電子系統(tǒng)技術(shù)有限公司,2021.

      作者簡介:汪憶(1981—),碩士,高級工程師,研究方向:大數(shù)據(jù)技術(shù)、人工智能技術(shù)、機械裝備制造業(yè)信息化、高等職業(yè)教育。

      猜你喜歡
      大數(shù)據(jù)平臺
      基于大數(shù)據(jù)平臺的電網(wǎng)全業(yè)務(wù)數(shù)據(jù)分析域研究
      基于大數(shù)據(jù)的農(nóng)產(chǎn)品質(zhì)量安全追溯平臺建設(shè)研究
      全國耕地質(zhì)量大數(shù)據(jù)平臺設(shè)計
      基于大數(shù)據(jù)平臺的日志分析預(yù)警技術(shù)研究
      基于大數(shù)據(jù)平臺的高校思想政治教育
      Hadoop性能測試自動化研究
      基于大數(shù)據(jù)的智能停車場管理系統(tǒng)設(shè)計
      淺談電力大數(shù)據(jù)平臺關(guān)鍵技術(shù)研究與應(yīng)用
      基于大數(shù)據(jù)分析的智慧倉儲運營支撐平臺設(shè)計
      襪業(yè)行業(yè)大數(shù)據(jù)平臺的應(yīng)用研究
      京山县| 驻马店市| 英山县| 雷山县| 招远市| 乌拉特后旗| 开化县| 惠东县| 昂仁县| 孟州市| 安远县| 白山市| 南昌市| 交城县| 福海县| 双牌县| 临清市| 唐山市| 靖边县| 手机| 四会市| 密云县| 尉氏县| 房山区| 新乐市| 舞钢市| 房产| 永城市| 科尔| 新竹市| 大连市| 台前县| 色达县| 潞西市| 镇康县| 西和县| 靖远县| 长顺县| 南京市| 浦东新区| 贡山|