• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      NSTL大數(shù)據(jù)管理與計(jì)算平臺(tái)的設(shè)計(jì)與應(yīng)用實(shí)踐

      2020-08-03 09:33:52董智鵬常志軍張建勇錢力
      數(shù)字圖書館論壇 2020年7期
      關(guān)鍵詞:標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)管理集群

      董智鵬 常志軍 張建勇 錢力

      (中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)

      NSTL發(fā)展規(guī)劃的智能知識(shí)服務(wù)需要深入的數(shù)據(jù)挖掘、語義計(jì)算、深度學(xué)習(xí)等技術(shù)進(jìn)行強(qiáng)有力的支持。NSTL經(jīng)過近20年的發(fā)展,已形成了海量的多來源、多類型的文獻(xiàn)元數(shù)據(jù)庫,當(dāng)前采用的存儲(chǔ)技術(shù)和管理技術(shù)相對(duì)比較傳統(tǒng),數(shù)據(jù)管理成本較高,橫向擴(kuò)展與彈性收縮較差,已不能滿足業(yè)務(wù)對(duì)數(shù)據(jù)的應(yīng)用需求,亟須引進(jìn)具有良好擴(kuò)展特性的開源大數(shù)據(jù)生態(tài)圈技術(shù),建設(shè)大數(shù)據(jù)管理與計(jì)算平臺(tái)。形成統(tǒng)一化、規(guī)范化、智能化的數(shù)據(jù)業(yè)務(wù)管理體系,提高業(yè)務(wù)運(yùn)行效率,支持海量文獻(xiàn)元數(shù)據(jù)的集中管理和計(jì)算業(yè)務(wù),提高數(shù)據(jù)管理的效率,擴(kuò)展數(shù)據(jù)間的關(guān)系,強(qiáng)化數(shù)據(jù)的關(guān)聯(lián)度,以適應(yīng)NSTL從文獻(xiàn)服務(wù)向知識(shí)服務(wù)轉(zhuǎn)變的發(fā)展戰(zhàn)略。

      1 數(shù)據(jù)管理業(yè)務(wù)流程再造

      傳統(tǒng)數(shù)據(jù)管理流程采用聯(lián)機(jī)事務(wù)處理(OLTP)機(jī)制進(jìn)行數(shù)據(jù)交互,在大規(guī)模處理數(shù)據(jù)時(shí),存儲(chǔ)與計(jì)算瓶頸凸顯。針對(duì)NSTL業(yè)務(wù)流程再造目標(biāo)分析,數(shù)據(jù)管理流程需要滿足海量多來源異構(gòu)數(shù)據(jù)匯聚、融合、計(jì)算等大吞吐量操作,所以需對(duì)傳統(tǒng)數(shù)據(jù)管理流程進(jìn)行改造與優(yōu)化,采用聯(lián)機(jī)分析處理(OLAP)機(jī)制,提高數(shù)據(jù)計(jì)算效率、數(shù)據(jù)計(jì)算精度,有利于支撐數(shù)據(jù)產(chǎn)品研發(fā)。

      1.1 業(yè)務(wù)流程再造目標(biāo)

      NSTL業(yè)務(wù)流程再造目標(biāo)對(duì)數(shù)據(jù)業(yè)務(wù)中的數(shù)據(jù)管理流程提出3個(gè)主要任務(wù)。首先,需滿足多來源、多類型、海量的數(shù)據(jù)資源的采集、發(fā)現(xiàn)、評(píng)估、共享與合作等;其次,滿足集成數(shù)據(jù)匯聚、數(shù)據(jù)融合、數(shù)據(jù)增值計(jì)算、名稱規(guī)范、語義標(biāo)注和知識(shí)標(biāo)引等,實(shí)現(xiàn)數(shù)據(jù)全生命周期的管理;最后,以知識(shí)發(fā)現(xiàn)為目標(biāo),促進(jìn)知識(shí)與知識(shí)、數(shù)據(jù)與數(shù)據(jù)、用戶與用戶、知識(shí)與用戶的關(guān)聯(lián)、計(jì)算與聚合。

      1.2 數(shù)據(jù)加工管理轉(zhuǎn)型

      NSTL數(shù)據(jù)加工是支撐文獻(xiàn)服務(wù)的重要環(huán)節(jié)之一,經(jīng)過多年的建設(shè)與發(fā)展,已經(jīng)形成了自主加工,通過數(shù)據(jù)庫集成商和出版社購(gòu)買、開放獲取、贈(zèng)予等多種渠道獲取數(shù)據(jù)方式。隨著數(shù)據(jù)來源的增多,數(shù)據(jù)量的增大,目前的數(shù)據(jù)加工方式和管理流程已不能適應(yīng)NSTL發(fā)展對(duì)數(shù)據(jù)加工的新需求。所以,基于NSTL發(fā)展目標(biāo)再造數(shù)據(jù)加工業(yè)務(wù)流程,從“移動(dòng)數(shù)據(jù)”向“移動(dòng)計(jì)算”轉(zhuǎn)型[1],逐步形成從資源采集到數(shù)據(jù)計(jì)算,再到數(shù)據(jù)產(chǎn)品的數(shù)據(jù)加工流程具有非常重要的戰(zhàn)略意義?;跇I(yè)務(wù)流程再造的數(shù)據(jù)加工流程管理框架如圖1所示。

      圖1 數(shù)據(jù)加工流程管理框架

      改造后的數(shù)據(jù)加工管理流程從多來源異構(gòu)數(shù)據(jù)采集獲取出發(fā),遵循NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,基于新構(gòu)建的大數(shù)據(jù)管理與計(jì)算平臺(tái)進(jìn)行數(shù)據(jù)的解析與存儲(chǔ),平臺(tái)的數(shù)據(jù)加工任務(wù)管理模塊將需要加工的數(shù)據(jù)分配到相應(yīng)的數(shù)據(jù)處理平臺(tái),如數(shù)據(jù)融合系統(tǒng)和引文處理系統(tǒng),進(jìn)行數(shù)據(jù)融合,集成處理。通過平臺(tái)任務(wù)管理模塊對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)計(jì)算,如引文關(guān)系、規(guī)范關(guān)系、主題標(biāo)引等,最終形成可服務(wù)數(shù)據(jù)。再通過基于微服務(wù)架構(gòu)的RESTful接口向外部提供數(shù)據(jù)輸出服務(wù),以支撐更多的數(shù)據(jù)產(chǎn)品研發(fā)和知識(shí)服務(wù)。

      2 大數(shù)據(jù)管理與計(jì)算平臺(tái)設(shè)計(jì)

      根據(jù)NSTL數(shù)據(jù)管理業(yè)務(wù)流程再造的目標(biāo),選擇大數(shù)據(jù)相關(guān)技術(shù)搭建NSTL大數(shù)據(jù)管理和計(jì)算平臺(tái),全面支撐NSTL各類數(shù)據(jù)的加工管理,支撐對(duì)大規(guī)模數(shù)據(jù)進(jìn)行關(guān)聯(lián)計(jì)算的需求。本設(shè)計(jì)將大數(shù)據(jù)管理和計(jì)算平臺(tái)構(gòu)建劃分為4個(gè)主要任務(wù):①集成大數(shù)據(jù)生態(tài)圈開源軟件,部署基礎(chǔ)環(huán)境;②設(shè)計(jì)從抽取、清洗、轉(zhuǎn)換、裝載等全生命周期管理的數(shù)據(jù)治理流程體系與技術(shù)規(guī)范;③集成多來源異構(gòu)數(shù)據(jù),抽取實(shí)體,進(jìn)行相關(guān)數(shù)據(jù)計(jì)算;④基于微服務(wù)技術(shù)建設(shè)數(shù)據(jù)輸出服務(wù)接口。

      2.1 業(yè)務(wù)架構(gòu)

      NSTL大數(shù)據(jù)管理與計(jì)算平臺(tái)的核心目標(biāo)是建立可支撐數(shù)據(jù)獲取、清洗、集成、增值的海量數(shù)據(jù)治理流程,形成可提供數(shù)據(jù)分布式存儲(chǔ)和計(jì)算的基礎(chǔ)環(huán)境。業(yè)務(wù)架構(gòu)如圖2所示。

      作為支持NSTL數(shù)據(jù)業(yè)務(wù)的大數(shù)據(jù)基礎(chǔ)環(huán)境,平臺(tái)將遵循NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn),支撐數(shù)據(jù)獲取、數(shù)據(jù)治理(數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)增值)以及數(shù)據(jù)服務(wù)等各業(yè)務(wù)環(huán)節(jié),最終釋放數(shù)據(jù)價(jià)值。

      圖2 平臺(tái)業(yè)務(wù)架構(gòu)

      2.2 技術(shù)架構(gòu)

      NSTL大數(shù)據(jù)管理與計(jì)算平臺(tái)以大數(shù)據(jù)生態(tài)環(huán)境松耦合[2]的研發(fā)理念,在數(shù)據(jù)管理的重要階段(如源文件管理、元數(shù)據(jù)管理、索引管理等)對(duì)數(shù)據(jù)進(jìn)行處理和完善。提供以HDFS[3]和Hive[4]技術(shù)為基礎(chǔ)的數(shù)據(jù)存儲(chǔ)環(huán)境,以Yarn、MapReduce、Spark[5]計(jì)算框架為基礎(chǔ)的數(shù)據(jù)計(jì)算環(huán)境,以ElasticSearch[6]、Redis[7]技術(shù)為基礎(chǔ)的數(shù)據(jù)查詢服務(wù)環(huán)境,以Kafka、Spark-streaming技術(shù)為基礎(chǔ)的流式處理環(huán)境,以Hue、Oozie技術(shù)為基礎(chǔ)的可視化環(huán)境,5個(gè)環(huán)境協(xié)同調(diào)度與工作,實(shí)現(xiàn)無縫銜接。涉及的工業(yè)級(jí)大數(shù)據(jù)技術(shù)有HDFS、MapReduce、Spark、Hive、ElasticSearch、Hue、Oozie、Kafka、Zookeeper、Redis、MicroService、Flume-ng等。從技術(shù)層面可分為數(shù)據(jù)接入層、分布式存儲(chǔ)層、分布式計(jì)算層、數(shù)據(jù)模型層、數(shù)據(jù)服務(wù)層以及應(yīng)用層。平臺(tái)技術(shù)架構(gòu)如圖3所示。

      從數(shù)據(jù)源到服務(wù)層,根據(jù)數(shù)據(jù)規(guī)模、計(jì)算規(guī)模、服務(wù)模式等對(duì)平臺(tái)進(jìn)行功能層次劃分。存儲(chǔ)層提供海量數(shù)據(jù)的存儲(chǔ)功能,采用Hadoop-HDFS。計(jì)算層提供海量數(shù)據(jù)的計(jì)算引擎,該層采用MapReduce、Spark多引擎模式,全新設(shè)計(jì)了MapReduce主要用于科技數(shù)據(jù)非迭代處理,而Spark主要用于模型計(jì)算、關(guān)系計(jì)算等處理的計(jì)算分工。同時(shí),平臺(tái)提供計(jì)算任務(wù)管理平臺(tái),支撐多用戶遠(yuǎn)程提交計(jì)算任務(wù),共享計(jì)算資源。索引分為計(jì)算索引和服務(wù)索引,分別支撐底層計(jì)算和用戶服務(wù)。服務(wù)層為用戶提供高效、穩(wěn)定的數(shù)據(jù)查詢服務(wù)。

      平臺(tái)采用Spring Cloud[8]技術(shù),結(jié)合科技數(shù)據(jù)服務(wù)的特點(diǎn),甄選、二次開發(fā)相關(guān)組件進(jìn)而整合了一套集服務(wù)注冊(cè)器、負(fù)載均衡器、權(quán)限控制、服務(wù)生產(chǎn)者、服務(wù)消費(fèi)者等核心組件的科技數(shù)據(jù)服務(wù)架構(gòu),并擴(kuò)展了消費(fèi)管理及防爬功能,構(gòu)建了分布式微服務(wù)系統(tǒng)。應(yīng)用層指基于大數(shù)據(jù)平臺(tái)的應(yīng)用系統(tǒng),可支持業(yè)務(wù)鏈條的數(shù)據(jù)應(yīng)用,包括平臺(tái)級(jí)別和服務(wù)級(jí)別的應(yīng)用,并能根據(jù)業(yè)務(wù)量,進(jìn)行彈性擴(kuò)展保證服務(wù)性能。

      2.3 平臺(tái)構(gòu)建

      平臺(tái)構(gòu)建主要從平臺(tái)數(shù)據(jù)流程技術(shù)規(guī)范制定、總體硬件服務(wù)器組件部署和網(wǎng)絡(luò)拓?fù)鋭澐?、大?shù)據(jù)技術(shù)生態(tài)圈開源軟件選型與集成部署三方面展開。平臺(tái)旨在解決多源異構(gòu)數(shù)據(jù)的存儲(chǔ)和計(jì)算的瓶頸,依托NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范建立統(tǒng)一化的分層管理數(shù)據(jù)流程和技術(shù)規(guī)范體系,構(gòu)建統(tǒng)一數(shù)據(jù)集成子系統(tǒng)和分布式計(jì)算任務(wù)管理,建設(shè)具有消費(fèi)管理及防爬蟲功能的分布式微服務(wù)子系統(tǒng)。

      圖3 平臺(tái)技術(shù)架構(gòu)

      2.3.1 技術(shù)規(guī)范制定

      技術(shù)規(guī)范規(guī)定了基于NSTL大數(shù)據(jù)管理與計(jì)算平臺(tái)覆蓋文獻(xiàn)元數(shù)據(jù)處理的生命全周期,即技術(shù)類型、文件存儲(chǔ)的讀寫操作、計(jì)算處理的編程引擎、元數(shù)據(jù)規(guī)范、數(shù)據(jù)微服務(wù)接口使用等。制訂的技術(shù)標(biāo)準(zhǔn)規(guī)范包括五大類,即數(shù)據(jù)采集引進(jìn)存儲(chǔ)規(guī)范、計(jì)算引擎技術(shù)標(biāo)準(zhǔn)規(guī)范、搜索引擎技術(shù)標(biāo)準(zhǔn)規(guī)范、高速緩存技術(shù)標(biāo)準(zhǔn)規(guī)范和服務(wù)接口技術(shù)標(biāo)準(zhǔn)規(guī)范。此外,技術(shù)標(biāo)準(zhǔn)體系各環(huán)節(jié)數(shù)據(jù)描述遵循NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)3.0(正式版)。

      針對(duì)數(shù)據(jù)來源復(fù)雜、異構(gòu)多樣、存儲(chǔ)分散的特點(diǎn),對(duì)數(shù)據(jù)采集存儲(chǔ)進(jìn)行規(guī)范。從采集頻率、數(shù)據(jù)文件格式、結(jié)構(gòu)化規(guī)范、存儲(chǔ)目錄規(guī)范、增量更新模式5個(gè)角度制定規(guī)則,以保證數(shù)據(jù)規(guī)格化、流程規(guī)范化和業(yè)務(wù)標(biāo)準(zhǔn)化。針對(duì)MapReduce和Spark計(jì)算引擎的特點(diǎn),計(jì)算引擎技術(shù)標(biāo)準(zhǔn)規(guī)范從數(shù)據(jù)輸入、計(jì)算邏輯實(shí)現(xiàn)、結(jié)果輸出三個(gè)階段制定規(guī)則,以保證各業(yè)務(wù)計(jì)算模型、處理程序在平臺(tái)中正確執(zhí)行。針對(duì)ElasticSearch搜索引擎軟件集群的特點(diǎn),搜索引擎技術(shù)標(biāo)準(zhǔn)規(guī)范從建索引、各類型檢索、索引更新、索引刪除等多種操作制定規(guī)則,以保證各業(yè)務(wù)在使用搜索引擎時(shí),程序能夠正確執(zhí)行。針對(duì)Redis服務(wù)的特點(diǎn),高速緩存技術(shù)標(biāo)準(zhǔn)規(guī)范從計(jì)算處理各個(gè)層面可能依賴高速緩存技術(shù)進(jìn)行性能提升的環(huán)節(jié)制定規(guī)則,以保證各業(yè)務(wù)在使用Redis時(shí),程序能夠正確執(zhí)行。針對(duì)平臺(tái)的接口管理和監(jiān)控,制定服務(wù)接口技術(shù)標(biāo)準(zhǔn)規(guī)范,用戶可以通過訪問平臺(tái)地址進(jìn)入系統(tǒng),使用用戶注冊(cè)、接口申請(qǐng)以及API實(shí)例監(jiān)控等功能來滿足各種需求。

      2.3.2 硬件設(shè)施部署

      (1)服務(wù)器組件部署。NSTL大數(shù)據(jù)管理與計(jì)算平臺(tái)基礎(chǔ)設(shè)施硬件部署,將配備30臺(tái)服務(wù)器支撐數(shù)據(jù)深加工過程,強(qiáng)調(diào)存儲(chǔ)能力、計(jì)算能力、服務(wù)能力。其中,10臺(tái)服務(wù)器構(gòu)建分布式存儲(chǔ)集群,10臺(tái)服務(wù)器構(gòu)建分布式搜索引擎集群,6臺(tái)服務(wù)器構(gòu)建分布式計(jì)算集群,4臺(tái)服務(wù)器部署集中管理工具、日志服務(wù)應(yīng)用。

      (2)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。網(wǎng)絡(luò)拓?fù)渲饕?部分組成:可擴(kuò)展的數(shù)據(jù)匯聚服務(wù)器集群,可擴(kuò)展和可負(fù)載均衡的Map-Reduce計(jì)算引擎,HDFS文件系統(tǒng)以及Hive數(shù)據(jù)倉庫共用服務(wù)器集群,可擴(kuò)展的ElasticSearch計(jì)算引擎集群,可擴(kuò)展和可負(fù)載均衡的Spark計(jì)算引擎集群,可擴(kuò)展的SpringCloud微服務(wù)集群。

      2.3.3 軟件設(shè)施部署

      (1)關(guān)鍵技術(shù)選型。NSTL數(shù)據(jù)具有多類型、多來源、數(shù)據(jù)量級(jí)增長(zhǎng)快等特性,傳統(tǒng)處理技術(shù)很難進(jìn)行較高效的數(shù)據(jù)處理。在分布式存儲(chǔ)方面,G級(jí)別大文件可采用HDFS分布式文件系統(tǒng);小文件的存儲(chǔ)1M左右,甚至更小,則采用FastDFS文件系統(tǒng)。索引存儲(chǔ)采用ElasticSearch。高性能緩沖存儲(chǔ)采用Redis。通過以上軟件整合,可使存儲(chǔ)所需資源按需使用,可根據(jù)業(yè)務(wù)需要彈性伸縮存儲(chǔ)能力,有效節(jié)省成本用于海量數(shù)據(jù)的管理和分析,提供Hadoop/Spark框架對(duì)接能力。

      在分布式計(jì)算方面,海量數(shù)據(jù)ETL等處理適合采用MapReduce、模型計(jì)算等適合采用Spark、實(shí)時(shí)要求高的計(jì)算適合采用Spark-streaming或Storm、簡(jiǎn)單的類SQL處理適合用HiveSQL。通過以上軟件整合,可支持對(duì)海量數(shù)據(jù)的清洗、抽取等技術(shù)數(shù)據(jù)處理的并行執(zhí)行,覆蓋多種主流計(jì)算引擎。可定制主流的模型,提供實(shí)時(shí)分析與推薦,專注于垂直數(shù)據(jù)的深度[9]。

      通過以上大數(shù)據(jù)生態(tài)圈成熟技術(shù)的整合,可使平臺(tái)具有多源聚合、多類型存儲(chǔ)、高吞吐、可彈性擴(kuò)展、計(jì)算模型準(zhǔn)確度高、計(jì)算資源分配較合理等特性。

      (2)關(guān)鍵技術(shù)部署。平臺(tái)主要從技術(shù)架構(gòu)中的3層功能區(qū)進(jìn)行部署,即數(shù)據(jù)匯聚區(qū)、數(shù)據(jù)存儲(chǔ)區(qū)和數(shù)據(jù)輸出區(qū)。平臺(tái)上集成部署了分布式文件系統(tǒng)(HDFS)、分布式計(jì)算系統(tǒng)(MR)、搜索引擎集群(ES)、內(nèi)存計(jì)算集群(Spark)、高性能KV服務(wù)(Redis)、數(shù)據(jù)倉庫管理工具(Hive)、分布式協(xié)調(diào)系統(tǒng)(ZK)大數(shù)據(jù)處理與管理工具等。

      針對(duì)通用分布式技術(shù)環(huán)境部署進(jìn)行系統(tǒng)級(jí)優(yōu)化,以開源軟件官方網(wǎng)站提供的說明為基礎(chǔ),結(jié)合集群的實(shí)際情況進(jìn)行調(diào)優(yōu)。解決包括SSHD登錄慢,永久性關(guān)閉防火墻,最大打開文件數(shù)、進(jìn)程數(shù)、文件數(shù)、單一進(jìn)程可申請(qǐng)的內(nèi)存數(shù)以及關(guān)閉SWAP等問題。對(duì)分布式組件的部分重要參數(shù),通過關(guān)閉置換區(qū),增加文件描述符的最大數(shù)量,提供足夠的內(nèi)存和線程最大數(shù)量以及對(duì)JAVA虛擬機(jī)和DNS緩存的設(shè)置,進(jìn)行了進(jìn)一步優(yōu)化。

      (3)微服務(wù)系統(tǒng)建設(shè)。平臺(tái)對(duì)外數(shù)據(jù)接口采用微服務(wù)架構(gòu),服務(wù)接口之間互相獨(dú)立部署,動(dòng)態(tài)擴(kuò)展,穩(wěn)定性高,易于拆分。微服務(wù)子系統(tǒng)建設(shè)將采用的技術(shù)架構(gòu)為Spring Cloud、EUREKA、ElasticSearch、MySQL。接口通過HTTP請(qǐng)求訪問指定的請(qǐng)求方法,接口在訪問ElasticSearch前進(jìn)行安全策略檢查,同時(shí)響應(yīng)固定格式的返回結(jié)果。接口建立初衷是為了減少服務(wù)對(duì)于ElasticSearch集群壓力,還可以通過定制開發(fā),更好地為用戶提供優(yōu)質(zhì)的服務(wù)。

      微服務(wù)子系統(tǒng)通過服務(wù)注冊(cè)模塊為各數(shù)據(jù)輸出提供接口應(yīng)用注冊(cè),通過數(shù)據(jù)總線(Data-Bus)支撐獲取數(shù)據(jù),各應(yīng)用可共享數(shù)據(jù)通路也可獨(dú)立使用,可針對(duì)每個(gè)服務(wù)組件進(jìn)行拆分和開發(fā);同時(shí)支持接口應(yīng)用熱插拔功能。

      3 應(yīng)用實(shí)踐

      基于上述硬件環(huán)境、軟件環(huán)境和技術(shù)規(guī)范的設(shè)計(jì),搭建了滿足NSTL數(shù)據(jù)管理和計(jì)算需要的平臺(tái)環(huán)境。目前該平臺(tái)環(huán)境在數(shù)據(jù)治理流程、分布式計(jì)算、微服務(wù)等三方面開展了應(yīng)用。

      3.1 多來源異構(gòu)數(shù)據(jù)治理流程應(yīng)用

      數(shù)據(jù)治理需要建立統(tǒng)一化的流程體系,體系構(gòu)建從數(shù)據(jù)生態(tài)建立、治理統(tǒng)一規(guī)范標(biāo)準(zhǔn)、數(shù)據(jù)雙向流動(dòng)、多種計(jì)算框架、數(shù)據(jù)釋放價(jià)值五方面支撐。其中數(shù)據(jù)雙向流動(dòng)通過HDFS文件系統(tǒng)為中介[10],使業(yè)務(wù)存儲(chǔ)覆蓋多個(gè)文件系統(tǒng),互相備份數(shù)據(jù),保障安全。通過各種合適的計(jì)算框架,諸如Java程序、MapReduce程序、Spark程序等保證計(jì)算效率,節(jié)省計(jì)算資源。通過微服務(wù)技術(shù)使數(shù)據(jù)服務(wù)與數(shù)據(jù)應(yīng)用完全解耦,具有彈性擴(kuò)展能力。平臺(tái)數(shù)據(jù)治理流程如圖4所示。

      圖4 平臺(tái)數(shù)據(jù)治理流程

      數(shù)據(jù)流管理分為批處理和流處理。在批處理階段:①②從數(shù)據(jù)源開始,對(duì)全量數(shù)據(jù)進(jìn)行統(tǒng)一匯聚;③來源數(shù)據(jù)在進(jìn)行ETL處理后進(jìn)入分布式文件系統(tǒng)HFDS;④通過Hive元數(shù)據(jù)管理方式構(gòu)建數(shù)據(jù)倉庫;⑦采用MapReduce或者Spark計(jì)算框架,對(duì)數(shù)據(jù)進(jìn)行處理后在計(jì)算索引中創(chuàng)建索引;⑧計(jì)算索引數(shù)據(jù)定時(shí)同步到服務(wù)索引中。在流處理階段:主要的區(qū)別在于通過Spark-streaming對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,并在計(jì)算索引中創(chuàng)建索引,后續(xù)處理與批處理一致;⑤⑥為更方便、高效地支持多用戶使用,平臺(tái)基于計(jì)算框架底層接口開發(fā)分布式計(jì)算任務(wù)管理模塊,支撐用戶遠(yuǎn)程提交作業(yè),共享集群的計(jì)算資源;⑨⑩在服務(wù)層,通過微服務(wù)技術(shù)將前后端分離;?分別向人、程序、機(jī)構(gòu)提供數(shù)據(jù)輸出服務(wù)。

      3.2 分布式計(jì)算技術(shù)應(yīng)用

      基于大數(shù)據(jù)基礎(chǔ)設(shè)施的新加工模式下的引文數(shù)據(jù)進(jìn)行關(guān)系計(jì)算,形成歸一關(guān)系、被引關(guān)系和耦合關(guān)系?;跉w一關(guān)系還原引文數(shù)據(jù),充分發(fā)揮引文數(shù)據(jù)在信息發(fā)現(xiàn)、信息利用中的作用。應(yīng)用主要包括引文關(guān)系元數(shù)據(jù)設(shè)計(jì),基于Spark引文計(jì)算流程設(shè)計(jì),基于Spark引文計(jì)算算法封裝。

      基于Spark引文計(jì)算設(shè)計(jì)流程思想,將關(guān)系計(jì)算的需求轉(zhuǎn)化為對(duì)數(shù)據(jù)集的篩選、統(tǒng)計(jì)的結(jié)構(gòu)化檢索語言。類似業(yè)務(wù)管理系統(tǒng)通過SQL實(shí)現(xiàn)主要數(shù)據(jù)操作的思想。被引關(guān)系計(jì)算主要抽取文獻(xiàn)被引關(guān)鍵字段,通過相關(guān)字段檢索識(shí)別可進(jìn)行溯源的文獻(xiàn),然后利用Spark進(jìn)行被引次數(shù)累計(jì)計(jì)算,并提供實(shí)時(shí)接口輸出計(jì)算結(jié)果。耦合關(guān)系計(jì)算分別抽取兩篇文獻(xiàn)的關(guān)鍵字段,利用兩篇文獻(xiàn)的所有參考文獻(xiàn)進(jìn)行耦合檢索(兩兩共同出現(xiàn)),然后利用Spark進(jìn)行耦合數(shù)累計(jì)計(jì)算,并提供實(shí)時(shí)接口輸出計(jì)算結(jié)果。引文關(guān)系計(jì)算架構(gòu)如圖5所示。

      其中Spark計(jì)算引擎原理為:通過Spark-submit提交Application,Spark管理節(jié)點(diǎn)(Master)將分派集群計(jì)算資源,各集群工作節(jié)點(diǎn)(Worker)接收任務(wù)并實(shí)時(shí)監(jiān)控運(yùn)行狀態(tài)并反饋管理節(jié)點(diǎn)(Master)。目前已對(duì)國(guó)際西文引文(DISC)數(shù)據(jù)進(jìn)行引文計(jì)算測(cè)試,約3000萬條文摘、3億條引文數(shù)據(jù)計(jì)算時(shí)間約6小時(shí),對(duì)比原來的計(jì)算方式在時(shí)間效率上提高3倍。因?yàn)槟壳袄盟阉饕娣绞接?jì)算數(shù)據(jù),所以數(shù)據(jù)可進(jìn)行增量引文關(guān)系計(jì)算,增量處理約1萬條/分鐘級(jí)別。

      圖5 引文關(guān)系計(jì)算架構(gòu)

      通過大數(shù)據(jù)基礎(chǔ)環(huán)境,首先解決了海量數(shù)據(jù)存儲(chǔ)的瓶頸問題,其次利用ElasticSearch搜索引擎解決了數(shù)據(jù)增量計(jì)算問題,最后利用Spark計(jì)算引擎提升了計(jì)算效率。

      3.3 微服務(wù)技術(shù)應(yīng)用

      基于大數(shù)據(jù)基礎(chǔ)環(huán)境中微服務(wù)系統(tǒng),可輕松建立各種類型的數(shù)據(jù)輸出服務(wù)接口,各服務(wù)接口獨(dú)立部署,動(dòng)態(tài)擴(kuò)展,穩(wěn)定性較高。如通用文獻(xiàn)獲取接口(XML與JSON格式)、引文關(guān)系計(jì)算的被引頻次與耦合度接口、實(shí)體規(guī)范關(guān)系接口等。部署的接口通過松耦合且獨(dú)立靈活方式無縫對(duì)接NSTL其他業(yè)務(wù)系統(tǒng),實(shí)現(xiàn)特色數(shù)據(jù)服務(wù)。

      4 結(jié)語

      本文通過基于大數(shù)據(jù)開源生態(tài)圈技術(shù),自主研發(fā)滿足NSTL大數(shù)據(jù)管理與計(jì)算需求的平臺(tái),實(shí)現(xiàn)了NSTL業(yè)務(wù)流程再造目標(biāo),解決了數(shù)據(jù)存儲(chǔ)與計(jì)算瓶頸,提升了數(shù)據(jù)治理能力與數(shù)據(jù)服務(wù)能力。同時(shí)也探索了基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)治理框架,并結(jié)合NSTL數(shù)據(jù)服務(wù)特點(diǎn)介紹了相關(guān)應(yīng)用示范。未來將基于前期基礎(chǔ),不斷實(shí)踐與探索,進(jìn)一步優(yōu)化流程和完善平臺(tái),提升文獻(xiàn)數(shù)據(jù)的服務(wù)質(zhì)量,以適應(yīng)從文獻(xiàn)服務(wù)向知識(shí)服務(wù)轉(zhuǎn)變的發(fā)展戰(zhàn)略。

      猜你喜歡
      標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)管理集群
      企業(yè)級(jí)BOM數(shù)據(jù)管理概要
      定制化汽車制造的數(shù)據(jù)管理分析
      海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
      CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
      海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
      工業(yè)鍋爐標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)庫管理系統(tǒng)實(shí)現(xiàn)
      一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      韓國(guó)擬修訂食品容器和包裝標(biāo)準(zhǔn)規(guī)范
      福安市| 年辖:市辖区| 华池县| 郎溪县| 罗城| 平陆县| 获嘉县| 天水市| 化德县| 平顶山市| 左贡县| 兴安县| 和政县| 武功县| 成安县| 永安市| 化州市| 拜城县| 德惠市| 西峡县| 嘉善县| 读书| 庆安县| 咸宁市| 芜湖县| 桂平市| 张家口市| 扎兰屯市| 大兴区| 延寿县| 平昌县| 商河县| 巫山县| 北票市| 河北省| 天柱县| 开阳县| 油尖旺区| 涿鹿县| 芮城县| 湖南省|