• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Hadoop的云計(jì)算平臺(tái)的研究與設(shè)計(jì)

      2016-03-18 08:30:59王麗莉
      移動(dòng)信息 2016年12期
      關(guān)鍵詞:分布式計(jì)算海量數(shù)據(jù)處理

      王麗莉

      ?

      基于Hadoop的云計(jì)算平臺(tái)的研究與設(shè)計(jì)

      王麗莉

      天安財(cái)產(chǎn)保險(xiǎn)股份有限公司,上海 200120

      隨著保險(xiǎn)保險(xiǎn)行業(yè)對(duì)信息化的要求越來(lái)越高,幫助保險(xiǎn)行業(yè)應(yīng)對(duì)互聯(lián)網(wǎng)環(huán)境下的大渠道、大保單、大數(shù)據(jù)的挑戰(zhàn),支持大數(shù)據(jù)分析和介入,拓寬數(shù)據(jù)挖掘的廣度和深度,利用云計(jì)算平臺(tái)管理和存儲(chǔ)這些數(shù)據(jù)顯得極為重要?;诖?,提出了一種基于分布式計(jì)算技術(shù)進(jìn)行管理和存儲(chǔ)海量數(shù)據(jù)的方法,設(shè)計(jì)開(kāi)發(fā)基于Hadoop的云計(jì)算平臺(tái)。

      云計(jì)算;保險(xiǎn)行業(yè);Hadoop;分布式計(jì)算

      引言

      采用云的形式,將使保險(xiǎn)公司變得更為靈活、快速。傳統(tǒng)模式下,保險(xiǎn)公司上線新產(chǎn)品需要3~6個(gè)月的時(shí)間,采用云平臺(tái)后將會(huì)縮短到1~2周。對(duì)應(yīng)的開(kāi)發(fā)成本、部署成本將會(huì)從百萬(wàn)級(jí)十萬(wàn)級(jí)降低至數(shù)萬(wàn)元??焖俚漠a(chǎn)品部署意味著極低的試錯(cuò)成本。面對(duì)突發(fā)的市場(chǎng)需求,保險(xiǎn)公司可快速推出產(chǎn)品,同時(shí)根據(jù)市場(chǎng)反饋不斷調(diào)整策略。這種小步快跑、快速迭代的方式,讓保險(xiǎn)公司能夠就像互聯(lián)網(wǎng)公司一樣迅速響應(yīng)市場(chǎng)需求,推出新產(chǎn)品。幫助保險(xiǎn)公司低成本、低風(fēng)險(xiǎn)、快速利用云計(jì)算優(yōu)勢(shì)拓展優(yōu)化傳統(tǒng)業(yè)務(wù)和服務(wù),同時(shí)使保險(xiǎn)公司更容易的利用云平臺(tái)生態(tài)圈為保險(xiǎn)提供流量,渠道和大數(shù)據(jù)服務(wù)。此外,云平臺(tái)還將輸出大數(shù)據(jù)挖掘分析能力,改變保險(xiǎn)公司只能依托自有數(shù)據(jù)對(duì)產(chǎn)品定價(jià)的模式,讓保險(xiǎn)公司更了解客戶,做到人群細(xì)分和差異化定價(jià)。

      1 云計(jì)算及Hadoop技術(shù)簡(jiǎn)介

      1.1 云計(jì)算概述

      云計(jì)算是一種超級(jí)計(jì)算模式,通過(guò)把計(jì)算任務(wù)分配給大量計(jì)算機(jī)構(gòu)成的資源池上,使應(yīng)用系統(tǒng)根據(jù)需求獲得相應(yīng)的計(jì)算能力、存儲(chǔ)空間和軟件服務(wù),通過(guò)網(wǎng)絡(luò)訪問(wèn)可配置的計(jì)算資源(例如網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用和服務(wù)),這些資源可實(shí)現(xiàn)快速提供與釋放,并且只需極少的管理成本或服務(wù)供應(yīng)商的干預(yù)[1-2]。

      云計(jì)算模式具有“按需自助服務(wù)、寬廣網(wǎng)絡(luò)訪問(wèn)、資源池化、快速伸縮、可計(jì)量服務(wù)”5項(xiàng)基本特征和“私有云、社區(qū)云、公有云、混合云”4種部署方式,提供“SaaS、PaaS、IaaS”3大服務(wù)類型。

      云計(jì)算體系結(jié)構(gòu)自底而上為物理資源層、資源池層、管理中間件層和SOA(Service Oriented Architecture)構(gòu)建層[3]。物理資源層由計(jì)算機(jī)、存儲(chǔ)器、網(wǎng)絡(luò)設(shè)施、數(shù)據(jù)庫(kù)和軟件等組成。資源池層將大量相同類型的資源構(gòu)成同構(gòu)或接近同構(gòu)的資源池。管理中間件層負(fù)責(zé)云計(jì)算的資源管理,并對(duì)眾多應(yīng)用任務(wù)進(jìn)行調(diào)度,使資源能夠高效、安全地為應(yīng)用提供服務(wù)。SOA構(gòu)建層將云計(jì)算能力封裝成標(biāo)準(zhǔn)的Web Service服務(wù),并納入到SOA體系進(jìn)行管理和使用。

      云計(jì)算基本架構(gòu)由管理和服務(wù)兩大部分組成[4]。

      1.2 Hadoop概述

      Hadoop是Apache開(kāi)源組織的一個(gè)分布式計(jì)算框架,可以在任何普通的硬件設(shè)備組成的集群上運(yùn)行應(yīng)用程序,構(gòu)建一個(gè)具有高可靠性和良好擴(kuò)展性的并行分布式系統(tǒng),HDFS分布式文件系統(tǒng)、MapReduce編程模型和HBase分布式數(shù)據(jù)庫(kù)是其三大核心技術(shù) 無(wú)論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是Hadoop的設(shè)計(jì)根本。它是完全使用Java開(kāi)發(fā)的開(kāi)源平臺(tái),可以運(yùn)行在任何普通的軟硬件平臺(tái)上。Hadoop所采用的分布式系統(tǒng)屬于一種被稱為“向外擴(kuò)展”的增強(qiáng)計(jì)算能力的方式,它是把許多低成本的PC設(shè)備組成大型集群,形成功能專一的分布式系統(tǒng)。分布式文件系統(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。它的高效數(shù)據(jù)交互實(shí)現(xiàn)以及MapReduce結(jié)合Local Data處理的模式,為高效處理海量的信息做了基礎(chǔ)準(zhǔn)備。

      整個(gè)Hadoop的體系結(jié)構(gòu)主要通過(guò)HDFS實(shí)現(xiàn)對(duì)分布式存儲(chǔ)的底層支持,通過(guò)MapReduce來(lái)實(shí)現(xiàn)對(duì)分布式并行任務(wù)處理的程序支持。

      2 基于Hadoop的云計(jì)算平臺(tái)設(shè)計(jì)

      2.1 Hadoop云計(jì)算平臺(tái)總體設(shè)計(jì)

      結(jié)合海量數(shù)據(jù)異構(gòu)性、分布性、多樣性等特點(diǎn),從系統(tǒng)編程實(shí)現(xiàn)角度考慮,采用MVC架構(gòu)設(shè)計(jì),使結(jié)構(gòu)更加清晰,系統(tǒng)易于擴(kuò)展,系統(tǒng)整體架構(gòu)如圖1所示:

      圖1 平臺(tái)整體框架結(jié)構(gòu)

      2.2 Hadoop云計(jì)算平臺(tái)功能設(shè)計(jì)思想

      從功能考慮,基于Hadoop的集群特征,將云計(jì)算平臺(tái)的計(jì)算資源擴(kuò)展到Hadoop的各個(gè)節(jié)點(diǎn)上,利用Hadoop集群的并行計(jì)算和存儲(chǔ)功能與數(shù)據(jù)處理的理論相結(jié)合,便可以高效完成海量數(shù)據(jù)的處理,實(shí)現(xiàn)基于Hadoop的云計(jì)算平臺(tái)。

      Hadoop是一種分布式系統(tǒng)基礎(chǔ)架構(gòu),與MapReduce編程模式相結(jié)合,用戶可以對(duì)分布式程序進(jìn)行開(kāi)發(fā),對(duì)集群快速高效的數(shù)據(jù)運(yùn)算和數(shù)據(jù)存儲(chǔ)充分利用。因此,基于Hadoop的云計(jì)算平臺(tái)在處理計(jì)算資源數(shù)據(jù)過(guò)程中具有如下特點(diǎn):(1)在Hadoop的存儲(chǔ)和處理過(guò)程中,數(shù)據(jù)可以通過(guò)建立多個(gè)副本的方式對(duì)丟失的或錯(cuò)誤的數(shù)據(jù)進(jìn)行快速及時(shí)的恢復(fù)。MapReduce可以將集群的最大計(jì)算資源進(jìn)行調(diào)用,Hadoop分布式文件系統(tǒng)可調(diào)用集群的最大存儲(chǔ)資源,根據(jù)計(jì)算和存儲(chǔ)任務(wù)來(lái)增加集群的節(jié)點(diǎn)。(2)編程人員不需要關(guān)心每處數(shù)據(jù)的細(xì)節(jié),只需將MapReduce作為統(tǒng)一的數(shù)據(jù)處理接口,用戶對(duì)處理任務(wù)和處理結(jié)果的收集過(guò)程是透明的。子問(wèn)題與子問(wèn)題之間的數(shù)據(jù)交互可由MapReduce組織管理,在數(shù)據(jù)處理過(guò)程中可以根據(jù)節(jié)點(diǎn)與數(shù)據(jù)的特點(diǎn)進(jìn)行適當(dāng)修改MapReduce接口來(lái)提高數(shù)據(jù)處理的效率。(3)Hadoop云平臺(tái)結(jié)合MapReduce改進(jìn)關(guān)聯(lián)規(guī)則的算法,可以實(shí)現(xiàn)數(shù)據(jù)操作并行執(zhí)行,提高了傳統(tǒng)關(guān)聯(lián)算法的效率。

      2.2 Hadoop云計(jì)算平臺(tái)建設(shè)

      Hadoop框架的MapReduce計(jì)算模型為海量數(shù)據(jù)的復(fù)雜計(jì)算問(wèn)題提供了簡(jiǎn)單的編程模型。

      (1)MapReduce原理,MapReduce是一種高效的適用于海量數(shù)據(jù)處理的分布式編程模型。MapReduce的工作過(guò)程可以分為兩個(gè)階段:Map階段和Reduce階段。Map將一個(gè)任務(wù)分解成多個(gè)任務(wù),Reduce將分解后的多任務(wù)的結(jié)果匯總起來(lái)得出最后的分析結(jié)果。用戶定義一個(gè)Map函數(shù)來(lái)處理原始數(shù)據(jù),得到的輸出結(jié)果是一組鍵值對(duì)(key/value),再定義一個(gè)Reduce函數(shù)將所有擁有相同key值的中間結(jié)果進(jìn)行合并。

      (2)HDFS系統(tǒng)搭,HDFS是Hadoop框架中的分布式并行文件系統(tǒng),它實(shí)現(xiàn)了數(shù)據(jù)的分布式存儲(chǔ)及管理與高吞吐量訪問(wèn)的功能。HDFS對(duì)于整個(gè)集群有單一的命名空間,保持了數(shù)據(jù)一致性,文件會(huì)被分割成多個(gè)文件塊,每個(gè)文件塊被分配存儲(chǔ)到數(shù)據(jù)節(jié)點(diǎn)上。HDFS由一個(gè)名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode組成。NameNode負(fù)責(zé)存儲(chǔ)文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問(wèn),DataNode用來(lái)存放實(shí)際的數(shù)據(jù)。每個(gè)文件都被劃分成若干64 M的數(shù)據(jù)塊,這些數(shù)據(jù)塊會(huì)被分散地存儲(chǔ)到各個(gè)DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會(huì)為數(shù)據(jù)進(jìn)行備份,默認(rèn)情況下,每個(gè)數(shù)據(jù)塊會(huì)有三個(gè)副本分別存放在不同的機(jī)器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進(jìn)行通信。HDFS采用Master/ Slave 的體系結(jié)構(gòu),集群中有一個(gè)NameNode和很多個(gè)DataNode組成。Master相當(dāng)于管理員,管理統(tǒng)一的命名空間,主要負(fù)責(zé)NameNode及JobTracker的工作;JobTracker啟動(dòng)、跟蹤和調(diào)度各個(gè)Slave的任務(wù)執(zhí)行;Slave:相當(dāng)于執(zhí)行者,分布式的數(shù)據(jù)節(jié)點(diǎn),具有DataNode的功能并負(fù)責(zé)TaskTracker的工作;TaskTracker根據(jù)應(yīng)用要求結(jié)合本地?cái)?shù)據(jù)執(zhí)行Map以及Reduce的任務(wù)。

      (3)基于Hadoop云計(jì)算平臺(tái)的設(shè)計(jì),結(jié)合MapReduce原理和HDFS搭建思路,云計(jì)算平臺(tái)采用分層思想,可分為:交互層、業(yè)務(wù)應(yīng)用層、數(shù)據(jù)處理層、分布式計(jì)算層。其中,交互層通過(guò)提供具有良好表現(xiàn)形式的圖形界面,使得用戶可以登錄系統(tǒng)定制各種細(xì)粒度的業(yè)務(wù),進(jìn)行查看或者保存各種輸出結(jié)果。業(yè)務(wù)應(yīng)用層提供了各種業(yè)務(wù)邏輯并實(shí)現(xiàn)了對(duì)各種業(yè)務(wù)流程的控制和調(diào)度,通過(guò)調(diào)用數(shù)據(jù)處理層的多個(gè)模塊完成交互層提交的業(yè)務(wù),并返回結(jié)果到交互層。數(shù)據(jù)處理層為業(yè)務(wù)應(yīng)用層提供業(yè)務(wù)流需要的各個(gè)模塊,實(shí)現(xiàn)各種任務(wù)過(guò)程中的并行算法,再將任務(wù)提交到Hadoop分布式計(jì)算層進(jìn)行運(yùn)算,并將結(jié)果返回給業(yè)務(wù)應(yīng)用層。分布式計(jì)算層使用Hadoop框架實(shí)現(xiàn)集群存儲(chǔ)和計(jì)算。

      [1]蔣林濤.對(duì)云計(jì)算中若干問(wèn)題的思考[J].電信科學(xué),2011(3):1-6.

      [2]劉鵬.云計(jì)算[M].2版.北京:電子工業(yè)出版社,2011.

      [3]吳朱華.云計(jì)算核心技術(shù)剖析[M].北京:人民郵電出版社,2012.

      TP311.13

      A

      1009-6434(2016)12-0117-02

      猜你喜歡
      分布式計(jì)算海量數(shù)據(jù)處理
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
      基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
      云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
      一個(gè)圖形所蘊(yùn)含的“海量”巧題
      面向異構(gòu)分布式計(jì)算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
      基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
      基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
      平乡县| 明星| 突泉县| 正镶白旗| 恭城| 富蕴县| 广德县| 新余市| 泾川县| 扬中市| 三台县| 阿拉尔市| 竹溪县| 邵阳县| 西乡县| 依安县| 徐闻县| 安康市| 通海县| 嘉定区| 红桥区| 腾冲县| 通江县| 临沭县| 温宿县| 祁阳县| 翁牛特旗| 曲阜市| 临西县| 尚义县| 故城县| 赤峰市| 石屏县| 余庆县| 藁城市| 高邑县| 临泉县| 囊谦县| 都昌县| 民县| 剑阁县|