• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數據處理平臺比較研究

      2017-06-20 08:54:19許吳環(huán)顧瀟華
      軟件導刊 2017年4期
      關鍵詞:大數據平臺比較研究

      許吳環(huán)+顧瀟華

      摘要:大數據環(huán)境下,傳統的數據處理方式不再適用,以云計算技術為支撐的大數據處理平臺應運而生。比較了開源Hadoop和Spark平臺各自的優(yōu)缺點,發(fā)現各自的適用范圍:Hadoop適用于數據密集型任務,并廣泛應用于離線分析;Spark因其基于內存計算,在迭代計算和實時分析領域占據優(yōu)勢。二者在功能上有較強的互補性,協同使用可以發(fā)揮更大效益。

      關鍵詞:大數據平臺;Hadoop; Spark;比較研究

      中圖分類號:TP301

      文獻標識碼:A

      文章編號:16727800(2017)004021202

      1大數據處理平臺

      1.1大數據特點

      目前,大數據還沒有一個標準定義,但是把握大數據的特征,有助于加深對大數據內涵的理解。數據具有的3V特征,即規(guī)模大(Volume)、種類多(Variety)、速度快(Velocity)。規(guī)模大,意味著數據量不斷擴張,數據量級從現在的GB、TB增長到PB、EB甚至ZB級;種類多,指數據類型有結構化、半結構化和非結構化,其中文字、圖片、音頻、視頻等非結構化數據占很大比例;速度快,表示大數據有強時效性,數據快速產生,需要及時處理及分析才能實現大數據的經濟價值。 大數據的處理過程為數據抽取與集成、數據分析以及數據解釋 [1]。巨量的數據往往也意味著噪聲較多,這給數據清洗工作造成困難。傳統的關系型數據庫處理對象單位通常為MB,適合處理存儲結構化數據,而面向大數據的數據庫技術能夠解決海量的非結構數據存儲問題。傳統的數據分析方法以算法的準確率作為重要的衡量指標,而大數據的高速性要求算法必須犧牲一部分準確性以更高效地處理數據。

      1.2大數據處理平臺

      為從規(guī)模巨大、種類繁多、生成快速的數據集中挖掘價值[2],針對大數據的技術和方法應運而生。GFS、NoSQL、ITHbase、MapReduce等云計算技術發(fā)展,使大數據有效存儲、管理和分析成為可能。但從眾多復雜的大數據技術中進行選擇,并搭建完備的大數據處理框架難度很高,不利于挖掘大數據中的經濟價值。大數據平臺能在用戶不了解架構底層細節(jié)的情況下,開發(fā)大數據應用程序。全球領先的科技巨頭紛紛提出了建設與應用大數據處理平臺:IBM公司推出了云端版InfoSphere BigInsights[3];HP推出了HP Vertica6.1分析平臺[4];Google提出的GFS、MapReduce等云計算技術催生了大數據處理平臺的事實標準Hadoop。目前,Google使用的是自己開發(fā)的Caffeine[2];Facebook結合自身需求實現了Corona、Prism。完備、高效的大數據處理平臺為大數據應用提供一站式基礎服務,支持應用系統從清洗、集成、分析到結果可視化展現全過程建設,降低了用戶技術門檻[5]。

      2大數據處理平臺比較

      Hadoop的支撐技術(MapReduce等)成熟,實現了海量數據分布式存儲和批量處理,應用廣泛,成為大數據處理平臺的事實標準。Spark以其近乎實時的性能和相對靈活易用而受到歡迎,它同Hadoop一樣都是Apache旗下的開源集群系統,是目前發(fā)展最快的大數據處理平臺之一。

      2.1Hadoop與Spark比較

      2.1.1Hadoop及特點 Hadoop是由Apache開發(fā)的開源云計算平臺,實現在大量計算機組成的集群中進行分布式存儲和計算。Hadoop框架最核心的技術是HDFS和MapReduce。HDFS是可部署在廉價機器上的分布式文件系統,采用主/從結構,將大文件分割后形成大小相等的block復制3份,分別存儲在不同節(jié)點上,實現了海量數據存儲。MapReduce編程模型實現大數據處理,它的核心是“分而治之”[1]。Map任務區(qū)將輸入數據源分塊后,分散給不同的節(jié)點,通過用戶自定義的Map函數,得到中間key/Value集合,存儲到HDFS上。Reduce任務區(qū)從硬盤上讀取中間結果,把相同K值數據組織在一起,再經過用戶自定義的Reduce函數處理,得到并輸出結果;將巨量資料的處理并行運行在集群上,實現對大數據的有效處理。 Hadoop具有如下優(yōu)點[69]: (1)高擴展性。Hadoop的橫向擴展性能很好,海量數據能橫跨幾百甚至上千臺服務器,而用戶使用時感覺只是面對一個。大量計算機并行工作,對大數據的處理能在合理時間內完成并得以應用,這是傳統單機模式無法實現的。 (2)高容錯性。從HDFS的設計可以看出它通過提供數據冗余的方式提供高可靠性。當某個數據塊損壞或丟失,NameNode就會將其它DataNode上的副本進行復制,保證每塊都有3份。所以,在數據處理過程中,當集群中機器出現故障時計算不會停止。 (3)節(jié)約成本。首先,Hadoop本身是開源軟件,完全免費;其次,它可以部署在廉價的PC機上;“把計算推送給數據”的設計理念,節(jié)省了數據傳輸中的通信開銷。而傳統的關系型數據庫將所有數據存儲起來,成本高昂,這不利于大數據產業(yè)發(fā)展。 (4)高效性。Hadoop以簡單直觀的方式解決了大數據處理中的儲存和分析問題。數據規(guī)模越大,相較于單機處理Hadoop的集群并行處理優(yōu)勢越明顯。 (5)基礎性。對于技術優(yōu)勢企業(yè),可以根據基礎的Hadoop結合應用場景進行二次開發(fā),使其更適合工作環(huán)境。比如,Facebook從自身應用需求出發(fā),構建了實時Hadoop系統。 Hadoop系統局限性 [1011]:①不適合迭代運算。MapReduce要求每個運算結果都輸出到HDFS,每次初始化都要從HDFS讀入數據。在迭代運算中,每次運算的中間結果都要寫入磁盤,Hadoop在執(zhí)行每一次功能相同的迭代任務時都要反復操作I/O,計算代價很大。而對于常見的圖計算和數據挖掘等,迭代計算又是必要的;②實時性差。Hadoop平臺由于頻繁的磁盤I/O操作,大大增加了時間延遲,不能勝任快速處理任務;③易用性差。Hadoop只是一個基礎框架,精細程度有所欠缺,如果要實現具體業(yè)務還需進一步開發(fā)。MapReduce特定的編程模型增加了Hadoop的技術復雜性。

      2.1.2Spark及特點 Spark的整個生態(tài)系統稱為BDAS(伯克利數據分析棧),包括Tachyon、Spark Streaming、Spark Core、MLlib等。其核心框架Spark是為了實現大數據的快速處理而設計的,可以用來構建低延遲應用。Spark以RDD(彈性分布數據集)為基礎,實現了基于內存的大數據計算。RDD是對數據的基本抽象,實現了對分布式內存的抽象使用。由于RDD能緩存到內存中,因此避免了過多的磁盤I/O操作,大大降低了時延。Tachyon是分布式內存文件系統,類似于內存中的HDFS,基于它可以實現RDD或文件在計算機集群中共享。Spark沒有自己的文件系統,通過支持Hadoop HDFS、HBase等進行數據存儲。Spark更專注于計算性能,其特點如下[1113]: (1)高速性。Spark通過內存計算減少磁盤I/O開銷,極大縮小了時間延遲,能處理Hadoop無法應對的迭代運算,在進行圖計算等工作時表現更好。高速數據處理能力使得Spark更能滿足大數據分析中實時分析的要求。 (2)靈活性。較之僅支持map函數和reduce函數的Hadoop,Spark支持map、reduce、filter、join、count等近80多種操作類型。Spark的交互模式使用戶在進行操作時能及時獲得反饋,這是Hadoop不具備的。Spark SQL能直接用標準SQL語句在Spark上進行大數據查詢,簡單易學。盡管在Hadoop中有Hive,可以不用Java來編寫復雜的MapReduce程序,但是Hive在MapReduce上的運行速度卻達不到期望程度。

      2.1.3Hadoop與Spark特點比較分析 Hadoop具有高擴展性、高容錯性、成本低、高效性、不適合迭代運算、實時性差、易用性差等特點,與之相比,Spark最突出的特點是高速性和靈活性,基于這些特點分析總結如下:Hadoop更注重存儲性能,而Spark更專注于計算,可以形象地將二者的處理方式比作“大砍刀”和“剔骨刀”,前者可以勝任更加繁重的任務,但難免粗糙,后者則勝在快速、靈巧上。

      2.2Hadoop與Spark應用場景比較

      2.2.1Hadoop應用場景 Hadoop的高擴展性、高容錯性、基礎性等優(yōu)點,決定了其適用于龐大數據集控制、數據密集型計算和離線分析等場景。針對Hadoop的局限性,為提高Hadoop性能,各種工具應運而生,已經發(fā)展成為包括Hive、Pig、HBase、Cassandra、YARN等在內的完整生態(tài)系統。HBase新型NoSQL數據庫便于數據管理,Hive提供類似SQL的操作方式進行數據分析,Pig是用來處理大規(guī)模數據的高級腳本語言……這些功能模塊在一定程度上彌補了Hadoop的不足,降低了用戶使用難度,擴展了應用場景。

      2.2.2Spark應用場景 與Hadoop不同,Spark高速、靈活的特點,決定了它適用于迭代計算、交互式查詢、實時分析等場景,比如,淘寶使用Spark來實現基于用戶的圖計算應用[11]。但是,其RDD特點使其不適合異步細粒度更新狀態(tài)的應用[1],比如,增量的Web抓取和索引。RDD的特點之一是“不可變”,即只讀不可寫,如果要對RDD中的數據進行更新,就要遍歷整個RDD并生成一個新RDD,頻繁更新代價很大。

      2.2.3Hadoop與Spark的互補競爭關系 Hadoop與Spark同為大數據處理平臺,必然在市場中存在一定的競爭替代關系,二者在功能上有較強的互補性。Hadoop解決了如何將大數據儲存起來的問題,Spark在此基礎上考慮的是更快速、易用地實現大數據分析,這點從Spark仍采用HDFS作為文件系統就可看出。它們適用于不同的應用場景,有時協同工作會達到更理想的效果,在Spark和Hadoop的許多發(fā)行版(如CDH、MapR、InfoSphere BigInsights)中,它們都已經互相支持實現。

      3結語

      本文分析了大數據的3V特點,論述了大數據處理與傳統數據處理的不同,指出了傳統處理方式在大數據環(huán)境下的局限性。通過分析常用的大數據處理平臺,并分析Hadoop和Spark的核心技術,對其優(yōu)缺點進行了歸納。Hadoop實現了海量異構數據的存儲和處理,雖然在處理速度和易用性方面存在缺陷,但由于它的基礎性還是得到廣泛應用,企業(yè)可根據自身應用特點進行改進。雖然Spark不適合異步細粒度更新狀態(tài)的應用,但在處理性能和易用程度上較Hadoop優(yōu)勢顯著,發(fā)展也十分迅速。通過比較兩者的優(yōu)缺點,可以發(fā)現它們在功能上有較強的互補性,協同使用可以帶來效益優(yōu)化。目前Spark和很多Hadoop發(fā)行版都已經互相支持。期望本文對大數據處理平臺的選擇、利用和研發(fā)有所啟發(fā)。

      參考文獻:

      [1]孟小峰.大數據管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146169.

      [2]張引.大數據應用現狀與展望[J].計算機研究與發(fā)展,2013,50(S2):216233.

      [3]IBM.積極推進“大數據”時代革新[J].硅谷,2011(22):116117.

      [4]于翔.HP Vertica 6.1快速連接Hadoop[N].網絡世界報,20130204(034).

      [5]王強.大數據分析平臺建設與應用綜述[J].集成技術,2016,5(2):218.

      [6]黃素萍.Hadoop平臺在大數據處理中的應用研究[J].現代計算機,2013(29):1215.

      [7]任仁.Hadoop在大數據處理中的應用優(yōu)勢分析[J].電子技術與軟件工程,2014(15):194195.

      [8]戴中華.基于Hadoop平臺的大數據分析與處理[J].通訊世界,2015(6):5960.

      [9]張臻.大數據處理平臺分析[J].電信,2014(6):79.

      [10]張巖峰.云環(huán)境下大數據迭代計算研究[D].沈陽:東北大學,2012.

      [11]何海林.大數據處理平臺比較與分析[J].微型機與應用,2015,34(11):717.(責任編輯:杜能鋼)

      猜你喜歡
      大數據平臺比較研究
      基于大數據的智能停車場管理系統設計
      淺談電力大數據平臺關鍵技術研究與應用
      基于大數據分析的智慧倉儲運營支撐平臺設計
      中外數據新聞編輯流程比較研究
      新聞前哨(2016年10期)2016-10-31 17:28:25
      襪業(yè)行業(yè)大數據平臺的應用研究
      各國稅制結構與我國的比較研究
      資產減值新舊會計準則比較研究
      淺析媒介體制比較研究的框架設計和技術邏輯
      今傳媒(2016年9期)2016-10-15 22:27:04
      沈阳市| 上杭县| 满城县| 鄂托克旗| 清流县| 梅河口市| 突泉县| 枝江市| 亳州市| 无锡市| 玉溪市| 永川市| 怀仁县| 兰州市| 正阳县| 沙坪坝区| 沙湾县| 鄂尔多斯市| 鹿邑县| 色达县| 阳谷县| 马龙县| 新安县| 台江县| 当涂县| 克拉玛依市| 雷波县| 雷州市| 礼泉县| 土默特右旗| 邢台县| 孙吴县| 遂宁市| 佛教| 姜堰市| 梅州市| 信宜市| 孝感市| 晴隆县| 枝江市| 江口县|