• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)關(guān)鍵技術(shù)分析及系統(tǒng)實例分析

      2016-04-29 02:56:08溫玉杰
      中國科技博覽 2016年10期
      關(guān)鍵詞:大數(shù)據(jù)分析

      溫玉杰

      [摘 要]根據(jù)大數(shù)據(jù)處理形式不同,將大數(shù)據(jù)計算分為批量處理計算和流式處理計算,對大數(shù)據(jù)中的批量處理計算和流式處理計算進(jìn)行了分析,介紹了不用的大數(shù)據(jù)應(yīng)用場景、數(shù)據(jù)特征和代表性處理系統(tǒng),分析批量計算中的關(guān)鍵技術(shù)(系統(tǒng)架構(gòu)、分布式文件系統(tǒng)、分布式數(shù)據(jù)處理系統(tǒng))和流式計算關(guān)鍵技術(shù)(系統(tǒng)架構(gòu)、數(shù)據(jù)傳輸、編程接口)。

      [關(guān)鍵詞]大數(shù)據(jù)分析 批量處理計算 流式處理計算

      中圖分類號:X734.2 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2016)10-0206-01

      1 引言

      隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,物聯(lián)網(wǎng)技術(shù)、移動互聯(lián)技術(shù)、社交媒體等技術(shù)及其應(yīng)用在是越來越多,全球的數(shù)據(jù)急劇膨脹,人類已經(jīng)步入了大數(shù)據(jù)的時代。大數(shù)據(jù)中包含著大量的隱含信息,需要從這些隱含的信息中提取有價值的大知識,這些大的知識將在更高的層面上、更廣闊的視角、更大范圍內(nèi)對用戶提供洞察力、決策力,為人類以及社會創(chuàng)造更大的利益以及價值。目前主流的大數(shù)據(jù)庫計算模式分為兩種,分別為批量式計算和流式計算兩種模式。

      在批量計算模式中,首先是需要對海量數(shù)據(jù)進(jìn)行存儲,然后對這些存儲的靜態(tài)數(shù)據(jù)進(jìn)行集中起來進(jìn)行計算,目前的Hadoop就是一種非常典型的批量計算架構(gòu);在流式計算模式中,無法確定數(shù)據(jù)的到來時刻以及數(shù)據(jù)的次序,也不用將數(shù)據(jù)全部進(jìn)行存儲起來進(jìn)行計算。而是當(dāng)這些流動的數(shù)據(jù)到來之后直接在內(nèi)存中進(jìn)行實時性的處理,典型的Twitter、Storm、Yahoo的S4就是這種流式的數(shù)據(jù)計算模式。

      2 應(yīng)用場景及數(shù)據(jù)特征

      2.1 批量處理系統(tǒng)

      對于批量處理系統(tǒng)來說,這類系統(tǒng)比較適合對于靜態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從海量信息中獲取具體的含義,得到很明智的決策,最終為領(lǐng)導(dǎo)提供輔助決策制定相應(yīng)的應(yīng)對措施來實現(xiàn)業(yè)務(wù)目標(biāo)。大數(shù)據(jù)中的批量處理系統(tǒng)適合先進(jìn)行存儲然后進(jìn)行計算,對于數(shù)據(jù)處理的實時性要求不是很高,但是對于數(shù)據(jù)的準(zhǔn)確性和全面性要求更高。

      2.1.1 數(shù)據(jù)特征

      對于批量數(shù)據(jù)來說,通常具備三個典型的特征,(1)數(shù)據(jù)量比較大,數(shù)據(jù)量從TB級別到PB級別,數(shù)據(jù)主要是以靜態(tài)的形式存儲在磁盤上,存儲的時間比較大,一般不進(jìn)行數(shù)據(jù)的更新數(shù)據(jù),海量數(shù)據(jù)可以重復(fù)進(jìn)行使用,這種數(shù)據(jù)不容易移動以及備份處理;(2)數(shù)據(jù)的精度比較高,存儲的這些數(shù)據(jù)一般是屬于企業(yè)中的一部分,是長時間積累下來的;(3)數(shù)據(jù)價值密度相對來說比較低。往往有價值的信息比較少,因此需要采用合理的分析算法對這些批量數(shù)據(jù)進(jìn)行信息抽取,同時處理批量數(shù)據(jù)比較耗時,一般不提供交互功能,當(dāng)提取結(jié)果與預(yù)期差別很大時,會浪費很多時間。因此,批量處理系統(tǒng)比較適合相對比較成熟的作業(yè)。

      2.1.2 代表性處理系統(tǒng)

      對于批處理系統(tǒng)來說,比較典型的代表是由Google公司開發(fā)的文件系統(tǒng)GFS(google File System)和研發(fā)的MapReduce編程模型。雖然Google公司沒有對這兩項技術(shù)進(jìn)行源碼的公開,但是基于發(fā)表的兩篇文章,Nutch子項目中的Hadoop實現(xiàn)了開源的兩個產(chǎn)品:HDFS和MapReduce。Hadoop成為批量處理架構(gòu)中非常典型的一種架構(gòu)模式,HDFS負(fù)責(zé)對靜態(tài)的數(shù)據(jù)進(jìn)行存儲,通過MapReduce對這些靜態(tài)數(shù)據(jù)進(jìn)行計算邏輯的分配。Hadoop成為很多IT公司的大數(shù)據(jù)主流架構(gòu),基于HDFS和MapReduce建立了很多項目。

      MapReduce編程模型收到很多主流IT的歡迎,主要有幾個方面的原因:(1)MapReduce是一種沒有共享的大規(guī)模集群系統(tǒng),這種集群系統(tǒng)具有很好的性價比和伸縮性;(2)MapReduce模型比較簡單,容易理解,便于使用。能夠不僅僅處理大規(guī)模的數(shù)據(jù),而且能夠?qū)芏嗉?xì)節(jié)進(jìn)行隱藏(包括自動并行化、負(fù)載均衡、災(zāi)備管理等),能夠很大程度上降低程序員的工作量。

      2.2 流式處理系統(tǒng)

      2.2.1 數(shù)據(jù)特征

      一般情況下,對于流式數(shù)據(jù)來說,是一個無窮的數(shù)據(jù)序列信息,對于流式數(shù)據(jù)中的每個序列來說數(shù)據(jù)的來源是不同的,數(shù)據(jù)可能是結(jié)構(gòu)化或非結(jié)構(gòu)化,這些序列往往包含時間特征,或者有其他能夠表示有序的標(biāo)簽信息。從數(shù)據(jù)庫的角度來說,流式數(shù)據(jù)中的每個元素都可以看成是一個元祖。流式數(shù)據(jù)在不同的場景中能夠表現(xiàn)出不同的特征信息,比如表現(xiàn)流速的大小、元素特征的數(shù)量、數(shù)據(jù)格式不同等。

      2.2.2 代表性處理系統(tǒng)

      流式計算處理系統(tǒng)目前得到廣泛的應(yīng)用,包括Twitter的Storm,F(xiàn)acebook的Scribe,Linkedin的Samza等。本節(jié)主要是對Twitter的Storm進(jìn)行詳細(xì)的介紹。

      Storm的主要特點是一種基于分布式的、可靠、容錯性好的流式處理系統(tǒng),被分配的流式處理作業(yè)能夠分發(fā)到不同的組件上,被分配的每個組件負(fù)責(zé)一項單一的、特定的處理任務(wù)。Storm集群中輸入流由Spout來進(jìn)行負(fù)責(zé),Storm將流式數(shù)據(jù)分發(fā)給Blot的組件,Blot組件對其進(jìn)行處理。Storm可以進(jìn)行實時的數(shù)據(jù)處理以及對數(shù)據(jù)庫進(jìn)行更新,能夠被用于進(jìn)行持續(xù)的計算,對連續(xù)的數(shù)據(jù)流進(jìn)行查詢處理,在計算的過程中結(jié)果是以流的形式輸出給用戶。還可以用于進(jìn)行分布式的處理RPC。

      3 大數(shù)據(jù)關(guān)鍵技術(shù)

      3.1 大數(shù)據(jù)批量計算關(guān)鍵技術(shù)

      在大數(shù)據(jù)批量計算中,系統(tǒng)架構(gòu)、分布式文件系統(tǒng)、分布式數(shù)據(jù)處理系統(tǒng)等關(guān)鍵技術(shù)成為制約其發(fā)展的關(guān)鍵技術(shù)。

      (1)系統(tǒng)架構(gòu)

      在進(jìn)行大數(shù)據(jù)處理的過程中,需要的關(guān)鍵技術(shù)主要是針對海量的數(shù)據(jù)進(jìn)行存儲以及分析計算,因此選擇合理的架構(gòu)對其進(jìn)行批量處理是其中的重點。

      (2)分布式文件系統(tǒng)

      在大數(shù)據(jù)應(yīng)用中,文件系統(tǒng)是其中非常重要的一個部分。對于海量的數(shù)據(jù)需要采取分布式存儲的方式存儲到磁盤上,方便后期的計算。

      (3)分布式數(shù)據(jù)處理系統(tǒng)

      對于分布到磁盤上的海量信息,如何選取合理的數(shù)據(jù)處理系統(tǒng)對其進(jìn)行處理分析是其中的一個非常重要的關(guān)鍵點。

      3.2 大數(shù)據(jù)流式計算關(guān)鍵技術(shù)

      對于流式計算中,理想中的大數(shù)據(jù)流式計算應(yīng)該具有比較低的延遲、高的吞吐量、保持持續(xù)運行、可以伸縮等特征,這些離不開系統(tǒng)的架構(gòu)、海量數(shù)據(jù)的傳輸、編程的接口、高新技術(shù)等關(guān)鍵技術(shù)的合理設(shè)計與規(guī)劃。

      (1)系統(tǒng)架構(gòu)設(shè)計

      流式計算中的架構(gòu)指不同的各個子系統(tǒng)之間的一種重新組合的方式,對于流式處理計算中需要選擇特定的框架進(jìn)行流式計算。目前主流的流式計算系統(tǒng)中采用的架構(gòu)分為無中心節(jié)點的對稱系統(tǒng)架構(gòu)以及具備中心節(jié)點的主從式結(jié)構(gòu)。

      (2)數(shù)據(jù)傳輸

      數(shù)據(jù)傳輸主要是完成從有向任務(wù)圖到物理計算節(jié)點之間的部署,部署各個節(jié)點之間的數(shù)據(jù)傳輸方式。在流式計算系統(tǒng)中,為了能夠具備高的吞吐量、比較低的延遲,需要不斷的優(yōu)化從有向任務(wù)圖到物理計算節(jié)點之間的部署及其映射方式。目前主流的數(shù)據(jù)傳輸方式分為主動推送方式和被動拉取的方式。

      (3)編程接口

      在流式計算中,為了方便從有向任務(wù)圖到物理計算節(jié)點之間的部署,需要進(jìn)行編程實現(xiàn)任務(wù)圖中各個節(jié)點的相應(yīng)處理功能。需要編制大量的流式數(shù)據(jù)計算系來提供應(yīng)用編程的接口,方便的接口能夠方便用戶實現(xiàn)內(nèi)部的業(yè)務(wù)邏輯及處理,減少用戶的編程的工作量。

      4 總結(jié)與展望

      互聯(lián)網(wǎng)技術(shù)、云計算等高新技術(shù)的快速發(fā)展,多樣化的應(yīng)用不斷的增加,數(shù)據(jù)在各行各業(yè)中都成為非常重要的一個組成部分,如何在海量的信息中獲取有價值的信息是大數(shù)據(jù)需要完成的工作。本文根據(jù)大數(shù)據(jù)對數(shù)據(jù)處理的形式不同,介紹了批量處理系統(tǒng)和流式處理系統(tǒng),并對大數(shù)據(jù)中的關(guān)鍵技術(shù)進(jìn)行了介紹。

      參考文獻(xiàn)

      [1] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報:工學(xué)版,2014(06):957-972.

      [2] 黃欣榮.從復(fù)雜性科學(xué)到大數(shù)據(jù)技術(shù)[J].長沙理工大學(xué)學(xué)報:社會科學(xué)版,2014,29(2):5-9.

      [3] 李紀(jì)舟,蘇曉娟,葉蕾.大數(shù)據(jù)技術(shù)及其國外發(fā)展情況[J].電信技術(shù)研究,2013(2):60-64.

      猜你喜歡
      大數(shù)據(jù)分析
      基于智慧服務(wù)的圖書館“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺構(gòu)建研究
      基于大數(shù)據(jù)分析的低壓臺區(qū)降損系統(tǒng)研究及應(yīng)用
      大數(shù)據(jù)分析對提高教學(xué)管理質(zhì)量的作用
      亞太教育(2016年36期)2017-01-17 17:26:50
      基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動分析平臺研究與應(yīng)用
      面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
      面向大數(shù)據(jù)分析的信息管理實踐教學(xué)體系構(gòu)建
      傳媒變局中的人口電視欄目困境與創(chuàng)新
      科技傳播(2016年19期)2016-12-27 14:35:21
      大數(shù)據(jù)分析的移動端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
      大數(shù)據(jù)分析技術(shù)應(yīng)對突發(fā)性人流聚集事件的方法與策略研究
      智富時代(2015年9期)2016-01-14 05:54:30
      大數(shù)據(jù)分析在城市照明管理系統(tǒng)中的應(yīng)用
      西乌珠穆沁旗| 木兰县| 平远县| 南和县| 伊宁县| 盐山县| 蒙阴县| 遂宁市| 台东县| 西林县| 北辰区| 灵璧县| 株洲市| 长子县| 嫩江县| 厦门市| 寿光市| 溆浦县| 江门市| 长宁县| 军事| 华池县| 闸北区| 东宁县| 山西省| 行唐县| 和政县| 淳化县| 梁平县| 南阳市| 通榆县| 乐陵市| 延长县| 东兰县| 泰和县| 澳门| 肇东市| 怀远县| 屏边| 平昌县| 沅江市|