• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)基本概念、技術(shù)與挑戰(zhàn)

      2015-09-28 06:10:58趙蘇陽(yáng)李艷軍錢(qián)小燕曹愈遠(yuǎn)許振騰喬磊汪雷
      現(xiàn)代計(jì)算機(jī) 2015年8期
      關(guān)鍵詞:挑戰(zhàn)研究

      趙蘇陽(yáng),李艷軍,錢(qián)小燕,曹愈遠(yuǎn),許振騰,喬磊,汪雷

      (南京航空航天大學(xué)民航學(xué)院,南京 210000)

      大數(shù)據(jù)基本概念、技術(shù)與挑戰(zhàn)

      趙蘇陽(yáng),李艷軍,錢(qián)小燕,曹愈遠(yuǎn),許振騰,喬磊,汪雷

      (南京航空航天大學(xué)民航學(xué)院,南京210000)

      0 引言

      隨著云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互連、社交媒體等新興信息技術(shù)和應(yīng)用模式的快速發(fā)展,信息技術(shù)與人類(lèi)世界政治、經(jīng)濟(jì)、軍事、科研、生活等方方面面不斷交叉融合,全球數(shù)據(jù)量急劇增加,推動(dòng)人類(lèi)社會(huì)邁入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代的到來(lái)迅速引起了科技界和企業(yè)界甚至世界各國(guó)政府關(guān)注。2008年Nature推出了Big Data專(zhuān)刊、2008年Computing Community Consortium發(fā)表了題為 “Big Data Computing;Creating Revolutionary Breakthrough in Commerce,Science,and Society”的報(bào)告、2012年奧巴馬政府公布“大數(shù)據(jù)研發(fā)計(jì)劃”、2013年Science推出了“Dealing with Data”,2012年我國(guó)學(xué)術(shù)界亦在北京大學(xué)召開(kāi)了首屆中國(guó)大數(shù)據(jù)應(yīng)用論壇。這些報(bào)告計(jì)劃以及論壇都是為了討論大數(shù)據(jù)的應(yīng)用價(jià)值以及大數(shù)據(jù)可能面對(duì)的若干挑戰(zhàn)。

      1 大數(shù)據(jù)概述

      1.1基本概念

      大數(shù)據(jù)本身并不是一個(gè)具體的概念,顧名思義,它是指數(shù)據(jù)的規(guī)模非常大,但是以往也有表示數(shù)據(jù)規(guī)模很大的名詞如“大規(guī)模數(shù)據(jù)”、“超大規(guī)模數(shù)據(jù)”等。麥肯錫第一次對(duì)大數(shù)據(jù)作出了定義:大數(shù)據(jù)是指數(shù)據(jù)規(guī)模大到傳統(tǒng)的數(shù)據(jù)庫(kù)軟件工具已經(jīng)無(wú)法采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集。也可以這樣理解:大數(shù)據(jù)是指利用現(xiàn)有理論、方法、技術(shù)和工具難以在短時(shí)間內(nèi)完成分析計(jì)算、整體呈現(xiàn)高價(jià)值的海量復(fù)雜數(shù)據(jù)集合。

      1.2基本特征

      大數(shù)據(jù)的特征一般可以用“5V”來(lái)表示:Volume、Variety、Velocity、Value以及Virtual。具體的特征描述見(jiàn)表1[1~2]。

      表1 大數(shù)據(jù)的主要特征

      1.3應(yīng)用

      谷歌的首席經(jīng)濟(jì)學(xué)家Hal Varian說(shuō)過(guò):數(shù)據(jù)是可以廣泛應(yīng)用的只是缺乏從中提取知識(shí)的能力。收集數(shù)據(jù)的最終目的是根據(jù)具體的需要從數(shù)據(jù)中提取有用的知識(shí)。并將這些知識(shí)應(yīng)用到具體的領(lǐng)域中,當(dāng)然,不同領(lǐng)域的數(shù)據(jù)應(yīng)用有其各自不同的特點(diǎn)。表2是某些具有代表性的大數(shù)據(jù)應(yīng)用及相關(guān)的比較[3]。

      表2 典型大數(shù)據(jù)應(yīng)用之間的比較

      2 大數(shù)據(jù)的處理模式

      維克托邁爾在《大數(shù)據(jù)時(shí)代》一書(shū)中指出了大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念的三大轉(zhuǎn)變:要全體不要抽樣、要效率不要絕對(duì)精確、要相關(guān)不要因果。目前,大數(shù)據(jù)的處理模式主要有靜態(tài)批量處理(batch processing)和實(shí)時(shí)的流處理(stream processing)。

      2.1批處理

      批處理首先要對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),然后再對(duì)這些靜態(tài)數(shù)據(jù)進(jìn)行集中的處理。如:互聯(lián)網(wǎng)中的社交網(wǎng)絡(luò)產(chǎn)生的大量的文本、圖片、音視頻等不同形式的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行批量處理分析,可以發(fā)現(xiàn)人與人之間隱含的關(guān)系;一些大型搜索引擎的廣告分析系統(tǒng),通過(guò)對(duì)廣告相關(guān)數(shù)據(jù)的批量處理可以提高廣告的投放效果來(lái)增加點(diǎn)擊量。圖1是大數(shù)據(jù)批處理模型。

      2006年Hadoop成為了典型的大數(shù)據(jù)批量處理架構(gòu),由HDFS分布式文件系統(tǒng)負(fù)責(zé)靜態(tài)數(shù)據(jù)的存儲(chǔ),并通過(guò)MapReduce將計(jì)算邏輯分配到各數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)計(jì)算和價(jià)值發(fā)現(xiàn)。圖2是一個(gè)完整的MapReduceguoc[8]。

      圖1 大數(shù)據(jù)批處理模型

      2.2流處理

      流處理的理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減小。新的數(shù)據(jù)出現(xiàn)時(shí)刻和順序也不能確定,所以,對(duì)于流式數(shù)據(jù)不再進(jìn)行存儲(chǔ),而是直接進(jìn)行數(shù)據(jù)的實(shí)時(shí)計(jì)算。

      圖2 MapReduce執(zhí)行流程圖

      2010年,谷歌推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)數(shù)據(jù)處理邁進(jìn)。流式處理典型的應(yīng)用有(1)數(shù)據(jù)采集應(yīng)用,(2)金融銀行業(yè)的應(yīng)用。如推特的Storm、Yahoo的S4就是典型流式的數(shù)據(jù)計(jì)算架構(gòu),數(shù)據(jù)在任務(wù)中被計(jì)算,并輸出有價(jià)值的信息。圖3是流處理中基本的數(shù)據(jù)流模型。圖4為數(shù)據(jù)流計(jì)算模型。

      圖3 數(shù)據(jù)流的基本模型

      圖4 大數(shù)據(jù)流式計(jì)算

      總之,批量數(shù)據(jù)通常具有3個(gè)特征:數(shù)據(jù)體積大、數(shù)據(jù)精確度高以及數(shù)據(jù)價(jià)值密度低。流式數(shù)據(jù)的特征是:數(shù)據(jù)連續(xù)不斷、出現(xiàn)時(shí)間不確定、格式復(fù)雜,且對(duì)應(yīng)的處理工具需具備高性能、實(shí)時(shí),以及可擴(kuò)展等特性[4,10]。

      3 大數(shù)據(jù)的分析工具

      如今,有很多工具被用來(lái)進(jìn)行大數(shù)據(jù)的分析,專(zhuān)業(yè)或非專(zhuān)業(yè),昂貴或免費(fèi)開(kāi)源。2012年,KDNuggets針對(duì)專(zhuān)業(yè)人員進(jìn)行了一份調(diào)查報(bào)告:“一年中在實(shí)際項(xiàng)目中用到的大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)分析軟件”。這里簡(jiǎn)要介紹使用頻率最高的前三種。

      (1)R(30%)

      R是開(kāi)源編程語(yǔ)言,它可以用來(lái)進(jìn)行數(shù)據(jù)挖掘/分析和可視化。在R軟件環(huán)境中可以調(diào)用C、C++和Fortran編寫(xiě)的代碼。專(zhuān)業(yè)用戶也可以通過(guò)C語(yǔ)言直接調(diào)用R對(duì)象,R之所以有這么多的用戶另一個(gè)重要原因是R語(yǔ)言是開(kāi)源免費(fèi)的。在KDNuggets的另一份調(diào)查報(bào)告 “數(shù)據(jù)挖掘/分析中所使用的設(shè)計(jì)語(yǔ)言”顯示在2012年R語(yǔ)言擊敗了SQL和Java成為榜首。

      (2)Excel(29%)

      Excel是Office的核心組件之一。它提供了強(qiáng)大的數(shù)據(jù)處理、統(tǒng)計(jì)分析等功能。

      (3)Rapid-I Rapidminer(26%)

      Rapidminer是用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、預(yù)測(cè)分析的開(kāi)源軟件。Rapidminer提供的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)程序包括:數(shù)據(jù)加載和轉(zhuǎn)換(ETL)、數(shù)據(jù)處理和可視化、建模、評(píng)估和部署。Rapidminer是用Java編寫(xiě)的,還可以與R語(yǔ)言進(jìn)行協(xié)同工作[5]。

      4 大數(shù)據(jù)時(shí)代面臨的問(wèn)題與挑戰(zhàn)

      當(dāng)今,雖然大數(shù)據(jù)受到社會(huì)各界的高度重視,但是無(wú)論是在大數(shù)據(jù)的底層處理系統(tǒng)以及高層的分析手段都存在很多問(wèn)題和挑戰(zhàn)。

      (1)數(shù)據(jù)復(fù)雜

      大數(shù)據(jù)的出現(xiàn),使人們?cè)谔幚砗芏鄦?wèn)題的時(shí)候可以獲得大量樣本,但這也直接使得數(shù)據(jù)類(lèi)型模式多樣化、相互之間的關(guān)系繁雜、價(jià)值小密度大。目前,人們對(duì)于大數(shù)據(jù)復(fù)雜性的內(nèi)在機(jī)理及背后的物理意義缺乏理解,極大地制約了人們對(duì)大數(shù)據(jù)高效計(jì)算模型和方法的設(shè)計(jì)能力。

      解決大數(shù)據(jù)復(fù)雜的問(wèn)題需:①研究大數(shù)據(jù)復(fù)雜性規(guī)律;②研究在多模態(tài)關(guān)聯(lián)關(guān)系下的數(shù)據(jù)分布理論和模型。

      (2)計(jì)算復(fù)雜

      大數(shù)據(jù)多源異構(gòu)、規(guī)模巨大、快速多變、樣本量充足,內(nèi)在關(guān)聯(lián)關(guān)系密切而復(fù)雜,價(jià)值度分布極不均衡等特性對(duì)研究大數(shù)據(jù)的可計(jì)算性及建立新型計(jì)算范式提供了機(jī)遇,同時(shí)也提出了挑戰(zhàn)。表3是科學(xué)發(fā)現(xiàn)的四種范式。

      解決大數(shù)據(jù)計(jì)算復(fù)雜的問(wèn)題需:①著眼大數(shù)據(jù)的全生命周期,研究以數(shù)據(jù)為中心的計(jì)算模式;②研究適應(yīng)大數(shù)據(jù)的非確定性算法理論;③研究基于自舉和采樣的局部計(jì)算和近似方法;④研究按需約簡(jiǎn)的方法。

      (3)系統(tǒng)復(fù)雜

      對(duì)于規(guī)模巨大、結(jié)構(gòu)復(fù)雜、價(jià)值密度小的大數(shù)據(jù),計(jì)算復(fù)雜度高、周期長(zhǎng)、實(shí)時(shí)性要求高是大數(shù)據(jù)處理的主要難點(diǎn)。這些難點(diǎn)對(duì)大數(shù)據(jù)處理系統(tǒng)的運(yùn)行效率及單位能耗提出了苛刻要求,要求大數(shù)據(jù)處理系統(tǒng)必須具有高效能的特點(diǎn)。

      表3 科學(xué)發(fā)現(xiàn)的4種范式

      表4 各類(lèi)型數(shù)據(jù)處理的代表性系統(tǒng)

      解決系統(tǒng)復(fù)雜問(wèn)題需:①結(jié)合大數(shù)據(jù)價(jià)值密度小的特點(diǎn),針對(duì)大數(shù)據(jù)分布存儲(chǔ)和處理的系統(tǒng)架構(gòu),以大數(shù)據(jù)感知、存儲(chǔ)與計(jì)算融合為大數(shù)據(jù)的計(jì)算準(zhǔn)則,在性能評(píng)價(jià)體系、分布式系統(tǒng)架構(gòu)、流式數(shù)據(jù)計(jì)算框架、在線數(shù)據(jù)處理方法等方面展開(kāi)基礎(chǔ)性研究,并對(duì)作為重要驗(yàn)證工具的基準(zhǔn)測(cè)試程序及系統(tǒng)性能預(yù)測(cè)方法進(jìn)行研究,通過(guò)設(shè)計(jì)、實(shí)現(xiàn)與驗(yàn)證的迭代完善,最終實(shí)現(xiàn)大數(shù)據(jù)計(jì)算系統(tǒng)的數(shù)據(jù)獲取高吞吐、數(shù)據(jù)存儲(chǔ)低能耗和數(shù)據(jù)計(jì)算高效率[6~7]。

      5 結(jié)語(yǔ)

      大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái),數(shù)據(jù)已經(jīng)從傳統(tǒng)的處理對(duì)象轉(zhuǎn)變?yōu)橐环N基礎(chǔ)資源,正確利用大數(shù)據(jù)必將給人們生活帶來(lái)便利,促進(jìn)我國(guó)未來(lái)的科技與經(jīng)濟(jì)發(fā)展。但大數(shù)據(jù)規(guī)模巨大,結(jié)構(gòu)復(fù)雜以及價(jià)值密度疏等特點(diǎn)也給大數(shù)據(jù)的正確利用和廣泛應(yīng)用帶來(lái)了不少問(wèn)題與挑戰(zhàn)。解決好這些問(wèn)題與挑戰(zhàn),必須先要對(duì)大數(shù)據(jù)的基本概念、基本特征、計(jì)算方式、分析工具進(jìn)行深度的剖析和理解。IDC預(yù)計(jì)到2020年中國(guó)產(chǎn)生的數(shù)據(jù)將占全球21%,而我國(guó)對(duì)于大數(shù)據(jù)方面的研究已經(jīng)落后于美國(guó)等國(guó)家,如何開(kāi)發(fā)、利用大數(shù)據(jù)這一重要資源,是我國(guó)當(dāng)前亟需解決的問(wèn)題[9]。

      [1]陳美.大數(shù)據(jù)在公共交通中的應(yīng)用.圖書(shū)與情報(bào),1003-6938(2012)06-0022-07

      [2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述.系統(tǒng)仿真學(xué)報(bào),1004-731X(2013)S-0142-05

      [3]孟小峰.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn).計(jì)算機(jī)研究與發(fā)展,2013,50(1):146~169

      [4]孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例.軟件學(xué)報(bào),2014,25(4):839~862

      [5]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望.計(jì)算機(jī)研究與發(fā)展,2013:16~23

      [6]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述.軟件學(xué)報(bào),2014,25(9):1889~1908

      [7]The Economist.Data,Data,Everywhere-A Special Report on Managing Information[EB/OL].http://www.economist.com/node/15557443 [2012-10-02]

      [8]Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C].Proc of OSDI 2004.Berkeley,CA:USENIX Association,2004:3:1~150

      [9]王珊,王會(huì)舉.架構(gòu)大數(shù)據(jù):挑戰(zhàn)現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào)

      [10]李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性.計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147~1162

      趙蘇陽(yáng),男,江蘇揚(yáng)州人,碩士研究生,研究方向?yàn)榻煌ㄐ畔⒐こ碳翱刂?/p>

      李艷軍(1968-),男,南京人,博士,教授,研究方向?yàn)檩d運(yùn)技術(shù)與工程

      錢(qián)小燕(1979-),女,南京人,博士,副教授,研究方向?yàn)榻煌ㄐ畔⒐こ膛c控制

      曹愈遠(yuǎn)(1983-),男,南京人,碩士,講師,研究方向?yàn)檩d運(yùn)技術(shù)與工程

      許振騰(1989-),男,山東人,碩士在讀,研究方向?yàn)檩d運(yùn)技術(shù)與工程

      喬磊(1990-),男,江蘇人,碩士在讀,研究方向?yàn)檩d運(yùn)技術(shù)與工程

      汪雷(1990-),男,湖南人,碩士在讀,研究方向?yàn)榻煌ㄟ\(yùn)輸與工程

      Big Data;Basic Concept;Processing Mode;Problems and Challenges

      Basic Concept,Technology and Challenge of Big Data

      ZHAO Su-yang,LI Yan-jun,QIAN Xiao-yan,CAO Yu-yuan,XU Zhen-teng,QIAO Lei,WANG Lei
      (Nanjing University of Aeronautics&Astronautics,Nanjing 210000)

      1007-1423(2015)08-0051-05

      10.3969/j.issn.1007-1423.2015.08.012

      2015-01-15

      2015-02-11

      隨著云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)類(lèi)型和數(shù)量呈現(xiàn)出爆炸式的增長(zhǎng),大數(shù)據(jù)時(shí)代正式到來(lái)。人們發(fā)現(xiàn)數(shù)據(jù)可以被當(dāng)做一種基礎(chǔ)性的資源而不僅僅只是簡(jiǎn)單的處理對(duì)象。大數(shù)據(jù)的數(shù)據(jù)復(fù)雜性、計(jì)算復(fù)雜性以及數(shù)據(jù)處理系統(tǒng)的復(fù)雜性都給大數(shù)據(jù)的計(jì)算及應(yīng)用帶來(lái)極大的挑戰(zhàn)。對(duì)大數(shù)據(jù)的基本概念、特征、處理模式以及技術(shù)難點(diǎn)進(jìn)行剖析研究都有助于更好地利用挖掘大數(shù)據(jù)的潛能和優(yōu)勢(shì)。

      大數(shù)據(jù);基本概念;處理模式;問(wèn)題與挑戰(zhàn)

      With the development of cloud computing,Internet of things,social networks,the number and types of data showing explosive growth,the big data era is coming.People found that the data can be used as a fundamental resource and not just a simple processing object.The complexity of data complexity,large data calculation complexity and data processing systems are a great challenge for calculation and application of large data.Analysing the basic concept,features of the data processing mode and technical difficulties is helpful to better tap the potential and advantages of large data.

      猜你喜歡
      挑戰(zhàn)研究
      FMS與YBT相關(guān)性的實(shí)證研究
      2020年國(guó)內(nèi)翻譯研究述評(píng)
      遼代千人邑研究述論
      視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
      科技傳播(2019年22期)2020-01-14 03:06:54
      EMA伺服控制系統(tǒng)研究
      我來(lái)挑戰(zhàn)(二)
      新版C-NCAP側(cè)面碰撞假人損傷研究
      嘰咕樂(lè)挑戰(zhàn)
      嘰咕樂(lè)挑戰(zhàn)
      嘰咕樂(lè)挑戰(zhàn)
      治县。| 启东市| 集安市| 古田县| 林州市| 玉溪市| 荆门市| 洪泽县| 巴楚县| 即墨市| 麻城市| 措勤县| 沅陵县| 申扎县| 翁源县| 如皋市| 贺兰县| 滦平县| 栖霞市| 博湖县| 边坝县| 英德市| 房产| 临清市| 牡丹江市| 铜鼓县| 蕉岭县| 霞浦县| 怀化市| 博爱县| 拜城县| 靖州| 通海县| 汕头市| 河北省| 册亨县| 沁水县| 登封市| 延川县| 新绛县| 林芝县|