摘要:大數(shù)據(jù)時代的到來引起了業(yè)界和學界的廣泛關注,大量研究成果不斷涌現(xiàn)。對大數(shù)據(jù)的概念和特征進行了論述,對大數(shù)據(jù)的研究熱點和研究趨勢進行了深入的分析,探討了大數(shù)據(jù)時代的應對策略。
關鍵詞:大數(shù)據(jù);研究熱點;研究趨勢;應對策略
DOIDOI:10.11907/rjdk.151665
中圖分類號:TP3-0
文獻標識碼:A 文章編號文章編號:16727800(2015)008000102
基金項目基金項目:
作者簡介作者簡介:曾雷(1992-),男,安徽安慶人,重慶交通大學信息科學與工程學院碩士研究生,研究方向為大數(shù)據(jù)集處理。
0 引言
21世紀,隨著以博客、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等為代表的新型社交網(wǎng)絡的快速發(fā)展,以及平板電腦、智能手機等新型移動設備[1]的快速普及,數(shù)據(jù)一直呈爆炸式增長,世界已經(jīng)進入了數(shù)據(jù)大爆炸時代。
大數(shù)據(jù)不僅復雜多樣,而且具有潛在價值,對數(shù)據(jù)進行收集最根本的目的是從中提取出有價值的信息,可以根據(jù)需求不同將其運用到生物、醫(yī)療、經(jīng)濟、科學、環(huán)保等眾多領域。大數(shù)據(jù)作為一種戰(zhàn)略性資源,對科技進步和社會發(fā)展具有重要意義。
1 大數(shù)據(jù)概念
大數(shù)據(jù)本身是一個很抽象的概念。最早提出“大數(shù)據(jù)”概念的是全球知名咨詢公司麥肯錫[2],該公司在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域》報告中稱:“數(shù)據(jù)作為重要的生產(chǎn)因素已經(jīng)滲透到當今的每一個行業(yè),對海量數(shù)據(jù)的挖掘效率和運用效率將直接影響著新一輪生產(chǎn)力的增長?!保浣o出的定義簡單明了:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。2008年《Science》雜志出版的??薪o出的定義是:“代表著人類認知過程的進步,數(shù)據(jù)集的規(guī)模是無法在可容忍的時間內(nèi)用目前的技術、方法和理論去獲取、管理、處理的數(shù)據(jù)?!本S基百科[3]給出的定義是:“大數(shù)據(jù)是指利用常規(guī)軟件獲取、管理和處理數(shù)據(jù)所耗費的時間超過可容忍時間的數(shù)據(jù)集。”Gartner公司結合大數(shù)據(jù)的特點給出的定義:“大數(shù)據(jù)是種類繁多、高容量、高生成速率的信息價值,同時需要新的處理形式去確保判斷的作出、洞察力的發(fā)現(xiàn)和處理的優(yōu)化”[4]。其中比較有代表性的是5V定義[5],即大數(shù)據(jù)的5個特征,分別是:數(shù)據(jù)體量(Volume)巨大,數(shù)據(jù)級別從TB級別躍升到PB級別;數(shù)據(jù)類別(Variety)大,大數(shù)據(jù)的來源復雜多樣;處理速度(Velocity)快,需要實時地分析數(shù)據(jù);數(shù)據(jù)真實性(Veracity),大數(shù)據(jù)中的內(nèi)容與真實世界息息相關;價值密度低,商業(yè)價值(Value)高,通過分析數(shù)據(jù)可獲得很高的商業(yè)價值。
目前,對大數(shù)據(jù)的定義尚未完全達成共識,對大數(shù)據(jù)的定義基本是從大數(shù)據(jù)的特征為出發(fā)點,通過這些特征的闡述和歸納給出定義,這與云計算概念剛被提出來的情況是極其相似的。所以,在研究大數(shù)據(jù)的同時,不需要過多地拘泥于具體的定義,可以對其不斷地分析研究,逐漸補充和完善大數(shù)據(jù)的定義。
2 大數(shù)據(jù)研究熱點及研究趨勢
2.1 大數(shù)據(jù)研究熱點
(1)大數(shù)據(jù)起源、概念和特點。1997年IEEE第8次會議上,美國NASA研究員Michael Cox將可視化領域中設備存儲能力的局限稱為大數(shù)據(jù)問題,“Big Data”這一術語第一次被提出并廣泛應用于研究。大數(shù)據(jù)的概念和特點在上文中詳細探討過,這里不再贅述。
(2)生物信息學。生物信息學(Bioinformatics)是1991年美國學者Lim[6]首次提出的。生物信息學是一門集生物信息的獲取、處理、儲存、分析和解釋等的交叉學科,簡單來說,生物信息學就是以核酸、蛋白質(zhì)等生物分子數(shù)據(jù)庫作為主要研究對象,以數(shù)學和計算機為主要研究方法,對生物學實驗數(shù)據(jù)進行存儲、管理、注釋和加工,使之成為具有生物學價值的信息。伴隨著大數(shù)據(jù)概念的出現(xiàn),生物信息學滿足大數(shù)據(jù)的5V特征,因此引入大數(shù)據(jù)作為研究技術將是當下生物信息學的主要研究方向,必然會出現(xiàn)很多研究成果,這些成果也將會帶來重大的社會價值。
(3)云計算。計算機先驅John McCarthy在1961年預言:“未來的計算資源會像公共設施一樣被使用。”在幾十年的發(fā)展里,集群計算、網(wǎng)格計算等技術被陸續(xù)提出,云計算就是在這些技術基礎上發(fā)展起來的。云計算具有5個特點:①彈性服務:服務的規(guī)模根據(jù)業(yè)務負載動態(tài)變化;②資源池化:以資源池的方式統(tǒng)一管理資源;③按需服務:根據(jù)用戶的需求自動分配資源;④服務計費:根據(jù)用戶資源的使用量進行計費;⑤泛在介入:用戶可以利用各種終端設備隨時隨地訪問云服務。不難看出,云計算是分布式計算、互聯(lián)網(wǎng)和大規(guī)模資源管理技術融合與發(fā)展的產(chǎn)物,云計算作為一種新興的信息技術發(fā)展迅猛。
(4)MapReduce模型和Hadoop開源計算平臺。
MapReduce是2004年Google提出的一種并行編程模型和任務調(diào)度模型,其中“Map”和“Reduce”的概念和主要思想是借鑒函數(shù)編程語言和矢量編程語言,Map函數(shù)負責分塊數(shù)據(jù)處理,Reduce函數(shù)負責對分塊函數(shù)的中間結果進行歸約,綜合以上兩種函數(shù)的功能,MapReduce通過對問題進行分割,使分割后的Map運算高度并行,再將Map后的結果進行Reduce,得到最終結果。
Hadoop是由Apache開發(fā)的一種基于批處理技術的開源計算平臺,以Java語言編寫,在Linux操作系統(tǒng)上運行,核心組件包括HDFS(Hadoop Distribute File System)和Hadoop MapReduce,具有硬件低廉、高容錯性和高傳輸性等優(yōu)點, Hadoop已經(jīng)成為處理大數(shù)據(jù)的主要手段。
(5)可視化。網(wǎng)絡傳輸過程中的數(shù)字化和大量的計算機仿真產(chǎn)生了海量數(shù)據(jù),這些海量數(shù)據(jù)規(guī)模已經(jīng)遠遠超出了人類分析處理的能力范圍,為解決這一問題,可視化應運而生??梢暬侵赴褦?shù)據(jù)、信息和知識轉化為可視的表現(xiàn)形式,以達到對數(shù)據(jù)更深入認識的目的。可視化技術主要包括數(shù)據(jù)可視化(Data Visualization)、科學計算可視化(Visualization in Scientific Computing)、信息可視化(Information Visualization)和知識可視化(Knowledge Visualization)??梢暬瘧梅秶軓V,在數(shù)據(jù)挖掘、復雜網(wǎng)絡、物流、農(nóng)業(yè)、音樂方面都有著非常重要的應用。
2.2 大數(shù)據(jù)研究趨勢
大數(shù)據(jù)幾乎存在于所有的社會領域,已經(jīng)成為一個多學科交叉融合的熱點研究領域,背后隱藏著復雜的新理念和應用價值,所以對大數(shù)據(jù)的挖掘仍有很大的開拓空間。通過不斷研究和抽象,大數(shù)據(jù)的共性問題已經(jīng)逐漸清晰明朗,其研究趨勢有以下3方面:
(1)技術研究。未來的難點是如何系統(tǒng)科學地搭建和完善大數(shù)據(jù)相關理論、方法、模型以及探尋指導實踐應用。未來一段時期里大數(shù)據(jù)的主要研究方向將是大數(shù)據(jù)的獲取存儲、轉換融合、信息安全等問題。
(2)社會科學應用研究。目前大數(shù)據(jù)的相關成果已在政治、經(jīng)濟、社會和科學研究等領域得到應用,大數(shù)據(jù)的技術發(fā)展一方面使得大量產(chǎn)業(yè)和部門改革,另一方面也帶來了商業(yè)模式的發(fā)展創(chuàng)新。未來大數(shù)據(jù)的應用將更加廣泛,如社交媒體言論實時監(jiān)管、自然災害預測、國家安全保護等。
(3)多領域研究交融。目前大數(shù)據(jù)研究的立足點主要是信息科學,隨著大數(shù)據(jù)技術發(fā)展,其應用范圍將輻射到各個學科領域,學科間的交互滲透將是大勢所趨,將推動不同領域的融會貫通。
3 大數(shù)據(jù)時代應對策略
大數(shù)據(jù)已經(jīng)掀起一股新的信息浪潮,下面從3個維度探討大數(shù)據(jù)的應對策略。
(1)將大數(shù)據(jù)提升到國家戰(zhàn)略層面。政府部門要帶頭進行大數(shù)據(jù)專項研究,從國家層面制定出大數(shù)據(jù)發(fā)展的戰(zhàn)略方向;要在立法層面予以支持,積極扶持大數(shù)據(jù)基礎產(chǎn)業(yè)的發(fā)展;鼓勵民間投資,加大大數(shù)據(jù)產(chǎn)業(yè)的研發(fā)力度。
(2)注重大數(shù)據(jù)的基礎科學研究。建立大數(shù)據(jù)科學研究平臺,成立國家級大數(shù)據(jù)共享聯(lián)盟,產(chǎn)業(yè)界、科技界和政府部門都積極參與進來,為學術研究提供基本的數(shù)據(jù)資源,為大數(shù)據(jù)應用提供理論支持和技術支持。
(3)人才是第一生產(chǎn)力,應當注重人才培養(yǎng)。中國雖然是人才大國,但大數(shù)據(jù)方面的創(chuàng)新型人才屬于稀缺資源。 因此,優(yōu)化人才培養(yǎng)、合理布局學科建設等問題顯得尤為重要。
4 結語
大數(shù)據(jù)已經(jīng)滲透到社會的各個領域,只有充分認識到大數(shù)據(jù)具備的影響力,不斷創(chuàng)新和發(fā)展,才能立于不敗之地。大數(shù)據(jù)研究尚處于一個初步的階段,很多基礎性研究有待展開,因此,大數(shù)據(jù)的研究過程是一個漫長的過程,期望本文能對同行學者有一定的參考價值。
參考文獻:
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(50):146169.
[2] 方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術及應用研究綜述[J].南京信息工程大學學報,2014(23):315.
[3] Big data [EB/OL].[20121002]. http://en.wikipedia.org/wiki/Big_data.
[4] 王珊,王會舉,覃雄派.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011(34):17411752.
[5] 劉智慧,張泉靈.大數(shù)據(jù)技術研究綜述[J].浙江大學學報:工學版,2014(48):212223.
[6] C R CANTOR,H A LIM.Electrophoresis,supercomputing and the human genomes[J].World Scientific Publishing Co,1991.
責任編輯(責任編輯:杜能鋼)