許承亮
?
淺談大數(shù)據(jù)的發(fā)展現(xiàn)狀及應(yīng)用
許承亮
69010部隊(duì),新疆 烏魯木齊 830000
在大數(shù)據(jù)時(shí)代,重視自動(dòng)化和智能化運(yùn)用前景,應(yīng)突出數(shù)據(jù)挖掘的在線分析處理(OLAP)和可視化編程的特點(diǎn),創(chuàng)造性應(yīng)用統(tǒng)計(jì)理論開展統(tǒng)計(jì)工作,才能提高信息化社會(huì)知識(shí)經(jīng)濟(jì)時(shí)代的統(tǒng)計(jì)工作質(zhì)量,才能推動(dòng)大統(tǒng)計(jì)的發(fā)展,才能提高信息分析重要組成部分的統(tǒng)計(jì)分析質(zhì)量。
大數(shù)據(jù);云計(jì)算;虛擬化
大數(shù)據(jù)被稱為是下一個(gè)社會(huì)發(fā)展階段的“金礦”和“石油”,具有催生社會(huì)變革的力量。那么,大數(shù)據(jù)究竟如何促進(jìn)行業(yè)的變革,創(chuàng)造巨大的發(fā)展機(jī)遇?大數(shù)據(jù)在現(xiàn)實(shí)世界應(yīng)用的現(xiàn)狀又是怎樣?本文將就大數(shù)據(jù)的概念、大數(shù)據(jù)的技術(shù)基礎(chǔ)及在現(xiàn)實(shí)世界的應(yīng)用等作簡(jiǎn)要探析。
大數(shù)據(jù)不僅僅意味著大量的數(shù)據(jù),還包含著更深層次的內(nèi)涵。
1.1 對(duì)數(shù)據(jù)和信息的進(jìn)一步分析利用
傳統(tǒng)的統(tǒng)計(jì)和分析方法已經(jīng)不能滿足需求,需要利用復(fù)雜的模型和處理技術(shù)對(duì)大量的數(shù)據(jù)和信息進(jìn)行深層次的挖掘和分析,從而提取出更具有價(jià)值的信息。
1.2 對(duì)信息資源的廣泛積累和規(guī)范管理
包括對(duì)現(xiàn)有內(nèi)部資源的整合和利用,以及對(duì)外部資源的積累和挖掘。隨著互聯(lián)網(wǎng)的快速發(fā)展,全球數(shù)據(jù)量也飛速增長(zhǎng),給數(shù)據(jù)存儲(chǔ)技術(shù)帶來(lái)巨大的挑戰(zhàn)。存儲(chǔ)成本、存儲(chǔ)性能和非結(jié)構(gòu)化數(shù)據(jù)的管理成為急需解決的問(wèn)題。
對(duì)大數(shù)據(jù)集的分析處理技術(shù)。以往的分析多是使用計(jì)算機(jī)對(duì)單一數(shù)據(jù)的計(jì)算和統(tǒng)計(jì),而大數(shù)據(jù)的分析不僅要實(shí)現(xiàn)對(duì)多元異構(gòu)數(shù)據(jù)分析的自動(dòng)化,還需要能夠根據(jù)數(shù)據(jù)的特點(diǎn)和用戶的需求建立精準(zhǔn)有效的分析模型,實(shí)現(xiàn)分析過(guò)程可視化,并產(chǎn)生時(shí)效性強(qiáng)、準(zhǔn)確性高的結(jié)果。
由此可見“大數(shù)據(jù)”時(shí)代不僅僅是數(shù)據(jù)的爆炸性增長(zhǎng),還會(huì)帶來(lái)一系列的技術(shù)革新和工作方式的轉(zhuǎn)變,甚至對(duì)某些行業(yè)帶來(lái)巨大的影響和變化。
2.1 存儲(chǔ)管理技術(shù)
2000年前后,互聯(lián)網(wǎng)網(wǎng)頁(yè)爆發(fā)式增長(zhǎng),每天新增約700萬(wàn)個(gè)網(wǎng)頁(yè),到2000年底全球網(wǎng)頁(yè)數(shù)達(dá)到40億。谷歌公司為提供精準(zhǔn)的搜索服務(wù),率先提出了一套以分布式為特征的全新技術(shù)體系,大大提高了并發(fā)訪問(wèn)能力。[1]然而隨著應(yīng)用范圍不斷擴(kuò)展,該系統(tǒng)還存在例如隨機(jī)訪問(wèn)性能較低、海量小文件頻繁寫入能力較弱等不足。整體看來(lái),未來(lái)大數(shù)據(jù)的存儲(chǔ)管理技術(shù)將進(jìn)一步把關(guān)系型數(shù)據(jù)庫(kù)的操作便捷性特點(diǎn)和非關(guān)系型數(shù)據(jù)庫(kù)靈活性的特點(diǎn)結(jié)合起來(lái),研發(fā)新的融合型存儲(chǔ)管理技術(shù)。
2.2 大數(shù)據(jù)并行計(jì)算技術(shù)
大數(shù)據(jù)的計(jì)算是數(shù)據(jù)密集型計(jì)算,對(duì)計(jì)算單元和存儲(chǔ)單元間的數(shù)據(jù)吞吐率要求極高。傳統(tǒng)的大型機(jī)計(jì)算系統(tǒng)不僅成本高,數(shù)據(jù)吞吐量也難以滿足大數(shù)據(jù)要求。谷歌在2004年公開的MapReduce分布式并行計(jì)算技術(shù),是新型分布式計(jì)算技術(shù)的代表。MapReduce 系統(tǒng)在成本和可擴(kuò)展性上都有很大優(yōu)勢(shì)。Yahoo在此基礎(chǔ)上進(jìn)行改進(jìn)提出的S4系統(tǒng)、Twitter的Storm系統(tǒng)在實(shí)時(shí)廣告、微博等系統(tǒng)中已經(jīng)得到應(yīng)用。
2.3 大數(shù)據(jù)分析技術(shù)
美國(guó)McKinsey Global Institute在2011年5月發(fā)布了研究報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》。在大數(shù)據(jù)分析技術(shù)的闡述中,列舉了26項(xiàng)適用于眾多行業(yè)的分析技術(shù),包括A/B測(cè)試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識(shí)別、預(yù)測(cè)建模、回歸、情感分析、信號(hào)處理、空間分析、統(tǒng)計(jì)、監(jiān)督學(xué)習(xí)、模擬、時(shí)間薛烈分析、無(wú)監(jiān)督學(xué)習(xí)和可視化。
大數(shù)據(jù)應(yīng)用仍然處于初級(jí)發(fā)展階段。對(duì)大多數(shù)企業(yè),特別是傳統(tǒng)領(lǐng)域的行業(yè)而言,還未找到有效的應(yīng)用模式,大多數(shù)企業(yè)考慮的是投資和回報(bào)率的問(wèn)題。隨著大數(shù)據(jù)技術(shù)不斷演進(jìn)和引用持續(xù)深化,以數(shù)據(jù)為核心的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)正在加速構(gòu)建。
從實(shí)踐情況看,大數(shù)據(jù)產(chǎn)業(yè)生態(tài)中主要包括數(shù)據(jù)解決方案提供商、大數(shù)據(jù)處理服務(wù)提供商和數(shù)據(jù)資源提供商三個(gè)角色,分別向大數(shù)據(jù)的應(yīng)用者提供大數(shù)據(jù)服務(wù),解決方案和數(shù)據(jù)資源。數(shù)據(jù)成為重要的資源,大數(shù)據(jù)資源提供商業(yè)也應(yīng)運(yùn)而生。商業(yè)化的數(shù)據(jù)交易活動(dòng)催生了多方參加的數(shù)據(jù)交易市場(chǎng)。如微軟的Azure Data Marketplace、BlueKai、DataMarket等,主要提供地理空間、營(yíng)銷數(shù)據(jù)和社交數(shù)據(jù)的交易服務(wù)。
美國(guó)在推動(dòng)大數(shù)據(jù)研發(fā)和應(yīng)用上最為迅速和積極,強(qiáng)化頂層設(shè)計(jì),力圖引領(lǐng)全球大數(shù)據(jù)發(fā)展。2012年美國(guó)政府推出“大數(shù)據(jù)行動(dòng)計(jì)劃”,重點(diǎn)在基礎(chǔ)技術(shù)研究和公共部門應(yīng)用上加大投入。英國(guó)將大數(shù)據(jù)列為戰(zhàn)略性技術(shù),給予高度關(guān)注。2013年1月,英國(guó)政府為航天、醫(yī)藥等高新技術(shù)注資6億英鎊,其中1.89億用于大數(shù)據(jù)技術(shù)的研發(fā)。日本政府把大數(shù)據(jù)作為提升日本競(jìng)爭(zhēng)力的關(guān)鍵,在新一輪IT振興計(jì)劃中把發(fā)展大數(shù)據(jù)作為國(guó)家戰(zhàn)略的重要內(nèi)容。澳大利亞、新加坡等過(guò)也非常重視大數(shù)據(jù)的發(fā)展,出臺(tái)政策并提供資金知識(shí)大數(shù)據(jù)的研發(fā)和應(yīng)用。我國(guó)于2014年在《政府工作報(bào)告》明確提出,“以創(chuàng)新支撐和引領(lǐng)經(jīng)濟(jì)結(jié)構(gòu)優(yōu)化升級(jí);設(shè)立新興產(chǎn)業(yè)創(chuàng)業(yè)創(chuàng)新平臺(tái)”,在新一代移動(dòng)通信,集成電路、大數(shù)據(jù)等方面趕超先進(jìn),引領(lǐng)未來(lái)產(chǎn)業(yè)發(fā)展。
本文就大數(shù)據(jù)的概念、大數(shù)據(jù)的技術(shù)發(fā)展現(xiàn)狀、大數(shù)據(jù)應(yīng)用發(fā)展以及大數(shù)據(jù)的政策環(huán)境進(jìn)行了簡(jiǎn)要闡述。總的來(lái)說(shuō),大數(shù)據(jù)目前在國(guó)內(nèi)外的發(fā)展仍然處于探索階段,多數(shù)行業(yè)仍是在原有技術(shù)的基礎(chǔ)上增強(qiáng)了對(duì)海量數(shù)據(jù)的處理能力,大數(shù)據(jù)技術(shù)的創(chuàng)新應(yīng)用還不明顯,距離基于大數(shù)據(jù)的大規(guī)模應(yīng)用還有很長(zhǎng)的路要走。然而大數(shù)據(jù)的發(fā)展毫無(wú)疑問(wèn)仍然是一個(gè)趨勢(shì),對(duì)大數(shù)據(jù)挖掘利用能夠發(fā)揮巨大的價(jià)值,能夠引領(lǐng)一系列的技術(shù)創(chuàng)新和產(chǎn)業(yè)革新,大數(shù)據(jù)的大規(guī)模應(yīng)用能給政府、企業(yè)帶來(lái)更大的競(jìng)爭(zhēng)優(yōu)勢(shì),并且將給人們的生活帶來(lái)巨大的便利,各個(gè)國(guó)家和各個(gè)行業(yè)對(duì)大數(shù)據(jù)研究和探索將持續(xù)進(jìn)行下去。
[1]錢志森.淺析大數(shù)據(jù)的應(yīng)用及發(fā)展前景[J].信息通信,2014(5):168.
F49
A
1009-6434(2016)04-0052-01