洪蕾
1980年,大數(shù)據(jù)就曾被未來學(xué)家阿爾文·托夫勒在《第三次浪潮》中盛贊為“第三次浪潮的華彩樂章”。2009年,由于互聯(lián)網(wǎng)上數(shù)據(jù)量翻番增長,大數(shù)據(jù)開始成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。到了2012年,大數(shù)據(jù)已經(jīng)進(jìn)入政府決策層——美國開始實(shí)施大數(shù)據(jù)計劃、我國部分城市及園區(qū)也宣布發(fā)展大數(shù)據(jù)產(chǎn)業(yè)。
據(jù)統(tǒng)計,2012年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量達(dá)2.72ZB,其中,文本、照片、音頻、視頻、醫(yī)療影像等非結(jié)構(gòu)化內(nèi)容超過85%。面對如此龐大的數(shù)據(jù)量,使用傳統(tǒng)的數(shù)據(jù)庫管理工具顯然難以處理,處理大數(shù)據(jù)問題需要新的工具、框架、硬件、軟件乃至服務(wù)。
隨著企業(yè)用戶對連續(xù)不斷訪問數(shù)據(jù)的需求越來越多,大數(shù)據(jù)也帶來了前所未有的商業(yè)價值,EMC、IBM、Oracle、微軟等跨國IT巨頭紛紛發(fā)布大數(shù)據(jù)戰(zhàn)略和產(chǎn)品,面向企業(yè)提供大數(shù)據(jù)工具集,使得以較低成本和接近實(shí)時的速度提供可伸縮的、高性能的分析成為可能,并基于這種分析能力使得企業(yè)獲得更大競爭優(yōu)勢。
IDC預(yù)測,2015年大數(shù)據(jù)市場規(guī)模將從2010年的32億美元增長至170億美元,復(fù)合年增長率為40%。對CIO而言,數(shù)據(jù)是競爭砝碼,也是未來的天然資源。在談及大數(shù)據(jù)未來的市場潛力時,Hadoop和大數(shù)據(jù)廠商MapR首席執(zhí)行官約翰·施羅德給出了他的看法。
SQL擁有大數(shù)據(jù)最大潛力
約翰·施羅德認(rèn)為,用于 Hadoop(分布式計算)的SQL的發(fā)展能夠讓商業(yè)分析師利用自己的技能和選擇的SQL工具執(zhí)行大數(shù)據(jù)項(xiàng)目。開發(fā)人員可以選擇Hive、Drill和 Impala等Apache項(xiàng)目,以及選擇Hadapt、HAWQ和Splice Machine等公司的專有技術(shù)。
SQL仍將面臨挑戰(zhàn)
盡管SQL前景可期,但SQL需要數(shù)據(jù)結(jié)構(gòu)?!岸械慕Y(jié)構(gòu)化數(shù)據(jù)可引起延遲并且需要人工管理。SQL還限制分析類型。過分強(qiáng)調(diào)SQL將延遲機(jī)構(gòu)全面利用其數(shù)據(jù)價值的努力和延遲反應(yīng)?!?約翰·施羅德表示。
身份識別是主要數(shù)據(jù)安全問題
隨著Hadoop(分布式計算)中提供的接入控制能力的猛烈攻擊,機(jī)構(gòu)迅速認(rèn)識到線路級身份識別是必要的基礎(chǔ)。沒有充分的身份識別,任何更高級的控制都很容易被繞過,妨礙預(yù)定的安全計劃。
數(shù)據(jù)錯誤變成學(xué)習(xí)機(jī)會
2014年企業(yè)將出現(xiàn)許多數(shù)據(jù)錯誤。數(shù)據(jù)錯誤將表明基礎(chǔ)的來源系統(tǒng)的問題嗎?數(shù)據(jù)錯誤是在下游分析中出現(xiàn)偏差導(dǎo)致的數(shù)據(jù)提取問題嗎?數(shù)據(jù)錯誤將表明定義差異或者缺少跨部門和業(yè)務(wù)部門的一致性嗎?2014年我們將看到更多數(shù)據(jù)異常問題被發(fā)現(xiàn),并且被解決。
出現(xiàn)可運(yùn)行的Hadoop
2014年我們將看到Hadoop在各個行業(yè)中的生產(chǎn)部署顯著增加。這將顯示出Hadoop在運(yùn)營中的實(shí)力。在那里,生產(chǎn)應(yīng)用與分析結(jié)合在一起能夠提供可以衡量的商業(yè)優(yōu)勢,如在客戶化零售建議、詐騙檢測和試驗(yàn)傳感器數(shù)據(jù)進(jìn)行規(guī)范的維護(hù)等應(yīng)用中提供這些優(yōu)勢。
數(shù)據(jù)倉庫部署企業(yè)數(shù)據(jù)中心
數(shù)據(jù)中心把數(shù)據(jù)提取處理和數(shù)據(jù)從企業(yè)數(shù)據(jù)倉庫卸載到Hadoop。作為一個核心的中心企業(yè)中心,數(shù)據(jù)中心要便宜10倍,能夠?qū)︻~外的處理或者新的應(yīng)用進(jìn)行更多的分析。
數(shù)據(jù)為中心的應(yīng)用成為強(qiáng)制性
利用大數(shù)據(jù)的能力將在2014年成為競爭的武器。更多的公司將使用大數(shù)據(jù)和Hadoop準(zhǔn)確地針對個人消費(fèi)者的偏愛追逐賺錢的追加銷售和交叉銷售的機(jī)會,更好地緩解風(fēng)險以及減少生產(chǎn)和開銷成本。
數(shù)據(jù)成為數(shù)據(jù)中心的核心
大數(shù)據(jù)時代,除了算得快,還要存得好,只有給數(shù)據(jù)安好家,才能讓數(shù)據(jù)“慧”說話。機(jī)構(gòu)將從開發(fā)者過渡到大數(shù)據(jù)計劃中。IT部門將越來越多地?fù)?dān)負(fù)定義支持多種應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施的任務(wù),把重點(diǎn)集中在部署、處理和保護(hù)一個機(jī)構(gòu)的核心資產(chǎn)所需要的基礎(chǔ)設(shè)施方面。
搜索將成為非結(jié)構(gòu)化查詢語言
2013年有大量的用于Hadoop的SQL計劃。2014年將是這種非結(jié)構(gòu)化查詢語言成為重點(diǎn)的一年。把搜索集成到Hadoop將為查找重要信息的企業(yè)用戶提供一種簡單和直觀的方法。搜索引擎還是包括推薦引擎在內(nèi)的許多發(fā)現(xiàn)和分析應(yīng)用的核心。
Hadoop將獲得地位
Hadoop將繼續(xù)取代其它IT開支,顛覆企業(yè)數(shù)據(jù)倉庫和企業(yè)存儲。例如,Oracle的主要營收目標(biāo)在過去的10個季度里有5個季度沒有實(shí)現(xiàn)。Teradata在過去的5個季度有4個季度沒有實(shí)現(xiàn)營收和利潤目標(biāo)。
Hadoop成為主流應(yīng)用仍需協(xié)助
更多的機(jī)構(gòu)認(rèn)識到Apache Hadoop本身還沒有準(zhǔn)備好在企業(yè)應(yīng)用。Apache Hadoop不是為系統(tǒng)管理或者災(zāi)難恢復(fù)等統(tǒng)一企業(yè)IT流程設(shè)計的。企業(yè)將繼續(xù)推進(jìn)混合的解決方案,把架構(gòu)技術(shù)創(chuàng)新與Apache Hadoop的開源軟件結(jié)合在一起。