沈卜銘
摘 要 “大數(shù)據(jù)”是伴隨數(shù)據(jù)信息的存儲(chǔ)、分析等技術(shù)進(jìn)步,而被人們所收集、利用的超出以往數(shù)據(jù)體量、類型具有更高價(jià)值的數(shù)據(jù)集合、信息資產(chǎn)?!按髷?shù)據(jù)”仍然是數(shù)據(jù)信息的一類,之所以稱為“大數(shù)據(jù)”,因?yàn)槠渚哂胁煌趥鹘y(tǒng)數(shù)據(jù)信息的特征。
關(guān)鍵詞 “大數(shù)據(jù)” 數(shù)據(jù)集合 信息資產(chǎn)
1大數(shù)據(jù)的由來
盡管“大數(shù)據(jù)”這一理念直到最近幾年才真正在國(guó)內(nèi)受到高度的關(guān)注,但實(shí)際上早在上個(gè)世紀(jì)80年代,偉大的未來學(xué)家、社會(huì)思想家阿爾文·托夫勒(Alvin Toffler)就在其所著的《第三次浪潮(The Third Wave)》中提出了“大數(shù)據(jù)”這一理念,并在文中熱情地稱頌“大數(shù)據(jù)”為 “第三次浪潮的華彩樂章”?!蹲匀唬∟ature)》雜志在2008年9月推出了名為“大數(shù)據(jù)”的封面專欄,從科學(xué)及社會(huì)經(jīng)濟(jì)等多個(gè)領(lǐng)域描述了“數(shù)據(jù)信息”在其中所扮演的越來越重要的角色,讓人們對(duì)“數(shù)據(jù)信息”的廣闊前景有了更多的期待,對(duì)身處或即將來臨的“大數(shù)據(jù)時(shí)代”充滿了好奇。
而真正讓“大數(shù)據(jù)”成為互聯(lián)網(wǎng)信息時(shí)代科技界熱詞的是全球著名管理咨詢公司麥肯錫的肯錫全球研究院(MGI)在2011 年 5 月份發(fā)布的一份名為《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿(The next frontier for innovation,competition and productivity)》的研究報(bào)告,該報(bào)告作為第一份從經(jīng)濟(jì)和商業(yè)等多個(gè)維度闡述大數(shù)據(jù)發(fā)展?jié)摿Φ难芯砍晒瑢?duì)“大數(shù)據(jù)”的概念進(jìn)行了描述,列舉了大數(shù)據(jù)相關(guān)的核心技術(shù),分析了大數(shù)據(jù)在各行業(yè)的應(yīng)用,同時(shí)在文中也為政府和企業(yè)的決策者們提出了應(yīng)對(duì)大數(shù)據(jù)發(fā)展的策略??梢哉f該份報(bào)告的發(fā)布,極大地推動(dòng)了“大數(shù)據(jù)”的發(fā)展。
此后,大數(shù)據(jù)迅速成為科技熱詞,并引起了各國(guó)政府以及商業(yè)巨頭的廣泛關(guān)注。2012 年1月,瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇將大數(shù)據(jù)作為論壇的主題之一,并發(fā)布了《大數(shù)據(jù),大影響:國(guó)際發(fā)展新機(jī)遇(Big Data,Big Impact:New Possibilities for International Development)的報(bào)告》;2012年3月,美國(guó)奧巴馬政府頒布《大數(shù)據(jù)的研究和發(fā)展計(jì)劃》,啟動(dòng)了一項(xiàng)耗資超過2億美元、涉及12個(gè)聯(lián)邦政府部門、共計(jì)82項(xiàng)與大數(shù)據(jù)相關(guān)的研究和發(fā)展計(jì)劃,希望通過提高大型復(fù)雜數(shù)據(jù)的處理能力,加快美國(guó)科技發(fā)展的步伐;2012年4月,成立于2003年的SPLUNK公司成為大數(shù)據(jù)處理領(lǐng)域第一家成功上市的公司,在 NASDAQ上市的首個(gè)交易日以109%的漲幅讓無數(shù)人對(duì)大數(shù)據(jù)充滿了想象空間;2012年5月,英國(guó)建立世界上首個(gè)關(guān)于政府?dāng)?shù)據(jù)信息開放的研究所;2013年,澳大利亞、法國(guó)等國(guó)家先后將大數(shù)據(jù)上升到國(guó)家戰(zhàn)略層面,這是繼美國(guó)和英國(guó)之后,歐美主流國(guó)家又一輪關(guān)于大數(shù)據(jù)國(guó)家發(fā)展戰(zhàn)略的動(dòng)向;在國(guó)內(nèi),從2012年開始,以BAT(阿里巴巴、騰訊、百度)為首的互聯(lián)網(wǎng)企業(yè)以及傳統(tǒng)的運(yùn)營(yíng)商企業(yè)也紛紛啟動(dòng)了關(guān)于大數(shù)據(jù)的研發(fā)和應(yīng)用;2014年3月,“大數(shù)據(jù)”這一概念首次進(jìn)入我國(guó)政府工作報(bào)告;2015年初,李克強(qiáng)總理在政府工作報(bào)告中提出“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,推動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)的結(jié)合與應(yīng)用。
2大數(shù)據(jù)的界定
關(guān)于“大數(shù)據(jù)”也就是英文的“Big Data”這一術(shù)語(yǔ)的概念目前并沒有學(xué)界或者實(shí)務(wù)界一致公認(rèn)的十分確切的界定。維基百科對(duì)“大數(shù)據(jù)”的解讀是:“大數(shù)據(jù)”(Big Data),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。百度百科對(duì)“大數(shù)據(jù)”的定義為:“大數(shù)據(jù)”(Big Data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。2011年5月,肯錫全球研究院 (MGI)在《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》的研究報(bào)告中,將“大數(shù)據(jù)”描述為“其大小超出了典型數(shù)據(jù)庫(kù)軟件的采集、儲(chǔ)存、管理和分析等能力的數(shù)據(jù)集。”,這一界定只是十分基礎(chǔ)的定義,僅僅從數(shù)據(jù)信息的體量上進(jìn)行了界定。全球最具權(quán)威的IT研究與顧問咨詢公司研究機(jī)構(gòu) Gartner 則給出了以下的定義:“大數(shù)據(jù)是具有更強(qiáng)決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化力的海量、高增長(zhǎng)率、多樣化的信息資產(chǎn)。”雖然對(duì)大數(shù)據(jù)尚未有公認(rèn)的界定,但并不意味者大家對(duì)這個(gè)概念沒有較為普遍的共識(shí),從以上定義來看,我們可以認(rèn)為“大數(shù)據(jù)”是伴隨數(shù)據(jù)信息的存儲(chǔ)、分析等技術(shù)進(jìn)步,而被人們所收集、利用的超出以往數(shù)據(jù)體量、類型具有更高價(jià)值的數(shù)據(jù)集合、信息資產(chǎn)。
從“大數(shù)據(jù)”這個(gè)術(shù)語(yǔ)的演進(jìn)來看,大數(shù)據(jù)是一個(gè)修辭學(xué)意義上的詞匯,在數(shù)據(jù)方面,“大”是一個(gè)快速發(fā)展變化的術(shù)語(yǔ),一方面,關(guān)于大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小是變化的,會(huì)隨著時(shí)間推移、技術(shù)進(jìn)步而增長(zhǎng)的;另一方面,不同行業(yè)、不同企業(yè)對(duì)于大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小也會(huì)存在認(rèn)知上的差別。目前,大數(shù)據(jù)的一般范圍是從幾個(gè)TB 到數(shù)個(gè)PB(數(shù)千TB)。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)體量已從 GB(1GB=1 024MB)升級(jí)到 TB(1TB=1 024GB)、PB(1PB=1 024TB),甚至EB(1EB=1 024PB)、ZB(1ZB=1 024EB)。據(jù)國(guó)際數(shù)據(jù)公司(IDC)預(yù)測(cè),2020 年全球數(shù)據(jù)量將達(dá)到35.2ZB。據(jù)數(shù)名計(jì)算機(jī)科學(xué)家和業(yè)內(nèi)高管稱,2008年“大數(shù)據(jù)”這一術(shù)語(yǔ)開始在技術(shù)圈內(nèi)出現(xiàn)。起初,許多科學(xué)家和工程師都嘲笑“大數(shù)據(jù)”(下轉(zhuǎn)第188頁(yè))(上接第186頁(yè))只不過是一個(gè)營(yíng)銷術(shù)語(yǔ)。2008年末,“大數(shù)據(jù)”得到部分美國(guó)知名計(jì)算機(jī)科學(xué)研究人員的認(rèn)可,業(yè)界組織“計(jì)算社區(qū)聯(lián)盟”(Computing Community Consortium)發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會(huì)領(lǐng)域創(chuàng)建革命性突破》,作者是一位知名計(jì)算機(jī)科學(xué)家,卡耐基·梅隆大學(xué)的蘭道爾·布賴恩特(Randal.E.Bryant)、加利福尼亞大學(xué)伯克利分校蘭迪·卡茲(Randy.H.Katz)、華盛頓大學(xué)的愛德華·拉佐斯加(Edward.D.Lazowska)。他們的認(rèn)可對(duì)“大數(shù)據(jù)”術(shù)語(yǔ)提供了智力支持。而對(duì)于大數(shù)據(jù)發(fā)展史來說,2012年肯定也是一個(gè)十分重要的年份,大數(shù)據(jù)由技術(shù)圈走入了真正的主流市場(chǎng)。
3大數(shù)據(jù)的特征
首先“大數(shù)據(jù)”仍然是數(shù)據(jù)信息的一類,之所以稱為“大數(shù)據(jù)”,因?yàn)槠渚哂胁煌趥鹘y(tǒng)數(shù)據(jù)信息的特征。關(guān)于大數(shù)據(jù)的特征,美國(guó)Gartner公司的分析師 道格拉斯·蘭尼(Douglas . Laney)2001年首次提出了大數(shù)據(jù)必須的3V 特征,即容量大(Volume)、多樣化(Variety)和速度快(Velocity)。短短幾年時(shí)間,隨著技術(shù)的進(jìn)步,以及對(duì)于大數(shù)據(jù)研究的深入,人們對(duì)于大數(shù)據(jù)特征的認(rèn)識(shí)也發(fā)生了一些變化,現(xiàn)在普遍比較認(rèn)可的關(guān)于大數(shù)據(jù)的特征的理解是:目前業(yè)界普遍認(rèn)可的一種理解是:(1)巨量 Volume,即數(shù)據(jù)體量十分龐大;(2)多樣 Variety,即信息類型多樣,即包括結(jié)構(gòu)化信息,如消費(fèi)者提交的信息、交易信息等,更包括大量非結(jié)構(gòu)化的信息,例如微博、日志、GPS 定位信息等非結(jié)構(gòu)化信息;(3)價(jià)值 Value,價(jià)值密度低,商業(yè)價(jià)值高,受限于數(shù)據(jù)體量以非機(jī)構(gòu)性數(shù)據(jù)的大量存在,相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù),其數(shù)據(jù)價(jià)值密度較低;但同時(shí)由于信息關(guān)聯(lián)性更強(qiáng),其挖掘價(jià)值較大;(4)高速 Velocity,“數(shù)據(jù)處理需要通過高速運(yùn)算迅速得到分析結(jié)果,以滿足大數(shù)據(jù)時(shí)代對(duì)于時(shí)效性的要求。
基于大數(shù)據(jù)的多個(gè)V的特征,維克托·邁爾·舍恩伯格(Victor · Maier ·Schoen Berg)在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中提出了三個(gè)基于大數(shù)據(jù)特征的重大思維轉(zhuǎn)變:首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本;其次,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性;最后,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。當(dāng)理解了上述在大數(shù)據(jù)背景下的思維轉(zhuǎn)變,回過頭來又能更深刻地理解大數(shù)據(jù)關(guān)于幾個(gè)V的特征。