楊棟
一、大數(shù)據(jù)時代產(chǎn)生的背景
進(jìn)入2010年以來,大數(shù)據(jù)(Big Data)一詞越來越多地被提及與使用,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù),它已經(jīng)出現(xiàn)過在《紐約時報》、《華爾街時報》的專欄封面,進(jìn)入美國白宮網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國君證劵、國泰君安、銀河證劵等寫進(jìn)了投資推薦報告,大數(shù)據(jù)時代來臨據(jù)。
有人說21世紀(jì)是數(shù)據(jù)信息時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。我們在享受便利的同時,也無償貢獻(xiàn)了自己的“行蹤”。
國務(wù)院發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱“綱要”)將大數(shù)據(jù)發(fā)展確立為國家戰(zhàn)略。黨的十八屆五中全會明確提出,實施“互聯(lián)網(wǎng)+”行動計劃,發(fā)展分享經(jīng)濟(jì),實施國家大數(shù)據(jù)戰(zhàn)略。大力發(fā)展工業(yè)大數(shù)據(jù)和新興產(chǎn)業(yè)大數(shù)據(jù),利用大數(shù)據(jù)推動信息化和工業(yè)化深度融合,從而推動制造業(yè)網(wǎng)絡(luò)化和智能化,正成為工業(yè)領(lǐng)域的發(fā)展熱點。
二、什么是大數(shù)據(jù)
大數(shù)據(jù)(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
大數(shù)據(jù)(Big Data)是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫系統(tǒng)。為了獲取大數(shù)據(jù)中的價值,我們必須選擇另一種方式來處理它。數(shù)據(jù)中隱藏著有價值的模式和信息,在以往需要相當(dāng)?shù)臅r間和成本才能提取這些信息。如沃爾瑪或谷歌這類領(lǐng)先企業(yè)都要付高昂的代價才能從大數(shù)據(jù)中挖掘信息。而當(dāng)今的各種資源,如硬件、云架構(gòu)和開源軟件使得大數(shù)據(jù)的處理更為方便和廉價。即使是在車庫中創(chuàng)業(yè)的公司也可以用較低的價格租用云服務(wù)時間了。對于企業(yè)組織來講,大數(shù)據(jù)的價值體現(xiàn)在兩個方面:分析使用和二次開發(fā)。對大數(shù)據(jù)進(jìn)行分析能揭示隱藏其中的信息。例如零售業(yè)中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數(shù)據(jù)的二次開發(fā)則是那些成功的網(wǎng)絡(luò)公司的長項。例如Facebook通過結(jié)合大量用戶信息,定制出高度個性化的用戶體驗,并創(chuàng)造出一種新的廣告模式。這種通過大數(shù)據(jù)創(chuàng)造出新產(chǎn)品和服務(wù)的商業(yè)行為并非巧合,谷歌、雅虎、亞馬遜和Facebook它們都是大數(shù)據(jù)時代的創(chuàng)新者。”
三、大數(shù)據(jù)的四個特性
(一)海量性:企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長。例如,IDC最近的報告預(yù)測稱,到2020年,全球數(shù)據(jù)量將擴(kuò)大50倍。目前,大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標(biāo),單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡而言之,存儲1PB數(shù)據(jù)將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。
多樣性:一個普遍觀點認(rèn)為,人們使用互聯(lián)網(wǎng)搜索是形成數(shù)據(jù)多樣性的主要原因,這一看法部分正確。然而,數(shù)據(jù)多樣性的增加主要是由于新型多結(jié)構(gòu)數(shù)據(jù),以及包括網(wǎng)絡(luò)日志、社交媒體、互聯(lián)網(wǎng)搜索、手機通話記錄及傳感器網(wǎng)絡(luò)等數(shù)據(jù)類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數(shù)據(jù)的多樣性。
(二)高速性:高速描述的是數(shù)據(jù)被創(chuàng)建和移動的速度。在高速網(wǎng)絡(luò)時代,通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務(wù)器,創(chuàng)建實時數(shù)據(jù)流已成為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據(jù)IMS Research關(guān)于數(shù)據(jù)創(chuàng)建速度的調(diào)查,據(jù)預(yù)測,到2020年全球?qū)碛?20億部互聯(lián)網(wǎng)連接設(shè)備。
(三)易變性:大數(shù)據(jù)具有多層結(jié)構(gòu),這意味著大數(shù)據(jù)會呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),大數(shù)據(jù)存在不規(guī)則和模糊不清的特性,造成很難甚至無法使用傳統(tǒng)的應(yīng)用軟件進(jìn)行分析。傳統(tǒng)業(yè)務(wù)數(shù)據(jù)隨時間演變已擁有標(biāo)準(zhǔn)的格式,能夠被標(biāo)準(zhǔn)的商務(wù)智能軟件識別。目前,企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復(fù)雜數(shù)據(jù)中挖掘價值
(四)價值型:大數(shù)據(jù)技術(shù)離你我都并不遙遠(yuǎn),它已經(jīng)來到我們身邊,滲透進(jìn)入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的云計算,無法抵御的仿真環(huán)境。大數(shù)據(jù)依仗于無處不在的傳感器,比如手機、發(fā)帶,甚至是能夠收集司機身體數(shù)據(jù)的汽車,或是能夠監(jiān)控老人下床和行走速度與壓力的“魔毯”(由GE與Intel聯(lián)合開發(fā)),洞察了一切。通過大數(shù)據(jù)技術(shù),人們能夠在醫(yī)院之外得悉自己的健康情況;而通過收集普通家庭的能耗數(shù)據(jù),大數(shù)據(jù)技術(shù)給出人們切實可用的節(jié)能提醒;通過對城市交通的數(shù)據(jù)收集處理,大數(shù)據(jù)技術(shù)能夠?qū)崿F(xiàn)城市交通的優(yōu)化。
四、大數(shù)據(jù)的三個特征
除了有四個特性之外,大數(shù)據(jù)時代的數(shù)據(jù)還呈現(xiàn)出其他三個特征。
第一個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。
第二個特征是數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。
第三個特征是處理速度快,時效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
五、大數(shù)據(jù)時代對生活、工作的影響
大數(shù)據(jù),其影響除了經(jīng)濟(jì)方面的,它同時也能在政治、文化等方面產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當(dāng)下“大社會”的集中體現(xiàn),三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。
大數(shù)據(jù)最核心的價值就是在于對于海量數(shù)據(jù)進(jìn)行存儲和分析。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。
正是利用這三個方面的優(yōu)勢,大數(shù)據(jù)也影響著我們的衣食住行:
(一)自淘寶創(chuàng)立以來,大眾的消費方式越發(fā)多元化,O2O、B2B等方式越來越豐富人們的日常生活。今類似的網(wǎng)站應(yīng)用有很多都與數(shù)據(jù)以及地理信息相關(guān),作為其代表之一,大眾點評正是數(shù)據(jù)與地理信息的相互結(jié)合的優(yōu)質(zhì)結(jié)晶。
(二)對于住來說,有幾個決定因素:區(qū)位、人口、環(huán)境。人口數(shù)據(jù)對于城市的商業(yè)數(shù)據(jù)來說是至關(guān)重要的。
(三)對于人們出行來說,人們的出行組成了大數(shù)據(jù),同時大數(shù)據(jù)可以實時反應(yīng)交通狀況,因此大數(shù)據(jù)與交通的辯證關(guān)系一直為社會所重視;近年來交通所帶來的能耗問題被逐漸重視起來,這不光是對個人資金的節(jié)省,更是對自己所在這個環(huán)境的一種責(zé)任。