問(wèn):編輯同志,您好。繼“物聯(lián)網(wǎng)”、“云計(jì)算”之后,“大數(shù)據(jù)”一詞被越來(lái)越多地提及。大家都在談?wù)摗按髷?shù)據(jù)”,誰(shuí)都想用好“大數(shù)據(jù)”,儼然進(jìn)入了“大數(shù)據(jù)時(shí)代”。請(qǐng)問(wèn)如何理解“大數(shù)據(jù)時(shí)代”?
北京讀者:唐洪濤
唐洪濤同志:
您好!“大數(shù)據(jù)”只是一種提法,其形態(tài)本身是數(shù)據(jù)云。人們用它來(lái)描述、定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。讓我們看網(wǎng)上的一組數(shù)據(jù),就能夠?qū)Α按髷?shù)據(jù)”有一個(gè)生動(dòng)的認(rèn)識(shí):平均每1秒鐘,會(huì)有60張照片上傳到網(wǎng)絡(luò);每1分鐘,會(huì)有60小時(shí)視頻上傳到視頻網(wǎng)站youtube;每1天里,在臉譜(facebook)有40億的信息擴(kuò)散;每個(gè)智能手機(jī)用戶平均會(huì)安裝65個(gè)應(yīng)用;每一天里,互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿1.68億張DVD;每一天發(fā)出的郵件有2940億封之多(相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量),發(fā)出的社區(qū)帖子達(dá)200萬(wàn)個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量)。在“大數(shù)據(jù)”中,存儲(chǔ)在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)僅占10%,郵件、視頻、微博、帖子、頁(yè)面點(diǎn)擊等大量非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了另外90%。
“大數(shù)據(jù)”有幾個(gè)明顯特征。一是數(shù)據(jù)量大?!按髷?shù)據(jù)”的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)。二是數(shù)據(jù)類(lèi)型繁多。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類(lèi)型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。三是數(shù)據(jù)價(jià)值密度相對(duì)較低。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無(wú)處不在,信息海量,但價(jià)值密度較低,如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”,是“大數(shù)據(jù)時(shí)代”亟待解決的難題。四是處理速度快,時(shí)效性要求高。這是“大數(shù)據(jù)”區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
最早提出“大數(shù)據(jù)時(shí)代”到來(lái)的是全球知名咨詢公司麥肯錫,麥肯錫稱(chēng):數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。
如今,互聯(lián)網(wǎng)和大數(shù)據(jù)已經(jīng)開(kāi)始深刻影響公司的傳統(tǒng)業(yè)務(wù)。比如,大家都熟悉的耐克公司,它的數(shù)字運(yùn)動(dòng)平臺(tái)Nike+至今已經(jīng)擁有了超過(guò)1000萬(wàn)的注冊(cè)用戶,它所收集到的用戶運(yùn)動(dòng)數(shù)據(jù)已經(jīng)成為耐克在產(chǎn)品設(shè)計(jì)時(shí)的重要參考。Nike+收集到的數(shù)據(jù)顯示,大量的用戶是在夜間進(jìn)行跑步鍛煉的。當(dāng)了解這點(diǎn)之后研發(fā)人員開(kāi)始思考,在光線昏暗的條件下跑步,人們需要什么?毫無(wú)疑問(wèn),是可見(jiàn)度和安全性。因此,在設(shè)計(jì)鞋的時(shí)候加上了反光材料,在設(shè)計(jì)衣服時(shí)也加上了反光材料。這只是互聯(lián)網(wǎng)和“大數(shù)據(jù)”對(duì)耐克影響的一個(gè)縮影。
毫不夸張地說(shuō),互聯(lián)網(wǎng)上每天產(chǎn)生的龐大數(shù)字在一定意義上就意味著財(cái)富,意味著政治。美國(guó)華爾街根據(jù)民眾情緒拋售股票;對(duì)沖基金依據(jù)購(gòu)物網(wǎng)站的顧客評(píng)論,分析企業(yè)產(chǎn)品銷(xiāo)售狀況;銀行根據(jù)求職網(wǎng)站的崗位數(shù)量,推斷就業(yè)率;投資機(jī)構(gòu)搜集并分析上市企業(yè)聲明,從中尋找破產(chǎn)的蛛絲馬跡;美國(guó)疾病控制和預(yù)防中心依據(jù)網(wǎng)民搜索,分析全球范圍內(nèi)流感等病疫的傳播狀況;美國(guó)總統(tǒng)奧巴馬的競(jìng)選團(tuán)隊(duì)依據(jù)選民的微博,實(shí)時(shí)分析選民對(duì)總統(tǒng)競(jìng)選人的喜好。
“大數(shù)據(jù)時(shí)代”為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。與此同時(shí),也對(duì)人類(lèi)的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),尤其讓互聯(lián)網(wǎng)公司如臨大敵,有些美國(guó)公司甚至認(rèn)為“大數(shù)據(jù)時(shí)代”就如同“外星人”和“世界末日”一樣,某種程度上是虛構(gòu)的。但不管怎樣,海量數(shù)據(jù)已然擺在面前,是機(jī)遇必然伴隨挑戰(zhàn),關(guān)鍵在于如何應(yīng)對(duì)。