黃欣榮
(江西財經(jīng)大學(xué)管理哲學(xué)研究中心,江西南昌 330013)
大數(shù)據(jù)的語義、特征與本質(zhì)
黃欣榮
(江西財經(jīng)大學(xué)管理哲學(xué)研究中心,江西南昌 330013)
大數(shù)據(jù)是一個熱門詞匯,但大數(shù)據(jù)究竟是什么?目前學(xué)術(shù)界和產(chǎn)業(yè)界都比較模糊。從混亂的語義中做出語義分析,并從基本特征、哲學(xué)本質(zhì)中進(jìn)一步揭示大數(shù)據(jù)的涵義,這些工作對大數(shù)據(jù)技術(shù)的發(fā)展以及大眾對大數(shù)據(jù)的理解都具有重要的意義。
大數(shù)據(jù);語義;特征;本質(zhì)
隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)(Big Data)這個詞近年來成了關(guān)注度極高和使用極頻繁的一個熱詞。然而,與這種熱度不太對稱的是,大眾只是跟隨使用,對大數(shù)據(jù)究竟是什么并沒有真正的了解。學(xué)術(shù)界對大數(shù)據(jù)的涵義也莫衷一是,很難有一個規(guī)范的定義。雖然說大數(shù)據(jù)時代剛剛來臨,對大數(shù)據(jù)的涵義有著不同的理解完全是正常的,但對哲學(xué)工作者來說,我們還是有必要對其做一個比較系統(tǒng)的比較和梳理,以便大眾更好地把握大數(shù)據(jù)的內(nèi)涵和本質(zhì)。
早在1980年,著名未來學(xué)家阿爾文·托夫勒在其《第三次浪潮》一書中就描繪過未來信息社會的前景并強(qiáng)調(diào)了數(shù)據(jù)在信息社會中的作用。隨著信息技術(shù)特別是智能信息采集技術(shù)、互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,各類數(shù)據(jù)都呈現(xiàn)出急劇爆發(fā)之勢,計算機(jī)界因此提出了“海量數(shù)據(jù)”的概念,并突出了數(shù)據(jù)挖掘的概念和技術(shù),以便從海量的數(shù)據(jù)中挖掘出需要的數(shù)據(jù)成了一種專門的技術(shù)和學(xué)科,為大數(shù)據(jù)的提出和發(fā)展做好了技術(shù)的準(zhǔn)備。2008年9月,《自然》雜志推出了“大數(shù)據(jù)”特刊,并在封面中特別突出了“大數(shù)據(jù)專題”。2009年開始,在互聯(lián)網(wǎng)領(lǐng)域,“大數(shù)據(jù)”一詞已經(jīng)成了一個熱門的詞匯。不過,這個時候的“大數(shù)據(jù)”概念與現(xiàn)在的“大數(shù)據(jù)”概念,雖然名字相同,但內(nèi)涵和本質(zhì)有著巨大的差別,而且主要局限于計算機(jī)行業(yè)。
2011年6月,美國著名的麥肯錫咨詢公司發(fā)表了一份《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》的研究報告。在這份報告中,麥肯錫公司不但重新提出了大數(shù)據(jù)的概念,而且全面闡述了大數(shù)據(jù)在未來經(jīng)濟(jì)、社會發(fā)展中的重要意義,并宣告大數(shù)據(jù)時代的來臨。由此,大數(shù)據(jù)一詞很快越出學(xué)術(shù)界而成為社會大眾的熱門詞匯,麥肯錫公司也成為大數(shù)據(jù)革命的先驅(qū)者。2012年的美國大選中,奧巴馬團(tuán)隊成功運(yùn)用大數(shù)據(jù)技術(shù)戰(zhàn)勝對手,并且還將發(fā)展大數(shù)據(jù)上升為國家戰(zhàn)略,以政府之名發(fā)布了《大數(shù)據(jù)研究與發(fā)展計劃》,讓專業(yè)的大數(shù)據(jù)概念變?yōu)榧矣鲬魰缘脑~匯。美國的Google、Facebook、Amazon以及中國的百度、騰訊和阿里巴巴,這些數(shù)據(jù)時代的造富神話更讓大眾知曉了大數(shù)據(jù)所蘊(yùn)藏的巨大商機(jī)和財富,成為世界各國政府和公司追逐的對象。2012年2月11日,《紐約時報》發(fā)表了頭版文章,宣布大數(shù)據(jù)時代已經(jīng)降臨[1]。2012年6月,聯(lián)合國專門發(fā)布了大數(shù)據(jù)發(fā)展戰(zhàn)略,這是聯(lián)合國第一次就某一技術(shù)問題發(fā)布報告。英國學(xué)者維克托·舍恩伯格的《大數(shù)據(jù)時代》一書則對大數(shù)據(jù)技術(shù)及其對工作、生活和思維方式進(jìn)行了全面的普及,因此大數(shù)據(jù)及其思維模式在全世界得到了迅速的傳播[2]。從國內(nèi)來說,涂子沛的《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》讓國人及時了解到國際興起的大數(shù)據(jù)熱,讓我們與國際同行保持了同步[3]。
大數(shù)據(jù)究竟是什么意思呢?從字面來說,所謂大數(shù)據(jù)就是指規(guī)模特別巨大的數(shù)據(jù)集合,因此從本質(zhì)上來說,它仍然是屬于數(shù)據(jù)庫或數(shù)據(jù)集合,不過是規(guī)模變得特別巨大而已,因此麥肯錫公司在上述的咨詢報告中將大數(shù)據(jù)定義為:“大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集?!保?]
維基百科對大數(shù)據(jù)這樣定義:Big Data is an all-encompassing term for any collection of data sets so large or complex that it becomes difficult to process using traditional data processing applications。中文維基百科則說:“大數(shù)據(jù),或稱巨量資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)截取、管理、處理,并整理成為人類所能解讀的信息。”
世界著名的美國權(quán)威研究機(jī)構(gòu)Gartner對大數(shù)據(jù)給出了這樣的定義:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資源。”[5](P6)百度百科則基本引用Gartner對大數(shù)據(jù)的定義,認(rèn)為大數(shù)據(jù),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
英國大數(shù)據(jù)權(quán)威維克托則在其《大數(shù)據(jù)時代》一書中這樣定義:“大數(shù)據(jù)并非一個確切的概念。最初,這個概念是指需要處理的信息量過大,已經(jīng)超出了一般電腦在數(shù)據(jù)處理時所能使用的內(nèi)存量,因此工程師們必須改進(jìn)處理數(shù)據(jù)的工具?!保?](P8)“大數(shù)據(jù)是人們獲得新認(rèn)知、創(chuàng)造新的價值的源泉;大數(shù)據(jù)還是改變市場、組織機(jī)構(gòu),以及政府與公民關(guān)系的方法?!保?](P9)
John Wiley圖書公司出版的《大數(shù)據(jù)傻瓜書》對大數(shù)據(jù)概念是這樣解釋的:“大數(shù)據(jù)并不是一項單獨(dú)的技術(shù),而是新、舊技術(shù)的一種組合,它能夠幫助公司獲取更可行的洞察力。因此,大數(shù)據(jù)是管理巨大規(guī)模獨(dú)立數(shù)據(jù)的能力,以便以合適速度、在合適的時間范圍內(nèi)完成實(shí)時分析和響應(yīng)?!保?]
大數(shù)據(jù)技術(shù)引入國內(nèi)之后,我國學(xué)者對大數(shù)據(jù)的理解也一樣五花八門,不過跟國外學(xué)者的理解比較類似。最早介入并對大數(shù)據(jù)進(jìn)行了比較深入研究的三位院士的觀點(diǎn)應(yīng)該具有一定的代表性和權(quán)威性。
鄔賀銓院士認(rèn)為:“大數(shù)據(jù)泛指巨量的數(shù)據(jù)集,因可從中挖掘出有價值的信息而受到重視。”[8]李德毅院士則說:“大數(shù)據(jù)本身既不是科學(xué),也不是技術(shù),我個人認(rèn)為,它反映的是網(wǎng)絡(luò)時代的一種客觀存在,各行各業(yè)的大數(shù)據(jù),規(guī)模從TB到PB到EB到ZB,都是以三個數(shù)量級的階梯迅速增長,是用傳統(tǒng)工具難以認(rèn)知的,具有更大挑戰(zhàn)的數(shù)據(jù)?!保?]而李國杰院士則引用維基百科定義:“大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合”,認(rèn)為“大數(shù)據(jù)具有數(shù)據(jù)量大、種類多和速度快等特點(diǎn),涉及互聯(lián)網(wǎng)、經(jīng)濟(jì)、生物、醫(yī)學(xué)、天文、氣象、物理等眾多領(lǐng)域?!保?0]
我國最早介入大數(shù)據(jù)普及的學(xué)者涂子沛在其《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》中,將大數(shù)據(jù)定義為:“大數(shù)據(jù)是指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數(shù)據(jù)。”[3](P57)由于涂子沛的著作發(fā)行量比較大,因此他對大數(shù)據(jù)的這個界定也具有一定的影響力。
從國內(nèi)外學(xué)者對大數(shù)據(jù)的界定來看,雖然目前沒有統(tǒng)一的定義,但基本上都從數(shù)據(jù)規(guī)模、處理工具、利用價值三個方面來進(jìn)行界定:①大數(shù)據(jù)屬于數(shù)據(jù)的集合,其規(guī)模特別巨大;②用一般數(shù)據(jù)工具難以處理因而必須引入數(shù)據(jù)挖掘新工具;③大數(shù)據(jù)具有重大的經(jīng)濟(jì)、社會價值。
我們從大數(shù)據(jù)的概念中很難把握大數(shù)據(jù)的屬性和本質(zhì),因此國內(nèi)外學(xué)者都在大數(shù)據(jù)概念的基礎(chǔ)上繼續(xù)深入探討大數(shù)據(jù)的基本特征,其中最有代表性的是大數(shù)據(jù)的3V特征或4V特征。所謂大數(shù)據(jù)的3V或4V特征是指大數(shù)據(jù)所具有的三個或四個以英文字母V打頭的基本特征。所謂的3V是指Volume(體量)、Variety(多樣)、Velocity(速度),這三個V是比較公認(rèn)的,基本上沒有爭議[11]。而4V是在3V的基礎(chǔ)上再加上一個V,而這個V究竟是什么,目前有比較大的爭議。有人將Value(價值)作為第四個V,而有人將Veracity(真實(shí))當(dāng)作第四個V[5](P16)。筆者曾經(jīng)將Value當(dāng)作第四個V[12],但現(xiàn)在則認(rèn)為Veracity似乎更能代表大數(shù)據(jù)的第四個基本特征。
(一)Volume(數(shù)據(jù)規(guī)模巨大)
大數(shù)據(jù)給人印象最深的是數(shù)據(jù)規(guī)模巨大,以前也被稱為海量,因此大數(shù)據(jù)的所有定義中必然會涉及大數(shù)據(jù)的數(shù)據(jù)規(guī)模,而且特別指出其數(shù)據(jù)規(guī)模巨大,這就是大數(shù)據(jù)的第一個基本特征:數(shù)據(jù)規(guī)模巨大。
從古埃及開始,人們就學(xué)會了丈量土地、記錄財產(chǎn),數(shù)據(jù)由此產(chǎn)生。古埃及、巴比倫、古希臘都用紙草、陶片作為數(shù)據(jù)記錄的工具,數(shù)據(jù)規(guī)模極其有限。古代中國也很早就有丈量土地和記錄財富的歷史,先是用陶片、竹片、絹布等做記錄工具,后來有了紙張、印刷術(shù)等,各種數(shù)據(jù)更容易被記錄,于是就有了“學(xué)富五車”的知識人,以及“汗牛充棟”的圖書收藏機(jī)構(gòu)。不過古人引以自豪的事情如今看來只是“小兒科”。如今大數(shù)據(jù)的規(guī)模究竟有多大呢?雖然沒有一個確切的統(tǒng)計數(shù)字,但我們可以舉例描述其規(guī)?!,F(xiàn)在一天內(nèi)在Twitter上發(fā)表的微博就達(dá)到2億條,7個TB的容量,50億個單詞量,相當(dāng)于《紐約時報》出版60年的單詞量。阿里巴巴通過其交易平臺積累了巨大的數(shù)據(jù),截至2014年3月,阿里已經(jīng)處理的數(shù)據(jù)就達(dá)到100PB,等于104 857 600個GB的數(shù)據(jù)量,相當(dāng)于4萬個西雅圖中央圖書館,580億本藏書的數(shù)據(jù)[8]。騰訊QQ目前擁有8億用戶,4億移動用戶,在數(shù)據(jù)倉庫存儲的單機(jī)群數(shù)量已達(dá)到4 400臺,總存儲數(shù)據(jù)量經(jīng)壓縮處理以后在100PB左右,并且這一數(shù)據(jù)還在以日新增200TB到300TB,月增加10%的數(shù)據(jù)量增長,騰訊的數(shù)據(jù)平臺部門正在為1 000個PB做準(zhǔn)備。
隨著大數(shù)據(jù)時代的來臨,各種數(shù)據(jù)呈爆炸性增長。從人均每月互聯(lián)網(wǎng)流量的變化就可以窺見一斑。1998年網(wǎng)民人均月流量才1 MB,到2000年達(dá)到10MB,到2008年平均一個網(wǎng)民是1 000MB,到2014年是10 000MB。在芯片發(fā)展方面,有一個著名的摩爾定律,說的是每18個月,芯片體積要減小一半,價格降一半,而其性能卻要翻一倍。在數(shù)據(jù)的增長速度上,有人也引用摩爾定律,認(rèn)為大概18個月或2年,世界的數(shù)據(jù)量就要翻一番。2000年,全世界的數(shù)據(jù)存儲總量大約800 000PB,而預(yù)計到2020年,世界的數(shù)據(jù)存儲量將達(dá)到35ZB[11](P5)。以前曾有人提出知識爆炸論而備受爭議,而如今的數(shù)據(jù)暴增已是擺在我們面前的現(xiàn)實(shí)。
(二)Variety(數(shù)據(jù)類型多樣)
大數(shù)據(jù)并不僅僅表現(xiàn)在數(shù)據(jù)量的暴增及數(shù)據(jù)總規(guī)模的龐大無比,最為關(guān)鍵的是,在大數(shù)據(jù)時代,數(shù)據(jù)的性質(zhì)發(fā)生了重大變化。在小數(shù)據(jù)時代,數(shù)據(jù)的涵義和范圍是狹義的。所謂數(shù)據(jù),其原意是指“數(shù)+據(jù)”,即由表示大小、多少的數(shù)字,加上表示事物性質(zhì)的屬性,即所謂的計量單位。狹義的數(shù)據(jù)指的是用某種測量工具對某事物進(jìn)行測量的結(jié)果,而且一定是以數(shù)字和測量單位聯(lián)合表征。但在大數(shù)據(jù)時代,數(shù)據(jù)的涵義和屬性發(fā)生了重大變化,數(shù)據(jù)的范圍幾乎無所不包,除了傳統(tǒng)的“數(shù)+據(jù)”之外,似乎能被0和1符號表述,能被計算機(jī)處理的都被稱為數(shù)據(jù)[13]。也可以說,大數(shù)據(jù)時代就是信息時代的延續(xù)與深入,是信息時代的新階段。在大數(shù)據(jù)時代,數(shù)據(jù)與信息基本上是同義詞,任何信息都可以用數(shù)據(jù)表述,任何數(shù)據(jù)都是信息。這樣數(shù)據(jù)的范圍得到了巨大的擴(kuò)展,即從狹義的數(shù)字?jǐn)U展到廣義的信息。
傳統(tǒng)的數(shù)據(jù)屬于具有結(jié)構(gòu)的關(guān)系型數(shù)據(jù),也就是說數(shù)據(jù)與數(shù)據(jù)之間具有某種相關(guān)關(guān)系,數(shù)據(jù)之間形成某種結(jié)構(gòu),因此被稱為結(jié)構(gòu)型數(shù)據(jù)。例如,我們的身份證都是按照19位的結(jié)構(gòu)模式進(jìn)行采集和填寫數(shù)據(jù),手機(jī)號碼都是11位的數(shù)據(jù)結(jié)構(gòu),而人口普查、工業(yè)普查或社會調(diào)查等數(shù)據(jù)采集都是事先設(shè)計好固定項目的調(diào)查表格,按照固定結(jié)構(gòu)填寫,否則因無法做出數(shù)據(jù)處理而被歸入無效數(shù)據(jù)。在大數(shù)據(jù)時代,除了這種具有預(yù)定結(jié)構(gòu)的關(guān)系數(shù)據(jù)之外,更多的是屬于半結(jié)構(gòu)和無結(jié)構(gòu)數(shù)據(jù)。所謂半結(jié)構(gòu)就是有些數(shù)據(jù)有固定結(jié)構(gòu),有些數(shù)據(jù)沒有固定結(jié)構(gòu),而無結(jié)構(gòu)數(shù)據(jù)則沒有任何的固定結(jié)構(gòu)。結(jié)構(gòu)數(shù)據(jù)是有限的,而半結(jié)構(gòu)和無結(jié)構(gòu)數(shù)據(jù)卻幾乎是無限的。例如,文檔資料、網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置、社交網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)搜索點(diǎn)擊記錄、各種購物記錄等等,一切信息都被納入數(shù)據(jù)的范圍而帶來了大數(shù)據(jù)的數(shù)據(jù)類型多樣的特征,也因此帶來了所謂的海量數(shù)據(jù)規(guī)模。
(三)Velocity(數(shù)據(jù)快捷高效)
大數(shù)據(jù)的第三個特征是數(shù)據(jù)的快捷性,指的是數(shù)據(jù)采集、存儲、處理和傳輸速度快、時效高。小數(shù)據(jù)時代的數(shù)據(jù)主要是依靠人工采集而來,例如天文觀測數(shù)據(jù)、科學(xué)實(shí)驗(yàn)數(shù)據(jù)、抽樣調(diào)查數(shù)據(jù)以及日常測量數(shù)據(jù)等。這些數(shù)據(jù)因?yàn)橐揽咳斯y量,所以測量速度、頻次和數(shù)據(jù)量都受到一定的限制。此外,這些數(shù)據(jù)的處理往往也是費(fèi)錢費(fèi)力的事情,比如人口普查數(shù)據(jù),因?yàn)樯婕懊鎻V,數(shù)據(jù)量大,每個國家往往只能10年做一次人口普查,而且每次人口普查數(shù)據(jù)要經(jīng)過諸多部門和人員多年的統(tǒng)計、處理才能得到所需的數(shù)據(jù)。人口普查數(shù)據(jù)公布之時,人口情況早已發(fā)生了巨大的變化。
在大數(shù)據(jù)時代,數(shù)據(jù)的采集、存儲、處理和傳輸?shù)雀鱾€環(huán)節(jié)都實(shí)現(xiàn)了智能化、網(wǎng)絡(luò)化。由于智能芯片的廣泛應(yīng)用,數(shù)據(jù)的采集實(shí)現(xiàn)了完全智能化和自動化,數(shù)據(jù)的來源從人工采集走向了自動生成。例如上網(wǎng)自動產(chǎn)生的各種瀏覽記錄,社交軟件產(chǎn)生的各種聊天、視頻等記錄,攝像頭自動記錄的各種影像,商品交易平臺產(chǎn)生的交易記錄,天文望遠(yuǎn)鏡的自動觀測記錄等等。由于數(shù)據(jù)采集設(shè)備的智能化和自動化,自然界和人類社會的各種現(xiàn)象、思想和行為都被全程記錄下來,因此形成了所謂的“全數(shù)據(jù)模式”,這也是大數(shù)據(jù)形成的重要原因。此外,數(shù)據(jù)的存儲實(shí)現(xiàn)了云存儲,數(shù)據(jù)的處理實(shí)現(xiàn)了云計算,數(shù)據(jù)的傳輸實(shí)現(xiàn)了網(wǎng)絡(luò)化。因此,所有數(shù)據(jù)都從原來的靜態(tài)數(shù)據(jù)變?yōu)閯討B(tài)數(shù)據(jù),從離線數(shù)據(jù)變?yōu)樵诰€數(shù)據(jù),通過快速的數(shù)據(jù)采集、傳輸和計算,系統(tǒng)可以做出快速反饋和及時響應(yīng),從而達(dá)到即時性。
(四)Veracity(數(shù)據(jù)客觀真實(shí))
大數(shù)據(jù)的第四個特征是數(shù)據(jù)的真實(shí)性[5](P16)。數(shù)據(jù)是事物及其狀態(tài)的記錄,但這種記錄也因是否真實(shí)記錄事物及其狀態(tài)而產(chǎn)生了數(shù)據(jù)真實(shí)性問題。由于小數(shù)據(jù)時代的數(shù)據(jù)都是人工觀察、實(shí)驗(yàn)或調(diào)查而來的數(shù)據(jù),人的主觀性難免被滲透到數(shù)據(jù)之中,這就是科學(xué)哲學(xué)中著名的“觀察滲透理論”。我們在觀察、實(shí)驗(yàn)或問卷調(diào)查的時候,首先就要設(shè)置我們采集數(shù)據(jù)的目的,然后根據(jù)目的設(shè)計我們的觀察、實(shí)驗(yàn)手段,或者設(shè)計我們的問卷以及選擇調(diào)查的對象,這些環(huán)節(jié)中都強(qiáng)烈滲透著我們的主觀意志。也就是說,小數(shù)據(jù)時代,我們先有目的,后有數(shù)據(jù),因此,這些數(shù)據(jù)難免被數(shù)據(jù)采集者污染,很難保持其客觀真實(shí)性。
但在大數(shù)據(jù)時代,除了人是智能設(shè)備的設(shè)計和制造者之外,我們?nèi)祟惒]有全程參與到數(shù)據(jù)的采集過程中,所有的數(shù)據(jù)都是由智能終端自動采集、記錄下來的。這些數(shù)據(jù)在采集、記錄之時,我們并不知道這些數(shù)據(jù)能用于什么目的。采集、記錄數(shù)據(jù)只是智能終端的一種基本功能,是順便采集、記錄下來的,并沒有什么目的。有時候甚至認(rèn)為這些數(shù)據(jù)屬于數(shù)據(jù)垃圾或數(shù)據(jù)塵埃,先記錄下來,究竟有什么用,以后再說。也就是說,在大數(shù)據(jù)時代,我們是先有數(shù)據(jù),后有目的。這樣,由于數(shù)據(jù)采集、記錄過程中沒有了數(shù)據(jù)采集者的主觀意圖,這些數(shù)據(jù)就沒有被主體污染,也就是說,大數(shù)據(jù)中的原始數(shù)據(jù)并沒有滲透理論,因此確保了其客觀真實(shí)性,真實(shí)反映了事物及其狀態(tài)、行為。
大數(shù)據(jù)究竟是什么這個問題,僅僅從語義和特征來回答,似乎并沒有完全揭示出大數(shù)據(jù)的本質(zhì)。大數(shù)據(jù)時代的來臨,最重要的是給我們帶來了數(shù)據(jù)觀的變革,只有從哲學(xué)世界觀的視角分析大數(shù)據(jù)的世界觀或數(shù)據(jù)觀,才能真正回答大數(shù)據(jù)究竟是什么[14]。簡單說來,大數(shù)據(jù)作為一場數(shù)據(jù)革命,除了帶來海量數(shù)據(jù),并且這些數(shù)據(jù)具有4V特征之外,更重要的是大數(shù)據(jù)帶來的數(shù)據(jù)世界觀。在大數(shù)據(jù)看來,萬物皆數(shù)據(jù),萬物皆可被數(shù)據(jù)化,大數(shù)據(jù)刻畫了世界的真實(shí)環(huán)境,并且?guī)砹诵畔⒌耐耆该骰?,我們的世界變成了一個透明的世界。
(一)在大數(shù)據(jù)看來,萬物皆由數(shù)據(jù)構(gòu)成,世界的本質(zhì)是數(shù)據(jù)
世界究竟是什么?這是哲學(xué)家長期關(guān)注的重大問題。從古希臘哲學(xué)家泰勒斯開始,哲學(xué)家們就開始探索世界的本原,并從beginning(起源)和element(要素)兩個維度進(jìn)行了回答[15]。早期自然哲學(xué)家曾經(jīng)把水、火、土、氣、原子分別作為本原,而后期的人文哲學(xué)家則基本上將人類精神作為本原。馬克思主義哲學(xué)正是從beginning的維度將歷史上的所有哲學(xué)分為唯物主義和唯心主義,在這一維度,物質(zhì)和精神是對立的,只能二者選一。從element的維度看,物質(zhì)和精神都是構(gòu)成世界的要素,而且以往的哲學(xué)家和科學(xué)家基本都認(rèn)為也只有這兩者才是構(gòu)成世界的終極要素。但剛剛興起的大數(shù)據(jù)則認(rèn)為,除了以往認(rèn)為的物質(zhì)和精神之外,數(shù)據(jù)是構(gòu)成世界的終極要素之一,即構(gòu)成世界的三大終極要素是物質(zhì)、精神和數(shù)據(jù)。英國大數(shù)據(jù)權(quán)威維克托·舍恩伯格甚至認(rèn)為,世界萬物皆由數(shù)據(jù)構(gòu)成,數(shù)據(jù)是世界的本質(zhì)[6](P125)。
萬物皆數(shù)據(jù),數(shù)據(jù)是世界的本質(zhì),世界上的一切,無論是物質(zhì)還是意識,最終都可以表述為數(shù)據(jù),這樣數(shù)據(jù)就成了物質(zhì)、意識的表征,甚至將物質(zhì)和意識關(guān)聯(lián)統(tǒng)一起來。古希臘哲學(xué)家畢達(dá)哥拉斯從音樂與數(shù)字、幾何圖形與數(shù)字的關(guān)系中發(fā)現(xiàn)了數(shù)據(jù)的重要性,提出了“數(shù)是萬物本原”的思想,強(qiáng)調(diào)了數(shù)據(jù)對世界構(gòu)成的意義以及對世界認(rèn)知的影響。無獨(dú)有偶,老子在數(shù)千年前就認(rèn)識到數(shù)據(jù)的世界終極本質(zhì),在《周易》中就提出了“道生一,一生二,二生三,三生萬物”的思想,把世界的生成與數(shù)據(jù)聯(lián)系起來。特別是在《易傳》中的陰陽八卦圖中,從陰陽兩極相反相成,從陰陽兩儀,到八卦、六十四卦象等,由此不斷演化,最后生成整個世界。兩千多年以前的畢達(dá)哥拉斯和《周易》都不約而同地揭示了數(shù)據(jù)與萬物的關(guān)系,以及世界的數(shù)據(jù)本質(zhì),充分強(qiáng)調(diào)了數(shù)據(jù)在世界構(gòu)成中的重要地位。但是,在隨后的兩千多年的歷史長河中,數(shù)據(jù)在人類生活和科學(xué)認(rèn)知中雖然越來越重要,而且也有萊布尼茲、康德、馬克思等哲學(xué)家關(guān)注過數(shù)據(jù)的重要性,不過總體來說,哲學(xué)家們對數(shù)據(jù)基本上是忽視的。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)才獲得到了應(yīng)有的地位,哲學(xué)家們才又想起畢達(dá)哥拉斯和《周易》的數(shù)據(jù)世界觀??梢哉f,大數(shù)據(jù)時代的來臨是畢達(dá)哥拉斯和《周易》所提出的數(shù)據(jù)世界觀的當(dāng)代回響。
(二)在大數(shù)據(jù)看來,世界萬物皆可被數(shù)據(jù)化,大數(shù)據(jù)可實(shí)現(xiàn)量化一切的目標(biāo)
數(shù)據(jù)是對世界的精確測度和量化,是認(rèn)知世界的科學(xué)工具。自從發(fā)明了數(shù)字和測量工具,人類就不斷地試圖對世界的一切進(jìn)行數(shù)據(jù)測量、精確記錄。古埃及時期,由于尼羅河泛濫,人們每年需要重新丈量土地,于是發(fā)現(xiàn)了數(shù)據(jù)的秘密,并發(fā)明了測量技術(shù)。于是,數(shù)據(jù)成了測量、記錄財富的工具,人們?nèi)粘I钏佑|的大量物品、財產(chǎn)都可以用數(shù)據(jù)來表征,這個時期的數(shù)據(jù)可被稱為“財富數(shù)據(jù)”。文藝復(fù)興之后,人們逐漸發(fā)明了望遠(yuǎn)鏡、顯微鏡、鐘表等科學(xué)測量器具。隨著測量技術(shù)的進(jìn)步,測量與數(shù)據(jù)被廣泛應(yīng)用于科學(xué)研究之中。例如天文學(xué)家第谷對天文現(xiàn)象進(jìn)行了大量的觀察記錄,并積累了大量的天文數(shù)據(jù)。隨后,力學(xué)、化學(xué)、電磁學(xué)、光學(xué)、地學(xué)、生物學(xué)等,各門學(xué)科都通過測量走上了數(shù)據(jù)化、精確化的道路。各門科學(xué)積累大量的科學(xué)數(shù)據(jù),并借助于數(shù)據(jù),各種自然現(xiàn)象都實(shí)現(xiàn)了可測量、可計算的精確化、數(shù)據(jù)化的目標(biāo),自然科學(xué)各學(xué)科也完成了其科學(xué)化的歷程。這個時期可被稱為“科學(xué)數(shù)據(jù)”時期。
由于人類意識的復(fù)雜性,人類及其社會的測量和數(shù)據(jù)化成為量化一切的攔路虎。社會科學(xué)雖然引進(jìn)自然科學(xué)方法,但其數(shù)據(jù)的客觀性往往招致質(zhì)疑,而人文學(xué)科更是停留在思辨的道路上。在傳統(tǒng)方法遇到困難的地方,大數(shù)據(jù)卻可以大顯身手。大數(shù)據(jù)用海量數(shù)據(jù)來測量、描述復(fù)雜的人類思想及其行為,讓人類及其社會也徹底被數(shù)據(jù)化,這些數(shù)據(jù)可被稱為“人文數(shù)據(jù)”。所以,大數(shù)據(jù)時代將數(shù)據(jù)化的腳步向前邁進(jìn)了一大步,在財富數(shù)據(jù)化、科學(xué)數(shù)據(jù)化的基礎(chǔ)上,實(shí)現(xiàn)了人文社會行為的數(shù)據(jù)化。因此,從大數(shù)據(jù)來看,數(shù)據(jù)是物質(zhì)的根本屬性,世界萬物皆可被數(shù)據(jù)化,其一切狀態(tài)和行為都可以用數(shù)據(jù)來表征,量化一切是大數(shù)據(jù)的終極目標(biāo)。
(三)大數(shù)據(jù)全面刻畫了世界的真實(shí)狀態(tài),科學(xué)研究不必再做理想化處理
真實(shí)、全面地認(rèn)知世界是人類的一種理想,同時也是擺在人類面前的一道難題。真實(shí)的世界,無論是自然界還是人類社會,都極為復(fù)雜,需要極其繁多的參數(shù)才能準(zhǔn)確、全面地對其進(jìn)行描述。但是,由于過去沒有先進(jìn)的數(shù)據(jù)采集、存儲和處理技術(shù),于是不得不對復(fù)雜的研究對象進(jìn)行“孤立、靜止、還原”的簡單化處理。所謂孤立就是把對象與環(huán)境的所有聯(lián)系都切斷,讓其成為一個孤立的研究對象,免得受外界的侵?jǐn)_。所謂靜止,就是將本來運(yùn)動變化的對象做一時間截面,然后就以這一時點(diǎn)的狀態(tài)代表所有時點(diǎn)的狀態(tài)。所謂還原是指將復(fù)雜的現(xiàn)象逐漸返回到幾個簡單的要素或原點(diǎn),然后從要素的性質(zhì)和狀態(tài)推演出系統(tǒng)的性質(zhì)和狀態(tài)。復(fù)雜對象經(jīng)過簡單化處理之后,雖然我們能夠認(rèn)識和把握對象的某些性質(zhì)和狀態(tài),但畢竟經(jīng)過了簡單、粗暴的理想化處理,它已經(jīng)不能真正反映真實(shí)對象和真實(shí)世界。
大數(shù)據(jù)技術(shù)使用了無處不在的智能終端來自動采集海量的數(shù)據(jù),并用智能系統(tǒng)處理、存儲海量數(shù)據(jù),不再需要對研究對象做孤立、靜止和還原的簡單化處理,而是將對象完全置于真實(shí)環(huán)境之中,有關(guān)對象的大數(shù)據(jù)全面反映了復(fù)雜系統(tǒng)各個要素、環(huán)節(jié)、時態(tài)的真實(shí)、全面狀態(tài)。這樣,在大數(shù)據(jù)時代,我們可以在真實(shí)、自然的狀態(tài)下研究復(fù)雜的對象。大數(shù)據(jù)記錄了真實(shí)環(huán)境下研究對象的真實(shí)狀態(tài),因此我們可以利用大數(shù)據(jù)去真實(shí)、完整、全面地刻畫復(fù)雜的研究對象。這就是說,大數(shù)據(jù)是真實(shí)世界的全面記錄,一切狀態(tài)盡在數(shù)據(jù)之中,大數(shù)據(jù)真正客觀地反映了對象的真實(shí)狀態(tài)。
(四)萬物的數(shù)據(jù)化帶來了世界的透明化,未來的世界是一個透明世界
宇宙萬物,復(fù)雜多變,人們面對復(fù)雜多變的世界往往感到漆黑一片,難怪哲學(xué)家康德會認(rèn)為,現(xiàn)象世界背后存在著一個物自體,而這個物自體就像一個黑箱,永遠(yuǎn)無法被人類認(rèn)知,那是上帝留下的自留地,科學(xué)無法涉足其中。這就是說,真實(shí)的世界就像一個大黑箱,我們永遠(yuǎn)無法打開。我們?nèi)祟惥拖衲莻€剝洋蔥的小男孩,剝到最后也不知道里邊究竟是什么。
但是,大數(shù)據(jù)技術(shù)徹底改變了人類對世界的認(rèn)知。由于無處不在的智能芯片,整個世界變成了一個智能的世界、數(shù)據(jù)的世界,或者叫智慧世界。通過賦予世界以智慧,就像一切事物都被安裝了充滿智慧的大腦。無所不知的智能系統(tǒng)可以感知出世界的一切,而且將一切狀態(tài)都以數(shù)據(jù)的形式記錄、儲存下來。通過數(shù)據(jù)挖掘,我們?nèi)祟惥涂梢灾懒耸澜绲囊磺忻孛???档滤O(shè)置的科學(xué)禁區(qū)被大數(shù)據(jù)所打破,透過大數(shù)據(jù),世界變成了一個完全透明的世界,一切都可以被人類所感知、把握和預(yù)知。大數(shù)據(jù)讓我們的世界從一個附魅的世界變成了祛魅的世界,數(shù)據(jù)的陽光把原本黑暗、神秘的世界深處照得通徹透亮。在大數(shù)據(jù)面前,無論是自然物質(zhì)世界還是人類精神世界,都從黑天鵝變成了白天鵝甚至是透明的天鵝,大數(shù)據(jù)成了無所不能的上帝。套用贊美牛頓的一首英格蘭兒歌來說,宇宙萬物及其秘密都隱藏在黑暗之中,上帝說,讓大數(shù)據(jù)去吧,于是一切都變成了光明!
大數(shù)據(jù)究竟是什么?這個問題雖然難于用一句話回答,但從大數(shù)據(jù)的語義中我們知道了大數(shù)據(jù)意味著數(shù)據(jù)規(guī)模特別巨大,以至于傳統(tǒng)的技術(shù)手段難于處理。從大數(shù)據(jù)的4V特征中,我們進(jìn)一步了解到大數(shù)據(jù)時代的所謂數(shù)據(jù)已經(jīng)從狹義的數(shù)字符號走向了廣義的信息表征,一切信息都是數(shù)據(jù)。從大數(shù)據(jù)的哲學(xué)本質(zhì)中,我們更深入地發(fā)掘出大數(shù)據(jù)現(xiàn)象背后所蘊(yùn)藏的哲學(xué)本質(zhì):大數(shù)據(jù)代表著一種新的世界觀,萬物皆數(shù)據(jù),數(shù)據(jù)是萬物的本質(zhì)屬性,而且隨著大數(shù)據(jù)的發(fā)展,我們的世界將變成一個完全被數(shù)據(jù)化的透明世界。
[1]Steve Lohr.The Age of Big Data[N].The New York Times,2012-02-11.
[2]Viktor M-S,Kenneth C.Big Data[M].London:John Murray,2013.
[3]涂子沛.大數(shù)據(jù)——正在到來的數(shù)據(jù)革命[M].桂林:廣西師范大學(xué)出版社,2013.
[4]趙國棟,易歡歡,糜萬軍,等.大數(shù)據(jù)時代的歷史機(jī)遇——產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)[M].北京:清華大學(xué)出版社,2013:21.
[5]Michael Wessler.Big Data Analytics for Dummies[M]. New Jersey:John Wiley&Sons,Inc.2013.
[6][英]維克托·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[7]Judith Hurwitz,Alan Nugent,F(xiàn)ern Halper,et al.Big Data for Dummies[M].New Jersey:John Wiley&Sons,Inc.2013:15-16.
[8]鄔賀銓.大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn)[J].求是,2013(4): 47-49.
[9]李德毅.聚類成大數(shù)據(jù)認(rèn)知的突破口[N].中國信息化周報,2015-04-20.
[10]李國杰.大數(shù)據(jù)成為信息科技新關(guān)注點(diǎn)[J].硅谷,2012(13):17.
[11]Paul C Zikopoulos,Chris Eaton,Dirk de Roos,et al. Understanding Big Data[M].New York:McGraw Hill,2012:5.
[12]黃欣榮.從復(fù)雜性科學(xué)到大數(shù)據(jù)技術(shù)[J].長沙理工大學(xué)學(xué)報(社會科學(xué)版),2014(2):5-9.
[13]黃欣榮.大數(shù)據(jù)哲學(xué)研究的背景、現(xiàn)狀與路徑[J].哲學(xué)動態(tài),2015(7):96-102.
[14]黎德?lián)P.信息時代的大數(shù)據(jù)現(xiàn)象值得哲學(xué)關(guān)注[J].長沙理工大學(xué)學(xué)報(社會科學(xué)版),2014(2):10-13.
[15]趙林.西方哲學(xué)史講演錄[M].北京:高等教育出版社,2009:37.
The Semantics,F(xiàn)eature and Essence of Big Data
HUANG Xin-rong
(Management Philosophy Research Center,Jiangxi University of Finance and Economics,Nanchang,Jiangxi 330013,China)
Big data is a heatedly discussed word at present,but what the hell is big data?The answer to it is relatively vague in academic circle as well as in industry.Semantic analysis via confused semantics and the further revealing in semantics of big data from basic feature and philosophical essence have important significance for the development of big data technology and public understanding on it.
big data;semantics;feature;essence
N031
A
1672-934X(2015)06-0005-07
10.16573/j.cnki.1672-934x.2015.06.001
2015-10-09
國家社會科學(xué)基金重點(diǎn)課題(2014AZX006)
黃欣榮(1962-),男,江西贛州人,教授,博士,博士生導(dǎo)師,主要從事大數(shù)據(jù)哲學(xué)、復(fù)雜性哲學(xué)研究。