摘要:進入21世紀,數(shù)據(jù)的收集、存儲、處理技術(shù)的發(fā)展給大數(shù)據(jù)時代的到來提供了可能。大數(shù)據(jù)時代我們能夠接觸海量數(shù)據(jù),對事物的分析可以采取全樣本數(shù)據(jù)模式。事實證明,海量數(shù)據(jù)的分析方法帶來更高的精確性,而這種全樣本數(shù)據(jù)模式也給數(shù)據(jù)收集帶來了混亂,我們允許這種收集過程中的不精確性。海量數(shù)據(jù)+混亂=思維的變革,研究的目的從因果性轉(zhuǎn)向相關(guān)性,這是大數(shù)據(jù)時代的思維核心。思維的轉(zhuǎn)向不代表對因果性的完全否定,甚至相關(guān)性的分析可以為因果性的探尋做鋪墊。大數(shù)據(jù)的興起也引起了科學(xué)發(fā)現(xiàn)模式的改變,第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)必然會對科學(xué)哲學(xué)的相關(guān)論題提出挑戰(zhàn),這是需要用科學(xué)哲學(xué)來回應(yīng)的。
關(guān)鍵詞:大數(shù)據(jù) 相關(guān)性 第四范式
中圖分類號:TP311? 文獻標識碼:A? 文章編號:1009-5349(2020)13-0244-02
就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測微生物,這種能夠收集和分析海量數(shù)據(jù)的新技術(shù)將幫助我們更好地理解世界——這種理解世界的新方法我們現(xiàn)在才意識到[1]。數(shù)據(jù)更容易采集、存儲、處理才使得大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,這將引起思維、商業(yè)、管理的大變革。我們可以稱其為大數(shù)據(jù)革命,但革命的意義不在于分析數(shù)據(jù)的機器,而是如何運用數(shù)據(jù)本身。
一、思維的變革:從因果性到相關(guān)性
大數(shù)據(jù)的名稱來自未來學(xué)家托夫勒所著的《第三次浪潮》。2008年9月,美國《自然》雜志,正式提出大數(shù)據(jù)概念;2011年2月1日,美國《科學(xué)》雜志通過社會調(diào)查的方式,第一次分析了大數(shù)據(jù)對人們生活的影響;而最早應(yīng)用大數(shù)據(jù)的是麥肯錫公司。大數(shù)據(jù)的創(chuàng)新在于分析信息時的重要轉(zhuǎn)變,一是在大數(shù)據(jù)時代我們可以分析更多的數(shù)據(jù),甚至可以獲得某個事件的所有數(shù)據(jù)。二是由于我們能夠獲得更多的數(shù)據(jù),我們不再追求精確性。大數(shù)據(jù)時代的到來給人們的思維帶來了全新的變革,我們可以采用全數(shù)據(jù)模式,樣本即為總體。谷歌流感趨勢預(yù)測不是依賴隨機樣本,而是從數(shù)據(jù)總體出發(fā)分析了美國幾十億條網(wǎng)絡(luò)搜索記錄。分析總體能夠提高預(yù)測的準確性,甚至能夠推測出某個具體城市的流感狀況;Farecast的初始系統(tǒng)有12000個數(shù)據(jù),可以對機票價格做出比較完美的預(yù)測。隨著研發(fā)者加入更多信息數(shù)據(jù)時,它的預(yù)測結(jié)果會更加精確。同樣我們對于數(shù)據(jù)的追求不是執(zhí)迷于精確性,而是允許混亂。2006年谷歌開始設(shè)計翻譯系統(tǒng)。谷歌利用的是一個更大更繁雜的數(shù)據(jù)庫,也就是全球互聯(lián)網(wǎng),而不是收集兩種語言簡單的文本翻譯。谷歌在設(shè)計翻譯系統(tǒng)時不會將自己限制在一個小圈子里,它參照各個公司的對譯文檔、官方的公告文件等。盡管輸入源頭很廣泛,輸入內(nèi)容也很繁雜,但谷歌翻譯系統(tǒng)的翻譯質(zhì)量卻是最好的。
海量數(shù)據(jù)采集、存儲、處理等技術(shù)的實現(xiàn)為全樣本采集帶來了可能,大數(shù)據(jù)與隨機樣本對比,人們自然傾向于前者。而海量數(shù)據(jù)必然會帶來數(shù)據(jù)混亂這種不精確性,這是一種必然性。但實踐證明我們可以接受這種混亂,允許不精確性。這兩種轉(zhuǎn)變互相聯(lián)系、影響,最終促進了思維的轉(zhuǎn)變:從因果性到相關(guān)性。在大數(shù)據(jù)時代,海量數(shù)據(jù)加上混亂的不精確性,我們知道是什么就可以了,無須關(guān)注為什么。這不是對科學(xué)因果性的完全否定,探尋事實背后的原因仍然具有意義,只是在某些特殊背景下,我們不必知道原因,原因的追尋不是迫在眉睫的事情,甚至是可以不存在的。格雷格林登在攻讀博士期間在網(wǎng)上賣書,他喜歡讀書也喜歡賣書,但他更喜歡幫助人們找到感興趣的點,這或許是亞馬遜個性推薦最初的靈感。亞馬遜剛開始的推薦系統(tǒng)采用人工推薦的形式,書評人寫評語并將它們放在網(wǎng)頁上,這成了亞馬遜的金字招牌。嘗到甜頭的亞馬遜打算創(chuàng)新,根據(jù)用戶以往的購物喜好為其推薦書籍。他們收集了用戶買了什么書,一起買的書中有什么相關(guān)性,什么書是只瀏覽卻沒有購買的購物信息。通過這些數(shù)據(jù)亞馬遜找到了客戶之間的相似性,并且為他們推薦非常原始的信息。例如你買了一本有關(guān)量子力學(xué)的書籍,系統(tǒng)就會給你推薦大量有關(guān)物理學(xué)書籍,而事實上你只是一個科學(xué)史的興趣愛好者,對于物理基本一竅不通。這給用戶帶來的體驗并不是完美的,林登很快找到解決方案,推薦系統(tǒng)沒必要對不同用戶進行對比分析,它需要做的是找到產(chǎn)品之間的關(guān)聯(lián)性。亞馬遜立即申請了協(xié)同過濾技術(shù)的專利,系統(tǒng)對于用戶的需求提前分析,用戶登錄網(wǎng)站就會很容易得到自己想要的信息。林登回憶道:“如果系統(tǒng)運行良好,亞馬遜應(yīng)該只推薦你一本書,而這本書就是你將要買下的那本”。
二、第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)
美國計算機專家、圖靈獎得主吉姆·格雷(JimGray)在2007年1月11日的一次學(xué)術(shù)會議上發(fā)表了題為“e-Science:科學(xué)方法的一次革命”的學(xué)術(shù)演講,明確提出了科學(xué)分期和分類的新方法[2]。他按照時間和研究工具兩個維度將歷史上的科學(xué)劃分為經(jīng)驗科學(xué)、理論科學(xué)、計算科學(xué)和數(shù)據(jù)密集型科學(xué)四大類型。這四種不同類型的科學(xué)對應(yīng)著四種不同的科學(xué)發(fā)現(xiàn)模式。第一種科學(xué)發(fā)現(xiàn)模式是經(jīng)驗范式,從時間角度來看是人類早期對于不能合理解釋、相對復(fù)雜的自然現(xiàn)象的觀察,從工具維度來說采用的是肉眼和常用的一些生活工具,此時科學(xué)還沒有職業(yè)化,只是作為一種業(yè)余興趣愛好。近代西方哲學(xué)有明顯的認識論轉(zhuǎn)向,從傳統(tǒng)希臘重視本體論的探討到向認識論方向傾斜,形成了兩種認識理論,一是經(jīng)驗論即上述的第一范式的科學(xué)發(fā)現(xiàn)模式;二是唯理論,即第二種范式的科學(xué)發(fā)現(xiàn)模式——理論范式。對于理論范式的介紹從理論主義代表人物中就可以清晰了解,柏拉圖認為人可以通過理念構(gòu)建世界和觸及真知,笛卡爾通過我思來推理我在這個命題,大數(shù)學(xué)家萊布尼茲試圖運用0和1構(gòu)建整個世界。經(jīng)驗論認為科學(xué)發(fā)現(xiàn)的重點應(yīng)該落實到經(jīng)驗基礎(chǔ)上,無論是普通肉眼觀察還是精密的實驗檢驗。而唯理論在于理性的分析概括和邏輯的推導(dǎo)。經(jīng)驗論善于從有限事例中歸納出一般原理,而唯理論更愿意從原理出發(fā)推導(dǎo)演繹出結(jié)論。隨著科學(xué)的發(fā)展,兩種觀點在一定程度上出現(xiàn)了辯證的統(tǒng)一,但由于經(jīng)驗事實獲取和邏輯推導(dǎo)的局限性,這兩種范式只適合解決一些簡單科學(xué)。面對一些復(fù)雜現(xiàn)象形成的復(fù)雜性科學(xué),第三范式借著計算機發(fā)展的東風開始通過模擬來進行科學(xué)發(fā)現(xiàn)。這種范式離我們并不遙遠并且正在作用于我們的生活。
第四范式:數(shù)據(jù)密集科學(xué)發(fā)現(xiàn)模式的出現(xiàn),對科學(xué)發(fā)現(xiàn)的問題提出了新的挑戰(zhàn),可以說,小數(shù)據(jù)時代科學(xué)研究離不開數(shù)據(jù)的參與,而大數(shù)據(jù)時代科學(xué)始于數(shù)據(jù)。科學(xué)始于數(shù)據(jù)是一種全新的科學(xué)發(fā)現(xiàn)邏輯模式,這是時代進步和工具提升帶來的全新變革,這將改變科學(xué)發(fā)現(xiàn)過程中的各個方面,但并不意味著其他科學(xué)發(fā)現(xiàn)邏輯起點失效,各種邏輯途徑的科學(xué)發(fā)現(xiàn)還是可以共生共存、辯證統(tǒng)一的??茖W(xué)分界的目標就是將真正的科學(xué)與非科學(xué)、偽科學(xué)、形而上學(xué)區(qū)分開來,看似很簡單的問題卻成了科學(xué)發(fā)展過程中的關(guān)鍵??茖W(xué)來自自然哲學(xué),而自然哲學(xué)最早又與宗教有著千絲萬縷的關(guān)系。自從文藝復(fù)興起,科學(xué)開始與哲學(xué)分離,為了擺脫宗教的束縛而獨立??茖W(xué)以反對形而上學(xué)的名義與哲學(xué)做區(qū)分,同樣以提倡實驗、理性獨立于宗教。隨著科學(xué)的快速發(fā)展,科學(xué)的權(quán)威性越來越強,似乎科學(xué)就是真理。哲學(xué)變得沒落,為了吸引眼球,哲學(xué)家推崇科學(xué)的哲學(xué),而宗教也變得科學(xué)起來。這使科學(xué)獨立問題變得十分模糊,那么分界問題也就被提上日程。相對論和量子力學(xué)理論提出后科學(xué)發(fā)展似乎到達了極限,很長時間內(nèi)沒有突破性科學(xué)發(fā)現(xiàn)。東方道家和佛學(xué)的復(fù)歸例如氣功、中醫(yī)等,為了特殊利益而宣傳的邪教等偽科學(xué),這些都給科學(xué)分界問題帶來了復(fù)雜性。
從弗朗西斯培根到康德,從第一代實證主義到第三代實證主義,這些哲學(xué)家都論及分界問題,但是他們都不能明確提出這個問題,而是正面論證他們自己預(yù)設(shè)的所謂科學(xué)本質(zhì)問題,亦即科學(xué)究竟是什么的問題。他們至多在論證這個本質(zhì)問題時順便涉及分界問題。哲學(xué)家更愿意用經(jīng)驗去證實什么是科學(xué),波普爾把分界問題稱作康德問題,他認為康德對數(shù)學(xué)物理與形而上學(xué)的做出的區(qū)分就是一種分界問題,并且率先明確提出了分界問題[3]。波普爾認為愛因斯坦的相對論打破了經(jīng)典牛頓力學(xué)永為真理的神話,科學(xué)是一種猜想、假說,并不是真理,科學(xué)也是可以出錯的,因此說科學(xué)是可證偽的。無論一個理論被多少經(jīng)驗證實最終都有可能被推翻,事實上它們就相對成熟的科學(xué)假說,牛頓理論在那個年代被人們看作真理,但目前來看科學(xué)似乎是介于真理和謬誤之間。就像波普爾自己說的:“二百多年來,牛頓理論第一次變得成問題了”。在波普爾之前大部分人愿意用證實的方法無意識地解決科學(xué)分界問題,他們只證實了什么是科學(xué)的。而波普爾提倡用證偽的方法對科學(xué)分界,也有像費耶阿本德這種反科學(xué)主義、無政府主義,他反對方法,提倡取消對科學(xué)分界問題的討論??茖W(xué)哲學(xué)家先后用證實、證偽,以及庫恩范式理論和拉卡托斯科學(xué)研究綱領(lǐng)來給科學(xué)分界問題制定標準,但并沒有一個完美的統(tǒng)一。
大數(shù)據(jù)時代,數(shù)據(jù)的地位越來越高,我們是不是可以嘗試用數(shù)據(jù)來量化科學(xué)呢?自然界的各種物理量由于可以被量化,自然科學(xué)各學(xué)科率先進入科學(xué)共同體中。但是,人文學(xué)科卻由于缺乏量化指標而一直被科學(xué)共同體拒之門外。社會科學(xué)由于借用自然科學(xué)的研究方法而得到了部分指標的量化并初步跨進科學(xué)的門檻,但因沒有被全面數(shù)據(jù)化而沒有被科學(xué)共同體全面接納[4]??梢钥闯鰯?shù)據(jù)量化的重要意義,萬事萬物都可以通過量化、數(shù)字化被感知,那么海量數(shù)據(jù)可以嘗試作為科學(xué)分界標準的一個新指標。這是在當下大數(shù)據(jù)時代我們能夠預(yù)測到的不遠的事實,隨著大數(shù)據(jù)的發(fā)展和數(shù)據(jù)的全面化,大數(shù)據(jù)會給科學(xué)分界標準帶來更多的可能性,這是值得期待的。
三、結(jié)語
大數(shù)據(jù)的廣泛應(yīng)用,使得我們生活的方方面面都得到了改變,這種改變是中性的,我們在享受大數(shù)據(jù)帶來的準確預(yù)測中,也應(yīng)該注意到技術(shù)異化、隱私等方面的問題,這些是大數(shù)據(jù)發(fā)展必須面對的問題。只有妥善處理,才能真正迎接美好的大數(shù)據(jù)時代。
參考文獻:
[1]維克托·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2]吉姆·格雷.吉姆·格雷論e-Science:科學(xué)方法的一次革命[C]//TonyHey.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn).潘教峰,譯.北京:科學(xué)出版社,2012:9-24.
[3]周林東.科學(xué)哲學(xué)[M].上海:復(fù)旦大學(xué)出版社,2005:106.
[4]黃欣榮.數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)及其哲學(xué)問題[J].自然辯證法研究,2015,31(11).
責任編輯:趙慧敏
[作者簡介]盧雨生,黑龍江大學(xué)在讀碩士研究生,研究方向:科學(xué)技術(shù)哲學(xué)。