[美]拉斐爾·阿爾瓦拉多 [美]保羅·漢弗萊斯/文薛永紅/譯
“大數(shù)據(jù)”一詞大約于1995年開(kāi)始使用,其含義在2008年發(fā)生了根本性的變化:從運(yùn)用大規(guī)模數(shù)據(jù)集發(fā)現(xiàn)并解決問(wèn)題的一種方法,一躍成為建構(gòu)新興經(jīng)濟(jì)和文化秩序的“法寶”。它對(duì)人類所產(chǎn)生的深刻、普遍的影響,在讓人歡欣鼓舞的同時(shí),也讓人憂心忡忡。從經(jīng)濟(jì)的角度來(lái)看,目前“大數(shù)據(jù)”指代一種以數(shù)據(jù)為媒介的商業(yè)形式(以谷歌為代表),它把從大規(guī)模網(wǎng)絡(luò)中生成、收集的數(shù)據(jù)用于機(jī)器學(xué)習(xí),從而使其成為互聯(lián)網(wǎng)的實(shí)際中心。從文化的角度來(lái)看,該詞則代表一種新的知識(shí)和知識(shí)生產(chǎn)的形式,《連線》 (Wired)雜志的主編克里斯·安德森(Chris Anderson)在《科學(xué)理論的終結(jié)》一文中對(duì)此就有所闡述。①C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired, Vol.16,No.7, 2008, p.17.本文中,我們將從實(shí)際社會(huì)和科學(xué)變革的可觀察屬性的維度探討這兩種含義以及它們之間的聯(lián)系。為此,我們將引入三個(gè)核心概念:數(shù)據(jù)域(datasphere)、深調(diào)制(thick mediation)以及不透明表征(representational opacity)。這三個(gè)概念作為一個(gè)理論框架,可以幫助我們理解大數(shù)據(jù)在經(jīng)濟(jì)和文化維度上——一個(gè)是地方性和生成性的,另一個(gè)是全球性的和涌現(xiàn)性的——如何交互以及在交互過(guò)程中產(chǎn)生的一系列的后果、問(wèn)題和機(jī)遇。
雖然很難為“大數(shù)據(jù)”給出一個(gè)抽象的定義,但這個(gè)詞的概念源起具有清晰的歷史脈絡(luò)。“大數(shù)據(jù)”這個(gè)詞最早出現(xiàn)在20世紀(jì)90年代,當(dāng)時(shí)各行業(yè)和各門(mén)科學(xué)廣泛地使用數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)設(shè)備——從計(jì)算機(jī)科學(xué)儀器和收銀機(jī)到關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)——使得難以控制的數(shù)據(jù)流匯集成了海量數(shù)據(jù)。為了實(shí)現(xiàn)大數(shù)據(jù)集中挖掘并發(fā)掘其中潛在的認(rèn)知模式和商業(yè)價(jià)值,對(duì)于這些數(shù)據(jù)的組織與處理就變得十分迫切,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。此后,這種知識(shí)挖掘的有效模式被迅速崛起的谷歌演繹得淋漓盡致。1991年通過(guò)的《高性能計(jì)算法案》解除了對(duì)互聯(lián)網(wǎng)的監(jiān)管,之后,谷歌采用了數(shù)據(jù)挖掘技術(shù)來(lái)應(yīng)對(duì)互聯(lián)網(wǎng)爆炸式增長(zhǎng)所帶來(lái)的問(wèn)題,取得了矚目的成果。②我們將“互聯(lián)網(wǎng)”視為一個(gè)專有名詞,它的前身是阿帕網(wǎng)(APPANET)。2008年,《自然》和《連線》雜志均圍繞“大數(shù)據(jù)”這一主題組織了關(guān)于谷歌的討論,然而主題并不是討論它在管理和開(kāi)發(fā)大數(shù)據(jù)方面所取得的成功經(jīng)驗(yàn),而是將谷歌作為一個(gè)科學(xué)研究的典范,討論人類能從它身上學(xué)到什么。此后,大數(shù)據(jù)的概念不僅涵蓋了一套完整而又行之有效的數(shù)據(jù)處理方法(大致對(duì)應(yīng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域),而且作為一種發(fā)現(xiàn)科學(xué)知識(shí)的新工具為人們所理解。
沿著這條發(fā)展線索,大數(shù)據(jù)逐漸派生出了兩種廣泛的含義,我們稱之為小寫(xiě)的大數(shù)據(jù)(big data)和大寫(xiě)的大數(shù)據(jù)(Big Data)。小寫(xiě)的“大數(shù)據(jù)”指的是擁有海量數(shù)據(jù)的組織機(jī)構(gòu)所面臨的技術(shù)問(wèn)題。盡管在這個(gè)意義上它通常指的就是數(shù)據(jù)集本身,并強(qiáng)調(diào)其復(fù)雜性以及龐大的體量,但該術(shù)語(yǔ)更多地被用作一種代表,即代表在諸如天體物理學(xué)、生物信息學(xué)和其他領(lǐng)域成功應(yīng)用相關(guān)方法獲取數(shù)據(jù)流的科學(xué)學(xué)科以及在商業(yè)領(lǐng)域的消費(fèi)分析等。準(zhǔn)確地說(shuō),我們將小寫(xiě)的“大數(shù)據(jù)”一詞視為與數(shù)據(jù)科學(xué)相關(guān)的活動(dòng)和方法,因?yàn)檫@些數(shù)據(jù)集太大以至于不能用傳統(tǒng)方法進(jìn)行分析。
當(dāng)這些活動(dòng)和方法向社會(huì)各領(lǐng)域滲透并迅速發(fā)展——尤其是在經(jīng)濟(jì)和文化領(lǐng)域,便產(chǎn)生了大寫(xiě)的大數(shù)據(jù)。在經(jīng)濟(jì)上,這個(gè)術(shù)語(yǔ)表示以數(shù)據(jù)為中介的商業(yè)形式,包括大量的基于數(shù)據(jù)建立的公司與業(yè)務(wù),谷歌就是其典型代表。在文化上,這個(gè)術(shù)語(yǔ)代表了一種由數(shù)據(jù)科學(xué)研究者所倡導(dǎo)的新的知識(shí)和知識(shí)生產(chǎn)方式。這兩個(gè)方面無(wú)疑是相互聯(lián)系的:大數(shù)據(jù)在經(jīng)濟(jì)領(lǐng)域產(chǎn)生的數(shù)據(jù)在內(nèi)容上具有社會(huì)性和文化性。大數(shù)據(jù)組織和收集到的人類行為數(shù)據(jù)——從整個(gè)圖書(shū)館的數(shù)字化和通過(guò)交易得到的公共機(jī)構(gòu)的數(shù)據(jù)(如使用信用卡或谷歌搜索)到從社交媒體抓取到的數(shù)據(jù)——在數(shù)量上大大超過(guò)了通過(guò)傳統(tǒng)的方法如調(diào)查研究、參與觀察、檔案記錄等所獲取的數(shù)據(jù)。這些數(shù)據(jù)不僅規(guī)模龐大,而且涉及范圍廣,包括精確且詳盡的行為痕跡(比如通過(guò)掃描卡或社交媒體而追蹤到的關(guān)于消費(fèi)者的數(shù)據(jù))。顯然,如果沒(méi)有相關(guān)的技術(shù)設(shè)備的存在,就無(wú)法捕捉這些數(shù)據(jù)。這種社會(huì)性的數(shù)據(jù)在量和質(zhì)的方面發(fā)生了根本性變化,這就對(duì)技術(shù)和文化提出了巨大的挑戰(zhàn)。因此,大寫(xiě)的大數(shù)據(jù)是人文主義者和社會(huì)科學(xué)家所關(guān)注的領(lǐng)域。
大寫(xiě)的大數(shù)據(jù)可以被認(rèn)為是小寫(xiě)的大數(shù)據(jù)的經(jīng)濟(jì)和文化轉(zhuǎn)向,因此會(huì)使社會(huì)組織的知識(shí)結(jié)構(gòu)產(chǎn)生歷史性的變革。這種轉(zhuǎn)向是基于近幾十年來(lái)發(fā)展、滲透在全球各領(lǐng)域和組織的巨大的電子網(wǎng)絡(luò)所生產(chǎn)的數(shù)據(jù)之上的,包括政府、醫(yī)藥、金融、教育和商業(yè)。這個(gè)網(wǎng)絡(luò)既不是抽象的,也不是虛擬的,它是在人類生物圈內(nèi)發(fā)展起來(lái)的、具備技術(shù)和社會(huì)因素的具體結(jié)構(gòu),并且具有與卡爾·波蘭尼(Karl Polanyi)在《大轉(zhuǎn)型》 (The Great Transformation)中所描述的自由市場(chǎng)相似的空間結(jié)構(gòu),只是規(guī)模更大一些。①K. Polanyi, The Great Transformation: The Political and Economic Origins of our Time, Boston: Beacon, 1957.這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)有許多其他的名稱,例如,文學(xué)作品中吉布森(William Gibson)的“網(wǎng)絡(luò)空間”概念,社會(huì)科學(xué)中卡斯特(Manuel Casetells)的“流動(dòng)空間”概念以及祖博夫(Shoshana Zuboff)的“監(jiān)督資本主義”概念等。①W. Gibson, “Burning Chrome”, Omni,Vol.4, No.10, 1982, pp.72—77; M. Castells, “The Space of Flows”, The Information Age: Economy,Society, and Culture(Vol.1),Cambridge, MA: Wiley-Blackwell, 1996, pp. 376—423; S.Zuboff, “Big Other: Surveillance Capitalism and the Prospects of an Information Civilization”, in Journal of Information Technology,Vol.30, No. 1, 2015, pp.75—89.所有這些含義都是有價(jià)值的,它們就像一個(gè)個(gè)透鏡,透視著人類社會(huì)的眾多維度,我們將其稱之為數(shù)據(jù)域——一個(gè)由洛西克夫(Rushkoff)提出并被加芬克爾(Garfinkel)清晰地下過(guò)定義的術(shù)語(yǔ),它指的是“對(duì)機(jī)器可讀數(shù)據(jù)的收集、聚合和使用的基礎(chǔ)設(shè)施”②D.Rushkoff, Media Virus!: Hidden Agendas in Popular Culture, New York: Ballantine Books, 1994; S.Garfinkel,Database Nation: The Death of Privacy in the 21st Century, Beijing: O’Reilly Media, 2000.。
數(shù)據(jù)域作為一種社會(huì)建制,從許多相互獨(dú)立的領(lǐng)域及其相互聯(lián)合的進(jìn)程中涌現(xiàn)并嵌入其中,如計(jì)算思維的發(fā)展、自然科學(xué)和社會(huì)科學(xué)中的統(tǒng)計(jì)方法及各種世界假說(shuō)的興起、對(duì)用于組織和管理人口的各種記錄的使用(包括紙質(zhì)記錄和電子記錄)以及以計(jì)算設(shè)備為基礎(chǔ)的用于數(shù)據(jù)共享的通信網(wǎng)絡(luò)的建構(gòu)等。數(shù)據(jù)域的許多文化效應(yīng)并不是新事物,例如對(duì)信息超載的焦慮和對(duì)海量數(shù)據(jù)所帶來(lái)的變革的樂(lè)觀信念。數(shù)據(jù)域的獨(dú)特之處在于,它將之前的信息實(shí)踐結(jié)合到目前最新的、具備前所未有的規(guī)模和力量的計(jì)算機(jī)基礎(chǔ)設(shè)施之中。為了滿足生產(chǎn)和控制信息的需求,這些基礎(chǔ)設(shè)施被合并到組織內(nèi)部,由此首先產(chǎn)生了小寫(xiě)的大數(shù)據(jù),繼而為大寫(xiě)大數(shù)據(jù)的許多獨(dú)特屬性做了鋪墊和規(guī)定。如果沒(méi)有這些基礎(chǔ)設(shè)施,就不可能有這種形式的數(shù)據(jù)積累,也無(wú)法使數(shù)據(jù)的挖掘和使用成為一種新的知識(shí)形式。正是因?yàn)閿?shù)據(jù)域的存在,才使大數(shù)據(jù)能夠以兩種形式存在。最后,數(shù)據(jù)域通過(guò)全球網(wǎng)絡(luò)化的商業(yè)和協(xié)作模式得到擴(kuò)展,這些模式可以通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)(如商業(yè)網(wǎng)站),還可以通過(guò)開(kāi)放源代碼軟件等進(jìn)行協(xié)作實(shí)踐。在Web 2.0階段,用戶生成內(nèi)容(UGC)的交互式網(wǎng)站變得很普遍,數(shù)據(jù)域在社交互動(dòng)層面有了一系列的創(chuàng)新和發(fā)展,其中包括Facebook和Twitter等社交媒體平臺(tái)、零售平臺(tái)、博客圈、書(shū)簽網(wǎng)站和移動(dòng)計(jì)算設(shè)備,這些設(shè)備可以隨時(shí)隨地將用戶連接到這些平臺(tái)上。近來(lái),數(shù)據(jù)域已經(jīng)包含了新的參與平臺(tái),這就使得以Uber、Airbnb、維基解密、物聯(lián)網(wǎng)、云計(jì)算、開(kāi)源數(shù)據(jù)為代表的“零工經(jīng)濟(jì)” (gig economy)成為可能。
總之,數(shù)據(jù)域是歷史建構(gòu)的、分布在不同地理位置上的、社交性的網(wǎng)絡(luò),人與機(jī)器在此網(wǎng)絡(luò)中進(jìn)行數(shù)據(jù)交換。我們將這個(gè)網(wǎng)絡(luò)視為一種拉圖爾(Bruno Latour)意義上的行動(dòng)者網(wǎng)絡(luò):它作為共同參與者,包括了人與機(jī)器之間的一系列交流,并產(chǎn)生了我們與特定社會(huì)、文化以及體系相聯(lián)結(jié)的獨(dú)特的互動(dòng)模式。③B. Latour, Reassembling the Social: An Introduction to Actor-Network-Theory, Oxford: Oxford University Press,2005.與本質(zhì)上的社交網(wǎng)絡(luò)的異常特征不同,技術(shù)要素作為中介建構(gòu)了人與人之間的關(guān)系。正如人類學(xué)家邁克爾·韋斯(Michael Wesch)所言,按照語(yǔ)言人類學(xué)的概念,每個(gè)新的數(shù)字平臺(tái)(如Facebook,Snapchat或Uber)都會(huì)創(chuàng)建自己獨(dú)有的參與者結(jié)構(gòu),將人們整合于包含具體社會(huì)關(guān)系和角色的特定序列之中。①N. L. Whitehead and M.Wesch, Human No More: Digital Subjectivities, Unhuman Subjects, and the End of Anthropology, Boulder: Univ. Press of Colorado, 2012; H.A. Innis, Empire and Communications,Oxford:Clarendon, 1950.在這個(gè)網(wǎng)絡(luò)中,計(jì)算機(jī)的作用與多年前哈羅德·伊尼斯(Harold Innis)提出的原則一致,即媒體形式和交流方式塑造了社會(huì)關(guān)系,甚至如本尼迪克特·安德森(Benedict Anderson)在《想象的共同體》中所言,它在一定程度上形成了一個(gè)國(guó)家的民族特性。
表征數(shù)據(jù)域的參與結(jié)構(gòu)通過(guò)在軟件中執(zhí)行編碼并在硬件約束下運(yùn)行規(guī)則得以生成。譬如像Facebook之類的社交媒體平臺(tái),是通過(guò)硬件和軟件建立人類參與者(“朋友”)之間的對(duì)稱關(guān)系網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)個(gè)人之間的溝通的。由此產(chǎn)生的社交網(wǎng)絡(luò),從用戶的角度來(lái)看,具有或多或少的扁平化和非等級(jí)屬性。與此相反,Twitter通過(guò)非對(duì)稱“跟隨”的邏輯建立關(guān)系,進(jìn)而形成網(wǎng)絡(luò),用戶可以通過(guò)將關(guān)注者的比例最大化來(lái)構(gòu)建層級(jí)結(jié)構(gòu)。
除結(jié)構(gòu)性結(jié)果外,還有與使用媒體形式有關(guān)的特定的社會(huì)進(jìn)程。在數(shù)據(jù)域中,典型的社會(huì)進(jìn)程開(kāi)始于對(duì)一些基本人類行為模式的表征和捕捉,這類行為一般是一些基本交易事件(例如打一次電話或進(jìn)行一次購(gòu)買(mǎi)),這類事件可以轉(zhuǎn)化為數(shù)據(jù),我們就稱之為數(shù)據(jù)捕獲事件。②需要強(qiáng)調(diào)的是,盡管我們把注意力放在人類這一因素上,但是數(shù)據(jù)域不僅僅局限于人與人、人與機(jī)器之間的交互。自動(dòng)出租車(chē)的運(yùn)行、軍用無(wú)人機(jī)對(duì)信息的收集、熊入侵的視頻圖像等,所有這些內(nèi)容都是數(shù)據(jù)域的組成部分。在每個(gè)數(shù)據(jù)捕獲事件中,行為被轉(zhuǎn)換并打包成具有元數(shù)據(jù)內(nèi)容的自包含信息。通常情況下,可用的元數(shù)據(jù)包括事件的具體時(shí)間(秒)、地理位置(米)以及電話號(hào)碼或電子郵件地址等形式的個(gè)人標(biāo)識(shí)符。一旦這些數(shù)據(jù)被捕獲和打包成功,捕獲設(shè)備就會(huì)通過(guò)一系列通道(如WiFi集線器,光纖電纜和蜂窩塔)將這些數(shù)據(jù)發(fā)送到云端的服務(wù)器。數(shù)據(jù)包作為離散記錄或“觀察結(jié)果” (從數(shù)據(jù)中獲取相應(yīng)模式的分析員如此稱呼此類數(shù)據(jù))進(jìn)入并儲(chǔ)存在云端數(shù)據(jù)庫(kù)中。在數(shù)據(jù)庫(kù)中,單個(gè)數(shù)據(jù)包將與以相同方式捕獲的其他數(shù)據(jù)包聚合。在這一過(guò)程中,數(shù)據(jù)將會(huì)到達(dá)一個(gè)臨時(shí)的終端。數(shù)據(jù)庫(kù)通常由首先創(chuàng)建數(shù)據(jù)捕獲事件的組織擁有,如應(yīng)用程序的所有者、信用卡公司或二者的組合。捕獲的數(shù)據(jù)包將成為在此類組織內(nèi)部使用的大量數(shù)據(jù)中的一部分——它將成為該組織歷史記錄的一部分,或者可能成為季度報(bào)告中聚合數(shù)據(jù)點(diǎn)的一部分。
在大數(shù)據(jù)時(shí)代,這些數(shù)據(jù)并不會(huì)長(zhǎng)期停留在數(shù)據(jù)倉(cāng)庫(kù)中。它們將與組織的數(shù)據(jù)倉(cāng)庫(kù)或“湖”中的其他數(shù)據(jù)集相結(jié)合,或者出售給另一個(gè)組織。然后,數(shù)據(jù)工程師對(duì)數(shù)據(jù)進(jìn)行清理并將其轉(zhuǎn)化為數(shù)據(jù)分析人員可分析的形式。數(shù)據(jù)分析人員通過(guò)先進(jìn)的分析方法對(duì)數(shù)據(jù)進(jìn)行挖掘,以發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)。他們將挖掘到的結(jié)果或轉(zhuǎn)交給執(zhí)行官做出決定,或推送給其他算法以用于其他分析目的,或?qū)⑵浞答伒綌?shù)據(jù)產(chǎn)品中并重新傳輸回?cái)?shù)據(jù)捕獲站點(diǎn)。例如,他們將個(gè)人的社交媒體帖子與他或她的朋友組群信息結(jié)合在一起進(jìn)行分析,分析結(jié)果將用于構(gòu)建該人能看到的推送,這反過(guò)來(lái)又會(huì)刺激另一個(gè)消息的發(fā)生,即另一個(gè)數(shù)據(jù)捕獲事件。
這一過(guò)程具備一種敘事性的特質(zhì),反映為布朗和杜古德(John Seely Brown and Paul Duguid)所述的“信息社會(huì)生活”:數(shù)據(jù)在移動(dòng)——從數(shù)據(jù)捕獲階段到數(shù)據(jù)聚合階段,之后是數(shù)據(jù)分析階段以及其他的數(shù)據(jù)運(yùn)用階段。①J. S. Brown and P. Duguid, “Mysteries of the Region: Knowledge Dynamics in Silicon Valley”, in The Silicon Valley Edge: Habitat for Innovation and Entrepreneurship, edited by Chong-Moon Lee, W. F. Miller, M. G. Hancock and H. S. Rowen, Stanford, CA: Stanford University Press, 2000, pp.16—45.這個(gè)過(guò)程說(shuō)明了大寫(xiě)大數(shù)據(jù)與小寫(xiě)大數(shù)據(jù)二者間的重要區(qū)別。在自然科學(xué)領(lǐng)域中收集和處理極大的數(shù)據(jù)集時(shí),只存在從世界到數(shù)據(jù)收集器的單向通道。當(dāng)我們使用科學(xué)研究的結(jié)果來(lái)改變自然世界時(shí),雖然工程學(xué)上可能會(huì)有一些例外,但在某些自然科學(xué)領(lǐng)域如天體物理學(xué)中,數(shù)據(jù)收集行為并不會(huì)影響星系本身。而在大寫(xiě)大數(shù)據(jù)的許多領(lǐng)域,存在信息和影響間的雙向流動(dòng)。例如,社交媒體公司可能會(huì)收集青少年的數(shù)據(jù),然后利用(并出售)這些數(shù)據(jù)來(lái)重塑他們的購(gòu)買(mǎi)習(xí)慣和娛樂(lè)偏好。同樣,政黨和政府收集有關(guān)選民的數(shù)據(jù),并使用這些數(shù)據(jù)分析產(chǎn)品來(lái)影響個(gè)人的投票決定。這也就意味著,大寫(xiě)的大數(shù)據(jù)涉及觀察者與觀察者之間的反饋關(guān)系,而小寫(xiě)的大數(shù)據(jù)通常不會(huì)。
這些結(jié)構(gòu)和過(guò)程中的細(xì)節(jié)與生成它們的媒體平臺(tái)一樣多變,但是若將之視為同一類別進(jìn)行分析,則存在一個(gè)共同模式,其特征可能如圖1所示:
圖1 數(shù)據(jù)域的基本參與結(jié)構(gòu)
該圖描繪了包含三類代理方(agent)及相互關(guān)系在內(nèi)的基本參與結(jié)構(gòu):其中M為參與過(guò)程的機(jī)器,它介于P1和P2之間,P1和P2代表任意數(shù)量的與服務(wù)有關(guān)的人員,組織O負(fù)責(zé)托管由M支持的服務(wù)。有些讀者會(huì)注意到,這種結(jié)構(gòu)似乎描述了以計(jì)算機(jī)為媒介交流(CMC)的典型情況。CMC是20世紀(jì)60年代人機(jī)交互領(lǐng)域中的一個(gè)關(guān)鍵概念,在該領(lǐng)域中,計(jì)算機(jī)建構(gòu)和改變了組織和社區(qū)中人與人之間的關(guān)系。然而,該圖中的結(jié)構(gòu)超出了該過(guò)程本身所創(chuàng)建的任何一個(gè)組織單位的界限。事實(shí)上,其所涉及的參與者(P1,P2)之間可能、也往往不認(rèn)識(shí),更不用說(shuō)發(fā)生面對(duì)面的交流。該圖說(shuō)明了自社交媒體革命和Web 2.0時(shí)代以來(lái),我們已經(jīng)意識(shí)到了這樣一種情況,即人與人之間的通信——從簡(jiǎn)單的發(fā)短信到關(guān)注Facebook上的好友以及數(shù)字平臺(tái)提供的其他參與模式——絕不是私密的。即使在我們的想象中,這種人與人之間的通信方式應(yīng)該移除任何的“中間人”,然而由于第三方(即圖中的組織O)的存在,就使得這種非私密通信的狀況成為了可能。此外,通信行為以及因這種行為產(chǎn)生的信息存在于這個(gè)組織的利益鏈條之中,就像電話公司為每次通話收費(fèi)一樣,但該組織絕不僅限于在通信服務(wù)中獲利。所以說(shuō),眾多社交媒體平臺(tái)免費(fèi)的理由與廣播網(wǎng)絡(luò)電視免費(fèi)的原因相同,這是因?yàn)闊o(wú)論是作為此類服務(wù)的參與者還是觀眾,這些人本身就是產(chǎn)品。機(jī)器主要促成的是參與者——尤其是參與者的數(shù)據(jù)——與組織之間的關(guān)系,而不是參與者之間的關(guān)系。
除此之外,人們很容易得出一種極端的結(jié)論:社會(huì)媒體以及在數(shù)據(jù)域內(nèi)的所有其他的以計(jì)算機(jī)為媒介的通信手段,其存在的目的都是為了賦予并擴(kuò)大它們背后的組織的權(quán)力,如谷歌和亞馬遜,而對(duì)用戶利益的考量都是次要的或虛妄的。有一種推論認(rèn)為:大數(shù)據(jù)是一種新自由主義和全球主義的陰謀,機(jī)器扮演著數(shù)字雙重間諜的角色。此外,還有另一種說(shuō)法,即大數(shù)據(jù)和數(shù)據(jù)科學(xué)的支持者們想要說(shuō)明的是,并非所有的組織都與選民的利益相沖突,或與其他有利益沖突和監(jiān)管任務(wù)的組織毫無(wú)往來(lái)。事實(shí)上,這里所描述的數(shù)據(jù)流可被用來(lái)改善成員與組織之間以及不同組織之間的關(guān)系,尤其在醫(yī)學(xué)和教育領(lǐng)域中,大數(shù)據(jù)都發(fā)揮了明顯的積極作用。我們面臨的挑戰(zhàn)是,如何從物料和可操作性兩個(gè)角度調(diào)整系統(tǒng),以使其適應(yīng)我們共同的需求。
在數(shù)據(jù)域的基本參與結(jié)構(gòu)中,有一個(gè)關(guān)鍵元素非常值得我們關(guān)注。從圖1可以看出,無(wú)論數(shù)據(jù)如何在使用者之間傳遞,數(shù)據(jù)始終停留在中間地帶,即某一數(shù)據(jù)庫(kù)中。在數(shù)據(jù)庫(kù)中,數(shù)據(jù)不但被存儲(chǔ)、聚合,還可被用于他途,而作為參與者通常對(duì)此毫不知情。因此,盡管基本參與結(jié)構(gòu)的每個(gè)元素都被認(rèn)為是必不可少的,但我們觀察到數(shù)據(jù)庫(kù)占據(jù)著所有數(shù)據(jù)最終必然流經(jīng)的中心和關(guān)鍵路徑,其作用就像“曼陀羅” (mandala),將用戶的周邊關(guān)系整合到組織的中心樞紐。產(chǎn)生這種向心性的本質(zhì)原因是數(shù)據(jù)庫(kù)為系統(tǒng)提供了長(zhǎng)久記錄的空間。如果沒(méi)有數(shù)據(jù)庫(kù)的存在,所有的通信都是短暫的,即使我們想要如上文所述,將個(gè)體行為所產(chǎn)生的數(shù)據(jù)聚合轉(zhuǎn)換成數(shù)據(jù)包,都是不可能實(shí)現(xiàn)的。我們很難估計(jì)這個(gè)元素的重要性。作為流動(dòng)在數(shù)據(jù)域中的數(shù)據(jù)的中心存儲(chǔ)庫(kù),數(shù)據(jù)庫(kù)的功能與以讀寫(xiě)能力為基礎(chǔ)的社會(huì)和組織中的編寫(xiě)系統(tǒng)的功能相同。自舊石器時(shí)代以來(lái),這種事情就一直在人類社會(huì)中上演。這是自計(jì)算機(jī)被引入公司以來(lái),各組織投入的基本記錄技術(shù),它是在編程語(yǔ)言、算法和應(yīng)用軟件等更為多變的潮流基礎(chǔ)上形成的信息管理的基石?;诖耍覀冋J(rèn)為數(shù)據(jù)庫(kù)是真正的書(shū)寫(xiě)和印刷技術(shù)的繼承者。①祖博夫認(rèn)為,數(shù)據(jù)庫(kù)在組織中起著一種文本的功能,在 In the Age of the Smart Machine: The Future of Work and Power (New York: Basic Books, 1988)一書(shū)中,他將數(shù)據(jù)庫(kù)描述為一種電子文本,發(fā)揮著“信息化”的功能,與工業(yè)機(jī)器的“自動(dòng)化”過(guò)程類似。在該書(shū)中,祖博夫還根據(jù)口述與讀寫(xiě)的相關(guān)理論詳細(xì)地闡述了數(shù)據(jù)庫(kù)的功能與作用。
如果數(shù)據(jù)庫(kù)在人們的網(wǎng)絡(luò)中扮演“文本”的作用,那么我們可以將數(shù)據(jù)庫(kù)在媒介傳播中所做的工作描述為語(yǔ)言人類學(xué)家使用的另一個(gè)術(shù)語(yǔ)——文本化(entextualization)。所謂的“文本化”指的是將短暫的話語(yǔ)轉(zhuǎn)化為持續(xù)的媒介形式(如寫(xiě)作、歌曲)的過(guò)程,其影響社會(huì)生活的能力超越了話語(yǔ)的原始語(yǔ)境。因此,數(shù)據(jù)庫(kù)介入通信的一個(gè)關(guān)鍵作用是它會(huì)將人類的互動(dòng)行為文本化,而在傳統(tǒng)媒體渠道(如電話)中這是不可能實(shí)現(xiàn)的,除非線路被監(jiān)聽(tīng)或竊聽(tīng)。這種持續(xù)的、實(shí)時(shí)的、無(wú)處不在的文本化的工作,使數(shù)據(jù)庫(kù)介入的通信方式與其他的通信方式明顯不同。因此,基于這種通信方式的數(shù)據(jù)域在歷史上也是獨(dú)一無(wú)二的。
從參與消息傳遞的兩個(gè)人(P1和P2)的角度來(lái)看,通過(guò)諸如移動(dòng)電話等設(shè)備進(jìn)行的通信或多或少是透明(transparent conversation)的。機(jī)器提供了用以發(fā)送和接收消息的清晰通道,如電話和電報(bào)。由于這些技術(shù)的目標(biāo)是忠實(shí)地將消息從發(fā)送方復(fù)制到接收方,因此我們可以說(shuō),這些技術(shù)對(duì)信息所做的是一種淺調(diào)制(thin mediation),意味著在某種程度上,信息雙方成功地?cái)[脫了通信方式本身。香農(nóng)(Claude Shannon)的通信模型正體現(xiàn)了這種特征:通信工程師的最高目標(biāo)是消除信號(hào)通過(guò)信道時(shí)所產(chǎn)生的噪聲。②C. E. Shannon, “A Mathematical Theory of Communication”, ACM SIGMOBILE Mobile Computing and Communications Review, Vol.5,No. 1, 2001, pp. 3—55.然而,由于數(shù)據(jù)域中的信息被文本化并存儲(chǔ)在數(shù)據(jù)庫(kù)中,在數(shù)據(jù)庫(kù)中又被塑造、處理和重定向到與原始會(huì)話無(wú)關(guān)的第三方,交流行為因此發(fā)生了根本性的改變。我們把這種通信方式稱為深調(diào)制(thick mediation)。在這種通信方式下,啟用信號(hào)通道的目的不是為了擺脫這種方式,恰恰相反,是要從根本上重塑信息,因此其對(duì)信息本身做的是一種深度的調(diào)制行為,這一事實(shí)為馬歇爾·麥克盧漢(Marshall McLuhan)的著名論斷賦予了新的含義。③指加拿大著名傳播學(xué)家馬歇爾·麥克盧漢(Marshall Mcluhan,1911—1980年)對(duì)媒介的論斷,最著名的有:“媒介就是信息”“媒介是人體的延伸”等?!g者我們不能簡(jiǎn)單地認(rèn)為媒介自身就帶有信息,而是媒介塑造和放大了信息。
如果數(shù)據(jù)庫(kù)介入的通信是深調(diào)制,那么信道的寬度以及參與者結(jié)構(gòu)是數(shù)據(jù)庫(kù)文本性質(zhì)的函數(shù),人類學(xué)家伊蘭娜·格爾森(Ilana Gershon)也認(rèn)為,新媒體形式的參與者結(jié)構(gòu)是媒體形式固有屬性的函數(shù),但是受用戶感知與執(zhí)行方式的約束。①I(mǎi). Gershon, “Language and the Newness of Media”, Annual Review of Anthropology, Vol.46, No.1, 2017,pp.15—31.因此,要了解深調(diào)制的影響,我們應(yīng)該探索數(shù)據(jù)庫(kù)作為媒體形式的屬性以及基本參與者結(jié)構(gòu)如何感知和利用這些屬性。
在數(shù)據(jù)庫(kù)內(nèi)在屬性的研究方面,列夫·曼諾維奇(Lev Manovich)將數(shù)據(jù)庫(kù)看作是“一種象征形式”,我們認(rèn)為他的這一開(kāi)創(chuàng)性工作非常有價(jià)值。②L. Manovich, “Database as Symbolic Form”, Convergence, Vol.5, No. 2, 1999, pp.80—99.“數(shù)據(jù)庫(kù)邏輯”與歷史和文學(xué)文本的敘事邏輯相反,曼諾維奇描述了“數(shù)據(jù)庫(kù)邏輯”的通用屬性:在數(shù)據(jù)庫(kù)中,內(nèi)容的順序并不重要(其順序是“隨機(jī)存取”);工作本身并沒(méi)有任何開(kāi)端或結(jié)局,而且其信息在結(jié)構(gòu)上是聚合的(而不是組合關(guān)系的)。有趣的是,曼諾維奇的觀點(diǎn)具體地體現(xiàn)了幾年前利奧塔(Jean-Fran?ois Lyotard)在《后現(xiàn)代狀態(tài)》中所預(yù)期的計(jì)算機(jī)知識(shí)的反敘事特質(zhì)。③J. F. Lyotard, The Postmodern Condition: A Report on Knowledge, translated by G. Bennington and B. Massumi,Minneapolis: University of Minnesota Press, 1984.在此基礎(chǔ)上,我們可以再增加以下幾點(diǎn):數(shù)據(jù)庫(kù)的文本是一個(gè)個(gè)單獨(dú)提供的信息的聚合;原始數(shù)據(jù)生成行為的唯一性將丟失,因?yàn)榕c該行為相關(guān)聯(lián)的轉(zhuǎn)發(fā)和打包行為使數(shù)據(jù)變成一組相似的數(shù)據(jù)[以瓦爾特·本杰明(Walter Benjamin)在《機(jī)械復(fù)制時(shí)代的藝術(shù)作品》中所描述的“韻味的消散”的方式];該行為使數(shù)據(jù)的語(yǔ)境減少?gòu)亩蔀樵獢?shù)據(jù);數(shù)據(jù)庫(kù)的內(nèi)容可以是數(shù)字的、分類的或語(yǔ)言上碎片化的;每一個(gè)數(shù)據(jù)的實(shí)例都必須遵循一個(gè)固定架構(gòu)所定義的結(jié)構(gòu);這些數(shù)據(jù)能被機(jī)器讀取,并能被人類用特殊的語(yǔ)言查詢等。
鑒于這些屬性,數(shù)據(jù)庫(kù)所介入的信息交互關(guān)系中的參與者根據(jù)他們?nèi)绾谓忉尯托袨閬?lái)承擔(dān)某些角色。因此,對(duì)參與結(jié)構(gòu)所產(chǎn)生的結(jié)果需要作實(shí)證研究。在這里,我們還注意到,數(shù)據(jù)庫(kù)文本的受眾從來(lái)不是對(duì)話的參與者,他們只貢獻(xiàn)和接收數(shù)據(jù)庫(kù)整體文本的一小部分——作為參與結(jié)構(gòu)的各方即組織或準(zhǔn)組織,構(gòu)成了所謂的“B2B” (企業(yè)對(duì)企業(yè))的關(guān)系。對(duì)數(shù)據(jù)域中的組織及其共同參與者來(lái)說(shuō),數(shù)據(jù)庫(kù)文本就是大寫(xiě)的大數(shù)據(jù)。
除了上文所述的參與結(jié)構(gòu)外,我們還必須注意到另外一個(gè)事實(shí),即數(shù)據(jù)庫(kù)作為社交紐帶處于另一類比社交媒體更為普遍(或至少存在這種可能)的參與結(jié)構(gòu)的核心位置,而這兩件事實(shí)共同放大了大數(shù)據(jù)作為人類行為文本化積累的意義。以上,我們描述了及物性(transitive structure)的參與結(jié)構(gòu)——在這種結(jié)構(gòu)中一個(gè)參與者和一個(gè)直接對(duì)象(另一個(gè)參與者)進(jìn)行交互;除此之外,還有我們可以稱之為非及物性(intransitive structure)的參與結(jié)構(gòu)。從用戶的角度來(lái)看,這種非及物性交互形式的發(fā)生不涉及直接對(duì)象。人們通過(guò)與傳感器和監(jiān)視設(shè)備交互,從而產(chǎn)生此類參與結(jié)構(gòu)中的數(shù)據(jù)捕獲事件。如今,這些傳感器和監(jiān)視設(shè)備已經(jīng)變得越來(lái)越普遍,并嵌入到日常生活和工作當(dāng)中——從汽車(chē)到咖啡機(jī)、垃圾桶到血糖儀,這些嵌入式設(shè)備在物聯(lián)網(wǎng)上的增長(zhǎng)標(biāo)志著數(shù)據(jù)域在社會(huì)生活中的延伸,以至于我們的生活被這種媒介包圍,就像細(xì)胞外基質(zhì)中的生物細(xì)胞一樣。此外,這種“基質(zhì)”還包括以前的內(nèi)容:由于Google Books和Hathi Trust等項(xiàng)目以及數(shù)不清的數(shù)字人文主義者——他們至少在過(guò)去的30年里一直在創(chuàng)造數(shù)字檔案——的工作,大量前數(shù)字媒體形式(如書(shū)籍和繪畫(huà))的歷史資料被整理為數(shù)據(jù)庫(kù)的形式。
在深調(diào)制所產(chǎn)生的眾多認(rèn)知論后果中,我們特別感興趣的是它對(duì)利奧塔曾經(jīng)稱之為“信息化社會(huì)中的知識(shí)”的影響。①Lyotard, The Postmodern Condition: A Report on knowledge, p.xiii.自大數(shù)據(jù)崛起以來(lái),這些影響并沒(méi)有被忽視。我們已經(jīng)注意到克里斯·安德森(Chris Anderson)那極端的觀點(diǎn)——谷歌改變了科學(xué)研究方法;如尼古拉斯·卡爾(Nicholas Carr)的黑色幽默所言,谷歌改變了我們的想法,并且可能“使我們變得愚蠢”。安德森在《科學(xué)理論的終結(jié)》一文中的觀點(diǎn)與卡爾的觀察結(jié)果非常接近,即在文學(xué)中,網(wǎng)絡(luò)提供的碎片化的和淺層的閱讀材料,使人們已經(jīng)放棄了長(zhǎng)篇、持續(xù)的閱讀方式。②N. Carr,“ Is Google Making Us Stupid? ” in The Atlantic Monthly, Jul/Aug 2008. https://www.theatlantic.com/magazine/archive/2008/07/is-google-making-us-stupid/306868/.所有這些結(jié)果與對(duì)這一現(xiàn)象——數(shù)據(jù)庫(kù)介入的通信方式改變了我們生產(chǎn)和消費(fèi)知識(shí)的方式——的評(píng)價(jià)都截然不同。
此外,在對(duì)曼諾維奇的數(shù)據(jù)庫(kù)邏輯概念的平行思考中,克雷·舍基(Clay Shirky)盛贊了由大數(shù)據(jù)導(dǎo)致的本體論的衰落,他認(rèn)為與專家的封閉開(kāi)發(fā)、研究相比,會(huì)有更有機(jī)的組織數(shù)據(jù)的模式和更加開(kāi)放的社交媒體平臺(tái)進(jìn)行研究。③C.Shirky,“ Ontology Is Overrated: Categories, Links, and Tags”, in Clay Shirky’s Writings About the Internet(blog), 2005, shirky.com/writings/herecomeseverybody/ontology_overrated.html.在數(shù)字人文學(xué)科中,佛朗科·莫雷蒂(Franco Moretti)宣稱“文學(xué)批評(píng)已經(jīng)終結(jié)”,因?yàn)閭鹘y(tǒng)上被認(rèn)為是“精讀” (close reading)的文學(xué)批評(píng)被一種“遠(yuǎn)距離閱讀” (distant reading)實(shí)踐所取代,這種實(shí)踐本質(zhì)上是將統(tǒng)計(jì)方法和數(shù)據(jù)挖掘應(yīng)用于被視為人造物的小說(shuō)之中。④F. Moretti, Distant Reading, London: Verso Books, 2013.與此相似,在文學(xué)批評(píng)領(lǐng)域,泰德·安德伍德(Ted Underwood)也提出了關(guān)于“文學(xué)時(shí)代劃分的終結(jié)”的觀點(diǎn),而時(shí)代劃分是文學(xué)批評(píng)的支柱,是一種對(duì)文學(xué)進(jìn)行分類的有用方法。⑤T. Underwood, Why Literary Periods Mattered: Historical Contrast and the Prestige of English Studies, Stanford,CA: Stanford University Press, 2013.可見(jiàn),在大數(shù)據(jù)背景下,無(wú)論所處領(lǐng)域或評(píng)價(jià)立場(chǎng)如何,都會(huì)描述一種常見(jiàn)的認(rèn)識(shí)論效應(yīng),即我們將數(shù)據(jù)庫(kù)的調(diào)制作為代替文字書(shū)寫(xiě)的一種代表性模式。而對(duì)機(jī)器數(shù)據(jù)庫(kù)中所包含的知識(shí)的訪問(wèn)需要特殊的技術(shù)和表征方式,這些方法與非計(jì)算規(guī)程中使用的方法和表征方式在本質(zhì)上有極大的不同。
以下我們將從認(rèn)識(shí)的不可及性(Epistemic inaccessibility)的概念展開(kāi)論述。人類獲取知識(shí)的途徑隨著時(shí)間的推移發(fā)生了根本性的變化。當(dāng)大多數(shù)人還目不識(shí)丁的時(shí)候,只有少數(shù)人可以使用知識(shí),但是隨著教育的普及,幾乎所有人都能接觸到知識(shí)。而現(xiàn)今,我們正在走向另一種狀態(tài),即一個(gè)不具備必要的計(jì)算能力的人將無(wú)法訪問(wèn)數(shù)據(jù)庫(kù)中所包含的知識(shí)。這不是傳統(tǒng)上為人們所熟悉的由經(jīng)濟(jì)和教育機(jī)會(huì)的鴻溝所導(dǎo)致的獲取知識(shí)的障礙,而是由于技術(shù)能力程度所導(dǎo)致的認(rèn)識(shí)論劃分。這種認(rèn)識(shí)的不可及性的程度將一直存在,比如對(duì)于大多數(shù)知識(shí)分子來(lái)說(shuō),他們了解當(dāng)代分子生物學(xué)知識(shí)的程度非常有限。但這種認(rèn)知限制并不是到達(dá)認(rèn)識(shí)可及性的唯一障礙。因?yàn)閷S兴惴ê椭R(shí)產(chǎn)權(quán)法也會(huì)阻止人們對(duì)數(shù)據(jù)庫(kù)的自由訪問(wèn)。當(dāng)然,互聯(lián)網(wǎng)所產(chǎn)生的(偶然)信息的開(kāi)放性在一定程度上消除了這些障礙,但是多數(shù)證據(jù)業(yè)已表明,我們現(xiàn)在正在經(jīng)歷類似于英格蘭在18世紀(jì)到19世紀(jì)初的農(nóng)業(yè)封閉的時(shí)期,當(dāng)時(shí)新貴族和地主圈占大量公共用地作為自己的私人土地,從而導(dǎo)致“數(shù)據(jù)霸權(quán)”“數(shù)據(jù)孤島”等現(xiàn)象普遍存在。
這些特征使得那些缺乏穿透社會(huì)和技術(shù)表面的手段的人難以訪問(wèn)大數(shù)據(jù)。當(dāng)然,這里還有一個(gè)更為深層次的問(wèn)題:“這些關(guān)于數(shù)據(jù)域的不可及性對(duì)于運(yùn)行它的人來(lái)說(shuō)是否亦是不可知的?”一方面,數(shù)據(jù)庫(kù)的規(guī)模和復(fù)雜性以及處理數(shù)據(jù)庫(kù)所需的計(jì)算量,可能會(huì)對(duì)此產(chǎn)生直接的障礙;另一方面,缺乏合適的算法來(lái)處理數(shù)據(jù)也會(huì)造成障礙。除此以外,在數(shù)據(jù)域中有一種不同的認(rèn)知障礙,那就是表征能力。
有許多不同類型的表征形式,但在這里我們將集中討論透明和不透明的表征(transparent and opaque representations)。在透明的表征中,我們以一種能被人類進(jìn)行明確審查、分析、解釋和理解的方式來(lái)表示系統(tǒng)的狀態(tài),并且這些狀態(tài)之間的轉(zhuǎn)換由具有類似屬性的規(guī)則來(lái)表示;相反則為不透明表征。①我們可以將這些類型細(xì)分為語(yǔ)法透明(不透明)和語(yǔ)義透明(不透明)兩種,在本文中將不再闡述。就本文而言,如果一個(gè)表征在語(yǔ)法上或語(yǔ)義上具有不透明性,那么該表征就被看作是不透明的。我們所熟悉的人文科學(xué)的語(yǔ)言表征和自然科學(xué)的形式化表征通常是透明的。因?yàn)楣砘碚摲椒ǖ闹饕獌?yōu)點(diǎn)之一是它明確規(guī)定了基本原則,并將一個(gè)領(lǐng)域的所有知識(shí)都?xì)w結(jié)為這些基本原則,歐幾里得的幾何理論就是一個(gè)典型例子。除了理論之外,科學(xué)模型也常常是透明的,就像一個(gè)硬幣拋擲的序列是可以由伯努利分布來(lái)建模一樣。模型的每個(gè)部分——獨(dú)立投擲、投擲概率的恒定性等——都被明確地表征。相反,存在一些使用不透明的表征的計(jì)算過(guò)程,或者其中可能沒(méi)有使用任何類型的表征。而從人類的角度來(lái)看,我們目前不能、甚至永遠(yuǎn)不能詳細(xì)了解這些過(guò)程是如何表征世界的。
就其性質(zhì)而言,想要舉出不透明表征的例子并不容易,但我們可以給出一個(gè)可能具有部分不透明表征的例子(其中只有一部分不透明的表征,并非所有的表征都是不透明的),該表征可能是說(shuō)明性的。典型的例子如大數(shù)據(jù)文本分析所使用的主題建模。大數(shù)據(jù)主題建模是通過(guò)機(jī)器學(xué)習(xí)來(lái)建構(gòu)與文本或文本集合相關(guān)的統(tǒng)計(jì)模型的。統(tǒng)計(jì)模型則可以生成一組在文本中出現(xiàn)的單詞的概率分布。這些概率分布,不管是好是壞,都被稱為“主題”。①關(guān)于文本的“主題”是否適應(yīng)用于統(tǒng)計(jì)模型,存在很大爭(zhēng)議。我們僅僅在藝術(shù)層面使用它,不支持其他用途。假設(shè)我們分析的文本是哲學(xué)家約翰·斯圖亞特·密爾(John Stuart Mill)的作品。一個(gè)標(biāo)準(zhǔn)的主題建模程序給出了最有可能的主題詞,如人類、男人、道德、生活、女人、存在、社會(huì),鑒于密爾對(duì)社會(huì)和政治哲學(xué)的興趣,這一主題建模則是一個(gè)可以被理解的結(jié)果。在另一個(gè)主題中,主題詞可能是資本、勞動(dòng)力、工資、生產(chǎn)、土地、增加、成本等,由于密爾經(jīng)常研究政治經(jīng)濟(jì)學(xué),這些主題詞很容易被理解為他對(duì)這個(gè)領(lǐng)域的興趣。但是如果主題詞是方法、實(shí)例、效果、差異、原因、協(xié)議和案例呢?這些主題詞所代表的含義似乎對(duì)一般人并不明顯,但如果對(duì)一個(gè)非常精通密爾工作的人而言,這個(gè)主題代表了密爾在歸納和因果推理的方法上的研究。此外,還有一些主題詞也很重要,如最多、必要、案例、知識(shí)、地點(diǎn)、部分、方法等,對(duì)于這些主題詞,人們可以推測(cè)(可能是不確定的)它們反映了什么,也可以通過(guò)改變主題的建模方法來(lái)生成一個(gè)更為“相干”的列表,或者人們可以忽略這個(gè)“主題”,比如將其作為統(tǒng)計(jì)噪音來(lái)處理。②對(duì)統(tǒng)計(jì)模型所輸出的“主題”如何評(píng)估,可參見(jiàn) J. Chang, J. Boyd-Graber, C. Wang, S. Gerrish and D. M.Blei,“ Reading Tea Leaves: How Humans Interpret Topic Models”, Advances in Neural Information Processing Systems, Vol.32, 2009, pp.288—296。
但有趣的是,其中有一種概率分布捕捉到了密爾工作中潛在或隱藏的主題,而這些主題并不是以任何現(xiàn)有的英語(yǔ)單詞或短語(yǔ)來(lái)表征的。數(shù)據(jù)處理方法在文本中發(fā)現(xiàn)了這些隱藏的統(tǒng)計(jì)結(jié)構(gòu),這種結(jié)構(gòu)對(duì)我們?nèi)祟悂?lái)說(shuō)不明顯,但在算法方面是很明顯的。這種主題結(jié)構(gòu)與其他被捕獲的我們所熟悉的主題一樣真實(shí),如果我們?nèi)祟惒荒芙忉屧撝黝}結(jié)構(gòu),那么該部分的表征就是不透明的。這正是大數(shù)據(jù)的核心特征:我們把語(yǔ)言結(jié)構(gòu)換成了統(tǒng)計(jì)結(jié)構(gòu),把透明表征換成了不透明表征。我們申明,這個(gè)例子很好地說(shuō)明了表征的不透明性,但它并不是一個(gè)關(guān)于深調(diào)制的很有說(shuō)服力的例子。當(dāng)這種調(diào)制確實(shí)發(fā)生在大數(shù)據(jù)的語(yǔ)境中時(shí),即使輸入和輸出具有可預(yù)測(cè)的強(qiáng)大功能,也可以大大增加由媒介帶來(lái)的表征的不透明度。豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)已經(jīng)給我們展示了一個(gè)對(duì)什么樣的任務(wù)看起來(lái)是一個(gè)具有最低限度的表征透明的或表征自由的解釋。他的著名小說(shuō)《博聞強(qiáng)記的富內(nèi)斯》中的主人公富內(nèi)斯(Funes)被描述為一個(gè)能記住他所經(jīng)歷的一切的超強(qiáng)記憶力的人,但“我們不要忘記,富內(nèi)斯幾乎不會(huì)進(jìn)行一般的、純理論的柏拉圖式的思維”①J. L. Borges, Labyrinths: Selected Stories and Other Writings, New York: New Directions, 1964, p. 65.。富內(nèi)斯的情況類似于一個(gè)非結(jié)構(gòu)化數(shù)據(jù)庫(kù),我們可以使數(shù)據(jù)庫(kù)中的元素之間進(jìn)行任意關(guān)聯(lián),但是要從更為一般的概念中推導(dǎo)出這種關(guān)聯(lián)則不可能。我們必須從外部對(duì)這些信息強(qiáng)加概念結(jié)構(gòu)從而達(dá)到理解。
我們理解的概念與我們不理解的概念之間的差異反映在機(jī)器學(xué)習(xí)中的有監(jiān)督與無(wú)監(jiān)督學(xué)習(xí)這兩種算法之間。在前者中,數(shù)據(jù)的分類類別由用戶決定,而在后者中則不是,必須要通過(guò)溯因。在無(wú)監(jiān)督學(xué)習(xí)中,任何分組都只由數(shù)據(jù)點(diǎn)的集合組成——哲學(xué)家們稱之為謂詞的擴(kuò)展,而在許多情況下,人類并沒(méi)有熟悉的解釋。這種不透明度是小寫(xiě)的大數(shù)據(jù)及大寫(xiě)的大數(shù)據(jù)的主要特征,因?yàn)閿?shù)據(jù)庫(kù)的規(guī)模迫使人們用計(jì)算機(jī)處理而不是人為分析。對(duì)人類來(lái)說(shuō),什么是機(jī)器的有效表征并不需要對(duì)人類透明。在大數(shù)據(jù)和機(jī)器學(xué)習(xí)的語(yǔ)境下,我們認(rèn)為透明和不透明(或表征自由)方法之間的差異至少與基于規(guī)則和統(tǒng)計(jì)學(xué)的方法與人工智能的方法之間的差別一樣重 要。
因?yàn)橐恍┈F(xiàn)代的機(jī)器學(xué)習(xí)方法,比如卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)使用了不透明的表征,并且具有與熟悉的語(yǔ)言概念不相對(duì)應(yīng)的特征,所以,我們所面臨的是這些表征是否會(huì)永遠(yuǎn)不被人類所知,以及某些方法是否表征自由。在缺乏不可證明的證據(jù)的情況下,預(yù)測(cè)一件事情不可能完成是不明智的,而且大數(shù)據(jù)的發(fā)展太迅速以至于它無(wú)法做出明確的判斷。盡管如此,我們堅(jiān)持認(rèn)為,深調(diào)制的性質(zhì)會(huì)增加不透明表征的發(fā)生率。一種常見(jiàn)的情況是P1傳遞的數(shù)據(jù)被O加密。如果O不對(duì)P2提供適當(dāng)?shù)慕饷苘浖敲?,M中包含的表征將對(duì)P2是不透明的。另一個(gè)熟悉但不太明顯的例子是醫(yī)學(xué)成像,機(jī)器的表征對(duì)于人類來(lái)說(shuō)很難理解。在CAT(計(jì)算機(jī)輔助斷層掃描)掃描中,P1是作為患者的潛在腫瘤,P2作為放射技師,O則是將成像設(shè)備收集的數(shù)據(jù)轉(zhuǎn)換為正弦圖以便更快計(jì)算的軟件。正弦圖是對(duì)來(lái)自P1的數(shù)據(jù)的表征,但它們是人類無(wú)法解釋的,必須進(jìn)行逆變換才能被P2理解。②關(guān)于CAT掃描的詳細(xì)解釋可參見(jiàn)Humphreys, “X-ray Data and Empirical Content”, in Logic, Methodology and Philosophy of Science XIV: Logic and Science Facing the New Technologies, edited by P. Schroeder-Heister, G.Heinzmann, W. Hodges, P. E.Bour, London: College Publications, 2014。第三個(gè)例子是社交媒體行為,它在一定程度上也反映了數(shù)據(jù)域的某些特征。P1和P2代表參與社交媒體的不同群體的個(gè)體,O是一個(gè)聚合數(shù)據(jù)的公司,M使用不透明表征的機(jī)器學(xué)習(xí)來(lái)生成對(duì)O有用的預(yù)測(cè)。對(duì)于人文學(xué)科來(lái)說(shuō),表征和解釋顯得非常重要。大數(shù)據(jù)表征的不透明度所帶來(lái)的挑戰(zhàn)成為某些抵抗機(jī)器學(xué)習(xí)進(jìn)入人文和社會(huì)科學(xué)領(lǐng)域的人的一個(gè)主要依據(jù)。不需要任何表征的立場(chǎng)是有爭(zhēng)議的,關(guān)于這一點(diǎn)我們?cè)谟懻摗按髷?shù)據(jù)不需要模型就能取得成功”時(shí)已經(jīng)作了說(shuō)明。①具有代表性的討論可參見(jiàn)S. Leonelli, “What Difference Does Quantity Make? On the Epistemology of Big Data in Biology”, Big Data and Society, Vol.1, No.1, 2014, pp.1—11; F. Mazzocchi, “Could Big Data Be the End of Theory in Science?” EMBO Reports, Vol.16, No.10, 2015, pp. 1250—1255。但是,即使在機(jī)器學(xué)習(xí)中使用了模型,由于它們的演化,也往往不能被人類精確地追蹤,而且它們只能部分地被人類解釋。盡管我們可能對(duì)內(nèi)部模型有部分的理解,但是算法的輸出或者內(nèi)部過(guò)程可能在現(xiàn)有的語(yǔ)言中不能構(gòu)建可識(shí)別的描述,就像我們的主題詞建模中給出的示例一樣。正是在機(jī)器內(nèi)部進(jìn)行的處理過(guò)程是實(shí)現(xiàn)轉(zhuǎn)變的重要來(lái)源。當(dāng)深調(diào)制的范圍是一個(gè)懸而未決的問(wèn)題時(shí),我們猜想:在大多數(shù)情況下,應(yīng)當(dāng)存在深調(diào)制的認(rèn)識(shí)論,并且不透明表征或表征自由的方法將會(huì)占據(jù)主導(dǎo)地位。
大數(shù)據(jù)的出現(xiàn)標(biāo)志著我們認(rèn)識(shí)和表征世界的方式發(fā)生了重大轉(zhuǎn)變。和所有新方法的出現(xiàn)一樣,比如在17世紀(jì)引入的微積分以及在19世紀(jì)末發(fā)展的統(tǒng)計(jì)方法,這些方法的出現(xiàn)使得之前無(wú)法處理的極其困難的事情變得易于處理。如微積分的發(fā)明使物理學(xué)和其他大多數(shù)科學(xué)都發(fā)生了徹底的改變。在微積分發(fā)明之前,物理學(xué)家和天文學(xué)家在很大程度上都依賴幾何方法。微積分的發(fā)現(xiàn)帶動(dòng)了梯度和拐點(diǎn)等概念的發(fā)明,而350年后許多機(jī)器學(xué)習(xí)方法仍然在使用這些數(shù)學(xué)概念。但發(fā)展和應(yīng)用這些概念需要考慮如何理解關(guān)于微積分的新表征。這些表征對(duì)人類來(lái)說(shuō)是非常容易接受的,許多解釋早已進(jìn)入了我們的日常用語(yǔ),如速度、參照系、中位數(shù)、異常值等。然而,這些舊用途與今天出現(xiàn)的新用途之間存在著重要的區(qū)別,因?yàn)楝F(xiàn)代機(jī)器學(xué)習(xí)方法是針對(duì)計(jì)算機(jī)的需求而不是針對(duì)人類量身定制的。
這種變化在19世紀(jì)中葉就已經(jīng)出現(xiàn),當(dāng)時(shí)非歐幾何首先被發(fā)展了起來(lái),并且導(dǎo)致了從心理表征到正式數(shù)學(xué)理論的轉(zhuǎn)變。我們已經(jīng)逐漸習(xí)慣于這種抽象的表征方式,并將其內(nèi)容融入我們的概念體系之中。盡管這種幾何學(xué)僅適用于在該領(lǐng)域工作的數(shù)學(xué)家和物理學(xué)家,但其中關(guān)于彎曲時(shí)空的概念對(duì)于我們中的許多人來(lái)說(shuō)都非常熟悉,并且可以通過(guò)適當(dāng)?shù)膱D形表征和專業(yè)教師的講解而理解。②參見(jiàn)R. P. Feynman, R. B. Leighton and M. L. Sands, The Feynman Lectures on Physics (Vol.2), MA: Addison-Wesley, chapter 42, 1963。因此,現(xiàn)在關(guān)鍵的問(wèn)題是我們是否可以為機(jī)器學(xué)習(xí)做同樣的事情。相關(guān)的努力已經(jīng)在諸如“可解釋的人工智能”等方向上展開(kāi),雖然并不是所有方法都成問(wèn)題。③有關(guān)這些方法的概述,參見(jiàn)Y. LeCun, Y. Bengio, and G. Hinton, “Deep Learning”, Nature, Vol. 521,No.7553, 2015, pp.436—444。但問(wèn)題是,如果大數(shù)據(jù)的方法和結(jié)果不能被人類所能理解和解釋,那么我們將會(huì)創(chuàng)造一個(gè)人類不可知的神秘世界。這對(duì)于使用大數(shù)據(jù)進(jìn)行的科學(xué)研究來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),因?yàn)樗鼘?duì)大數(shù)據(jù)領(lǐng)域的影響是巨大的,并且可能標(biāo)志著科學(xué)研究方式的永久性改變。
為了理解認(rèn)識(shí)論轉(zhuǎn)變產(chǎn)生的影響,我們可以回想17世紀(jì)有關(guān)科學(xué)儀器如光學(xué)望遠(yuǎn)鏡和顯微鏡的發(fā)展如何使科學(xué)實(shí)在論得以確立的歷史過(guò)程。經(jīng)驗(yàn)主義者只接受基于感知數(shù)據(jù)的證據(jù),拒絕或不承認(rèn)那些感知系統(tǒng)不可感知的實(shí)體如病毒。因此,以洛克、伯克利、休謨和20世紀(jì)邏輯經(jīng)驗(yàn)主義者主張的經(jīng)驗(yàn)主義作為現(xiàn)代科學(xué)的認(rèn)識(shí)論基礎(chǔ)是不可能的。①詳 細(xì) 原 因 參 見(jiàn) Humphreys, Extending Ourselves: Computational Science, Empiricism,and Scientific Method,Oxford: Oxford Univ. Press, 2004, and J.Bogen, “Empiricism and After”, in Oxford Handbook of Philosophy of Science, edited by Humphreys, Oxford: Oxford University Press, 2016。我們?cè)囂叫缘耐茰y(cè)和建議是,需要為大寫(xiě)的大數(shù)據(jù)和小寫(xiě)的大數(shù)據(jù)發(fā)展出一種認(rèn)識(shí)論,這種認(rèn)識(shí)論可以令人滿意地處理不透明表征,就像現(xiàn)代科學(xué)儀器的發(fā)展將藥物分子和馬鈴薯基因組等人們的感知系統(tǒng)不可及的世界轉(zhuǎn)化為我們能理解的數(shù)據(jù)結(jié)構(gòu)一樣。
我們認(rèn)為,大數(shù)據(jù)中所使用的表征或模型的類型,是其重要性和顯著特征的核心。基于此,我們將提供一些建議,以便探索何種認(rèn)識(shí)模式適合于深調(diào)制。當(dāng)然,可靠性是這些模式的核心。
由于大數(shù)據(jù)中所使用的機(jī)器學(xué)習(xí)能真正地基于事實(shí)進(jìn)行學(xué)習(xí),因此,大數(shù)據(jù)將會(huì)帶給人類關(guān)于未知世界的知識(shí)。然而,不透明表征的存在是大數(shù)據(jù)所遇到的最關(guān)鍵的挑戰(zhàn)。哲學(xué)中長(zhǎng)期存在的傳統(tǒng)是把知識(shí)當(dāng)作確證的真信念(Justified True Belief),而這種對(duì)知識(shí)的認(rèn)識(shí)已經(jīng)不占主導(dǎo)地位,其替代理論是可靠性(Reliability)觀點(diǎn)。一種常見(jiàn)的可靠性的形式是,一個(gè)人S知道p成立的條件是——當(dāng)且僅當(dāng):
(1) p是一個(gè)句子;
(2) p為真;
(3) S認(rèn)為存在一個(gè)可靠的過(guò)程從而形成對(duì)p的信 念。
這意味著,一個(gè)可靠的信念形成過(guò)程是產(chǎn)生高比例的真實(shí)信念的過(guò)程。譬如,我知道我的鄰居是個(gè)醫(yī)生,雖然我從未見(jiàn)過(guò)他以專業(yè)的身份工作,我相信是因?yàn)椋何蚁嘈潘且粋€(gè)醫(yī)生;事實(shí)上他是一個(gè)醫(yī)生;他告訴我他是一個(gè)醫(yī)生,并且過(guò)去他告訴我的幾乎所有的事情都是真實(shí)的。以上的每一個(gè)條件對(duì)我來(lái)說(shuō)都是必要的。如果我的鄰居實(shí)際上是一個(gè)律師,或者我不相信他是醫(yī)生,或者我從不可靠的來(lái)源收到信息,例如我從我的另一個(gè)患有癡呆癥的鄰居處得到信息,那么“我不知道他是一名醫(yī)生”。
由于數(shù)據(jù)域中的許多知識(shí)都是為機(jī)器或機(jī)器網(wǎng)絡(luò)所擁有,傳統(tǒng)的知識(shí)觀和可靠性的觀點(diǎn)都使用了“信念”,但是計(jì)算機(jī)并沒(méi)有信念,因此,我們所描述的兩個(gè)關(guān)于知識(shí)的陳述都不適合在機(jī)器學(xué)習(xí)的背景下進(jìn)行知識(shí)的歸因。然而,傳統(tǒng)或可靠性的知識(shí)觀通常涉及表征,因?yàn)闊o(wú)論是信念條件還是可靠性條件都需要它。如果你知道p,p是代表某種狀態(tài)的命題,當(dāng)p為真時(shí),它即是對(duì)世界的正確表征。雖然目前我們不能為機(jī)器學(xué)習(xí)提供一個(gè)基于統(tǒng)計(jì)學(xué)的可靠性解釋,但是我們可以描述表征的不透明度和修改后的可靠性論證之間的聯(lián)系。在基于信念的方法中,如果你的信念是明確的,那么知識(shí)就是透明地表征的,因?yàn)槟阌幸庾R(shí)地進(jìn)入了該表征。對(duì)機(jī)器來(lái)說(shuō),在論文第五節(jié)意義上的透明表征相對(duì)來(lái)說(shuō)也沒(méi)有問(wèn)題。但是,一旦我們有一個(gè)對(duì)人類不透明的表征,可靠性方法只需要有一個(gè)過(guò)程——能可靠地產(chǎn)生內(nèi)部表征以準(zhǔn)確地表征相關(guān)系統(tǒng),即使這樣的內(nèi)部表征是人類無(wú)法解釋的。由此,一種信念自由的可靠性的要求使我們可以斷言,計(jì)算機(jī)所處理的大數(shù)據(jù)問(wèn)題,允許我們不理解它是如何將這些知識(shí)呈現(xiàn)給自身的。這樣一來(lái),我們可以在唐納德·拉姆斯菲爾德(Donald Rumsfeld)關(guān)于“已知的已知、已知的未知、未知的未知”的這一知識(shí)分類中,加上第四類——未知的已知,意味著計(jì)算機(jī)已知的一些事情對(duì)人類來(lái)說(shuō)可以是未知的。
在一些沒(méi)有任何表征的極端情況下,我們必須訴諸知識(shí)的權(quán)威,在這種情況下,信息來(lái)源作為權(quán)威,無(wú)可置疑。①T. Burge, “Computer Proof, A Priori Knowledge, and Other Minds: The Sixth Philosophical Perspectives Lecture”, No?s,Vol.32, No.12, 1998, pp.1—37.因?yàn)槲覀冊(cè)絹?lái)越多地將認(rèn)知權(quán)威委托給計(jì)算機(jī),我們?cè)谠S多領(lǐng)域遵從它的判斷,就像我們?cè)谌粘I钪凶駨奈覀冏约旱闹X(jué)判斷一樣,不需要對(duì)來(lái)源進(jìn)行進(jìn)一步的論證或理解。
由于數(shù)據(jù)域捕獲了描述系統(tǒng)狀態(tài)的海量的多變量(或高維度)的數(shù)據(jù),加上從傳感器、社交媒體、健康記錄和其他源頭收集數(shù)據(jù)的行為變得越來(lái)越容易,而且雖然很多數(shù)據(jù)看上去都是匿名的,但是技術(shù)上卻很容易實(shí)現(xiàn)對(duì)數(shù)據(jù)的去匿名化。特別是在位置追蹤元數(shù)據(jù)的使用等背景下,數(shù)據(jù)挖掘者不僅了解我們所有人,還知道我們每個(gè)人的許多事情:他們知道你住的地方,你聯(lián)系過(guò)的人,你購(gòu)物的地方,你買(mǎi)過(guò)什么,你何時(shí)在何地,你在互聯(lián)網(wǎng)上的搜索細(xì)節(jié),你喜歡什么樣的照片等。這種數(shù)據(jù)的泛濫產(chǎn)生了一個(gè)被稱為維度的詛咒的問(wèn)題。②這一術(shù)語(yǔ)是由貝爾曼(R. Bellman)創(chuàng)造的,參見(jiàn) Adaptive Control Processes: A Guided Tour, Princeton, NJ:Princeton University Press, 1961。最后需要說(shuō)明的是,隨著收集數(shù)據(jù)的變量數(shù)的增加,有效使用某些機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)估算技術(shù)所需的數(shù)據(jù)量也將呈指數(shù)增長(zhǎng)。例如,假設(shè)我們?yōu)槊總€(gè)變量收集10個(gè)數(shù)據(jù)點(diǎn)并檢查這10個(gè)點(diǎn)以查看是否發(fā)生了數(shù)據(jù)點(diǎn)聚類。這樣一來(lái),當(dāng)我們需要定位兩個(gè)變量的相似聚類時(shí)就需要102個(gè)數(shù)據(jù)點(diǎn);當(dāng)需要定位三個(gè)變量時(shí)就需要103個(gè)數(shù)據(jù)點(diǎn);如果用相對(duì)適中的100個(gè)變量,那就需要10100個(gè)數(shù)據(jù)點(diǎn)。很顯然,這個(gè)數(shù)字比宇宙中存在的可見(jiàn)的粒子的數(shù)目還大。所以在實(shí)際的工作中有兩種相反的傾向:第一,直到最近人類才具備收集海量數(shù)據(jù)的能力;第二,即使是適度復(fù)雜的模型也超出了我們收集足夠數(shù)據(jù)的能力。這兩種自相矛盾的情況表明,那種“只要擁有足夠數(shù)據(jù),我們就可以知道一切”的觀點(diǎn)顯得過(guò)于樂(lè)觀,因?yàn)楝F(xiàn)實(shí)是我們的大數(shù)據(jù)還不夠大。
大數(shù)據(jù)能將社會(huì)作為一個(gè)整體并給出全景的描述,并且能夠詳細(xì)地審視其中的每一個(gè)成員,即其能作為天文望遠(yuǎn)鏡和生物顯微鏡的雙重角色而發(fā)揮作用。這種雙重作用一方面增大了自然科學(xué)與人文科學(xué)之間的分界,另一方面又使二者之間的界限縮小。首先,作為生物顯微鏡的存在,大數(shù)據(jù)形成了對(duì)人類個(gè)體層面行為數(shù)據(jù)的事無(wú)巨細(xì)的記錄,豐富了人文科學(xué)在個(gè)性化維度上的資料儲(chǔ)備,增進(jìn)了人文科學(xué)對(duì)人類個(gè)體差異的深度理解。因此大數(shù)據(jù)將關(guān)注個(gè)性化的人文科學(xué)和關(guān)注一般性的自然科學(xué)之間的差距進(jìn)一步擴(kuò)大。其次,作為天文望遠(yuǎn)鏡的存在,引入在形式上數(shù)理化、科學(xué)化(數(shù)理統(tǒng)計(jì))的人文科學(xué)的方法,從整體(全樣本)上獲得一般性的規(guī)律,從而使二者的界限縮小。
我們需要追問(wèn)的是,人類不理解數(shù)據(jù)域中所使用的表征這件事,會(huì)為人類帶來(lái)多大的風(fēng)險(xiǎn)?人工智能所可能造成的危險(xiǎn)也許已經(jīng)被放大了很多。畢竟人類在塞勒斯·麥科米克(Cyrus McCormick)的收割機(jī)、福特(Ford)的裝配線、蒸汽挖掘機(jī)和慕課(大型公開(kāi)在線課程)的技術(shù)革命的歷史浪潮中都幸存了下來(lái),因此,我們也許不應(yīng)該對(duì)自動(dòng)化生產(chǎn)所造成的大規(guī)模失業(yè)過(guò)分擔(dān)憂,我們應(yīng)關(guān)注更緊迫的問(wèn)題,而不是對(duì)滿懷惡意的機(jī)器人將要統(tǒng)治世界這類的事情惴惴不安。實(shí)踐和理論知識(shí)的自動(dòng)化以及它們產(chǎn)生的不可預(yù)測(cè)性這類新事物,才是真正需要人類警惕的。如果我們?nèi)祟惒荒芾斫鈾C(jī)器學(xué)習(xí)所使用的表征,那么此類程序未來(lái)產(chǎn)生不可預(yù)料后果的可能性就會(huì)大大增加。人們破解恩尼格瑪密碼機(jī),恰恰是因?yàn)樗鼘?duì)人類的表征進(jìn)行了加密處理。在數(shù)據(jù)域的神秘世界中,充斥著各類機(jī)器、數(shù)據(jù)庫(kù)和算法,正是因?yàn)樗鼈內(nèi)绱松衩?,才為人類帶?lái)了更大的挑戰(zhàn)。