蘇毓淞 劉江銳
(清華大學(xué) 政治學(xué)系,北京 100084)
大數(shù)據(jù)的涌現(xiàn)掀起了各個學(xué)科迭進(jìn)式的波動;大數(shù)據(jù)分析倚重的計算機(jī)科學(xué)滲入了其他學(xué)科,形成一個協(xié)同發(fā)展的趨勢。相較于生物和物理等其他學(xué)科領(lǐng)域,數(shù)據(jù)驅(qū)動的社會科學(xué)則要出現(xiàn)得晚一些。(1)Javier Borge-Holthoefer, Yamir Moreno and Taha Yasseri, “Editorial: At the Crossroads: Lessons and Challenges in Computational Social Science,” Frontiers in Physics 4 (2016).2009年,以大衛(wèi)·拉澤爾(David Lazer)為首的十五位學(xué)者聯(lián)合署名在著名期刊《科學(xué)》(Science)上發(fā)表了題為《計算社會科學(xué)》(Computational Social Science)的文章,(2)David Lazer, et al., “Computational Social Science,” Science 323.5915 (2009): 721-723.標(biāo)志著“計算社會科學(xué)”這一新型交叉學(xué)科的誕生。文章最重要的觀點(diǎn)就是:人類各樣的行為在電子化時代都留下了記錄,這些數(shù)據(jù)中蘊(yùn)含的關(guān)于個人和群體行為的規(guī)律足以改變我們對個人生活、組織機(jī)構(gòu)乃至整個社會的認(rèn)知。隨著計算能力的發(fā)展到足以應(yīng)對傳統(tǒng)定量社會科學(xué)研究難以分析的大量人類社會數(shù)據(jù),計算社會科學(xué)就應(yīng)運(yùn)而生。
自《計算社會科學(xué)》發(fā)表以來,越來越多的科學(xué)家進(jìn)入社會科學(xué)領(lǐng)域,關(guān)于社會網(wǎng)絡(luò)分析和大數(shù)據(jù)的文章在頂級科學(xué)期刊和計算機(jī)科學(xué)會議中紛紛嶄露頭角,各項(xiàng)科研經(jīng)費(fèi)也開始向?qū)Υ髷?shù)據(jù)研究領(lǐng)域傾斜。國內(nèi)外頂級學(xué)術(shù)機(jī)構(gòu)也紛紛通過支持計算社會科學(xué)發(fā)展的方式呈現(xiàn)這一學(xué)術(shù)前沿現(xiàn)象。(3)國外如斯坦福大學(xué)、康奈爾大學(xué)、哈佛大學(xué)、芝加哥大學(xué)、杜克大學(xué)、西北大學(xué)等高校都成立了計算社會科學(xué)相關(guān)學(xué)術(shù)機(jī)構(gòu);美國計算社會科學(xué)學(xué)會(Computational Social Science Society of the Americas)年會制度自2011年起持續(xù)至今,致力于推動更好的計算社會科學(xué)研究。截至2020年,年度計算社會科學(xué)國際會議(Annual International Conference on Computational Social Science)已經(jīng)舉辦6屆。國內(nèi)如清華大學(xué)(計算社會科學(xué)平臺)、北京大學(xué)(計算社會科學(xué)研究中心)等少數(shù)高校亦成立了相關(guān)研究機(jī)構(gòu)。
然而,從學(xué)科發(fā)展的歷史來看,大數(shù)據(jù)的涌現(xiàn)僅僅是重啟了計算社會科學(xué),而非創(chuàng)造了新的學(xué)科。2009年前就有學(xué)者提出“計算社會科學(xué)”一詞,基于數(shù)據(jù)進(jìn)行推論的計算社會科學(xué)研究,也不是21世紀(jì)才有的新現(xiàn)象。(4)例如,托馬斯·謝林(Thomas Schelling)1978年的著作《微觀動機(jī)與宏觀行為》利用博弈論推演現(xiàn)實(shí)中的各種博弈可能性,即是基于計算數(shù)據(jù)的方式檢驗(yàn)研究假設(shè),詳見韓軍徽、李正風(fēng):《計算社會科學(xué)的方法論挑戰(zhàn)》,《自然辯證法研究》2018年第4期;之后的社會科學(xué)研究還出現(xiàn)了基于主體建模(Agent-Based Model)或復(fù)雜社會系統(tǒng)的模擬,關(guān)注一系列規(guī)則集的組合和作用是否足以生成現(xiàn)實(shí)世界,詳見黃璜:《社會科學(xué)研究中“基于主體建?!狈椒ㄔu述》,《國外社會科學(xué)》2010年第5期。直至近十年計算能力的大幅跨越和數(shù)據(jù)的大量出現(xiàn)成為一個現(xiàn)象級的領(lǐng)域后,拉澤爾等人相當(dāng)于趁勢重啟并重新定義了計算社會科學(xué)(5)拉澤爾等人重新定義當(dāng)代計算社會科學(xué)分析為使用較少的模擬方法,即便模擬依然是計算社會科學(xué)重要的分析工具,參見Rosaria Conte and Mario Paolucci, “On Agent-Based Modeling and Computational Social Science,” Frontiers in Psychology 5 (2014): 668.:對來自數(shù)字環(huán)境數(shù)據(jù)的計算分析,界定了人類一直在努力用計算和數(shù)據(jù)理解社會行為的新階段。因此,我們現(xiàn)在熟知的計算社會科學(xué)概念是對計算社會科學(xué)的大數(shù)據(jù)解釋,它是指我們可以獲得足夠的大數(shù)據(jù)以直接還原復(fù)雜的社會運(yùn)行規(guī)律。
大數(shù)據(jù)重新定義的計算社會科學(xué)對社會科學(xué)最顯著的影響是引發(fā)了社會科學(xué)研究方法范式之爭。爭辯主要圍繞著究竟社會科學(xué)研究應(yīng)該固守理論指導(dǎo)研究范式,還是應(yīng)該轉(zhuǎn)向數(shù)據(jù)驅(qū)動研究范式?本文將從三個面向遞進(jìn)式說明我們的主張,兩個范式的關(guān)系并非互斥而是互補(bǔ):首先,說明在大數(shù)據(jù)重啟計算社會科學(xué)的過程中計算機(jī)科學(xué)和社會科學(xué)兩個學(xué)科融合產(chǎn)生的影響;其次,在這次學(xué)科融合中,計算機(jī)科學(xué)的導(dǎo)入如何引發(fā)社會科學(xué)研究范式之爭;最后,在沿襲既往兩組研究范式對話的背景下,計算社會科學(xué)的發(fā)展如何提高了數(shù)據(jù)驅(qū)動和理論指導(dǎo)產(chǎn)生交集的可能性。
計算社會科學(xué)這一提法本身可能造成學(xué)科理解上的誤會。從字面上來看,既可以理解為“計算式”社會科學(xué),強(qiáng)調(diào)以定量算法為研究方法的社會科學(xué)研究,也可以理解為計算機(jī)科學(xué)與社會科學(xué)的集合。無論何者,它都揭示了一個需要學(xué)科交叉實(shí)現(xiàn)知識積累的領(lǐng)域。而計算社會科學(xué)概念背后的學(xué)科交融性就直接地體現(xiàn)了數(shù)據(jù)驅(qū)動和理論驅(qū)動研究范式的碰撞。我們似乎可以容易理解計算機(jī)科學(xué)在科學(xué)分析上的工具性價值,有數(shù)據(jù)則大有可為,然而,社會科學(xué)盡管長期努力通過“假設(shè)—驗(yàn)證—結(jié)論”的基本程序(基于理論提供的假設(shè)是其出發(fā)點(diǎn))來證明自己的“科學(xué)性”,鑒于社會科學(xué)長期以來以有限的工具應(yīng)對研究對象的復(fù)雜性,(6)David Lazer, “Social Science, Today,” Science 359.6371 (2018): 42.解釋力或多或少被質(zhì)疑、被爭議在社會科學(xué)發(fā)展歷史中絕不鮮見。因此,有必要認(rèn)知社會科學(xué)在大數(shù)據(jù)所帶來的計算社會科學(xué)背景下接近“硬科學(xué)”的可能性。(7)Andrew Bartlett, et al., “The Locus of Legitimate Interpretation in Big Data Sciences: Lessons for Computational Social Science from -omic Biology and High-Energy Physics,” Big Data and Society 5.1 (2018): 1-15.
學(xué)界既有的一些相關(guān)概念可以幫助我們更好地理解計算社會科學(xué)。(8)丁波濤:《計算社會科學(xué)相關(guān)概念的比較與辨析》,《情報資料工作》2018年第6期。比如社會計算(social computing),(9)孟小峰、李勇、祝建華:《社會計算:大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn)》,《計算機(jī)研究與發(fā)展》2013年第12期。這個相近的概念有三個向度的內(nèi)涵:第一,計算可以促進(jìn)對社會世界的理解,人們的線上和線下行為留下的數(shù)字痕跡可以被收集用以分析,甚至發(fā)現(xiàn)有意義的模型;第二,社會本身就是在自我計算中演化,計算也可以作為呈現(xiàn)著的社會中各種互動的邏輯的一種比喻;第三,社會和計算是相互統(tǒng)一、相互促進(jìn)的,用基于社會的方法和理念指導(dǎo)計算,也可以用計算的方法去理解社會。社會計算基于社會系統(tǒng)本身的復(fù)雜特質(zhì)。它假定復(fù)雜社會系統(tǒng)有一系列自組織行為、演進(jìn)、自己計算方案和自適應(yīng)系統(tǒng)過程,有多種緊密耦合于一起的組成部分,有很多可以計算的現(xiàn)象,比如集體理解(理念)和行動。所有的社會行動都關(guān)乎復(fù)雜計算(比如動物的集群行動,人在社會網(wǎng)絡(luò)中的活動和選擇、更新對彼此的評價,都是一系列過程中計算的結(jié)果)。通過深度的計算機(jī)學(xué)習(xí),可以觀察出社會中各類計算過程的模型,觀察到更復(fù)雜的網(wǎng)絡(luò),發(fā)現(xiàn)創(chuàng)造性(亦或是顛覆性)的科學(xué)內(nèi)容,探索未知領(lǐng)域的“鄰近可能性(Adjacent Possible)”,(10)Steven Johnson, “The Genius of the Tinkerer,” The Wall Street Journal (September 25, 2010).推動創(chuàng)新。類似地,計算社會科學(xué)是用計算機(jī)生成一些沒有計算機(jī)便不能接觸到的數(shù)據(jù)、模式并檢驗(yàn)一些假設(shè),它也會用到社會計算使用的工具,(11)Winter Mason, Jennifer W. Vaughan and Hanna Wallach, “Computational Social Science and Social Computing,” Machine Learning 95.3 (2014): 257.以計算更好地理解社會,它蘊(yùn)涵著基于計算能力對研究設(shè)計、方法和理論標(biāo)準(zhǔn)的改變。
然而,雖然大量學(xué)術(shù)文章和機(jī)構(gòu)開始出現(xiàn),但很少有研究關(guān)注到激勵計算社會科學(xué)發(fā)展的“大”問題——比如金融系統(tǒng)的系統(tǒng)性風(fēng)險、如何分析復(fù)雜組織、傳染病和社會運(yùn)動等的動態(tài)。這些都是社會科學(xué)本身關(guān)心的、對理解世界和促進(jìn)世界發(fā)展有極大裨益但社會科學(xué)表現(xiàn)并不十分好的重要議題。鄧肯·沃茨(Duncan Watts)指出,解決復(fù)雜社會問題的分析往往需要互補(bǔ)應(yīng)用多種研究路徑——統(tǒng)計模型和模擬、社會和經(jīng)濟(jì)理論、實(shí)驗(yàn)室實(shí)驗(yàn)、調(diào)查、民族志田野調(diào)查、歷史和檔案分析,以及實(shí)踐經(jīng)驗(yàn),而現(xiàn)實(shí)是,任何一個研究人員對這其中很多路徑都難以全面熟悉。(12)Duncan Watts, “Computational Social Science: Exciting Progress and Future Challenges,” The Bridge on Frontiers of Engineering 43.4 (2013): 6.
社會科學(xué)對人類社會發(fā)展的貢獻(xiàn)之所以不像自然科學(xué)這么明顯和高效,與社會科學(xué)本身的特質(zhì)有很大關(guān)系。社會科學(xué)所面臨的理論問題的復(fù)雜性、獲取相關(guān)觀測數(shù)據(jù)的困難,以及實(shí)驗(yàn)性地操縱大型社會組織的難點(diǎn),使得社會科學(xué)研究的進(jìn)展相對于物理、工程和生物科學(xué)等學(xué)科來說比較緩慢。社會科學(xué)關(guān)心的社會現(xiàn)象更多地是指個人在群體、團(tuán)體、組織、市場、階級甚至整個社會中活動的集合,這所有要素通過信息和網(wǎng)絡(luò)彼此互動并隨著時間而變化。比如公司穩(wěn)定的屬性和文化不會因?yàn)槟硞€特定員工的變化而改變。但是,即使各種成員和背景一直保持一致,股市或者政治制度也可能會在一瞬間意外崩潰。再比如,一個政府的決定可能主要取決于少數(shù)政治精英的個人利益,而在其他情況下,這些少數(shù)精英的行為可能受到他們所在政治文化的強(qiáng)烈約束。而且,在許多社會科學(xué)家所關(guān)心的問題中,個人、公司、政府、社會團(tuán)體等的行動都可能起重要作用。這些不同類型的參與者不僅有不同的規(guī)模(企業(yè)由個人組成,市場由企業(yè)和個人組成),而且還可能以重要的方式相互作用,所以這類問題需要同時考慮跨多個規(guī)模的事件、參與者和動力。并且,在很多情況下要收集數(shù)億甚至數(shù)萬億的觀測數(shù)據(jù)去了解各種動態(tài)模式和特征也很困難。再者,由于僅從觀察數(shù)據(jù)很難推斷因果機(jī)制,進(jìn)而還需要進(jìn)行實(shí)驗(yàn)研究。但是實(shí)驗(yàn)設(shè)計也會遭遇各種困難。例如,要觀測一個具有特定結(jié)構(gòu)的組織的表現(xiàn),這類實(shí)驗(yàn)設(shè)計顯然不可能在物理實(shí)驗(yàn)室中實(shí)現(xiàn)。(13)Duncan Watts, “Computational Social Science: Exciting Progress and Future Challenges,” The Bridge on Frontiers of Engineering 43.4 (2013): 6.也就是說,社會現(xiàn)實(shí)中很多現(xiàn)象的因果分配是很困難的一件事,甚至長期以來整個社會科學(xué)的知識積累都是為實(shí)現(xiàn)更好地識別因果機(jī)制的緩慢發(fā)展過程。鑒于社會現(xiàn)象不可避免地具有多尺度性、復(fù)雜性和突發(fā)性,諸多理論難以充分地解釋現(xiàn)實(shí)的社會行為和變化也就不足為奇。
幸運(yùn)的是,社會數(shù)據(jù)革命和計算能力發(fā)展的匯合及時地給社會科學(xué)更加接近“硬科學(xué)”提供了機(jī)遇。(14)Rosaria Conte, et al., “Manifesto of Computational Social Science,” European Physical Journal-Special Topics 214.1 (2012): 325-346.數(shù)據(jù)的爆炸式增長及其對學(xué)者們駕馭數(shù)據(jù)的能力的要求不是以社會科學(xué)學(xué)者的意志為轉(zhuǎn)移的。過去幾十年的計算革命不僅極大地提高了計算機(jī)本身的效率,而且大大提高了現(xiàn)在可以分析的社會數(shù)據(jù)的規(guī)模和范圍,塑造著一個促進(jìn)社會科學(xué)更加計算化的領(lǐng)域,進(jìn)而有可能徹底改變傳統(tǒng)的社會科學(xué),(15)Sebastian Benthall, “Philosophy of Computational Social Science,” Cosmos and History: The Journal of Natural and Social Philosophy 12.2 (2016): 13-30.讓社會科學(xué)發(fā)揮出“硬科學(xué)”級別的作用。然而,事在人為,我們可以想象,在大數(shù)據(jù)和計算能力帶動社會科學(xué)的背景下,一些計算機(jī)科學(xué)家從事社會科學(xué)相關(guān)研究并不一定出于“應(yīng)該做”的沖動,能夠處理關(guān)于人類行為的大數(shù)據(jù)并不一定意味著對于社會科學(xué)的研究問題有洞察力和問題意識,而僅僅是出于他們的技術(shù)能力。社會科學(xué)家依然要扮演重要的角色,計算科學(xué)家和社會科學(xué)家之間應(yīng)該而且會因?yàn)檠芯啃枰坏貌患訌?qiáng)聯(lián)系。(16)Jim Giles, “Computational Social Science: Making the Links,” Nature 488.7412 (2012): 450.
在計算社會科學(xué)這個概念中,“社會科學(xué)”這個詞強(qiáng)調(diào)的就是把社會科學(xué)的理論帶入計算過程(從數(shù)據(jù)挖掘到構(gòu)建模型等)中,理論指導(dǎo)計算,計算證實(shí)、證偽或啟發(fā)理論。(17)羅家德、劉濟(jì)帆、楊鯤昊、傅曉明:《論社會學(xué)理論導(dǎo)引的大數(shù)據(jù)研究——大數(shù)據(jù)、理論與預(yù)測模型的三角對話》,《社會學(xué)研究》2018年第5期。在社會科學(xué)家對各種社會科學(xué)議題的理論積淀和了解深度之外,如果研究對象是人們?nèi)粘I钪械恼鎸?shí)數(shù)據(jù),學(xué)者還必須考慮到隱私、公平性、責(zé)任性、透明度、偏見、包容性等。計算機(jī)科學(xué)家不一定像社會科學(xué)家那樣接受過更多相關(guān)內(nèi)容的學(xué)術(shù)訓(xùn)練。以經(jīng)濟(jì)學(xué)、社會學(xué)、政治學(xué)等元科學(xué)為大類的社會科學(xué)經(jīng)歷了多年的發(fā)展,已逐漸演進(jìn)到學(xué)科之間互相促進(jìn)、合作共贏的階段。學(xué)科的劃分使得知識專業(yè)化,而知識的真正增長需要對現(xiàn)實(shí)世界的日益精準(zhǔn)的認(rèn)知及反思。當(dāng)學(xué)者有意識地用復(fù)雜的、綜合的、跨領(lǐng)域的視角看待現(xiàn)實(shí)世界時,才能盡可能立體地看到世界的多面性。所以,計算社會科學(xué)的發(fā)展不僅需要一個社群讓社會科學(xué)家與計算機(jī)科學(xué)家對話,也要使社會科學(xué)相互之間對話;既要打破外部的阻礙,也要破除內(nèi)部的阻礙,互相協(xié)助推動科學(xué)研究深化。(18)韓軍徽、李正風(fēng):《計算社會科學(xué):涵義、特點(diǎn)與前景———對美國計算社會科學(xué)專家的訪談》,《科學(xué)學(xué)研究》2018年第10期。
計算社會科學(xué)由大數(shù)據(jù)和豐富的算法共同驅(qū)動而出現(xiàn)、發(fā)展,(19)張小勁、孟天廣:《論計算社會科學(xué)的緣起、發(fā)展與創(chuàng)新范式》,《理論探索》2017年第6期。并基于二者呈現(xiàn)其價值,包含著對復(fù)雜的、典型的、大規(guī)模的(有時是模擬的)人類行為數(shù)據(jù)的計算方法的開發(fā)和應(yīng)用。它在科學(xué)研究發(fā)展脈絡(luò)中的前身包括對空間數(shù)據(jù)的研究、社會網(wǎng)絡(luò)以及對文本和圖像的編碼。傳統(tǒng)的定性或定量社會科學(xué)關(guān)注的是一個個的案例和一列列的變量,通常假設(shè)觀察對象之間的獨(dú)立性,而計算社會科學(xué)的分析對象則包括語言、位置和運(yùn)動、網(wǎng)絡(luò)、圖像和視頻,應(yīng)用統(tǒng)計模型捕捉數(shù)據(jù)中的各種依賴關(guān)系。(20)David Lazer, et al., “Computational Social Science: Obstacles and Opportunities,” Science 369.6507 (2020): 1060.
分析大數(shù)據(jù),比如針對線上行為的分析,就需要對相關(guān)行為的數(shù)據(jù)化。而人工智能(artificial intelligence)的發(fā)展為學(xué)術(shù)研究提供著日益升級的算法、模型等科學(xué)分析工具包,意味著可以使用自然語言處理(NLP)、機(jī)器學(xué)習(xí)(machine learning)、機(jī)器視覺(machine vision)、信號分析(signal processing)等人工智能方式,實(shí)現(xiàn)對網(wǎng)絡(luò)、文本、圖片、音頻、視頻、社會行為軌跡等海量資料的數(shù)據(jù)化生成、結(jié)構(gòu)化處理和計算。在社會分析中涉及高維度建模(high dimensional modeling)時,需要對數(shù)據(jù)降維,從而就需要用到諸如深度學(xué)習(xí)(deep learning)、LASSO、隨機(jī)森林(random forest)、集成學(xué)習(xí)(ensemble learning)等模型或算法方案,使數(shù)據(jù)編碼工作更便捷,(21)Nan-Chen Chen, et al., “Using Machine Learning to Support Qualitative Coding in Social Science: Shifting the Focus to Ambiguity,” ACM Transactions on Interactive Intelligent Systems 8.2 (2018): 1-20.使大量的離散數(shù)據(jù)可以更高效地被分析。比如運(yùn)用機(jī)器學(xué)習(xí)對《人民日報》1951年至2018年的文本(社會科學(xué)中有大量類似的非結(jié)構(gòu)化文本數(shù)據(jù))分析預(yù)測中國的政策變化,(22)Weifeng Zhong and Julian TszKin Chan, “Reading China: Predicting Policy Change with Machine Learning,” AEI Economics Working Paper Series (October 22, 2018).還有根據(jù)多年的大量新聞文本分析《新聞聯(lián)播》的宣傳模式,(23)邵梓捷、張小勁、孟天廣:《政治傳播視角下〈新聞聯(lián)播〉的宣傳模式分析》,《清華大學(xué)學(xué)報》(哲學(xué)社會科學(xué)版)2015年第3期。這些是人類自身的閱讀能力無法在短期可以完成的工作。高性能計算還意味著,可以使用并行計算方式(parallel high performance computing)和云存儲解決方案(cloud-based storage solutions),開展大規(guī)模的模擬和網(wǎng)絡(luò)分析,這可能會改變科學(xué)思考的方式,推進(jìn)“貝葉斯革命(Bayesian revolution)”,甚至顛覆既有理論認(rèn)為對的解釋。
作為計算社會科學(xué)要素的大數(shù)據(jù),像所有數(shù)據(jù)都會受到的質(zhì)疑一樣:(大)數(shù)據(jù)可靠嗎?(24)Dhavan V. Shah, Joseph N. Cappella and W. Russell Neuman, “Big Data, Digital Media, and Computational Social Science: Possibilities and Perils,” The ANNALS of the American Academy of Political and Social Science 659.1 (2015): 6-13.不可否認(rèn),數(shù)據(jù)不可能完全可靠,人們對數(shù)據(jù)大小的衡量標(biāo)準(zhǔn)也會變化。新獲得的大數(shù)據(jù)可能證偽之前已被一些數(shù)據(jù)所證明的結(jié)論,而未來可能更全面的數(shù)據(jù)會繼續(xù)推翻之前大數(shù)據(jù)提供的結(jié)論。但是如果選擇相信數(shù)據(jù)不會說謊,是選擇相信數(shù)據(jù)在一定情況下的實(shí)證價值,這對大數(shù)據(jù)而言亦如是。有時候大數(shù)據(jù)提供的解釋并不有效,比如可能依然在一些情況下要處理數(shù)據(jù)的代表性等系列問題。(25)唐文方:《大數(shù)據(jù)與小數(shù)據(jù):社會科學(xué)研究方法的探討》,《中山大學(xué)學(xué)報》(社會科學(xué)版)2015年第6期。因此使用大數(shù)據(jù)意味著同時要使用匹配的使用說明。當(dāng)關(guān)心罕見但有很大影響力的議題時,比如病毒事件引發(fā)集體行動、社會網(wǎng)絡(luò)中意見的傳播、新穎的行為和表達(dá)方式如何在系統(tǒng)中得到擴(kuò)大,小數(shù)據(jù)相當(dāng)于沒有數(shù)據(jù),比如在社交媒體和手機(jī)上的數(shù)據(jù)便是如此,僅僅少部分或者一個人的數(shù)據(jù)對于分析重要的社會現(xiàn)象沒有幫助。
進(jìn)一步而言,計算社會科學(xué)帶來了哪些實(shí)質(zhì)性的轉(zhuǎn)變?
計算社會科學(xué)會改變學(xué)者們把收集和分析數(shù)據(jù)看成兩個分離過程的思維定勢。學(xué)者們可能告別在總體中選取部分的隨機(jī)抽樣等方式收集數(shù)據(jù)的過程,可以接觸到其他被傳統(tǒng)抽樣方式忽略的部分。大數(shù)據(jù)本身就是機(jī)會,而這種機(jī)會是因?yàn)閿?shù)據(jù)本身有了新特點(diǎn)——“所見即所得”,亦即馬修·薩爾加尼克(Matthew Salganik)所謂之“發(fā)現(xiàn)的數(shù)據(jù)(found data)”和“設(shè)計的數(shù)據(jù)(design data)”之間的區(qū)別。(26)Matthew J. Salganik, Bit by Bit: Social Research in the Digital Age (Princeton: Princeton University Press, 2017) 116-118.社會科學(xué)家一般習(xí)慣于使用為研究目的通過抽樣等方式而收集的數(shù)據(jù),即“設(shè)計的數(shù)據(jù)”。“發(fā)現(xiàn)的數(shù)據(jù)”,即大數(shù)據(jù)常常是各種自然的社會活動呈現(xiàn)的數(shù)據(jù)。計算社會科學(xué)中的研究更多使用“發(fā)現(xiàn)的數(shù)據(jù)”或者不是最初為研究目的而創(chuàng)建的數(shù)據(jù)來完成。使用推特(Twitter)、微博和微信(27)孟天廣、鄭思堯:《信息、傳播與影響:網(wǎng)絡(luò)治理中的政府新媒體——結(jié)合大數(shù)據(jù)與小數(shù)據(jù)分析的探索》,《公共行政評論》2017年第1期。等社交媒體來源的面板數(shù)據(jù)的方式在挑戰(zhàn)調(diào)查研究中已經(jīng)確立的概率抽樣方法,(28)Rodrigo Zamith and Seth C. Lewis, “Content Analysis and the Algorithmic Coder: What Computational Social Science Means for Traditional Modes of Media Analysis,” The ANNALS of the American Academy of Political and Social Scienc 659.1 (2015): 307-318.后者在過去幾十年里一直占據(jù)著主導(dǎo)地位,而新的方法有可能在開創(chuàng)調(diào)查研究方法的新時代。比如,有研究通過分析數(shù)百萬冊亞馬遜圖書的消費(fèi)者購買記錄這類人類自發(fā)活動產(chǎn)生的“發(fā)現(xiàn)的數(shù)據(jù)”,分析購買不同學(xué)科書籍與不同政治意識形態(tài)傾向(保守或自由)之間的聯(lián)系。研究發(fā)現(xiàn)自由傾向的人偏好基礎(chǔ)科學(xué)的圖書,而保守傾向的人更偏好應(yīng)用科學(xué)的圖書等類型化特征。(29)Feng Shi, et al., “Millions of Online Book Co-Purchases Reveal Partisan Differences in the Consumption of Science,” Nature Human Behaviour 1.4 (2017): 1-9.計算社會科學(xué)的新穎之處就在于,它蘊(yùn)含著由世界的根本變化所驅(qū)動的從模擬世界到數(shù)字世界的根本性轉(zhuǎn)變。
它還可能改變學(xué)者一般認(rèn)為實(shí)驗(yàn)設(shè)計是算法設(shè)計的觀念。在實(shí)驗(yàn)設(shè)計中,研究可能不再受時空限制,可以獲得優(yōu)化后的樣本,從而在方法論上升級人類認(rèn)知世界的方式。比如可以利用網(wǎng)絡(luò)來創(chuàng)建“虛擬實(shí)驗(yàn)室”,用于搭建宏觀社會科學(xué)實(shí)驗(yàn)的受控環(huán)境,將心理學(xué)實(shí)驗(yàn)室中已經(jīng)建立的行為實(shí)驗(yàn)?zāi)P?,放到網(wǎng)上并進(jìn)行放大。以往類似研究依賴于志愿者,但該領(lǐng)域的一個重要發(fā)展是利用眾包網(wǎng)站(亞馬遜的Mechanical Turk)招募被試者,這與行為科學(xué)中從大學(xué)生群體中招募被試者的長期傳統(tǒng)類似。眾包虛擬實(shí)驗(yàn)室的重要進(jìn)展是解決了同步性問題,確保N個實(shí)驗(yàn)對象同時到達(dá)并在實(shí)驗(yàn)期間保持參與,從而實(shí)現(xiàn)了網(wǎng)絡(luò)化實(shí)驗(yàn)設(shè)計。另一個優(yōu)點(diǎn)是,設(shè)計、啟動和執(zhí)行實(shí)驗(yàn)的時間比歷史上可行的時間短得多,而且成本更低。最后,通過縮小假設(shè)檢驗(yàn)周期(分析一組實(shí)驗(yàn)結(jié)果和運(yùn)行下一組實(shí)驗(yàn)之間的延遲),從數(shù)年或數(shù)月到數(shù)天甚至數(shù)小時,眾包虛擬實(shí)驗(yàn)室實(shí)驗(yàn)可以極大地擴(kuò)展可研究條件的范圍。(30)Christoph Bartneck, et al., “Comparing the Similarity of Responses Received from Studies in Amazon’s Mechanical Turk to Studies Conducted Online and with Direct Recruitment,” PLOS ONE 10.4 (2015): 1-23.在這種情況下,實(shí)驗(yàn)室實(shí)驗(yàn)和實(shí)地實(shí)驗(yàn)之間的界限就變得模糊起來了。(31)Ray M. Chang, Robert J. Kauffman, and Young Ok Kwon, “Understanding the Paradigm Shift to Computational Social Science in the Presence of Big Data,” Decision Support Systems 63 (2014): 67-80.
理論在分析過程中的角色被弱化。在小數(shù)據(jù)時代,學(xué)者們常常通過花很多人力、物力、財力做調(diào)查、焦點(diǎn)小組等形式獲取小數(shù)據(jù),(32)唐文方:《大數(shù)據(jù)與小數(shù)據(jù):社會科學(xué)研究方法的探討》,《中山大學(xué)學(xué)報》(社會科學(xué)版)2015年第6期。而常用的定量方法通過檢驗(yàn)由各種各樣假設(shè)支撐的各種理論來最大化基于小數(shù)據(jù)對現(xiàn)實(shí)的洞察力和解釋力。換句話說,在模型使用方面,在分析小數(shù)據(jù)時就需要強(qiáng)模型(strong model)用以保證分析的合理性,即需要有很多假設(shè)的模型來保證所獲的小數(shù)據(jù)可以提供理論性很強(qiáng)的解釋。然而,在計算社會科學(xué)的背景下,大數(shù)據(jù)是學(xué)者們的關(guān)鍵分析對象,學(xué)者們往往通過減少假設(shè)、削弱理論、直接增加新解釋或者新理論來追求最貼近現(xiàn)實(shí)、最廣泛的研究發(fā)現(xiàn),(33)Monica Lee and John L. Martin, “Surfeit and Surface,” Big Data and Society 2.2 (2015): 1-3.也可以基于大數(shù)據(jù)歸納出扎根理論,在一組數(shù)據(jù)中發(fā)現(xiàn)一些模式并用之檢驗(yàn)其他數(shù)據(jù)中的模式。(34)Timothy R. Hannigan, et al., “Topic Modeling in Management Research: Rendering New Theory from Textual Data,” Academy of Management Annals 13.2 (2019): 586-632; Laura K. Nelson, “Computational Grounded Theory: A Methodological Framework,” Sociological Methods and Research 49.1 (2017): 3-42.也就是說,大數(shù)據(jù)鼓勵使用弱模型(weak model),它客觀上提供了更廣的模型選擇空間,更重要的是,給出更多關(guān)于相關(guān)性的啟示,從而更好地為預(yù)測提供支持。從讓研究思考得更廣泛、去發(fā)掘分析社會行為方式更多的可能性的角度而言,固定的、預(yù)先設(shè)定的假設(shè)在小數(shù)據(jù)時代有很強(qiáng)的意義,但在大數(shù)據(jù)面前就沒有意義了。(35)Donghyun Kang and James Evans, “Against Method: Exploding the Boundary between Qualitative and Quantitative Studies of Science,” Quantitative Science Studies 1.3 (2020): 930-944.
在學(xué)術(shù)分析遵循的推論原則上,以往推論時往往遵循“必要非充分條件”,人們采取干預(yù)的方式來發(fā)現(xiàn)因果機(jī)制,解釋某些因素很重要或者就是原因,這種方式帶來的解釋往往是局部的,或者至少其解釋范圍的擴(kuò)大很有難度。社會科學(xué)為證明其科學(xué)性,尤其重視解釋中的因果推斷。(36)孟天廣:《政治科學(xué)視角下的大數(shù)據(jù)方法與因果推論》,《政治學(xué)研究》2018年第3期。但實(shí)際上,對因果機(jī)制的追求也會造成一些混亂情況。如果想解釋所有情況,不可能依賴一個機(jī)制。每一個動態(tài)、動力和過程都可能改變所有情況。例如關(guān)于集體行動動因的兩種解釋路徑存在的沖突:有學(xué)者假設(shè)觀察同伴行為的順序不會改變他們從每個同伴推斷而來的信息;(37)Mark Granovetter, “Threshold Models of Collective Behavior,” American Journal of Sociology 83.1 (1978): 1420-1443.另有學(xué)者非常明確地假設(shè)順序是至關(guān)重要的:關(guān)鍵參與者i從前一個參與者j采取行為X推斷出的信息取決于是否有第三個參與者k已經(jīng)采取了相同的行為。(38)Sushil Bikhchandani, David Hirshleifer, and Ivo Welch, “A Theory of Fads, Fashion, Custom, and Cultural Change as Informational Cascades,” Journal of Political Economy 100.5 (1992): 992-1026.兩種解釋似乎都適用于解釋人的行為,但這卻造成了混亂的標(biāo)準(zhǔn),不是一個等式,而是兩個相互競爭的等式共存?,F(xiàn)在則轉(zhuǎn)變?yōu)椤俺浞址潜匾獥l件”原則,這一新標(biāo)準(zhǔn)鼓勵學(xué)者用數(shù)據(jù)建模來解釋更深程度的現(xiàn)象。如果關(guān)心“充分”程度和更廣泛地解釋社會現(xiàn)象,新的轉(zhuǎn)變會是從發(fā)掘因果機(jī)制到發(fā)現(xiàn)、預(yù)測。在因果推斷中,常用一些變量解釋另一些變量,現(xiàn)在轉(zhuǎn)變?yōu)榘l(fā)掘更直觀的相關(guān)性。如果只關(guān)心因果推斷,那實(shí)際只關(guān)心如何最小化模型中的偏差;如果關(guān)心預(yù)測,則是平衡地去減少誤差和方差。既然可以基于大數(shù)據(jù)進(jìn)行“充分”解釋,那就有了從“必要”的角度進(jìn)入被分析對象中發(fā)掘因果機(jī)制的更大空間。一些政治和公共政策分析已經(jīng)基于“充分”的大數(shù)據(jù)在選舉舞弊、民意調(diào)查、政府回應(yīng)性和治理能力等方面開展有益探索。(39)孟天廣、張小勁:《大數(shù)據(jù)驅(qū)動與政府治理能力提升——理論框架與模式創(chuàng)新》,《北京航空航天大學(xué)學(xué)報》(社會科學(xué)版)2018年第1期;孟天廣、李鋒:《網(wǎng)絡(luò)空間的政治互動:公民訴求與政府回應(yīng)性——基于全國性網(wǎng)絡(luò)問政平臺的大數(shù)據(jù)分析》,《清華大學(xué)學(xué)報》(哲學(xué)社會科學(xué)版)2015年第3期;R. Michael Alvarez, Computational Social Science: Discovery and Prediction (New York: Cambridge University Press, 2016).因此,計算社會科學(xué)探尋相關(guān)性時絕不是要逃避對因果機(jī)制的追求,既有的因果分析路徑是基于人們可以獲得的模型認(rèn)知和解釋世界,應(yīng)該跳出思維定勢,放下對大數(shù)據(jù)的戒備心態(tài),積極利用大數(shù)據(jù)去探索未知的情況,去發(fā)現(xiàn)一些對發(fā)掘因果機(jī)制有價值的理論假設(shè)。換句話說,通過大數(shù)據(jù)挖掘相關(guān)性,不是忽略因果推斷,而是不斷推進(jìn)發(fā)掘因果機(jī)制的可能。
緣于新興大數(shù)據(jù)提供的機(jī)遇且基于數(shù)據(jù)驅(qū)動的研究范式,計算社會科學(xué)正在引發(fā)數(shù)據(jù)觀念、研究設(shè)計、模型選擇和推論原則等方面的實(shí)質(zhì)性影響,然而,從知識積累的角度而言,我們期待一個具有合成(synthetic)特征的計算社會科學(xué)。從如今流行的計算社會科學(xué)概念來說,它是近10余年的新興領(lǐng)域,更是一種追求更加直接地認(rèn)知客觀社會世界的理念,它允許包含既可以相互競爭的又可以相互結(jié)合的解釋來幫助人類理解復(fù)雜的世界。如果需要充分地解釋現(xiàn)象,則必須要問一些符合世界復(fù)雜程度的問題,并組合不同的解釋以形成解釋的數(shù)據(jù)庫。對于大數(shù)據(jù)的研究越來越和政策、商業(yè)、服務(wù)等相關(guān),越來越和“充分”度有關(guān),它在慢慢調(diào)整社會科學(xué)標(biāo)準(zhǔn),擴(kuò)大社會科學(xué)理論發(fā)展空間,以促成更好的社會科學(xué)。更新的社會科學(xué)研究設(shè)計要納入多學(xué)科思維和方法,而好的計算社會科學(xué)不能只是人類社會行為數(shù)據(jù)和計算機(jī)科學(xué)的融合,(40)Claudio Cioffi-Revilla, “Bigger Computational Social Science: Data, Theories, Models, and Simulations - Not Just Big Data,” SSRN (May 24, 2016).而一定是社會科學(xué)和計算機(jī)科學(xué)的融合,(41)Hanna Wallach, “Computational Social Science ≠ Computer Science + Social Data,” Communications of the ACM 61.3 (2018): 42-44.如此計算社會科學(xué)才能發(fā)揮它的價值。在計算社會科學(xué)時代,當(dāng)思考社會科學(xué)問題時,解釋和預(yù)測可能同樣重要,這意味著也要探索新的計算機(jī)技術(shù)如何挖掘因果機(jī)制,而不僅僅是預(yù)測。目前,傳統(tǒng)上更容易進(jìn)行數(shù)據(jù)挖掘和預(yù)測性分析的人工智能技術(shù)也被學(xué)者用以更好地進(jìn)行因果推斷。(42)陳碩、王宣藝,《機(jī)器學(xué)習(xí)在社會科學(xué)中的應(yīng)用:回顧及展望》,復(fù)旦大學(xué)經(jīng)濟(jì)學(xué)院工作論文,2018;Ajay Agrawal, Joshua Gans, and Avi Goldfarb, The Economics of Artificial Intelligence: An Agenda (Chicago: University of Chicago Press, 2019).總之,如托馬斯·庫恩(Thomas Kuhn)所謂之科學(xué)革命中的范式轉(zhuǎn)移是一個多階段的甚至是反復(fù)的過程,(43)托馬斯·庫恩著,金吾倫、胡新和譯:《科學(xué)革命的結(jié)構(gòu)》,北京:北京大學(xué)出版社,2003年。所有的轉(zhuǎn)變都是過程。計算社會科學(xué)正持續(xù)帶來社會科學(xué)解釋和預(yù)測能力的階段性轉(zhuǎn)變,它最終會帶來多大深度和廣度的巨變值得期待。
大數(shù)據(jù)的涌現(xiàn)帶來了計算社會科學(xué)的發(fā)展以及相關(guān)新的研究方法融入到社會科學(xué)研究之中,帶來研究范式的變革,這是沖擊也是重啟。此次學(xué)科融合帶來的以數(shù)據(jù)驅(qū)動為主的研究范式,似乎給社會科學(xué)以理論指導(dǎo)為主的研究范式敲響喪鐘。數(shù)據(jù)驅(qū)動和理論驅(qū)動在定量研究中總是存在一定的張力,計算社會科學(xué)下大數(shù)據(jù)甚至?xí)⑦@種張力擴(kuò)大化,因?yàn)榇髷?shù)據(jù)不可避免地被懷疑只是數(shù)量級別大,而數(shù)據(jù)質(zhì)量并不高,單純通過對文本、圖像、視頻數(shù)據(jù)的分析無法探討重要的時空變量、人口學(xué)變量、制度環(huán)境變量等之間的因果關(guān)系,最終甚至可能導(dǎo)致理論建構(gòu)上的乏力。不過,我們更應(yīng)認(rèn)識到,計算社會科學(xué)沖擊社會科學(xué)研究所帶來的范式轉(zhuǎn)換可以被視為上帝之手(大數(shù)據(jù)研究)與研究者視角(傳統(tǒng)研究)的再次競合。而這樣的競合,并非空前未見;過去有類似的對話,例如非參數(shù)模型(預(yù)測導(dǎo)向)與參數(shù)模型(理論驅(qū)動)的交鋒、貝葉斯學(xué)派(弱模型)和頻率學(xué)派(強(qiáng)模型)的爭論。這次的競合可以視為過去方法論對話的延續(xù)與再啟動。不同以往的是,過去的爭論是在小數(shù)據(jù)的基礎(chǔ)上不同方法的選擇,此次的競合則是在大數(shù)據(jù)的基礎(chǔ)上探索方法融合的可能性。
首先,“大”數(shù)據(jù)為預(yù)測模型結(jié)果的可信度提供了有力支撐,而以理論為導(dǎo)向的社會科學(xué)研究則為研究者在“浩瀚”數(shù)據(jù)海中提供了探索的路徑;其次,以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)挖掘研究可以發(fā)現(xiàn)變量間多樣互聯(lián)的可能性,讓社會科學(xué)研究理論的觸手可以跳脫理論極簡化的框架。這種大數(shù)據(jù)、理論與預(yù)測算法的三角對話集合了跨學(xué)科的信息,增加了學(xué)科之間的對話和結(jié)合,打破了學(xué)科之間的嚴(yán)格邊界。計算社會科學(xué)發(fā)展帶來的這次爭論看似重啟過去理論指導(dǎo)與數(shù)據(jù)驅(qū)動研究范式之間的相互傾軋,實(shí)際上提供了社會科學(xué)研究者在分析路徑或是研究方法上更多的選擇空間。相信未來在理論與數(shù)據(jù)驅(qū)動的混合研究方法下,計算社會科學(xué)會探索更多新穎議題,驗(yàn)證、修正和發(fā)展更多既有的社會科學(xué)理論。
不過,從發(fā)展視角來看,我們也需要意識到,一切科學(xué)進(jìn)步都需要更好的客觀科學(xué)發(fā)展條件和資源的支持。只有當(dāng)資源優(yōu)化配置到計算社會科學(xué)時,當(dāng)學(xué)術(shù)資源與知識需求合理協(xié)調(diào)時,計算社會科學(xué)才有可能最大限度地呈現(xiàn)其價值。計算社會科學(xué)領(lǐng)域在過去十年里突飛猛進(jìn),成千上萬的論文使用了過去研究無法使用甚至無法想象的觀測數(shù)據(jù)、實(shí)驗(yàn)設(shè)計和大規(guī)模模擬,以求更加直接、更大限度地認(rèn)知客觀世界。世界各地支持計算社會科學(xué)的機(jī)構(gòu)、跨學(xué)科研討會和暑期學(xué)校也有了實(shí)質(zhì)性的增長。但該領(lǐng)域在一些重要方面也存在不足,許多要素——包括教學(xué)方法、數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)共享機(jī)制,乃至相應(yīng)的健全的研究倫理、法律、管理指導(dǎo)——仍處于萌芽狀態(tài),需要學(xué)者們的積極協(xié)調(diào)和學(xué)術(shù)資源的重組。(44)David Lazer, et al., “Computational Social Science: Obstacles and Opportunities,” Science 369.6507 (2020): 1060.
復(fù)旦學(xué)報(社會科學(xué)版)2021年2期