□
[電子科技大學(xué) 成都 611731]
很多科學(xué)分支都經(jīng)歷過方法論從定性到定量的范式轉(zhuǎn)移。即便是以“理論模型-定量預(yù)測-實(shí)驗(yàn)驗(yàn)證”為方法論閉環(huán)的,現(xiàn)在看起來最能代表定量科學(xué)成就的物理學(xué),在其發(fā)展的早期也經(jīng)歷了以定性解釋為主的時(shí)期。
舉個(gè)例子,兩千多年前,亞里士多德就提出了一個(gè)著名的定性理論——四元素論(The Four Elements Theory),認(rèn)為土(earth)、水(water)、氣(air)、火(fire)這四種基本的元素構(gòu)成了物理世界的物質(zhì)基礎(chǔ)。在幾乎差不多的先秦時(shí)期,中國古代哲學(xué)家也提出了類似的五元素理論——五行說,認(rèn)為金(metal)、木(wood)、水(water)、火(fire)、土(earth)五種元素按照不同比例混合即可構(gòu)成世界上所有的物體。
亞里士多德的物理理論在兩千年左右的時(shí)間內(nèi)代表了人類對物理世界主流的理解,很可能是人類歷史上影響時(shí)間最長、范圍最廣的理論之一。直到近代科學(xué)出現(xiàn),歸功于大量化學(xué)和物理實(shí)驗(yàn)以及對應(yīng)的定量分析手段,他的四元素理論和動(dòng)力學(xué)理論才分別被原子論(Atomic Theory)和牛頓定律(Newton’s Law)替代。
與研究物質(zhì)和運(yùn)動(dòng)的物理科學(xué)對應(yīng),社會(huì)科學(xué)研究的是以人的活動(dòng)和關(guān)系為基礎(chǔ)的社會(huì)結(jié)構(gòu),它包括了社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、語言學(xué)、政治學(xué)等多個(gè)學(xué)科。與物理科學(xué)相比,從定性到定量這條道路對于社會(huì)科學(xué)而言,要困難得多。
首先,社會(huì)科學(xué)研究的對象要比物理科學(xué)復(fù)雜得多。人是社會(huì)科學(xué)研究最重要的基本單位之一,其地位類似于物理科學(xué)中的原子[1]。然而,人的行為具有異質(zhì)性和陣發(fā)性[2~3]:不同的人之間行為差異很大,同一個(gè)人在不同時(shí)空下行為差異也很大,人們經(jīng)常長時(shí)間保持靜默卻又突然連續(xù)頻繁從事某項(xiàng)活動(dòng),人們主要在近距離地方活動(dòng)但有時(shí)又會(huì)突然奔赴遠(yuǎn)方……因此,除了在分析擁擠的人流等極少量的場景中獲得了一定成功[4~5],把人群簡化成一堆同質(zhì)化的原子只會(huì)消除大量有趣的社會(huì)現(xiàn)象。還有一些社會(huì)科學(xué)分析的對象,例如政策和法律條文,不僅復(fù)雜,而且天然地不容易用數(shù)值的手段來刻畫。
其次,社會(huì)科學(xué)的研究對象具有極大的不完備性和不確定性。影響社會(huì)發(fā)展的因素?cái)?shù)不勝數(shù),任何包羅萬象的理論都不可能將它們?nèi)P納入,而單個(gè)因素也是不獨(dú)立不穩(wěn)定的,受到外部環(huán)境和其他因素的影響。這就使得在一個(gè)封閉的環(huán)境中,通過可控的重復(fù)實(shí)驗(yàn)對社會(huì)理論進(jìn)行定量化驗(yàn)證變得不可能——而這恰恰是物理科學(xué)和其他自然科學(xué)得以螺旋前進(jìn)的基石[6]。
與此同時(shí),社會(huì)科學(xué)也缺乏預(yù)測未來的能力——很多時(shí)候?qū)<液屠碚撃P偷玫降念A(yù)測并不優(yōu)于隨機(jī)亂猜[7]。但這些錯(cuò)誤預(yù)測也無法殺死理論,因?yàn)殄e(cuò)誤可以被歸因于未知的因素和突發(fā)的事件,而不是理論本身的缺陷。
就目前來看,社會(huì)科學(xué)在發(fā)展其定量化方法的過程中,僅僅是形成了某種“事后諸葛”般的明智。一些經(jīng)過修修補(bǔ)補(bǔ)的理論模型,總是可以對已經(jīng)發(fā)生的事情給出定性正確甚至定量精確的解釋,但是對于未來,卻無能為力。面對這種困境,研究人員不能開倒車,退回到定性描述,而是要堅(jiān)持用定量化的方法給出解釋和預(yù)測,并把解釋能力和預(yù)測精度作為評價(jià)理論適用性的指標(biāo)。事實(shí)上,最近社會(huì)科學(xué)方面的研究定量化程度越來越高,也越來越依賴于真實(shí)數(shù)據(jù)[8~9]。
但是,傳統(tǒng)的獲取數(shù)據(jù)的方法存在很多局限性。例如,通過問卷得到的數(shù)據(jù)往往樣本規(guī)模很小,而且數(shù)據(jù)可能存在系統(tǒng)誤差,因?yàn)楸辉囋诨卮饐柧淼臅r(shí)候往往傾向于給出更易被社會(huì)接受的答案,而非真實(shí)的答案[10]。更準(zhǔn)確且更大規(guī)模的數(shù)據(jù),例如經(jīng)濟(jì)普查數(shù)據(jù),又往往要消耗大量的資源才能獲得,并且時(shí)效性很差。在很多貧困的地區(qū),這種全國性的普查甚至是不現(xiàn)實(shí)的[11]。
對于社會(huì)科學(xué)的研究人員而言,一個(gè)以前從未出現(xiàn)過的重要機(jī)會(huì)就是全世界都在經(jīng)歷的數(shù)據(jù)化浪潮[12]。經(jīng)濟(jì)社會(huì)發(fā)展的過程數(shù)據(jù),人類活動(dòng)的行為數(shù)據(jù),被越來越多的數(shù)據(jù)采集終端和傳感設(shè)備記錄下來。然而,這些數(shù)據(jù)往往不是傳統(tǒng)社會(huì)科學(xué)慣常處理的數(shù)據(jù),而是衛(wèi)星遙感、移動(dòng)通訊、社交媒體等新型數(shù)據(jù)。
一方面,理解和分析這類數(shù)據(jù),需要前沿的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法,這對以統(tǒng)計(jì)分析為主要工具的傳統(tǒng)社會(huì)科學(xué)研究者提出了挑戰(zhàn)。另一方面,這些數(shù)據(jù)規(guī)模更大、實(shí)時(shí)性更強(qiáng)、精度更高,既可以降低小樣本數(shù)據(jù)的稀疏性和偏差度,又可以減少過程中的不可見部分(例如經(jīng)濟(jì)普查數(shù)據(jù)就是典型的非實(shí)時(shí)數(shù)據(jù),兩個(gè)數(shù)據(jù)點(diǎn)之間往往跨越幾年時(shí)間,中間的過程全然不可見),因此從原理上講可以更好地感知社會(huì)經(jīng)濟(jì)態(tài)勢,評價(jià)和修正原有理論,啟發(fā)和孕育新理論,發(fā)現(xiàn)可能的異常,預(yù)測未來的趨勢等等。盡管這依然不能一勞永逸地將社會(huì)科學(xué)轉(zhuǎn)化為完全定量化的學(xué)科,甚至達(dá)到自然科學(xué)的水平(我們也不應(yīng)有此奢望),但毫無疑問能夠?qū)⑸鐣?huì)科學(xué)的“科學(xué)性”往前推動(dòng)一大步。
以上的這些挑戰(zhàn)和嘗試,導(dǎo)致了一門新學(xué)科的涌現(xiàn),它基于大規(guī)模的真實(shí)數(shù)據(jù),用定量化的手段研究社會(huì)經(jīng)濟(jì)發(fā)展中的各種現(xiàn)象,特別是與社會(huì)過程有關(guān)的經(jīng)濟(jì)發(fā)展問題,以及與經(jīng)濟(jì)發(fā)展有關(guān)的社會(huì)問題。我們不妨稱其為計(jì)算社會(huì)經(jīng)濟(jì)學(xué)(Computational Socioeconomics),它是社會(huì)科學(xué)中一個(gè)新興的,極小的但又充滿活力和指向未來的分支[13]。它既可以被看作社會(huì)經(jīng)濟(jì)學(xué)因?yàn)榉椒ㄕ摰淖兏锼纬傻男路种?,也可以被看作?jì)算社會(huì)科學(xué)因?yàn)檠芯繉ο蟮木劢顾纬傻男路种?。在上面的定義中,有幾個(gè)關(guān)鍵詞是特別需要注意的。
第一是“定量化”,強(qiáng)調(diào)用數(shù)值而非描述來刻畫問題和呈現(xiàn)結(jié)果。從定性到定量是科學(xué)研究質(zhì)的飛躍。公元前5世紀(jì),古希臘醫(yī)生希波克拉底(Hippocrates)認(rèn)為人體內(nèi)有4種體液(即血液、粘液、黃膽汁、黑膽汁),每種體液所占比例的不同決定了人的氣質(zhì)差異,而人的氣質(zhì)類型也可以分為四類,分別是多血質(zhì)、膽汁質(zhì)、黏液質(zhì)和抑郁質(zhì)。這一定性的理論,如同亞里士多德的四元素論對物理學(xué)的影響一樣,統(tǒng)治了心理和人格分析領(lǐng)域兩千多年。遺憾的是,這種包含了一定合理成分但純粹定性描述的理論,沒有在發(fā)展過程中累積科學(xué)的堅(jiān)實(shí)成果,因此在長達(dá)兩千年的歷史中沒有真正意義上的進(jìn)步。直到心理學(xué)家利用標(biāo)準(zhǔn)化量表獲得對于大五人格(big five personality)的量化評價(jià)后,人格分析才成為一個(gè)重要的研究分支,并在很多社會(huì)心理學(xué)的問題中發(fā)揮中心性的作用[14]。
第二是“真實(shí)數(shù)據(jù)”,強(qiáng)調(diào)理論模型必須要服從真實(shí)數(shù)據(jù),以對真實(shí)數(shù)據(jù)的解釋和預(yù)測能力為評價(jià)準(zhǔn)繩。經(jīng)濟(jì)學(xué)是一門高度量化的科學(xué),幾乎所有理論模型背后都有一套對應(yīng)的優(yōu)美的方程,如果給定那些參數(shù)的值,很多目標(biāo)變量原則上是可以計(jì)算的。然而,大部分經(jīng)濟(jì)學(xué)的研究只停留在這種虛幻的量化中,沒有和真實(shí)數(shù)據(jù)結(jié)合起來。這就導(dǎo)致了經(jīng)典的經(jīng)濟(jì)學(xué)理論陷入了優(yōu)美程度大于實(shí)用程度,理想化超過了現(xiàn)實(shí)化的窘境。短期而言,它對于撲面而來的經(jīng)濟(jì)危機(jī)無法給出正確的預(yù)判[15](但是在危機(jī)過后總能找到理論上優(yōu)美且合理的解釋[16]);長期而言,它對于全世界位于發(fā)展中的百來個(gè)國家地區(qū)給不出行之有效的經(jīng)濟(jì)發(fā)展建議[17]。
第三是“大規(guī)?!保瑥?qiáng)調(diào)盡可能獲取能夠直接反映全體的數(shù)據(jù)樣本(全體尺度數(shù)據(jù),populationscale data)。數(shù)據(jù)樣本規(guī)模小,有時(shí)候帶來的不僅僅是偏差,還可能是完全錯(cuò)誤的結(jié)論。例如,一個(gè)在較小規(guī)模網(wǎng)絡(luò)中被多次驗(yàn)證且為學(xué)術(shù)界廣泛接受的理論,是社會(huì)互動(dòng)的強(qiáng)度(可以用電話通信的頻率和時(shí)長,以及社交媒體上評論、回復(fù)和提及的次數(shù)等指標(biāo)來衡量)隨著連邊的長度范圍持續(xù)衰減[18~19],其中連邊的長度范圍可以用去掉該連邊后兩個(gè)個(gè)體的網(wǎng)絡(luò)最短距離衡量——這個(gè)長度范圍如果很大,就說明連邊的兩個(gè)個(gè)體處于社交網(wǎng)絡(luò)中距離很遠(yuǎn)、重疊很少的兩個(gè)不同社區(qū)。但最近通過對11組全體人口尺度社交網(wǎng)絡(luò)數(shù)據(jù)的分析顯示,長程社交連邊的社會(huì)互動(dòng)強(qiáng)度并不弱于短程連邊,從而從根本上挑戰(zhàn)了我們對社交網(wǎng)絡(luò)組織結(jié)構(gòu)的理解[20]。
另外,待分析數(shù)據(jù)多樣性和規(guī)模的增加,會(huì)給這個(gè)新興科學(xué)分支在方法論上帶來兩個(gè)改變。一是為了分析遙感圖像、街景照片、社交網(wǎng)絡(luò)、文本內(nèi)容這類數(shù)據(jù),簡單的統(tǒng)計(jì)分析工具無法滿足需求,必須高度依賴于人工智能的技術(shù),特別是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的先進(jìn)技術(shù),例如深度學(xué)習(xí)算法[21]。二是我們會(huì)接觸到很多全體尺度的數(shù)據(jù),這時(shí)候抽樣不再是用于估計(jì)全體性質(zhì)的一種必要的方法,而是我們通過對少量抽樣樣本進(jìn)行更多維度的數(shù)據(jù)補(bǔ)充甚至人工標(biāo)注后,再把這些數(shù)據(jù)用作機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù),建立從原數(shù)據(jù)維度推斷出新增數(shù)據(jù)維度的模型,最終能夠推斷出全體尺度上的新增維度。這是一種可以和傳統(tǒng)抽樣方法和問卷調(diào)查在方法論上具有承接關(guān)系,但是威力強(qiáng)得多的方法。舉個(gè)例子,我們比較容易得到一個(gè)國家全體人口尺度基于移動(dòng)手機(jī)的通訊和空間移動(dòng)記錄,但是獲得每個(gè)家庭收入的情況卻非常困難,一是很多較貧困地區(qū)根本就不做全民經(jīng)濟(jì)普查,二是這類數(shù)據(jù)往往因?yàn)槭菄覚C(jī)密而不輕易向科研機(jī)構(gòu)開放。這種情況下,我們可以通過相對較小的成本,利用傳統(tǒng)的抽樣、問卷等方式,獲得一部分家庭的收入情況,再利用機(jī)器學(xué)習(xí)方法建立通過移動(dòng)手機(jī)數(shù)據(jù)預(yù)測家庭收入的模型,從而推斷出所有有移動(dòng)手機(jī)數(shù)據(jù)的人口的家庭收入[22~23]。盡管這個(gè)數(shù)據(jù)不是完全準(zhǔn)確的,但是往往精度很高,而且是用很小的成本獲得了幾乎所有人的高價(jià)值數(shù)據(jù)。這種結(jié)合全體尺度易獲得數(shù)據(jù),少量難以獲得的高價(jià)值數(shù)據(jù)和機(jī)器學(xué)習(xí)算法,去推斷全體尺度難以獲得的高價(jià)值數(shù)據(jù),是計(jì)算社會(huì)經(jīng)濟(jì)學(xué)研究中很有代表性的一種新方法,體現(xiàn)了社會(huì)科學(xué)和計(jì)算機(jī)科學(xué)理念和方法的深度融合。
長期而言,不管計(jì)算社會(huì)經(jīng)濟(jì)學(xué)會(huì)成為一個(gè)有獨(dú)立邊界的新科學(xué)分支,還是會(huì)完全融入到社會(huì)科學(xué)中去,上面討論的這種由大數(shù)據(jù)和人工智能發(fā)展所驅(qū)動(dòng)的新理念和新方法論,毫無疑問會(huì)成為未來社會(huì)科學(xué)主流的方法論,并且將不可逆轉(zhuǎn)而深刻地改變整個(gè)社會(huì)科學(xué)。