文/孫秀林 施潤華
?
社會學(xué)應(yīng)該擁抱大數(shù)據(jù)
文/孫秀林 施潤華
摘要:大數(shù)據(jù)的快速發(fā)展,大大擴展了社會學(xué)定量研究的領(lǐng)域:為研究人類行為提供了新的工具,為研究社會互動與社會交往提供了新的可能,為宏觀層面的社會測量提供了新的視角,為社會學(xué)帶來了新的研究方法。當(dāng)然,在正面看待大數(shù)據(jù)帶來的積極意義的同時,也要意識到大數(shù)據(jù)分析失靈的可能性,要理性認識大數(shù)據(jù)的優(yōu)勢與劣勢,處理好大數(shù)據(jù)與小數(shù)據(jù)之間的關(guān)系。
關(guān)鍵詞:大數(shù)據(jù);定量研究;研究方法
今天,我們生活在一個數(shù)據(jù)急劇膨脹的時代。它不僅改變了我們生活的世界,同時也在改變我們看待這個世界的方式。一夜之間,“大數(shù)據(jù)”成為商界、學(xué)界、政界的時髦詞語,無人不談大數(shù)據(jù),無事不涉大數(shù)據(jù)。在商界,從尿布與啤酒的關(guān)聯(lián),到亞馬遜(Amazon)和奈飛(Netflix)的推薦系統(tǒng),無數(shù)例子已經(jīng)證明了大數(shù)據(jù)的應(yīng)用前景。在政界,各國政府相繼制定大數(shù)據(jù)發(fā)展戰(zhàn)略,2015年9月,中國國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,將大數(shù)據(jù)發(fā)展提升為國家發(fā)展戰(zhàn)略工作。但是,在學(xué)界,關(guān)于大數(shù)據(jù)的應(yīng)用與發(fā)展,爭論卻持續(xù)不斷。有人為大數(shù)據(jù)的發(fā)展加油吶喊,認為這是社會學(xué)未來發(fā)展的方向,一種新的計算社會學(xué)的研究范式正在急速崛起之中;同時也有人認為這只是一種新的數(shù)據(jù)“玩具”而已,不可能取代數(shù)百年來社會學(xué)已經(jīng)發(fā)展出的理論框架與研究范式。本文無意也無力對上述爭論做出一個詳細的評判,因為這兩方面都各有其道理。本文僅僅從社會學(xué)定量研究的角度出發(fā),探討大數(shù)據(jù)發(fā)展對社會學(xué)帶來的機遇,以及我們應(yīng)該如何應(yīng)對這種變化和影響。
大數(shù)據(jù)是指巨大而多樣化的數(shù)據(jù)集,是對全世界每個人所做的每一件事的即時記錄。大數(shù)據(jù)的出現(xiàn)與快速發(fā)展,為社會科學(xué)的發(fā)展帶來了前所未有的研究機遇,大大擴展了原有的研究領(lǐng)域。
(一)大數(shù)據(jù)為社會學(xué)研究人類行為提供了新的工具
在大數(shù)據(jù)時代,我們?nèi)粘I钪械囊磺?,都已?jīng)進入一個數(shù)據(jù)化的過程中。人們每天在微博、微信上發(fā)表的評論,忠實記錄了個人偏好,包括個人對于美食的評論、對他人意見的評論、對公共事件的評論等。人們每天的通話記錄,可以清晰刻畫人們的聯(lián)系人記錄和社交網(wǎng)絡(luò)。人們每天的消費記錄,保留在各大銀行和電商的數(shù)據(jù)庫中,通過對于這些信息的分析,可以充分展現(xiàn)城市不同階層的消費模式。上班族每天上下班的公交卡信息,構(gòu)成了研究城市生活的重要數(shù)據(jù)庫。更重要的是,這些數(shù)據(jù)格式都不是一次性的,而是實時變化的。相對于以前我們通過調(diào)查問卷來間接測量人類行為,這些新的數(shù)據(jù)形式,對于我們理解人類的行為提供了前所未有的機遇。哈佛大學(xué)的金加里(Gary King)教授甚至認為,這種新的數(shù)據(jù)方式對于社會科學(xué)研究而言,其意義不亞于顯微鏡對于生物學(xué)、天文望遠鏡對于天文學(xué)發(fā)展的意義。[1]
在社會學(xué)的研究中,理解與解釋同樣重要。我們不僅需要解釋人類的行為,同樣也需要理解人類的行為。在這一點上,社會學(xué)不僅需要觀測到具體的人類行為與交往情況,同樣也需要理解不同行為背后的原因。因此,我們不僅需要獲取人類的行為模式,同時也需要獲取主觀意識方面的認知、想法、觀念等。對于定量研究而言,這些觀念性的、文化性的、理解性的數(shù)據(jù),是非常難以量化和測量的。慶幸的是,在大數(shù)據(jù)時代,利用新的測量手段,已經(jīng)有學(xué)者開始進行了一些嘗試。彭特蘭從孔德的實證社會學(xué)出發(fā),關(guān)注人的想法(idea)。他把問題聚焦在“想法流”(idea flow)上,將其作為看待人類關(guān)系建構(gòu)、社會結(jié)構(gòu)演進的新視角。在這樣的語境下,他認為社會學(xué)習(xí)是想法流的關(guān)鍵,多樣性是想法萌生的土壤。他利用可穿戴設(shè)備,把數(shù)據(jù)獲取的方式從測量(如傳統(tǒng)的問卷調(diào)查、訪談、觀察等)上升為感知(可穿戴設(shè)備記錄的心理學(xué)、生理學(xué)、生物學(xué)特征),使得利用大數(shù)據(jù)對于人類互動行為意義的理解和分析成為可能。[2]
(二)大數(shù)據(jù)為研究社會互動與社會交往提供了新的可能
在社會學(xué)的研究領(lǐng)域中,如何測量人與人之間的社會交往與社會網(wǎng)絡(luò),一直是個非常重要的研究議題。在傳統(tǒng)的研究中,雖然我們都承認社會網(wǎng)絡(luò)是個非常復(fù)雜的社會結(jié)構(gòu),但是,由于傳統(tǒng)測量手段主要是通過對于個體的問卷調(diào)查來進行,所以多數(shù)對于社會網(wǎng)絡(luò)的研究都采用了簡化的測量。一種社會網(wǎng)絡(luò)的測量集中于個體網(wǎng)絡(luò),如個人的拜年網(wǎng)、餐飲網(wǎng)、交談網(wǎng)等等。[3]另外一種對于整體網(wǎng)的社會測量則多集中于界限比較清楚的、規(guī)模較小的測量,如一個班級、一個企業(yè)部門、一個村莊等。[4]
這種數(shù)據(jù)獲取方式的局限性,極大地限制了社會學(xué)對于人類交往與社會互動的深入研究。大數(shù)據(jù)時代,各種社交網(wǎng)絡(luò)平臺(如國外的臉書、推特,國內(nèi)的微博、微信、豆瓣、人人網(wǎng)等)的發(fā)展,使得研究者們輕易突破了上述限制,可以在一個更大規(guī)模上研究人們之間的社會網(wǎng)絡(luò)與社會互動,甚至可以研究全球網(wǎng)民之間的社會交往情況(如Facebook、Twitter等)。[5]相對于國外學(xué)者利用社交媒體進行的社會網(wǎng)絡(luò)分析,國內(nèi)學(xué)者也開始利用本土的社交媒體,將社會網(wǎng)絡(luò)分析的研究領(lǐng)域進行了拓展。如通過比較廣州118個業(yè)主論壇和上海199個業(yè)主論壇的社會網(wǎng)絡(luò)圖,黃榮貴等人研究了上海的業(yè)主網(wǎng)絡(luò)與廣州的業(yè)主網(wǎng)絡(luò)之間的差異,以及這種差異對于基層治理的影響。[6]新近一篇文章以一個業(yè)主論壇為切入點,利用網(wǎng)絡(luò)技術(shù)抓取6萬多條業(yè)主發(fā)言,從全體網(wǎng)的分析角度探討了不同類型的虛擬社區(qū)用戶參與虛擬社區(qū)討論對社區(qū)在線參與的影響。[7]甚至有研究利用大數(shù)據(jù)獲取的手段,研究了中國千人學(xué)者的合作者網(wǎng)絡(luò)與社會資本轉(zhuǎn)化情況。[8]
雖然社會計算領(lǐng)域的一項研究表達了對于社交媒體收集和使用大量數(shù)據(jù)所產(chǎn)生的潛在危害的擔(dān)憂,[9]對這些大數(shù)據(jù)進行分析的時候,社會選擇和測量問題使得一些理論本身變得“可疑”,[10]但是這種數(shù)據(jù)獲取方式,可以使我們對于人們之間的社會互動有一個更深入的了解。而且最近的研究顯示,社交網(wǎng)絡(luò)和機器學(xué)習(xí)的快速發(fā)展為我們打開了新的圖景,我們通過技術(shù)革新,使用云技術(shù)進行機器學(xué)習(xí)獲取人臉信息這些非結(jié)構(gòu)性數(shù)據(jù),從而更有效地解決大數(shù)據(jù)中數(shù)據(jù)獲取的難題。[11]還有學(xué)者基于MapReduce等方法,運用并行隨機迭代方式搜索社會網(wǎng)絡(luò)編碼狀態(tài)空間中的最佳編碼方法,從而挖掘出大數(shù)據(jù)社會網(wǎng)絡(luò)中的最佳社團劃分。[12]
(三)大數(shù)據(jù)為宏觀層面的社會研究提供了新的測量手段
隨著中國城市化進程的快速發(fā)展,對于城市議題的研究,將是未來社會學(xué)研究的一個重要方向。但在以往的城市研究中,由于社會學(xué)家往往難以獲得微觀的城市數(shù)據(jù)(如觀測單位具體到街道、居委會的數(shù)據(jù)),嚴(yán)重阻礙了城市議題的量化研究,如城市中的居住隔離問題、貧困問題、職住分離等。[13]在大數(shù)據(jù)時代,隨著“基于位置服務(wù)”技術(shù)的發(fā)展(如手機定位信息、出租車軌跡、交通卡信息、消費卡信息等),為研究城市社會學(xué)研究提供了新的視角與可能。如利用公交卡的刷卡數(shù)據(jù),不僅僅可以分析大都市的通勤狀況與職住分離情況,而且可以更好地理解人們在城市中的不同行為模式與空間特征,對中國的城市社會學(xué)研究具有重要的啟示作用。[14]
在這一背景下,湯森以一種前瞻式的視角為我們解讀了城市的未來。他用活生生的現(xiàn)實案例向我們展現(xiàn)了,隨著數(shù)據(jù)的開放、移動智能設(shè)備的普及、互聯(lián)網(wǎng)時代的來臨,智慧城市不再是一個空洞的名詞,它有了全新的意義。[15]
(四)大數(shù)據(jù)產(chǎn)生了新的數(shù)據(jù)分析方法與分析技術(shù)
大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生方式發(fā)生了變化。在傳統(tǒng)情況下,對于國民經(jīng)濟指標(biāo)的統(tǒng)計,基本是依賴于國家行政力量的統(tǒng)計系統(tǒng)來進行的。這種傳統(tǒng)的統(tǒng)計方式,需要通過科層體系的層層上報,并逐級匯總,比較費時費力。大數(shù)據(jù)的發(fā)展,可以使得很多傳統(tǒng)的統(tǒng)計數(shù)據(jù)在很短時間內(nèi)獲取,一個最著名的例子是谷歌的“谷歌流感趨勢”,通過匯集人們在谷歌上搜索的關(guān)鍵詞,谷歌可以迅速標(biāo)示流感疫情的發(fā)展、擴散情況,通過與美國疾病預(yù)防控制中心的監(jiān)測報告進行比較,谷歌認為自己利用網(wǎng)絡(luò)搜索做出的結(jié)果非??煽俊V匾氖?,谷歌的“谷歌流感趨勢”只需要1天就可以生成一份最及時的報告,而不是美國疾病預(yù)防控制中心的2周。[16]雖然針對谷歌的這一研究爭論持續(xù)不斷,但不可否認的是,谷歌的這一研究思路,極大地促進了“大數(shù)據(jù)”中“用戶生成數(shù)據(jù)”(User-generated content)的研究在學(xué)術(shù)界快速發(fā)展。
大數(shù)據(jù)時代,數(shù)據(jù)的獲取方式發(fā)生了變化。如在一篇對于上海市社會組織的空間分析中,作者通過“網(wǎng)絡(luò)爬蟲”,獲得了上海所有(一萬多條)在冊社會組織的詳細信息,包括組織名稱、組織注冊代碼、注冊時間、證書有效時間、組織類型、注冊地、主管單位、法人代表、地址、郵編、電話、網(wǎng)址、主要業(yè)務(wù)內(nèi)容以及獎懲情況等。這種數(shù)據(jù)獲取方式,相對于傳統(tǒng)的方式,無疑極大降低了學(xué)術(shù)研究的交易成本。[17]
大數(shù)據(jù)時代,數(shù)據(jù)的分析技術(shù)發(fā)生了變化。研究者可以通過社交網(wǎng)絡(luò)、社交媒體等方式,大規(guī)模隨機設(shè)定、發(fā)送不同的信息,以此形成隨機實驗中的“參照群體”與“實驗群體”,通過這兩個不同群體的反應(yīng)情況,來進行科學(xué)研究的因果推論。[18]人類學(xué)也在大數(shù)據(jù)時代發(fā)展出來“虛擬民族志”的研究方法,對虛擬社區(qū)中的社會互動進行追蹤觀察,以更好地關(guān)注和探究信息時代的社會生活。[19]
在大數(shù)據(jù)時代下,很多學(xué)者認為將社會學(xué)與計算機科學(xué)結(jié)合起來,將為社會學(xué)研究帶來革命性的改變。社會計算作為一種新的計算范式,會產(chǎn)生一個新的跨學(xué)科研究與應(yīng)用領(lǐng)域,具有廣闊的研究與應(yīng)用前景。[20]甚至有學(xué)者認為,大數(shù)據(jù)時代產(chǎn)生的新計算社會學(xué)會引發(fā)一場社會學(xué)范式革命, 社會學(xué)的“計算范式”會成為一種在社會學(xué)研究中占主導(dǎo)地位的范式。[21]在這種情況下,社會學(xué)應(yīng)該如何面對大數(shù)據(jù)所帶來的挑戰(zhàn)?社會學(xué)如何利用大數(shù)據(jù)的優(yōu)勢,促進自己學(xué)科的實質(zhì)發(fā)展?下面僅僅根據(jù)筆者的研究經(jīng)驗,提供一些管窺之見。
(一)理性認識大數(shù)據(jù)的優(yōu)勢與劣勢
從大數(shù)據(jù)實際應(yīng)用的發(fā)展前景來看,一方面要看到數(shù)據(jù)本身帶來的積極意義,另一方面也要意識到大數(shù)據(jù)分析失靈的可能。在對于大數(shù)據(jù)的“崇拜”或曰“幻覺”中,最需要一提的是“大數(shù)據(jù)傲慢”(Big Data Hubris)的問題。在谷歌發(fā)表其“谷歌流感趨勢”的研究后不久,另外一篇發(fā)表在《自然》雜志上的文章發(fā)現(xiàn),如果使用2013年最新的數(shù)據(jù)進行檢驗,谷歌的預(yù)測結(jié)果存在非常嚴(yán)重的偏誤。研究者認為,造成這種結(jié)果有兩個重要原因。其中一個最重要的原因就是“大數(shù)據(jù)傲慢”,即大數(shù)據(jù)科學(xué)家們認為大數(shù)據(jù)是傳統(tǒng)數(shù)據(jù)收集方法的終結(jié)而非補充,因此可以完全忽略傳統(tǒng)的數(shù)據(jù)收集方式。在這個案例中,谷歌的工程師無法證明在網(wǎng)上進行搜索的群體等同于流感涉及的群體。如果我們無法判斷這兩個群體的具體情況,那么大數(shù)據(jù)所收集到的數(shù)據(jù)是一個有偏的樣本,而一個有偏的樣本其規(guī)模越大,做出錯誤判斷的概率也就越高。同時,用戶搜索行為的改變也會影響關(guān)鍵詞的搜索結(jié)果。另外一個是算法變化,谷歌的工程師對算法會進行不斷地調(diào)整和改進,而搜索引擎算法的改變會影響預(yù)測結(jié)果,比如媒體對于流感流行的報道會增加與流感相關(guān)的詞匯的搜索次數(shù),進而影響“谷歌流感趨勢”的預(yù)測。[22]
在對于大數(shù)據(jù)的爭論中,最令社會學(xué)家詬病的是,大數(shù)據(jù)對于社會學(xué)理論的態(tài)度。大數(shù)據(jù)的教父級人物舍恩伯格宣稱,在大數(shù)據(jù)時代,理論不再是我們分析和理解世界的必備武器,數(shù)據(jù)分析本身就可以揭示一切問題。對此,我們需要警惕。大數(shù)據(jù)的優(yōu)勢在于不用擔(dān)心數(shù)據(jù)的代表性問題,可以彌補傳統(tǒng)數(shù)據(jù)中不具代表性的問題。通過計算機巨量的運算方式發(fā)現(xiàn)相關(guān)關(guān)系,包括已知的和未知的,這種方式可以幫助研究者發(fā)現(xiàn)更有效的事實(比如超市中尿布與啤酒的關(guān)系)。但是,數(shù)據(jù)本身只是一種材料,大數(shù)據(jù)本身并不構(gòu)成、也不能回答特定問題。大數(shù)據(jù)是尋找問題的一種方式,但其本身不構(gòu)成對象,它只是一種工具,適用于一些特定用途,切忌將其盲目地神圣化。社會科學(xué)領(lǐng)域另外一位重量級的人物金加里教授,在談到這一問題時一再強調(diào),在任何社會科學(xué)領(lǐng)域,甚至在任何科學(xué)領(lǐng)域,都必須尊重理論,從事理論的學(xué)者與從事經(jīng)驗研究的學(xué)者,都是必不可少的。大數(shù)據(jù)革命在經(jīng)驗研究方面不管取得如何大的成績,都無法降低理論研究對于我們社會科學(xué)研究的意義和價值。[23]
(二)處理好大數(shù)據(jù)與小數(shù)據(jù)之間的關(guān)系
在大數(shù)據(jù)時代,傳統(tǒng)的小數(shù)據(jù)仍然具有不可或缺的價值。[24]相對于大數(shù)據(jù),小數(shù)據(jù)的優(yōu)點仍然非常明顯,比如變量定義清晰、數(shù)據(jù)生成機制可控、檢驗評估成本較低等。最重要的是,小樣本數(shù)據(jù)對于可能推論的研究總體具有比較明確的認知,從而可以對社會現(xiàn)象之間的因果關(guān)系具有更好的判斷。大數(shù)據(jù)雖然具有收集快速、數(shù)據(jù)顆粒更細、數(shù)據(jù)總體量巨大等優(yōu)點,但由于大數(shù)據(jù)通常并不是通過專門的理論設(shè)計和測量工具產(chǎn)生,而多數(shù)是政府部門和企業(yè)的業(yè)務(wù)流程數(shù)據(jù)沉淀而來,所以雖然其規(guī)模巨大,但其樣本的代表性往往是有偏的。
雖然大數(shù)據(jù)的規(guī)模往往很大,但是,在很多時候大數(shù)據(jù)并不是“全數(shù)據(jù)”,比如網(wǎng)絡(luò)用戶并不能包括全部人口。在上述對于“谷歌流感趨勢”的研究中,谷歌做出錯誤判斷的一個重要原因就是忽略了樣本可能存在的偏誤,從而得出了錯誤的推論。一個有偏的樣本,不管其規(guī)模多大,對于我們做出預(yù)測都沒有真正的幫助。一個最著名的例子來自1936年美國總統(tǒng)大選的預(yù)測。當(dāng)時,為了提前進行總統(tǒng)大選結(jié)果的預(yù)測,《文學(xué)文摘》雜志給自己的讀者群寄出了1000萬份的調(diào)查問卷,但因為沒有考慮到雜志訂閱群體在美國總體選民中并不是一個代表性樣本,所以在這次預(yù)測中,《文學(xué)文摘》慘敗給蓋勒普公司,而后者使用了一個具有代表性的樣本,規(guī)模僅為5000。
最近也有學(xué)者提出,雖然大數(shù)據(jù)的有偏性備受質(zhì)疑,但學(xué)者們可以充分利用大數(shù)據(jù)的有偏性,重點關(guān)注特定人群(如經(jīng)常使用公交卡系統(tǒng)出行的低收入人群)、局部人群(如數(shù)據(jù)更易獲得的大學(xué)生群體),期待與其他有偏的數(shù)據(jù)互補,慢慢將特定研究領(lǐng)域的拼圖補齊。[25]
大數(shù)據(jù)和小數(shù)據(jù)的關(guān)系如果處理得當(dāng),可以彼此取長補短。在一項關(guān)于時間利用的調(diào)查中,研究者發(fā)現(xiàn),大數(shù)據(jù)的引入可以有效彌補小數(shù)據(jù)收集信息不全的弊端,為傳統(tǒng)調(diào)查提供了新的數(shù)據(jù)收集方式;通過可移動穿戴設(shè)備,可以在第一時間獲取受訪者的時間利用情況;此外,互聯(lián)網(wǎng)提供的關(guān)于時間利用的相關(guān)記錄可以作為調(diào)查數(shù)據(jù)來源的一個重要組成部分。[26]
(三)大數(shù)據(jù)需要新的研究技能與團隊合作
在大數(shù)據(jù)時代,由于新的數(shù)據(jù)來源和分析方法快速發(fā)展,對于任何一個作為個體的研究者來說,完全掌握快速發(fā)展的新技能都成為一項不可能的任務(wù)。僅就數(shù)據(jù)采集來說,就涉及編程、數(shù)據(jù)庫、網(wǎng)絡(luò)傳輸、文本解析甚至分布式計算等等各種技術(shù)環(huán)節(jié),這些技術(shù)對于社會學(xué)研究者提出了新的技術(shù)要求。至于在分析階段,一些新近發(fā)展出來的模型,如主體建模、文本分析、深度學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)建模等等,都將進入社會學(xué)研究者的視野。對于層出不窮的分析軟件,也沒有人能夠完全精通。比如現(xiàn)在應(yīng)用越來越廣泛的R軟件,已經(jīng)有超過5000多個包(package)在其鏡像網(wǎng)站(CRAN)上面發(fā)布,而且每天都會有基于新模型、新算法的包(package)加入進來。
在這種情況下,社會學(xué)需要積極調(diào)整,才能緊跟發(fā)展趨勢,而不會成為被淘汰的學(xué)科。首先,要鼓勵年輕學(xué)者持有一種開放的心態(tài),對于一些傳統(tǒng)上屬于自然學(xué)科的知識技能,如網(wǎng)絡(luò)爬蟲技術(shù)、網(wǎng)頁分析技術(shù)等,也能有一定的了解和掌握,只有這樣,才能將其他學(xué)科中一些有益的學(xué)術(shù)熱點納入社會學(xué)的分析中。其次,要鼓勵團隊合作,在大數(shù)據(jù)時代,單個研究者掌握所有的技能是不現(xiàn)實的,只有通過社會學(xué)研究社群的合作,才有可能跟上這種發(fā)展趨勢。整個學(xué)科的評價標(biāo)準(zhǔn)應(yīng)該鼓勵多人合作,在高校與科研院所的科研管理和職稱評定中應(yīng)該承認多人合作的貢獻。再次,要調(diào)整我們傳統(tǒng)的人才培養(yǎng)體系。面對大數(shù)據(jù)的發(fā)展趨勢,突破傳統(tǒng)的學(xué)科培養(yǎng)人才體系,培養(yǎng)具有交叉學(xué)科分析能力的研究者。在傳統(tǒng)的課程體系外,如何將大數(shù)據(jù)時代需要的一些技能納入人才培養(yǎng)體系,是一個長期、艱巨,而又刻不容緩的任務(wù)。
社會學(xué)界對于大數(shù)據(jù)的應(yīng)用和發(fā)展前景產(chǎn)生了較大的分歧。有學(xué)者為大數(shù)據(jù)的發(fā)展歡欣鼓舞,認為這是產(chǎn)生一種新研究范式的萌芽;也有學(xué)者對大數(shù)據(jù)不以為然,認為這種對新技術(shù)的過度崇拜只是某些學(xué)者的獵奇而已,終為曇花一現(xiàn)。這種爭論,對于一個學(xué)科的發(fā)展,是必不可少的,只有在真正的學(xué)術(shù)爭論中,一個學(xué)科才可能獲得實質(zhì)性的發(fā)展。
本文認為,面對大數(shù)據(jù)對社會學(xué)研究帶來的挑戰(zhàn)與機遇,社會學(xué)的研究者應(yīng)該敞開雙臂,用一種開放的心態(tài)來對待這一新生事物,并利用大數(shù)據(jù)的優(yōu)勢,促進自己學(xué)科的實質(zhì)發(fā)展,而不僅僅將之視為一種數(shù)據(jù)玩具。當(dāng)然,要實現(xiàn)這一點,需要無數(shù)學(xué)人進行大量的實證研究,從理論、議題、方法、技術(shù)等每個方面來推進這一領(lǐng)域的研究,而非僅僅停留在哲學(xué)思辨與邏輯辯論層面。
注釋:
[1]Gary King,“Ensuring the Data Rich Future of the Social Sciences”,Science, vol.331(2011),pp.719-721.
[2]阿萊克斯·彭特蘭:《智慧社會》,汪小帆、汪容譯,杭州:浙江人民出版社,2015年。
[3]邊燕杰、張文宏:《經(jīng)濟體制、社會網(wǎng)絡(luò)與職業(yè)流動》,《中國社會科學(xué)》2001年第2期;邊燕杰、Ronald Breiger、Deborah Davis、Joseph Galaskiewicz、伊洪:《中國城市的職業(yè)、階層和關(guān)系網(wǎng)》,《開放時代》2005年第4期;邊燕杰、張文宏、程誠:《求職過程的社會網(wǎng)絡(luò)模型:檢驗關(guān)系效應(yīng)假設(shè)》,《社會》2012年第3期。
[4]彭建平:《員工社會網(wǎng)絡(luò)結(jié)構(gòu)特征對關(guān)系績效影響的比較研究——基于中外兩個研發(fā)事業(yè)部員工整體社會網(wǎng)分析》,《社會》2011年第4期;孫秀林、陳華珊:《1940年代蘇南地區(qū)借貸市場的網(wǎng)絡(luò)分析》,《學(xué)術(shù)研究》2015年第1期。
[5]David Lazer,Alex Pentland, Lada Adamic,Sinan Aral, Albert-Laszlo Barabasi, Devon Brewer,Nicholas Christakis, et al., “Computational Social Science”, Science, vol.323(2009), pp.721-723.
[6]黃榮貴、張濤甫、桂勇:《抗?fàn)幮畔⒃诨ヂ?lián)網(wǎng)上的傳播結(jié)構(gòu)及其影響因素——基于業(yè)主論壇的經(jīng)驗研究》,《新聞與傳播研究》2011年第2期;黃榮貴、桂勇:《為什么跨小區(qū)的業(yè)主組織聯(lián)盟存在差異 ——一項基于治理結(jié)構(gòu)與政治機會(威脅)的城市比較分析》,《社會》2013年第5期。
[7]陳華珊:《虛擬社區(qū)是否增進社區(qū)在線參與?——一個基于日常觀測數(shù)據(jù)的社會網(wǎng)絡(luò)分析案例》,《社會》2015年第5期。
[8]楊張博、高山行、劉小花:《近朱者赤:基于社會網(wǎng)絡(luò)分析方法的歸國者跨國社會資本轉(zhuǎn)移研究》,《社會》2015年第4期。
[9]A.Oboler, L.Cruz, K.Welsh, “The Danger of Big Data: Social Media as Computational Social Science”, First Monday, vol.17, no.7(2012).
[10]J.W.Patty,E.M.Penn, “Analyzing Big Data: Social Choice and Measurement”, Political Science & Politics, vol.48, no.1(2015), pp.95-101.
[11]A.Vinay, V.S.Shekhar, J.Rituparna, et al., “Cloud Based Big Data Analytics Framework for Face Recognition in Social Networks Using Machine Learning”,Procedia Computer Science, vol.50(2015),pp.623-630.
[12]鄧波、張玉超、金松昌、林旺群:《基于MapReduce并行架構(gòu)的大數(shù)據(jù)社會網(wǎng)絡(luò)社團挖掘方法》,《計算機研究與發(fā)展》2013年第2期。
[13]孫秀林:《城市研究中的空間分析》,《新視野》2015年第1期。
[14]龍瀛、張宇、崔承?。骸独霉凰⒖〝?shù)據(jù)分析北京職住關(guān)系和通勤出行》,《地理學(xué)報》2012年第10期。
[15]安東尼·湯森:《智慧城市——大數(shù)互聯(lián)網(wǎng)時代的城市未來》,賽迪研究院專家組譯,北京:中信出版社,2014年。
[16]J.Ginsberg, M.H.Mohebbi,R.S.Patel, et al.,“Detecting Influenza Epidemics Using Search Engine Query Data”,Nature, Vol.457(2009), pp.1012-1014.
[17]孫秀林:《社會科學(xué)中的空間分析:概念、技術(shù)和應(yīng)用實例》,《山東社會科學(xué)》2015年第8期。
[18]具體的例子,詳見:Robert M.Bond,Christopher J.Fariss, Jason J.Jones, Adam D.I.Kramer, Cameron Marlow, Jaime E.Settle & James H.Fowler, “A 61-million-person Experiment in Social Influence and Political Mobilization”, Nature,Vol.489(2012), pp.295-298;Gary King,Jennifer Pan and Margaret E.Roberts, “How Censorship in China Allows Government Criticism but Silences Collective Expression”, American Political Science Review, Vol.107, no.2 (2013), pp.1-18; Gary King, Jennifer Pan and Margaret E.Roberts,“Reverse-engineering Censorship in China: Randomized Experimentation and Participant Observation”, Science Vol.345(2014), pp.1-10.
[19]卜玉梅 :《虛擬民族志:田野、方法與倫理》,《社會學(xué)研究》2012年第6期;卜玉梅:《從在線到離線:基于互聯(lián)網(wǎng)的集體行動的形成及其影響因素——以反建X餐廚垃圾站運動為例》,《社會》2015年第5期。
[20]孟小峰、李勇、祝建華:《社會計算:大數(shù)據(jù)時代的機遇與挑戰(zhàn)》,《計算機研究與發(fā)展》 2013年第12期;C.Cioffi-Revilla,“Computational Social Science”,Wiley Interdisciplinary Reviews: Computational Statistics, Vol.2, no.3 (2010), pp.259-271.
[21]羅瑋、羅教講:《新計算社會學(xué):大數(shù)據(jù)時代的社會學(xué)研究》,《社會學(xué)研究》2015年第3期。
[22]David Lazer, Ryan Kennedy, Gary King,Alessandro Vespignani, “The Parable of Google Flu:Traps in Big Data Analysis”,Science, Vol.343 (2014), pp.1203-1205.
[23]Gary King,“Restructuring the Social Sciences: Reflections from Harvard's Institute for Quantitative Social Science”, Political Science and Politics, vol.47, no.1(2014), pp.165-172.
[24]沈艷:《大數(shù)據(jù)分析的光榮與陷阱——從谷歌流感趨勢談起》,2015年10 月27日,http://www.nsd.edu.cn/teachers/ professorNews/2015/1027/24272.html?from=timeline &isappinstalled=0,2016年3月25日。
[25]龍瀛:《新數(shù)據(jù)境下的城市研究、規(guī)劃與設(shè)計》,《城市規(guī)劃學(xué)刊》2015年第3期。
[26]蔣萍、馬雪嬌:《大數(shù)據(jù)背景下中國時間利用調(diào)查方案的改革與完善》,《統(tǒng)計研究》2014年第8期。
責(zé)任編輯 劉秀秀
作者簡介:孫秀林,上海大學(xué)社會學(xué)院教授,上海市,200444;施潤華,上海大學(xué)社會學(xué)院研究生,上海市,200444。
基金項目:國家社會科學(xué)基金項目“我國新社會群體研究”(14BSH026)
中圖分類號:C91-03
文獻標(biāo)識碼:A
文章編號:1006-0138(2016)03-0036-06