唐 文 方
大數(shù)據(jù)與小數(shù)據(jù):社會(huì)科學(xué)研究方法的探討*
唐 文 方
大數(shù)據(jù)時(shí)代的到來使得學(xué)界興奮不已,傳統(tǒng)的小數(shù)據(jù)研究似乎一下子變得微不足道。雖然大數(shù)據(jù)有著諸多的優(yōu)勢(shì),但在短時(shí)間內(nèi)無法取代抽樣調(diào)查和實(shí)驗(yàn)研究等小數(shù)據(jù)研究在社會(huì)科學(xué)中的地位,原因在于技術(shù)發(fā)展的限制、社會(huì)科學(xué)研究的特點(diǎn)和人類社會(huì)的復(fù)雜性。最好的解決辦法是多種方法的結(jié)合,但要做到這一點(diǎn),研究人員必須首先了解什么樣的方法能解決什么樣的問題。
大數(shù)據(jù); 抽樣調(diào)查; 實(shí)驗(yàn)研究; 公共治理; 小數(shù)據(jù)
隨著互聯(lián)網(wǎng)的普及,信息總量正以空前的速度爆炸性增長(zhǎng),人類社會(huì)進(jìn)入了一個(gè)可以用“BB”(brontobyte,千億億億字節(jié))為單位的數(shù)據(jù)信息新時(shí)代,即大數(shù)據(jù)時(shí)代*現(xiàn)有的電子數(shù)據(jù)的計(jì)量單位為B,KB,MB,GB,TB,PB,EB,ZB,YB;1B (Byte字節(jié))=8b(bit位),1KB(Kilobyte千字節(jié))=1024B,1MB(Megabyte 兆字節(jié),簡(jiǎn)稱兆)=1024KB,1GB(Gigabyte吉字節(jié),又稱千兆)=1024MB,1TB(Trillionbyte萬億字節(jié)太字節(jié))=1024GB,1PB(Petabyte千萬億字節(jié)拍字節(jié))=1024TB,1EB(Exabyte百億億字節(jié)艾字節(jié))=1024PB,1ZB(Zettabyte十萬億億字節(jié)澤字節(jié))= 1024 EB,1YB (Yottabyte一億億億字節(jié)堯字節(jié))= 1024 ZB,1BB(Brontobyte 一千億億億字節(jié))= 1024YB。。從社會(huì)科學(xué)研究的角度來看,大數(shù)據(jù)是指巨大而多樣化的數(shù)據(jù)集(Armah,2013),是對(duì)全世界每一個(gè)人所做的每一件事的即時(shí)記錄。大數(shù)據(jù)在網(wǎng)絡(luò)時(shí)代正在成為可能,人們生活中的每一個(gè)空間正在越來越多地成為網(wǎng)絡(luò)空間(Graham and Dutton,2014),例如分居不同地點(diǎn)的家人和朋友可以通過網(wǎng)絡(luò)視頻進(jìn)行24小時(shí)的免費(fèi)連接,購物、理財(cái)、銀行業(yè)務(wù)、工作、娛樂、信息的獲取都是通過網(wǎng)絡(luò)來實(shí)現(xiàn),而這些“cyber”行為都會(huì)留下“digital footprint”,也就是說大量的信息數(shù)據(jù) (Mayer-Schonberger and Cukier,2013)。而在網(wǎng)絡(luò)時(shí)代之前,這些以往物理意義上的行為很難被觀察、測(cè)量和記錄下來。試想,如果全世界每一個(gè)人的生命全過程和每一天24小時(shí)的所作所為都被以圖像、文字、視頻或音頻的方式記錄下來并且匯總到計(jì)算機(jī)上,那么現(xiàn)有的數(shù)量詞就已經(jīng)無法形容其量之大,恐怕要?jiǎng)?chuàng)造新的量詞了,這就是所謂的“大數(shù)據(jù)”。
在政治社會(huì)科學(xué)研究領(lǐng)域,大數(shù)據(jù)可以提供大量的寶貴信息(Galderisi,2015),例如網(wǎng)路媒體中民眾政治意見的表達(dá)、政治信息的傳播和獲取、社會(huì)動(dòng)員與社會(huì)網(wǎng)絡(luò)聯(lián)絡(luò)(Lohr, 2012; Cantijoch、Gibson and Ward,2014),選舉動(dòng)員、競(jìng)選宣傳、選民投票、社會(huì)運(yùn)動(dòng)與群體行為的產(chǎn)生和發(fā)展,以及政府與民眾的互動(dòng)、公共政策的制定等等。有人認(rèn)為,美國(guó)總統(tǒng)奧巴馬2012年的競(jìng)選期間,就是利用了Twitter中的大數(shù)據(jù)來分析選民的動(dòng)態(tài),從而制定了正確的選舉策略,并成功連任(Lampitt,2014)。
大數(shù)據(jù)的標(biāo)志性優(yōu)勢(shì)是研究者不必?fù)?dān)心數(shù)據(jù)的代表性問題,即,大數(shù)據(jù)試圖展示的是“全數(shù)據(jù)”,同時(shí)可以進(jìn)行“大背景”式的可視化展現(xiàn)。以往,社會(huì)科學(xué)的研究對(duì)象即便是整個(gè)社會(huì)、國(guó)家或人口,由于技術(shù)條件和人力物力的限制,通常只能在總?cè)丝谥谐槿∫粋€(gè)有代表性的樣本(隨機(jī)抽樣),或者在實(shí)驗(yàn)室中對(duì)更小的人群進(jìn)行各種測(cè)試,從而采集研究數(shù)據(jù)。但抽樣調(diào)查無論其樣本多具代表性,仍然免不了有誤差,實(shí)驗(yàn)室的研究對(duì)象更是無法代表整個(gè)人口。大數(shù)據(jù)的出現(xiàn),似乎顛覆性地解決了傳統(tǒng)數(shù)據(jù)不具代表性的問題,因?yàn)榇髷?shù)據(jù)是總?cè)丝诘臄?shù)據(jù),不存在抽樣,因此不存在誤差的問題。例如,研究者可以對(duì)CCTV《新聞聯(lián)播》全年的節(jié)目進(jìn)行全文本的分析,由此生成年度出現(xiàn)詞頻最高的詞語,從而對(duì)特定時(shí)期的中國(guó)政治語境做出全面的描述。
大數(shù)據(jù)的顯著優(yōu)勢(shì)是可以從大海里撈針——也就是海量數(shù)據(jù)的檢索功能。從理論上說,大數(shù)據(jù)試圖收集的是全體人口的信息。由于計(jì)算機(jī)技術(shù)的高度發(fā)達(dá),研究者可以在很短的時(shí)間內(nèi)處理海量信息,包括整個(gè)人口的銀行轉(zhuǎn)賬、ATM機(jī)的使用、電話通訊、商店購物等等,從而鑒別個(gè)別人的非正常行為,這對(duì)防止恐怖主義等對(duì)人類社會(huì)危害極大但又比較罕見的行為會(huì)起到很好的效果(Akhgar etal.,2015)。此外,大數(shù)據(jù)大海撈針的功能還可以使研究者搜尋具有某種特征但是數(shù)量相對(duì)稀少并且地域分布廣泛的特定人群,例如有吸煙歷史的艾滋病女性患者。
在處理海量信息的過程中,大數(shù)據(jù)還可以揭示出一些被忽視的相關(guān)聯(lián)系。例如,通過對(duì)《新聞聯(lián)播》海量信息的處理,研究者不僅可以發(fā)現(xiàn)不同關(guān)鍵詞出現(xiàn)的頻率,還可以發(fā)現(xiàn)這些關(guān)鍵詞之間的相互聯(lián)系,可以在成百上千的關(guān)鍵詞之間建立一個(gè)語義網(wǎng)絡(luò)圖(邵、張,2015;孟、郭,2015),從而讓我們十分清晰地發(fā)現(xiàn)各個(gè)關(guān)鍵詞之間的關(guān)系。
最后,大數(shù)據(jù)的另一個(gè)優(yōu)點(diǎn)是可以避免社會(huì)調(diào)查中的敏感問題。例如,社會(huì)調(diào)查中經(jīng)常會(huì)遇到諸如訪問色情網(wǎng)站、墮胎、使用翻墻軟件、購買盜版光盤、逃稅漏稅等等,受訪人常常不會(huì)如實(shí)回答;但在大數(shù)據(jù)中,人們“難以啟齒”的這些信息可以通過特有的技術(shù)手段,諸如用瀏覽器的cookie統(tǒng)計(jì)出來。
姑且不談大數(shù)據(jù)在挖掘、收集和分析上的困難,即使我們通過日益完善的科學(xué)技術(shù),可以收集到每個(gè)人的每個(gè)行為,并且有足夠的計(jì)算能力來分析這些數(shù)據(jù),大數(shù)據(jù)還是會(huì)面臨諸多問題:
第一,大數(shù)據(jù)并不是在所有時(shí)候都是“全數(shù)據(jù)”。大數(shù)據(jù)有些時(shí)候收集的是總?cè)丝诘男畔ⅲ皇窍癯闃诱{(diào)查那樣依靠隨機(jī)樣本,例如人口普查。然而,在公共管理和決策研究中,人們?cè)絹碓蕉嗟乩萌说木W(wǎng)絡(luò)行為而產(chǎn)生的“大數(shù)據(jù)”來分析民意,但網(wǎng)絡(luò)用戶并不是全部人口。雖然網(wǎng)絡(luò)用戶在人口中的百分比正在迅速增長(zhǎng),但遠(yuǎn)非百分之百。例如,在2012年的世界價(jià)值觀中國(guó)部分的調(diào)查中,只有40%的受訪者通過網(wǎng)絡(luò)獲取政治社會(huì)新聞信息,而通過電視獲取同樣信息的比例則高達(dá)88%;這40%的人更不是能代表中國(guó)人口的群體,他們具有高學(xué)歷、低年齡和白領(lǐng)階層的顯著特征(Tang、Zhang and Martin,2015)。顯然,如果用這一群體的網(wǎng)絡(luò)行為來推算中國(guó)人口的信息攝取偏好和民眾意見的分布,就很有可能出現(xiàn)偏差。在上述例子中,那60%才是“沉默的大多數(shù)”。再如,有人用上網(wǎng)人群來推斷中國(guó)民眾中自由派和保守派的意識(shí)形態(tài)分布。雖然其樣本高達(dá)17萬網(wǎng)絡(luò)用戶,但這些人大多數(shù)是北、上、廣的高學(xué)歷、低年齡的白領(lǐng)階層(Forsythe,2015)。用這些上網(wǎng)人群去推斷總體人口的意識(shí)形態(tài)分布,顯然是站不住腳的。
第二,大數(shù)據(jù)并不是大家都可以用。絕大多數(shù)的大數(shù)據(jù)推崇者認(rèn)為它是比較容易得到的,因?yàn)榇髷?shù)據(jù)是公開、透明的。的確,在有些情況下大數(shù)據(jù)是可以得到的,例如一些政府網(wǎng)站為了提高信息透明度而公布的數(shù)據(jù),然而在很多其他方面,大數(shù)據(jù)涉及個(gè)人的隱私、商業(yè)機(jī)密或國(guó)家安全(Rahman and Ramos,2013;Webb,2015),因此不光有侵犯?jìng)€(gè)人隱私的道德問題要處理,更重要的是根本無法得到許多涉及商業(yè)或政府行為的數(shù)據(jù),即便是某個(gè)研究者通過個(gè)人渠道獲取了此類信息,也只能做自己的項(xiàng)目,無法共享。無法共享就說明你的結(jié)果無法被別人驗(yàn)證,因此不具權(quán)威性、可信性。此外,研究人員如果只能依靠政府公布的大數(shù)據(jù)來尋找研究題目,而無法根據(jù)本領(lǐng)域理論和現(xiàn)實(shí)的需要來設(shè)計(jì)研究計(jì)劃,將會(huì)大大限制社會(huì)科學(xué)研究的發(fā)展。大數(shù)據(jù)的可用性將是長(zhǎng)期存在的問題,不會(huì)因?yàn)槭占瘮?shù)據(jù)的科技手段的提高而消失,并對(duì)大數(shù)據(jù)的廣泛使用產(chǎn)生很大的局限性。
第三,大數(shù)據(jù)并不意味著數(shù)據(jù)的多樣化。大數(shù)據(jù)的支持者認(rèn)為,大數(shù)據(jù)時(shí)代的特點(diǎn)不僅僅是數(shù)據(jù)量上的龐大,還具有數(shù)據(jù)種類來源多的特點(diǎn)(Armah,2013)。這是因?yàn)槿绻藗兩钪袑?duì)網(wǎng)絡(luò)的依靠越來越多,那么人們生活的各個(gè)方面,包括工作、家庭、社會(huì)生活、經(jīng)濟(jì)生活、政治行為等等都會(huì)被記錄下來,從而使數(shù)據(jù)變得多樣化。然而,大數(shù)據(jù)無論有多么全面,它只能記錄人的行為,卻不能確切描述人的思維。在社會(huì)科學(xué)研究中,很多時(shí)候研究的關(guān)注點(diǎn)是人的主觀態(tài)度和價(jià)值觀,例如人際信任、社會(huì)公平觀、政治效能感、民族主義情緒等等。這些概念都是社會(huì)科學(xué)關(guān)注的重要理論問題(因變量),也是社會(huì)現(xiàn)象和個(gè)人行為的重要解釋變量(自變量),但是大數(shù)據(jù)在測(cè)量這些主觀態(tài)度方面卻顯得有些力不從心(Rahman and Ramos,2013)??赡苡腥藭?huì)說:網(wǎng)絡(luò)評(píng)論不是也可以反映人們的態(tài)度嗎?但是,如上所述,網(wǎng)絡(luò)意見的問題在于網(wǎng)絡(luò)用戶是一個(gè)特定的人群(高學(xué)歷、低年齡的白領(lǐng)),他們的意見不具普遍性。況且,網(wǎng)絡(luò)表達(dá)意見的范圍是有限的,常常是就事論事,無法涵蓋社會(huì)科學(xué)中關(guān)心的其他理論問題。
第四,大數(shù)據(jù)重相關(guān)而輕因果(梁,2015;孟、郭,2015)。大數(shù)據(jù)有些時(shí)候可以通過數(shù)據(jù)在時(shí)間上的先后來描述各種現(xiàn)象之間的因果關(guān)系,例如日本官員參拜靖國(guó)神社導(dǎo)致中國(guó)網(wǎng)民的憤怒和民族主義情緒的上漲,食品安全隱患導(dǎo)致民眾對(duì)廠商誠信度評(píng)估的下降,節(jié)日使得民眾的消費(fèi)水平上升等等。但在很多其他問題中,大數(shù)據(jù)卻無法確切地建立變量之間的因果關(guān)系,有時(shí)候甚至?xí)?dǎo)致虛假的因果關(guān)系。例如,如果研究者發(fā)現(xiàn)在一個(gè)大數(shù)據(jù)庫中,冰淇淋的銷量與群體事件之間有很強(qiáng)的相關(guān)系數(shù),因此得出結(jié)論說吃冰淇淋會(huì)導(dǎo)致群體事件,這顯然是有問題的,起碼是很勉強(qiáng)的結(jié)論。在大數(shù)據(jù)庫中,由于數(shù)據(jù)量龐大,通常很容易得出統(tǒng)計(jì)意義上顯著的回歸系數(shù),但這并不意味著兩個(gè)變量之間存在因果關(guān)系 (Marcus and Davis,2014)。
第五,大數(shù)據(jù)特別是以網(wǎng)絡(luò)為基礎(chǔ)的大數(shù)據(jù)不能準(zhǔn)確反映人的社會(huì)政治行為。原因有三:首先,有些人認(rèn)為,基于網(wǎng)絡(luò)社交媒體而收集的大數(shù)據(jù)可以用來預(yù)測(cè)社會(huì)運(yùn)動(dòng)等社會(huì)政治行為。例如在“阿拉伯之春”期間,人們成功地運(yùn)用社交媒體建立了社會(huì)網(wǎng)絡(luò),并利用此網(wǎng)絡(luò)表達(dá)和宣傳革命理念,最終成功地組織和發(fā)動(dòng)了一場(chǎng)社會(huì)革命。然而,大數(shù)據(jù)無法回答的問題是:同樣有社交網(wǎng)絡(luò)和網(wǎng)絡(luò)意見表達(dá)的國(guó)家中,為什么有些發(fā)動(dòng)了成功的社會(huì)變革(例如突尼斯),而有些卻沒有(例如埃及)?顯然,網(wǎng)絡(luò)行為不是社會(huì)運(yùn)動(dòng)成功與否的決定因素。人與人面對(duì)面的互動(dòng)以及在社會(huì)組織和環(huán)境(例如教會(huì)、工作場(chǎng)所、社區(qū)等等)中產(chǎn)生的“強(qiáng)聯(lián)系”(strong tie),才是社會(huì)運(yùn)動(dòng)產(chǎn)生的更重要原因。大數(shù)據(jù)所能檢測(cè)到的網(wǎng)絡(luò)聯(lián)系,只是一種“弱聯(lián)系”(weak tie),不足以來預(yù)測(cè)諸如社會(huì)抗?fàn)庍@一類高風(fēng)險(xiǎn)的社會(huì)行為(Gladwell,2010)。其次,大數(shù)據(jù)無法反映言行不一這一問題。例如,在對(duì)上述《新聞聯(lián)播》2013年內(nèi)容的分析中,“美國(guó)”并未成為顯著的關(guān)鍵詞。這與人們的政治常識(shí)不一致,可能是節(jié)目編排、時(shí)段安排、宣傳的目的造成的。最后,大數(shù)據(jù)分析中研究人員的主觀因素會(huì)導(dǎo)致分析結(jié)果的誤差。目前對(duì)大數(shù)據(jù)的分析,很多是對(duì)大數(shù)據(jù)的內(nèi)容進(jìn)行歸納分類,從而得出有關(guān)數(shù)據(jù)中的各種趨勢(shì)的結(jié)論。例如,研究者可以對(duì)某一事件的所有微博留言進(jìn)行分類,從而得出公眾對(duì)此事件的看法(King、Pan and Roberts,2013)。然而,不同研究人員對(duì)不同的留言可能有不同的理解,因此對(duì)留言的編碼也會(huì)不同,從而使研究的結(jié)論發(fā)生變化。換句話說,大數(shù)據(jù)中的趨勢(shì)并不是大數(shù)據(jù)自身固有的,而是會(huì)受到研究人員主觀因素的影響。
從上面的論述中,我們既看到了大數(shù)據(jù)的新奇與優(yōu)勢(shì),也看到了大數(shù)據(jù)并非全能。事實(shí)上,大數(shù)據(jù)無法取代以抽樣調(diào)查和實(shí)驗(yàn)研究為代表的傳統(tǒng)的“小數(shù)據(jù)”研究,兩者的關(guān)系是相輔相成的。
首先,大數(shù)據(jù)只能被動(dòng)地挖掘、收集已經(jīng)客觀發(fā)生了的行為信息,而抽樣調(diào)查和實(shí)驗(yàn)研究則可以“制造”數(shù)據(jù)。例如,在小數(shù)據(jù)研究中,研究人員可以根據(jù)自己的理論需求設(shè)計(jì)問卷,并測(cè)量受訪人對(duì)不同問題的看法和態(tài)度;而大數(shù)據(jù)只能局限于每個(gè)人對(duì)一個(gè)固定事件已經(jīng)表達(dá)的意見。此外,小數(shù)據(jù)研究不僅能收集已經(jīng)發(fā)生的事情的數(shù)據(jù),還可以收集并未發(fā)生、或發(fā)生幾率渺茫的事件信息,比如通過情景設(shè)置的方式或?qū)嶒?yàn)的方法來檢驗(yàn)受訪者在假設(shè)情景中可能的態(tài)度和行為,這顯然是大數(shù)據(jù)研究很難做到的。再者,小數(shù)據(jù)在收集受訪人觀念、態(tài)度和行為方面數(shù)據(jù)的同時(shí),還可以收集他們各方面的個(gè)人基本信息,例如家庭、工作、收入、政治面目、宗教信仰等等,這些信息為解釋受訪人的其他行為和觀念提供了更多的可能性;而大數(shù)據(jù)研究無法根據(jù)研究者的需要來收集個(gè)人信息。從這個(gè)意義上說,小數(shù)據(jù)比大數(shù)據(jù)更適合進(jìn)行具有理論意義和理論突破的研究。
其次,抽樣調(diào)查的樣本在特定情況下比某些“大數(shù)據(jù)”更具有代表性。所謂抽樣調(diào)查,就是以總?cè)丝跒榛A(chǔ),用科學(xué)的方法,隨機(jī)抽取樣本。好的隨機(jī)樣本應(yīng)該符合總?cè)丝诘幕咎卣鳎缧詣e、年齡、教育程度和地區(qū)的分布等等。而通過網(wǎng)絡(luò)收集的“大數(shù)據(jù)”,無論數(shù)量上再龐大,也不過是總?cè)丝谥械囊粋€(gè)特定群體,即網(wǎng)絡(luò)用戶。如前所述,這一群體通常是低年齡、高學(xué)歷的白領(lǐng)階層,哪怕他們有成千上萬甚至上億的數(shù)量,他們的意見仍然不能代表總?cè)丝?。往往只有幾千人的隨機(jī)抽樣的樣本,雖然具有一定的誤差,但研究者可以通過數(shù)學(xué)、統(tǒng)計(jì)方法來估算和減少誤差,至少使得抽樣數(shù)據(jù)接近理論上所講是代表總?cè)丝诘?。因此這些人所表達(dá)的意見,比大數(shù)據(jù)更具有普遍性。
第三,小數(shù)據(jù)研究在因果關(guān)系的分析上別有特點(diǎn)。大數(shù)據(jù)雖然可以通過網(wǎng)民對(duì)某一事件的反應(yīng)來確定此事件和公眾態(tài)度的因果關(guān)系,但卻無法確定這兩者之間是否有中介變量,比如說不同年齡、學(xué)歷或職業(yè)的區(qū)別,而這在小數(shù)據(jù)研究中卻很容易做到。在很多數(shù)情況下,大數(shù)據(jù)中只存在相關(guān)性,而不是因果關(guān)系,比如前面所舉的冰淇淋和群體事件的例子,數(shù)據(jù)中無法確定是吃了冰淇淋才去參加群體事件還是群體事件導(dǎo)致冰淇淋銷量上升。在這方面,近年來社會(huì)科學(xué)中越來越流行的實(shí)驗(yàn)研究有著獨(dú)一無二的作用。研究人員可以在實(shí)驗(yàn)室中對(duì)受訪人加入一定的實(shí)驗(yàn)條件,然后觀測(cè)受訪人是否受到實(shí)驗(yàn)條件的影響,從而確定實(shí)驗(yàn)條件與受訪人態(tài)度或行為之間的因果關(guān)系(例如通過觀看環(huán)境公益廣告來確定受訪人環(huán)保意識(shí)的變化)。實(shí)驗(yàn)研究的一個(gè)問題是受訪人一般數(shù)量很少,不具代表性。為了解決這個(gè)問題,近年來,人們開始將實(shí)驗(yàn)研究植入到抽樣調(diào)查中,從而解決了大數(shù)據(jù)研究無法解決的因果關(guān)系和普遍性的雙重問題。
第四,小數(shù)據(jù)能更好地規(guī)避學(xué)術(shù)倫理的問題。大數(shù)據(jù)表面上很容易獲得,網(wǎng)絡(luò)是公共場(chǎng)所,誰都可以去,但現(xiàn)實(shí)并非如此。如果想真正獲得有價(jià)值、可以根據(jù)自己的理論興趣做分析的多變量大數(shù)據(jù),就會(huì)涉及個(gè)人的隱私、商業(yè)或政府的機(jī)密以及個(gè)人權(quán)利、經(jīng)濟(jì)利益和政治敏感性等問題。因此,大數(shù)據(jù)可能永遠(yuǎn)也達(dá)不到其支持者最初設(shè)定的條件,也就是數(shù)據(jù)完全的公開和透明。沒有了這兩個(gè)前提,大數(shù)據(jù)的幻想就很難實(shí)現(xiàn)。相反,抽樣調(diào)查和實(shí)驗(yàn)研究遵循受訪人自愿、匿名的原則,所產(chǎn)生的數(shù)據(jù)的所有權(quán)屬于研究者,使用起來不受其他人的限制。
大數(shù)據(jù)時(shí)代的來臨,表面上打斷了原有的以抽樣調(diào)查和實(shí)驗(yàn)研究為基礎(chǔ)的社會(huì)科學(xué)研究方法的發(fā)展路徑。網(wǎng)絡(luò)的發(fā)展和對(duì)人們生活的不斷滲透,使得大數(shù)據(jù)的挖掘和收集成為可能。大數(shù)據(jù)的特點(diǎn)是它的整體性、即時(shí)性、全面性和數(shù)量上的龐大。在社會(huì)科學(xué)研究中,特別是在公共政策和公共管理的領(lǐng)域中,人們?cè)絹碓蕉嗟乩镁W(wǎng)絡(luò)媒體產(chǎn)生的大數(shù)據(jù)來研究選舉、民意分布、社會(huì)運(yùn)動(dòng)、社會(huì)網(wǎng)絡(luò)、政治動(dòng)員以及恐怖組織的形成和發(fā)展等等重要問題。
但是,大數(shù)據(jù)不是萬能的,從一開始就包括至少五個(gè)方面的局限性:(1)基于網(wǎng)絡(luò)用戶的“大數(shù)據(jù)”無法代表總體人口的特征;(2)大數(shù)據(jù)由于侵犯?jìng)€(gè)人隱私、涉及經(jīng)濟(jì)利益和國(guó)家安全,而無法實(shí)現(xiàn)徹底的公開和透明;(3)大數(shù)據(jù)無法對(duì)人們的思想狀況的各個(gè)方面做出準(zhǔn)確的描述;(4)大數(shù)據(jù)只能對(duì)人們不同行為的相關(guān)性做出描述,而在多數(shù)情況下無法確立事件之間的因果關(guān)系;(5)大數(shù)據(jù)所基于的行為有時(shí)候無法代表人們?cè)谏鐣?huì)中的真實(shí)行為。
傳統(tǒng)的問卷調(diào)查和實(shí)驗(yàn)研究至少可以從四個(gè)方面彌補(bǔ)大數(shù)據(jù)中的上述不足:(1)抽樣調(diào)查和實(shí)驗(yàn)研究不僅可以被動(dòng)地收集已經(jīng)發(fā)生的數(shù)據(jù),還可以主動(dòng)為研究者“制造”數(shù)據(jù);(2)抽樣調(diào)查的隨機(jī)樣本具備普遍性和人口的代表性,并從多方面收集受訪人的個(gè)人信息,使調(diào)查數(shù)據(jù)更具多樣化;(3)實(shí)驗(yàn)研究可以更準(zhǔn)確地確立各變量之間的因果關(guān)系;(4)抽樣調(diào)查和實(shí)驗(yàn)研究數(shù)據(jù)的所有權(quán)歸研究者,可以隨便使用,而大數(shù)據(jù)的使用則受到多方面的限制。
比較各種方法的優(yōu)劣,得出表1中的結(jié)論。
表1 社會(huì)科學(xué)研究方法性能比較
從長(zhǎng)遠(yuǎn)來看,大數(shù)據(jù)不僅不會(huì)取代小數(shù)據(jù),而且必須依靠小數(shù)據(jù)才能得到發(fā)展。例如,大數(shù)據(jù)可以提供新聞媒體內(nèi)容的語境描述及其歷史變遷,但卻無法呈現(xiàn)新聞媒體對(duì)受眾的影響,受眾研究中必須借助問卷調(diào)查和實(shí)驗(yàn)研究等手段,而問卷調(diào)查和實(shí)驗(yàn)研究則可以借助大數(shù)據(jù)所發(fā)現(xiàn)的關(guān)鍵詞、相關(guān)聯(lián)系等更有針對(duì)性地設(shè)計(jì)問卷和實(shí)驗(yàn)條件。
(本文曾宣讀于中山大學(xué)政治與公共事務(wù)管理學(xué)院認(rèn)知實(shí)驗(yàn)研究工作坊,得到景懷斌、梁玉成、雷敘川等教授的指正;修改過程中,得到北京大學(xué)政府管理學(xué)院博士研究生邵梓捷的幫助。對(duì)此一并致謝。)
Akhgar, Babak, Gregory B. Saathoff, Hamid R. Arabnia, Richard Hill, Andrew Staniforth, and Petra Saskia Bayer. 2015.ApplicationofBigDataforNationalSecurity:APractitioner’sGuidetoEmergingTechnologies, Butterworth-Heinemann.
Armah, Nii Ayi, 2013. Big Data Analysis: The Next Frontier,Bank of Canada Review,Summer, pp. 32—39.(http://www.bankofcanada.ca/wp-content/uploads/2013/08/boc-review-summer13-armah.pdf, accessed April 10, 2015)
Cantijoch, Marta, Rachel Gibson, and Stephen Ward, eds., 2014.AnalyzingSocialMediaDataandWebNetworks, Palgrave Macmillan.
Forsythe, Michael, 2015.Survey Offers Rare Window Into ChinesePolitical Culture,TheNewYorkTimes, April 15.
劉培峰:保護(hù)政策認(rèn)可的傳統(tǒng)工藝是現(xiàn)存的工藝,學(xué)術(shù)研究領(lǐng)域認(rèn)可的傳統(tǒng)工藝可以延伸到已經(jīng)失傳的技術(shù)。可以這樣認(rèn)為么?
Galderisi, Peter. 2015.UnderstandingPoliticalScienceStatistics:ObservationsandExpectationsinPoliticalAnalysis, Routledge.
Gladwell, Malcolm. 2010. Small Change: Why the Revolution will not be Tweeted,NewYorker, October 4.
Graham, Mark and William H. Dutton. 2014.SocietyandtheInternet:HowNetworksofInformationandCommunicationareChangingourLives, Oxford University Press.
King, Gary, Pan, Jennifer and Roberts, Margaret. 2013. How Censorship in China Allows Government Criticism but Silences Collective Expression,AmericanPoliticalScienceReview, Vol. 107, No. 2, May, 326—343.
Lampitt, Andrew. 2014.The real story of how big data analytics helped Obama win,Infoworld, May 31.
Lohr, Steve. 2012. The Age of Big Data,TheNewYorkTimes, Februrary 11.
Marcus, Gary and Davis, Ernest. 2014.Eight (No, Nine!) Problems With Big Data,TheNewYorkTimes, April 6.
Mayer-Schonberger, Viktor and Kenneth Cukier, 2013.BigData:ARevolutionthatWillTransformhowWeLive,Work,andThink, Houghton Mifflin Harcourt.
Rahman, Haklkur, and Isabel Ramos, eds. 2013.EthicalDataMiningApplicationsforSocio-EconomicDevelopment, Idea Group Inc (IGI).
Tang, Wenfang, Zhang, Yang and Martin, Sheri. 2015. Revolution Postponed: The Limitation of the Internet in Promoting Democracy in China,in Shen Wei and Yang Lijun, eds.,TheRisingCivilSocietyandState-SocietyRelationsinChina, New Jersey, London and Singapore: World Scientific (forthcoming).
Webb, Jenn. 2015.The promise and problems of big data,Radar(http://radar.oreilly.com/2015/01/the-promise-and-problems-of-big-data.html, accessed May 2, 2015).
梁玉成.大數(shù)據(jù)不能替代理性思考,社會(huì)科學(xué)報(bào),2015—02—12.
孟天廣,郭鳳林.大數(shù)據(jù)政治學(xué):新信息時(shí)代的政治現(xiàn)象及其探析路徑,國(guó)外理論動(dòng)態(tài),2015,(1):46—56.
邵梓捷,張小勁,孟天廣.政治傳播視角下《新聞聯(lián)播》的宣傳模式分析,清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2015,(3):30—42.
【責(zé)任編輯:楊海文;責(zé)任校對(duì):楊海文,許玉蘭】
2015—04—13
中國(guó)教育部、國(guó)家漢辦孔子學(xué)院獎(jiǎng)學(xué)金
唐文方,美國(guó)愛荷華大學(xué)政治學(xué)與國(guó)際問題研究講座教授(愛荷華52242)。
C03
A
1000-9639(2015)06-0141-06
中山大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2015年6期