沈菲 王天嬌
【內(nèi)容摘要】 本文通過對(duì)比傳統(tǒng)語境與大數(shù)據(jù)語境民意研究的異同,嘗試對(duì)大數(shù)據(jù)民意挖掘的主要路徑和趨勢(shì)進(jìn)行梳理,認(rèn)為,一方面,合理使用大數(shù)據(jù)可以提高政府的民意收集效率、提高政府效率和社會(huì)的開放度;另一方面,過度使用大數(shù)據(jù)榨取商業(yè)價(jià)值,可能會(huì)限制個(gè)體的選擇自由并侵犯?jìng)€(gè)人隱私??傊?,大數(shù)據(jù)是工具,如何使用才是關(guān)鍵。
【關(guān)鍵詞】 民意研究;大數(shù)據(jù);路徑;趨勢(shì)\
一、傳統(tǒng)語境中的民意研究
現(xiàn)代意義上的民意調(diào)查,普遍認(rèn)為可追溯到19世紀(jì)20年代美國總統(tǒng)競(jìng)選期間的“草根調(diào)查”(straw poll)①。早期美國的政黨政治孕育了各黨派內(nèi)部在總統(tǒng)選舉前的投票意愿清點(diǎn)。但各自黨內(nèi)的票數(shù)清點(diǎn),無助于了解對(duì)手的民意支持情況,這就為媒體作為第三方機(jī)構(gòu)介入民調(diào)領(lǐng)域提供了契機(jī)。
1824年,美國特拉華州當(dāng)?shù)氐膬杉覉?bào)紙?jiān)谕柮黝D市展開了總統(tǒng)候選人的喜愛度調(diào)查。②此次調(diào)查的效果雖然并不理想,但它開啟了美國報(bào)業(yè)收集民意、預(yù)測(cè)選舉的時(shí)代。在此后的一個(gè)多世紀(jì)里,美國出現(xiàn)了大量調(diào)研機(jī)構(gòu),包括報(bào)紙、雜志等媒體,參與到政治態(tài)度、選民傾向的調(diào)查中來。③
最廣為人知的民意調(diào)查或許要數(shù)19世紀(jì)二三十年代美國《文學(xué)文摘》雜志對(duì)美國大選的一系列預(yù)測(cè)。當(dāng)時(shí),該雜志秉承“樣本量越大,調(diào)查結(jié)果越準(zhǔn)確”的思路④,按汽車牌照和固定電話記錄中的郵寄地址,給上百萬人郵寄并回收了“模擬選票”?!段膶W(xué)文摘》雜志用這種方法多次成功預(yù)測(cè)了美國總統(tǒng)競(jìng)選結(jié)果,確立了郵寄回收問卷方法在民意研究中的地位。然而,盲目追求大樣本的民意調(diào)研在1936年被證實(shí)存在嚴(yán)重缺陷。
1935年,蓋洛普博士成立了美國民意研究所(即蓋洛普民調(diào)公司的前身),并誓言該所的民意調(diào)查不接受任何利益集團(tuán)的贊助。1936年,《文學(xué)文摘》雜志用200萬張模擬選票預(yù)測(cè)蘭登當(dāng)選總統(tǒng)。蓋洛普則利用配額抽樣法,僅從全國抽取了1000個(gè)樣本就成功預(yù)測(cè)了羅斯福當(dāng)選。⑤《文學(xué)文摘》雜志隨后停刊,而現(xiàn)代民調(diào)漸漸引入抽樣、統(tǒng)計(jì)推斷等概念,進(jìn)入了使用小規(guī)??茖W(xué)抽樣代表性數(shù)據(jù)的時(shí)代。
在過去的大半個(gè)世紀(jì),隨著媒體技術(shù)的發(fā)展,基于問卷和抽樣的民意調(diào)研方法日趨便捷與多元。從早期的入戶面訪和郵寄問卷,到20世紀(jì)70年代中期隨著美國家庭電話擁有量激增而產(chǎn)生的電話調(diào)查⑥,再到計(jì)算機(jī)技術(shù)帶來的各種民調(diào)系統(tǒng),包括計(jì)算機(jī)輔助電話訪問系統(tǒng)(CATI),計(jì)算機(jī)輔助面訪系統(tǒng)(CAPI)、計(jì)算機(jī)輔助自主訪問系統(tǒng)(CASI)和計(jì)算機(jī)輔助網(wǎng)絡(luò)調(diào)查系統(tǒng)(CAWI)等。
問卷電話調(diào)查法對(duì)量化社會(huì)科學(xué)研究做出了巨大貢獻(xiàn),不過這種數(shù)據(jù)收集方式正在受到多方面的挑戰(zhàn)。根據(jù)美國皮尤研究中心的統(tǒng)計(jì),電話調(diào)查的接觸率從1997年的90%下降到2012年的62%,合作率從42%下降到14%,而應(yīng)答率則從36%下降到9%。⑦除了應(yīng)答率的大幅下降直接影響調(diào)查數(shù)據(jù)的質(zhì)量,電話調(diào)查的數(shù)據(jù)收集成本也十分高昂。有研究指出,從2000年到2004年,在愛爾蘭進(jìn)行電話調(diào)查一個(gè)有效樣本的成本已從4.48歐元飆升到15.65歐元。⑧
互聯(lián)網(wǎng)問卷調(diào)研的出現(xiàn),給傳統(tǒng)民調(diào)帶來了新的生機(jī)。網(wǎng)絡(luò)問卷調(diào)研成本低、回收快、資料匯總過程中不易出現(xiàn)人工誤差。特別是在敏感問題的數(shù)據(jù)收集上,網(wǎng)絡(luò)調(diào)研更具優(yōu)勢(shì)??唆斖校↘reuter)等人⑨發(fā)現(xiàn),相較于電話調(diào)查,人們更愿意在填答網(wǎng)絡(luò)問卷時(shí)回答令人尷尬的問題,也更易于承認(rèn)自己做過的社會(huì)不良行為(socially undesirable behavior)。網(wǎng)絡(luò)調(diào)研平臺(tái)還能嵌入多媒體資料,利用后臺(tái)數(shù)據(jù)庫收集填答問卷的行為數(shù)據(jù)。這些功能不僅有助于鑒別問卷填答的質(zhì)量,也可以直接服務(wù)于特定的研究主題。例如,格瑞特(Garrett)和斯特勞德(Stroud)⑩利用網(wǎng)絡(luò)實(shí)驗(yàn),復(fù)現(xiàn)了網(wǎng)民在網(wǎng)絡(luò)新聞接觸過程中的主動(dòng)選擇行為——通過操縱人們“看到”的新聞內(nèi)容,更清楚地了解了選擇性接觸行為及其背后的動(dòng)機(jī)。
網(wǎng)絡(luò)調(diào)查雖然高效,但在樣本和成本兩方面也有其局限性。首先,大量網(wǎng)絡(luò)調(diào)研使用的是方便樣本,即在各種網(wǎng)絡(luò)空間設(shè)置問卷鏈接,等待感興趣及有時(shí)間的網(wǎng)民點(diǎn)擊填答。如此樣本未必符合目標(biāo)人群的人口統(tǒng)計(jì)特征,且樣本框的缺失也使得應(yīng)答率無從計(jì)算。更嚴(yán)謹(jǐn)?shù)淖龇梢允怯袃斀柚鷮I(yè)網(wǎng)絡(luò)調(diào)研網(wǎng)站的樣本庫(如問卷星、SurveyMonkey、SSI等),“配制”出符合特定人口統(tǒng)計(jì)特征的樣本(如性別比例、年齡分布、收入結(jié)構(gòu)等)。但由于此類服務(wù)的費(fèi)用往往隨配制條件的增加和樣本量的擴(kuò)大而提高,因此要得到高質(zhì)量的網(wǎng)絡(luò)調(diào)研樣本,成本依舊不菲。
隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展,存儲(chǔ)、傳輸、處理數(shù)據(jù)的能力和速度與日俱增。今天的數(shù)據(jù)生產(chǎn)速度已經(jīng)遠(yuǎn)遠(yuǎn)超過了人類歷史上的任何時(shí)期。 截至2012年,全球每天生產(chǎn)的數(shù)據(jù)量達(dá)2.5億字節(jié)(billion gigabytes),且當(dāng)時(shí)人類90%的數(shù)據(jù)是在2010-2012年的兩年間產(chǎn)生的。有分析指出,海量數(shù)據(jù)約25%是結(jié)構(gòu)化的,剩下的75%是非結(jié)構(gòu)化的文本、音頻和視頻。人類社會(huì)生活產(chǎn)生的海量數(shù)據(jù)是否在民意研究方面有其價(jià)值?答案是肯定的。傳統(tǒng)的民意調(diào)研機(jī)構(gòu)已經(jīng)開始積極探討和嘗試使用互聯(lián)網(wǎng)社交媒體進(jìn)行民意線索的收集;新興科技企業(yè)則更走在創(chuàng)新的前沿,提出大數(shù)據(jù)環(huán)境下民意研究的新理念。云計(jì)算服務(wù)提供商、大數(shù)據(jù)技術(shù)的領(lǐng)軍企業(yè)Cloudera,曾呼吁民意研究者“停止以提問方式獲取信息,而著手分析公眾在網(wǎng)絡(luò)上的表達(dá)和行為”。毫無疑問,大數(shù)據(jù)時(shí)代的到來重新提供了民意研究的思路、方法與手段的機(jī)遇。
二、“自然”數(shù)據(jù)和“被動(dòng)”參與者
對(duì)大數(shù)據(jù)的定義,學(xué)界和業(yè)界一直爭(zhēng)議不斷。目前認(rèn)可度較高的是源自3V理念的4V模型。微軟、IBM以及美國國家標(biāo)準(zhǔn)技術(shù)研究所目前均采用這一定義。早在2001年,道格·萊尼(Doug Laney)就以3V理念對(duì)大數(shù)據(jù)做了限定。3V指的是海量(volume)、快速(velocity)和多樣(variety)。其中,“海量”即數(shù)據(jù)的量級(jí)空前巨大;“快速”指的是數(shù)據(jù)產(chǎn)生的速度極快,這要求及時(shí)完成收集和分析工作,才能“抓住”源源不斷產(chǎn)生的新數(shù)據(jù);“多樣”意即數(shù)據(jù)類型的多樣化,這既包括了傳統(tǒng)研究中用到的結(jié)構(gòu)化數(shù)據(jù),也包括了大量的半結(jié)構(gòu)化 (semi-structured data)和非結(jié)構(gòu)化的數(shù)據(jù)(unstructured data),如視頻、音頻、網(wǎng)絡(luò)文本等。
此后10年間,3V一直是微軟、IBM等公司沿用的大數(shù)據(jù)定義。直到2011年,國際數(shù)據(jù)資訊公司(IDC)在3V的基礎(chǔ)上提出了第四個(gè)V,即“價(jià)值”(value)。 “價(jià)值”強(qiáng)調(diào)的是通過快速抓取技術(shù)和分析技術(shù),高效地從海量數(shù)據(jù)中提取有價(jià)值的信息。正如Facebook的副總工程師杰·帕瑞克(Jay Parikh)所言,能否提取到有實(shí)用價(jià)值的信息,也成為區(qū)別“大數(shù)據(jù)”(big data) 和“一大堆數(shù)據(jù)”(a bunch of data) 的主要依據(jù)。
無論是3V還是4V,都是自然科學(xué)和工程學(xué)界的定義視角。對(duì)社會(huì)科學(xué)研究者而言,大數(shù)據(jù)具有兩個(gè)極其重要卻常被忽視的特性。第一,大數(shù)據(jù)通常是二手?jǐn)?shù)據(jù),數(shù)據(jù)挖掘者一般不參與數(shù)據(jù)的生產(chǎn)和設(shè)計(jì)。肖恩·泰勒(Sean Taylor)從概念上區(qū)分“找到的”數(shù)據(jù)和“制造的”數(shù)據(jù)之間的區(qū)別,并指出:大數(shù)據(jù)的產(chǎn)生不是以研究和數(shù)據(jù)挖掘?yàn)槟康模怯脩舻男袨?、表達(dá)被研究者“找到”后形成的數(shù)據(jù)。第二,大數(shù)據(jù)研究的數(shù)據(jù)生產(chǎn)者是“被動(dòng)”的研究參與者,這與傳統(tǒng)調(diào)研方式中,參與者有意識(shí)的參與特定研究的調(diào)研模式不同。對(duì)民意研究而言,被動(dòng)式的數(shù)據(jù)采集方式(如內(nèi)容分析與歷史文獻(xiàn)分析)并非在大數(shù)據(jù)時(shí)代才出現(xiàn)。
“第一次世界大戰(zhàn)”期間,法國通信管理局就曾經(jīng)通過審閱士兵家書來探查士氣,以求把握戰(zhàn)場(chǎng)民意動(dòng)態(tài)。歷史學(xué)家經(jīng)常通過歷史材料梳理民情,理解特定的歷史事件。
1937年,在英國,一位記者、一位人類學(xué)家和一位紀(jì)錄片導(dǎo)演共同成立了“大量觀察法”(mass observation)社會(huì)研究小組,旨在記錄英國社會(huì)的各個(gè)角落在自然狀態(tài)下各類人物的對(duì)話。而傳統(tǒng)的民意調(diào)研,提問是數(shù)據(jù)收集的核心——研究者通過文字提問,參與者提供答案。大數(shù)據(jù)則需要研究者靈活使用“被動(dòng)的”研究參與者,接受雜亂無章的數(shù)據(jù)和新的統(tǒng)計(jì)技術(shù)。(未完待續(xù))