安替
現(xiàn)在,上到高官,下到推銷員,左一句“新媒體”,右一句“大數(shù)據(jù)”,預(yù)示著從美國(guó)傳來(lái)的“大數(shù)據(jù)”浪潮也會(huì)和微博一樣,很快就要進(jìn)入中國(guó)的主流話語(yǔ)。既然從美國(guó)的推特(Twitter)到中國(guó)的微博,有太多重大變化,那么“大數(shù)據(jù)”這樣的美國(guó)產(chǎn)物,在進(jìn)入中國(guó)之后,會(huì)發(fā)生什么樣的嬗變?
要理解大數(shù)據(jù)浪潮,有兩個(gè)樣板。一個(gè)是幻想項(xiàng)目,美國(guó)正在熱播的電視連續(xù)劇《疑犯追蹤》(Person of Interest),講述了美國(guó)國(guó)安局有一臺(tái)記錄全球監(jiān)控畫面和通訊信息的大“機(jī)器”,能根據(jù)擁有的海量數(shù)據(jù)預(yù)測(cè)犯罪相關(guān)人。另一個(gè)是現(xiàn)實(shí)工程,奧巴馬兩次大選的成功,就是背后科技團(tuán)隊(duì)對(duì)大數(shù)據(jù)的挖掘和整理,所以能得出和主流媒體不同但更準(zhǔn)確的預(yù)測(cè)。大數(shù)據(jù)的魔力就在于,它能預(yù)測(cè)未來(lái),掌握這樣的未來(lái)信息,就能控制商業(yè)和政治。
但無(wú)論是幻想的“機(jī)器”還是奧巴馬大選團(tuán)隊(duì),大數(shù)據(jù)魔術(shù)得以實(shí)現(xiàn)的關(guān)鍵是,這些數(shù)據(jù)是基本準(zhǔn)確和真實(shí)的?;孟氲拿绹?guó)國(guó)安局“機(jī)器”收集的是監(jiān)控視頻、電話記錄、銀行轉(zhuǎn)賬、稅單、網(wǎng)絡(luò)言論,如果要準(zhǔn)確預(yù)測(cè)出一個(gè)行為不合理的反社會(huì)人物,這些數(shù)據(jù)必須真實(shí)可靠。而大選大數(shù)據(jù)戰(zhàn)略,更是完全要依賴包含選民具體信息所謂“電話銀行”的準(zhǔn)確性。因此,在催票過(guò)程中,兩黨選舉團(tuán)隊(duì)和盟友,必須派出海量的志愿者,挨家挨戶在選區(qū)敲門(Canvass),除了提高投票率,更重要的是更正“電話銀行”住戶各類信息的錯(cuò)誤。筆者前年11月就在弗吉尼亞州一個(gè)選區(qū)參與了這種Canvass活動(dòng),親身感受到“大數(shù)據(jù)”背后是繁重的確認(rèn)工作。
當(dāng)大數(shù)據(jù)引入中國(guó)時(shí),立刻會(huì)遇到數(shù)據(jù)的中國(guó)陷阱——失真。美國(guó)著名統(tǒng)計(jì)學(xué)者、《紐約時(shí)報(bào)》博主Nate Silver利用各州民調(diào)數(shù)據(jù),得出奧巴馬會(huì)大幅度贏得第二次大選的預(yù)測(cè),擊敗蓋洛普全國(guó)民調(diào),但想想他如果用的是中國(guó)各省民調(diào),能得出什么樣的結(jié)論?在中國(guó)做有關(guān)社科方面的研究,第一要?jiǎng)t就是別相信任何現(xiàn)成的調(diào)查數(shù)據(jù),必須想辦法親自動(dòng)手另起爐灶。很難想象,依賴各種編造、浮夸、以應(yīng)付為前提的“大數(shù)據(jù)”,這項(xiàng)技術(shù)在美國(guó)會(huì)達(dá)到正面的戰(zhàn)略效果。
數(shù)據(jù)失真的背后必有深刻的政治社會(huì)原因。在數(shù)據(jù)收集方面,必須有最基本的隱私保護(hù)、言論保護(hù)和人權(quán)保護(hù)制度,公民才敢于向有關(guān)機(jī)構(gòu)公布個(gè)人信息,已發(fā)表的信息才可長(zhǎng)久存在。另外,政府也按照法律公開各種信息,以回報(bào)公民對(duì)政府的信任,減少公民因隱私被獲取而產(chǎn)生的恐懼感。這在各種觀點(diǎn)性數(shù)據(jù)的收集方面尤為重要。目前各種基于社會(huì)媒體的輿論分析,在很多方面是個(gè)笑話:因?yàn)楦鞣N原因刪帖,或經(jīng)大力“引導(dǎo)”后的“輿論”分析,能當(dāng)真嗎?這就是過(guò)去幾年大部分對(duì)微博的數(shù)量分析都不能看的原因,逼得哈佛教授Gary King需要自己建一個(gè)社交網(wǎng)站才能獲得真實(shí)數(shù)據(jù)。
目前在中國(guó)有前途的大數(shù)據(jù)分析,大多是對(duì)商業(yè)行為的分析,因?yàn)閿?shù)據(jù)來(lái)自真實(shí)的購(gòu)買記錄,失實(shí)率低。但這種分析無(wú)外乎就是數(shù)據(jù)庫(kù)運(yùn)算加一部分的外來(lái)數(shù)據(jù)挖掘,與我們所說(shuō)的“大數(shù)據(jù)”的功能與意義相去甚遠(yuǎn)。
即便解決了收集數(shù)據(jù)的真實(shí)性問題——比如直接調(diào)用服務(wù)器,進(jìn)行更加深度的挖掘和人工確認(rèn)等等,中國(guó)大數(shù)據(jù)的發(fā)展也會(huì)遇到另一個(gè)問題:大數(shù)據(jù)得出的結(jié)論,是自下而上的,這和中國(guó)普遍的自上而下決策過(guò)程相沖突。大數(shù)據(jù)其實(shí)是決策微民主化過(guò)程:重大決策必須參考甚至取決于每個(gè)個(gè)體決策的總和趨勢(shì),如果只講“頂層設(shè)計(jì)”,一定會(huì)水土不服。
這樣的數(shù)據(jù)決策民主是不是有缺點(diǎn),那是另外一個(gè)問題。例如喬布斯的Apple和iPhone,可不是從任何數(shù)據(jù)得出的決策,他的做法甚至是反數(shù)據(jù)決策民主的。如果真的要實(shí)施大數(shù)據(jù)戰(zhàn)略,必然包含著決策民主化的過(guò)程。
在這種情況下,除了純粹商業(yè)大數(shù)據(jù)分析,任何結(jié)論需要提交給非商業(yè)的決策者,就會(huì)出現(xiàn)一個(gè)典型的中國(guó)問題:調(diào)查報(bào)告如果不符合領(lǐng)導(dǎo)思路怎么會(huì)存在?本身是展現(xiàn)技術(shù)獨(dú)立決策魔力的大數(shù)據(jù),在中國(guó),很容易會(huì)淪為“大忽悠”,為了領(lǐng)導(dǎo)和客戶的喜愛,而故意修改數(shù)據(jù)模型甚至結(jié)論本身。
“大數(shù)據(jù)”其實(shí)是公開社會(huì)條件下數(shù)字化治理的決策智能版,而中國(guó)的數(shù)字化治理也只有在一些已經(jīng)或者努力在海外上市的公司,才在西方大環(huán)境的壓力之下被迫實(shí)現(xiàn)。因此,幾乎成為“機(jī)器神祇”的美國(guó)大數(shù)據(jù),進(jìn)入中國(guó)之后,也只能強(qiáng)化商業(yè)購(gòu)買上的預(yù)測(cè)力,卻很難發(fā)揮其社會(huì)魔力。
(摘自《財(cái)新新世紀(jì)周刊》)endprint