張玉宏
自2011年以來(lái),大數(shù)據(jù)旋風(fēng)以“迅雷不及掩耳之勢(shì)”席卷中國(guó)。毋庸置疑,大數(shù)據(jù)已然成為繼云計(jì)算、物聯(lián)網(wǎng)之后新一輪的技術(shù)變革熱潮,不僅是信息領(lǐng)域,經(jīng)濟(jì)、政治、社會(huì)等諸多領(lǐng)域都“磨刀霍霍”向大數(shù)據(jù),準(zhǔn)備在其中逐得一席之地。
中國(guó)工程院李國(guó)杰院士更是把大數(shù)據(jù)提升到戰(zhàn)略的高度,他表示數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源。從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值的技術(shù)正是最有活力的軟技術(shù),在數(shù)據(jù)技術(shù)與產(chǎn)業(yè)上的落后,將使我們像錯(cuò)過(guò)工業(yè)革命機(jī)會(huì)一樣延誤一個(gè)時(shí)代。
在大數(shù)據(jù)熱火朝天前行的路上,多一點(diǎn)反思,多一份冷靜,或許能讓這路走的更好、更遠(yuǎn)?例如,2014年4月,大名鼎鼎的《紐約時(shí)報(bào)》發(fā)表題為《大數(shù)據(jù)帶來(lái)的八個(gè)(不,是九個(gè)?。﹩?wèn)題》(Eight (No, Nine!) Problems With Big Data)”的反思文章其中文中的第九個(gè)問(wèn)題,就是所謂的“大數(shù)據(jù)的炒作(we almost forgot one last problem: the hype)”。同樣為重量級(jí)的英國(guó)報(bào)刊《財(cái)經(jīng)時(shí)報(bào)》(Financial Times,F(xiàn)T)也刊發(fā)了類似反思式的文章“大數(shù)據(jù):我們正在犯大錯(cuò)誤嗎?(Big data: are we making a big mistake?)”
在大數(shù)據(jù)熱炒之中,大數(shù)據(jù)的價(jià)值是否被夸大了?是否存在人造的“心靈雞湯”?大數(shù)據(jù)技術(shù)便利帶來(lái)的“收之桑榆”,是否也存在自己的副作用——“失之東隅”——個(gè)人的隱私何以得到保障?大數(shù)據(jù)熱炒的“繁華過(guò)盡”,數(shù)據(jù)背后的巨大價(jià)值是否還能“溫潤(rùn)依舊”?在眾聲喧嘩之中,我們需要冷靜審慎地思考上述問(wèn)題。
太多的“唐僧式”的說(shuō)教,會(huì)讓很多人感到無(wú)趣。下文分享了10個(gè)從“天南地北”收集而來(lái)的小故事(或稱段子),從這些小故事中,可對(duì)熱炒的大數(shù)據(jù)反思一下,這或許能讓讀者更加客觀地看待大數(shù)據(jù)。有些小故事與結(jié)論之間的對(duì)應(yīng)關(guān)系,或許不是那么妥帖,諸位別太較真,讀一讀、樂(lè)一樂(lè)、想一想就好!
故事01
醉漢路燈下找鑰匙
——大數(shù)據(jù)的研究方法可笑嗎?
一天晚上,一個(gè)醉漢在路燈下不停地轉(zhuǎn)來(lái)轉(zhuǎn)去,警察就問(wèn)他在找什么。醉漢說(shuō),我的鑰匙丟了。于是,警察幫他一起找,結(jié)果路燈周?chē)伊藥妆槎紱](méi)找到。于是警察就問(wèn),你確信你的鑰匙是丟到這兒?jiǎn)幔孔頋h說(shuō),不確信啊,我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來(lái),問(wèn),那你到這里來(lái)找什么?醉漢振振有辭:因?yàn)橹挥羞@里有光線?。?/p>
這個(gè)故事很簡(jiǎn)單,看完這個(gè)故事,有人可能會(huì)感嘆醉漢的“幼稚”、“可笑”。但不好笑的是,“烏鴉笑豬黑,自己不覺(jué)得”,這個(gè)故事也揭示了一個(gè)事實(shí):在面臨復(fù)雜問(wèn)題時(shí),我們的思維方式也常同這個(gè)醉漢所差無(wú)幾,同樣也是先在自己熟悉的范圍和領(lǐng)域內(nèi)尋找答案,哪怕這個(gè)答案和自己的領(lǐng)域“相隔萬(wàn)里”!
還有人甚至認(rèn)為,醉漢找鑰匙的行為,恰恰就是科學(xué)研究所遵循的哲學(xué)觀。前人的研究成果,恰是是后人研究的基石,也即這則故事中的“路燈”。到路燈下找鑰匙,雖看來(lái)有些荒唐,但也是“無(wú)奈之下”的明智之舉。
數(shù)據(jù)那么大,價(jià)值密度那么低,你也可以去分析,但從何分析起?首先想到的方法和工具,難道不是當(dāng)下你最熟悉的?而你最熟悉的,就能確保它就是最好的嗎?
沃頓商學(xué)院著名教授、紐約時(shí)報(bào)最佳暢銷書(shū)作者喬納·伯杰(Jonah Berger)從另外一個(gè)角度,解讀這個(gè)故事在這里,浩瀚的黑夜就是如同全數(shù)據(jù),“鑰匙”就好比是大數(shù)據(jù)分析中我們要找到的價(jià)值目標(biāo),他認(rèn)為,“路燈”就好比我們要達(dá)到這個(gè)目標(biāo)的測(cè)量“標(biāo)尺”,如果這個(gè)標(biāo)尺的導(dǎo)向有問(wèn)題,順著這個(gè)標(biāo)尺導(dǎo)引,想要找到心儀的“鑰匙”,是非常困難的!在我們癡迷于某項(xiàng)自己熟悉的特定測(cè)量標(biāo)尺之前,一定要提前審視一下,這個(gè)測(cè)量標(biāo)尺是否適合幫助我們找到那把“鑰匙”,如果不能,趕快換一盞“街燈”吧!
如果在黑暗中丟失的鑰匙,是大數(shù)據(jù)中的價(jià)值,那這個(gè)價(jià)值也太稀疏了吧。下面的故事,讓我們聊聊大數(shù)據(jù)的價(jià)值。
故事02
顛簸的街道
——對(duì)不起,“n=All”只是一個(gè)幻覺(jué)
波士頓市政府推薦自己的市民,使用一款智能手機(jī)應(yīng)用——“顛簸的街道(Street Bump,網(wǎng)站訪問(wèn)鏈接:http:// www.streetbump.org/)”。這個(gè)應(yīng)用程序,可利用智能手機(jī)中內(nèi)置的加速度傳感器,來(lái)檢查出街道上的坑洼之處——在路面平穩(wěn)的地方,傳感器加速度值小,而在坑坑洼洼的地方,傳感器加速度值就大。熱心的波士頓市民們,只要下載并使用這個(gè)應(yīng)用程序后,開(kāi)著車(chē)、帶著手機(jī),他們就是一名義務(wù)的、兼職的市政工人,這樣就可以輕易做到“全民皆市政”。市政廳全職的工作人員就無(wú)需親自巡查道路,而是打開(kāi)電腦,就能一目了然的看到哪些道路損壞嚴(yán)重,哪里需要維修。
波士頓市政府也因此驕傲地宣布,“大數(shù)據(jù),為這座城市提供了實(shí)時(shí)的信息,它幫助我們解決問(wèn)題,并提供了長(zhǎng)期的投資計(jì)劃”。著名期刊《連線》(Wired)也毫不吝嗇它的溢美之詞這是眾包(Crowdsourcing)改善政府功能的典范之作。
眾包是《連線》雜志記者Jeff Howe于2006年發(fā)明的一個(gè)專業(yè)術(shù)語(yǔ),用來(lái)描述一種新的商業(yè)模式。它以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)的做法。眾包利用眾多志愿員工的創(chuàng)意和能力——這些志愿員工具備完成任務(wù)的技能,愿意利用業(yè)余時(shí)間工作,滿足于對(duì)其服務(wù)收取小額報(bào)酬,或者暫時(shí)并無(wú)報(bào)酬,僅僅滿足于未來(lái)獲得更多報(bào)酬的前景。
然而,從一開(kāi)始,“顛簸的街道”的產(chǎn)品設(shè)計(jì)就是有偏的(bias),因?yàn)槭褂眠@款A(yù)pp的對(duì)象,“不經(jīng)意間”要滿足3個(gè)條件:(1)年齡結(jié)構(gòu)趨近年輕,因?yàn)橹欣夏耆藧?ài)玩智能手機(jī)的相對(duì)較少;(2)使用App的人,還得有一部車(chē)。雖然有輛車(chē)在美國(guó)不算事,但畢竟不是每個(gè)人都有;(3)有錢(qián),還得有閑。前面兩個(gè)條件這還不夠,使用者還得有“閑心”,想著開(kāi)車(chē)時(shí)打開(kāi)“顛簸的街道”這個(gè)App。想象一下,很多年輕人的智能手機(jī)安裝的應(yīng)用程序數(shù)量可能兩位數(shù)以上,除了較為常用的社交軟件如Facebook或Twitter(中國(guó)用戶用得較多的是微博、微信等)記得開(kāi)機(jī)運(yùn)行外,還有什么公益軟件“重要地”一開(kāi)車(chē)就記得打開(kāi)?
“顛簸的街道”的理念在于,它可以提供“n=All(所有)”個(gè)坑洼地點(diǎn)信息,但這里的“n=All(所有)”也僅僅是滿足上述3個(gè)條件的用戶記錄數(shù)據(jù),而非“所有坑洼點(diǎn)”的數(shù)據(jù),上述3個(gè)條件,每個(gè)條件其實(shí)都過(guò)濾了一批樣本,“n=All”注定是不成立的。在一些貧民窟,可能因?yàn)槭褂檬謾C(jī)的、開(kāi)車(chē)的、有閑心的App用戶偏少,即使有些路面有較多坑洼點(diǎn),也未必能檢測(cè)出來(lái)。
《大數(shù)據(jù)時(shí)代》的作者舍恩伯格教授常用“n=All”,來(lái)定義大數(shù)據(jù)集合。如果真能這樣,那么就無(wú)需采樣了,也不再有采樣偏差的問(wèn)題,因?yàn)椴蓸右呀?jīng)包含了所有數(shù)據(jù)。
暢銷書(shū)《你的數(shù)字感:走出大數(shù)據(jù)分析與解讀的誤區(qū)》(Numbersense: How to Use Big Data to Your Advantage)的作者、美國(guó)紐約大學(xué)統(tǒng)計(jì)學(xué)教授Kaiser Fung,就毫不客氣地提醒人們,不要簡(jiǎn)單地假定自己掌握了所有有關(guān)的數(shù)據(jù):“N=All(所有)”常常僅僅是對(duì)數(shù)據(jù)的一種假設(shè),而不是現(xiàn)實(shí)。
微軟-紐約首席研究員Kate Crawford也指出,現(xiàn)實(shí)數(shù)據(jù)是含有系統(tǒng)偏差的,通常需要人們仔細(xì)考量,才有可能找到并糾正這些系統(tǒng)偏差。大數(shù)據(jù),看起來(lái)包羅萬(wàn)象,但“n=All”往往不過(guò)是一個(gè)頗有誘惑力的假象而已。
“n=All”,夢(mèng)想很豐滿,但現(xiàn)實(shí)很骨感!
但即使具備全數(shù)據(jù),就能輕易找到隱藏于數(shù)據(jù)背后的有價(jià)值信息嗎?請(qǐng)接著看下面的故事。
故事03
人們?cè)诿枋龃髷?shù)據(jù)時(shí),通常表明其具備4個(gè)V特征,即4個(gè)以V為首字母的英文描述:Volume(體量大)、Variety(模態(tài)多)、Velocity(速度快)及Value(價(jià)值大)。前三個(gè)V,本質(zhì)上,是為第四個(gè)V服務(wù)的。試想一下,如果大數(shù)據(jù)里沒(méi)有我們希望得到的價(jià)值,我們?yōu)楹芜€辛辛苦苦這么折騰前3個(gè)V?
英特爾中國(guó)研究院院長(zhǎng)吳甘沙先生說(shuō),“鑒于大數(shù)據(jù)信息密度低,大數(shù)據(jù)是貧礦,投入產(chǎn)出比不見(jiàn)得好?!薄都~約時(shí)報(bào)》著名科技記者Steve Lohr,在其采訪報(bào)道“大數(shù)據(jù)時(shí)代(The Age of Big Data)”中表明,大數(shù)據(jù)價(jià)值挖掘的風(fēng)險(xiǎn)還在于,會(huì)有很多的“誤報(bào)”發(fā)現(xiàn),用斯坦福大學(xué)統(tǒng)計(jì)學(xué)教授Trevor Hastie的話來(lái)說(shuō),就是“在數(shù)據(jù)的大干草垛中,發(fā)現(xiàn)有意義的“針”,其困難在于“很多干草看起來(lái)也像針(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)”
針對(duì)大數(shù)據(jù)的價(jià)值,李國(guó)杰院士借助中國(guó)傳統(tǒng)的寓言故事《園中有金》,從另外一個(gè)角度,說(shuō)明大數(shù)據(jù)的價(jià)值,寓言故事是這樣的:
有父子二人,居山村,營(yíng)果園。父病后,子不勤耕作,園漸荒蕪。一日,父病危,謂子曰:園中有金。子翻地尋金,無(wú)所得,甚悵然。是年秋,園中葡萄、蘋(píng)果之屬皆大豐收。子始悟父言之理。
人們總是期望,能從大數(shù)據(jù)中挖掘出意想不到的“大價(jià)值”??衫顕?guó)杰院士認(rèn)為,實(shí)際上,大數(shù)據(jù)的價(jià)值,主要體現(xiàn)在它的驅(qū)動(dòng)效應(yīng)上,大數(shù)據(jù)對(duì)經(jīng)濟(jì)的貢獻(xiàn),并不完全反映在大數(shù)據(jù)公司的直接收入上,應(yīng)考慮對(duì)其他行業(yè)效率和質(zhì)量提高的貢獻(xiàn)。
大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)的價(jià)值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己釀造的蜂蜜,而是蜜蜂傳粉對(duì)農(nóng)林業(yè)的貢獻(xiàn)——你能說(shuō)秋天的累累碩果,沒(méi)有蜜蜂的一份功勞?
回到前文的小故事,兒子翻地的價(jià)值,不僅在于翻到園中的金子,更是在于翻地之后,促進(jìn)了秋天果園的豐收。在第03個(gè)小故事中,醉漢黑暗中尋找的鑰匙,亦非最終的價(jià)值,通過(guò)鑰匙打開(kāi)的門(mén)才是。
對(duì)于大數(shù)據(jù)研究而言,一旦數(shù)據(jù)收集、存儲(chǔ)、分析、傳輸?shù)饶芰μ岣吡耍词箾](méi)有發(fā)現(xiàn)什么普適的規(guī)律或令人完全想不到的新知識(shí),也極大地推動(dòng)了諸如計(jì)算機(jī)軟硬件、數(shù)據(jù)分析等行業(yè)的發(fā)展,大數(shù)據(jù)的價(jià)值也已逐步體現(xiàn)。
李國(guó)杰院士認(rèn)為,我們不必天天期盼奇跡出現(xiàn),多做一些“樸實(shí)無(wú)華”的事,實(shí)際的進(jìn)步就會(huì)體現(xiàn)在扎扎實(shí)實(shí)的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大數(shù)據(jù)成功案例。但從事大數(shù)據(jù)行業(yè)的人士,應(yīng)保持清醒的頭腦:無(wú)華是常態(tài),精彩是無(wú)華的質(zhì)變。
如果把“大數(shù)據(jù)”比作農(nóng)夫父子院后的那片土地,那么土地的面積越大,會(huì)不會(huì)能挖掘出的“金子”就越多呢?答案還真不是,下面的故事我們說(shuō)說(shuō)大數(shù)據(jù)的大小之爭(zhēng)。
故事04
蓋洛普抽樣的成功——大小之爭(zhēng),“大”數(shù)據(jù)一定勝過(guò)小抽樣嗎?
1936年,民主黨人艾爾弗雷德·蘭登(Alfred Landon)與時(shí)任總統(tǒng)富蘭克林·羅斯福(Franklin Roosevelt)競(jìng)選下屆總統(tǒng)。《文學(xué)文摘》(The Literary Digest)這家頗有聲望的雜志承擔(dān)了選情預(yù)測(cè)的任務(wù)。之所以說(shuō)它“頗有聲望”,是因?yàn)椤段膶W(xué)文摘》曾在1920年、1924年、1928年、1932年連續(xù)4屆美國(guó)總統(tǒng)大選中,成功地預(yù)測(cè)總統(tǒng)寶座的歸屬。
1936年,《文學(xué)文摘》再次雄赳赳、氣昂昂地照辦老辦法——民意調(diào)查,不同于前幾次的調(diào)查,這次調(diào)查把范圍拓展得更廣。當(dāng)時(shí)大家都相信,數(shù)據(jù)集合越大,預(yù)測(cè)結(jié)果越準(zhǔn)確?!段膶W(xué)文摘》計(jì)劃寄出1000萬(wàn)份調(diào)查問(wèn)卷,覆蓋當(dāng)時(shí)四分之一的選民。最終該雜志在兩個(gè)多月內(nèi)收到了驚人的 240萬(wàn)份回執(zhí),在統(tǒng)計(jì)完成以后,《文學(xué)文摘》宣布,艾爾弗雷德·蘭登將會(huì)以55比41的優(yōu)勢(shì),擊敗富蘭克林·羅斯福贏得大選,另外4%的選民則會(huì)零散地投給第三候選人。
然而,真實(shí)的選舉結(jié)果與《文學(xué)文摘》的預(yù)測(cè)大相徑庭:羅斯福以61比37的壓倒性優(yōu)勢(shì)獲勝。讓《文學(xué)文摘》臉上掛不住的是,新民意調(diào)查的開(kāi)創(chuàng)者喬治·蓋洛普(George Gallup),僅僅通過(guò)一場(chǎng)規(guī)模小得多的問(wèn)卷——一個(gè)3000人的問(wèn)卷調(diào)查,得出了準(zhǔn)確得多的預(yù)測(cè)結(jié)果:羅斯福將穩(wěn)操勝券。蓋洛普的3000人“小”抽樣,居然挑翻了《文學(xué)文摘》240萬(wàn)的“大”調(diào)查,實(shí)在讓專家學(xué)者和社會(huì)大眾跌破眼鏡。
顯然,蓋洛普有他獨(dú)到的辦法,而從數(shù)據(jù)體積大小的角度來(lái)看,“大”并不能決定一切。民意調(diào)查是基于對(duì)投票人的大范圍采樣。這意味著調(diào)查者需要處理兩個(gè)難題:樣本誤差和樣本偏差。
在過(guò)去的200多年里,統(tǒng)計(jì)學(xué)家們總結(jié)出了在認(rèn)知數(shù)據(jù)的過(guò)程中存在的種種陷阱(如樣本偏差和樣本誤差)。如今數(shù)據(jù)的規(guī)模更大了,采集的成本也更低了,“大數(shù)據(jù)”中依然存在大量的“小數(shù)據(jù)”問(wèn)題,大數(shù)據(jù)采集同樣會(huì)犯小數(shù)據(jù)采集一樣的統(tǒng)計(jì)偏差。我們不能掩耳盜鈴,假裝這些陷阱都已經(jīng)被填平了,事實(shí)上,它們還都在,甚至問(wèn)題更加突出。
蓋洛普成功的法寶在于,科學(xué)地抽樣,保證抽樣的隨機(jī)性,他沒(méi)有盲目的擴(kuò)大調(diào)查面積,而是根據(jù)選民的分別特征,根據(jù)職業(yè)、年齡、膚色等在3000人的比重,再確定電話訪問(wèn)、郵件訪問(wèn)和街頭調(diào)查等各種方式所在比例。由于樣本抽樣得當(dāng),就可以做到“以小見(jiàn)大”、“一葉知秋”。
《文學(xué)文摘》的失敗在于,取樣存在嚴(yán)重偏差,它的調(diào)查對(duì)象主要鎖定為它自己的訂戶。雖然《文學(xué)文摘》的問(wèn)卷調(diào)查數(shù)量不少,但它的訂戶多集中在中上階層,樣本從一開(kāi)始就是有偏差的(sample bias),因此,推斷的結(jié)果不準(zhǔn),就不足為奇了。而且民主黨人艾爾弗雷德·蘭登的支持者,似乎更樂(lè)于寄回問(wèn)卷結(jié)果,這使得調(diào)查的錯(cuò)誤更進(jìn)了一步。這兩種偏差的結(jié)合,注定了《讀者文摘》調(diào)查的失敗。
我們可以類比一下《文學(xué)文摘》的調(diào)查模式,試想一樣,如果在中國(guó)春運(yùn)來(lái)臨時(shí),在火車(chē)上調(diào)查,問(wèn)乘客是不是買(mǎi)到票了,即使你調(diào)查1000萬(wàn)人,這可是大數(shù)據(jù)啊,結(jié)論毫無(wú)意外地是都買(mǎi)到了,但這個(gè)結(jié)果無(wú)論如何都是不科學(xué)的,因?yàn)闃颖镜倪x取是有偏的。
當(dāng)然,采樣也是有缺點(diǎn)的,如果采樣沒(méi)有滿足隨機(jī)性,即使百分之幾的偏差,就可能丟失“黑天鵝事件”的信號(hào),因此在全數(shù)據(jù)集存在的前提下,全數(shù)據(jù)當(dāng)然是首選(但從第02故事中,我們可以看到,全數(shù)據(jù)通常是無(wú)法得到的)。對(duì)針對(duì)數(shù)據(jù)分析的價(jià)值,英特爾中國(guó)研究院院長(zhǎng)吳甘沙先生給出了一個(gè)排序:全數(shù)據(jù)>好采樣數(shù)據(jù)>不均勻的大量數(shù)據(jù)。
大數(shù)據(jù)分析技術(shù)運(yùn)用得當(dāng),能極大地提升人們對(duì)事物的洞察力(insight),但技術(shù)和人誰(shuí)在決策(decisionmaking)中起更大作用?在下面的“點(diǎn)球成金”小故事,我們聊聊這個(gè)話題。
故事05
點(diǎn)球成金
——數(shù)據(jù)流PK球探,誰(shuí)更重要?
《點(diǎn)球成金》(Moneyball)又是一例數(shù)據(jù)分析的經(jīng)典故事:
長(zhǎng)期以來(lái),美國(guó)職業(yè)棒球隊(duì)的教練們依賴慣例規(guī)則是,依據(jù)球員的“擊球率(Batting Average, AVG)”(其值等于安打數(shù)/打數(shù)),來(lái)挑選心儀的球員。而奧克蘭“運(yùn)動(dòng)家球隊(duì)”的總經(jīng)理比利·比恩(Billy Beane)卻另辟新徑,采用上壘率指標(biāo)(On-Base Percentage, OBP)來(lái)挑選球員,OBP代表一個(gè)球員能夠上壘而不是出局的能力。采用上壘率來(lái)選拔人才,并非毫無(wú)根據(jù)。通過(guò)精細(xì)的數(shù)學(xué)模型分析,比利·比恩發(fā)現(xiàn),高“上壘率”與比賽的勝負(fù)存在某種關(guān)聯(lián)(corelation),據(jù)此他提出了自己的獨(dú)到見(jiàn)解,即一個(gè)球員怎樣上壘并不重要,不管他是地滾球還是三跑壘,只要結(jié)果是上壘就夠了。在廣泛的批評(píng)和質(zhì)疑聲中,比恩通過(guò)自己的數(shù)據(jù)分析,創(chuàng)立了“賽伯計(jì)量學(xué)”(Sabermerrics)。據(jù)此理論,比恩依據(jù)“高上壘率”選取了自己所需的球員,這些球員的身價(jià)遠(yuǎn)不如其他知名球員,但比利·比恩卻能帶領(lǐng)這些球員在2002年的美國(guó)聯(lián)盟西部賽事中奪得冠軍,并取得了20場(chǎng)連勝的戰(zhàn)績(jī)。
這個(gè)故事講得是數(shù)量化分析和預(yù)測(cè)對(duì)棒球運(yùn)動(dòng)的貢獻(xiàn),吳甘沙先生認(rèn)為,它在大數(shù)據(jù)背景下出現(xiàn)了傳播的誤區(qū):
第一,它頻繁出現(xiàn)在諸如舍恩伯格《大數(shù)據(jù)時(shí)代》之類的圖書(shū)中,其實(shí)這個(gè)案例并非大數(shù)據(jù)案例,而是早已存在的數(shù)據(jù)思維和方法。在“點(diǎn)球成金”案例中的數(shù)據(jù),套用大數(shù)據(jù)的4V特征,基本上,無(wú)一符合。
第二,《點(diǎn)球成金》無(wú)論是小說(shuō),還是拍出來(lái)的同名電影,都刻意或無(wú)意忽略了球探的作用。從讀者/觀眾的角度來(lái)看,奧克蘭“運(yùn)動(dòng)家球隊(duì)”的總經(jīng)理比利·比恩完全運(yùn)用了數(shù)據(jù)量化分析取代了球探。而事實(shí)上,在運(yùn)用這些數(shù)據(jù)量化工具的同時(shí),比恩也增加了球探的費(fèi)用,“軍功章里”有數(shù)據(jù)分析的一半,也有球探的一半。
目前的大數(shù)據(jù)時(shí)代,就有這么兩個(gè)流派,一派是技術(shù)主導(dǎo)派,他們提出“萬(wàn)物皆數(shù)”,要么數(shù)字化,要么死亡(孫正義在對(duì)日本企業(yè)界的演講上所言),他們認(rèn)為技術(shù)在決策中占有舉足輕重地作用。另一派是技術(shù)為輔派,他們認(rèn)為,技術(shù)僅僅是為人服務(wù)的,屬于為人所用的眾多工具的一種,不可夸大其作用。
針對(duì)《點(diǎn)球成金》這個(gè)案例,比利·比恩的擁躉者就屬于“數(shù)據(jù)流黨”,而更強(qiáng)調(diào)球探作用的則歸屬于“球探黨”。
球探黨Bill Shanks在其所著的《球探的榮耀:論打造王者之師的最勇敢之路》(Scouts Honor: The Bravest Way To Build A Winning Ballteam)中,對(duì)數(shù)據(jù)流黨的分析做出了強(qiáng)有力地回應(yīng)。他認(rèn)為,球探對(duì)運(yùn)動(dòng)員定性指標(biāo)(如競(jìng)爭(zhēng)性、抗壓力、意志力,勤奮程度等)的衡量,是少數(shù)結(jié)構(gòu)化數(shù)據(jù)(如上壘率等)指標(biāo)無(wú)法量化刻畫(huà)的。
和《點(diǎn)球成金》觀點(diǎn)針?shù)h相對(duì)的是,Bill Shanks更認(rèn)可球探的作用,他把球探的作用命名為“勇士”哲學(xué)。對(duì)于勇士來(lái)說(shuō),數(shù)據(jù)分析只是眾多“刀槍棍棒”兵刃中的一種,無(wú)需奉之如圭臬,真正能“攻城略地”的還是需要勇士。比如說(shuō),運(yùn)動(dòng)家棒球隊(duì)雖然在數(shù)據(jù)分析的指導(dǎo)下,獲得了震驚業(yè)界的好成績(jī),然而他們并沒(méi)有取得季后賽的勝利,也沒(méi)有奪取世界冠軍,這說(shuō)明,數(shù)據(jù)分析雖重要,但人的作用更重要!
從第01故事的分析中,我們知道,大數(shù)據(jù)分析的第一層作用就是,面向過(guò)去,發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式,也就是說(shuō)達(dá)到描述性分析。而為了讓讀者相信數(shù)據(jù)分析的能力,灌輸一些“心靈雞湯(或稱洗腦)”,是少不了的,哪怕它是假的!
故事06
大數(shù)據(jù)都是騙人的啊
——大數(shù)據(jù)預(yù)測(cè)得準(zhǔn)嗎?
從前,有一頭不在風(fēng)口長(zhǎng)大的豬。自打出生以來(lái),就在豬圈這個(gè)世外桃源里美滿地生活著。每天都有人時(shí)不時(shí)地扔進(jìn)來(lái)一些好吃的東西,小豬覺(jué)得日子愜意極了!高興任性時(shí),可在豬圈泥堆里打滾耍潑。憂傷時(shí),可趴在豬圈的護(hù)欄上,看夕陽(yáng)西下,春去秋來(lái),歲月不爭(zhēng)?!柏i”生如此,夫復(fù)何求?
根據(jù)過(guò)往數(shù)百天的大數(shù)據(jù)分析,小豬預(yù)測(cè),未來(lái)的日子會(huì)一直這樣“波瀾不驚”地過(guò)下去,直到它從小豬長(zhǎng)成肥豬……在春節(jié)前的一個(gè)下午,一次血腥的殺戮改變了豬的信念:尼瑪大數(shù)據(jù)都是騙人的啊……慘叫嘎然而止。
這則“人造寓言”是由《MacTalk·人生元編程》一書(shū)作者池建強(qiáng)先生“杜撰”而成的。池先生估計(jì)是想用這個(gè)搞笑的小寓言“黑”一把大數(shù)據(jù)。
我們知道,針對(duì)大數(shù)據(jù)分析,無(wú)非有兩個(gè)方面的作用:(1)面向過(guò)去,發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式,稱之為描述性分析(Descriptive Analysis);(2)面向未來(lái),對(duì)未來(lái)趨勢(shì)進(jìn)行預(yù)測(cè),稱之為預(yù)測(cè)性分析(Predictive Analysis)。把大數(shù)據(jù)分析的范圍從“已知”拓展 到了“未知”,從“過(guò)去” 走向 “將來(lái)”,這是大數(shù)據(jù)真正的生命力和“靈魂” 所在。
那頭“悲催”的豬,之所以發(fā)出“大數(shù)據(jù)都是騙人的啊”吶喊,是因?yàn)樗牡贸隽艘粋€(gè)錯(cuò)誤的“歷史規(guī)律”:根據(jù)以往的數(shù)據(jù)預(yù)測(cè)未來(lái),它每天都會(huì)過(guò)著“飯來(lái)張口”的豬一般的生活。但是沒(méi)想到,會(huì)發(fā)生“黑天鵝事件”——春節(jié)的殺豬事件。
黑天鵝事件(Black Swan Event) 通常是指,難以預(yù)測(cè)的但影響甚大的事件,一旦發(fā)生,便會(huì)引起整個(gè)局面連鎖負(fù)面反應(yīng)甚至顛覆。讀者可閱讀納西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所著的暢銷書(shū)《黑天鵝》,來(lái)獲得對(duì)“黑天鵝事件”更多的理解。
其實(shí),我們不妨從另外一個(gè)角度來(lái)分析一下,這個(gè)搞笑的小寓言在“黑”大數(shù)據(jù)時(shí),也有失敗的地方。通過(guò)閱讀知道,舍恩伯格教授在其著作《大數(shù)據(jù)時(shí)代》的第一個(gè)核心觀點(diǎn)就是:大數(shù)據(jù)即全數(shù)據(jù)(即n=All,這里n為數(shù)據(jù)的大?。?,其旨在收集和分析與某事物相關(guān)的“全部”數(shù)據(jù),而非僅分析“部分”數(shù)據(jù)。
那頭小豬,僅僅著眼于分析它“從小到肥”成長(zhǎng)數(shù)據(jù)——局部小數(shù)據(jù),而忽略了“從肥到?jīng)]”的歷史數(shù)據(jù)。數(shù)據(jù)不全,結(jié)論自然會(huì)偏,預(yù)測(cè)就會(huì)不準(zhǔn)。
要不怎么會(huì)有這樣的規(guī)律總結(jié)呢:“人怕出名,豬怕壯”。豬肥了,很容易先被抓來(lái)殺掉。這樣的“豬”血淚史,天天都上演的還少嗎?上面的小寓言,其實(shí)是告訴我們:數(shù)據(jù)不全,不僅坑爹,還坑命?。?/p>
那么,問(wèn)題來(lái)了,大數(shù)據(jù)等于全數(shù)據(jù)(即n=All),能輕易做到嗎?
故事07
啤酒和尿布:經(jīng)典故事是偽造的,你知道嗎?
這是一個(gè)關(guān)于零售帝國(guó)沃爾瑪?shù)墓适隆?在一次例行的數(shù)據(jù)分析之后, 研究人員突然發(fā)現(xiàn): 跟尿布一起搭配購(gòu)買(mǎi)最多的商品,竟是啤酒!
尿布和啤酒,聽(tīng)起來(lái)風(fēng)馬牛不相及,但這是對(duì)歷史數(shù)據(jù)進(jìn)行挖掘的結(jié)果,反映的是數(shù)據(jù)層面的規(guī)律。這種關(guān)系令人費(fèi)解,但經(jīng)過(guò)跟蹤調(diào)查,研究人員發(fā)現(xiàn),一些年輕的爸爸常到超市去購(gòu)買(mǎi)嬰兒尿布,有30%~40%的新爸爸,會(huì)順便買(mǎi)點(diǎn)啤酒犒勞自己。隨后,沃爾瑪對(duì)啤酒和尿布進(jìn)行了捆綁銷售,不出意料,銷售量雙雙增加。
上面這個(gè)案例,出自于涂子沛先生的所著的大數(shù)據(jù)暢銷書(shū)《數(shù)據(jù)之巔》,在這個(gè)案例中,要情節(jié)有情節(jié),要數(shù)據(jù),有數(shù)據(jù),誓言旦旦,不容你置疑。但是,這個(gè)故事雖經(jīng)典,但是讓你意想不到的是:
案例是編造的
這個(gè)經(jīng)典的“啤酒和尿布” (Beer and Diapers)的案例,不僅是《大數(shù)據(jù)》類圖書(shū)的???,事實(shí)上,它更是無(wú)數(shù)次流連于“數(shù)據(jù)挖掘”之類的書(shū)籍中,特別是用來(lái)解釋“關(guān)聯(lián)規(guī)則(Association Rule)”的概念,更是“居家旅行,必備之良藥(周星馳語(yǔ))”。當(dāng)前,基本上所有講大數(shù)據(jù)應(yīng)用,都會(huì)捎帶講上這個(gè)經(jīng)典案例,要求大家多研究“相關(guān)性”,少研究因果關(guān)系!但實(shí)在掃興的是,這個(gè)案例僅是一碗數(shù)據(jù)分析的“心靈雞湯”——聽(tīng)起來(lái)很爽,但信不得!
實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)。如果這個(gè)故事是真的,按理說(shuō),應(yīng)該給超級(jí)市場(chǎng)以無(wú)限啟發(fā)才對(duì),可實(shí)際上,不管是中國(guó),還是在美國(guó),在超市里面觀察一下,就會(huì)發(fā)現(xiàn),根本沒(méi)有類似的物品擺放,相近的都很少。
故事性強(qiáng),事出有因。據(jù)吳甘沙先生透露,它是Teradata公司一位經(jīng)理編出來(lái)的“故事”,目的是讓數(shù)據(jù)分析看起來(lái)更有力,更有趣,而在歷史上從沒(méi)有發(fā)生過(guò),感興趣的讀者可以自己參閱文獻(xiàn)。但公平地講,這個(gè)故事對(duì)數(shù)據(jù)挖掘的普及意義重大,僅從教育意義上看,仍不失為一個(gè)好故事。
相關(guān)性并非什么大事
即便真的有這個(gè)案例,也不說(shuō)明數(shù)據(jù)分析出來(lái)的“相關(guān)性”,有什么特別的神奇之處。舍恩伯格教授的《大數(shù)據(jù)時(shí)代》核心觀點(diǎn)之一就是:趾高氣揚(yáng)的因果關(guān)系光芒不再,卑微的相關(guān)關(guān)系將被“翻身做主人”,知道“是什么”就夠了,沒(méi)必要知道“為什么”。但需要我們更為深入了解的事實(shí)是:“要相關(guān),不要因果”,這個(gè)觀點(diǎn)其實(shí)并非舍恩伯格首先提出的。最早的提出者應(yīng)為《連線》(Wired)主編Chris Anderson ,2008年他在題為 “理論的終結(jié):數(shù)據(jù)洪流讓科學(xué)方法依然過(guò)時(shí)(End of Theory: the Data Deluge Makes the Scientific Method Obsolete)”文章中,率先提出:在PB時(shí)代,我們可以說(shuō),有相關(guān)性足夠了(Petabytes allow us to say:“Correlation is enough)”。
“要相關(guān),不要因果”的觀點(diǎn),并不受學(xué)術(shù)界待見(jiàn)。甚至,《大數(shù)據(jù)時(shí)代》的中文版翻譯者周濤亦在序言里說(shuō),“放棄對(duì)因果關(guān)系的追求,是人類的墮落”。對(duì)于這個(gè)觀點(diǎn),李國(guó)杰院士認(rèn)為:在大數(shù)據(jù)中,看起來(lái)毫不相關(guān)的兩件事同時(shí)或相繼出現(xiàn)的現(xiàn)象比比皆是,相關(guān)性本身并沒(méi)有多大價(jià)值,關(guān)鍵是找對(duì)了“相關(guān)性”背后的理由,才是新知識(shí)或新發(fā)現(xiàn)。
大數(shù)據(jù)分析的第二個(gè)功能,或者說(shuō)更為的核心功能在于預(yù)測(cè)。預(yù)測(cè)主要用于對(duì)未來(lái)進(jìn)行籌劃,大到產(chǎn)業(yè)的布局,小到流感的預(yù)警,均可用預(yù)測(cè)。但是對(duì)未來(lái)的預(yù)測(cè),能準(zhǔn)嗎?
故事08
谷歌流感預(yù)測(cè):預(yù)測(cè)是如何失效的?
2009年2月,谷歌公司的工程師們?cè)趪?guó)際著名學(xué)術(shù)期刊《自然》上發(fā)表了一篇非常有意思的論文:《利用搜索引擎查詢數(shù)據(jù)檢測(cè)禽流感流行趨勢(shì)》,并設(shè)計(jì)了大名鼎鼎的流感預(yù)測(cè)系統(tǒng)(Google Flu Trends,GFT,訪問(wèn)網(wǎng)址為:www. google.org/flutrends/)。
GFT預(yù)測(cè)H1N1流感的原理非常樸素:如果在某一個(gè)區(qū)域某一個(gè)時(shí)間段,有大量的有關(guān)流感的搜索指令,那么,就可能存在一種潛在的關(guān)聯(lián):在這個(gè)地區(qū),就有很大可能性存在對(duì)應(yīng)的流感人群,相關(guān)部門(mén)就值得發(fā)布流感預(yù)警信息。
GFT監(jiān)測(cè)并預(yù)測(cè)流感趨勢(shì)的過(guò)程僅需一天,有時(shí)甚至可縮短至數(shù)個(gè)小時(shí)。相比而言,美國(guó)疾病控制與預(yù)防中心(Center for Disease Control and Prevention,CDC)同樣也能利用采集來(lái)的流感數(shù)據(jù),發(fā)布預(yù)警信息。但CDC的流感預(yù)測(cè)結(jié)果,通常需要滯后兩周左右才能得以發(fā)布。但對(duì)于一種飛速傳播的疾?。ㄈ缜萘鞲械龋?,疫情預(yù)警滯后發(fā)布,后果可能是致命的。
GFT一度被認(rèn)為是大數(shù)據(jù)預(yù)測(cè)未來(lái)的經(jīng)典案例,給很多人打開(kāi)了一扇未來(lái)的窗口。根據(jù)這個(gè)故事,大數(shù)據(jù)的布道者們給出了4個(gè)令自己滿意的結(jié)論:
由于所有數(shù)據(jù)點(diǎn)都被捕捉到,故傳統(tǒng)的抽樣統(tǒng)計(jì)的方法完全可以被淘汰。換句話說(shuō),做到了“n=All”;
無(wú)需再尋找現(xiàn)象背后的原因,只需要知道某兩者之間的統(tǒng)計(jì)相關(guān)性就夠用了。針對(duì)這個(gè)案例,只需知道“大量有關(guān)流感的搜索指令”和“流感疫情”之間存在相關(guān)性就夠了。
不再需要統(tǒng)計(jì)學(xué)模型,只要有大量的數(shù)據(jù)就能完成分析目的,印證了《連線》主編Chris Anderson 提出的“理論終結(jié)”的論調(diào)。
大數(shù)據(jù)分析可得到驚人準(zhǔn)確的結(jié)果。GFT的預(yù)測(cè)結(jié)果和CDC公布的真實(shí)結(jié)果相關(guān)度高達(dá)96%。
但據(jù)英國(guó)《財(cái)經(jīng)時(shí)報(bào)》(FT)援引劍橋大學(xué)教授David Spiegelhalter毫不客氣地評(píng)價(jià)說(shuō) ,這四條 “完全是胡說(shuō)八道(complete bollocks. Absolute nonsense)”。
針對(duì)前3條觀點(diǎn)的不足之處,前文故事已經(jīng)涉及到了,不再贅言。針對(duì)第4條,我們有必要再解析一下——GFT預(yù)測(cè)是如何失效的?
谷歌工程師們開(kāi)發(fā)的GFT,可謂轟動(dòng)一時(shí),但好景不長(zhǎng),相關(guān)論文發(fā)表4年后,2013年2月13日,《自然》發(fā)文指出,在最近(2012年12月)的一次流感爆發(fā)中谷歌流感趨勢(shì)不起作用了。GFT預(yù)測(cè)顯示某次的流感爆發(fā)非常嚴(yán)重,然而疾控中心(CDC)在匯總各地?cái)?shù)據(jù)以后,發(fā)現(xiàn)谷歌的預(yù)測(cè)結(jié)果比實(shí)際情況要夸大了幾乎一倍。
研究人員發(fā)現(xiàn),問(wèn)題的根源在于,谷歌工程師并不知道搜索關(guān)鍵詞和流感傳播之間到底有什么關(guān)聯(lián),也沒(méi)有試圖去搞清楚關(guān)聯(lián)背后的原因,只是在數(shù)據(jù)中找到了一些統(tǒng)計(jì)特征——相關(guān)性。這種做法在大數(shù)據(jù)分析中很常見(jiàn)。為了提高GFT的預(yù)測(cè)準(zhǔn)確性,谷歌工程師們不斷地微調(diào)預(yù)測(cè)算法,但GFT每一次算法微調(diào),都是為了修補(bǔ)之前的測(cè)不準(zhǔn),但每次修補(bǔ)又都造成了另外的誤差。
谷歌疫情之所以會(huì)誤報(bào),還因?yàn)榇髷?shù)據(jù)分析中存在“預(yù)測(cè)即干涉”的問(wèn)題。量子物理創(chuàng)始人之一維爾納·海森堡(Werner Heisenberg),曾在1927年的一篇論文中指出,在量子世界中,測(cè)量粒子位置,必然會(huì)影響粒子的速度,即存在“測(cè)不準(zhǔn)原理”。也就是說(shuō),在量子尺度的微距世界中,“測(cè)量即干涉”。如今,在媒體熱炒的“大數(shù)據(jù)”世界中,類似于“測(cè)不準(zhǔn)原理”,即存在“預(yù)測(cè)即干涉”悖論。
這個(gè)“預(yù)測(cè)即干涉”悖論和“菜農(nóng)種菜”的現(xiàn)象有“曲藝同工”之處:當(dāng)年的大白菜賣(mài)價(jià)不錯(cuò)(歷史數(shù)據(jù)),預(yù)計(jì)明年的賣(mài)價(jià)也不錯(cuò)(預(yù)測(cè)),于是眾多菜農(nóng)在這個(gè)預(yù)測(cè)的指導(dǎo)下,第二年都去種大白菜(采取行動(dòng)),結(jié)果是,菜多價(jià)賤傷農(nóng)(預(yù)測(cè)失?。?。
進(jìn)一步分析就可發(fā)現(xiàn),GFT預(yù)測(cè)失準(zhǔn)在很大程度上是因?yàn)?,一旦GFT提到了有疫情,立刻會(huì)有媒體報(bào)道,就會(huì)引發(fā)更多相關(guān)信息搜索,反過(guò)來(lái)強(qiáng)化了GFT對(duì)疫情的判定。這樣下去,算法無(wú)論怎么修補(bǔ),都無(wú)法改變其愈發(fā)不準(zhǔn)確的命運(yùn)。
對(duì)GFT預(yù)測(cè)更猛烈的攻擊,來(lái)自著名期刊《科學(xué)》。2014年3月,該雜志發(fā)表由哈佛大學(xué)、美國(guó)東北大學(xué)的幾位學(xué)者聯(lián)合撰寫(xiě)的論文“谷歌流感的寓言:大數(shù)據(jù)分析中的陷阱(The parable of Google Flu: traps in big data analysis)”,他們對(duì)谷歌疫情預(yù)測(cè)不準(zhǔn)的問(wèn)題做了更為深入的調(diào)查,也討論了大數(shù)據(jù)的“陷阱”本質(zhì)?!犊茖W(xué)》一文作者認(rèn)為:大數(shù)據(jù)的分析是很復(fù)雜的,但由于大數(shù)據(jù)的收集過(guò)程,很難保證有像傳統(tǒng)“小數(shù)據(jù)”那樣縝密,難免會(huì)出現(xiàn)失準(zhǔn)的情況,作者以谷歌流感趨勢(shì)失準(zhǔn)為例,指出“大數(shù)據(jù)傲慢(Big Data Hubris)”是問(wèn)題的根源。
《科學(xué)》一文還認(rèn)為,“大數(shù)據(jù)傲慢(Big Data Hubris)”還體現(xiàn)在,存在一種錯(cuò)誤的思維方式,即誤認(rèn)為大數(shù)據(jù)模式分析出的“統(tǒng)計(jì)學(xué)相關(guān)性”,可以直接取代事物之間真實(shí)的因果和聯(lián)系,從而過(guò)度應(yīng)用這種技術(shù)。這就對(duì)那些過(guò)度推崇“要相關(guān),不要因果”人群,提出了很及時(shí)的警告。畢竟,在某個(gè)時(shí)間很多人搜索“流感”,不一定代表流感真的暴發(fā),完成有可能只是上映了一場(chǎng)關(guān)于流感的電影或流行了一個(gè)有關(guān)流感的段子。
果殼網(wǎng)有一篇對(duì)《科學(xué)》一文深度解讀的文章:“數(shù)據(jù)并非越大越好:谷歌流感趨勢(shì)錯(cuò)在哪兒了?”,感興趣的讀者可以前去圍觀。
蘇萌、柏林森和周濤等人合著的《個(gè)性化:商業(yè)的未來(lái)》,他們強(qiáng)調(diào),“個(gè)人化”服務(wù)是未來(lái)最有前途的商業(yè)模式??蛇@里有個(gè)問(wèn)題,提供“個(gè)人化”服務(wù),就需要了解顧客的“個(gè)性化信息”,如果顧客許可使用個(gè)人信息的,那么這種個(gè)性化服務(wù)是貼心的,如果沒(méi)有許可呢?
下面這個(gè)故事就是一則有關(guān)商品個(gè)性化推薦的,但它體現(xiàn)出來(lái)的是數(shù)據(jù)分析的智慧,還是愚蠢呢?
故事09
Target超市預(yù)測(cè)女孩懷孕:“大數(shù)據(jù)”智慧,還是愚蠢?
2012年2月16日,《紐約時(shí)報(bào)》刊登了Charles Duhigg撰寫(xiě)的一篇題為《這些公司是如何知道您的秘密的》(How Companies Learn Your Secrets)的報(bào)道。文中介紹了這樣一個(gè)故事:
一天,一位男性顧客怒氣沖沖地來(lái)到一家折扣連鎖店Target(中文常譯作“塔吉特”,為僅次于沃爾瑪?shù)娜赖诙罅闶凵蹋?,向?jīng)理投訴,因?yàn)樵摰昃谷唤o他還在讀高中的的女兒,郵寄嬰兒服裝和孕婦服裝的優(yōu)惠券。
但隨后,這位父親與女兒進(jìn)一步溝通發(fā)現(xiàn),自己女兒真的已經(jīng)懷孕了。于是致電Target道歉,說(shuō)他誤解商店了,女兒的預(yù)產(chǎn)期是8月份。
一家零售商是如何比一位女孩的親生父親更早得知其懷孕消息的呢?這里就需要用到“關(guān)聯(lián)規(guī)則+預(yù)測(cè)推薦”技術(shù)。
事實(shí)上,每位顧客初次到Target刷卡消費(fèi)時(shí),都會(huì)自動(dòng)獲得一個(gè)唯一顧客識(shí)別編號(hào)(ID)。以后,顧客再次光臨Target消費(fèi)時(shí),計(jì)算機(jī)系統(tǒng)就會(huì)自動(dòng)記錄顧客購(gòu)買(mǎi)的商品、時(shí)間等信息。再加上從其它管道取得的統(tǒng)計(jì)資料,Target便能形成一個(gè)龐大數(shù)據(jù)庫(kù),運(yùn)用于分析顧客的喜好與需求。
有了數(shù)據(jù),特別是有了“大”容量的數(shù)據(jù),后面的問(wèn)題就簡(jiǎn)單了。Target的數(shù)據(jù)分析師,開(kāi)發(fā)了很多預(yù)測(cè)模型,其中懷孕預(yù)測(cè)模型(pregnancy-prediction model)就是其中的一個(gè)。Target通過(guò)分析這位女孩的購(gòu)買(mǎi)記錄——無(wú)味濕紙巾和補(bǔ)鎂藥品,就預(yù)測(cè)到了這為女顧客可能懷孕了,而懷孕了,未來(lái)就有可能需要購(gòu)置嬰兒服裝和孕婦服裝,多么貼心的商店啊。但是需要我們注意的是:
這是“大”數(shù)據(jù)的傲慢,而非聰慧。
由于故事極其具戲劇性——親生爸爸居然比不上一臺(tái)電腦更了解自己的女兒,因此,這個(gè)故事往往被用來(lái)作為“數(shù)據(jù)比人更了解人”的證明,并在當(dāng)下,被用來(lái)論證大數(shù)據(jù)的功力。國(guó)內(nèi)有的新聞媒體,對(duì)大數(shù)據(jù)的理解似是而非,針對(duì)這個(gè)案例的報(bào)道標(biāo)題就是《大數(shù)據(jù)的功力:比父親更了解女兒沖擊大賣(mài)場(chǎng)》。大數(shù)據(jù)的無(wú)所不能的“傲慢”,躍然紙上。
或許“旁觀者清”,信息領(lǐng)域外的上海金融與法律研究院研究員劉遠(yuǎn)舉認(rèn)為,這案例并不能說(shuō)明,數(shù)據(jù)比人更“聰慧”,更了解人,恰好相反,這證明計(jì)算機(jī)是“愚蠢的”:還在讀高中的女兒,顯然想保護(hù)自己的隱私,并不想父親知道,但“愚蠢的”計(jì)算機(jī)卻自作主張,把孕婦優(yōu)惠卷寄寄到了她家里,結(jié)果被爸爸逮個(gè)正著。
這正是(大)數(shù)據(jù)的另一種傲慢——好像有了(大)數(shù)據(jù),就可以“君臨天下”,對(duì)顧客的理解就可做到出神入化,對(duì)顧客的隱私就可以肆無(wú)忌憚。
這并非大數(shù)據(jù)的案例
進(jìn)一步分析,我們可以發(fā)現(xiàn),實(shí)際上這個(gè)例子并不屬于大數(shù)據(jù)的案例,它不需要太強(qiáng)的計(jì)算能力,甚至用一臺(tái)普通的電腦就能實(shí)施類似的關(guān)聯(lián)規(guī)則分析。很多有關(guān)大數(shù)據(jù)的圖書(shū)和文章都把這個(gè)案例當(dāng)作大數(shù)據(jù)的案例來(lái)講,其實(shí)是不恰當(dāng)?shù)摹?/p>
大數(shù)據(jù)一般要具備典型的4個(gè)V特征,Target收集的消費(fèi)數(shù)據(jù)屬于典型的結(jié)構(gòu)化數(shù)據(jù),即使數(shù)量再大,也僅僅滿足4V特征之一——Volume(體積大)。但是,“數(shù)據(jù)大”不等于“大數(shù)據(jù)”。如果光拼體積“大”,那么早在20年前,天文、物理和生物信息學(xué)的數(shù)據(jù),也夠得上是“大數(shù)據(jù)”了?!都~約時(shí)報(bào)》的原文,非?!昂竦馈?,通篇沒(méi)有提及“big data(大數(shù)據(jù))” 字樣。
更重要的是,這個(gè)神奇的數(shù)據(jù)預(yù)測(cè)故事被人為地灌入了很多“心靈雞湯”。
數(shù)據(jù)挖掘界的數(shù)據(jù)分析師、咨詢師們有時(shí)候同樣也需要 “心靈雞湯”,勵(lì)志自己,忽悠客戶。對(duì)此,美國(guó)紐約大學(xué)統(tǒng)計(jì)學(xué)教授Kaiser Fung認(rèn)為,很多人在看到這個(gè)故事時(shí),都誤認(rèn)為T(mén)arget的預(yù)測(cè)算法是非常可靠的——幾乎每個(gè)收到嬰兒連體服和濕紙巾優(yōu)惠券的人,都是孕婦。但這是不可能的!更為實(shí)際的情況是,孕婦之所以能收到這些購(gòu)物券,是因?yàn)門(mén)arget給非常多客戶都郵寄了這種購(gòu)物券。在眾多客戶中,碰巧有那么一位高中女生“不太可能但卻又真地”懷孕了,碰巧那位父親發(fā)現(xiàn)并投訴了,碰巧那位父親發(fā)現(xiàn)自己錯(cuò)了并道歉了,這么多巧合,“無(wú)巧不成書(shū)”。因?yàn)闃O具有故事性,所以大家都愛(ài)聽(tīng)。
各位讀者在相信Target這類讀心術(shù)般的故事之前,首先應(yīng)該先想想,這類商家的預(yù)測(cè)命中率到底有多高。這里并不說(shuō),數(shù)據(jù)分析一無(wú)是處,相反,數(shù)據(jù)分析極具商業(yè)價(jià)值,即使能夠把“直郵(Direct Mail,DM)”的準(zhǔn)確度提高一點(diǎn)點(diǎn),哪怕是1%,對(duì)商家而言,都將是有利可圖的。但能賺錢(qián)并不意味著這種工具無(wú)所不能、永遠(yuǎn)正確。
商家能夠提供個(gè)性化服務(wù),確實(shí)很貼心,但倘若在利益的趨勢(shì)下,商家對(duì)顧客的個(gè)性化信息運(yùn)用不當(dāng)或越界,就會(huì)給顧客帶來(lái)不能承受的隱私之痛。下面我們聊聊有關(guān)大數(shù)據(jù)隱私的故事。
故事10
你的一夜情我知道
——大數(shù)據(jù)的隱私之痛
Uber(優(yōu)步,著名的打車(chē)軟件服務(wù)公司,乘客可以通過(guò)發(fā)送短信或是使用移動(dòng)應(yīng)用程序來(lái)預(yù)約車(chē)輛,利用移動(dòng)應(yīng)用程序時(shí)還可以追蹤車(chē)輛的位置)曾在官網(wǎng)上發(fā)布一篇題為“榮耀之旅(Rides of Glory,RoG)”的博客。文中寫(xiě)到,“我知道,我們不是你們生命中唯一的愛(ài)人,我們也知道,你們會(huì)在別的什么地方尋找愛(ài)情(we know were not the only ones in your life and we know that you sometimes look for love elsewhere)?!盪ber稱作的“榮耀之旅(RoG)”——實(shí)際上就是所謂的一夜情(one-night stand)代名詞。
Uber利用數(shù)據(jù)分析技術(shù),專門(mén)篩選出那些在晚上10點(diǎn)到凌晨4點(diǎn)之間的用車(chē)服務(wù),并且這些客戶會(huì)在四到六小時(shí)之后(這段時(shí)間足夠完成一場(chǎng)快速的RoG),在距離上一次下車(chē)地點(diǎn)大約1/10英里(約160米)以內(nèi)的地方再次叫車(chē)。
根據(jù)對(duì)這些數(shù)據(jù)的分析,Uber推斷出那些發(fā)生一夜情的時(shí)間和地點(diǎn),并將這些地點(diǎn)在紐約(NYC)、舊金山(SF)、波士頓(Boston)以及其他美ㄈ國(guó)城市的地圖上進(jìn)行標(biāo)注,得出一夜情頻繁的高發(fā)區(qū)。數(shù)據(jù)分析發(fā)現(xiàn),波士頓位于美國(guó)“一夜情”之首,而紐約人則顯得比較保守,“一夜情”的比率僅僅為波士頓的1/5。在時(shí)間節(jié)點(diǎn)上,一夜情“發(fā)作”的高頻發(fā)段是在周五和周六晚上,如果你的另一半在這個(gè)時(shí)間點(diǎn)上說(shuō)自己工作忙要加班,你就要“悠著點(diǎn)”相信。
當(dāng)然,Uber此處雖多為開(kāi)玩笑之舉,但也確實(shí)嚴(yán)重侵犯了用戶的隱私,在遭到了很多用戶及媒體的的抗議,例如,《紐約時(shí)報(bào)》發(fā)表題為《我們不能信任優(yōu)步》。
在遭到用戶和媒體抗議以后,Uber迅速刪除了這篇博客,但在這個(gè)數(shù)字時(shí)代,一旦上網(wǎng),“侯門(mén)一入深似海”,踏雪無(wú)痕夢(mèng)難成”。感興趣的讀者仍可訪問(wèn)互聯(lián)網(wǎng)文檔收錄網(wǎng)站https://archive.org/,找到這篇文章。
不可否認(rèn)的是,大數(shù)據(jù)時(shí)代的到來(lái),為我們的學(xué)習(xí)、生活帶來(lái)諸多便利。但是,收之桑榆,失之東隅。任何事情都有兩面性。目前,人的行為(諸如購(gòu)物、乘車(chē)、甚至游戲等)已經(jīng)被數(shù)字化了,隱私已經(jīng)無(wú)處可藏!不論是美國(guó)斯諾登“棱鏡門(mén)”監(jiān)聽(tīng)項(xiàng)目的曝光,還是層出不窮的諸如Uber等公司企業(yè)泄露客戶資料事件,都向我們發(fā)出大數(shù)據(jù)時(shí)代下個(gè)人隱私保護(hù)的預(yù)警。
中國(guó)著名生命倫理學(xué)家邱仁宗先生認(rèn)為,大數(shù)據(jù)技術(shù),與所有技術(shù)一樣它本身無(wú)所謂“好”“壞”,故它本身在倫理學(xué)上是中性的。然而使用它的個(gè)人、公司、機(jī)構(gòu)有價(jià)值取向的,大數(shù)據(jù)猶技術(shù)如一把雙刃劍,它可以給我們的生活、科研帶來(lái)便利,但也能帶來(lái)諸如侵犯隱私的消極影響。
完善的立法,對(duì)保護(hù)用戶隱私來(lái)說(shuō)極其重要。例如,規(guī)定只有用戶需要個(gè)性化服務(wù)定制的時(shí)候,提出需求,大數(shù)據(jù)公司才能調(diào)用該用戶的信息,其他情況下的信息調(diào)用都采取匿名的方式,否則就視作侵犯隱私。
網(wǎng)上有個(gè)以“恐怖的大數(shù)據(jù)”為題的段子,用定披薩餅的流程,把用戶的隱私披露地“一覽無(wú)遺”,雖有夸張成分,但在大數(shù)據(jù)時(shí)代,隱私保護(hù)的必要性,已經(jīng)不容置疑了。
小結(jié)
《舊約·箴言篇》18章17節(jié)里有句話:“先訴情由的,似乎有理。但鄰舍來(lái)到,就察出實(shí)情”。
隨著諸如舍恩伯格教授的《大數(shù)據(jù)時(shí)代》、涂子沛先生的《數(shù)據(jù)之巔》等大作的面世,對(duì)世人帶來(lái)了“醍醐灌頂”式的教育洗禮,在教育民眾和政府官員接納大數(shù)據(jù)時(shí)代的普及意義上,這些著作,居功至偉。他們書(shū)中的很多思維,已被很多大數(shù)據(jù)的擁躉者奉為圭臬,但任何事情都有兩面性,一味的熱捧,就會(huì)帶來(lái)認(rèn)知的偏頗。
諸如《紐約時(shí)報(bào)》、《財(cái)經(jīng)時(shí)報(bào)》、《自然》及《科學(xué)》等重量級(jí)的反思“鄰舍”的到臨,能讓我們對(duì)“大數(shù)據(jù)”有更為客觀的認(rèn)知。從他們給出的一各個(gè)小故事(小案例或小段子)中,可以促使我們對(duì)大數(shù)據(jù)的熱炒有所反思,從而告誡我們之間,一定保持清醒頭腦,批判性地接受大數(shù)據(jù)布道者的思維,切不可將其當(dāng)作放之四海而皆準(zhǔn)的真理。對(duì)大數(shù)據(jù)的過(guò)分依賴,就有可能重蹈伊卡洛斯(Icarus)的覆轍。
在希臘神話中,伊卡洛斯是個(gè)自負(fù)的天神,他是代達(dá)羅斯的兒子,一天,在與父親代達(dá)羅斯使用蠟和羽毛制造的羽翼逃離克里特島時(shí),由于他過(guò)分相信自己的飛行技,故而飛得太高,雙翼上的蠟在太陽(yáng)照射下融化,羽翼脫落,最終導(dǎo)致自己葬身大海。
大數(shù)據(jù)技術(shù)就猶如那 “蠟和羽毛”做的翅膀,它可以助我們飛得更高,但倘若過(guò)分依賴它,就有葬身大海的風(fēng)險(xiǎn)。我們要學(xué)會(huì)如何讓大數(shù)據(jù)為我所用,而不是成為大數(shù)據(jù)的奴隸。