徐玲
歷史上有個(gè)著名的偵破數(shù)據(jù)造假的案例,特別有趣。發(fā)現(xiàn)數(shù)據(jù)造假的“大偵探”,是19世紀(jì)法國(guó)著名數(shù)學(xué)家龐加萊,而被發(fā)現(xiàn)數(shù)據(jù)造假的人,是一位“倒霉”的面包師。
原來,龐加萊有個(gè)習(xí)慣,每天從家附近的面包店里買一條標(biāo)注1千克重的面包。他回家仔細(xì)稱量這些面包后卻發(fā)現(xiàn),平均重量只有950克,顯然面包師故意缺斤少兩,龐加萊氣得馬上報(bào)了警。面包師當(dāng)著警察的面賭咒發(fā)誓,以后堅(jiān)決不犯了。
之后,龐加萊繼續(xù)在他家買面包,他發(fā)現(xiàn)每天買到的面包確實(shí)大了一些。但他仍然覺得有什么地方不對(duì)勁。他在接下來的一年中,每天都去買面包仔細(xì)稱重。結(jié)果,龐加萊終于印證了自己的懷疑:這個(gè)面包師根本沒有改過自新,而是繼續(xù)缺斤少兩。
龐加萊的推論過程是這樣的:如果面包店里的面包平均重量是1千克,面包師每次從中隨機(jī)拿一條給他,那么他拿到的面包應(yīng)該是有的比1千克稍微重一點(diǎn),有的比1千克稍微輕一點(diǎn)。所有面包的重量分布曲線應(yīng)該呈鐘形,也就是正態(tài)分布,在橫坐標(biāo)為1千克的地方達(dá)到最高點(diǎn),兩端逐漸下降并左右對(duì)稱。
然而,實(shí)際的情況是,龐加萊的面包偏輕的太少,偏重的卻過多,鐘形曲線被扭曲了,不再左右對(duì)稱。這意味著,面包師并不是從足斤足兩的面包中隨機(jī)拿一條給他,而是從依然缺斤少兩的面包中,選出一條最大的來給他。當(dāng)警察再次上門,面包師大吃一驚,死活想不通龐加萊是怎么看穿他的把戲的。
后來,大家把龐加萊的方法叫作“統(tǒng)計(jì)偵查術(shù)”,凡是應(yīng)該符合特定分布形態(tài)的數(shù)據(jù),如果出現(xiàn)了明顯的偏離,那就值得警惕了。后來,有人用同樣的方法,發(fā)現(xiàn)了美國(guó)籃球比賽中的打假球現(xiàn)象。你也可以試著“龐加萊附體”,當(dāng)一回生活中的數(shù)據(jù)偵探。
(摘自“得到”app,Stacy圖)