賀琴川
大數(shù)據(jù)也有大麻煩
我們身處于這樣一個(gè)數(shù)據(jù)爆炸的時(shí)代,尤其是最近這些年來(lái)我們生產(chǎn)的數(shù)據(jù)量和分析量都在激增。據(jù)統(tǒng)計(jì)分析,過(guò)去的30年里,每?jī)赡?,世界上的?shù)據(jù)量就增加了約10倍——這一比率甚至使得摩爾定律都相形見(jiàn)絀。而現(xiàn)在世界上90%的數(shù)據(jù)是在過(guò)去兩年里創(chuàng)造出來(lái)的。對(duì)于數(shù)據(jù)分析來(lái)說(shuō),這是偉大的,現(xiàn)在的我們得到了比人類(lèi)歷史上任何時(shí)候都要多得多的數(shù)據(jù)供我們分析和操縱。很了不起不是嗎?但是這就代表著我們可以高枕無(wú)憂(yōu)地隨意使用這些數(shù)據(jù)了嗎?
在大數(shù)據(jù)時(shí)代,人們?cè)絹?lái)越傾向于“用數(shù)據(jù)說(shuō)話(huà)”。由數(shù)據(jù)驅(qū)動(dòng)的決策被認(rèn)為是一種明智的做法,但數(shù)據(jù)的真實(shí)性又會(huì)很大程度上影響決策的正確與否。因?yàn)閿?shù)據(jù)是有偏見(jiàn)的,或者說(shuō)人類(lèi)收集和分析數(shù)據(jù)時(shí)是有偏見(jiàn)的。數(shù)據(jù)并不是越多越好,魚(yú)龍混雜的結(jié)果就是可能讓我們更加難以接近真相。
在許多分析算法中,篩選信息起著非常重要的作用。如果沒(méi)有篩選,我們可能會(huì)經(jīng)歷“無(wú)用輸入/無(wú)用輸出”的情形。但是篩選的依據(jù)是什么?是以數(shù)量決定權(quán)重嗎?毋庸置疑,肯定是越近期的事件可參考的數(shù)據(jù)越多,如果將此定為高權(quán)重的部分,那么我們很容易得到一個(gè)不太準(zhǔn)確的結(jié)論,因?yàn)槲覀儝仐壛四切┮驗(yàn)槟甏眠h(yuǎn)而被認(rèn)為是低權(quán)重的重要事實(shí)。
最新的就一定更好?
喜新厭舊似乎是我們每個(gè)人的天性,我們對(duì)他人或是事件的最新認(rèn)知往往會(huì)在做判斷時(shí)占據(jù)主要的地位。比如兩個(gè)本來(lái)很要好的朋友,小A一直很照顧小B。小A最近因?yàn)槠渌虑樯系牟豁樁脦状伟褮馊鲈谛身上。小B也很是生氣,覺(jué)得小A根本就沒(méi)把自己當(dāng)朋友,兩人關(guān)系破裂,形同陌路。為何只是小小的幾次不和就會(huì)對(duì)一段親密關(guān)系造成如此之大的殺傷力?原因在于我們對(duì)近期發(fā)生的事情的印象過(guò)于深刻,反而忽略了以往存在的事實(shí)。
如果世界上90%的數(shù)據(jù)都是最近兩年里創(chuàng)造出來(lái)的,那么我們的數(shù)據(jù)就存在固有的“近因偏差”。這種認(rèn)知偏差讓人們傾向于認(rèn)為,我們?cè)诮谟^察到的趨勢(shì)和模式將在未來(lái)繼續(xù)存在。因此人們會(huì)增加對(duì)近期所發(fā)生的事件的重視,并假設(shè)這些模式會(huì)與即將要發(fā)生的事情有直接的聯(lián)系,并以此作為制定決策的關(guān)鍵。
比如,你所居住的城市最近幾年的夏天都溫度較低,你就認(rèn)為當(dāng)?shù)氐臍夂蛟谧兝?,但很可能明年氣溫就回升了;你看到這支股票近期的勢(shì)頭很好,一直在上漲,你可能會(huì)預(yù)測(cè)它會(huì)一直這樣無(wú)限期地持續(xù)下去,而這顯然也是不太可能的;尤其是,在中國(guó),房?jī)r(jià)已經(jīng)連續(xù)上漲了幾十年,幾乎已經(jīng)沒(méi)人相信中國(guó)房?jī)r(jià)未來(lái)會(huì)跌了。
雖然歷史會(huì)重演,但近期的表現(xiàn)并不能直接表明未來(lái)的成功或失敗。因此,重要的是,不要給一個(gè)信息不成比例的關(guān)注。當(dāng)我們給我們的大數(shù)據(jù)系統(tǒng)塞進(jìn)大量過(guò)多的近期數(shù)據(jù)時(shí),數(shù)據(jù)分析將會(huì)被近因效應(yīng)極大地扭曲,很有可能你因此得出的預(yù)測(cè)結(jié)論還不如你擲硬幣來(lái)得可靠些。
如果想做出明智的決策,不僅要學(xué)會(huì)降低對(duì)近期表現(xiàn)的關(guān)注度,還要對(duì)以往的表現(xiàn)考慮得多一些。僅僅通過(guò)是六個(gè)月或一年的表現(xiàn)去分析可能并不扎實(shí),如果不懂得從更遙遠(yuǎn)的過(guò)去收集更多的信息數(shù)據(jù),反過(guò)來(lái),就會(huì)誤導(dǎo)自己做出草率的決定,成為目光短淺之人。
學(xué)會(huì)刪除數(shù)據(jù)更為重要
當(dāng)然,最新的數(shù)據(jù)不一定是最好的,以往的老數(shù)據(jù)也同樣不等于就是絕對(duì)有用的。關(guān)鍵是在時(shí)間的錘煉過(guò)程中,學(xué)會(huì)刪除有缺陷和無(wú)效的數(shù)據(jù)。
比如你是一個(gè)喜歡拍照的人,時(shí)間久了你的手機(jī)相冊(cè)里會(huì)存有很多張照片。假設(shè)你手機(jī)的存儲(chǔ)空間是固定的,那么你就必須定期清理那些照片。你需要想想哪些是值得你留下來(lái)作為以后會(huì)回顧的相片,而哪些是你將來(lái)看都不會(huì)再看一眼的。如果你為了省事,只留下新照片,直接把那些老照片都刪除了,你可能會(huì)刪除許多珍貴的值得留念的照片,反而留下了一些無(wú)意義的照片。
在這個(gè)大數(shù)據(jù)的背景下,我們所擁有的數(shù)據(jù)集合,比以往的任何時(shí)刻對(duì)我們的研究所產(chǎn)生的影響都要大。而數(shù)據(jù)的科學(xué)性越弱,數(shù)據(jù)規(guī)模和數(shù)據(jù)的質(zhì)量就越可能呈現(xiàn)負(fù)相關(guān),此時(shí)時(shí)間本身就成為更加重要的過(guò)濾工具。我們?nèi)绻蛔屑?xì)選擇過(guò)去保存下來(lái)的有價(jià)值、有意義的事物,它們就會(huì)被迅速膨脹的信息洪流悄無(wú)聲息地吞沒(méi)掉。
因此,如果我們正在大數(shù)據(jù)中尋找一些可以告訴我們未來(lái)將會(huì)是如何發(fā)展的依據(jù),我們需要知道當(dāng)前的數(shù)據(jù)中什么是重要的,我們需要沖洗掉那些不重要的東西。新鮮的事物更能吸引我們的眼球,但卻不一定重要,我們需要克服這一點(diǎn)。
我們常用的搜索工具的算法基本上還是偏向于新鮮事物的,越近期發(fā)生的越排得靠前,越容易被我們所看到。而那些以往的舊聞,很可能點(diǎn)擊進(jìn)去后已經(jīng)變成了失效的網(wǎng)址。也許我們應(yīng)該考慮設(shè)計(jì)一個(gè)智能程序,使得信息系統(tǒng)能夠變通,懂得忽略不重要但卻是最近產(chǎn)生的信息。
大數(shù)據(jù)時(shí)代機(jī)遇與挑戰(zhàn)并存,我們要善于利用我們所擁有的數(shù)據(jù),應(yīng)該懂得只分析那些有意義的數(shù)據(jù),以質(zhì)為主而不是以數(shù)取勝。數(shù)據(jù)只會(huì)如滾雪球一般越來(lái)越大,懂得主動(dòng)選擇放棄哪些事情,與選擇做何事同樣重要。