編譯/郭旦旦
數(shù)據(jù)分析與“大數(shù)據(jù)”似乎誓要徹底改變市場(chǎng)。如今,大多數(shù)公司都坐擁“成噸”的數(shù)據(jù):財(cái)務(wù)數(shù)據(jù)、移動(dòng)數(shù)據(jù)、交易數(shù)據(jù)、客戶研究數(shù)據(jù)、行為數(shù)據(jù)、社交媒體數(shù)據(jù)等。再加上新的分析技術(shù)與計(jì)算機(jī)、即時(shí)互聯(lián)網(wǎng)資源,產(chǎn)生了能夠顛覆游戲規(guī)則的強(qiáng)有力工具。然而,分析“大數(shù)據(jù)”所能產(chǎn)生的作用有些被夸大了。事實(shí)上,“馴服”大數(shù)據(jù)仍然是一件麻煩而且費(fèi)力的事情。有些時(shí)候,對(duì)大數(shù)據(jù)天花亂墜的宣傳導(dǎo)致虛假的預(yù)期,以為很容易就能利用大數(shù)據(jù)做這做那,最終反而得不償失。
面對(duì)大數(shù)據(jù),我們應(yīng)該保持清醒的認(rèn)識(shí),尤其是對(duì)以下最常見(jiàn)的謬誤:
1.大數(shù)據(jù)就是數(shù)據(jù)量大。大數(shù)據(jù)不是“大”,而是多元:大量、高頻、實(shí)時(shí)、來(lái)源廣泛。它們往往呈現(xiàn)顆粒狀,可以是個(gè)人的交易數(shù)據(jù)——某張信用卡在特定加油站支付了一筆汽油費(fèi)。大數(shù)據(jù)不是一座山,而是一場(chǎng)沙塵暴,大量細(xì)小的沙粒直欲迷人眼。
2.你應(yīng)該馬上引用大數(shù)據(jù)。不積硅步無(wú)以至千里。分析大數(shù)據(jù)亦是如此。一開(kāi)始,必須把精力集中在某一特定目標(biāo)上,在囤積數(shù)據(jù)前,想清楚自己想用這些數(shù)據(jù)做什么。
3.數(shù)據(jù)越顆粒狀越好。是不是實(shí)時(shí)的、顆粒狀的數(shù)據(jù)一定更有用?并不盡然。一場(chǎng)足球賽的第一個(gè)四分之一場(chǎng)不足以讓我們預(yù)測(cè)整場(chǎng)比賽的輸贏。實(shí)時(shí)數(shù)據(jù)有時(shí)候太過(guò)接近作出決策、決定的時(shí)間,不足以作為判斷的依據(jù)。有時(shí)候,我們不得不把思考的時(shí)間范疇放遠(yuǎn)一些。
事實(shí)上,大數(shù)據(jù)往往充斥著大量的噪聲;頻率越高、范圍越小,噪聲越大。譬如,以分鐘計(jì)的數(shù)據(jù)就比以周計(jì)的數(shù)據(jù)噪聲更大,一個(gè)鎮(zhèn)的數(shù)據(jù)噪聲就比一個(gè)國(guó)家的大。精密度與精確度的概念是不同的。在分析大數(shù)據(jù)時(shí),必須運(yùn)用有效的方法剔除出噪聲。
4.大數(shù)據(jù)就是“好數(shù)據(jù)”。數(shù)據(jù)也有好壞之分。質(zhì)量差的數(shù)據(jù)會(huì)有很多偏差與遺漏,最終導(dǎo)致分析判斷失誤。數(shù)據(jù)信息中存在很多被貼錯(cuò)標(biāo)簽的圖片與視頻,也有青少年隨便撰寫(xiě)的文字,必須有一個(gè)智能的模型能夠辨別出大數(shù)據(jù)中質(zhì)量好的數(shù)據(jù)作為分析判斷的依據(jù)。要分析大數(shù)據(jù),首先必須明確分析范疇,在此框架內(nèi)辨別哪些大數(shù)據(jù)在分析中必須用到,而哪些應(yīng)該丟棄。
歸根究底,大數(shù)據(jù)與電腦、手機(jī)一樣,是一種工具,而且還是令人敬畏、可以改變游戲規(guī)則的工具。不過(guò),最重要的是,要給大數(shù)據(jù)套上韁繩,才能駕馭之,并為自己所用。