魏武揮
對于廣告來說,從浪費50%到浪費49%,都是很值得去投入的事。建立在相關(guān)性而非因果上的大數(shù)據(jù)營銷,不可能讓廣告主從此不再浪費廣告,它只能做到:浪費得少一點。
國內(nèi)有一家民營航空公司,會員不下數(shù)百萬,會員的一個重要信息是郵箱地址。另外,微博賬號申請也需要一個郵箱地址。
通常來說,同一個郵箱地址意味著航空公司里的會員和微博里的會員,應(yīng)該是同一個人。公司做了一個篩選,合并出10萬個用戶來。
然后一家第三方公司的數(shù)據(jù)部門介入,主要任務(wù)是看這10萬會員的微博用戶,在社會化媒體上的行為,比如“說”些什么,比如喜歡介入什么樣的話題去轉(zhuǎn)發(fā)評論,比如喜歡關(guān)注什么樣的商業(yè)賬號等。研究這類事的原因在于:這個航空公司很想知道它在社會化媒體上發(fā)起什么樣的活動(以及活動所配備的禮品刺激)會吸引到這10萬會員參加,成為earned media。
是相關(guān)性而非因果
這個案例并非嚴(yán)格意義上的大數(shù)據(jù),因為數(shù)據(jù)還是不夠海量。不過,它的原理和大數(shù)據(jù)營銷有關(guān):尋求相關(guān)性。
相關(guān)性不是因果,很難得出這樣的結(jié)論:因為經(jīng)常坐某某航空公司的班機,所以喜歡參與某某活動(反過來也不成立)。但這兩個變量之間,從普遍意義上講,存在一定的關(guān)聯(lián)。這個道理就像穿紅襪子和炒股票的關(guān)系,或許有一定的關(guān)聯(lián)系數(shù),但絕不是因果關(guān)系。相關(guān)搞成了因果,差不多和“迷信”就沒有區(qū)別了。
商業(yè)應(yīng)用上,其實不太需要拼命挖掘因果。你只要知道坐該航空公司班機和參加特定活動之間存在一定概率就行了,至于究竟是為什么,可以暫時忽略。對于營銷業(yè)者而言,這個概率哪怕能提高10%,都是不小的成效。
但問題在于,很多人把相關(guān)等同于因果,這樣的做法會形成很有些誤導(dǎo)性的結(jié)論。比如說,當(dāng)在這10萬用戶中發(fā)現(xiàn),他們特別喜歡某類活動,這個結(jié)論是不具有推廣性質(zhì)的。再新增5萬航空公司微博用戶時,你很難把上述結(jié)論也放他們頭上。因為這里面沒有因果關(guān)系。要確認因果關(guān)系,必須經(jīng)過一個很復(fù)雜的觀察和思考過程,排除所謂“隱性變量”。這不是那么簡單的做一些數(shù)據(jù)分析就可以的。相關(guān)性是因果的前提,但不等于因果。
于是,大數(shù)據(jù)出現(xiàn)了。
大數(shù)據(jù)尋求的是海量數(shù)據(jù),海量到什么份上?就是全樣本。全樣本和抽樣顯然是不同的。過去的研究,由于操作性的關(guān)系,很難做到全樣本,需要去抽樣。抽樣的科學(xué)做法是“隨機”——不過這一點聽著容易,做起來相當(dāng)困難。
大數(shù)據(jù)首先不是抽樣,它獲得的數(shù)據(jù)是全體樣本數(shù)據(jù),其次它不是在讓用戶回答問題,而是實打?qū)嵉厝カ@取用戶的“行為”。用戶聲稱對某活動會有興趣和用戶是否參加了某活動,顯然后者更能說明問題。
最重要的一點在于,大數(shù)據(jù)分析和抽樣分析的核心區(qū)別在于:前者是動態(tài)的,后者是靜態(tài)的。
前文提到,隨機抽樣方法成本很高,故而它很難每天都去做一次,事實上,為某個特定的問題一個月乃至一個季度做一次隨機抽樣,都很難實施。于是,一個隨機抽樣所形成的結(jié)論,其實是靜態(tài)的,它只能說明在做那次調(diào)研時的一些相關(guān)性。當(dāng)有新的用戶(樣本)加入時,很難再說明過去的相關(guān)性是否能夠成立,除非,你能找到真正排除了各種隱形變量后的因果關(guān)系。
如果試圖減少成本去做非隨機抽樣,那么,它的結(jié)論就更沒有推廣意義。當(dāng)新用戶加入后,非隨機抽樣的結(jié)論基本不能適用。
但大數(shù)據(jù)的分析卻是動態(tài)的,每秒都有可能產(chǎn)生一個新的結(jié)論。讓我們用最常見的亞馬遜購物頁面上的“購買此商品的顧客也同時購買”來舉例。
這個部分里的商品是活動的,由于新購買的產(chǎn)生,會導(dǎo)致這個模塊里的商品可能會產(chǎn)生變化。不過,這個模塊也有可能是導(dǎo)致商品集中化購買的重要原因:用戶看到了這個模塊里推薦的商品而產(chǎn)生購買的可能是很大的(也許他本來就沒有任何購買的念頭,甚至連這個商品都不曉得)。
大數(shù)據(jù)處理的方式不是探幽細究型的,挖空心思去想究竟原因為何沒有這個必要,不過拿出一些結(jié)論來演繹也是會鬧笑話的:比如吃海參有助于提高智商。大數(shù)據(jù)其實不需要做什么演繹,它的任務(wù)只是讓你在某一時刻能做到提升成功率的事,哪怕只有1%。量一大,1%都是極其可觀的。
是動態(tài)的非靜態(tài)
回到航空公司的具體案例來。10萬同時擁有航空公司會員和微博會員的人,并非隨機抽樣而得,故而這10萬人對于整體數(shù)百萬航空公司會員而言,沒有代表性。但我們的目標(biāo)不是想尋求坐這家航空公司班機的人和參與某網(wǎng)絡(luò)活動的因果關(guān)系,我們只是想提升一下參與活動概率并希望看到更多人會去轉(zhuǎn)發(fā)某個活動罷了。故而,10萬微博用戶,夠了。
在某一個時點,跑了一下數(shù)據(jù),大致能看到一些相關(guān)性,于是我們開始設(shè)計某種活動,并有針對性地讓這10萬微博用戶知道,這次獲得的參與度和轉(zhuǎn)發(fā)率,比毫無數(shù)據(jù)支撐背景下的胡亂策劃,成功率應(yīng)該會高一點。同樣的人力投入,得到了相對較高效果,這就是數(shù)據(jù)分析的好處。
過了三個月后,又有需要策劃的活動,注意,這一次依然需要再跑一次數(shù)據(jù)。因為樣本可能不止10萬了,也許15萬,也可能運氣不好有2萬微博用戶已經(jīng)“死亡”,只剩8萬。另外一個可能是有某些新的外部變量加入,比如出來一種新的商品讓很多人趨之若鶩。這個時候拿上一次的數(shù)據(jù)來指導(dǎo)策劃,又是盲人騎瞎馬,夜半臨深淵了。
不同時點,不同目標(biāo)的活動,都需要再次跑數(shù)據(jù),這可能是大數(shù)據(jù)分析的麻煩之處。
更宏大一點的就是真正意義上的“大數(shù)據(jù)”了。阿里巴巴并購新浪微博,這件事從商業(yè)邏輯上講,一個是中國最大的消費平臺,一個是中國最大的碎片化言論平臺,兩者數(shù)據(jù)的合并,是頗能挖出更多的相關(guān)性來。
當(dāng)你發(fā)表一條微博時,忽然配套出來了一條廣告。是的,你很煩,感覺又被騷擾了。但從商業(yè)角度而言,如果你過去的煩是一萬次廣告推送才會有一次點擊,現(xiàn)在變成九千次推送就有一次點擊,都是了不得的進步。一萬次為什么會變成九千次?因為一個人的言論和他的消費傾向,的確是存在一定相關(guān)性的。
廣告圈里一句名言:我知道我的廣告浪費了一半,但我不知道浪費了哪一半。對于廣告來說,從浪費50%到浪費49%,都是很值得去投入的事。建立在相關(guān)性而非因果上的大數(shù)據(jù)營銷,不可能讓廣告主從此不再浪費廣告,它只能做到:浪費得少一點。
這就夠了。