孫泠
提起數(shù)據(jù)挖掘,你馬上會(huì)條件反射般想到“啤酒和尿布”?
20年前,沃爾瑪通過(guò)對(duì)一年多的原始交易數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)啤酒和尿布的銷(xiāo)量具有一定的正相關(guān),原來(lái)美國(guó)的媽媽們經(jīng)常囑咐她們的丈夫下班以后為孩子買(mǎi)尿布,而丈夫在買(mǎi)完尿布之后順手買(mǎi)回自己愛(ài)喝的啤酒……
別傻了,這是商學(xué)院流傳出的教材案例,真假莫辯,更何況沃爾瑪自己從來(lái)沒(méi)有正式承認(rèn)過(guò)他們通過(guò)數(shù)據(jù)挖掘和分析發(fā)現(xiàn)了年輕爸爸們的“順手購(gòu)”習(xí)慣。不過(guò),如今沃爾瑪正在試圖重新“發(fā)明”零售業(yè)。
太陽(yáng)冉冉升起。美國(guó)本土的4000多家沃爾瑪商店、沃爾瑪購(gòu)物中心和山姆會(huì)員店隨著第一縷陽(yáng)光從東向西的照射,開(kāi)始了一天的忙碌。
東部時(shí)間9:00,顧客首先涌進(jìn)了位于美國(guó)東岸新澤西州Newark市郊的沃爾瑪購(gòu)物廣場(chǎng)。
東部時(shí)間9:32,東部沃爾瑪營(yíng)業(yè)半小時(shí)中收集的暢銷(xiāo)商品信息,被快速傳遞到位于中部的德克薩斯州休斯頓市郊的沃爾瑪購(gòu)物廣場(chǎng),此時(shí)是中部時(shí)間8:32。
中部時(shí)間8:39,休斯敦沃爾瑪?shù)墓と死瞄_(kāi)門(mén)前的20分鐘,迅速碼放今天的暢銷(xiāo)商品。
……
太平洋時(shí)間8:41,位于加州舊金山市郊的沃爾瑪員工拿到的是綜合了前面三個(gè)時(shí)區(qū)的當(dāng)天最暢銷(xiāo)商品名單。此時(shí)已經(jīng)是東部時(shí)間中午12點(diǎn)了。
利用從東到西的時(shí)差,沃爾瑪創(chuàng)造了“一小時(shí)”內(nèi)的數(shù)據(jù)利用奇跡。在這里,數(shù)據(jù)并非躺在數(shù)據(jù)庫(kù)里等待靜態(tài)分析,而是如潮水一般,跟隨太陽(yáng)的走向漫過(guò)北美大陸。
從上世紀(jì)80年代起,沃爾瑪就擁有了自己的商用衛(wèi)星系統(tǒng),并建立了世界上最大的民用數(shù)據(jù)庫(kù)之一,這正是支撐沃爾瑪占主導(dǎo)地位的核心優(yōu)勢(shì)之一。在沃爾瑪IT大廈墻上,創(chuàng)始人山姆沃爾頓寫(xiě)道:沒(méi)有不斷的IT投資就不會(huì)有沃爾瑪?shù)某砷L(zhǎng)。
沃爾瑪實(shí)驗(yàn)室全球電子商務(wù)總監(jiān)斯蒂芬?jiàn)W沙利文最近表示,沃爾瑪正著手將全球10個(gè)網(wǎng)站整合成一個(gè),同時(shí)將前期試點(diǎn)的10節(jié)點(diǎn)Hadoop擴(kuò)展到250個(gè)節(jié)點(diǎn),沃爾瑪甚至還計(jì)劃開(kāi)發(fā)遷移數(shù)據(jù)所需的大數(shù)據(jù)工具并開(kāi)放其源代碼。這意味著它們的大數(shù)據(jù)引擎已經(jīng)完成預(yù)熱,準(zhǔn)備開(kāi)足馬力從過(guò)去難以利用的大數(shù)據(jù)中淘到金礦。
事實(shí)上,當(dāng)沃爾瑪投入巨資開(kāi)發(fā)大數(shù)據(jù)工具并推動(dòng)其技術(shù)發(fā)展的時(shí)候,我們發(fā)現(xiàn)對(duì)大數(shù)據(jù)最熱心的企業(yè)不是IT廠商,如IBM、甲骨文等,而是能直接從大數(shù)據(jù)中獲益的傳統(tǒng)企業(yè),他們已經(jīng)迫不及待,甚至跑到了工廠廠商的前面。
在此之前,沃爾瑪曾進(jìn)行了一系列的收購(gòu)。包括3億美元收購(gòu)的Kosmix(沃爾瑪實(shí)驗(yàn)室前身)、OneRiot、Small Society、Social Calenda、Set Direction、Grabble等多家中小型創(chuàng)業(yè)公司。這些創(chuàng)業(yè)公司無(wú)一例外的要么精于數(shù)據(jù)挖掘和各種算法、要么在移動(dòng)社交領(lǐng)域有其專(zhuān)長(zhǎng),這些都是沃爾瑪全面開(kāi)展社交媒體和移動(dòng)應(yīng)用大數(shù)據(jù)分析的鋪墊。
沃爾瑪通過(guò)Hadoop和其他開(kāi)源工具分析來(lái)自Twitter、Facebook、Foursquare等社交媒體的數(shù)據(jù)源,同時(shí)開(kāi)發(fā)了自己的專(zhuān)有技術(shù)Muppet。對(duì)基于FourSquare的簽到數(shù)據(jù),Muppet能實(shí)時(shí)分析哪家店在黑色星期五的客流量最大。
通過(guò)社交基因庫(kù)和數(shù)據(jù)分析技術(shù),沃爾瑪不但能夠追蹤社交媒體中對(duì)地點(diǎn)、用戶(hù)和產(chǎn)品的提及信息,從而優(yōu)化其選貨和備貨的準(zhǔn)確性,還能分析產(chǎn)品、用戶(hù)、品牌之間的關(guān)聯(lián),進(jìn)行更有針對(duì)性的線(xiàn)上和線(xiàn)下店面的產(chǎn)品推薦。
在社交口碑對(duì)消費(fèi)者決策影響力越來(lái)越大的今天,對(duì)大數(shù)據(jù)卓越的處理能力被看做是企業(yè)在交互時(shí)代的必備能力,而通過(guò)社交媒體分析深入了解消費(fèi)行為和消費(fèi)心理,已經(jīng)成為企業(yè)為消費(fèi)者提供全新消費(fèi)體驗(yàn)的必由之路。
15年前,西方科幻小說(shuō)的主題以SPIME(SPACE+TIME,時(shí)空)為主,而現(xiàn)在的每一個(gè)人都是終端、都是數(shù)據(jù)采集和發(fā)布的媒介、都是時(shí)空交互的結(jié)合體——只要帶著手機(jī),隨時(shí)隨地都能找到你。
“Gartner預(yù)測(cè),到2013年,會(huì)有33%的商業(yè)智能數(shù)據(jù)來(lái)自手持設(shè)備。我覺(jué)得Gartner低估了移動(dòng)在消費(fèi)領(lǐng)域的發(fā)展?jié)摿Γ@個(gè)數(shù)字應(yīng)該翻一倍……我估計(jì)在66%左右。”作為T(mén)eradata公司的CTO,寶立明(Stephen Brobst)還是奧巴馬總統(tǒng)委員會(huì)的科學(xué)技術(shù)顧問(wèn),在加入Teradata之前,他先后創(chuàng)立了三家與數(shù)據(jù)庫(kù)以及商業(yè)智能相關(guān)的公司。
10年前,當(dāng)企業(yè)級(jí)IT應(yīng)用的重心轉(zhuǎn)向集中式巨型架構(gòu),中間件平臺(tái)成為企業(yè)級(jí)應(yīng)用的關(guān)鍵,寶立明也曾為數(shù)據(jù)庫(kù)的邊緣化而黯然,當(dāng)時(shí)的企業(yè)級(jí)IT系統(tǒng)封閉而龐大,追求的目標(biāo)是生產(chǎn)、交易數(shù)據(jù)在其中的順暢流轉(zhuǎn)。
今天,企業(yè)的邊界正在消失,各種終端成為采集和發(fā)布信息的媒介。過(guò)去的數(shù)據(jù)大多來(lái)自企業(yè)內(nèi)部的交易記錄,而現(xiàn)在的企業(yè)數(shù)據(jù)更多的來(lái)自防火墻之外。比“66%的商業(yè)智能數(shù)據(jù)來(lái)自手持設(shè)備”更嚇人的,是“90%的數(shù)據(jù)是非結(jié)構(gòu)化的,而不是結(jié)構(gòu)化的交易數(shù)據(jù)”。
在企業(yè)內(nèi)部,數(shù)據(jù)從原來(lái)為少數(shù)決策者服務(wù)的商業(yè)智能,變成能夠直接指導(dǎo)消費(fèi)者行為的消費(fèi)智能。目前,直接使用沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)的人數(shù)已經(jīng)超過(guò)沃爾瑪自己的員工數(shù),原因是其數(shù)據(jù)鏈條向消費(fèi)者和供應(yīng)商兩端延伸,使得更多的人直接在沃爾瑪?shù)臄?shù)據(jù)倉(cāng)庫(kù)中尋找自己需要的數(shù)據(jù)。
如今,采集和發(fā)布數(shù)據(jù)的終端甚至包括一塊電表。2009~2012年間,美國(guó)SCE公司為南加州的500萬(wàn)名用戶(hù)安裝了智能電表,這些電表每隔10~60分鐘就會(huì)采集一次住宅和商業(yè)客戶(hù)的能耗數(shù)據(jù),并在當(dāng)天對(duì)這些信息進(jìn)行計(jì)費(fèi)和分析。由于電力價(jià)格在峰值和谷底時(shí)相差很大,用戶(hù)也可以設(shè)定提示,到達(dá)設(shè)定的數(shù)額就提示用戶(hù)家里能耗過(guò)高。
也許你會(huì)問(wèn):什么樣的科學(xué)怪人才會(huì)分析自己的能源消費(fèi)?但是親,在南加州,電力能源的消費(fèi)很貴,有時(shí)候甚至?xí)^(guò)一個(gè)家庭養(yǎng)車(chē)的成本。
用戶(hù)可以像選擇信用卡額度一樣,選擇限制自己能源消費(fèi)的額度;對(duì)電力公司來(lái)說(shuō),用戶(hù)主動(dòng)選擇深夜開(kāi)動(dòng)洗衣機(jī)同樣是好事一件,因?yàn)殡娋W(wǎng)在波峰時(shí)段承受的壓力被降低了。
數(shù)據(jù)正在成為公司除有形資產(chǎn)、人力資本之外的又一資產(chǎn),利用數(shù)據(jù)的水平將區(qū)分每個(gè)行業(yè)的勝者與輸家,是企業(yè)的的最大資源之一。