張安琪
(遼寧工程技術(shù)大學(xué),遼寧 阜新 123000)
6億注冊(cè)買(mǎi)家,600萬(wàn)家店鋪,10億種商品,一萬(wàn)多個(gè)商品類(lèi)目,20億元的每日交易額。淘寶網(wǎng)的這組數(shù)字,足以見(jiàn)得阿里集團(tuán)大數(shù)據(jù)礦山的資源厚度。淘寶商城的創(chuàng)始經(jīng)理、華平投資合伙人黃若這樣比喻:“如果將淘寶比作一塊肥沃土地,只要拿一根竹竿往地下一插,油就會(huì)冒出來(lái)。”油是什么?就是大量買(mǎi)賣(mài)雙方產(chǎn)生的所有交易數(shù)據(jù)背后的商業(yè)價(jià)值。在數(shù)據(jù)中發(fā)現(xiàn)相關(guān)性,創(chuàng)造更大的商業(yè)價(jià)值,是阿里集團(tuán)數(shù)據(jù)委員會(huì)的數(shù)據(jù)團(tuán)隊(duì)正在做的事。阿里在網(wǎng)絡(luò)平臺(tái)上把所有商家、庫(kù)存、消費(fèi)者數(shù)據(jù)、交易數(shù)據(jù)全部組織起來(lái),對(duì)接到所有的消費(fèi)者、商家、倉(cāng)庫(kù),讓商家能夠根據(jù)實(shí)時(shí)交易狀況,把貨事先配送到大區(qū)去,這樣可以極大地提升快件配送的效率,從而降低成本。這些數(shù)據(jù)可以做的事情還有很多。截至2012年底,阿里金融已經(jīng)為超過(guò)二十萬(wàn)家淘寶商家提供了貸款服務(wù)。如此大規(guī)模的業(yè)務(wù)該怎么樣把風(fēng)險(xiǎn)降下來(lái)呢?這就要依靠大數(shù)據(jù)的力量了。前期阿里金融會(huì)通過(guò)歷史交易記錄、訂單數(shù)量和店鋪信用體系等對(duì)申請(qǐng)人進(jìn)行定量分析,甚至引入心理測(cè)試系統(tǒng),評(píng)估其性格特征,綜合所有數(shù)據(jù)信息進(jìn)行信用評(píng)級(jí)。在此之后,阿里會(huì)繼續(xù)實(shí)時(shí)監(jiān)控貸款企業(yè)的網(wǎng)絡(luò)經(jīng)營(yíng)狀況,一旦發(fā)現(xiàn)不良狀態(tài),系統(tǒng)將及時(shí)發(fā)出預(yù)警,從而確保還款安全。
阿里巴巴淘寶對(duì)大數(shù)據(jù)相關(guān)性分析的應(yīng)用可謂是出神入化,數(shù)據(jù)就是基礎(chǔ),數(shù)據(jù)就是財(cái)富。而要分析就要有數(shù)據(jù)的支撐,提到數(shù)據(jù)的來(lái)源除了阿里自身龐大的數(shù)據(jù)網(wǎng),阿里還更積極地獲取更多的數(shù)據(jù)資源。2013年阿里巴巴以5.86億元收購(gòu)了新浪微博18%的股份。一方是日訪問(wèn)量超過(guò)9000萬(wàn)的電商帝國(guó),一方是擁有5億多注冊(cè)用戶的社交平臺(tái),此次聯(lián)合無(wú)疑大大打通了數(shù)據(jù)平臺(tái)。阿里力圖構(gòu)建一條大數(shù)據(jù)全產(chǎn)業(yè)鏈。試想新浪阿里在用戶賬戶互通后,可能帶來(lái)的海量社會(huì)化電商交易額,由此產(chǎn)生的強(qiáng)大商業(yè)爆發(fā)力絕對(duì)會(huì)在互聯(lián)網(wǎng)世界掀起一片喧嘩。
平均每一秒都有200萬(wàn)用戶在使用谷歌搜索,F(xiàn)acebook用戶每天共享的東西超過(guò)40億,twitter 每天處理的推特?cái)?shù)量超過(guò)3.4億。據(jù)相關(guān)統(tǒng)計(jì)證明,目前世界上百分之九十的數(shù)據(jù)是在互聯(lián)網(wǎng)出現(xiàn)后迅速產(chǎn)生的。舉個(gè)例子來(lái)說(shuō),如今大家都越來(lái)越喜歡網(wǎng)絡(luò)購(gòu)物,相信大家只要在淘寶上買(mǎi)過(guò)東西就會(huì)知道,當(dāng)你瀏覽淘寶的時(shí)候,網(wǎng)頁(yè)下面總會(huì)有猜你喜歡這一欄。你會(huì)驚奇地發(fā)現(xiàn)這里面推薦的東西有一些比你特地去搜索的時(shí)候還要感覺(jué)稱(chēng)心如意的商品。是淘寶會(huì)讀心術(shù)嗎?不,它的原理就是大數(shù)據(jù)的相關(guān)性預(yù)測(cè)。
數(shù)據(jù)的相關(guān)性預(yù)測(cè)其實(shí)沒(méi)有那么難以理解。比如說(shuō)傳染病是很難研究的,因?yàn)榘l(fā)病快,病人很快就死了,沒(méi)法像癌癥那樣去研究它的病理學(xué)是什么。那最后是怎么發(fā)現(xiàn)傳染方式的呢?以霍亂為例,實(shí)際上就是有兩張地圖,一張是得霍亂病人的分布圖,另外一張是倫敦市水井的分布圖,最后發(fā)現(xiàn)兩張圖之間有一些聯(lián)系規(guī)律,所以覺(jué)得跟飲水有關(guān)。這只是個(gè)在科學(xué)不發(fā)達(dá)時(shí)期的例子,通過(guò)水井跟霍亂這兩種非相關(guān)數(shù)據(jù)的分布找到了相關(guān)性,雖然不知道為什么,也沒(méi)辦法解釋?zhuān)菂s能夠做出較好的防范。先不要管這個(gè)猜想對(duì)不對(duì),能有防范的措施就已經(jīng)很好了。這就是數(shù)據(jù)相關(guān)性分析的特點(diǎn),不是因果,而是相關(guān)。我們不需要去探究為什么,只是知道是什么就夠了。
在商業(yè)營(yíng)銷(xiāo)方面,其實(shí)不太需要拼命地挖掘因果。不如說(shuō)是沒(méi)有那么多的因果可以考尋。顧客的想法是沒(méi)法猜的,也許他前一秒迫不及待放進(jìn)購(gòu)物車(chē)?yán)锏臇|西下一秒就會(huì)突然不想買(mǎi)了。而對(duì)于營(yíng)銷(xiāo)者而言,你只需要知道他想買(mǎi)過(guò),他曾經(jīng)大量的搜索過(guò)這類(lèi)商品就可以了。至于他想買(mǎi)和不想買(mǎi)的原因,可以暫時(shí)忽略之。然后接下來(lái)我們就可以在他打開(kāi)網(wǎng)頁(yè)的時(shí)候開(kāi)始推送同類(lèi)商品或者相關(guān)產(chǎn)品的信息了。顧客會(huì)看到更稱(chēng)心如意的商品,說(shuō)不定就回心轉(zhuǎn)意想要購(gòu)買(mǎi)了。當(dāng)然這全部都是猜測(cè),但是這個(gè)概率即使只有百分之一,這對(duì)營(yíng)銷(xiāo)來(lái)說(shuō)也是不小的成效,這便是大數(shù)據(jù)相關(guān)性預(yù)測(cè)的效果。
但問(wèn)題在于,很多人把相關(guān)等同于因果,這樣的做法會(huì)形成很多有些誤導(dǎo)性的結(jié)論。比如說(shuō)在百萬(wàn)用戶的搜索習(xí)慣中發(fā)現(xiàn),他們特別喜歡某種商品。但這種結(jié)果結(jié)論是不具有推廣性質(zhì)的。再分析另外的幾百萬(wàn)用戶的時(shí)候你很難把上述那個(gè)結(jié)論也放他們身上,因?yàn)檫@里面是沒(méi)有因果關(guān)系的。要確認(rèn)因果關(guān)系,必須經(jīng)過(guò)一個(gè)很復(fù)雜的觀察和思考過(guò)程,排除很多的“隱性變量”。這不是那么簡(jiǎn)單地做一些數(shù)據(jù)分析就可以的。相關(guān)性是因果的前提,但是不等于因果。
于是我們看到了大數(shù)據(jù)的力量。大數(shù)據(jù)顧名思義就是大量的數(shù)據(jù),多到什么地步呢?就是全部樣本主體。提到樣本就不得不說(shuō)最早相關(guān)性的鼻祖——抽樣調(diào)查。抽樣調(diào)查的方式很多,我們可以做調(diào)查問(wèn)卷,調(diào)查后回收進(jìn)行統(tǒng)計(jì)計(jì)算出其中的相關(guān)性。然而為了這某一特定的問(wèn)題抽樣調(diào)查需要持續(xù),因?yàn)殡S著時(shí)間的流逝以前的結(jié)果會(huì)越來(lái)越不足以說(shuō)明問(wèn)題。所以說(shuō)抽樣調(diào)查的結(jié)果是靜態(tài)的,它只能說(shuō)明你做那次抽樣調(diào)查時(shí)的一些相關(guān)性,而且這種相關(guān)性還很微弱,因?yàn)槌闃拥臉颖咎^(guò)稀少。當(dāng)不斷地增加新的樣本時(shí),一切就又得重新開(kāi)始了,過(guò)去的所有結(jié)果也要推翻了。這些還是次要的,抽樣調(diào)查最不可避免的問(wèn)題還有一點(diǎn):為你填寫(xiě)調(diào)查問(wèn)卷的人在問(wèn)卷中所寫(xiě)的答案并不一定就是他心中所想,或者就算他這么想了他實(shí)際上也不會(huì)這么做。
然后讓我們回到大數(shù)據(jù)上來(lái)。大數(shù)據(jù)不是抽樣,它是實(shí)打?qū)嵉膿碛兴腥诵闹械摹皢?wèn)卷”。最重要的是它獲得的是用戶真實(shí)行為。用戶回答他喜歡這個(gè)產(chǎn)品和他確實(shí)付款購(gòu)買(mǎi)了這個(gè)產(chǎn)品,顯然后者更能說(shuō)明問(wèn)題。大數(shù)據(jù)的分析是動(dòng)態(tài)的,隨著數(shù)據(jù)每分每秒的更新,它的結(jié)論也是在變的。讓我們?cè)賮?lái)看看淘寶的推薦系統(tǒng)。它的推薦方式是多種多樣的,比如說(shuō)“猜你喜歡”,它里面的商品都是根據(jù)你平時(shí)的搜索或購(gòu)物習(xí)慣來(lái)的?;蛘呤恰盀g覽過(guò)此商品的顧客還瀏覽過(guò)”,“購(gòu)買(mǎi)過(guò)此商品的用戶還購(gòu)買(mǎi)過(guò)”等等。它會(huì)想盡辦法找到各種關(guān)聯(lián),然后通過(guò)你的選擇再次整合出新的數(shù)據(jù),源源不斷地進(jìn)行推薦系統(tǒng)的完善。
討論了這么久的相關(guān)性預(yù)測(cè)我們知道,我們最希望看到的結(jié)果就是大數(shù)據(jù)主要的匯集成了一個(gè)大的預(yù)測(cè)方向,那些邊角料的數(shù)據(jù)往往是不會(huì)被計(jì)較的。不過(guò)可不要輕易地忽略它們,這些看似“不和諧的音符”也可以通過(guò)繼續(xù)進(jìn)行數(shù)據(jù)分析預(yù)測(cè)實(shí)現(xiàn)它們的價(jià)值。阿里的數(shù)據(jù)團(tuán)隊(duì)曾經(jīng)在淘寶上收集了一些小而精美的店鋪,這些店里的商品款型奇特,往往受到一些熟客的追捧。通過(guò)追蹤這些購(gòu)買(mǎi)者,他們發(fā)現(xiàn)了一部分挑選商品有獨(dú)特眼光的購(gòu)物達(dá)人,再結(jié)合這些購(gòu)物達(dá)人搜索的關(guān)鍵詞,可以看出在之后的一個(gè)月里這些關(guān)鍵詞被人搜索的次數(shù)會(huì)高出20%。就是說(shuō)這些消費(fèi)者的行為數(shù)據(jù)往往在揭示下一階段的流行趨勢(shì)。
大數(shù)據(jù)不做有絕對(duì)把握的事,還是那句話,哪怕是只提高了百分之一你購(gòu)買(mǎi)的概率,大數(shù)據(jù)的價(jià)值都是非常有必要的。也許你會(huì)說(shuō)只有百分之一還是碰巧瞎貓碰死耗子撞上的,有什么用?不過(guò)淘寶今年的雙十一銷(xiāo)售額足足比去年雙十一增加了200多億元我想這絕對(duì)不能用偶然來(lái)下定論吧。
大數(shù)據(jù)的相關(guān)性預(yù)測(cè)其實(shí)已經(jīng)不是什么新鮮事了,沃爾瑪將蛋撻與颶風(fēng)用品,啤酒與尿布擺在一起銷(xiāo)售,谷歌網(wǎng)站可以正確預(yù)測(cè)流行感冒,美國(guó)折扣零售商塔吉特能夠正確預(yù)測(cè)一個(gè)女性是否懷孕。這些超前準(zhǔn)確的預(yù)測(cè)讓我們對(duì)相關(guān)性預(yù)測(cè)充滿信心。隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來(lái)越多的數(shù)據(jù)會(huì)從以前想象不到的地方提取出來(lái),數(shù)據(jù)總量的增加也預(yù)示著大數(shù)據(jù)的相關(guān)性分析會(huì)更加的接近于百分之百。亞馬遜的創(chuàng)始人格雷格·林登說(shuō):“在組里有一句玩笑話,說(shuō)的是如果系統(tǒng)運(yùn)作良好的話亞馬遜應(yīng)該只推薦你一本書(shū),而那本書(shū)就是你將要買(mǎi)的下一本書(shū)?!彪m然相關(guān)性分析有不確定性眾所周知,也許你根據(jù)某些數(shù)據(jù)得出的結(jié)論其實(shí)只是一個(gè)巧合,而且現(xiàn)在的事實(shí)是亞馬遜推薦的書(shū)也有很多不一定是你想買(mǎi)的。
必然性的成功太過(guò)艱難,我們更應(yīng)該抓住那可以無(wú)限接近成功的可能性。要達(dá)到運(yùn)作良好的狀態(tài)需要的條件要很多,需要考慮數(shù)據(jù)收集的難易度,如何才能迅速積極的隨時(shí)調(diào)動(dòng)出已有的數(shù)據(jù)對(duì)自己有價(jià)值的部分,數(shù)據(jù)收集的成本對(duì)于各個(gè)企業(yè)來(lái)說(shuō)也是首要的問(wèn)題,不過(guò)阿里巴巴淘寶的成功更加能給我們信心,相信這些問(wèn)題會(huì)隨著技術(shù)的發(fā)展而不再成為問(wèn)題。
[1] 維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)(英).大數(shù)據(jù)時(shí)代[M]. 2013.
[2] 孟曉峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2012(1).
[3] 魏武揮.大數(shù)據(jù):利用相關(guān)性的營(yíng)銷(xiāo)[J].
[4] 張耀疆.大數(shù)據(jù)強(qiáng)調(diào)相關(guān)性而非因果性[Z].
[5] 付倩倩.阿里巴巴“淘寶”[Z].
[6] 邵曉峰.拆分的基礎(chǔ)設(shè)施:云計(jì)算與大數(shù)據(jù)[Z].