呂理哲
1996年IBM設(shè)計的超級電腦深藍(lán)和國際象棋冠軍Garry Kasparov比賽,結(jié)果以2∶4落敗,電腦比不過人腦。第二年,新版的深藍(lán)已經(jīng)改造成一個1.4噸重、256核處理器的巨無霸電腦,深藍(lán)再戰(zhàn)卡斯珀羅斯,深藍(lán)先輸一盤后,第二盤贏回來,接著三盤都平局,最后一盤 Garry Kasparov重復(fù)采用第四盤的開局(Caro-Kann Defense),竟然兵敗如山倒,不到20步就棄子認(rèn)輸。
來年Garry Kasparov再向深藍(lán)挑戰(zhàn),IBM因?yàn)樯钏{(lán)的廣告任務(wù)圓滿達(dá)成回絕了他。于是,歷史記錄了“1997年電腦打敗最厲害的人腦國際象棋高手”,人類沒有討回公道的機(jī)會了。
其實(shí),IBM勝之不武,深藍(lán)后臺掛著一個100年來世界上國際象棋高手對奕的棋譜記錄和收集得到的各種殘局樣本,深藍(lán)每秒鐘可以處理2億步棋。Garry Kasparov贏過深藍(lán)一回,自恃甚高,還允許IBM的工程師在棋賽進(jìn)行中修改程序。更不公平的是電腦不會累,這場棋賽按照標(biāo)準(zhǔn)賽制雙方都有時間限制,前面幾局卡斯珀羅斯因?yàn)闀r間不夠,常常得趕鴨子上架而導(dǎo)致平局。
電腦不斷電就不累,而大師下一盤棋可能就會心力交瘁,二者無法相提并論。Garry Kasparov每下一步棋,深藍(lán)可以迅速地從數(shù)據(jù)庫中找到曾經(jīng)發(fā)生過完全相同的棋局,再分析出下一步在所有棋局中成功率最高的方法,或是從未失敗的對策。不論如何,對每秒鐘有能力處理上億步棋的深藍(lán)來說一點(diǎn)也不吃力,加上IBM工程師的人工智能技術(shù),根本不需要每次都去搜索整個數(shù)據(jù)庫。
IBM的深藍(lán)小組在棋賽后就解散了,但延伸的技術(shù)可能就是今天的大數(shù)據(jù)。
今天,許多媒體進(jìn)行民意調(diào)查,可能取樣數(shù)只有一兩千人,就能顯示出社會大眾對特定事物的看法。如果有機(jī)會取樣上億個,差不多就可以預(yù)測所有特定事物的發(fā)展趨勢。以前,請人在街頭或是電話訪問,不可能取很多樣。但是今天網(wǎng)路把大家連在一起,一家購物網(wǎng)站一天都能完成上億筆生意,何況想方設(shè)法從網(wǎng)絡(luò)上攔截到大家的郵件、微博、微信、短消息和查詢內(nèi)容,一小時取樣幾億筆數(shù)據(jù)根本不算難事。
谷歌每天就有30億筆民眾搜索關(guān)鍵字的數(shù)據(jù)。2009年谷歌在《自然》(Natrue)科學(xué)雜志上發(fā)表了一篇論文,精確預(yù)測出美國哪幾個州即將在接下來的冬天爆發(fā)流感。文中解釋了他們利用民眾搜尋關(guān)鍵字的大數(shù)據(jù),整理出來的結(jié)果和美國疾病管制局2007和2008年各地發(fā)生流感的數(shù)據(jù)完全符合。
幾個星期后,一種結(jié)合禽流感和豬流感菌株的新病毒H1N1跳上了所有美國媒體的新聞頭條,大數(shù)據(jù)讓大家見識到了非常厲害的預(yù)測能力。
由于取樣數(shù)據(jù)達(dá)到了足夠大的量,就不用去管背后的原因,只要知道那樣很準(zhǔn)就行了。例如,亞馬遜網(wǎng)絡(luò)書店開幕之初,聘請了許多編輯為他們賣的書寫書評,書評寫得越精彩,自然那本書就賣得越好,這也是亞馬遜所以能在當(dāng)初許多競爭對手中,笑到最后的原因之一。后來賣的書多了,數(shù)以億計,利用軟件技術(shù)從大數(shù)據(jù)中整理出在購買甲書的客戶中,超過特定比例的客戶都買了乙書,下一次只要有客戶訂購了甲書,亞馬遜就把乙書推薦給他,乙書賣掉的機(jī)會也就很高。
亞馬遜電腦主管的目標(biāo)是持續(xù)改善推薦書的大數(shù)據(jù)系統(tǒng),要讓買書的客戶至少再多買一本書。
古時候傳下來的命相秘籍,多以神秘來裝飾,而不是以實(shí)用讓人信服,因?yàn)楣艜r候收集數(shù)據(jù)不容易,取樣不夠就會以偏概全,大師如果只是打坐冥想,恐怕不容易理清人的復(fù)雜性。
大數(shù)據(jù)的應(yīng)用軟件技術(shù)很重要,但數(shù)據(jù)量大更重要。例如,大數(shù)據(jù)中整理出有幾百萬名孕婦購買的食物里某一基本元素(鈉、鐵、鉀等)的含量超出常人,就可以反過來從購買的食物中找出懷孕的客戶,這肯定比算命師用八字去猜一個人什么時候懷孕更準(zhǔn)確吧!而John Wanamaker說不知道廣告哪一半浪費(fèi)了,是因?yàn)槟莻€時代沒有大數(shù)據(jù)。
谷歌幫億萬人搜尋需要的信息,用廣告去攔截搜尋的答案而大賺廣告費(fèi),亞馬遜覺得自己是“億貨公司”(比百貨多很多),客戶到亞馬遜買東西還要讓谷歌提成(用廣告費(fèi)方式)不合理,于是自己建立了廣告機(jī)制,廣告費(fèi)自己賺。這些“IT大款”都有大數(shù)據(jù),可以準(zhǔn)確地作出選擇。
媒體靠廣告收入生存,以前50%的廣告泡了湯沒關(guān)系,因?yàn)闆]人知道那50%跑去哪里了。今天廣告主已經(jīng)知道了找得到目標(biāo)客戶的廣告方式,媒體是不是覺得如履薄冰、戰(zhàn)戰(zhàn)兢兢?
看來,媒體未來的競爭對手不僅是同類媒體。