張興軍
雅虎全球副總裁、雅虎北京全球研發(fā)中心總裁張晨還清晰地記得他剛回中國(guó)時(shí)舉辦第一屆Hadoop大會(huì)的情景。時(shí)間大致是在北京奧運(yùn)會(huì)之后,那一年參會(huì)人數(shù)還只有六七十人,而且一半以上都是雅虎內(nèi)部員工。2013年,Hadoop大會(huì)在北京舉辦時(shí),參會(huì)人員的規(guī)模已經(jīng)達(dá)到了千人以上,Hadoop處理平臺(tái)也已經(jīng)成為全球大數(shù)據(jù)處理的主流平臺(tái)。五年左右的時(shí)間,Hadoop在市場(chǎng)認(rèn)可度上實(shí)現(xiàn)了堪稱飛躍的質(zhì)變。
Hadoop是一種分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲(chǔ)。雅虎公司于2006年2月創(chuàng)建了Hadoop后很快選擇開源,如今,已經(jīng)實(shí)現(xiàn)了日處理千億級(jí)別數(shù)據(jù)能力。
以Hadoop為例來探討雅虎的大數(shù)據(jù)方略頗具代表性,它既能說明過去近十年來大數(shù)據(jù)演進(jìn)的一種趨勢(shì),也為大數(shù)據(jù)未來的設(shè)想做好了鋪墊。
2008年,張晨回國(guó)的任務(wù)是創(chuàng)造雅虎北京全球研發(fā)中心,開發(fā)雅虎的核心產(chǎn)品。如今,這個(gè)平臺(tái)已經(jīng)為雅虎全球的8億用戶提供著優(yōu)質(zhì)的產(chǎn)品及服務(wù)。五年時(shí)間里,張晨對(duì)于大數(shù)據(jù)的未來有了更加清晰的洞窺。
在2013年12月19日的《智能數(shù)據(jù)引領(lǐng)商業(yè)未來》的演講中,張晨援引了一個(gè)數(shù)據(jù)來佐證大數(shù)據(jù)時(shí)代的到來:全世界在線數(shù)據(jù)的92%都是在過去兩年產(chǎn)生的,到2015年我們會(huì)有250億臺(tái)設(shè)備連在互聯(lián)網(wǎng)上。2015年產(chǎn)生的數(shù)據(jù)量將是今年的12倍。而具體到雅虎的個(gè)性化產(chǎn)品,就更能說明這種革命性變化的趨勢(shì)。雅虎于2013年5月推出的相片產(chǎn)品,在4個(gè)月時(shí)間里就已經(jīng)存儲(chǔ)了10億張以上的圖片。
“(大數(shù)據(jù))這個(gè)金礦才剛剛被開發(fā)出來,才被開采?!睆埑拷榻B,當(dāng)年推出云計(jì)算服務(wù)時(shí),客觀上大大地加速了業(yè)界的創(chuàng)新速度。而當(dāng)現(xiàn)在所有的行業(yè)和企業(yè)都開始擁抱大數(shù)據(jù)時(shí)代時(shí),雅虎個(gè)性化服務(wù)的差異化又開始顯現(xiàn)。
所謂的個(gè)性化服務(wù),即雅虎根據(jù)巨量的數(shù)據(jù)分析得來,以供給用戶高層次安全而可信的信息需求。顯然,這已經(jīng)是大數(shù)據(jù)應(yīng)用的高端層次。
事實(shí)上,張晨在深耕中國(guó)市場(chǎng)五年之后也看到了另一種潛在的巨大機(jī)會(huì):
“中國(guó)的人口規(guī)模和經(jīng)濟(jì)規(guī)模決定了我們的數(shù)據(jù)規(guī)模,巨大的數(shù)據(jù)規(guī)模為大數(shù)據(jù)發(fā)展創(chuàng)造了非常好的數(shù)據(jù)資源。我希望我們攜手共同來開發(fā)這座大數(shù)據(jù)的金礦,為我們所有人創(chuàng)造一個(gè)智慧的未來?!?/p>
中國(guó)經(jīng)濟(jì)信息:您認(rèn)為在大數(shù)據(jù)時(shí)代,數(shù)據(jù)價(jià)值遞變的邏輯是怎樣的?
張晨:我們不會(huì)說數(shù)據(jù)本身是聰明的, 只有通過對(duì)數(shù)據(jù)的深度分析,才能把看上去好像是一種毫無價(jià)值的東西,變得擁有巨大的價(jià)值。
舉個(gè)例子,美國(guó)信用卡公司可以通過用戶以往買東西的習(xí)慣來推測(cè)其未來的生活變化。比如,一個(gè)已婚人士,在18個(gè)月之內(nèi)是否會(huì)離婚?數(shù)據(jù)本身看上去是沒價(jià)值的,但透過深度挖掘能夠得出很多未知信息。數(shù)據(jù)處理的目的就是把它轉(zhuǎn)換成有商業(yè)價(jià)值的東西。
對(duì)雅虎來講,對(duì)數(shù)據(jù)的分析是從根本上提高用戶的體驗(yàn)。不僅是資訊內(nèi)容,廣告也是一樣?;ヂ?lián)網(wǎng)之所以有今天,大家都知道是因?yàn)閺V告在支撐它。如果互聯(lián)網(wǎng)都是要付錢的,那多少人還會(huì)享用?移動(dòng)互聯(lián)做到了讓互聯(lián)網(wǎng)真正普及到所有人,人人都可以享受。它需要商業(yè)模式來支持,而這種支撐的商業(yè)模式必然是通過數(shù)據(jù)深度挖掘的方式來實(shí)現(xiàn)。
搜索廣告之所以成為互聯(lián)網(wǎng)的一座金礦,就是通過大量數(shù)據(jù)的分析。那么現(xiàn)在的原生廣告的最基礎(chǔ)點(diǎn)在哪里?第一是我們對(duì)大量?jī)?nèi)容和廣告的了解,第二是我們對(duì)于用戶的深度了解。所以數(shù)據(jù)價(jià)值是無窮大的。
雅虎從十多年前就看到了大數(shù)據(jù)浪潮,所以推出Hadoop。今天所有人都說Hadoop。我們十多年就看到大數(shù)據(jù)的機(jī)會(huì),并思考怎么去分析和把看上去沒有價(jià)值的數(shù)據(jù),轉(zhuǎn)換成巨大的商業(yè)價(jià)值和用戶體驗(yàn)。
中國(guó)經(jīng)濟(jì)信息:作為大數(shù)據(jù)的最早踐行者,雅虎現(xiàn)在都面臨著哪些挑戰(zhàn)?
張晨:第一個(gè),我們必須要能更快速更深入的對(duì)數(shù)據(jù)進(jìn)行挖掘和處理。我們看到90%以上的數(shù)據(jù)量都是在過去兩年產(chǎn)生的。雅虎每天產(chǎn)生幾個(gè)TB的數(shù)據(jù)量,必須要有一個(gè)高效的數(shù)據(jù)處理的機(jī)制。
第二個(gè)挑戰(zhàn)是一定要進(jìn)行深度的數(shù)據(jù)挖掘。如果是一般數(shù)據(jù)挖掘,跟其他公司所做的東西一樣,就不能夠創(chuàng)造出最好的個(gè)性化服務(wù)?,F(xiàn)在雅虎提供的不光是個(gè)性化服務(wù),原生廣告也是我們非??春玫哪繕?biāo)。這對(duì)于數(shù)據(jù)的分析要求也非常高。因?yàn)樵鷱V告歸根到底就是要找出跟用戶有高度相關(guān)性的服務(wù)。
中國(guó)經(jīng)濟(jì)信息:雅虎的企業(yè)文化一直是提倡開源式創(chuàng)新,而有的公司則是以閉合創(chuàng)新制勝。請(qǐng)問雅虎有沒有過擔(dān)憂過有一天會(huì)喪失自身的優(yōu)勢(shì)地位?
張晨:作為高科技企業(yè)首先要自己有信心,你若能走在前面就不怕開源,相反就會(huì)擔(dān)心別人就要超過你。我們這個(gè)行業(yè)就是不進(jìn)則退,所以要一直往前走。我也相信通過整個(gè)行業(yè)的努力能夠把(大數(shù)據(jù))這個(gè)餅做大。中國(guó)互聯(lián)網(wǎng)文化里要有這種把餅做大的概念,要有把業(yè)界都帶起來這種胸懷,要相信自己,靠創(chuàng)新贏。
中國(guó)經(jīng)濟(jì)信息:雅虎全球北京研發(fā)中心基于中國(guó)市場(chǎng)規(guī)劃,未來會(huì)有哪些變化?
張晨:除了做好個(gè)性化服務(wù)外,雅虎北京現(xiàn)在非常注重人才,這也是在過去五年中令我非常高興的一點(diǎn)。確實(shí)很少有公司能夠真正的把核心技術(shù)拿到中國(guó)來,而且把它做成影響全球的產(chǎn)品。我以前在美國(guó)的時(shí)候就有聚攏中國(guó)人才在中國(guó)做研發(fā)的想法。這樣做能夠把中國(guó)的人才培養(yǎng)起來,做全球的平臺(tái)級(jí)的產(chǎn)品,將會(huì)對(duì)全球的用戶有巨大的貢獻(xiàn)。這五年來我們做得非常好。我希望更多的跨國(guó)公司也把核心價(jià)值放到中國(guó)來。其重要性在于,現(xiàn)在世界排名前十的互聯(lián)網(wǎng)公司,不是在美國(guó)就是在中國(guó)。走在前列的公司最重要的就是創(chuàng)新。頂尖的人才是創(chuàng)新的原動(dòng)力,這不僅是對(duì)整個(gè)公司的推進(jìn),更是為中國(guó),為全世界的人帶來創(chuàng)新的碩果。endprint