張林仿
對(duì)于從事“云計(jì)算”和大數(shù)據(jù)產(chǎn)業(yè)的人來說,一年一度的中國(guó)大數(shù)據(jù)技術(shù)大會(huì)堪稱不容錯(cuò)過的盛會(huì)。迄今為止,原名Hadoop in China的中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(Big Data Technology Conference,BDTC)已成功舉辦9屆,發(fā)展成為涵蓋各類大數(shù)據(jù)技術(shù)和應(yīng)用的探討、分享業(yè)界商業(yè)項(xiàng)目合作洽談和資源對(duì)接的綜合平臺(tái),是亞太地區(qū)舉辦最早、規(guī)模最大、影響力最大、對(duì)技術(shù)和行業(yè)探討最專業(yè)和深入的大數(shù)據(jù)行業(yè)峰會(huì)。
而對(duì)于Hadoop in China的發(fā)起人——中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員查禮來說,最初組織大會(huì)的宗旨只是“想把最先進(jìn)的大數(shù)據(jù)開源技術(shù)帶到國(guó)內(nèi),帶到工程師的面前,同時(shí)建立起一個(gè)交流平臺(tái),讓大家得以互通有無”。
從“網(wǎng)格”到“云計(jì)算”
偉人的一句話,往往標(biāo)志著一個(gè)時(shí)代的開始。三十幾年前,鄧小平同志曾經(jīng)說:“計(jì)算機(jī)普及要從娃娃抓起?!边@句話改變了許多人的一生,查禮,也算是其中之一。
上個(gè)世紀(jì)八九十年代,為了加快計(jì)算機(jī)的普及,許多中學(xué)開設(shè)計(jì)算機(jī)課。由于不是高考所選科目,大多數(shù)人對(duì)這門課并沒有多少興趣,但這不包括查禮?!拔耶?dāng)時(shí)對(duì)計(jì)算機(jī)編程充滿了好奇,覺得很有趣?!辈槎Y認(rèn)為,“做科學(xué)研究必須要有好奇心,沒有好奇心就沒有科學(xué)研究的原動(dòng)力?!被趯?duì)計(jì)算機(jī)的濃厚興趣,他選擇在北京理工大學(xué)就讀計(jì)算機(jī)專業(yè),并于2003年獲北京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系工學(xué)博士學(xué)位。
博士期間,為了提高學(xué)術(shù)水平,查禮來到中國(guó)科學(xué)院計(jì)算技術(shù)研究所,跟隨徐志偉研究員從事分布式系統(tǒng)方向的前沿研究工作。“當(dāng)時(shí)所里有一個(gè)‘國(guó)家網(wǎng)格的項(xiàng)目,從‘九五就開始做了,我也全程參與。”查禮所說的“國(guó)家網(wǎng)格”是國(guó)家“863”項(xiàng)目,“網(wǎng)格”思想的初衷是希望通過軟件把十余個(gè)國(guó)家級(jí)高性能計(jì)算中心互聯(lián)起來,做到資源共享。“這種思想在當(dāng)時(shí)十分先進(jìn),其實(shí)和后來‘云計(jì)算的理念基本上是一樣的。只不過‘網(wǎng)格的概念是由學(xué)術(shù)界先提出來的,而‘云計(jì)算是工業(yè)界先提出來的,導(dǎo)致兩者后續(xù)的發(fā)展道路完全不一樣?!?/p>
雖然“云計(jì)算”與“網(wǎng)格”的理念相同,但它是由工業(yè)界率先提出的,這就注定了其與“網(wǎng)格”有很大區(qū)別?!啊W(wǎng)格更多地偏向?qū)W術(shù)研究層面,而‘云計(jì)算的外延則要廣得多。且與學(xué)術(shù)界對(duì)‘網(wǎng)格研究的零星火花不同,工業(yè)界對(duì)于‘云計(jì)算的參與度很深,直接帶動(dòng)了學(xué)術(shù)界的研究興趣,所以技術(shù)進(jìn)步就快得多,也實(shí)用得多?!睂?duì)于查禮來說,科研的最終目的是要實(shí)用,而工業(yè)界的成果轉(zhuǎn)化要比學(xué)術(shù)界快得多。查禮評(píng)價(jià)自己:“我的科研之路從這里開始就比較‘接地氣了,比起單純的論文導(dǎo)向的研究工作,我更愿意解決工業(yè)界出現(xiàn)的實(shí)際問題?!睆牟莞髸?huì)到領(lǐng)域峰會(huì)
這個(gè)機(jī)會(huì)很快到來了。2008年,查禮領(lǐng)導(dǎo)研究小組與Apache Hadoop開源社區(qū)合作,發(fā)起并組織Hadoop in China大會(huì)。這一年,Hadoop in China成功舉辦第一屆草根大會(huì)。就是在這第一屆鮮為人知的草根大會(huì)上,查禮確定了一個(gè)研究方向,并向Apache Hive開源項(xiàng)目貢獻(xiàn)了“行列混合式存儲(chǔ)結(jié)構(gòu)”一RCFile技術(shù)和實(shí)現(xiàn)代碼,該技術(shù)現(xiàn)已被Facebook、Yahoo!、阿里巴巴等公司廣泛采用。
“第一次大會(huì)上,我們請(qǐng)到了Yahoo!、百度、Facebook的人。當(dāng)時(shí)Facebook的工程師提到Hadoop和Hive在Facebook的應(yīng)用遇到了一些問題——他們用600臺(tái)機(jī)器專門處理數(shù)據(jù),但數(shù)據(jù)太多,存儲(chǔ)空間已接近飽和,而新的數(shù)據(jù)中心尚未交付?!辈槎Y說:“為了解決他們的問題,我們合作研究出了一種新的半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)格式:‘行列混合式存儲(chǔ)結(jié)構(gòu)-RcFile技術(shù)和實(shí)現(xiàn)代碼。行列的組合存儲(chǔ)比原先節(jié)約了百分之二十的空間,為Facebook切換到新數(shù)據(jù)中心爭(zhēng)取到了一段時(shí)間,解決了他們的燃眉之急?!睘榇?,查禮團(tuán)隊(duì)中的一名博士生直接被Facebook錄用,以幫助他們將生產(chǎn)系統(tǒng)的數(shù)據(jù)全面轉(zhuǎn)換為新的存儲(chǔ)格式。當(dāng)時(shí),在大數(shù)據(jù)領(lǐng)域,做出這樣的成果,讓國(guó)外的大公司如此大規(guī)模地應(yīng)用,實(shí)屬鳳毛麟角。
中國(guó)的大數(shù)據(jù)時(shí)代已呼嘯而至,數(shù)據(jù)技術(shù)與數(shù)據(jù)經(jīng)濟(jì)的發(fā)展是持續(xù)實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的支撐,深度應(yīng)用正將傳統(tǒng)“IT”從“后端”推向“前臺(tái)”。這種情況下,短短幾年,Hadoop in China大會(huì)的規(guī)模不斷擴(kuò)大,從草根大會(huì)向領(lǐng)域峰會(huì)邁進(jìn)。
對(duì)于查禮來說,最讓他開心的不是Hadoop in China大會(huì)規(guī)模的不斷擴(kuò)大,而是可以借助這個(gè)平臺(tái)接觸到工業(yè)界,了解他們所遇到的問題,并研究出解決方法。
從工業(yè)界的角度來看,除了Facebook從中獲益之外,華為的變化也很大?!叭A為此前從不開源,現(xiàn)在已經(jīng)能在Hadoop等開源社區(qū)里做貢獻(xiàn),從側(cè)面反映了開源理念在中國(guó)慢慢得到認(rèn)可了?!?/p>
對(duì)于查禮在開源社區(qū)方面所做的工作,計(jì)算所領(lǐng)導(dǎo)一貫是支持的。查禮說:“現(xiàn)在我的同事做出成果,也有很多直接就開源,畢竟開放源碼是展示成果的最好途徑?!?/p>
從專利技術(shù)到“數(shù)據(jù)魔方”
2011年,查禮開始與淘寶公司合作,幫助他們優(yōu)化“數(shù)據(jù)魔方”系統(tǒng)。“數(shù)據(jù)魔方”是淘寶官方出品的一款數(shù)據(jù)產(chǎn)品,主要提供行業(yè)數(shù)據(jù)分析、店鋪數(shù)據(jù)分析等。其中包含了品牌、店鋪、產(chǎn)品的排行榜,購(gòu)買人群的特征分析(年齡、性別、購(gòu)買時(shí)段、地域等)?!榜R云最早說淘寶轉(zhuǎn)型為數(shù)據(jù)公司,就是憑這個(gè)產(chǎn)品才有的底氣?!?/p>
“要想做到這些分析,最大的技術(shù)挑戰(zhàn)就是數(shù)據(jù)量太大,對(duì)上百億的記錄做實(shí)時(shí)查詢,傳統(tǒng)的數(shù)據(jù)庫(kù)是完全做不到的。還有一個(gè)問題就是時(shí)間范圍的限制,他們希望可以盡可能地?cái)U(kuò)大查詢操作的時(shí)間范圍。”計(jì)算所對(duì)于查禮去企業(yè)解決實(shí)際問題的行為非常支持,于是查禮帶著2名學(xué)生在杭州的淘寶總部花了3個(gè)月來攻克這項(xiàng)技術(shù)難關(guān)。
“這個(gè)項(xiàng)目中我們遇到了很多困難,因?yàn)樘詫毜募夹g(shù)人員的能力已經(jīng)很高,他們解決不了的問題其實(shí)已經(jīng)很難了。他們已經(jīng)在一條路上走到了極致,如果我繼續(xù)沿著這個(gè)思路走下去的話,是沒有出路的?!辈槎Y坦言道:“所幸我們?cè)谶@方面曾經(jīng)做出過創(chuàng)新,有自己發(fā)明的專利技術(shù),再做一些適配,才得以解決這個(gè)問題?!安槎Y將”互補(bǔ)式聚簇索引技術(shù)“-CCIndex專利發(fā)明應(yīng)用到淘寶網(wǎng)的“數(shù)據(jù)魔方”產(chǎn)品中,用以支持實(shí)時(shí)多維區(qū)間查詢,最終啃下了這塊硬骨頭。
查禮的成果絕大多數(shù)都體現(xiàn)在實(shí)際應(yīng)用中,這也是他與其他高校和科研院所的研究人員最大的不同。他認(rèn)為,把科研論文寫出來之后,并不是終點(diǎn)。他更傾向于再往前一步,將論文應(yīng)用到實(shí)際中。甚至在論文選題的時(shí)候,他就做好規(guī)劃,只選可以解決實(shí)際問題并能夠最終落地的項(xiàng)目。“我有很多項(xiàng)目的來源是在我去和一線開發(fā)人員交流的時(shí)候產(chǎn)生的——我的問題是來自實(shí)際的,那么我的研究成果就可以直接解決現(xiàn)實(shí)問題?!?/p>
不管是科研還是教學(xué),查禮都不愿意跟隨別人的既定模式去走。他自己探索培養(yǎng)學(xué)生的方式,認(rèn)為指導(dǎo)學(xué)生最重要的是要培養(yǎng)他們的科學(xué)素養(yǎng)?!爱?dāng)他們對(duì)自己研究的科學(xué)問題有了一些新的想法,對(duì)科研有了興趣,才算真正入了門。”
“云計(jì)算”是新一代信息技術(shù)的重要發(fā)展方向,是我國(guó)新一代信息技術(shù)產(chǎn)業(yè)實(shí)現(xiàn)創(chuàng)新突破、跨越式發(fā)展的戰(zhàn)略機(jī)遇。查禮承擔(dān)過多項(xiàng)國(guó)家“863”重大專項(xiàng)、“863”國(guó)際合作、發(fā)改委專項(xiàng)和歐盟第六框架(FP6)國(guó)際合作課題,以及“863”計(jì)劃“中國(guó)云”一期和二期中與大數(shù)據(jù)系統(tǒng)相關(guān)的課題,曾獲2007年度和2012年度國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)。
對(duì)于這些成果的取得,查禮認(rèn)為,每個(gè)人都應(yīng)該找尋屬于自己的道路。而最適合他的,就是這樣一條與工業(yè)界聯(lián)系密切,“接地氣”的科研之路。他選擇了這條科研之路,在這條路上走了十余年,并將一直走下去。
科學(xué)中國(guó)人2016年10期