錢 煒
在世界超級計(jì)算機(jī)權(quán)威組織TOP500今年發(fā)布的榜單上,中國的首臺(tái)千萬億次超級計(jì)算機(jī)“天河一號(hào)”打破了美國長期保持的世界第一的紀(jì)錄,成為超級計(jì)算機(jī)新的世界之冠?!疤旌右惶?hào)”研發(fā)團(tuán)隊(duì)贏得的并非只是一場“看誰更快”的競賽,而是一場為榮譽(yù)為國家的理想主義之戰(zhàn)。
由國防科技大學(xué)的年輕科技工作者組成“天河一號(hào)”研發(fā)團(tuán)隊(duì),平均年齡只有30歲。他們出于對“銀河”(我國第一臺(tái)億次巨型計(jì)算機(jī))的熱愛而聚到一起,堅(jiān)持走自主創(chuàng)新之路,努力突破核心元器件技術(shù)瓶頸,沖到了該領(lǐng)域的世界之巔。
“這是一項(xiàng)偉大的事業(yè),參與者都有莫大的自豪感,這是多少金錢也買不來的?!?/p>
皮膚白凈、身材高挑的盧宇彤,在以男性居多的“天河一號(hào)”研發(fā)團(tuán)隊(duì)里,可算是“萬綠叢中一點(diǎn)紅”。當(dāng)記者問她身為一名女性,當(dāng)初為何要來軍校這么枯燥單調(diào)的地方時(shí),她不假思索地說:“因?yàn)槲覐男【蛷臅现溃@里是銀河—Ⅰ誕生的地方,我向往這里啊!”
隨著“天河一號(hào)”再次載入史冊,盧宇彤完美地實(shí)現(xiàn)了自己的“銀河夢”。
2010年11月17日,世界超級計(jì)算機(jī)權(quán)威組織TOP500發(fā)布了最新一屆世界超級計(jì)算機(jī)500強(qiáng)榜單。由中國國防科技大學(xué)研發(fā)的千萬億次級超級計(jì)算機(jī)“天河一號(hào)”榮膺第一。
從國防科大的北門進(jìn)去,一眼就能望見按照“天河一號(hào)”的樣子新建起來的計(jì)算機(jī)學(xué)院科研樓。由于整臺(tái)機(jī)器現(xiàn)已安裝在天津的超算中心,一樓近千平方米的機(jī)房如今已是“機(jī)去樓空”。倒是在舊樓實(shí)驗(yàn)室里,記者看到了一臺(tái)正運(yùn)行著的小型超級計(jì)算機(jī),深銀灰色的機(jī)組群上閃爍著藍(lán)色的指示燈,就像夜空中的繁星。身為團(tuán)隊(duì)主任設(shè)計(jì)師的盧宇彤告訴記者,這里,就是“天河一號(hào)”開始的地方。
成功“翻墻”的混搭結(jié)構(gòu)
2007年夏,天河研發(fā)團(tuán)隊(duì)總設(shè)計(jì)師、國防科大副校長楊學(xué)軍教授在國際計(jì)算機(jī)體系結(jié)構(gòu)年會(huì)上發(fā)表了論文《64位流處理器體系結(jié)構(gòu)研究》,引起轟動(dòng)。其原因,不僅僅由于這是近十幾年來中國內(nèi)地學(xué)者首次獨(dú)立在這一頂尖水平會(huì)議上發(fā)表成果。
普通個(gè)人電腦的結(jié)構(gòu),就是主機(jī)+顯示屏,而主機(jī)的心臟是CPU。據(jù)“天河一號(hào)”工程辦公室主任李楠介紹,從上世紀(jì)90年代開始,超級計(jì)算機(jī)的主流技術(shù)路線是大規(guī)模并行,簡單地說,就是把幾十、幾百、上千個(gè)CPU聯(lián)結(jié)在一起。但到了2000年,當(dāng)超級計(jì)算機(jī)的速度達(dá)到了萬億次并向更高的水平發(fā)展時(shí),人們發(fā)現(xiàn),CPU數(shù)量增加到一定程度時(shí),并不能帶來運(yùn)算速度的提高,卻遇到了一系列的瓶頸無法解決。
科研人員將這些問題形象地稱之為“墻”。比如,有“內(nèi)存墻”,CPU多了但內(nèi)存帶寬有限,這會(huì)影響CPU讀取數(shù)據(jù)的速度,就像一條4車道的高速公路上擠滿了車,跑不快。有“功耗墻”,超級計(jì)算機(jī)規(guī)模越來越大,用電量也隨之增大。一臺(tái)千萬億次的超級計(jì)算機(jī)的用電量就將相當(dāng)于一個(gè)中等城市的用電量。曾有專家說:“如果不解決功耗問題,今后超級計(jì)算機(jī)只能與核電站建在一起?!边€有“造價(jià)墻”,國外建造一臺(tái)超級計(jì)算機(jī)往往要斥資上十億美元,投入巨大。
為翻過這些“墻”,國際上有人提出“異構(gòu)”的概念,將CPU與某種加速器結(jié)合起來以提高效率。但至于用什么類型的加速器,二者如何融合,大家都在研究。
楊學(xué)軍的論文,正是從理論上確定了CPU+GPU這種異構(gòu)結(jié)構(gòu)的可行性,意義非凡。于是,國防科大決定根據(jù)這個(gè)思路來研發(fā)千萬億次超級計(jì)算機(jī)。
科研人員從國外買回性能最好的GPU,將其與CPU連在一起,卻發(fā)現(xiàn)運(yùn)算效率只有20%。“當(dāng)時(shí)我們看到這個(gè)結(jié)果,心里都涼了半截,但經(jīng)過分析發(fā)現(xiàn),從技術(shù)原理上來說,這個(gè)結(jié)構(gòu)是應(yīng)該能達(dá)到更高效率的?!崩铋f,
“原因很簡單,就好像我倆跑步速度不一樣,我要等你趕上來了才能一起執(zhí)行下一個(gè)任務(wù),效率肯定低了?!碧旌友邪l(fā)團(tuán)隊(duì)副總設(shè)計(jì)師胡慶豐解釋說。實(shí)際上,GPU適合處理結(jié)構(gòu)比較規(guī)整的批量數(shù)據(jù),而CPU擅長復(fù)雜的邏輯運(yùn)算,如果能合理分配任務(wù),讓二者分別干自己適合的事情,這樣就能大幅提高效率。
“但這就不只是硬件的問題了,而是要從底層軟件的層面讓二者更好地融合?!焙鷳c豐說。
為了突破這個(gè)難關(guān),他們拉著核心團(tuán)隊(duì)去長沙郊區(qū)一個(gè)叫母山基地的地方去“閉關(guān)”。那個(gè)地方手機(jī)信號(hào)差,不通公交車,人呆在那兒更容易沉下心來思考問題。
長達(dá)半年的“閉關(guān)”取得了突破性進(jìn)展——在實(shí)驗(yàn)室條件下,CPU+GPU的性能最高達(dá)到了70%,之前的那些“墻”都被一一成功翻越。
目前整個(gè)“天河一號(hào)”二期系統(tǒng),共使用了16384個(gè)CPU,7168個(gè)GPU。GPU結(jié)構(gòu)簡單,功耗低,價(jià)格也比CPU便宜很多。
美國斯坦福大學(xué)計(jì)算機(jī)系主任比爾·戴利教授就曾表示:“中國的天河計(jì)算機(jī)采取的CPU+GPU的結(jié)構(gòu),代表了未來高性能計(jì)算機(jī)的發(fā)展趨勢。隨著計(jì)算機(jī)規(guī)模的不斷拓展,這種結(jié)構(gòu)雖然不是唯一的解決方法,但目前看來是最好的。”
“這是一項(xiàng)偉大的事業(yè)”
楊學(xué)軍還清楚地記得他在1988年曾經(jīng)歷的一幕:中國氣象局有一間專門的屋子,里面放著從國外租來的超級計(jì)算機(jī)。因?yàn)槊绹瞬辉敢獍堰@種計(jì)算機(jī)賣給中國,中國氣象局只能租用。計(jì)算機(jī)拉到中國后,放置它的屋子有24小時(shí)監(jiān)控,中國人不能進(jìn),連操作的技術(shù)人員都是外國人。
“過去我們經(jīng)常遇到這種情況,大家心里都有種被刺痛的感覺。所以,我們一定要有自己的超級計(jì)算機(jī)?!彼f。
超級計(jì)算機(jī)的發(fā)展規(guī)律是每十年性能提高1000倍。2000年的國際先進(jìn)水平是萬億次,那么到2010年左右將會(huì)達(dá)到千萬億次。因此在2005年,當(dāng)國產(chǎn)超級計(jì)算機(jī)才剛剛突破十萬億次之時(shí),楊學(xué)軍感到,如果要占領(lǐng)制高點(diǎn),就要盡快攻克千萬億次超級計(jì)算機(jī)系統(tǒng)。
“我們在‘天河一號(hào)的研制過程中,堅(jiān)持走自主創(chuàng)新之路,努力突破核心元器件技術(shù)瓶頸,極大增強(qiáng)了自主創(chuàng)新能力”,團(tuán)隊(duì)副總設(shè)計(jì)師、計(jì)算機(jī)學(xué)院院長廖湘科教授說。
整個(gè)天河研發(fā)團(tuán)隊(duì)非常年輕,平均年齡只有30歲,總設(shè)計(jì)師楊學(xué)軍也才46歲?!耙?yàn)榇蠹叶际悄贻p人,每次開會(huì)討論問題,大家都爭得臉紅脖子粗,就像吵架一樣,沒有老師學(xué)生的區(qū)別,沒有上下級的區(qū)別。這樣輕松開放的氛圍,才利于我們盡快找出問題的癥結(jié)所在,才能出新。”盧宇彤告訴記者。
團(tuán)隊(duì)里,有很多人都像盧宇彤一樣,出于對“銀河”的向往而來到這里?!啊貞炎鎳?、團(tuán)結(jié)協(xié)作、志在高峰、奮勇拼搏,正因?yàn)槲覀冇羞@樣的‘銀河精神,才能有今天的成績?!眹揽拼笥?jì)算機(jī)學(xué)院政委劉學(xué)民表示。
據(jù)說,曾有外國公司以年薪30萬美元的高薪來挖團(tuán)隊(duì)里的骨干,卻空手而歸。
“天河一號(hào)”除了在結(jié)構(gòu)上有突破,還擁有多項(xiàng)創(chuàng)新,如自主設(shè)計(jì)的高階路由芯片和高速網(wǎng)絡(luò)接口芯片。此外,值得一提的是,“天河一號(hào)”的CPU芯片中,有一部分為國防科大自主研發(fā)的飛騰—1000。
“目前之所以沒有全部使用國產(chǎn)CPU,一個(gè)重要原因是考慮到用戶使用的很多第三方軟件都在基于國外芯片環(huán)境開發(fā)的,在飛騰上無法運(yùn)行?!崩铋忉屨f。
TOP500自1993年發(fā)布以來,就成了超級計(jì)算機(jī)的“奧運(yùn)會(huì)”。而美國長期在此占據(jù)第一名的位置,并在榜單中擁有最多席位,只在2002年,被日本研發(fā)的“地球模擬器”首次超越。兩年半后,美國重返榜首。此次“天河一號(hào)”的后來居上,再次打破了美國已連續(xù)保持6年第一的紀(jì)錄,在國外同行中引起震動(dòng)。
然而,超級計(jì)算機(jī)究竟有什么用?是不是像有些人想象的那樣,各國爭相研發(fā)超級計(jì)算機(jī)只是一場單純的“看誰更快”的競賽?
對此,李楠表示,超級計(jì)算機(jī)可以幫助眾多領(lǐng)域的科學(xué)家更好地理解自然世界、發(fā)現(xiàn)科學(xué)規(guī)律,從而推動(dòng)科技進(jìn)步,涉及的領(lǐng)域包括生物醫(yī)學(xué)、氣候預(yù)測、地球物理勘測和材料科學(xué)等。尤其在國防領(lǐng)域,目前美國已基本停止了核武器試驗(yàn),而改在超級計(jì)算機(jī)上進(jìn)行模擬試驗(yàn)。因此,超級計(jì)算機(jī)對于國防來說,具有重大意義。
盧宇彤告訴記者,“天河一號(hào)”在天津超算中心投入使用后,已經(jīng)有幾十家用戶排隊(duì)預(yù)約。中石油有項(xiàng)運(yùn)算任務(wù),在以前的超級計(jì)算機(jī)上,需要3個(gè)月才能算完,在“天河一號(hào)”上只跑了不到一個(gè)星期就完成了。
不過,即使是目前“天河一號(hào)”的運(yùn)算速度,也不能完全滿足目前的科研需要,胡慶豐說,“估計(jì)當(dāng)計(jì)算速度達(dá)到百億億次時(shí),才能滿足需求。但到了那時(shí),也許科學(xué)上又會(huì)出現(xiàn)新的更復(fù)雜的問題,對超級計(jì)算速度提出更高要求。不過我們也樹立了新的目標(biāo),要向億億次發(fā)起沖擊?!薄?/p>