“ 中國高性能計算發(fā)展戰(zhàn)略”專題
高性能計算機是我國科學技術(shù)快速發(fā)展的標志性成果,已成為繼高鐵之后的又一張“中國名片”。一個發(fā)展中國家在尖端計算技術(shù)上能迅速走到世界前列,這是一件了不起的事情。對我國高性能計算機的現(xiàn)狀,有人極力贊美——“中國超級計算機技術(shù)實力碾壓美國”的醒目標題曾在網(wǎng)上刷屏;也有人表示疑慮,認為國產(chǎn)的超級計算機是“用航母運載沙丁魚”。對發(fā)展高性能計算的目標和策略選擇,學術(shù)界也有不同的看法。正確的戰(zhàn)略決策來源于對國情和技術(shù)發(fā)展趨勢實事求是的分析,而不是玩弄技術(shù)新名詞的“紙上談兵”。習近平總書記指出:“堅持實事求是,最基礎(chǔ)的工作在于搞清楚‘實事’,就是了解實際、掌握實情。這就要求我們必須不斷對實際情況作深入系統(tǒng)而不是粗枝大葉的調(diào)查研究,使思想、行動、決策符合客觀實際?!痹谂实怯嬎銠C領(lǐng)域“珠穆朗瑪峰”的關(guān)鍵時刻,我們需要遵循習近平總書記的指示,對我國高性能計算機的這件“實事”做深入系統(tǒng)的調(diào)查研究,做出符合客觀實際的決策。
《中國科學院院刊》作為“國家科學思想庫核心媒體”,是中國科學院建設(shè)國家高端智庫的核心傳播平臺?!吨袊茖W院院刊》2019 年第 6 期推出“中國高性能計算發(fā)展戰(zhàn)略”專題,邀請院內(nèi)外工作在第一線的專家,對涉及高性能計算發(fā)展的戰(zhàn)略性問題進行深入探討,旨在凝聚科技界、產(chǎn)業(yè)界及社會各界的共識,推動中國高性能計算更理性、更健康地向更高的目標發(fā)展。
在討論與高性能計算有關(guān)的戰(zhàn)略問題之前,先要明確高性能計算機究竟是指什么。高性能計算機并沒有嚴格的定義,人們在不同的場合講的“ 高性能計算機”的含義可能也不一樣。① 國際組織定義。國際上有一個為世界上最高性能的 500 臺計算機排名的組織①該組織官網(wǎng)為:https://www.top500.org。TOP500榜單始于1993年,是對全球已安裝的超級計算機“排座次”的知名排行榜,由美國和德國超算專家聯(lián)合編制。TOP500榜單每半年發(fā)布一次。排行榜主要編撰人為美國田納西大學計算機學教授杰克 · 唐加拉。,最近一次排名是 2019 年 6 月,第 500 名的峰值性能是 2.1 Pflops(2 100萬億次浮點計算每秒)。在這個組織的網(wǎng)站上,高性能計算機(High Performance Computer,HPC)和超級計算機(Supercomputer)是混用的,不加區(qū)分地當成一種計算機類型。也就是說,目前他們把超級計算機(高性能計算機)圈定在 Pflops 級(千萬億次浮點計算每秒)計算機水平。本專題討論的重點也是 Pflops 級以上的超級計算機。② 市場的定義。企業(yè)在銷售計算機時,高性能計算機是指區(qū)別于個人電腦(PC 機)與低檔服務(wù)器的計算機,往往認為價格在 10 萬元人民幣以上的就是高性能計算機,而把超級計算機看作是最高檔的幾百臺高性能計算機。
請注意,本專題討論“高性能計算”,包括硬件、軟件、算法、應(yīng)用、產(chǎn)業(yè)生態(tài)環(huán)境等,不僅僅限于構(gòu)建“高性能計算機”——一字之差反映不同的戰(zhàn)略思維。高性能計算本身就是國家的戰(zhàn)略重器,涉及的戰(zhàn)略性問題很多,由于篇幅有限,下面列出幾個社會各界較為關(guān)心的戰(zhàn)略性問題,稍做說明,供讀者參考。
高性能計算可以應(yīng)用于核模擬、密碼破譯、氣候模擬、宇宙探索、基因研究、災(zāi)害預(yù)報、工業(yè)設(shè)計、新藥研制、材料研究、動漫渲染等眾多領(lǐng)域,對國防、國民經(jīng)濟建設(shè)和民生福祉都有不可替代的重大作用,發(fā)展高性能計算就是要讓這巨大的作用發(fā)揮出來。同時,高性能計算也是中美大國博弈的重要領(lǐng)域,每一次較量的勝利都會給國人極大的激勵,有力增強了民族自豪感和凝聚力。因此,發(fā)展高性能計算意義重大。
我國發(fā)展高性能計算需要正確處理世界排名與實際效用這兩者的關(guān)系。其實,我國與美國在高性能計算領(lǐng)域的博弈,主要是因為該領(lǐng)域研究對國防、經(jīng)濟和民生的實際效益,而不是某一次排名是否第一。只要認清楚這一點,兩者就統(tǒng)一了。如果不重視實際應(yīng)用績效,而只把排名第一作為“政治正確”的標志,可能會產(chǎn)生誤導。
如果把高性能計算機理解成超級計算機,其在整個計算機產(chǎn)業(yè)中占比并不大。超級計算機主要是用來解決其他計算機解決不了的挑戰(zhàn)性問題,采用幾萬個甚至百萬個以上的處理器并行協(xié)同解決一個大問題。在實際應(yīng)用中,更多的場合是需要同時響應(yīng)大量的任務(wù)請求,即不是要算得快而是要算得多。這一類應(yīng)用需要高通量計算機,主要由云計算中心和大數(shù)據(jù)中心部署。目前銀行等金融行業(yè)還在大量采購美國 IBM 的主機系統(tǒng)(Mainframe),他們買的主要不是計算速度,而是可靠性和軟件的兼容性,業(yè)界稱為高可靠或高可用系統(tǒng)。我國的計算機產(chǎn)業(yè)要從中低端向高端發(fā)展,因此我們的任務(wù)不僅僅是發(fā)展超級計算機,而且包含發(fā)展高端計算機。
美國政府 2015 年發(fā)布的“國家戰(zhàn)略性計算計劃”(NSCI)就是一個較全面的頂層規(guī)劃,而 2016 年啟動的E級計算機研制計劃(ECP)只是美國能源部對 NSCI 計劃的響應(yīng)。我國國家重點研發(fā)計劃中有“E 級計算機關(guān)鍵技術(shù)驗證系統(tǒng)”重點專項,但沒有包括其他高端計算級的頂層規(guī)劃。在我國高通量計算機至今沒有重大項目支持,幾大網(wǎng)絡(luò)服務(wù)商需要的云計算和數(shù)據(jù)中心設(shè)備基本上是自行設(shè)計,并委托其他公司組裝。如果長期缺乏全國科技力量的支持,我國網(wǎng)絡(luò)服務(wù)企業(yè)將難以形成全球競爭優(yōu)勢。
高性能計算機有兩種基本類型:① 能力(capability)型,強調(diào)解決單一復雜問題的最高計算速度,盡量縮短求解一個最大最難問題的時間;② 容量(capacity)型,強調(diào)同時處理多個大任務(wù),每一個任務(wù)只用到計算機的一部分能力。全球 TOP 500 超級計算機大多數(shù)屬于容量型??茖W研究對計算能力的需求是無止境的,E 級(1018)計算機做出來后,還會提出 Z 級(1021)計算的需求。研制能力型超級計算機必須突破現(xiàn)有計算機的技術(shù)瓶頸,以引領(lǐng)計算機技術(shù)的發(fā)展,因此。美國的 ECP 計劃的目標是研制能力型計算機。
世界上最高水平的超級計算機,主要用于科學研究,而科學計算在高性能計算機應(yīng)用中占的比例已不到 10%。近幾年大數(shù)據(jù)分析和機器學習等人工智能應(yīng)用已成為高性能計算機的主要負載,2017 年智能應(yīng)用在中國高性能計算機應(yīng)用中的占比已提升到 56%,估計這個比例今后還將繼續(xù)擴大。美國、日本等國紛紛將正在研制的超級計算機稱為智能計算機。
長期以來,評測超級計算機的性能都采用 Linpack測試程序,這是一個求解線性方程組的程序。這個程序的優(yōu)點是可擴展性特別好,現(xiàn)在還沒找到比它擴展性更好的測試程序。而且,Linpack 是 CPU 密集應(yīng)用的程序,可以測出幾乎滿負荷、滿功耗下的計算機浮點計算性能。從這個意義上講,Linpack 是測試超級計算機可靠性和穩(wěn)定性的理想程序。但是,求解線性方程組終究只是一種應(yīng)用,全面衡量超級計算機的性能需要更合適的基準(benchmark)測試程序,可惜現(xiàn)在還沒有。由于功耗的限制,發(fā)展通用超級計算機已遇到極大的困難,近年來領(lǐng)域?qū)S贸売嬎銠C成為熱門研究方向,Linpack 顯然不適合作為領(lǐng)域?qū)S糜嬎銠C的測試標準。
我國應(yīng)重點發(fā)展什么類型的高性能計算機,這不是一個學術(shù)問題,而是一個科技需求問題,只有通過對我國國防、經(jīng)濟、科研和民生的潛在需求的認真調(diào)研才能回答。但有一點可以肯定,容量性超級計算機、智能計算機、領(lǐng)域?qū)S贸売嬎銠C與能力型超級計算機一樣重要,在做科技決策時應(yīng)統(tǒng)籌兼顧。把研制E級高性能計算機的全部人力物力都投在爭取 Linpack 指標世界第一可能是不明智的決策。
從理論上講,我國對超級計算機肯定有強烈需求;但從實際上講,這一需求還與一個國家的科研水平、經(jīng)濟水平有關(guān)。2018 年,中國氣象局安裝了派-曙光超級計算機,峰值計算性能是 8 Pflops,計算能力已躍居氣象領(lǐng)域世界第 3 位。眾所周知,氣象領(lǐng)域是使用超算的大戶,目前能正常發(fā)揮作用的超級計算機離E級計算還有兩個數(shù)量級的差距。氣象部門要把E級超級計算機用起來,必須在基礎(chǔ)研究、算法、軟件和人才培養(yǎng)上做出巨大的努力。有人說,先有 E 級機,才會有 E 級計算的需求。這是對的,我們需要在 E 級計算機上培養(yǎng) E 級用戶。但一臺超級計算機的平均有效壽命只有 5 年,5 年內(nèi)哪些應(yīng)用領(lǐng)域的用戶可以培養(yǎng)出來也需要通過調(diào)研做出判斷。
我國現(xiàn)有的超算中心究竟應(yīng)用效益高不高是一個頗有爭議的問題。有些超算中心宣稱效益非常好,支持了上千項國家重大科技項目,產(chǎn)生了近百億元經(jīng)濟效益;而媒體上也有文章說超算中心核心應(yīng)用拓展不夠,沒有產(chǎn)生預(yù)期功效。造成這種局面的原因是缺乏第三方的公正評估。國家應(yīng)組織有公信力的評測機構(gòu)或?qū)W會對全國的超算中心做一次評估,了解清楚超算中心究竟完成了多少事關(guān)國家重大戰(zhàn)略需求的計算任務(wù)?借助超算做出了哪些重大科學發(fā)現(xiàn)?對經(jīng)濟發(fā)展作出了哪些不可替代的貢獻?P 級(1015)以上的計算任務(wù)究竟占多大比例?……只有按照習近平總書記講的搞清楚“實事”,掌握了實情,才能對我國超算的實際應(yīng)用水平做出正確判斷。
人們常說,發(fā)展科技既要需求牽引,又要技術(shù)驅(qū)動。但在實際過程中,往往有所偏重。比較而言,美國發(fā)展超級計算機主要是應(yīng)用牽引,而我國側(cè)重于技術(shù)驅(qū)動。從一個例子可以看出美國應(yīng)用牽引的傾向。美國最近開展的 ECP 計劃的負責人 Paul Messina 是美國阿貢實驗室的計算機應(yīng)用科學家,ECP 計劃則是由阿貢實驗室(超級計算機的應(yīng)用方)主導的科研項目。在 Summit 計算機交付之前,美國能源部已經(jīng)成立了 25 個應(yīng)用軟件研發(fā)小組,設(shè)計能夠利用E級計算機的軟件。ECP 計劃是否成功的指標不是 Linpack 性能,而是這 25 個應(yīng)用性能的“幾何平均值”,這意味著其中任何一個應(yīng)用的性能都不能很差。美國是先有挑戰(zhàn)性應(yīng)用問題,為解決應(yīng)用問題造新的計算機;我國的做法則是先造出世界領(lǐng)先的機器,再來找應(yīng)用。發(fā)展超級計算機一定要國家戰(zhàn)略導向,以及戰(zhàn)略中的挑戰(zhàn)問題導向。在研制新的超級計算機之前,應(yīng)用部門一定要先把急需解決的挑戰(zhàn)問題明明白白提出來,用可考核的應(yīng)用性能指標來評價正在研制的計算機。在應(yīng)用牽引上我們應(yīng)虛心地向美國同行學習。
強調(diào)應(yīng)用牽引不是說技術(shù)驅(qū)動不重要。由于摩爾定律臨近極限,學術(shù)界普遍認為現(xiàn)在是系統(tǒng)結(jié)構(gòu)研究的黃金時代,但系統(tǒng)結(jié)構(gòu)研究的困難超出人們的預(yù)期。
在 ECP 計劃剛啟動時,Paul Messina 強調(diào) E 級計算機研制要走所謂高架軌道(Higher Trajectory),兩年以后描述 E 級計算的用語已經(jīng)從“新型(novel)”轉(zhuǎn)向比較乏味的“先進(advanced)”,Summit 計算機的重大技術(shù)突破也不多。對于 E 級計算機和以后更高性能的超級計算機研制者,能耗、訪存、通信、可靠性、應(yīng)用性能這幾道“高墻”必須越過。沒有關(guān)鍵技術(shù)的重大突破,超級計算機不可能再上一個大臺階。中國計算機學者應(yīng)當在這一征程中作出載入史冊的貢獻。國家在安排高性能計算重大科研任務(wù)時,不能只盯住工程任務(wù),應(yīng)更加重視顛覆性器件(如新型存儲器件、超導、量子、光子器件等,以及幾種器件的跨界協(xié)同設(shè)計)和變革性系統(tǒng)結(jié)構(gòu)的基礎(chǔ)研究。降低功耗的技術(shù)突破要擺在最優(yōu)先的位置。
所謂科研和產(chǎn)業(yè)生態(tài)環(huán)境是指圍繞著一個目標形成的,從基礎(chǔ)研究、技術(shù)突破、產(chǎn)品研發(fā)到應(yīng)用推廣的協(xié)作共同體,不是簡單的鏈條,而是相互關(guān)聯(lián)的社會網(wǎng)絡(luò)。
對我國高性能計算生態(tài)環(huán)境而言,最薄弱的環(huán)節(jié)是軟件。目前,我國大型科學計算的應(yīng)用軟件基本上都依靠進口。我國的超算經(jīng)費用于應(yīng)用軟件開發(fā)的還不到 10%,美國相應(yīng)的投入資金約為中國的 6 倍。振興軟件的關(guān)鍵是人才,目前能培養(yǎng)高性能計算軟件人才的大學很少,因此建議應(yīng)擴大該領(lǐng)域的招生名額。美國參與 ECP 計劃軟件開發(fā)的大學并不都是一流大學,一般的大學也承擔了開發(fā)任務(wù)。
我國高性能計算生態(tài)環(huán)境的另一個薄弱環(huán)節(jié)是企業(yè)應(yīng)用。美國公司的超算系統(tǒng)規(guī)模是中國公司的 10 倍多。例如,汽車行業(yè)的通用、克萊斯勒等公司,每家都有 10 多個超算系統(tǒng),英國的 BP 石油公司也有世界上最大的工業(yè)用超級計算機。我國使用高性能計算機較多的是 BAT(百度、阿里巴巴、騰訊)等網(wǎng)絡(luò)服務(wù)公司,而在制造業(yè)的應(yīng)用則規(guī)模較小。只有企業(yè)較普遍地用上了高性能計算機,才能真正走上高質(zhì)量發(fā)展道路。構(gòu)建高性能計算生態(tài)環(huán)境時,還要重視發(fā)揮骨干企業(yè)的作用。高性能計算機研發(fā)的一次性工程(即非經(jīng)常性工程,NRE)費用很高,只有通過企業(yè)的工業(yè)化設(shè)計,采用標準化組件和 Scale down 技術(shù),才能使小規(guī)模的高性能計算機具有很高的性能價格比,通過批量銷售收回 NRE 成本,才能使國家科研投入獲得較高的回報。
本期專題由中國科學院計算技術(shù)研究所孫凝暉研究員、中科曙光公司歷軍總裁指導推進,文章作者還包括譚光明、金鐘、遲學斌、孫家昶、李根國、馮圣中、范東睿、詹劍鋒等,他們都是第一線的科研人員,有些已在高性能計算領(lǐng)域耕耘了二三十年。上述幾個戰(zhàn)略性問題在他們的文章中都有較詳細的論述。一線科研人員的戰(zhàn)略思考是基于常年的實踐體會,既有“頂天”的技術(shù)眼光,又很接地氣,值得決策部門重視。