盛樂標,游偉倩,周慶林
(南京大學 高性能計算中心,江蘇 南京 210093)
南京大學高性能計算中心[1]是在南京大學“985工程”的支持下于2010年3月正式成立的。近年來,隨著計算機技術和計算方法的發(fā)展,物理、化學、生物、大氣、天文等學科對計算資源有著迫切需求[2-5],國內(nèi)多所高校和科研院所紛紛開始采購大型的高性能計算集群[6-12],南京大學高性能計算中心正是在這樣的背景下成立的。通過成立高性能計算中心,學??梢约胁少彺笮偷母咝阅苡嬎慵?,為校內(nèi)的教師、學生以及校外的科研工作者提供高質(zhì)量的計算服務,對支援地方科技發(fā)展和經(jīng)濟建設具有積極的作用。南京大學是較早成立高性能計算中心的高校,建成后成為國內(nèi)高校超算中心的示范單位。在成立3年來,多次接待來自國內(nèi)高校、企事業(yè)單位以及政府部門的參觀訪問。本文將著重介紹南京大學高性能計算中心的建設經(jīng)驗與探索過程。
1999年,南京大學的幾位中科院院士出于對科學計算的需求,提出南京大學應該有一臺全校共享的大型計算機為學校的科研提供服務,并得到了學校的支持,在2000年的“985工程”一期項目中投資86萬美元購置了64顆CPU的SGI Origin 3800CCNUMA架構的共享內(nèi)存計算機,并由天文系代管。至2007年該計算機共為南京大學的物理、化學、大氣、天文、材料、電子等各院系提供了280萬CPU小時的計算服務。
隨著計算需求的不斷增加,現(xiàn)有的計算能力已經(jīng)遠遠不能滿足需求,迫切需要增加計算資源。此時,部分經(jīng)費充足的教師開始自己購置小型計算機集群,但是全校的計算資源需求缺口仍然很大。2005年,學校在“985工程”二期計劃中決定,再撥款2000萬元,購置和更新全校所需的大型共享計算設備,為全校教師提供更強大的計算能力和更多的計算資源。
為了更好地管理和使用這些大型計算設備,學校同時決定籌備南京大學高性能計算中心,全面負責對這些大型共享計算設備進行管理、維護和運營。2010年3月,南京大學高性能計算中心正式掛牌成立,其定位是南京大學高性能計算的公共服務平臺為全校各相關學科的教師和學生提供高性能科學計算服務,為學校提供人才培養(yǎng)和科技創(chuàng)新環(huán)境。
在成立高性能計算中心的論證討論過程中,專家組一致認為作為一個大型的高性能計算中心,需要提供2種類型的計算設備:一種為共享內(nèi)存型的SMP或CCNUMA架構的小型機;另一類為性價比較高的機架式或刀片式的大規(guī)模集群計算機。根據(jù)當時計算機的架構和性能估算,預計總計算能力理論浮點峰值可達10萬億次/秒以上。
由于適合大型計算集群的機房場地一直沒有落實,但計算資源的需求又十分突出,因此2007年學校先期購置了共享內(nèi)存型(CCNUMA)架構的小型計算機SGI Altix 4700,主要配置包括:Intel公司的安騰II雙核處理器(18兆緩存、1.6GHz主頻、256核)、512 GB內(nèi)存和4TB存儲。操作系統(tǒng)采用SUSE Linux Version 10,作業(yè)管理調(diào)度系統(tǒng)采用PBS-Pro,該系統(tǒng)于2007年11月投入運行。
2009年2月落實了機房場地后,在前期專家組的大量調(diào)研、測試和對各院系已有小型刀片集群案例進行深入了解的基礎上,大家一致認為大型刀片集群系統(tǒng)技術已經(jīng)成熟,性能穩(wěn)定可靠,可作為學校第2批采購的首選方案。同年3月,IBM公司以大型刀片系統(tǒng)Blade Center HS22中標,理論計算峰值34萬億次/秒。該系統(tǒng)主要包括以下產(chǎn)品:402臺IBM HS22刀片構成的計算節(jié)點,10臺HS22刀片登錄節(jié)點,30臺刀片機箱,3臺機架式X3650M2管理和作業(yè)調(diào)度節(jié)點,1臺X3550集群管理監(jiān)控節(jié)點,20臺X3650并行存儲節(jié)點(容量54TB),2臺Voltaire 288口20Gb 4XInfiniband交換機,4臺4口萬兆上行48口BNT公司的千兆交換機組成的千兆無阻塞作業(yè)調(diào)度系統(tǒng)和管理網(wǎng)絡,1臺容量128TB的IBM DS5300SAN架構光纖共享存儲系統(tǒng),全系統(tǒng)各節(jié)點采用RedHat Linux 5.3操作系統(tǒng),系統(tǒng)作業(yè)調(diào)度管理軟件采用Platform公司的LSF 7.0商用軟件,3218個許可證。整個高性能計算中心計算集群系統(tǒng)總體框架圖見圖1。
圖1 南京大學高性能計算中心計算集群系統(tǒng)總體框架圖
該套系統(tǒng)在2009年10月的Linpack測試中,用OpenMP和Intel MPI混合編程模式,取得了并行效率91.92%的佳績,Linpack實際計算能力達到了31.3萬億次/秒,在當年的國際計算機計算能力TOP500排行榜中列第203位,在中國高性能計算機性能TOP100排行榜中列第7位,在全國高校中位列第1位。
為了對高性能計算中心進行管理、制定相關政策、進行重大決策等,學校成立了高性能計算中心管理委員會,負責對高性能計算中心各方面的事務進行管理。管理委員會設主任1名,副主任3名,其他委員則由學校各個相關學科的教師擔任,委員人數(shù)共13位。管理委員會每年對高性能計算中心工作情況進行審核,并為下一年度的發(fā)展制定方向。
系統(tǒng)管理的好壞是決定高性能計算中心設備能否高質(zhì)量穩(wěn)定運營的主要方面。因此,系統(tǒng)管理人員的素質(zhì),對高性能計算中心的發(fā)展起著重要的作用。南京大學高性能計算中心有2名專職系統(tǒng)管理人員,都具有博士學位,除了負責對機房內(nèi)設備的日常維護外,還在高性能計算中心的多個方面發(fā)揮著積極作用。他們的日常工作內(nèi)容包括:每天例行檢查機器的運行情況,并對設備運行狀況作記錄;發(fā)現(xiàn)硬件故障的,收集機器故障碼及運行日志,不能自行處理的及時報修;設備修復及更換后徹查、驗收機器的修復情況,檢查機器是否恢復正常等。因為大型計算集群的復雜性,管理的難度也相應提高,系統(tǒng)管理人員必須具有較強的編程能力,能夠自己編寫腳本、軟件來實現(xiàn)一些定制化的管理功能。
除了要熟悉大型集群的管理之外,系統(tǒng)管理人員還需對物理、化學、生物等與并行計算相關的學科知識有一定的了解,熟練掌握1~2個學科的大型科學計算軟件。因為高性能計算集群主要是為需要高密度并行科學計算的教師和科研人員服務的,涉及到了各學科大型并行軟件的應用,如果沒有足夠的物理、化學等背景知識,那么系統(tǒng)管理人員最多只是將集群維持正常運行,對集群的性能提升、學科應用軟件的技術支持等都會力不從心,在與教師學生等關于應用軟件的交流溝通中也可能出現(xiàn)障礙。這也是高性能計算中心區(qū)別于一般的計算中心的一個方面。
根據(jù)高性能計算中心實際運營的情況,我們發(fā)現(xiàn)使用高性能計算集群頻率最高的人員是學校相關課題組的研究生。然而,目前在國內(nèi)絕大多數(shù)院校非計算機專業(yè)的本科生和研究生培養(yǎng)計劃中,都沒有開設高性能計算或者并行計算方面的課程,這就導致了很多研究生在開始從事計算方面的課題需要使用大型計算集群時遇到困難。為了普及高性能計算的基本知識、提高學生使用高性能計算機的興趣與能力、培養(yǎng)未來使用和熟悉高性能計算的后備軍,高性能計算中心決定在南京大學開設了“高性能計算”課程。該課程講授內(nèi)容包括:Linux基本知識、Shell腳本編程、MPI編程介紹和高性能計算在各個學科中的應用等。這門課開課以后,反響很好。許多學生修了這門課以后,很快就能學以致用,將所學知識結(jié)合到研究課題中去,進行并行編程及計算。由此可見,在高校中開設高性能計算課程十分必要。
收費還是免費?這也是高性能計算中心建立之初專家組討論得較多的話題之一。支持免費的一方認為學校統(tǒng)一出資建設的大型共享計算設施,應該為全校有需要的教師提供免費的科學計算服務;支持收費的一方認為完全的免費也會帶來大量的浪費,因為一旦全部計算資源免費,很多教師或?qū)W生在使用計算資源時將沒有節(jié)制,從而帶來計算集群成果產(chǎn)出效率的下降。最后,通過綜合這兩方面的意見,高性能計算中心決定采取象征性的收費政策,即:計算費0.10元/核·小時,硬盤占用費0.01元/GB·天(每位用戶可免費使用100GB)。對于計算量特別大的用戶,高性能計算中心還提供了兩檔包年費方案:
(1)256核、1TB硬盤容量:校內(nèi)用戶包年費用為10萬元人民幣/年;
(2)128核、1TB硬盤容量:校內(nèi)用戶包年費用為5萬元人民幣/年。
為了鼓勵用戶作出更多高水平的研究工作,更高效地使用計算資源,高性能計算中心還另外制定了論文獎勵措施。對發(fā)表高水平論文的用戶可以獎勵一個計算賬號免費使用高性能計算中心計算集群1~2年,無機時限制,但CPU核數(shù)上限限制為128核;對發(fā)表一級學科頂級期刊論文和其他SCI論文的,按照文章質(zhì)量和數(shù)量,也分別獎勵一定的機時。
南京大學高性能計算中心的建立,使大型計算機集群的管理更為專業(yè)和細致,緩解了南京大學以及地方的科研工作者計算資源短缺的問題,為他們提供了一個穩(wěn)定、可靠的計算環(huán)境。高性能計算機集群的良好運行和高性能計算中心完善細致的服務,提高了南京大學的科技成果產(chǎn)出效率,使得南京大學在計算方面的科學研究進一步與世界領先實驗室接軌。
(References)
[1]南京大學.高性能計算中心主頁[EB/OL].[2013-3-1].http://hpcc.nju.edu.cn.
[2]周毓麟,沈隆鈞.高性能計算的應用及戰(zhàn)略地位[J].中國科學院院刊,1999(3):184-187.
[3]張軍華,臧勝濤,單聯(lián)瑜,等.高性能計算的發(fā)展現(xiàn)狀及趨勢[J].石油地球物理勘探,2010,45(6):918-925.
[4]趙毅,朱鵬,遲學斌,等.淺析高性能計算應用的需求與發(fā)展[J].計算機研究與發(fā)展,2007,44(10):1640-1646.
[5]鄭曉鳴.淺析高性能計算的現(xiàn)狀與發(fā)展[J].福建電腦,2007(2):211.
[6]嚴雋琪.上海高性能計算公共服務平臺[J].工業(yè)工程與管理,2005(1):1-5.
[7]黃建忠,張滬寅,程媛.開放式高性能計算平臺的建設與研究[J].計算機教育,2012,22:55-59.
[8]關偉豪,吳汝明,郭清順,等.中山大學高性能計算服務平臺的建設[J].實驗技術與管理,2011,28(4):303-306.
[9]林皎,張武生,徐偉平.高性能計算平臺開放服務的探索與實踐[J].實驗技術與管理,2012,29(3):334-336.
[10]林新華.走出高性能計算中心的建設誤區(qū)[J].中國教育網(wǎng)絡,2009(5):42-43.
[11]姚繼鋒.什么成就了超算中心[J].中國教育網(wǎng)絡,2010(6):18-20.
[12]林皎,陳玉潔,張武生,等.高性能計算平臺建設的探索與實踐[J].實驗技術與管理,2012,29(5):217-220.