高金金
(山西財經大學 實驗中心,山西 太原 030006)
隨著數(shù)據信息爆炸式地發(fā)展,科學研究越來越倚重于高性能計算資源。高性能計算的發(fā)展也支撐著大數(shù)據與人工智能行業(yè)。高校作為科研的主力機構之一,有必要加強高性能計算平臺的建設。同時依據《教育信息化十年發(fā)展規(guī)劃(2011-2020 年)》和《教育部社會科學司2020年工作要點》中有關重點支持“文科實驗室”建設導性意見,山西省教育廳頒布的高校信息化建設要求以及山西省1331工程等重要文件的精神,從加快建設高水平大學和加強學?!半p一流”建設的目標出發(fā),適應師生對高性能計算云的強烈需求,實現(xiàn)高校信息化發(fā)展,提高科研競爭力和綜合實力,學校積極籌備建設高性能計算平臺。
“高性能計算云”將為學校各科研實驗室進行科學研究提供強大的高性能計算資源,特別是高時間復雜度和高空間復雜度的算法研究、大數(shù)據并行計算處理研究不出學校就可進行。該平臺的優(yōu)勢如下:1) 性能高;2) 建設成本低;3) 易于維護;4) 擴展性強;5) 資源調度能力高,資源利用率高;6) 軟件生態(tài)環(huán)境好;7) 兼容性強。
山西財經大學“實驗云”平臺建設由“桌面云”、“高性能計算云”、“實驗云基礎設施”三部分組成。本文在研究總結高性能計算平臺建設相關問題的主流解決方法的基礎上,給出了山西財經大學高性能計算平臺的具體方案,并對高性能計算平臺的管理運維模式進行詳細探討。
圖1 山西財經大學實驗云總體規(guī)劃
目前,全國大部分985、211重點高校都建有校級高性能計算平臺,其中規(guī)模最大的是南京大學校級高性能計算平臺,除此之外,北京大學計算中心也在進行高性能計算平臺更新?lián)Q代工作,新的高性能集群在2017年建成[1,2]。山西高校中比較大的超算平臺是山西大學校級高性能計算平臺。我們深入研究了國內外大量商業(yè)化超算中心與教育科研機構自建的高性能計算平臺,對它們的建設方案進行了分析研究,并深入了解了目前最先進的平臺軟硬件體系結構,掌握了現(xiàn)在高性能計算平臺的主流技術路線。在此基礎上,結合山西財經大學實際需求,給出山西財經大學高性能計算平臺的具體建設方案。該方案以高性能計算集群作為基礎架構,以適當?shù)挠嬎愎?jié)點資源為核心,搭配大容量高性能的存儲設施與大吞吐量的網絡設施共同構建。
現(xiàn)在主流的高性能計算平臺大多采用了計算機集群的方式作為計算系統(tǒng)。計算機集群通過高性能網絡整合異構且松散的計算資源于一體,將各種節(jié)點的邏輯地組合成一臺超級計算機。所以,財經大學高性能云平臺建設方案以高性能計算集群作為基礎架構。
1.2.1 通用計算資源
主流的高性能通用計算架構依然以X86架構為基礎。在X86架構之外,ARM架構也有了長足的進步, ARM的高級架構授權,對于發(fā)展我國基于ARM安全可控的自主CPU有很大的幫助。
方案中通用計算節(jié)點主要以高性能的X86架構的CPU與大容量內存為核心基礎,考慮到近年來我國大力推廣安全可控的硬件產品,CPU方面選取了國產的海光C86 7185。單個CPU擁有32個物理核心,單個節(jié)點采用2路CPU。內存方面,單個節(jié)點配備256G內存。通用計算節(jié)點共備3臺。
1.2.2 浮點計算資源
浮點計算對于GPU的需求非常高,而GPU必須搭配專用的顯存作為浮點計算內存使用,方案選擇了NVIDIA專業(yè)計算GPU Tesla V100作為浮點計算器,該型號GPU支持高性能雙精度浮點計算能力與GPU虛擬化技術,且顯存容量高達32G,單個節(jié)點安裝兩路GPU。相對于通用計算節(jié)點,浮點計算節(jié)點對于CPU的需求不算太高,但考慮到浮點計算節(jié)點往往也會參與部分數(shù)據處理計算,方案選取了Intel 至強黃金5115,單個CPU擁有10個物理核心,單個節(jié)點配備2路CPU和256G內存。浮點計算節(jié)點共配備3臺。
存儲系統(tǒng)應當具備超高的并發(fā)性能與較高的吞吐速率和一定的穩(wěn)定性與可維護性[3]。FC-SAN磁盤陣列系統(tǒng)在吞吐能力方面能夠滿足計算的IO需求,并且IO性能方面也有著一定的擴展性。
本方案存儲設備方面選擇了曙光DS600系列磁盤陣列系統(tǒng)。該系統(tǒng)配備的4個8Gb SFP光纖模塊能夠提供足夠的計算需求吞吐量。除了FC-SAN通信能力之外,還支持多種通信方式,且通信模塊還可以擴展一倍以支持后期更大的吞吐需求。單臺設備可安裝12個3.5寸SAS硬盤。
主流網絡設施以InfiniBand為核心,外圍輔助以太網。交換機選用專用的InfiniBand交換設備。管理網絡方面以千兆以太網絡為主。考慮到計算節(jié)點的異構性和兼容性,網絡設施不適合使用高度定制化的產品。萬兆以太網絡可以滿足部分低吞吐需求的集群或者集群的邊緣業(yè)務部分,且具有成本低、用戶基礎廣、技術成熟度高等優(yōu)點。InfiniBand在超大吞吐量計算需求的集群中有著廣泛的應用,其速率可達到40Gbps~100Gbps,穩(wěn)定性高、延遲低。Intel Omni-Path是一種與Intel CPU集成的超高速網絡方案,但是對非Intel的產品兼容性不佳。
Linux是一類由開源社區(qū)維護的操作系統(tǒng)。非常適合用作于超算的操作系統(tǒng)基礎設施。
本方案的操作系統(tǒng)選取了Linux系的主流發(fā)行版之一的Cent OS 64位版。
集群調度管理與運維方面,以曙光Gridview系列配套軟件為基礎。
為保證高性能計算平臺持續(xù)穩(wěn)定運行,平臺硬件所處的環(huán)境在溫度、濕度、供配電等多個方面提供必要的保障。本方案基礎設施采用模塊化數(shù)據中心模式,構建承載HPC高性能計算和實驗室教學及實驗所需的環(huán)境基礎設施,包括UPS不間斷電源、蓄電池、供配電、制冷系統(tǒng)、動力環(huán)境系統(tǒng)等。
高性能計算平臺建設投入大、運行和維護費用高,因此運維體系十分重要[4],需要從管理、技術、人員等多方面去考慮,堅持“以人為本”的原則,建立科學的平臺管理運維體系,保持平臺良好運行生態(tài)。
制定嚴格的制度管理。高性能計算平臺的硬件設施必須能夠提供除必要維護外的不間斷服務,嚴格的制度管理是設備安全運行的保證。平臺必須有嚴格的設備檢查制度,消除配電、空調等設備方面帶來的安全隱患。計算集群應有全面完善的專業(yè)化監(jiān)控運維設施,實現(xiàn)客戶HPC資產全生命周期管理服務及自動化運維,實現(xiàn)基于“互聯(lián)網+”模式下的HPC生態(tài)圈。
運維中心要制定高性能平臺發(fā)展戰(zhàn)略以及相關的技術咨詢服務方案。建立完備的用戶申請流程,提供相應的技術服務,比如協(xié)助用戶安裝軟件、配置實驗環(huán)境,向用戶收集反饋信息等,解決用戶在具體應用中遇到的各類問題。通過在高性能平臺門戶網站上進行相關內容的更新發(fā)布來給予用戶及時全面的平臺信息。邀請高性能計算專家來校訪問,舉辦高性能計算應用系列講座進行短期培訓,去兄弟院校相關部門進行交流,通過多渠道提高技術服務的質量。
平臺必須有專門的人員進行管理維護。高校高性能計算平臺的運維工作與計算資源銷售服務行業(yè)有著很大的相似度,增強服務意識能夠有效地為用戶提供充足的便利性,如建立完善的訴求通道,并積極進行回應。所以要調動平臺技術人員的積極性和主動性,提高平臺技術人員的業(yè)務水平和敬業(yè)精神。
另外,平臺的管理人員需要同時由熟悉軟硬件基礎設施與熟悉計算業(yè)務的人員參與組成。第一類人員對集群使用的各個環(huán)節(jié)有比較好的認識,可以促進集群更利于終端用戶的使用; 第二類人員對計算機體系架構較熟悉,可以更容易地參與到集群的調優(yōu)、定制化,以及一些相關的研究項目中去,建立起跨學科專業(yè)的科研模式[4]。同時在云計算服務平臺中,人人都是生態(tài)的需求者也是貢獻者。使用者可以方便地申請到配置好的系統(tǒng)環(huán)境甚至是搭建好的應用環(huán)境,同時可以向平臺貢獻鏡像、數(shù)據等,與平臺建設單位一同打造高校計算應用生態(tài)圈。
高性能計算平臺建設是“雙一流”建設戰(zhàn)略中提供科研支撐環(huán)境和科研平臺基礎的重要手段,因此各高校都開展了高性能計算平臺的建設。接下來,我們將不斷地實踐探索,將山西財經大學的高性能計算平臺的后期建設與具體運維管理更加完善,促進學校高性能計算科研實踐應用與教學水平發(fā)展。