文/段運生 劉輝 竺德
隨著安徽大學一流學科建設工作的推進,理工學科對公共計算的需求快速增長。安徽大學公共計算平臺需要同時滿足高性能計算和深度學習兩方面需求。高性能計算需求主要集中在物理與材料科學學院、化學化工學院、生命科學學院,應用方向主要包括材料計算、化學計算、生命科學、氣象等;深度學習需求主要集中在電氣工程與自動化學院、計算機科學與技術學院及電子信息工程學院,應用方向主要包括深度學習、圖像處理、模型訓練等。為有力支撐學科建設,2018 年初,安徽大學啟動校級公共計算平臺建設工作。
考慮到各院系分散購置不利于資源的整合和建設效益的充分發(fā)揮,因此采用集約化方式建設校級公共計算平臺。公共計算平臺建設包括機房建設、計算集群建設及HPC 與AI 融合軟件平臺建設三個部分。平臺應安全可靠,具備先進性、可擴展性和可管理性。數(shù)據(jù)中心機房基于標準化模塊建設;計算集群采用刀片服務器和機架服務器混合架構,支持CPU 和GPU 計算;軟件平臺采用SLURM調(diào)度系統(tǒng),支持CPU的管理調(diào)度、GPU的管理調(diào)度、集群系統(tǒng)的監(jiān)控管理。
安全可靠的機房設施是公共計算平臺運營成功的關鍵,在機房系統(tǒng)結構設計時,需遵循《數(shù)據(jù)中心機房設計規(guī)范》(GB50174-2017),堅持統(tǒng)一規(guī)范的原則,設計時充分考慮安全可靠性、可擴展性及可管理性。機房采用模塊化方式建設,機房面積309m2,設計三套微模塊,裝飾裝修工程一次性到位,預留空間用于后期擴展。
安徽大學
一期建設一套微模塊,配置19 臺服務器機柜、1 臺精密配電柜、3 臺行級精密空調(diào)(42KW),預留2 臺空調(diào)擴容空間。供電采用雙母線結構,配置兩臺100KVA 模塊化UPS。模塊內(nèi)建立一套全面、完善的管理和監(jiān)控系統(tǒng)。智能供配電管理,實現(xiàn)供電鏈路可視,支路端子溫度檢測預警、電池狀態(tài)檢測、PDU 級供電情況監(jiān)測,全面提升供電系統(tǒng)可靠性。基于AI 自優(yōu)化算法的溫控管理,實現(xiàn)溫度云圖-負載-溫控聯(lián)動保證無熱點,確保溫度場恒定可靠。U 位級資產(chǎn)自動管理,使得資產(chǎn)免人工清點,提升運維效率。同時該模塊還具備智能照明、eLight 模塊狀態(tài)指示燈、消防聯(lián)動、電動通道門、人臉識別門禁等便利功能?;谙冗M的集中管理監(jiān)控系統(tǒng),可以實時監(jiān)控、監(jiān)測整個數(shù)據(jù)中心機房的運行狀況,利用實時燈光、語音報警,實時事件記錄迅速確定故障,提高運行性能,簡化數(shù)據(jù)中心管理人員的維護工作,從而為數(shù)據(jù)中心安全、可靠的運行提供最有力的保障。
公共計算平臺需要同時滿足高性能計算和深度學習兩方面需求(如圖1 所示)。高性能計算系統(tǒng)采用刀片服務器作為并行計算節(jié)點,共計26把刀片。機箱內(nèi)支持無狀態(tài)計算,刀片服務器關鍵部位全部采用冗余和熱插拔設計,關鍵業(yè)務不會因為單點故障而中斷,滿足高性能計算的需求。為保證集群系統(tǒng)的先進性和更好的擴展性,服務器平臺使用英特爾全新一代Purley 架構。通用計算節(jié)點采用Intel Skylake CPU,每節(jié)點配置2 顆14 核CPU,12 根16GB 的內(nèi)存,1 塊240GB SSD硬盤以及100Gb/s 的Intel OPA 網(wǎng)卡。深度學習系統(tǒng)采用GPU 服務器作為基礎硬件平臺,GPU 采用主流的Nvidia Volta V100 專業(yè)級GPU 卡,配置3 臺一機八卡GPU 節(jié)點和1 臺一機兩卡GPU 節(jié)點。本次配置的一機八卡的GPU 服務器可以提供不同的拓撲模式,1 顆CPU 支持8 塊GPU 卡,或者2 顆CPU,每顆CPU 支持4 塊GPU 卡,有效的支持GPU P2P 功能,同時企業(yè)級GPU 卡還可提供GPU Direct RDMA 等功能,充分優(yōu)化其代碼提高作業(yè)效率。
公共計算平臺采用性價比較高的OPA(Omni-Path Architecture)網(wǎng)絡交換架構,支持單端口最大帶寬100Gbps、時延低至110ns,并支持錯誤檢測等特性。采用Lustre 文件系統(tǒng)作為全局文件系統(tǒng),該文件系統(tǒng)具有按需擴展容量和性能的能力,降低了部署多個獨立文件系統(tǒng)的必要性,從而避免了在計算集群之間復制數(shù)據(jù),簡化了存儲管理。本期配置的兩臺存儲,一臺全閃存存儲用于存儲元數(shù)據(jù),一臺用于存儲對象數(shù)據(jù)。
融合軟件平臺旨在為用戶提供完善的HPC使用和管理系統(tǒng),以便讓最終用戶將主要精力集中在科研工作上,降低使用者的學習成本,提升組織的整體規(guī)范性、專業(yè)性以及生產(chǎn)效率。平臺基于公有云+私有云的混合云方案架構設計,包括超算云桌面系統(tǒng)和集群管理監(jiān)控系統(tǒng)。提供國家網(wǎng)格站點連接接口,可實現(xiàn)本地計算資源與國家網(wǎng)格計算資源整合,當本地計算資源不足,可以將作業(yè)提交至網(wǎng)格站點。
圖1 公共計算平臺邏輯拓撲
超算云桌面系統(tǒng)在云技術的基礎上提供統(tǒng)一的用戶管理功能、HPC 設備資源管理、應用管理、本地作業(yè)管理、遠程作業(yè)管理、機時統(tǒng)計管理、計費管理、系統(tǒng)便捷接入等功能。平臺既支持主流瀏覽器訪問,也可以通過輕量級C/S 客戶端訪問;集成命令行登陸方式包含WebSSH、Putty、xshell、SecureCRT;集成交互式圖形訪問方式,用戶可以進行圖形化的前后處理工作;提供計費功能,按月給用戶提供使用報告;支持子母賬號,子賬號可獨立使用,母賬號統(tǒng)一計費;能夠集成應用軟件,實現(xiàn)一鍵提交作業(yè);支持移動手機端查看作業(yè)狀態(tài)信息、機時用量信息、作業(yè)性能情況、作業(yè)異常時還可通過移動客戶端遠程殺除作業(yè),支持iOS、Android 和微信客戶端。
集群管理監(jiān)控系統(tǒng)通過實時監(jiān)控、采集機群中服務器的CPU、GPU、內(nèi)存、網(wǎng)絡和存儲等關鍵設備的系統(tǒng)級和微架構級性能數(shù)據(jù)(Gflops、MemoryBandwidth、Vectorization、CPI、GIPS),以圖形化的方式直觀顯示,快速反映提供機群系統(tǒng)中應用軟件隨時間變化的運行特征,通過機器學習作業(yè)運行情況,智能識別作業(yè)性能異常。同時了解硬件環(huán)境的運行現(xiàn)狀,快速了解集群中隱含的硬件問題,從而在問題發(fā)生時第一時間給出解決方案。秒級采集大規(guī)模業(yè)務系統(tǒng)的系統(tǒng)級和微架構數(shù)據(jù)進行并列歷史線條顯示,通過多節(jié)點并列的對比分析以及資源的依賴程度分析,可迅速發(fā)現(xiàn)系統(tǒng)故障或瓶頸所在。另外所采集各項數(shù)據(jù)的峰值、均值等量化數(shù)據(jù)指標,對于系統(tǒng)優(yōu)化具有精確的指導意義。
公共計算平臺建設為各學科提供更強的計算能力、更好的維護手段、更優(yōu)質(zhì)的應用服務體驗。隨著校級公共計算平臺的不斷擴大和完善,既能夠產(chǎn)生經(jīng)濟效益,又能夠匯集各個科研領域的最新發(fā)展動向,促進學??茖W研究的發(fā)展。