孟玲玲
(河南師范大學(xué) 網(wǎng)絡(luò)中心,河南 新鄉(xiāng) 453007)
高性能計(jì)算集群系統(tǒng)建設(shè)與運(yùn)行管理研究
孟玲玲
(河南師范大學(xué) 網(wǎng)絡(luò)中心,河南 新鄉(xiāng) 453007)
高性能計(jì)算集群系統(tǒng)是一種投入較大、設(shè)備更新速度較快的大型儀器設(shè)備系統(tǒng)。探討了以科學(xué)計(jì)算為基礎(chǔ)的高性能計(jì)算集群系統(tǒng)建設(shè)、高效運(yùn)行及可持續(xù)維護(hù)管理問題。以河南師范大學(xué)高性能計(jì)算中心為例,對(duì)中心高性能計(jì)算集群系統(tǒng)建設(shè)經(jīng)驗(yàn)及特點(diǎn)進(jìn)行了介紹。
高性能計(jì)算;集群建設(shè);作業(yè)調(diào)度;安全管理;運(yùn)維管理
河南師范大學(xué)網(wǎng)絡(luò)中心于2014年成立了高性能計(jì)算中心,簡(jiǎn)稱HPC。 HPC中心是一個(gè)硬件先進(jìn)、功能齊全、資源豐富,面向全校師生提供高性能計(jì)算服務(wù)的開放性公共基礎(chǔ)設(shè)施。HPC中心搭建了高可靠、運(yùn)行良好的HPC集群系統(tǒng),該系統(tǒng)由硬件系統(tǒng)、軟件管理系統(tǒng)、環(huán)境監(jiān)控系統(tǒng)3部分構(gòu)成,采用機(jī)架式,可動(dòng)態(tài)擴(kuò)展,運(yùn)營(yíng)以來大大改善了科研人員從事大型數(shù)值模擬計(jì)算的硬件條件,本文對(duì)系統(tǒng)合理建設(shè)、高效利用和有效管理進(jìn)行了探討。
高性能計(jì)算(High-performance computing)是計(jì)算機(jī)科學(xué)的一個(gè)分支,它致力于開發(fā)超級(jí)計(jì)算機(jī),研究并行算法,開發(fā)相關(guān)軟件。高性能計(jì)算集群主要用于處理復(fù)雜的計(jì)算問題,應(yīng)用在需要大規(guī)??茖W(xué)計(jì)算的環(huán)境中,如天氣預(yù)報(bào)、石油勘探與油藏模擬、分子模擬、基因測(cè)序等。本文研究?jī)?nèi)容是高性能計(jì)算集群系統(tǒng)[1-6]。高性能計(jì)算集群上運(yùn)行的應(yīng)用程序一般使用并行算法,把一個(gè)大的普通問題按照一定的規(guī)則分為許多小的子問題,在集群內(nèi)的不同節(jié)點(diǎn)上進(jìn)行計(jì)算[7],而這些小問題的處理結(jié)果,經(jīng)過處理可合并為原問題的最終結(jié)果。這些小問題的計(jì)算一般可以并行完成,從而縮短問題的處理時(shí)間。高性能計(jì)算集群在計(jì)算過程中各節(jié)點(diǎn)是協(xié)同工作的,它們分別處理大問題的一部分,并在處理中根據(jù)需要進(jìn)行數(shù)據(jù)交換,各節(jié)點(diǎn)的處理結(jié)果都是最終結(jié)果的一部分。高性能計(jì)算集群的處理能力與集群規(guī)模成正比,是集群內(nèi)各節(jié)點(diǎn)處理能力之和。
1.1 HPC集群硬件配置
河南師范大學(xué)高性能網(wǎng)格計(jì)算平臺(tái)硬件為IBM Flex System刀片服務(wù)器,其體系結(jié)構(gòu)(見圖1)為高性能計(jì)算集群架構(gòu),平臺(tái)由140臺(tái)IBM Flex System X240兩路刀片服務(wù)器計(jì)算節(jié)點(diǎn)、2臺(tái)管理和登錄節(jié)點(diǎn)以及高性能存儲(chǔ)系統(tǒng)組成,所有節(jié)點(diǎn)通過56Gb Infiniband高速網(wǎng)絡(luò)連接。該計(jì)算平臺(tái)浮點(diǎn)運(yùn)算次數(shù)理論峰值達(dá)到39.424TFlops,存儲(chǔ)能力為120 TB(60*2TB NL SAS)。此外還有機(jī)柜、供電系統(tǒng)、布線系統(tǒng)、散熱系統(tǒng)、主控制臺(tái)等。
1.2 軟件配置
登陸節(jié)點(diǎn)機(jī)器名:login;登陸節(jié)點(diǎn)地址:sc.htu.cn(校內(nèi)直接登陸,校外須使用VPN后登陸);運(yùn)算節(jié)點(diǎn)名:c01n01-c10n14;各節(jié)點(diǎn)配置:兩個(gè)Intel XEON E5-2660 8核主頻2.2GHz CPU(共16核)、32GB內(nèi)存及300GB SAS硬盤;計(jì)算網(wǎng)絡(luò):56Gbps InfiniBand高速計(jì)算網(wǎng)和千兆以太網(wǎng);管理網(wǎng)絡(luò):千兆以太網(wǎng);操作系統(tǒng):x86_64架構(gòu)的64位RHELS6.4-x86_64;編譯器:Intel、PGI和GNU等C/C++ Fortran編譯器;數(shù)值函數(shù)庫(kù):Intel MKL;并行環(huán)境:Intel MPI和Open MPI等,支持MPI等分布式內(nèi)存程序:節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間;OpenMP等共享內(nèi)存程序:節(jié)點(diǎn)內(nèi);資源管理和作業(yè)調(diào)度:IBM Platform LSF。
1.3 HPC集群特點(diǎn)
高性能計(jì)算集群具有以下特點(diǎn):①高可用性。本身互為冗余節(jié)點(diǎn),能夠?yàn)橛脩籼峁┎婚g斷服務(wù)。系統(tǒng)包括了多個(gè)結(jié)點(diǎn),當(dāng)一個(gè)結(jié)點(diǎn)出現(xiàn)故障時(shí),整個(gè)系統(tǒng)仍然能繼續(xù)為用戶提供服務(wù);②高可擴(kuò)展性。在集群系統(tǒng)中可以動(dòng)態(tài)加入新的服務(wù)器,刪除需要淘汰的服務(wù)器,從而能夠最大限度地?cái)U(kuò)展系統(tǒng)以滿足不斷增長(zhǎng)的應(yīng)用需要;③多用戶和多任務(wù)。Linux系統(tǒng)是一個(gè)分時(shí)多任務(wù)環(huán)境,它可以同時(shí)做多個(gè)事情。Linnux系統(tǒng)可以處理一個(gè)用戶的多個(gè)要求,并支持多人同時(shí)活動(dòng)。
圖1 HPC集群系統(tǒng)結(jié)構(gòu)
HPC集群是置于網(wǎng)絡(luò)中的一臺(tái)具有服務(wù)器功能,并能進(jìn)行大型數(shù)值模擬計(jì)算的大型設(shè)備,按照用戶需求,此設(shè)備需要7×24小時(shí)×365天不間斷運(yùn)行。因此,網(wǎng)絡(luò)運(yùn)行和安全運(yùn)維管理非常重要。采取LSF作業(yè)管理系統(tǒng)進(jìn)行調(diào)度管理,合理分布資源池;同時(shí)采取一系列的安全和運(yùn)維管理,以保證系統(tǒng)更好地為科研服務(wù)。
2.1 LSF作業(yè)管理系統(tǒng)
HPC集群系統(tǒng)采用LSF(Load Sharing Facility)作業(yè)管理系統(tǒng)(見圖2)運(yùn)行。LSF是分布資源管理工具[4-7],用來調(diào)度、監(jiān)視、分析聯(lián)網(wǎng)計(jì)算機(jī)負(fù)載、故障分析、作業(yè)提交與管理、資源管理、系統(tǒng)監(jiān)視等功能。河南師范大學(xué)HPC中心采用IBMPlatformLSFV9.1進(jìn)行資源作業(yè)。
圖2 HPC集群系統(tǒng)管理、作業(yè)調(diào)度及運(yùn)行監(jiān)控
根據(jù)用戶作業(yè)提出的需求分配對(duì)應(yīng)資源給作業(yè),避免作業(yè)間無序干擾,盡量使整個(gè)系統(tǒng)負(fù)載均衡,保證用戶占用資源公平。鑒于LSF作業(yè)調(diào)度在集群管理系統(tǒng)的重要地位,制定了高性能計(jì)算集群使用規(guī)范,基本原則是:
(1) 所有需要運(yùn)行的作業(yè)必須通過作業(yè)提交命令bsub提交。
(2) HPC要求用戶在使用集群系統(tǒng)時(shí),一律通過安裝在相應(yīng)集群上的作業(yè)管理系統(tǒng)提交作業(yè),進(jìn)行計(jì)算,不可繞過作業(yè)管理系統(tǒng)使用超算集群。
(3)作業(yè)應(yīng)提交到合適隊(duì)列,鼓勵(lì)提交運(yùn)行時(shí)間短的作業(yè)。
(4)提交后可利用相關(guān)命令查詢作業(yè)狀態(tài)。
2.2 HPC集群安全管理
為保證集群系統(tǒng)運(yùn)行安全,防止物理因素、自然因素和人為因素對(duì)集群的破壞,HPC中心為集群系統(tǒng)建設(shè)了標(biāo)準(zhǔn)機(jī)房,配備機(jī)房空調(diào)冷風(fēng)道設(shè)施,常年保持標(biāo)準(zhǔn)溫度;配備不間斷電源UPS,以保證短時(shí)間停電等突發(fā)狀況下不影響系統(tǒng)正常工作;在不得不關(guān)機(jī)的情況下,系統(tǒng)能夠?qū)⒂脩舻某绦蚪財(cái)?、保存、再恢?fù)。保證用戶作業(yè)公平合理,共享計(jì)算資源,提高計(jì)算資源利用率和作業(yè)吞吐量,同時(shí)保障計(jì)算資源7×24×365不間斷運(yùn)行。具體措施有:①用戶應(yīng)自覺遵守有關(guān)保密制度,不利用高性能計(jì)算中心計(jì)算資源泄露國(guó)家機(jī)密,或從事違法犯罪活動(dòng);②不擅自轉(zhuǎn)讓、出借用戶帳號(hào),將口令隨意告訴他人;也不借用他人帳戶使用計(jì)算資源;③不使用軟件或硬件方法竊取他人口令,非法入侵他人帳戶,閱讀他人文件,竊取他人計(jì)算研究成果或受法律保護(hù)的資源;④自覺遵守國(guó)家有關(guān)保護(hù)知識(shí)產(chǎn)權(quán)的各項(xiàng)規(guī)定,不在高性能計(jì)算中心集群上擅自復(fù)制和使用未經(jīng)授權(quán)的程序和文件,擅自傳播或拷貝享有版權(quán)的軟件,違反者責(zé)任自負(fù);⑤用戶不得利用高性能計(jì)算中心制造和傳播計(jì)算機(jī)病毒;禁止破壞數(shù)據(jù)、破壞程序或其它行為;⑥用戶應(yīng)對(duì)自己的作業(yè)和結(jié)果安全負(fù)責(zé),防止發(fā)生數(shù)據(jù)損壞、丟失和泄密事故。
2.3 HPC集群運(yùn)維管理
HPC中心要求設(shè)備管理人員必須站在信息化建設(shè)前沿,積極參加高性能計(jì)算研討會(huì),及時(shí)了解設(shè)備管理更新升級(jí)信息,使儀器設(shè)備維護(hù)管理科學(xué)化、規(guī)范化、先進(jìn)化[3];加強(qiáng)日常檢查,要經(jīng)常查看系統(tǒng)日志文件并分析,從中發(fā)現(xiàn)問題,及時(shí)解決問題。定期檢查,確保設(shè)備處于正常工作狀態(tài)。根據(jù)硬件設(shè)備報(bào)警信息判斷出現(xiàn)問題設(shè)備,發(fā)現(xiàn)問題及時(shí)解決;做好設(shè)備檢查和維護(hù)記錄,對(duì)于設(shè)備經(jīng)常發(fā)生的故障要熟練掌握解決方法,及時(shí)排除故障。
HPC中心通過Web瀏覽器使用局域網(wǎng)、VPN(虛擬專用網(wǎng)絡(luò))、互聯(lián)網(wǎng)訪問計(jì)算資源。通過定制的Web portal集成用戶各類應(yīng)用軟件(包括用戶自編軟件)。無需安裝客戶端,終端用戶通過圖形界面就能完成作業(yè)遞交、文件傳輸、作業(yè)中間結(jié)果在線查看、過往作業(yè)查詢等工作,大大方便了用戶使用。
河南師范大學(xué)HPC中心,通過合理的集群系統(tǒng)運(yùn)行和管理制度執(zhí)行,構(gòu)建了一個(gè)良好的適用于科研的HPC平臺(tái),為科研工作作出了貢獻(xiàn)。為了更好地服務(wù)于廣大師生,還需要進(jìn)一步加強(qiáng)HPC中心建設(shè),認(rèn)真學(xué)習(xí)設(shè)備生產(chǎn)商提供的各項(xiàng)技術(shù)資料,滿足科研工作者更多需求。
[1] 關(guān)偉豪,吳汝明,郭清順,等.中山大學(xué)高性能計(jì)算服務(wù)平臺(tái)的建設(shè)[J].實(shí)驗(yàn)技術(shù)與管理,2011,8(4):303-306.
[2] 黃建忠,張滬寅,程媛.開放式高性能計(jì)算平臺(tái)的建設(shè)與研究[J].計(jì)算機(jī)教育,2012(22):55-59.
[3] 初建崇,韓海濤,張來紅,等.新形勢(shì)下提升教學(xué)儀器設(shè)備保障管理能力研究[J].實(shí)驗(yàn)技術(shù)與管理,2013,30(6):217-219.
[4] 安喜鋒.高性能計(jì)算集群管理系統(tǒng)與作業(yè)調(diào)度技術(shù)研究與實(shí)現(xiàn)[D].西安:西北工業(yè)大學(xué),2005.
[5] 李薛劍.高性能計(jì)算平臺(tái)在高校中的應(yīng)用及服務(wù)模式探索[J].電腦知識(shí)與技術(shù),2015(1):42-43.
[6] 林皎,張武生,徐偉平.高性能計(jì)算平臺(tái)開放服務(wù)的探索與實(shí)踐[J].實(shí)驗(yàn)技術(shù)與管理,2012,29(3):334-336.
[7] 王陽(yáng),周智力,盧康.高性能計(jì)算集群調(diào)度策略優(yōu)化及應(yīng)用程序并行效率研究[J].硅谷,2013(20):31-32.
(責(zé)任編輯:杜能鋼)
孟玲玲(1984-),女,河南正陽(yáng)人,碩士,河南師范大學(xué)網(wǎng)絡(luò)中心助理工程師,研究方向?yàn)楦咝阅苡?jì)算、數(shù)值代數(shù)與圖像處理。
10.11907/rjdk.162690
TP319
A
1672-7800(2017)003-0138-02