吳琳++覃奇志
摘要:武漢大學水資源與水電工程科學國家重點實驗室建立了以科學計算為基礎的高性能計算集群系統(tǒng)。高性能計算集群系統(tǒng)是一種投入較大、設備更新速度較快的大型儀器設備系統(tǒng)。如何進行高效運行和可持續(xù)維護管理,是一個值得探索的問題。本文對實驗室進行高性能計算集群系統(tǒng)的建設、運行、安全和維護管理等方面的經驗與特點進行介紹。
關鍵詞:高性能計算;高效運行;安全管理;維護管理
【中圖分類號】O4-39
武漢大學水資源與水電工程科學國家重點實驗室(以下簡稱“實驗室”), 于2009 年成立了高性能計算中心,配備了HP刀片系統(tǒng),理論計算峰值大于1萬億次浮點運算/秒,大大改善實驗室和水利水電學院從事大型數值模擬計算的硬件條件。為了更好地為更多的用戶服務,如何高效利用和有效管理這個系統(tǒng)就至關重要。
1.系統(tǒng)介紹
高性能計算集群主要用于處理復雜的計算問題,應用在需要大規(guī)模科學計算的環(huán)境中。高性能計算集群上運行的應用程序一般使用并行算法,把一個大的普通問題根據一定的規(guī)則分為許多小的子問題,在集群內的不同節(jié)點上進行計算,而這些小問題的處理結果,經過處理可合并為原問題的最終結果。由于這些小問題的計算一般是可以并行完成的,從而可以縮短問題的處理時間。
高性能計算集群在計算過程中,各節(jié)點是協(xié)同工作的,它們分別處理大問題的一部分,并在處理中根據需要進行數據交換,各節(jié)點的處理結果都是最終結果的一部分。高性能計算集群的處理能力與集群的規(guī)模成正比,是集群內各節(jié)點處理能力之和。
1.1硬件配置
高性能計算機集群采用機架式,可動態(tài)擴展?,F(xiàn)有節(jié)點18個,其中14個計算節(jié)點,2個管理節(jié)點,2個I/O節(jié)點,1個存儲陣列。此外包括:機柜、供電系統(tǒng)、布線系統(tǒng)、散熱系統(tǒng),主控制臺,KVM等。
圖1 系統(tǒng)結構圖
計算節(jié)點:HP BL460c G6 CTO Blade
CPU:Intel Xeon E5530四核64位處理器,2.4GHz×2顆
內存:16G
硬盤:146GB
網絡:InfiniBand網卡
管理節(jié)點:HP DL380R06 CTO Chassis
存儲節(jié)點:HP DL380R06 CTO Chassis
存儲陣列:EVA4400--Hard Disk
高速光纖硬盤: 4TB
SATA硬盤: 8TB
1.2軟件配置
操作系統(tǒng):Redhat Enterprise Linux 5
作業(yè)調度系統(tǒng):Sun SGE
編譯器: Intel C++、Fortran等,GNU系列
通用數學庫: LAPACK和ScaLAPACK,包括BLAS、PBLAS、BLACS等基本線性代數庫函數、并行庫函數和通信庫函數
并行環(huán)境: Infiniband MPI并行環(huán)境(MPICH1/2)
應用軟件:目前安裝Fluent、Abaqus和Ansys等軟件
1.3高性能計算集群的特點
根據以上配置的硬件設備和軟件環(huán)境,實驗室建立的高性能計算集群具有以下特點:
(1)高可用性。本身互為冗余節(jié)點,能夠為用戶提供不間斷的服務,由于系統(tǒng)中包括了多個結點,當一個結點出現(xiàn)故障的時候,整個系統(tǒng)仍然能夠繼續(xù)為用戶提供服務;
(2)高可擴展性。在集群系統(tǒng)中可以動態(tài)地加入新的服務器和刪除需要淘汰的服務器,從而能夠最大限度地擴展系統(tǒng)以滿足不斷增長的應用的需要;
(3)多用戶和多任務。Linux系統(tǒng)是一個分時多任務環(huán)境,它可以同時做多個事情。Linux系統(tǒng)可以處理一個用戶的多個同時的要求,并支持多個人同時活動。
2.系統(tǒng)運行
在CPU 的數目有限(可供計算的CPU共112個),而用戶多的情況下, 如何利用現(xiàn)有的資源,合理地安排作業(yè)運行,使設備高效運行,對系統(tǒng)管理人員是一個嚴峻的挑戰(zhàn)。根據近一年來的運行情況統(tǒng)計顯示,共有近4千個程序在機器上運行過,發(fā)現(xiàn)了如下一些問題:
(1)自編程序未在工作站或PC 機上進行預先試驗性運行, 就匆忙提交到集群管理節(jié)點上,致使運算工作量大大加重,并且有些計算未得到任何有用結果。運行程序未經仔細檢查,存在固有的錯誤, 導致長時間死循環(huán)運行或計算結果錯誤, 浪費了大量的CPU 時間。
(2)提交作業(yè)的運算工作量太大,致使在集群上運行時間過長,并造成計算節(jié)點宕機,以致在沒有得到任何有用結果情況下不得不中止運算。運算作業(yè)量過大,造成大量作業(yè)排隊現(xiàn)象,很擁擠,也會致使運算效率相應降低。
為了提高高性能計算集群的運行效率,縮短用戶作業(yè)的時間,我們鼓勵提交程序可靠、運算時間短或中等的作業(yè),以提高有用研究成果的產出率。我們通過不斷與用戶的溝通和協(xié)調,制定了高性能計算集群的使用規(guī)范,其基本原則是:
(1)限制每個用戶只能同時運行二個作業(yè),超過的作業(yè)將會自動處在排隊狀態(tài)。每個用戶排隊的作業(yè)數目不超過3個。
(2)限制每個作業(yè)最多只能使用24個CPU,直至供計算112個CPU被占用完。其后提交的作業(yè)按時間先后處在排隊狀態(tài)。
(3)鼓勵提交運行時間短的作業(yè)。
3.安全管理
高性能計算集群系統(tǒng)是置于網絡中的一臺具有服務器功能,并能進行大型數值模擬計算的大型設備;按用戶需求,此大型設備需保證常年7*24小時不間斷運行。因此,我們高度重視它的網絡安全和運行安全,并采取了一系列的措施。
3.1網絡安全
系統(tǒng)的網絡安全性首當其沖的就是用戶賬號安全。為了確保高性能計算集群系統(tǒng)的網絡安全,申請使用本實驗室高性能計算集群系統(tǒng)的用戶需要遵守以下幾點要求:endprint
(1)申請人須為水資源與水電工程科學國家重點實驗室的任職教師。高性能計算集群系統(tǒng)僅供實驗室任職教師或在讀的碩士、博士研究生進行科學研究和教學相關的活動之用,不得用于任何威脅國家、社會安全的高性能計算,也不能用于其它無關的用途。
(2) 賬號只限個人使用,嚴禁將帳號和密碼泄露給外單位人員。賬號申請僅限于任職教師,在讀的碩士、博士研究生請使用導師的賬號,每一個用戶至多只能申請一個帳號,請務必保存好個人帳號和密碼,嚴禁將帳號轉借他人使用。
(3)數據和程序(非公用程序)文件一律存放于自己的屬主目錄下,系統(tǒng)不提供長期數據存放服務。
(4)不得使用軟件或硬件的方法竊取他人口令,非法入侵他人帳戶,閱讀他人文件,竊取他人計算和研究成果或受法律保護的資源。
(5)密碼應定期(三個月)更換,建議8位以上并注意加強密碼復雜度。
系統(tǒng)管理員必須 對“root賬戶”的密碼嚴格保密,并定期更換;權限的設定也非常重要,普通用戶不能超越系統(tǒng)管理員的權限,所有的系統(tǒng)文件對用戶都是設置為只讀文件( - rw - r- - r- - ) 。如果普通用戶超越了系統(tǒng)管理員的權限,可能會給系統(tǒng)的安全帶來很大的風險,系統(tǒng)的文件可能被修改,甚至有可能使整個系統(tǒng)癱瘓,影響用戶的使用。另外做好系統(tǒng)文件的備份,專門將系統(tǒng)文件置于一個獨立硬盤中。
3.2安全運行
為保證系統(tǒng)的運行安全,防止物理因素、自然因素和人為因素對系統(tǒng)造成的破壞,實驗室為高性能計算集群系統(tǒng)建設標準機房,配備機房專用精密空調,常年保持標準溫度(22℃±2℃)和標準濕度(50%Rh±5%Rh);配備不間斷電源UPS,以保證短時間停電6小時不影響系統(tǒng)的正常工作。在不得不關機的情況下,系統(tǒng)能夠將用戶的程序截斷,保存起來,等機器恢復運行后再恢復;配備存儲陣列保存用戶的數據文件,以應對突發(fā)事件,將用戶的損失降為最小。
4.維護管理
4.1加強信息技術,指導維護管理
在科學技術迅猛發(fā)展的今天,尤其是現(xiàn)代信息技術日新月異,對高性能計算產生了深刻的影響。大量信息技術、信息化裝備應用于高性能計算。實驗室高性能計算集群系統(tǒng)設備管理人員必須站在信息化建設的前沿,用信息時代的思維審視、思考設備維護管理的問題,指導設備維護管理工作,加強與科技企業(yè)、設備生產制造商的交流,及時了解設備管理方面的更新升級信息,使儀器設備維護管理科學化、規(guī)范化、先進化。要用信息技術主導實驗室設備使用維護工作,保證儀器設備質量可靠、使用周期長。
4.2加強日常檢查,保證維護管理
作為系統(tǒng)管理人員要經常查看系統(tǒng)的日志文件,并分析,從中發(fā)現(xiàn)問題和及時解決問題,以防患于未然。定期檢查,確保設備處在正常工作狀態(tài)。根據各設備的具體情況, 確定維護制度和具體內容。檢查和調整各個設備, 使之處于最佳工作指標之內。一旦發(fā)現(xiàn)系統(tǒng)異常運行,運用所有檢測程序檢查各個設備,并根據硬件設備報警燈光判斷出現(xiàn)問題的設備,發(fā)現(xiàn)問題,及時解決。最好設備檢查和維護記錄,對于設備經常發(fā)生的故障,要熟練掌握解決方法,及時排除故障。此外,要保證設備的清潔衛(wèi)生。
4.3加強管理制度,提高維護效益
設備維護能力的提高不僅靠高投入,而且還要依靠科學管理。建立科學管理機制,能夠有效提高設備維護的質量和效益。建立設備的使用管理規(guī)章制度,要求系統(tǒng)設備使用人員愛護設備,了解設備的性能,熟悉設備的操作,嚴格按照規(guī)則進行提交作業(yè)計算,減少對設備的損壞,盡量延長設備的使用壽命。提高實驗室的開放力度,最大限度地發(fā)揮設備的使用效益。在落實實驗室維護任務的前提下,要實現(xiàn)實驗室高性能計算集群系統(tǒng)設備資源共享,共同提高維護效益。
5.結語
實驗室高性能計算集群系統(tǒng)運行和管理制度的實行,大大提高了實驗室高性能計算中心的工作效率,為教師和研究生們的研究工作做出了較大貢獻,并取得了一些研究成果。為了更好地為廣大師生服務,我們要進一步培養(yǎng)技術業(yè)務人員,努力提高管理人員的業(yè)務水平,做到認真學習設備生產制造商提供的各項技術資料,利用有限的資源,充分發(fā)揮高性能計算集群系統(tǒng)所具有的作用, 為科研工作帶來更大的產出率。
參考文獻:
[1]張予倩,萬賢綱,韓靜. SGI Origin 2000大型計算機管理模式與策略[J]. 實驗室研究與探索,2003,22(2):93-94,97.
[2]關偉豪,吳汝明,郭清順等. 中山大學高性能計算服務平臺的建設[J]. 實驗技術與管理,2011,28(4):303-306.
[3]黃建忠,張滬寅,程 媛. 開放式高性能計算平臺的建設與研究[J]. 計算機教育,2012,22:55-59.
[4]劉曉波. 加強高校實驗室設備管理的途徑分析[J]. 現(xiàn)代商貿工業(yè),2011,10:268-269.
[5]初建崇,韓海濤,張來紅等. 新形勢下提升教學儀器設備保障管理能力研究[J]. 實驗技術與管理,2013,30(6):217-219.endprint