陳紅梅 張紀(jì)英
摘 ?要: 研究了集群的系統(tǒng)結(jié)構(gòu)和主要優(yōu)勢(shì),以及集群式高性能計(jì)算系統(tǒng)的誕生;分析了集群式高性能計(jì)算系統(tǒng)的架構(gòu)和構(gòu)建方式,集群構(gòu)建包括網(wǎng)絡(luò)部署、存儲(chǔ)系統(tǒng)、計(jì)算節(jié)點(diǎn)、管理節(jié)點(diǎn)、登錄節(jié)點(diǎn)等部分。在此基礎(chǔ)上構(gòu)建了基于Linux的集群式高性能計(jì)算系統(tǒng)。
關(guān)鍵詞: 集群技術(shù); 高性能計(jì)算; 系統(tǒng)架構(gòu); 集群構(gòu)建
中圖分類號(hào):TP399 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1006-8228(2015)07-13-02
Research of high performance computing cluster
Chen Hongmei, Zhang Jiying
(Jianghan University Institute for Interdisciplinary Research, Wuhan, Hubei 430056, China)
Abstract: This paper researches the system architecture and the main advantages of the cluster, then analyzes the framework of the high performance computing cluster. The high performance computing cluster is composed of computing network, management network, storage system, compute nodes, log-on nodes, etc. On the basic of the above research, Jianghan University built the high performance computing cluster based on Linux.
Key words: cluster technology; high performance computing; framework of the high performance computing cluster; cluster building
0 引言
隨著社會(huì)的發(fā)展,各個(gè)領(lǐng)域?qū)Ω咝阅苡?jì)算的需求越來(lái)越迫切。高性能計(jì)算已被公認(rèn)為繼理論科學(xué)和實(shí)驗(yàn)科學(xué)之后的第三大科學(xué)研究方法,是科技創(chuàng)新的重要手段[1]。在當(dāng)前社會(huì)情況下,高性能計(jì)算已經(jīng)成為一個(gè)國(guó)家綜合實(shí)力的體現(xiàn),對(duì)國(guó)家戰(zhàn)略的發(fā)展有著重要影響。由此可見,高性能計(jì)算機(jī)是信息產(chǎn)業(yè)的重要領(lǐng)域,是現(xiàn)代社會(huì)科學(xué)研究、社會(huì)服務(wù)和經(jīng)濟(jì)活動(dòng)中一種極為重要且不可或缺的戰(zhàn)略工具。
網(wǎng)絡(luò)技術(shù)的快速發(fā)展和處理器性能的迅速提高,讓越來(lái)越多的人開始用相對(duì)便宜的以太網(wǎng)把相對(duì)廉價(jià)的服務(wù)器連接起來(lái)組成集群使用,從而以較少的代價(jià)獲得較高的性能。集群已成為高性能計(jì)算機(jī)研究開發(fā)的一個(gè)方向,尤其是基于Linux的集群式高性能計(jì)算系統(tǒng)就有“窮人的超級(jí)計(jì)算機(jī)”之說(shuō)。
1 計(jì)算機(jī)集群技術(shù)
1.1 集群的概念
集群就是一組相互獨(dú)立的、通過(guò)高速網(wǎng)絡(luò)互聯(lián)的計(jì)算機(jī),這些計(jì)算機(jī)能夠協(xié)同工作,并對(duì)外表現(xiàn)為一個(gè)集成單一的計(jì)算機(jī)資源。美國(guó)著名的阿伯丁公司(Aberdeen Group Inc)對(duì)計(jì)算機(jī)集群系統(tǒng)下的定義為——計(jì)算機(jī)集群是一種多節(jié)點(diǎn)的計(jì)算機(jī),具有以下特點(diǎn):
⑴ 從用戶、程序員、操作員及管理員角度看,它相當(dāng)于一個(gè)單一的系統(tǒng);
⑵ 可以提高可靠性;
⑶ 具有在集群范圍內(nèi)統(tǒng)一的操作與管理特征;
⑷ 為打印隊(duì)列、批作業(yè)隊(duì)列、文件系統(tǒng)以及外部設(shè)備等在集群范圍內(nèi)共享;
⑸ 完美的增量式擴(kuò)充能力;
⑹ 通過(guò)互連與技術(shù)選擇可以進(jìn)行靈活的配置。
1.2 集群的系統(tǒng)結(jié)構(gòu)
根據(jù)典型的集群體系結(jié)構(gòu),其中涉及到的主要技術(shù)可以歸屬于四個(gè)層次。
⑴ 網(wǎng)絡(luò)層:包括通信協(xié)議和網(wǎng)絡(luò)互聯(lián)結(jié)構(gòu)等。
⑵ 節(jié)點(diǎn)機(jī)和操作系統(tǒng)層:包括高性能客戶機(jī)、分層或基于微內(nèi)核的操作系統(tǒng)等。
⑶ 管理層:包括負(fù)載平衡、資源調(diào)度、資源管理、安全問(wèn)題和并行I/0等。
⑷ 應(yīng)用層:包括并行程序開發(fā)環(huán)境和并行應(yīng)用等。
集群技術(shù)是上述四個(gè)層次的有機(jī)結(jié)合,各層次雖然側(cè)重領(lǐng)域有所不同,但都有其不可或缺的重要性[2]。管理層是集群系統(tǒng)所特有的功能與技術(shù)的體現(xiàn),正是集群管理系統(tǒng)把多臺(tái)計(jì)算機(jī)組織起來(lái),使之可以被稱為“集群”。
1.3 集群的主要優(yōu)勢(shì)
集群系統(tǒng)之所以能夠從技術(shù)可能發(fā)展到實(shí)際應(yīng)用,主要原因是它與傳統(tǒng)的并行處理系統(tǒng)相比具有高性價(jià)比、高性能、高可用性和高可擴(kuò)展性等幾個(gè)明顯優(yōu)勢(shì)。
⑴ 高性價(jià)比
集群技術(shù)是使用特定方式,將符合工業(yè)標(biāo)準(zhǔn)的硬件設(shè)備連接起來(lái)。在同樣性能的條件下,采用計(jì)算機(jī)集群比采用同等運(yùn)算能力的大型計(jì)算機(jī)具有更高的性價(jià)比。
⑵ 高性能
像天氣預(yù)報(bào)、核試驗(yàn)?zāi)M等這樣的計(jì)算密集型應(yīng)用,需要計(jì)算機(jī)具有很強(qiáng)的運(yùn)算處理能力。對(duì)于這些應(yīng)用,一般都使用集群技術(shù),集中幾十甚至上百臺(tái)計(jì)算機(jī)來(lái)滿足需求。集群技術(shù)研究的一個(gè)重要目標(biāo)之一就是提高處理性能。
⑶ 高可用性
集群技術(shù)使系統(tǒng)在一個(gè)節(jié)點(diǎn)失效后,它的任務(wù)可以傳遞給其他節(jié)點(diǎn)。從而在故障發(fā)生時(shí)集群系統(tǒng)仍可以繼續(xù)工作,將系統(tǒng)停運(yùn)時(shí)間減到最小。
⑷ 高可擴(kuò)展性
采用集群技術(shù)時(shí),若想擴(kuò)展系統(tǒng)能力,只需要將新的服務(wù)器加入集群中即可。對(duì)于用戶來(lái)說(shuō),服務(wù)的連續(xù)性幾乎沒有變化,好像系統(tǒng)在不知不覺中完成了升級(jí)。
2 集群式高性能計(jì)算系統(tǒng)
2.1 集群式高性能計(jì)算系統(tǒng)的誕生
集群式高性能計(jì)算系統(tǒng)是使用高速通信網(wǎng)絡(luò)將多臺(tái)原本獨(dú)立、完整的微機(jī)或工作站連接在一起,構(gòu)成一個(gè)統(tǒng)一的整體,使之可作為一種單一的計(jì)算資源來(lái)使用。與SMP和MPP相比,集群具有更高的可擴(kuò)展性、可用性和易維護(hù)性,而且價(jià)格低,性價(jià)比高。
二十世紀(jì)九十年代中期,隨著微處理器和動(dòng)態(tài)隨機(jī)存儲(chǔ)器速度的提升以及PCI總線的出現(xiàn),個(gè)人電腦市場(chǎng)日趨成熟。另外,在互聯(lián)網(wǎng)的浪潮之下,局域網(wǎng)技術(shù)也迅速發(fā)展,在帶寬和延遲上與傳統(tǒng)高性能計(jì)算機(jī)所采用的專有網(wǎng)絡(luò)的差距也日漸減少。在軟件方面,1991年出現(xiàn)的Linux操作系統(tǒng),到1994年已經(jīng)相當(dāng)穩(wěn)定[3];1993年發(fā)布的基于消息傳遞的并行程序設(shè)計(jì)標(biāo)準(zhǔn)MPI,是一種由國(guó)際組織維護(hù)的國(guó)際標(biāo)準(zhǔn),并有許多廠商為其提供具體的實(shí)現(xiàn)版本。至此,集群式高性能計(jì)算系統(tǒng)的出現(xiàn)可謂是萬(wàn)事俱備。
美國(guó)航空航天局(National Aeronautics and Space Administration,NASA)Goddard 航天中心的Beowulf 項(xiàng)目為集群式高性能計(jì)算系統(tǒng)的研究帶來(lái)了突破。1994 年名為Wiglaf 的第一臺(tái)Beowulf 集群在Goddard 航天中心誕生,1995 年第二代Beowulf 集群Hrothgar 建成,1997年第三代Beowulf 集群Loki 和Hyglac分別在LANL 和加州理工學(xué)院建成。加州大學(xué)伯克力分校(University of California at Berkeley)的NOW(Network Of Workstations)是與Beowulf項(xiàng)目齊名的另一個(gè)著名的高性能集群項(xiàng)目。1997 年誕生的NOW-2 ,其運(yùn)算能力超過(guò)10GFLOPS,成為首臺(tái)進(jìn)入世界超級(jí)計(jì)算機(jī)500 強(qiáng)(Top500)的集群計(jì)算機(jī)。
2.2 集群式高性能計(jì)算系統(tǒng)的架構(gòu)
集群式高性能計(jì)算系統(tǒng)由多個(gè)節(jié)點(diǎn)組成,系統(tǒng)構(gòu)建和管理需要強(qiáng)大的專業(yè)技術(shù)支撐。集群構(gòu)建包括網(wǎng)絡(luò)部署、存儲(chǔ)系統(tǒng)、計(jì)算節(jié)點(diǎn)、管理節(jié)點(diǎn)、登錄節(jié)點(diǎn)等部分[4]。集群式高性能計(jì)算系統(tǒng)的一般架構(gòu)如圖1所示。
圖1 ?集群式高性能計(jì)算系統(tǒng)架構(gòu)
集群式高性能計(jì)算系統(tǒng)要組建兩個(gè)主要高速網(wǎng)絡(luò):管理網(wǎng)絡(luò)和計(jì)算網(wǎng)絡(luò)。管理網(wǎng)絡(luò)一般通過(guò)萬(wàn)兆或千兆以太網(wǎng)將計(jì)算節(jié)點(diǎn)、登錄節(jié)點(diǎn)、I/O節(jié)點(diǎn)和管理節(jié)點(diǎn)全相連。計(jì)算網(wǎng)絡(luò)一般使用高速率的Infiniband網(wǎng)絡(luò)將計(jì)算節(jié)點(diǎn)和I/O節(jié)點(diǎn)全相連。另外,存儲(chǔ)系統(tǒng)和I/O節(jié)點(diǎn)之間一般通過(guò)高速光纖相連。
出于安全和價(jià)格方面的考慮,集群式高性能計(jì)算系統(tǒng)中各節(jié)點(diǎn)一般安裝Linux操作系統(tǒng)。在管理層,為了實(shí)現(xiàn)對(duì)集群的有效管理,集群要安裝集群管理工具如IBM for Linux Extreme Cloud Administration Toolkit(XCAT);同時(shí)安裝作業(yè)調(diào)度系統(tǒng)如IBM Platform LSF,以實(shí)現(xiàn)高性能的負(fù)載管理,有效利用集群資源,實(shí)現(xiàn)最佳性能。在應(yīng)用層,要配置相應(yīng)的編譯器和數(shù)學(xué)庫(kù)等,并安裝配置OpenMPI等并行計(jì)算環(huán)境。
2.3 集群式高性能計(jì)算系統(tǒng)實(shí)例
隨著高性能計(jì)算機(jī)和計(jì)算方法的快速發(fā)展,物理、化學(xué)、生物等學(xué)科對(duì)計(jì)算資源有著迫切的需求,國(guó)內(nèi)多所高校和科研院所紛紛開始構(gòu)建高性能計(jì)算平臺(tái)[5]。江漢大學(xué)也構(gòu)建了集群式高性能計(jì)算系統(tǒng),該系統(tǒng)包括19個(gè)計(jì)算節(jié)點(diǎn)、2個(gè)I/O節(jié)點(diǎn)、2個(gè)登錄節(jié)點(diǎn)、1個(gè)管理節(jié)點(diǎn)、一組管理網(wǎng)絡(luò)、一組計(jì)算網(wǎng)絡(luò)。管理網(wǎng)絡(luò)通過(guò)萬(wàn)兆以太網(wǎng)將計(jì)算節(jié)點(diǎn)、登錄節(jié)點(diǎn)、I/O節(jié)點(diǎn)和管理節(jié)點(diǎn)全相連。計(jì)算網(wǎng)絡(luò)使用56Gbps速率的Infiniband網(wǎng)絡(luò)將刀片式計(jì)算節(jié)點(diǎn)、GPU計(jì)算節(jié)點(diǎn)、胖節(jié)點(diǎn)、登錄節(jié)點(diǎn)和I/O節(jié)點(diǎn)全相連。
江漢大學(xué)集群式高性能計(jì)算系統(tǒng)的操作系統(tǒng)為Redhat Linux Server 6.4,作業(yè)調(diào)度系統(tǒng)為IBM Platform,應(yīng)用開發(fā)環(huán)境軟件為Intel Cluster Studio軟件工具包。
3 結(jié)束語(yǔ)
計(jì)算機(jī)集群作為當(dāng)前世界上并行處理的熱點(diǎn)和主流,具有許多明顯優(yōu)勢(shì):高性價(jià)比、高性能、高可用性和高可擴(kuò)展性等。集群式高性能計(jì)算系統(tǒng)可以采用廉價(jià)的符合工業(yè)標(biāo)準(zhǔn)的硬件構(gòu)造高性能的系統(tǒng),并且可以通過(guò)增加CPU個(gè)數(shù)和內(nèi)存容量來(lái)提高性能。上述優(yōu)勢(shì)使得集群式高性能計(jì)算系統(tǒng)的研究已經(jīng)成為并行計(jì)算研究開發(fā)的一個(gè)重要方向。
參考文獻(xiàn):
[1] 李波,曹福毅,王祥鳳.高性能計(jì)算技術(shù)發(fā)展概述[J].沈陽(yáng)工程學(xué)院學(xué)
報(bào)(自然科學(xué)版),2012.8(3):252-254
[2] 張洋.計(jì)算機(jī)集群技術(shù)概述[J].信息系統(tǒng)工程,2013.32(5):95
[3] 周興銘.高性能計(jì)算技術(shù)發(fā)展[J].自然雜志,2011.33(5): 249-254
[4] 林皎,陳玉潔,張武生,徐偉平,楊廣文.高性能計(jì)算平臺(tái)建設(shè)的探索與
實(shí)踐[J].實(shí)驗(yàn)技術(shù)與管理,2012.29(5):217-219
[5] 盛樂標(biāo),游偉倩,周慶林.南京大學(xué)高性能計(jì)算中心建設(shè)的探索與實(shí)
踐[J].實(shí)驗(yàn)技術(shù)與管理,2013.30(11):144-146