中小型規(guī)模高性能計算集群的搭建與維護

2019-10-21 09:15:38文洮金能智馬堯趙志威

現(xiàn)代信息科技 2019年5期

文洮金能智馬堯趙志威

摘 ?要：高性能計算在近幾年得到了充分的發(fā)展，越來越多的高校、科研院所開始搭建適合自己需求的高性能計算集群，搭建的過程除了硬件、軟件、運行環(huán)境這些必要的條件以外，后期的維護也是需要重點關(guān)注的領(lǐng)域。本文分析了高性能計算集群的特征、搭建需求、整體思路以及后期維護需要注意的問題，并且通過實用的算例測試了集群并行效率，希望為該領(lǐng)域的科研用戶以及管理人員提供借鑒。

關(guān)鍵詞：高性能計算;集群;搭建;維護;并行效率

中圖分類號：TP393 ? ? ? ?文獻標(biāo)識碼：A 文章編號：2096-4706（2019）05-0020-05

Abstract：High-performance computing has been fully developed in recent years. More and more universities and research institutes have begun to build high-performance computing clusters that suit their needs. The construction process is in addition to the necessary conditions of hardware，software and operating environment，later maintenance should also be the area of focus. This paper analyzes the characteristics of the high-performance computing cluster，the requirements of the construction，the overall idea and the problems that need to be paid attention to in the later maintenance，and tests the parallel efficiency of the cluster with practical examples，which provides a reference for the technicians who use and maintain the high-performance computing cluster.

Keywords：high performance computing;cluster;build;maintain;parallel efficiency

0 ?引 ?言

過去的20年中，我國各行業(yè)對計算資源的旺盛需求拉動了高性能計算基礎(chǔ)設(shè)施的迅猛發(fā)展，目前已實現(xiàn)由17個高性能計算中心構(gòu)成的中國國家高性能計算服務(wù)環(huán)境，資源能力位居世界前列。這些發(fā)展成果得益于我國“863計劃”與“重點研發(fā)計劃”項目的實施，期間國際與國內(nèi)科研和工業(yè)的發(fā)展對整個行業(yè)也產(chǎn)生了巨大的影響。美國研究世界最尖端、最前沿的高性能計算集群部署在國家實驗室、大學(xué)以及研究機構(gòu)，與之相比，截至2017年，中國科技部批準(zhǔn)建立的國家超級計算中心共有六家。其中，2016年榮獲世界超級計算排行榜“TOP500”第一的“神威太湖之光”部署在國家超算無錫中心，;連續(xù)在世界超級計算排行榜“TOP500”中7次占據(jù)第一的“天河二號”超級計算機運行于中山大學(xué)校園內(nèi)的國家超算廣州中心，依托湖南大學(xué)運維的“天河一號”屬于國家超級計算長沙中心[1]。這說明國家級的超算中心依托于國內(nèi)大學(xué)和科研機構(gòu)在科研領(lǐng)域獲得了較好的成果，國家也在加大對這方面的投資。通過近幾年教育、研究和產(chǎn)業(yè)各個領(lǐng)域的合作，高性能計算的發(fā)展已經(jīng)具備了良好的創(chuàng)新生態(tài)環(huán)境，2013年舉辦中國高性能計算學(xué)術(shù)年會開始以來，參會人員從300多人增加到如今的2000多人[2]。相對應(yīng)地，中國的大學(xué)和科研機構(gòu)也在不斷地搭建適應(yīng)各自研發(fā)需求的高性能計算集群，但是高性能計算機的壽命通常只有4～5年，后期運行維護復(fù)雜集群系統(tǒng)的費用非常高。如果以每臺10萬元人民幣的價格購買5臺高性能計算刀片服務(wù)器，需投資50萬元人民幣作為設(shè)備費。后期運行維護所需的人力成本、設(shè)備維修、硬件損壞更換、電費和制冷費等，每年至少需要5萬元，以配套該刀片服務(wù)器，使這個集群正常運行[3]。一般大規(guī)模高性能計算集群都有專業(yè)的機房和運營團隊進行管理，但一些高校和科研機構(gòu)自主搭建的中小規(guī)模高性能計算集群系統(tǒng)一般缺少這方面的經(jīng)驗，硬件設(shè)備在實際的運作中由于管理人員維護不當(dāng)和有限的機房環(huán)境條件造成計算刀片溫度過高、設(shè)備提前老化，大大減少了計算機設(shè)備的使用壽命，造成固定資產(chǎn)浪費和資源流失等后果[3]。因此，在中小規(guī)模高性能計算系統(tǒng)設(shè)施數(shù)量不斷增長、計算性能不斷提高的情況下，高性能計算集群的需求、硬件安裝、配置調(diào)試、運行維護等是需要關(guān)注的問題。只有對硬件和軟件，以及后期使用過程中的關(guān)鍵環(huán)節(jié)進行專業(yè)協(xié)調(diào)，才能最大程度地發(fā)揮其價值和作用。

1 ?高性能計算集群

1.1 ?高性能計算集群的概念

高性能計算機是在近幾年發(fā)展迅速，并且計算能力超強的計算機，逐漸成為計算機科學(xué)發(fā)展的一個分支[4]。將先進的高可用技術(shù)與高性能計算機有機結(jié)合起來的系統(tǒng)稱之為高性能計算集群，應(yīng)用在越來越多的科學(xué)領(lǐng)域，例如能源短缺、環(huán)境污染、全球氣候變化、航空工業(yè)和高速鐵路等。

1.2 ?高性能計算集群的原理

使用高性能計算集群的目的是完成超大、超高和超復(fù)雜的計算任務(wù)，顯然這樣的任務(wù)是單臺計算機無法實現(xiàn)的，需要由N（N≥3）臺計算機齊心協(xié)力完成整個系統(tǒng)承擔(dān)的工作負(fù)載[5]。其工作原理示意圖如圖1所示，需要一個性能較好的管理節(jié)點對所有的計算節(jié)點，即nodes，進行統(tǒng)一管理，每一子節(jié)點相當(dāng)于一臺計算機，上面運行自己獨立的操作系統(tǒng)，各節(jié)點間通過內(nèi)部局域網(wǎng)進行互相連接。當(dāng)管理節(jié)點接收到用戶提交的任務(wù)以后，通過作業(yè)管理系統(tǒng)將任務(wù)分發(fā)給各個節(jié)點，各個節(jié)點通過安裝在它們系統(tǒng)中的高性能組件來完成計算任務(wù)。各個子節(jié)點在計算完成之后，將計算結(jié)果通過網(wǎng)絡(luò)返回給管理節(jié)點，最終用戶通過外部網(wǎng)絡(luò)下載計算結(jié)果。

1.3 ?高性能計算集群的特征

高性能計算系統(tǒng)擁有超強的運算能力，能夠解決大規(guī)模的計算問題，更容易實現(xiàn)性能擴充，還可以根據(jù)計算能力的要求逐步擴充[6]。每一個節(jié)點是獨立運行的，如果其中某一個節(jié)點發(fā)生故障，它所運行的程序與之相連的服務(wù)器自動接管，這樣整個集群不會受到故障節(jié)點的影響，仍然可以提供服務(wù)，這樣就提高了設(shè)備的利用率。這種技術(shù)避免了整個系統(tǒng)出現(xiàn)癱瘓的情況，減少了操作系統(tǒng)和應(yīng)用層的故障。集群系統(tǒng)的用戶可以通過網(wǎng)絡(luò)使用任何子節(jié)點，而且減少與既定停機有關(guān)的停機時間，這對于一個科研團隊或者用戶來說有著非常重要的意義。

另外，高性能計算集群所使用的硬件在同類型產(chǎn)品中價格較為低廉，而且構(gòu)建整個軟件系統(tǒng)常用的工具，如Linux操作系統(tǒng)、MPICH編程環(huán)境、Intel編譯器、MKL數(shù)學(xué)庫等都可以從網(wǎng)上免費下載，因此軟件方面的成本減少了許多，這樣科研人員可以不用花費太多經(jīng)費即可建立自己的高性能計算集群，從而將經(jīng)費投入到更需要的研究中。

2 ?高性能計算集群的搭建

2.1 ?集群搭建的思路

在搭建任何一個高性能計算集群系統(tǒng)之前，首要的任務(wù)是確定該集群的應(yīng)用類型，因為這些將對該系統(tǒng)計算節(jié)點的配置選型、節(jié)點間網(wǎng)絡(luò)通訊的類型以及采用哪種集群控制系統(tǒng)和操作系統(tǒng)起到?jīng)Q定性的作用。從應(yīng)用的層面可以分為三個方面來確定集群的類型，即應(yīng)用的粒度、應(yīng)用的計算特性和應(yīng)用的時效性[7]。例如，應(yīng)用粒度較大的計算，節(jié)點間通訊較少，而小粒度的應(yīng)用計算需要大量的節(jié)點間通訊;應(yīng)用的計算特性主要分為多媒體運算、科學(xué)計算、數(shù)據(jù)庫應(yīng)用，其中科學(xué)計算主要使用浮點計算功能，這也是目前高性能計算系統(tǒng)的最主要應(yīng)用領(lǐng)域;應(yīng)用的時效性主要取決于完成計算任務(wù)的時間，如天氣預(yù)報模擬就需要非?？焖俚挠嬎愕贸鼋Y(jié)果，否則就失去了意義。

在確定高性能計算集群的應(yīng)用類型后，就可以確定系統(tǒng)的硬件參數(shù)、軟件等內(nèi)容。高性能計算集群系統(tǒng)的應(yīng)用示意圖如圖2所示，用戶在客戶端可以選擇適合自己的登陸方式，例如安裝SSH、Putty、WinSCP、VNC等遠(yuǎn)程登錄軟件來登陸集群。登陸集群之后可以進行具體的建模過程，建立完成后，將計算的模型用命令行來提交作業(yè)。登陸節(jié)點的任務(wù)是接收作業(yè)任務(wù)，而后通過作業(yè)管理軟件對任務(wù)進行分配。當(dāng)用戶檢測到作業(yè)任務(wù)完成之后，通過登錄軟件下載結(jié)果數(shù)據(jù)，最后對計算結(jié)果進行處理后得出計算結(jié)論[8]。其中客戶端的安裝、作業(yè)提交、集群管理屬于集群的軟件系統(tǒng)，而登陸節(jié)點、計算節(jié)點、存儲系統(tǒng)則屬于集群的硬件系統(tǒng)，最終共同通過網(wǎng)絡(luò)連接成一個統(tǒng)一的整體進行運營。

下面以甘肅省計算中心進行集群擴容升級為例，分析高性能計算集群系統(tǒng)搭建的整個過程。按照甘肅省計算中心提供計算的用戶分類可知，用戶主要為科學(xué)計算與工程計算，大部分用戶來自甘肅省高校、科研院所與企業(yè)等，通過統(tǒng)計分析，這些用戶大多數(shù)應(yīng)用粒度大、應(yīng)用時效性要求較低，用于基礎(chǔ)科研的較多。下面將從集群硬件、集群軟件和集群配置方面進行簡單的介紹。

2.1.1 ?集群硬件

該高性能計算集群硬件為中科曙光CX50-G20，其硬件體系架構(gòu)如圖3所示，分別由20臺兩路計算刀片服務(wù)器、1臺登錄節(jié)點、1臺管理節(jié)點以及存儲系統(tǒng)組成。所有計算節(jié)點通過56GB InfiniBand網(wǎng)絡(luò)互連，其中一臺千兆交換機與登錄節(jié)點和管理節(jié)點連接，該交換機接入外網(wǎng)，集群用戶通過該交換機連接高性能計算集群提交作業(yè)任務(wù)。

2.1.2 ?集群軟件

通用集群系統(tǒng)的軟件系統(tǒng)一般由以下幾個軟件部分組成，操作系統(tǒng)、并行化應(yīng)用程序、作業(yè)管理、系統(tǒng)管理和開發(fā)環(huán)境等[9]。Linux操作系統(tǒng)依然是高性能計算集群操作系統(tǒng)的最佳選擇，其可擴展性、可靠性、靈活性和易用性在集群管理中起到了非常重要的作用。本次擴容升級的集群系統(tǒng)軟件層次結(jié)構(gòu)圖如圖4所示，系統(tǒng)構(gòu)建底層平臺是CentOS6.2，安裝了MPICH3.2、Intel編譯器、MKL數(shù)學(xué)庫等運行環(huán)境，通過曙光的Gridview集群管理軟件監(jiān)控集群的狀態(tài)、性能，還可以進行作業(yè)管理等工作。

編譯器與數(shù)學(xué)庫在基于Linux的高性能計算集群系統(tǒng)中的作用非常重要，因為在許多科學(xué)計算的應(yīng)用中，一些軟件是開放源碼程序，這些源碼程序由C++語言編寫，編譯器的作用就是將這些“C++”翻譯為“機器語言”的程序[10]。源程序經(jīng)過編譯器的編譯才能轉(zhuǎn)化成可執(zhí)行的程序。以下是編譯器的主要工作流程：源代碼（source code）→預(yù)處理器（preprocessor）→編譯器（compiler）→目標(biāo)代碼（object code）→鏈接器（linker）→可執(zhí)行程序（executables）[11]。該高性能集群在集群根目錄下安裝了Intel編譯器，供所有使用集群的用戶使用，其下載安裝包為parallel_studio_xe_ 2019_update1_cluster_edition.tgz。

利用編譯器編譯完成的可執(zhí)行程序在運行時還需要調(diào)用大量的數(shù)學(xué)庫進行各種計算，現(xiàn)已有一些比較成熟的標(biāo)準(zhǔn)化數(shù)學(xué)庫，如線性代數(shù)方面的BLAS、LAPACK、ScaLAPACK和FFTW等等。通常情況下推薦使用具有更高性能的AMD官方ACML數(shù)學(xué)庫（AMD Core Math5-Library），該庫為PGI-7.0版本編譯器所匹配的數(shù)學(xué)庫[12]。由于該集群安裝了Intel編譯器，所以使用相關(guān)的MKL，即Intel?Math Kernel Library for Linux數(shù)學(xué)庫安裝包相匹配。數(shù)學(xué)庫與函數(shù)庫在集群安裝初期配置中并不是必須的，一些集成度高的商用計算軟件在集群上運行計算任務(wù)時，需要在腳本文件中寫入調(diào)用編譯器與數(shù)學(xué)庫的路徑，用戶也可以根據(jù)自己實際應(yīng)用的情況進行下載安裝配置。

2.1.3 ?集群配置

在完成了高性能計算集群系統(tǒng)的硬件與軟件的準(zhǔn)備工作之后，要將集群運行起來還必須進行相關(guān)的配置工作[13]。最初的配置操作應(yīng)該在管理節(jié)點上進行，其他子節(jié)點的配置過程與主節(jié)點類似，主節(jié)點配置完成后許多配置文件或者操作可以復(fù)制在子節(jié)點上。高性能計算集群基本配置過程如圖5所示。

首先，為了避免用戶在節(jié)點數(shù)量多的情況下重復(fù)輸入用戶名和密碼，需要為集群配置無密碼訪問的操作。下面以rsh遠(yuǎn)程通信協(xié)議為例介紹實現(xiàn)集群無密碼訪問的功能，需要安裝rsh-server軟件包，然后配置/etc/hosts、/etc/hosts.equiv及/root/.rhosts文件，添加需要無密碼訪問的節(jié)點，并且所有節(jié)點都要操作。編輯/etc/xinetd.d/rsh和/etc/xinetd.d/rlogin文件，將disable=yes更改為disable=no，并將rexec、rlogin、rsh加入到/etc/securetty中，然后重啟xinetd進程。到此，可以通過rsh命令訪問不同的服務(wù)器，如果不需要密碼，則說明服務(wù)器之間可以無密碼訪問[14]。

其次，需要進行登陸節(jié)點的網(wǎng)絡(luò)配置。在確保所有節(jié)點計算機都已安裝TCIP/IP協(xié)議的情況下，為所有節(jié)點統(tǒng)一分配IP地址，所有節(jié)點的IP地址盡量在一個域中，以方便管理[15]。在某一個節(jié)點的配置文件/etc/hosts中，輸入集群內(nèi)全部節(jié)點的IP、名稱、別名等網(wǎng)絡(luò)配置信息，每一個子節(jié)點的網(wǎng)絡(luò)配置信息是一樣的，接著使用單一系統(tǒng)通過遠(yuǎn)程操作，復(fù)制/etc/hosts中的網(wǎng)絡(luò)配置文件到所有子節(jié)點。

最后，進行并行環(huán)境配置。以MPICH3.2的安裝為例，簡單介紹一些重要的安裝步驟：

（1）從網(wǎng)站http：//www.mpich.org/dowllloads/下載mpich-3.2.tar.gz安裝包;

（2）#tar zxvf mpich-3.2.tar.gz，解壓縮到磁盤陣列;

（3）#cd/root/mpich，進入解壓后的目錄;

（4）配置configure文件，#./configure--prefix=/publicl/home/user/user001/mpich3.2，--prefix為軟件所安裝的目錄;

（5）#make

（6）#make install

3 ?集群搭建后的管理與維護

3.1 ?集群作業(yè)管理系統(tǒng)

曙光Gridview高性能計算的綜合管理系統(tǒng)基于TOR-QUE（Tera-scale Open-source Resource and Queue manager）來實現(xiàn)對集群的安裝部署、配置、狀態(tài)監(jiān)控、告警、報表分析等運行維護管理工作，以及對高性能計算資源的調(diào)度分配、作業(yè)提交、作業(yè)管理、狀態(tài)監(jiān)控和統(tǒng)計記賬等功能[16]。以作業(yè)提交為例，Girdview有兩種作業(yè)提交方式，一種為腳本方式，可選擇已經(jīng)寫完整的腳本文件所在的絕對目錄進行提交;另外一種方式為命令行方式，用戶需在命令行輸入界面輸入運行作業(yè)相關(guān)的命令行。以下是作業(yè)提交中非常常見的簡單實用型腳本：

#！/bin/bash

#PBS–N testjob ? //指定作業(yè)名稱

#PBS–l node=2：ppn=28 ? //作業(yè)所需要節(jié)點數(shù)以及每個節(jié)點運行core數(shù)

#PBS–q queue_name ? //指定作業(yè)提交到哪個隊列

mpirun–np作業(yè)總core數(shù)–machinefile $PBS_NODEFILE./cpi ? //真正執(zhí)行作業(yè)的指令，其中總cores=no des×ppn。

3.2 ?集群環(huán)境監(jiān)控與維護

鑒于高性能計算集群的高可用性，一般用戶要求7×24小時×365天不間斷運行。大量的計算任務(wù)提交到計算節(jié)點上，各個節(jié)點都處于高速運轉(zhuǎn)的狀態(tài)，計算刀片以及周邊設(shè)備發(fā)熱量驟增，服務(wù)器排風(fēng)口的溫度基本都在40℃左右。因此，良好的機房環(huán)境、制冷系統(tǒng)是保障該系統(tǒng)運行的必要條件?？茖W(xué)合理的機房氣流組織也是建立集群時必須考慮的問題之一，遵循“冷道在柜前、熱道在柜后”的原則，將冷熱通道區(qū)分開有利于空調(diào)快速帶走熱量，降低空調(diào)制冷系統(tǒng)能耗[17]。

如上所述，該集群要進行長期、穩(wěn)定的運行需要機房空調(diào)設(shè)施來保持機房標(biāo)準(zhǔn)溫度，同時離不開不間斷的UPS電源保護，這些工作除了由集群監(jiān)控軟件完成一部分以外，還需要有經(jīng)驗、管理能力較強的技術(shù)人員去解決各個環(huán)節(jié)出現(xiàn)的問題。具體的措施如下：

（1）對經(jīng)常出現(xiàn)故障的、容易老化的設(shè)備硬件做好記錄，并定期排查，出現(xiàn)問題及時進行更換或維修處理;

（2）密切監(jiān)控集群使用情況，若出現(xiàn)節(jié)點宕機、登陸節(jié)點死機、IO節(jié)點故障等要及時處理，以免造成用戶數(shù)據(jù)丟失;

（3）制定合理的機房運維制度、執(zhí)行制度和管理制度，提升集群管理人員技術(shù)水平，應(yīng)對日常問題和突發(fā)問題。

4 ?集群并行效率測試

通過作業(yè)提交軟件Gridview提交測試計算作業(yè)，最大并行規(guī)模為140核，跨節(jié)點計算時，每個節(jié)點用滿28核。作業(yè)正常結(jié)束后，根據(jù)Gridview作業(yè)統(tǒng)計信息，得到完成該作業(yè)所運行的機時（Run Time），根據(jù)統(tǒng)計結(jié)果計算出加速比以及并行效率。加速比即同一個任務(wù)在單處理器系統(tǒng)和N個并行處理器系統(tǒng)中運行消耗時間的比率。

4.1 ?測試環(huán)境

測試集群計算節(jié)點的系統(tǒng)環(huán)境如表1所示。

4.2 ?測試算例

用VASP對含有62個原子的Ni孿晶模型進行單點能計算，計算過程中采用的計算參數(shù)與模型完全相同。采用不同計算資源時的CPU性能分析，即運行時間對比如表2所示。其中加速比=1166.551/不同節(jié)點CPU運行時間，并行效率=加速比/節(jié)點數(shù)。

測試結(jié)果如圖6所示，隨著并行核數(shù)的增加，加速比在28核與56核時線性加速非常明顯，隨著計算核數(shù)繼續(xù)增加，計算耗時不斷回落，加速比數(shù)據(jù)一直呈小幅攀升趨勢。當(dāng)并行測試規(guī)模擴大至140核，也就是單節(jié)點28核的5倍時，可以看到計算時間從單節(jié)點28核的1165.551秒縮短至492.118秒，也就是計算時長縮短了近1/2，計算時長并沒有縮短到理論的1/5，此時的加速比倍數(shù)為2.37，并且并行效率維持在47%的水平。因此，在使用VASP求解此類計算問題時，需要及時注意計算資源的變化趨勢情況，根據(jù)求解問題類型和模型類型特點選用合理的區(qū)域分解方案和多核并行加速策略，以實現(xiàn)計算資源的優(yōu)化配置和最佳使用狀態(tài)。

5 ?結(jié) ?論

我國高性能計算應(yīng)用的發(fā)展已經(jīng)到了上升的關(guān)鍵時期，在國家大力的投入與支持下，將持續(xù)朝著良好的態(tài)勢發(fā)展。高性能計算集群不只是簡單地將一些硬件搭建在一起就能投入使用，而是需要詳盡的規(guī)劃來進行建設(shè)。在集群數(shù)量持續(xù)上漲的同時，許多維護的困擾也相應(yīng)出現(xiàn)，在整個系統(tǒng)設(shè)計的初期應(yīng)該具有長遠(yuǎn)的眼光，謹(jǐn)慎地考慮問題。在搭建后使用的階段，更應(yīng)該根據(jù)實際運行情況，不斷調(diào)整整個機器的資源調(diào)度策略和隊列設(shè)置等，以適應(yīng)用戶的需求。

參考文獻：

[1] 鄭曉歡，陳明奇，唐川，等.全球高性能計算發(fā)展態(tài)勢分析 [J].世界科技研究與發(fā)展，2018，40（3）：249-260.

[2] 袁國興，姚繼鋒.2017年中國高性能計算機發(fā)展現(xiàn)狀分析 [J].計算機工程與科學(xué)，2017，39（12）：2161-2166.

[3] 鄧賓.高性能計算集群的建立及管理 [J].自動化與儀器儀表，2014（2）：149-151.

[4] 王濤，李強.全球未來計算競爭態(tài)勢及對我國的啟示 [J].電信技術(shù)，2018（6）：43-46.

[5] 錢德沛.我國高性能計算的回顧與展望 [J].民主與科學(xué)，2017（4）：20-23.

[6] 孟玲玲.高性能計算集群系統(tǒng)建設(shè)與運行管理研究 [J].軟件導(dǎo)刊，2017，16（3）：138-140.

[7] 遲學(xué)斌.高性能計算環(huán)境與應(yīng)用 [J].國防科技工業(yè)，2018（5）：21-22.

[8] 鐘澤秀，詹曉東，裴春梅.低成本的高性能計算環(huán)境的搭建 [J].蕪湖職業(yè)技術(shù)學(xué)院學(xué)報，2016，18（4）：33-36.

[9] 陳曉霞，孫婧.中國氣象局的高性能計算機系統(tǒng) [J].科研信息化技術(shù)與應(yīng)用，2012，3（5）：83-90.

[10] 黃建強，孟永偉，曹騰飛，等.青海大學(xué)三江源數(shù)據(jù)分析中心高性能計算集群的構(gòu)建與設(shè)備管理[J].實驗技術(shù)與管理，2014，31（12）：237-240.

[11] 高永國，鄧津.甘肅省地震局高性能計算系統(tǒng) [J].地震地磁觀測與研究，2018，39（1）：149-153.

[12] 游偉倩，盛樂標(biāo)，張予倩.南京大學(xué)大型高性能計算集群平臺建設(shè)研究 [J].科技創(chuàng)新導(dǎo)報，2018，15（4）：126-127.

[13] 郭宇，葛佳斌.高性能計算集群運維自動化研究 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用，2017（6）：59-61.

[14] 金能智，者建武，李唐艷，等.基于Linux的高性能計算集群MPI并行環(huán)境配置研究 [J].科技創(chuàng)新導(dǎo)報，2017，14（3）：116-117.

[15] 朱宏武，尹新懷，羅丹，等.湖南省氣象局遠(yuǎn)程高性能計算環(huán)境的設(shè)計與實現(xiàn) [J].南京信息工程大學(xué)學(xué)報（自然科學(xué)版），2016，8（3）：259-266.

[16] 中科曙光.Gridview3.2普通用戶用戶手冊 [Z].曙光信息產(chǎn)業(yè)股份有限公司，2013.

[17] 李博.通信機房的運行維護工作探究 [J].信息系統(tǒng)工程，2018（9）：101.

作者簡介：文洮（1987-），女，漢族，甘肅人，助理研究員，研究生，研究方向：高性能計算、數(shù)值模擬等。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

中小型規(guī)模高性能計算集群的搭建與維護