• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      安徽大學(xué)HPC平臺(tái)資源管理優(yōu)化策略

      2022-12-21 03:02:18段運(yùn)生
      中國(guó)教育網(wǎng)絡(luò) 2022年8期
      關(guān)鍵詞:配置文件進(jìn)程高性能

      文/段運(yùn)生

      隨著信息技術(shù)的飛速發(fā)展,高性能計(jì)算HPC得到眾多科研領(lǐng)域的青睞,如生物基因、材料設(shè)計(jì)、金融計(jì)算、計(jì)算機(jī)科學(xué)等領(lǐng)域[1]。高性能計(jì)算是計(jì)算機(jī)科學(xué)的分支之一,其采用并行化技術(shù),將計(jì)算復(fù)雜度較高的計(jì)算任務(wù)分解成眾多小型計(jì)算任務(wù),將其分配給眾多處理器同時(shí)計(jì)算,以實(shí)現(xiàn)高性能計(jì)算的目的[2]。目前,高性能計(jì)算已成為繼理論科學(xué)和實(shí)驗(yàn)科學(xué)之后科學(xué)探索的第三范式,被廣泛應(yīng)用在高能物理學(xué)、材料科學(xué)、航天航空飛行器設(shè)計(jì)、國(guó)民經(jīng)濟(jì)預(yù)測(cè)與決策、能源勘探、衛(wèi)星圖像處理、情報(bào)分析、互聯(lián)網(wǎng)服務(wù)、工業(yè)仿真等領(lǐng)域,對(duì)國(guó)民經(jīng)濟(jì)發(fā)展和國(guó)防建設(shè)具有重要價(jià)值。

      高性能計(jì)算平臺(tái)一般由管理節(jié)點(diǎn)、登錄節(jié)點(diǎn)、網(wǎng)絡(luò)管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)和存儲(chǔ)資源構(gòu)成,其中計(jì)算節(jié)點(diǎn)一般包括CPU計(jì)算節(jié)點(diǎn)和GPU計(jì)算節(jié)點(diǎn)[3]。此外,高性能計(jì)算平臺(tái)還可以擴(kuò)展公有云的校外計(jì)算資源,由此構(gòu)成一套完整的異構(gòu)化的混合計(jì)算平臺(tái)。高性能計(jì)算平臺(tái)中各計(jì)算節(jié)點(diǎn)由高性能網(wǎng)絡(luò)(InfiniBand/ OPA)相互連接,構(gòu)成一個(gè)高性能計(jì)算集群。

      Slurm是可用于高性能計(jì)算集群的開(kāi)源集群管理器和作業(yè)調(diào)度系統(tǒng),維護(hù)待處理的作業(yè)隊(duì)列并管理此集群的整體資源[4,5]。針對(duì)Slurm的調(diào)度軟件的應(yīng)用,眾多學(xué)者在其基礎(chǔ)上提出了許多適應(yīng)于自身平臺(tái)的優(yōu)化改進(jìn)策略。例如,為應(yīng)對(duì)超大規(guī)模計(jì)算系統(tǒng)帶來(lái)的大量監(jiān)控?cái)?shù)據(jù),文獻(xiàn)[6]提出了超大規(guī)模計(jì)算系統(tǒng)的監(jiān)控、調(diào)度及網(wǎng)絡(luò)優(yōu)化實(shí)踐,使集群節(jié)點(diǎn)數(shù)量可以達(dá)到上萬(wàn)。針對(duì)Slurm的計(jì)費(fèi)功能,文獻(xiàn)[7]提出了一種基于Slurm作業(yè)調(diào)度系統(tǒng)的預(yù)計(jì)費(fèi)裝置和方法,通過(guò)將Slurm調(diào)度系統(tǒng)與GOLD機(jī)時(shí)記賬系統(tǒng)集成,將作業(yè)使用機(jī)時(shí)從用戶(hù)可用機(jī)時(shí)中預(yù)約,作業(yè)結(jié)束后扣除機(jī)時(shí)。此外,文獻(xiàn)[8]還提出一種基于Slurm作業(yè)管理的可視化調(diào)度系統(tǒng),通過(guò)Web前端實(shí)現(xiàn)了用戶(hù)以可視化方式使用作業(yè)調(diào)度系統(tǒng)。

      Slurm系統(tǒng)也存在不足,Slurm調(diào)度系統(tǒng)默認(rèn)實(shí)現(xiàn)用戶(hù)在各節(jié)點(diǎn)間的無(wú)障礙跳轉(zhuǎn),也就是說(shuō)用戶(hù)可以通過(guò)登錄節(jié)點(diǎn)直接SSH登錄任意計(jì)算節(jié)點(diǎn),并在此節(jié)點(diǎn)直接繞過(guò)Slurm調(diào)度軟件進(jìn)行作業(yè)計(jì)算[9]。這將導(dǎo)致用戶(hù)可以不再受Slurm資源管理的限制,隨意使用計(jì)算資源,造成管理和運(yùn)維的不便。此外,Slurm在登錄節(jié)點(diǎn)的監(jiān)管方面也存在嚴(yán)重缺陷,用戶(hù)可以直接無(wú)限制使用資源,而這將增加平臺(tái)登錄節(jié)點(diǎn)宕機(jī)的可能性。

      針對(duì)上述問(wèn)題,本文提出一套基于Slurm的智能化高性能計(jì)算資源管理方法,該方法包含一系列的控制功能:限制節(jié)點(diǎn)訪(fǎng)問(wèn)、智能化管理資源、資源異常查殺等,為平臺(tái)的有效運(yùn)行提供了一套完備的管理手段和策略。

      Slurm簡(jiǎn)介

      Slurm資源調(diào)度工具是面向Linux、Unix類(lèi)似內(nèi)核的免費(fèi)和開(kāi)源工作調(diào)度程序,由世界上許多超級(jí)計(jì)算機(jī)和計(jì)算機(jī)集群使用。它提供了三個(gè)關(guān)鍵功能:首先,它在一段時(shí)間內(nèi)為用戶(hù)分配對(duì)資源(計(jì)算機(jī)節(jié)點(diǎn))獨(dú)占和/或非獨(dú)占的訪(fǎng)問(wèn)權(quán)限,以便他們可以執(zhí)行工作;其次,它提供了一個(gè)框架,用于在一組分配的節(jié)點(diǎn)上啟動(dòng)、執(zhí)行和監(jiān)視工作(通常是并行作業(yè),例如MPI);最后,它通過(guò)管理待處理作業(yè)隊(duì)列來(lái)仲裁資源爭(zhēng)用。

      Slurm的設(shè)計(jì)非常模塊化,有大約100個(gè)可選插件。在最簡(jiǎn)單的配置中,它可以在幾分鐘內(nèi)完成安裝和配置,并為更復(fù)雜的配置提供數(shù)據(jù)庫(kù)集成,管理資源限制和工作負(fù)載優(yōu)先級(jí)[10]。

      Slurm資源管理系統(tǒng)的正常運(yùn)行還需要一些系統(tǒng)服務(wù)與支撐環(huán)境的正確設(shè)置,比如系統(tǒng)配置、節(jié)點(diǎn)、分區(qū)、調(diào)度、記賬存儲(chǔ)、網(wǎng)絡(luò)拓?fù)涞取lurm提供了豐富的配置文件,如主配置文件、記賬存儲(chǔ)服務(wù)配置文件、節(jié)點(diǎn)配置文件、分區(qū)配置文件和通用資源配置文件等。

      Slurm資源管理系統(tǒng)由多個(gè)部分構(gòu)成,如控制進(jìn)程、記賬存儲(chǔ)進(jìn)程、節(jié)點(diǎn)監(jiān)控進(jìn)程、作業(yè)管理進(jìn)程、命令工具等,其系統(tǒng)結(jié)構(gòu)如圖1所示。

      圖1 Slurm系統(tǒng)結(jié)構(gòu)

      基于Slurm的資源管理策略?xún)?yōu)化

      本文主要針對(duì)高性能計(jì)算集群的登錄節(jié)點(diǎn)、管理節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)進(jìn)行資源和權(quán)限的管理配置,其中使用到的軟件資源有:Slurm、CpuLimit模塊、pam_access.so插件和Linux基本的指令集。實(shí)現(xiàn)的功能如下:

      1.對(duì)各節(jié)點(diǎn)的root進(jìn)行固定IP訪(fǎng)問(wèn)限制;

      2.限制登錄節(jié)點(diǎn)中用戶(hù)的資源使用;

      3.限制用戶(hù)登錄無(wú)作業(yè)的計(jì)算節(jié)點(diǎn);

      4.在計(jì)算節(jié)點(diǎn)查殺非Slurm用戶(hù)的大計(jì)算進(jìn)程;

      5.GPU節(jié)點(diǎn)的異常作業(yè)處理。

      通過(guò)上述工具配置相應(yīng)策略,可實(shí)現(xiàn)高性能計(jì)算平臺(tái)的安全運(yùn)行和資源智能化、自動(dòng)化的監(jiān)管與調(diào)度。

      root固定IP訪(fǎng)問(wèn)限制

      高性能計(jì)算平臺(tái)默認(rèn)為用戶(hù)提供計(jì)算服務(wù)器,所以訪(fǎng)問(wèn)端口對(duì)外開(kāi)放。root用戶(hù)擁有整個(gè)系統(tǒng)中至高無(wú)上的權(quán)力,為了避免一些潛在的風(fēng)險(xiǎn),我們需對(duì)root用戶(hù)進(jìn)行訪(fǎng)問(wèn)權(quán)限的設(shè)置。該功能需要使用pam_access.so插件,該插件的功能和作用是根據(jù)主機(jī)名(包括普通主機(jī)名或者FQDN)、IP地址和用戶(hù)實(shí)現(xiàn)全面的訪(fǎng)問(wèn)控制。pam_access.so模塊的具體工作行為根據(jù)配置文件/etc/security/access.conf來(lái)決定。具體設(shè)置策略如下:

      管理節(jié)點(diǎn)只允許指定IP地址root訪(fǎng)問(wèn),禁止非root用戶(hù)訪(fǎng)問(wèn);登錄節(jié)點(diǎn)允許指定IP的root訪(fǎng)問(wèn)和所有用戶(hù)訪(fǎng)問(wèn);計(jì)算節(jié)點(diǎn)允許指定IP的root訪(fǎng)問(wèn),禁止用戶(hù)直接訪(fǎng)問(wèn)。

      實(shí)現(xiàn)方法:

      1.在/etc/pam.d/sshd添加如下一句account required pam_access.so

      2.在 /etc/security/access.conf添加+ : root : xxx.xxx.xxx.xxx-: root : ALL+ : ALL : ALL

      該配置文件的主體包含了三個(gè)字段:權(quán)限、用戶(hù)和訪(fǎng)問(wèn)發(fā)起方。格式上是一個(gè)用“:”隔開(kāi)的表。其中第一個(gè)字段:權(quán)限(permission),使用“+”表示授予權(quán)限,用“-”表示禁止權(quán)限。第二個(gè)字段:用戶(hù)(user),定義了用戶(hù)、組以及用“@”表示的不同主機(jī)上的同名用戶(hù)和同一主機(jī)上不同名用戶(hù)。第三個(gè)字段:訪(fǎng)問(wèn)發(fā)起方(origins),定義了發(fā)起訪(fǎng)問(wèn)的主機(jī)名稱(chēng)、域名稱(chēng)和終端名稱(chēng)。

      登錄節(jié)點(diǎn)中用戶(hù)的資源使用限制

      登錄節(jié)點(diǎn)是高性能計(jì)算的門(mén)戶(hù),主要用于用戶(hù)的登錄訪(fǎng)問(wèn)和作業(yè)提交功能。若用戶(hù)在登錄節(jié)點(diǎn)執(zhí)行大規(guī)模的計(jì)算任務(wù),會(huì)導(dǎo)致該登錄節(jié)點(diǎn)宕機(jī)。我們通過(guò)定時(shí)檢測(cè)用戶(hù)的進(jìn)程信息,對(duì)CPU使用率比較高的進(jìn)程進(jìn)行CPU資源限制。CPU資源限制選用的是cpulimit插件,具體設(shè)置策略如下:

      1.通過(guò)在登錄節(jié)點(diǎn)執(zhí)行如下命令實(shí)現(xiàn)對(duì)用戶(hù)進(jìn)程的獲?。╣rep -h '^.[0-9]{4}'是依據(jù)安徽大學(xué)的賬戶(hù)規(guī)則進(jìn)行的匹配篩選):ps -o ruser=userForLongName -e -o pid,%cpu--sort=-%cpu |grep -v root |grep -v PID|head-10 |grep -h '^.[0-9]{4}'

      2.對(duì)檢測(cè)到的進(jìn)行pid,進(jìn)行CPU資源對(duì)比,超過(guò)閾值的pid進(jìn)行cpu限制:if [ $(echo "$cpu>80"|bc) == 1 ]; then cpulimit --pid $pid --limit 50 &fi

      登錄節(jié)點(diǎn)的大規(guī)模計(jì)算資源限制的處理流程如圖2所示,配置crontab定時(shí)任務(wù)計(jì)劃,使腳本定制執(zhí)行。

      圖2 登錄節(jié)點(diǎn)資源限制流程

      限制用戶(hù)登錄無(wú)作業(yè)的計(jì)算節(jié)點(diǎn)

      該功能主要實(shí)現(xiàn)用戶(hù)在登錄節(jié)點(diǎn)無(wú)法直接SSH到計(jì)算節(jié)點(diǎn),只有用戶(hù)通過(guò)Slurm提交作業(yè)后,才有權(quán)限SSH到運(yùn)行該作業(yè)的計(jì)算節(jié)點(diǎn)。本功能需要使用Slurm的PAM插件來(lái)實(shí)現(xiàn)。

      實(shí)現(xiàn)方法:

      1.添加不包含pam_systemd.so的PAM配置:grep -v pam_systemd.so /etc/pam.d/passwordauth> /etc/pam.d/password-auth-no-systemd

      2./etc/security/access.conf 里添加如下:+:root:ALL-:ALL:ALL

      3./etc/pam.d/sshd 添加:account sufficient pam_access.so account required pam_slurm.so

      4.在/etc/pam.d/目錄下創(chuàng)建slurm文件,文件內(nèi)容如下:auth required pam_localuser.so account required pam_unix.so session required pam_limits.so

      計(jì)算節(jié)點(diǎn)查殺非Slurm用戶(hù)的大計(jì)算進(jìn)程

      用戶(hù)在作業(yè)運(yùn)行期間,可以SSH到相應(yīng)的計(jì)算節(jié)點(diǎn)。這時(shí)用戶(hù)可以直接在該計(jì)算節(jié)點(diǎn)進(jìn)行提交作業(yè)操作,這個(gè)操作是系統(tǒng)不允許的。但是如果作業(yè)結(jié)束后,直接阻截該用戶(hù)的所有進(jìn)程,也不合理。為此,我們添加了對(duì)計(jì)算節(jié)點(diǎn)異常進(jìn)程的查殺操作,操作流程如圖3所示,其具體設(shè)置策略如下:

      圖3 計(jì)算節(jié)點(diǎn)的異常進(jìn)程處理流程

      1.通過(guò)squeue查詢(xún)當(dāng)前計(jì)算節(jié)點(diǎn)的作業(yè)信息;

      2.通過(guò)ps指令查詢(xún)排除提交作業(yè)用戶(hù)的進(jìn)程信息;

      3.對(duì)各進(jìn)程信息的CPU使用率進(jìn)行檢測(cè),對(duì)使用率較高的進(jìn)程進(jìn)行查殺操作。

      GPU節(jié)點(diǎn)異常作業(yè)處理

      GPU計(jì)算節(jié)點(diǎn)主要用于計(jì)算深度學(xué)習(xí)等高性能計(jì)算,不允許提交傳統(tǒng)的CPU計(jì)算作業(yè),但是Slurm無(wú)法準(zhǔn)確判斷和管理該功能。為此,我們編寫(xiě)了在異常GPU作業(yè)查殺的模塊。其操作流程如圖4所示,具體設(shè)置策略如下所示:

      圖4 GPU節(jié)點(diǎn)的異常進(jìn)程處理流程

      1.通過(guò)squeue查詢(xún)當(dāng)前計(jì)算節(jié)點(diǎn)的作業(yè)信息;

      2.通過(guò)scontrol輪詢(xún)各作業(yè),判斷是否有申請(qǐng)GPU的字段信息(TresPerNode=gpu),對(duì)未使用GPU的作業(yè)進(jìn)行scancel操作。

      策略部署與性能測(cè)試

      本文針對(duì)安徽大學(xué)校級(jí)高性能計(jì)算平臺(tái)在實(shí)際運(yùn)行中遇到的問(wèn)題提出了基于Slurm的資源管理調(diào)度優(yōu)化方法。該優(yōu)化策略包括:根據(jù)IP地址的類(lèi)型確定是否允許IP地址訪(fǎng)問(wèn)對(duì)應(yīng)的節(jié)點(diǎn),以及根據(jù)用戶(hù)的類(lèi)型確定是否允許用戶(hù)訪(fǎng)問(wèn)對(duì)應(yīng)的節(jié)點(diǎn);根據(jù)用戶(hù)在登錄節(jié)點(diǎn)使用的CPU資源和預(yù)設(shè)的CPU資源閾值,確定是否進(jìn)行CPU限制;根據(jù)用戶(hù)提交作業(yè)的情況,確定是否允許用戶(hù)登錄到計(jì)算節(jié)點(diǎn);獲取已提交作業(yè)的用戶(hù)信息,根據(jù)非作業(yè)用戶(hù)進(jìn)程的CPU使用率和預(yù)設(shè)的使用率閾值,確定是否查殺該用戶(hù)進(jìn)程;對(duì)GPU計(jì)算節(jié)點(diǎn)中的非GPU作業(yè)進(jìn)行取消等功能。

      本文將Slurm的優(yōu)化策略在安徽大學(xué)校級(jí)高性能計(jì)算平臺(tái)進(jìn)行部署,并測(cè)試其性能。安徽大學(xué)高性能計(jì)算平臺(tái)是集傳統(tǒng)超算和GPU計(jì)算于一體的混合計(jì)算平臺(tái),該平臺(tái)系統(tǒng)拓?fù)鋱D如圖5所示。

      圖5 安徽大學(xué)高性能計(jì)算平臺(tái)拓?fù)?/p>

      目前,該平臺(tái)的建設(shè)規(guī)模如下:

      存儲(chǔ)空間186T,CPU總核數(shù)3340核,GPU總卡數(shù)59張,總計(jì)算節(jié)點(diǎn)數(shù)量為85個(gè)CPU節(jié)點(diǎn)和10個(gè)GPU節(jié)點(diǎn),平臺(tái)單精度性能總算力1316.8 Tflops。

      安徽大學(xué)高性能計(jì)算平臺(tái)于2021年底部署了基于Slurm的資源管理優(yōu)化策略,并結(jié)合用戶(hù)培訓(xùn)、群里通知等方式協(xié)助管理。經(jīng)過(guò)2022年第一季度實(shí)際測(cè)試,統(tǒng)計(jì)異常平臺(tái)記錄如表1所示。從表中可以看出,平臺(tái)的異常IP的節(jié)點(diǎn)訪(fǎng)問(wèn)現(xiàn)象顯著降低,有效解決了登錄節(jié)點(diǎn)異常宕機(jī)的問(wèn)題,同時(shí)切實(shí)保證了作業(yè)正常運(yùn)行,極大減少了平臺(tái)運(yùn)維工程師的工作量。

      表1 安徽大學(xué)高性能計(jì)算平臺(tái)的異常信息統(tǒng)計(jì)

      本文提出一種基于Slurm的智能化的高性能計(jì)算平臺(tái)的資源管理優(yōu)化策略,其能夠保證高性能計(jì)算平臺(tái)資源管理和分配,有效避免了Slurm的常見(jiàn)漏洞;此外,該策略能夠限制root的安全訪(fǎng)問(wèn)權(quán)限和計(jì)算節(jié)點(diǎn)的權(quán)限訪(fǎng)問(wèn),同時(shí)也限制登錄節(jié)點(diǎn)中用戶(hù)的資源使用和計(jì)算節(jié)點(diǎn)的異常進(jìn)程查殺。

      猜你喜歡
      配置文件進(jìn)程高性能
      提示用戶(hù)配置文件錯(cuò)誤 這樣解決
      搭建簡(jiǎn)單的Kubernetes集群
      互不干涉混用Chromium Edge
      債券市場(chǎng)對(duì)外開(kāi)放的進(jìn)程與展望
      忘記ESXi主機(jī)root密碼怎么辦
      一款高性能BGO探測(cè)器的研發(fā)
      電子制作(2017年19期)2017-02-02 07:08:49
      高性能砼在橋梁中的應(yīng)用
      SATA推出全新高性能?chē)姌孲ATAjet 5000 B
      高性能可變進(jìn)氣岐管降低二氧化碳排放
      社會(huì)進(jìn)程中的新聞學(xué)探尋
      冷水江市| 鲁甸县| 营山县| 呼和浩特市| 溧水县| 迁西县| 福州市| 武功县| 南涧| 石景山区| 嘉善县| 遂平县| 洞口县| 梅州市| 普宁市| 四会市| 偏关县| 甘肃省| 平罗县| 鄱阳县| 定安县| 五华县| 密山市| 神池县| 高雄市| 邯郸市| 和静县| 甘泉县| 荥经县| 开封县| 上栗县| 常熟市| 新建县| 奈曼旗| 罗山县| 西丰县| 台南县| 茶陵县| 墨江| 盐边县| 南皮县|