• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談武漢氣象高性能計(jì)算機(jī)系統(tǒng)的運(yùn)維管理

      2021-03-24 11:16:32尹常紅胡雅超袁文波涂明侯靜
      電腦知識(shí)與技術(shù) 2021年2期
      關(guān)鍵詞:集群監(jiān)控管理

      尹常紅 胡雅超 袁文波 涂明 侯靜

      摘要:高性能計(jì)算機(jī)在氣象部門得到了廣泛應(yīng)用,發(fā)揮了重要作用,對(duì)高性能計(jì)算集群的科學(xué)高效的運(yùn)維管理是確保高性能計(jì)算機(jī)系統(tǒng)正常運(yùn)行的首要任務(wù)。本文結(jié)合武漢軍運(yùn)會(huì)氣象高性能計(jì)算機(jī)的實(shí)際情況,對(duì)高性能計(jì)算機(jī)在業(yè)務(wù)應(yīng)用、運(yùn)行監(jiān)控與維護(hù)管理等方面做了介紹,對(duì)業(yè)務(wù)科研人員和運(yùn)維管理人員具有一定參考借鑒意義。

      關(guān)鍵詞:高性能計(jì)算;集群;監(jiān)控;管理

      中圖分類號(hào):TP311? ? ?文獻(xiàn)標(biāo)識(shí)碼: A

      文章編號(hào):1009-3044(2021)02-0204-03

      1 引言

      隨著現(xiàn)代科學(xué)技術(shù)特別是信息技術(shù)的不斷發(fā)展,高性能計(jì)算應(yīng)用逐步走進(jìn)科研和服務(wù)領(lǐng)域。高性能計(jì)算應(yīng)用不是單一的片面的簡(jiǎn)單應(yīng)用,而是一整套科學(xué)合理的系統(tǒng)布局。高性能計(jì)算應(yīng)用主要包括高性能計(jì)算應(yīng)用和高性能計(jì)算機(jī)技術(shù),它們?cè)诠δ馨l(fā)揮和相互促進(jìn)方面有著密切的聯(lián)系。高性能計(jì)算機(jī)及其相關(guān)技術(shù)的創(chuàng)新研發(fā),為高性能計(jì)算的應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。同時(shí),高性能計(jì)算應(yīng)用的物質(zhì)設(shè)備來(lái)自高性能計(jì)算機(jī)及相關(guān)技術(shù)。

      高性能計(jì)算機(jī)近年來(lái)發(fā)展迅速,已逐漸成為計(jì)算機(jī)科學(xué)的一個(gè)分支。高性能計(jì)算集群(HPC)是先進(jìn)的高可用性技術(shù)與高性能計(jì)算機(jī)的有機(jī)結(jié)合。它在軍工軍事、物質(zhì)材料、生物醫(yī)療、天氣預(yù)報(bào)等越來(lái)越多的科學(xué)領(lǐng)域得到應(yīng)用。

      高性能計(jì)算集群由多臺(tái)計(jì)算機(jī)(稱之為節(jié)點(diǎn))共同完成整個(gè)系統(tǒng)承擔(dān)的工作負(fù)載,目的是完成超大、超高和超復(fù)雜的計(jì)算任務(wù),使用并行算法,通過(guò)SMP或Cluster架構(gòu)計(jì)算平臺(tái),解決CPU、內(nèi)存、網(wǎng)絡(luò)和存儲(chǔ)的性能瓶頸,實(shí)現(xiàn)高并發(fā)性能的計(jì)算過(guò)程。實(shí)現(xiàn)了求解規(guī)模更大、計(jì)算時(shí)間更短、計(jì)算任務(wù)更多的目的。高性能集群是由一個(gè)性能良好的管理節(jié)點(diǎn)和多臺(tái)計(jì)算節(jié)點(diǎn)組成,管理節(jié)點(diǎn)對(duì)所有計(jì)算節(jié)點(diǎn)進(jìn)行統(tǒng)一管理,每個(gè)子節(jié)點(diǎn)獨(dú)立運(yùn)行自己的操作系統(tǒng),節(jié)點(diǎn)與節(jié)點(diǎn)之間通過(guò)內(nèi)部高速局域網(wǎng)相互連接。工作流程是,管理節(jié)點(diǎn)負(fù)責(zé)與用戶進(jìn)行人機(jī)交互,當(dāng)它接收到用戶根據(jù)一定規(guī)則一定語(yǔ)法提交的任務(wù)請(qǐng)求后,再通過(guò)高性能集群的作業(yè)管理系統(tǒng),按照作業(yè)任務(wù)申請(qǐng)的高性能計(jì)算資源,將作業(yè)任務(wù)分配給計(jì)算節(jié)點(diǎn)。根據(jù)作業(yè)調(diào)度安排,計(jì)算節(jié)點(diǎn)通過(guò)系統(tǒng)組件完成計(jì)算任務(wù),計(jì)算結(jié)果返回給管理節(jié)點(diǎn),管理節(jié)點(diǎn)通過(guò)外部網(wǎng)絡(luò)提供最終用戶下載。

      高性能計(jì)算系統(tǒng)具有超強(qiáng)的計(jì)算能力,它不但可以解決大規(guī)模計(jì)算問題,而且它更容易根據(jù)計(jì)算能力的要求逐步實(shí)現(xiàn)性能擴(kuò)展。高性能計(jì)算機(jī)的每個(gè)節(jié)點(diǎn)獨(dú)立運(yùn)行,如果其中一個(gè)節(jié)點(diǎn)宕機(jī),它運(yùn)行的程序和連接到它的服務(wù)器將被系統(tǒng)自動(dòng)接管。這樣,整個(gè)集群就不會(huì)受到故障節(jié)點(diǎn)的影響,計(jì)算服務(wù)不會(huì)中斷。高性能計(jì)算集群大多采用 Linux 操作系統(tǒng),加載相關(guān)的編程和編譯環(huán)境,例如編程環(huán)境、編譯器、數(shù)學(xué)庫(kù)等。

      2 武漢氣象高性能計(jì)算機(jī)系統(tǒng)

      武漢市氣象局在第七屆世界軍人運(yùn)動(dòng)會(huì)前面建設(shè)了氣象高性能計(jì)算系統(tǒng),以滿足武漢軍運(yùn)會(huì)期間武漢市全境1km分辨率多源資料逐時(shí)快速融合分析系統(tǒng)和逐時(shí)快速更新循環(huán)同化預(yù)報(bào)系統(tǒng)業(yè)務(wù),實(shí)現(xiàn)每小時(shí)1次的12小時(shí)的天氣預(yù)報(bào),為武漢市提供精細(xì)化的氣象預(yù)報(bào)服務(wù)。武漢氣象高性能計(jì)算平臺(tái)系統(tǒng)整體上由計(jì)算子系統(tǒng)、存儲(chǔ)子系統(tǒng)、網(wǎng)絡(luò)子系統(tǒng)、管理區(qū)功能節(jié)點(diǎn)以及相關(guān)軟件系統(tǒng)組成。

      系統(tǒng)配置了26個(gè)計(jì)算節(jié)點(diǎn)、2個(gè)登錄節(jié)點(diǎn)、1個(gè)管理節(jié)點(diǎn)、1個(gè)后處理節(jié)點(diǎn),6個(gè)存儲(chǔ)節(jié)點(diǎn),一套風(fēng)冷排級(jí)微模塊機(jī)柜系統(tǒng)。安裝了曙光Gridview集群管理軟件、數(shù)學(xué)庫(kù)、并行環(huán)境以及氣象軟件包等。理論峰值計(jì)算能力為127TFlops,實(shí)測(cè)效率為66%。系統(tǒng)裸盤存儲(chǔ)容量544TB,讀寫聚合帶寬大于8GB/s。采用InfiniBand 100G EDR高速計(jì)算網(wǎng)絡(luò)確保了數(shù)據(jù)信息高速傳輸。結(jié)構(gòu)圖如如圖1。

      武漢氣象高性能計(jì)算機(jī)系統(tǒng)主要運(yùn)行武漢市快速更新循環(huán)同化預(yù)報(bào)業(yè)務(wù)系統(tǒng)RUC(RapidUpdateCycle),實(shí)現(xiàn)逐小時(shí)精細(xì)化氣象預(yù)報(bào)服務(wù)。如圖2所示。

      3 高性能計(jì)算機(jī)基本應(yīng)用

      高性能計(jì)算機(jī)系統(tǒng)最基本的應(yīng)用主要是系統(tǒng)登錄、文件交換以及作業(yè)調(diào)度。

      3.1 系統(tǒng)登錄

      武漢氣象高性能計(jì)算機(jī)開放普通用戶從氣象廣域網(wǎng)登錄,用戶可以通過(guò)ssh方式登錄集群系統(tǒng),也可以通過(guò) VNC、xmanager 等軟件訪問桌面圖形界面。用戶提交作業(yè)和軟件編譯調(diào)試建議都在登錄節(jié)點(diǎn)進(jìn)行。

      采用SSH方式 登錄時(shí), Windows 用戶可以使用相關(guān)客戶端軟件登錄,例如PuTTY、SecureCRT、 xShell、SSH Secure Shell Client,如圖3所示。Linux 用戶能夠直接執(zhí)行 ssh 命令進(jìn)行登錄:

      $ ssh username@IP

      3.2 文件上傳下載

      Windows 用戶可以使用客戶端軟件實(shí)現(xiàn)文件的上傳下載,例如winscp、SSH Secure Shell Client 等,如圖4。

      Linux 操作系統(tǒng)直接使用 scp 命令

      scp filenametest@ip:/home/test

      3.3 作業(yè)調(diào)度

      武漢氣象高性能計(jì)算機(jī)系統(tǒng)采用 Gridview 作業(yè)調(diào)度系統(tǒng),該調(diào)度系統(tǒng)基于 pbs 作業(yè)調(diào)度。集群隊(duì)列設(shè)置如下表所示。

      同時(shí),可以采用PBS(Portable Batch System)命令行模式來(lái)進(jìn)行作業(yè)調(diào)度。

      用戶通過(guò)qsub命令向高性能計(jì)算機(jī)系統(tǒng)提交任務(wù),有兩種方式:腳本模式和命令行模式。

      在腳本模式下提交作業(yè)任務(wù)時(shí),用戶可以使用簡(jiǎn)單的文本編輯器編寫腳本,預(yù)先將要執(zhí)行的程序或命令寫入腳本,同時(shí)可以根據(jù)需要添加一些必要的或可選的語(yǔ)句,然后使用qsub提交腳本。PBS將根據(jù)腳本內(nèi)容執(zhí)行工作任務(wù)。在PBS系統(tǒng)中,作業(yè)腳本由運(yùn)行程序的用戶命令和PBS環(huán)境變量的設(shè)置組成。注釋以“#”開頭,PBS命令以“#PBS”開頭。語(yǔ)法為:

      qsub xxx.pbs

      在以命令行模式提交時(shí),不用寫腳本,用戶可以直接從命令行輸入,輸入的內(nèi)容基本上和腳本中輸入的相同,其基本格式如下:

      qsub? ? ? ? ? ?//輸入qsub命令后回車

      [directives]? ?//pbs指示語(yǔ)句(以#pbs為前綴)

      [tasks]? ? ? ? //任務(wù)或命令

      ctrl-D? ? ? ? ?//結(jié)束輸入,提交任務(wù)

      與作業(yè)調(diào)度其他相關(guān)命令有(具體使用可以參考有關(guān)PBS的說(shuō)明文檔):

      查詢隊(duì)列信息:qmgr -c 'p s'

      查詢節(jié)點(diǎn)信息:pestat |more

      查詢作業(yè)運(yùn)行狀態(tài):qstat -an |more

      刪除作業(yè): qdel 作業(yè)號(hào)

      4 高性能集群運(yùn)行監(jiān)控

      武漢氣象高性能計(jì)算系統(tǒng)安裝部署了Gridview管理軟件,它是一款面向集群管理以及高性能計(jì)算的綜合管理系統(tǒng),它擁有較為強(qiáng)大的負(fù)載管理平臺(tái),實(shí)現(xiàn)對(duì)曙光HPC安裝部署、系統(tǒng)配置、運(yùn)行狀態(tài)監(jiān)控、故障告警以及報(bào)表分析等運(yùn)維管理工作;實(shí)現(xiàn)對(duì)高性能計(jì)算資源的調(diào)度分配、作業(yè)提交、作業(yè)管理、統(tǒng)計(jì)記賬等。Gridview 通過(guò) Web 瀏覽器即可輕松地實(shí)現(xiàn)監(jiān)控和管理,采用 Html5、CSS3 等先進(jìn)技術(shù),對(duì)機(jī)房、機(jī)柜、服務(wù)器等信息實(shí)現(xiàn)三維視圖的方式進(jìn)行監(jiān)控,所見即所得,直觀地監(jiān)控到高性能計(jì)算機(jī)機(jī)房的各種設(shè)備信息,并且能夠準(zhǔn)確定位故障點(diǎn)。

      登錄系統(tǒng)后,默認(rèn)進(jìn)入導(dǎo)航頁(yè)面,如圖5所示。每個(gè)圖標(biāo)對(duì)應(yīng)于一個(gè)功能項(xiàng),點(diǎn)擊可以直接進(jìn)入對(duì)應(yīng)的功能頁(yè)面,點(diǎn)擊“開始”可以進(jìn)入系統(tǒng)“首頁(yè)”。

      在對(duì)高性能計(jì)算集群的運(yùn)行監(jiān)控中,管理人員最為關(guān)注的就是資源利用情況、故障告警情況以及作業(yè)調(diào)度情況。Gridview提供了強(qiáng)大的系統(tǒng)監(jiān)控功能。

      其中在集群總覽功能頁(yè)面上,提供了共享存儲(chǔ)利用率、最近一小時(shí)CPU利用率、最近一小時(shí)內(nèi)存利用率、節(jié)點(diǎn)網(wǎng)絡(luò)可用性、計(jì)算能力峰值、已使用核時(shí)、已使用核數(shù)、集群運(yùn)行時(shí)長(zhǎng)、運(yùn)行作業(yè)數(shù)、歷史作業(yè)數(shù)統(tǒng)計(jì)等功能,這些功能對(duì)集群當(dāng)前工作狀態(tài)提供了一個(gè)總體運(yùn)行報(bào)告,詳見圖6。在集群負(fù)載的功能頁(yè)面上,提供了本地磁盤利用率、內(nèi)存平均利用率、共享存儲(chǔ)利用率、CPU平均利用率、相對(duì)一分鐘負(fù)載、共享存儲(chǔ)概況等實(shí)時(shí)監(jiān)測(cè)信息,同時(shí)在集群告警概況中展現(xiàn)了最近一個(gè)月來(lái)每一天中對(duì)刀片機(jī)箱、交換機(jī)、服務(wù)器、盤陣、機(jī)柜和存儲(chǔ)系統(tǒng)的告警數(shù)量統(tǒng)計(jì)值,這對(duì)于管理人員有針對(duì)性地對(duì)集群故障情況定位提供了很好的幫助,如圖7。根據(jù)這些告警分類,可以在相應(yīng)的“監(jiān)控”也沒的機(jī)房視圖、機(jī)柜視圖、節(jié)點(diǎn)視圖、分組視圖以及熱圖中查看相關(guān)設(shè)備的故障情況。

      在用戶對(duì)高性能計(jì)算資源的使用中,會(huì)有多個(gè)用戶提交數(shù)量不等的作業(yè)任務(wù),在Gridview的作業(yè)管理中,提供了歷史作業(yè)、狀態(tài)視圖、作業(yè)熱圖頁(yè)面的跳轉(zhuǎn)功能以及作業(yè)查詢和作業(yè)控制功能,管理員可以根據(jù)情況對(duì)作業(yè)進(jìn)行保留、釋放、掛起、恢復(fù)、重新運(yùn)行和刪除等操作。此外管理員也可以對(duì)相關(guān)資源進(jìn)行調(diào)度管理,對(duì)隊(duì)列和節(jié)點(diǎn)資源進(jìn)行相應(yīng)的管理和配置,如圖8。

      此外,Gridview提供了較為詳盡的報(bào)表管理功能,用戶可以生成指定時(shí)間范圍內(nèi)服務(wù)器、交換機(jī)、刀片機(jī)箱、磁盤陣列等的監(jiān)控指標(biāo)報(bào)表,這對(duì)分析高性能集群資源利用分析提供了參考。如圖9、圖10分別以服務(wù)器15分鐘負(fù)載統(tǒng)計(jì)和CPU使用時(shí)間統(tǒng)計(jì)為例,展示了Gridview的查詢統(tǒng)計(jì)功能。

      5 機(jī)房動(dòng)力環(huán)境監(jiān)控

      武漢氣象高性能計(jì)算機(jī)系統(tǒng)對(duì)機(jī)房動(dòng)力環(huán)境有著嚴(yán)格要求。系統(tǒng)電源電壓與PC服務(wù)器相同,一般為單相220V,工作頻率為50Hz,特別要求做好接地保護(hù),零地電壓應(yīng)小于1V。武漢氣象高性能計(jì)算機(jī)機(jī)房配備有3組行間精密空調(diào)和除塵除濕設(shè)備,確保運(yùn)行環(huán)境溫度控制在22℃左右,相對(duì)濕度應(yīng)為60%左右。同時(shí)配備防水、防火、報(bào)警以及抗電磁干擾等設(shè)備實(shí)施。

      武漢氣象高性能計(jì)算機(jī)系統(tǒng)可以在線對(duì)動(dòng)力環(huán)境進(jìn)行監(jiān)控,可以對(duì)列頭柜的電壓、電流、頻率進(jìn)行監(jiān)控,對(duì)除塵除濕機(jī)的溫濕度、風(fēng)機(jī)檔位、壓差等指標(biāo)進(jìn)行監(jiān)控,對(duì)機(jī)柜的前后門開關(guān)狀態(tài)、煙霧報(bào)警燈進(jìn)行監(jiān)控,重點(diǎn)對(duì)行間空調(diào)的上下回風(fēng)溫度濕度以及室內(nèi)外機(jī)的其他工作參數(shù)進(jìn)行監(jiān)控,對(duì)故障信息提供頁(yè)面告警和短信告警,提醒運(yùn)維管理人員及時(shí)處置,確保高性能集群系統(tǒng)工作正常。圖11和圖12分別截取了動(dòng)力環(huán)境監(jiān)控系統(tǒng)的部分監(jiān)控頁(yè)面。

      6 小結(jié)

      高性能計(jì)算機(jī)的應(yīng)用范圍越來(lái)越廣,其重要程度也越來(lái)越高,氣象業(yè)務(wù)服務(wù)對(duì)高性能計(jì)算機(jī)的依賴也越來(lái)越強(qiáng)。為確保高性能計(jì)算機(jī)能夠安全、穩(wěn)定運(yùn)行,必須做好高性能計(jì)算機(jī)的運(yùn)行監(jiān)控與維護(hù)管理工作,這就要求系統(tǒng)管理人員熟練掌握相應(yīng)的運(yùn)維管理技術(shù),并不斷從實(shí)踐中總結(jié)經(jīng)驗(yàn),只有這樣,才能使高性能計(jì)算機(jī)在氣象業(yè)務(wù)科研工作中的作用得以充分發(fā)揮,才能讓更加優(yōu)質(zhì)高效的氣象預(yù)報(bào)產(chǎn)品為經(jīng)濟(jì)社會(huì)發(fā)展和人民生產(chǎn)生活提供更好的服務(wù)。

      參考文獻(xiàn):

      [1] 趙立成,沈文海,肖華東,等.高性能計(jì)算技術(shù)在氣象領(lǐng)域的應(yīng)用[J].應(yīng)用氣象學(xué)報(bào),2016,27(5):550-558.

      [2] 王俊超,彭濤,馮光柳.曙光高性能計(jì)算機(jī)在數(shù)值預(yù)報(bào)模式中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(10):178-181,185.

      [3] 秦運(yùn)龍,許瑋,張冰松.華中區(qū)域高性能計(jì)算機(jī)監(jiān)控管理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].電子制作,2016(14):37-38.

      [4] 王彬.高性能計(jì)算技術(shù)在氣象部門的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(4):1476-1479.

      [5] 宗翔,王彬.國(guó)家級(jí)氣象高性能計(jì)算機(jī)管理與應(yīng)用網(wǎng)絡(luò)平臺(tái)設(shè)計(jì)[J].應(yīng)用氣象學(xué)報(bào),2006,17(5):629-634.

      [6] 文洮,金能智,馬堯,等.中小型規(guī)模高性能計(jì)算集群的搭建與維護(hù)[J].現(xiàn)代信息科技,2019,3(5):20-24.

      【通聯(lián)編輯:梁書】

      猜你喜歡
      集群監(jiān)控管理
      集群式AUV可控分群控制算法
      棗前期管理再好,后期管不好,前功盡棄
      The Great Barrier Reef shows coral comeback
      你被監(jiān)控了嗎?
      Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
      一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      看監(jiān)控?cái)z像機(jī)的4K之道
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      “這下管理創(chuàng)新了!等7則
      雜文月刊(2016年1期)2016-02-11 10:35:51
      静宁县| 邢台县| 阿合奇县| 庄浪县| 无极县| 旺苍县| 文水县| 嵩明县| 镇赉县| 固原市| 九龙坡区| 建水县| 新巴尔虎右旗| 南漳县| 容城县| 大邑县| 麻栗坡县| 米林县| 海丰县| 崇仁县| 盱眙县| 上思县| 咸宁市| 巴林左旗| 台东市| 龙里县| 舒城县| 成安县| 凌海市| 延津县| 泰兴市| 双流县| 灵丘县| 宁乡县| 湟中县| 青浦区| 沾化县| 乌兰察布市| 宁河县| 静海县| 余姚市|