• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搭建高性能計算集群平臺探討

      2021-12-19 23:47:35李淑倩楊敏董玉敏侯波
      電腦知識與技術(shù) 2021年32期
      關(guān)鍵詞:搭建平臺探討

      李淑倩 楊敏 董玉敏 侯波

      摘要:隨著全球計算機技術(shù)的高速發(fā)展,本企業(yè)致力于研究高性能計算集群技術(shù)多年,且在生產(chǎn)和實踐中取得了良好效果。本文旨在通過對高性能計算集群平臺搭建而總結(jié)的一些粗淺認識,對高性能計算集群在本企業(yè)中的應(yīng)用進行探討,為企業(yè)高性能計算集群運行維護人員提供一些借鑒和參考。

      關(guān)鍵詞:搭建;HPCC;平臺;探討

      中圖分類號:TP311 ? ? ?文獻標識碼:A

      文章編號:1009-3044(2021)32-0147-02

      1 前言

      高性能計算集群High Performance Computing Cluster,簡稱HPCC,能為擁有大數(shù)據(jù)計算要求的應(yīng)用程序提供高性能數(shù)據(jù)并行處理能力,應(yīng)用集群技術(shù)能在部分節(jié)點出現(xiàn)操作系統(tǒng)、應(yīng)用或數(shù)據(jù)存儲故障時,避免整個系統(tǒng)免于崩潰。

      1.1 企業(yè)概述

      本企業(yè)是集地震勘探處理、解釋、信息技術(shù)應(yīng)用于一體的科研機構(gòu),經(jīng)過多年技術(shù)研究和努力,引進了大規(guī)模高性能計算集群系統(tǒng),搭建了能為地震勘探處理解釋等應(yīng)用提供高效計算能力的高性能計算集群平臺,以滿足企業(yè)計算處理和存儲需求。

      1.2 平臺設(shè)計

      企業(yè)對用戶業(yè)務(wù)進行了詳細調(diào)研和分析,集群節(jié)點涵蓋了CPU刀片、GPU機架式和其他機架式節(jié)點,存儲以分布式為主,網(wǎng)絡(luò)結(jié)構(gòu)基于萬兆以太網(wǎng)絡(luò)和InfiniBand(縮寫IB)無限帶寬技術(shù)相結(jié)合原則而搭建,計算網(wǎng)絡(luò)核心由2臺HPCC交換機構(gòu)成,分別進行10X10G鏈路捆綁,增強數(shù)據(jù)傳輸帶寬。

      圖1是本企業(yè)高性能計算集群HPCC網(wǎng)絡(luò)拓撲圖,大虛框內(nèi)是專為高性能計算而設(shè)計的計算網(wǎng),與辦公網(wǎng)絡(luò)隔離,業(yè)務(wù)互不交叉。隨著高性能計算處理能力的日新月異,平臺也經(jīng)過升級和擴容,數(shù)據(jù)處理能力逐步提高,數(shù)據(jù)存儲容量從最早的G級到T級,直到目前的P級,此平臺也成為企業(yè)生產(chǎn)建設(shè)中不可缺少的重要環(huán)節(jié)。

      2 平臺搭建

      2.1 基礎(chǔ)設(shè)計

      2.1.1 節(jié)點

      1)CPU節(jié)點

      搭建的CPU計算節(jié)點為集群刀箱刀片式,配置2個6核CPU,主頻3.2GHz,主板插槽8個I/O端口,其中4個高速I/O端口,內(nèi)存48G,硬盤600G,做RAID1數(shù)據(jù)保護,配IB網(wǎng)卡,4臺集群管理節(jié)點和1臺軟件管理節(jié)點配置同上,為機架式節(jié)點。

      2)GPU節(jié)點

      GPU計算節(jié)點為機架式,配置4個6核CPU,主頻3.2GHz,內(nèi)存48G,為利于圖形計算業(yè)務(wù)配2塊GPU圖形顯卡,硬盤1.5T,做RAID1數(shù)據(jù)保護,配IB網(wǎng)卡,2臺集群管理節(jié)點與CPU節(jié)點同樣配置。

      2.1.2 存儲

      存儲搭建以分布式存儲為主,相對于集中式存儲,分布式存儲除了傳統(tǒng)的分布式文件系統(tǒng)、分布式塊存儲和分布式對象存儲外,還包括分布式數(shù)據(jù)庫和分布式緩存等,在分布式架構(gòu)中服務(wù)器分為管理數(shù)據(jù)的元數(shù)據(jù)節(jié)點和負責(zé)實際數(shù)據(jù)的管理服務(wù)器。

      當(dāng)客戶端需要從某個文件讀取數(shù)據(jù),首先從元數(shù)據(jù)節(jié)點獲取該文件具體在哪個數(shù)據(jù)節(jié)點,元數(shù)據(jù)節(jié)點是主備部署,數(shù)據(jù)節(jié)點由大量節(jié)點構(gòu)成一個集群,由于數(shù)據(jù)節(jié)點集群分散了客戶端請求,使得元數(shù)據(jù)的訪問頻度和訪問量相對要小,通常不會成為性能瓶頸,這種分布式存儲架構(gòu)可通過動態(tài)擴展數(shù)據(jù)節(jié)點數(shù)量來增加承載能力。

      分布式存儲也是一種完全無中心架構(gòu)計算模式,客戶端通過一個設(shè)備映射關(guān)系計算出數(shù)據(jù)位置,核心組件只需安裝監(jiān)控服務(wù)、對象存儲服務(wù)和客戶端軟件,其中監(jiān)控服務(wù)用于維護存儲系統(tǒng)中服務(wù)器和硬盤等在線信息的硬件邏輯關(guān)系,監(jiān)控服務(wù)通過集群方式保證其服務(wù)可用性,對象存儲服務(wù)用于實現(xiàn)對磁盤的管理,通常一個磁盤對應(yīng)一個對象存儲服務(wù)??蛻舳嗽L問存儲從監(jiān)控服務(wù)讀取存儲資源布局信息,計算出具體的物理服務(wù)器信息和磁盤信息,最終與該位置直接通信進行讀寫存操作,不同于傳統(tǒng)的硬件RAID,所有數(shù)據(jù)全部由文件系統(tǒng)管理。

      由于早期數(shù)據(jù)存儲量穩(wěn)定,引進了2套T級別的分布式存儲,均10G掛載在HPCC交換機A下,為CPU和GPU節(jié)點提供數(shù)據(jù)存儲服務(wù)。

      2.1.3 網(wǎng)絡(luò)

      最初的網(wǎng)絡(luò)規(guī)模如圖1所示設(shè)計了一臺HPCC交換機A,此交換機是專為大數(shù)據(jù)計算應(yīng)用到智能、融合的企業(yè)邊緣網(wǎng)絡(luò)提供強大性能、功能需求而設(shè)計,主要有模塊化體系結(jié)構(gòu)、集成安全身份識別、高度虛擬化數(shù)據(jù)中心的自動化特性,可實現(xiàn)以太網(wǎng)自動保護交換、無中斷切換和自我修復(fù)功能,通用端口借助強大的事件驅(qū)動框架支持網(wǎng)絡(luò)部署和配置,允許基于身份的訪問控制和策略,同時具有高可用性模塊化架構(gòu),提供進程監(jiān)控、內(nèi)存保護功能,主備管理模塊系統(tǒng)的無中斷切換和模塊級軟件升級功能可為啟用了堆疊交換機提供無中斷切換保護,模塊化和內(nèi)存保護設(shè)計防止系統(tǒng)損壞,支持融合網(wǎng)絡(luò)日益增長的需求設(shè)計,增強網(wǎng)絡(luò)安全性管理。CPU和GPU節(jié)點與客戶端通訊通過IB網(wǎng)關(guān)轉(zhuǎn)換為以太網(wǎng)絡(luò),IB網(wǎng)關(guān)12X10G上連到HPCC交換機A。IB技術(shù)基于高性能計算網(wǎng)絡(luò)通信標準,具有極高的吞吐量和極低的延遲,可用于節(jié)點間交換互連、節(jié)點與存儲間直接或交換互連、存儲間互連,IB技術(shù)具有配置簡單、管理方便功能,適合企業(yè)級大數(shù)據(jù)計算網(wǎng)絡(luò)的應(yīng)用。

      2.1.4 軟件

      節(jié)點全部安裝LINUX操作系統(tǒng),建立網(wǎng)絡(luò)信息服務(wù)NIS和時間同步NTP服務(wù)器,針對企業(yè)需求,在不同節(jié)點安裝CGG、Geoeast、Paradigm、Tomodel、Eposdb等業(yè)務(wù)軟件,部署Light/NCI、Pns等許可服務(wù)器。

      2.2 升級擴容

      由于企業(yè)規(guī)模的擴大,系統(tǒng)已不能滿足現(xiàn)狀,如圖1所示,隨后設(shè)計了數(shù)據(jù)交換性能和轉(zhuǎn)發(fā)能力更強的HPCC交換機B,與HPCC交換機A 10X10G互連,新節(jié)點均為刀片式CPU計算節(jié)點,接在HPCC交換機B下,配置4個10核CPU,主頻2.8GHz,內(nèi)存128G,硬盤1.2T,做RAID1數(shù)據(jù)保護,集群管理節(jié)點和IO節(jié)點配置4個12核CPU,主頻2.6GHz,內(nèi)存256G,硬盤2.4T(數(shù)據(jù)庫節(jié)點為6T),做RAID1數(shù)據(jù)保護。I/O節(jié)點負責(zé)數(shù)據(jù)的存儲并響應(yīng)計算節(jié)點的存儲請求,企業(yè)采用了多I/O節(jié)點服務(wù)模式,將計算所需的初始數(shù)據(jù)、計算得出的最終數(shù)據(jù)和平臺數(shù)據(jù)存儲在I/O節(jié)點上,提高運行效率。

      介于企業(yè)存儲數(shù)據(jù)業(yè)務(wù)規(guī)模,設(shè)計了P級別的大型分布式存儲,接到HPCC交換機B下,由于老的分布式存儲性能和運行指標的下降,作為企業(yè)備份存儲,各自在企業(yè)生產(chǎn)中肩負著不同的角色。

      2.3 用戶訪問

      計算網(wǎng)雖通過匯聚交換機接入核心交換機,但沒有設(shè)立網(wǎng)關(guān)、不發(fā)布路由,與辦公網(wǎng)業(yè)務(wù)安全隔離。對于有計算業(yè)務(wù)需求的用戶,須到指定的計算網(wǎng)區(qū)域,使用計算網(wǎng)資源從事計算業(yè)務(wù),用戶在作業(yè)進行時,通過特定的作業(yè)調(diào)度軟件自動被分配到不忙的計算節(jié)點運行程序、提交數(shù)據(jù),縮短集群作業(yè)運行時間,杜絕網(wǎng)絡(luò)安全隱患的發(fā)生。

      2.4 運維監(jiān)控

      2.4.1 節(jié)點監(jiān)控

      企業(yè)對節(jié)點的監(jiān)控管理選用了開源的網(wǎng)絡(luò)監(jiān)控系統(tǒng)Nagios Core,它可監(jiān)控SMTP、POP3、HTTP、NNTP、PING等網(wǎng)絡(luò)服務(wù),監(jiān)視處理器負載、磁盤使用情況等節(jié)點資源情況,能檢測和區(qū)分主機是宕機或不通,可直觀地查看當(dāng)前網(wǎng)絡(luò)狀態(tài)、問題歷史記錄、日志文件等,當(dāng)主機、服務(wù)出現(xiàn)問題或問題解決時發(fā)出預(yù)警通知。

      企業(yè)定義了對當(dāng)前負載Current Load、當(dāng)前用戶數(shù)Current Users、根分區(qū)Root Partition、總進程數(shù)Total Processes、交換分區(qū)Swap Usage、SSH和PING的監(jiān)控。

      2.4.2 存儲監(jiān)控

      針對存儲監(jiān)控,定制了服務(wù)器運行情況、磁盤狀態(tài)、文件讀寫統(tǒng)計和歷史報警信息等,如磁盤狀態(tài)、總系統(tǒng)容量達到上限或閾值時預(yù)警。

      3 實施效益

      考慮到通信延遲是高性能計算集群應(yīng)用面臨的最關(guān)鍵技術(shù)挑戰(zhàn),因此構(gòu)建了響應(yīng)速度更快的IB網(wǎng)絡(luò)、GPU加速等技術(shù),同時在數(shù)據(jù)方面使用更具成本效益、速度穩(wěn)定的持久性存儲服務(wù),部署這些技術(shù)均進行網(wǎng)絡(luò)連通性、延遲和性能、CPU和GPU穩(wěn)定性以及節(jié)點間運行大數(shù)據(jù)的測試,結(jié)果均滿足各專業(yè)計算軟件傳遞數(shù)據(jù)的運行需求,使平臺業(yè)務(wù)得到穩(wěn)定運行。

      在實施運行中做到了勘探處理解釋研究的可視化和高效運算,使用戶在短時間內(nèi)完成大數(shù)據(jù)量的分析和運算,進一步為油氣開發(fā)研究做保障,極大滿足用戶對科研生產(chǎn)的應(yīng)用需求。未來我們將積極探索,尋求虛擬化和云計算資源對HPCC的支持,實時結(jié)合生產(chǎn)實際并運用新技術(shù)保障HPCC業(yè)務(wù)的穩(wěn)定發(fā)展,為企業(yè)經(jīng)濟發(fā)展助力。

      參考文獻:

      [1] 計算機技術(shù)與發(fā)展.基于MPICH2的高性能計算集群系統(tǒng)研究[Z].2020.10.

      [2] 百度文庫.高性能計算集群系統(tǒng)的設(shè)計和實現(xiàn)[Z]. 2020.9.

      [3] CSDN網(wǎng).配置高性能計算集群[Z].2020.12.

      【通聯(lián)編輯:李雅琪】

      猜你喜歡
      搭建平臺探討
      高中數(shù)學(xué)實踐教學(xué)體系平臺的搭建策略研究
      亞太教育(2016年35期)2016-12-21 20:12:41
      基于單節(jié)點單網(wǎng)卡環(huán)境的OpenStack平臺搭建
      基于云計算和移動互聯(lián)技術(shù)的科技創(chuàng)新云服務(wù)平臺的搭建
      淺談初中信息技術(shù)高效課堂的構(gòu)建
      網(wǎng)絡(luò)平臺支持《教育技術(shù)學(xué)》公共課實驗教學(xué)模式構(gòu)建
      陜西科技大學(xué)鎬京學(xué)院應(yīng)用型人才培養(yǎng)模式探索
      以學(xué)霸講堂為依托的學(xué)生黨員學(xué)風(fēng)引領(lǐng)平臺建設(shè)研究
      新財務(wù)會計制度下醫(yī)院成本核算的探討與實踐分析
      芻議小學(xué)足球教學(xué)的訓(xùn)練教學(xué)方法
      體育旅游產(chǎn)業(yè)的特征及發(fā)展策略探討
      商(2016年27期)2016-10-17 07:16:17
      遵化市| 南安市| 富蕴县| 司法| 将乐县| 隆子县| 乐业县| 宜昌市| 洞口县| 桑植县| 扎赉特旗| 景泰县| 东阳市| 石棉县| 杭锦旗| 东平县| 惠来县| 盐池县| 资讯 | 盘锦市| 清水县| 峡江县| 志丹县| 稷山县| 翁牛特旗| 城固县| 临武县| 宁德市| 微山县| 河间市| 双柏县| 荥经县| 墨江| 石景山区| 洛川县| 崇州市| 大悟县| 额济纳旗| 诸暨市| 西安市| 罗田县|