• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于高性能計算的聯(lián)想智能超算平臺LiCO的設計與實現(xiàn)

      2019-03-17 05:53韓菲張海飛丁宏張超峰翁敏華黃義煊
      軟件工程 2019年2期

      韓菲 張海飛 丁宏 張超峰 翁敏華 黃義煊

      摘? 要:高性能計算集群軟件是高性能計算平臺的核心,如何高效地利用平臺性能是集群軟件面對的主要問題。聯(lián)想智能超算平臺LiCO致力于提供簡單、易用、豐富的高性能計算及人工智能平臺,具有管理、監(jiān)控、報警、作業(yè)調(diào)度等多項高性能計算功能。本文簡要介紹了高性能計算集群架構(gòu)后,詳細描述了LiCO軟件的高性能計算功能。該軟件不但具有高性能計算功能,在人工智能領域也在不斷深入探索與研發(fā)。

      關鍵詞:高性能計算;智能超算;管理監(jiān)控;作業(yè)調(diào)度

      中圖分類號:TP391? ? ?文獻標識碼:A

      Lenovo Intelligent Computing Orchestration(LiCO) Based on?High Performance Computing

      HAN Fei1,2,ZHANG Haifei3,DING Hong3,ZHAO Chaofeng3,WENG Minhua3,HUANG Yixuan3

      (1.Lenovo Beijing Co.,LTD,Beijing 100094,China;

      2.Lenovo Beijing Information Technology Co.,LTD,Beijing 100094,China;

      3.Lenovo(Shanghai) Computer Technology Co.,LTD,Shanghai 201203,China)

      Abstract:High performance computing cluster software is the core of high performance computing platform.How to use platform performance efficiently is the main problem that cluster software faces.Lenovo intelligent computing Orchestration(LiCO) is committed to provide a simple,easy and rich platform for high-performance computing and artificial intelligence with management,monitoring,alarm,job scheduling and other high-performance computing functions.After briefly introducing the architecture of high performance computing cluster,this paper describes the high performance computing function of LiCO software in detail.The software not only has the function of high performance computing,but also is researched and developed in the field of artificial intelligence.

      Keywords:high performance computing;intelligent computing;management monitoring;job scheduling

      1? ?引言(Introduction)

      聯(lián)想智能超算平臺(Lenovo intelligent Computing Orchestration,以下簡稱LiCO)是聯(lián)想基于超性能計算(HPC)集群的一站式解決方案,其功能包括計算機集群管理、集群監(jiān)控、作業(yè)調(diào)度管理、集群用戶管理、賬戶管理、文件系統(tǒng)管理等[1]。通過LiCO可以實現(xiàn)對超算(super computing)集群資源的統(tǒng)一調(diào)度,同時支持HPC作業(yè)和AI作業(yè)。隨著人工智能、高性能計算和大數(shù)據(jù)的廣泛應用,LiCO已被越來越多的政府機關、高等院校、氣象環(huán)保、石油石化、機械制造和生命科學研究等單位使用。LiCO基于B/S架構(gòu)設計,用戶可以方便地通過網(wǎng)頁來對集群進行全面而細致的管控。

      2? 高性能計算集群的基本架構(gòu)(Basic architecture of high performance computing)

      高性能計算(High Performance Computing,簡稱HPC)由多臺服務器組在一起搭建成大型集群,從事大規(guī)模并行計算的工作。常規(guī)的高性能集群通過多臺服務器的多顆CPU的多核處理,并行計算,大規(guī)模處理計算問題,高效,高精度,低時間[2]。目前,除了CPU參與并行計算,也有了異構(gòu)并行計算加速器。一個完整的HPC集群由四種功能節(jié)點組成,本文簡單介紹:

      (1)管理節(jié)點:作為HPC集群的核心,肩負著集群管理、監(jiān)控管理、調(diào)度管理、策略管理、用戶和賬戶管理等主要功能。

      (2)登錄節(jié)點:是HPC集群練習外部網(wǎng)絡或集群之間的紐帶。用戶需要通過它來完成用戶的登錄并用它來上傳應用數(shù)據(jù),開發(fā)編譯程序,提交調(diào)度任務等。

      (3)計算節(jié)點:完成高性能計算任務。

      (4)存儲節(jié)點(I/O節(jié)點):為整個HPC集群提供了分布式文件系統(tǒng)服務。用戶通常會在存儲節(jié)點上連接一個或多個外置存儲設備,以保證HPC的數(shù)據(jù)安全和容量。

      3? 聯(lián)想智能超算平臺LiCO的高性能計算功能?(High-performance computing features of LiCO)

      LiCO作為聯(lián)想自主研發(fā)高性能計算集群管理軟件[3],具有集群管理、集群報警、集群監(jiān)控、作業(yè)管理等功能。

      3.1? ?LiCO集群管理功能

      LiCO具有強大的高性能計算集群管理功能。在管理功能中,LiCO具備靈活的節(jié)點分組策略,管理員可以根據(jù)需要將集群節(jié)點進行邏輯分組,以便后面對不同的分組進行批量監(jiān)控和管理。這樣對于大集群就有很大的靈活性,可以選中一個邏輯組進行批量的監(jiān)控和管理操作。

      LiCO可以實現(xiàn)批量開關機,如管理員在Web頁面上可以選中多個節(jié)點進行批量的開關機,并且可以遠程命令、并行命令和并行拷貝[4],具備易用的節(jié)點管理Web Console和Web SSH,以及完整的集群操作日志。

      LiCO系統(tǒng)具備完善的節(jié)點信息展示功能,提供了查看單節(jié)點詳細信息的功能,節(jié)點詳細信息包括:

      (1)節(jié)點的靜態(tài)配置信息,如節(jié)點名、CPU、內(nèi)存、磁盤等信息。

      (2)節(jié)點各種監(jiān)控指標(溫度、能耗、Load、CPU使用率、內(nèi)存使用率、硬盤使用率、網(wǎng)絡吞吐)的歷史趨勢圖。

      (3)節(jié)點上當前運行作業(yè)的列表。

      (4)節(jié)點上當前報警信息的列表。

      3.2? ?LiCO集群報警功能

      LiCO不但具有集群管理功能,還具有完善的集群報警功能,可以定義豐富的報警策略、靈活的報警觸發(fā)機制,支持多種報警處理方式(郵件、短信、微信、聲音、自定義腳本),提供實時報警查詢,提供歷史報警查詢,實現(xiàn)基于報警自定義腳本報警自動處理,以及硬件異常報警等功能[5]。

      在報警策略管理功能中,管理員可以增加、修改、刪除、啟用/停用報警策略,從而能夠方便的定義豐富的報警策略。

      在實時報警記錄查詢功能。管理員能方便地查看集群的當前報警記錄。實時報警查詢支持按照報警等級的過濾,按照時間段的過濾。

      LiCO能夠?qū)崿F(xiàn)硬件異常報警。LiCO可以添加報警策略,在報警策略的監(jiān)控指標里面選擇硬件監(jiān)控,來對系統(tǒng)硬件狀態(tài)進行監(jiān)控,包括CPU、內(nèi)存、硬盤、風扇、電源等硬件的異常都會產(chǎn)生報警記錄。

      3.3? ?LiCO集群監(jiān)控功能

      同時,LiCO軟件還具有集群監(jiān)控功能,可以顯示豐富的監(jiān)控指標、一目了然的集群總體狀態(tài)圖、物理機房視圖、物理機架視圖和機架中節(jié)點三維比較圖,具有靈活的節(jié)點分組,可以監(jiān)控單節(jié)點、刀箱、風扇、電源及節(jié)點組整體的性能,并且繪制節(jié)點組中節(jié)點熱力圖。更重要的是,還可以進行集群作業(yè)監(jiān)控。

      LiCO可以顯示豐富的監(jiān)控指標。系統(tǒng)支持多種監(jiān)控指標的監(jiān)控:Load、CPU使用率、內(nèi)存使用率、硬盤使用率、網(wǎng)絡吞吐、溫度、能耗、作業(yè)等。

      LiCO可以從系統(tǒng)管理員主頁顯示集群整體狀態(tài)圖,包括CPU、內(nèi)存、網(wǎng)絡、存儲、作業(yè)、節(jié)點使用情況、報警、調(diào)度系統(tǒng)狀態(tài)等,以便管理員可以直觀地了解到集群的整體狀態(tài)情況。

      LiCO可以表示物理機房視圖。系統(tǒng)提供的物理視圖中首先就是物理機房的監(jiān)控視圖,視圖中直觀地顯示機房位置、名稱、能耗、機房中的機架,機架中的節(jié)點使用統(tǒng)計和報警統(tǒng)計。

      LiCO能夠表示物理機架視圖和機架中節(jié)點三維比較圖。系統(tǒng)提供了物理機架視圖,視圖以Rackview的方式顯示機架中的節(jié)點。視圖形象以節(jié)點顏色的深淺表示監(jiān)控指標數(shù)值的高低。點擊視圖的一個節(jié)點,可以查看這個節(jié)點的詳細監(jiān)控。

      LiCO可以實現(xiàn)刀箱的風扇、電源監(jiān)控。LiCO提供了刀箱的風扇和電源的狀態(tài)監(jiān)控,當風扇或電源有異常時LiCO頁面會產(chǎn)生硬件異常的報警。

      LiCO能夠做節(jié)點組整體性能監(jiān)控。在系統(tǒng)的分組視圖中,可以查看一個組的監(jiān)控指標(Load、CPU使用率、內(nèi)存使用率、硬盤使用率、網(wǎng)絡吞吐、溫度、能耗、作業(yè))的歷史趨勢圖。

      LiCO能夠表示節(jié)點組中節(jié)點熱力圖。系統(tǒng)提供熱力圖,直觀地通過顏色深淺表示節(jié)點組中所有節(jié)點監(jiān)控指標的實時值的大小。系統(tǒng)支持在熱力圖上根據(jù)值區(qū)間進行過濾顯示。

      LiCO可實現(xiàn)集群作業(yè)監(jiān)控。系統(tǒng)提供了作業(yè)監(jiān)控頁面,可以直觀查看集群中正在運行、等待和結(jié)束的作業(yè)。

      3.4? ?LiCO作業(yè)管理功能

      LiCO在高性能計算集群作業(yè)管理上支持各種主流調(diào)度器如LSF、Torque、Slurm、PBS Pro,提供可定制化的作業(yè)模板。同時,LiCO還支持豐富的作業(yè)操作和Web VNC管理,可以方便地導出各種作業(yè)報告。

      LiCO可以通過命令行提交作業(yè),作業(yè)會同步顯示在Web頁面上,也可以通過Web頁面提交,系統(tǒng)提供了各種模板來提交作業(yè)。

      LiCO可以直觀地查看作業(yè)運行狀態(tài)和運行結(jié)果。用戶的Web主頁通過列表直觀展了當前用戶正在運行、等待和已經(jīng)結(jié)束的作業(yè)的信息(作業(yè)名、狀態(tài)、隊列、作業(yè)提交時間、作業(yè)開始時間、作業(yè)結(jié)束時間等)。用戶的Web主頁可以查看某一作業(yè)的詳情,如作業(yè)在哪些節(jié)點上執(zhí)行,也可以通過Web文件系統(tǒng)方便地下載和查看作業(yè)運行結(jié)果。

      LiCO支持各種分布式文件系統(tǒng):Lustre、GPFS、NFS等;通過系統(tǒng)提供的Web文件系統(tǒng)可以:創(chuàng)建文件和文件夾、編輯、刪除、上傳、下載、重命名、排序和查看等;文件空間隔離:每個用戶有自己的文件空間,用戶不能看到和修改其他用戶的用戶文件空間的文件。

      4? ?結(jié)論(Conclusion)

      聯(lián)想DCG研發(fā)的Lenovo Intelligent Computing Orchestration(LiCO)聯(lián)想智能超算平臺,同時針對管理員和普通用戶提供易用的管理平臺,使用LiCO腳本可以快速安裝部署好一整套HPC集群,適用于各種規(guī)模的高性能集群。在HPC方便的功能,LiCO還支持作業(yè)模板定制化服務、報表定制化服務及3D機房定制化服務。

      此外,LiCO不但具有高性能計算軟件版本,還推出了LiCO AI和LiCO EM系列版本,下文將針對LiCO AI軟件開展相關研究工作。

      參考文獻(References)

      [1] Bormin Huang.高性能計算在人工智能中的應用[J].重慶理工大學學報,2016,30(8):3.

      [2] 趙立成,沈文海,肖華東,等.高性能計算技術在氣象領域的應用[J].應用氣象學報,2016,27(5):550-558.

      [3] 王小寧,肖海力,曹榮強.面向高性能計算環(huán)境的作業(yè)優(yōu)化調(diào)度模型的設計與實現(xiàn)[J].計算機工程與科學,2017,39(4):619-626.

      [4] 趙春燕,孫婧,魏敏.云及高性能計算集群環(huán)境中配置管理系統(tǒng)設計[J].計算技術與自動化,2016,35(1):111-116.

      [5] 李惠歡,楊敏,吳汝明.基于TORQUE的高性能計算平臺記賬系統(tǒng)[J].計算機應用與軟件,2016,33(8):126-130.

      龙海市| 宁乡县| 太康县| 稻城县| 加查县| 谷城县| 廊坊市| 和田县| 天镇县| 潍坊市| 耿马| 静海县| 铜鼓县| 大邑县| 家居| 太仆寺旗| 沂源县| 永川市| 屯门区| 太保市| 循化| 平武县| 邯郸县| 甘南县| 上虞市| 莲花县| 深泽县| 隆尧县| 德惠市| 牙克石市| 固阳县| 澎湖县| 义马市| 海伦市| 克东县| 会东县| 宜昌市| 嫩江县| 拜泉县| 九龙坡区| 朝阳县|