• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向機(jī)器學(xué)習(xí)的分布式并行計(jì)算關(guān)鍵技術(shù)及應(yīng)用

      2021-11-30 05:18:56曹嶸暉唐卓左知微張學(xué)東
      智能系統(tǒng)學(xué)報(bào) 2021年5期
      關(guān)鍵詞:決策樹分布式節(jié)點(diǎn)

      曹嶸暉,唐卓,左知微,張學(xué)東

      (1. 湖南大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 長沙 410082; 2. 國家超級(jí)計(jì)算長沙中心, 湖南 長沙 410082)

      以超級(jí)計(jì)算、云計(jì)算為計(jì)算基礎(chǔ)設(shè)施,以大數(shù)據(jù)分析、從海量經(jīng)驗(yàn)數(shù)據(jù)中產(chǎn)生智能的人工智能2.0時(shí)代的浪潮正在襲來[1-2]?;ヂ?lián)網(wǎng)、人工智能應(yīng)用的蓬勃發(fā)展,在海量數(shù)據(jù)的處理分析上面臨巨大的挑戰(zhàn):傳統(tǒng)數(shù)據(jù)平臺(tái)的并行計(jì)算能力、彈性存儲(chǔ)能力以及智能化數(shù)據(jù)分析能力難以滿足各行業(yè)海量數(shù)據(jù)在采集、存儲(chǔ)和分析上對(duì)計(jì)算資源的迫切需求[3-6]。數(shù)據(jù)驅(qū)動(dòng)的人工智能技術(shù)飛速發(fā)展,給互聯(lián)網(wǎng)、智能制造、智慧城市等應(yīng)用領(lǐng)域在數(shù)據(jù)采集、處理和分析框架上帶來了巨大的機(jī)會(huì)[7-9]。

      與此同時(shí),近年來蓬勃發(fā)展的企業(yè)應(yīng)用、互聯(lián)網(wǎng)應(yīng)用在海量數(shù)據(jù)的處理分析上也面臨巨大的挑戰(zhàn):傳統(tǒng)數(shù)據(jù)平臺(tái)的并行計(jì)算能力[10]、彈性存儲(chǔ)能力以及智能化數(shù)據(jù)分析能力難以滿足行業(yè)海量數(shù)據(jù)的采集[11]、存儲(chǔ)和分析的需求[12]。

      而目前國內(nèi)人工智能行業(yè)、大數(shù)據(jù)行業(yè)發(fā)展的主要矛盾是:大多數(shù)企業(yè)看得到數(shù)據(jù),但對(duì)數(shù)據(jù)如何采集[13]、存儲(chǔ)[14]、分析[15]、提供智能決策等方面缺乏成熟有效的平臺(tái)支撐,技術(shù)準(zhǔn)入門檻高[16-17]。

      1)流數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的處理和分析往往需要?jiǎng)討B(tài)可擴(kuò)展的計(jì)算和存儲(chǔ)能力,傳統(tǒng)的以服務(wù)器集群、SQL數(shù)據(jù)庫為主流架構(gòu)的企業(yè)數(shù)據(jù)中心基礎(chǔ)設(shè)施無論在硬件和軟件容量上都不具備實(shí)時(shí)擴(kuò)展的能力,很難滿足企業(yè)數(shù)據(jù)處理應(yīng)用對(duì)資源的彈性需求[18-19]。

      2)現(xiàn)有的面向非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)架構(gòu)基本上是基于NoSQL分布式文件系統(tǒng),這給傳統(tǒng)的以SQL數(shù)據(jù)庫編程為主要技能的程序員帶來了困擾[20-21]。

      3)現(xiàn)有的傳統(tǒng)企業(yè)基于數(shù)據(jù)庫的分析和處理的應(yīng)用往往不具備按照數(shù)據(jù)分塊進(jìn)行并行處理的能力。而現(xiàn)有主流并行編程框架對(duì)于一般的企業(yè)開發(fā)人員來說又難以短時(shí)間掌握。這使得以Hadoop/Spark、Flink等為代表的大數(shù)據(jù)并行存儲(chǔ)和處理框架的應(yīng)用很難得到較大面積的推廣和應(yīng)用[22-24]。

      4)以人工智能經(jīng)典算法、機(jī)器學(xué)習(xí)模型為核心的數(shù)據(jù)挖掘框架是目前進(jìn)行大數(shù)據(jù)分析的主要手段。但對(duì)于傳統(tǒng)企業(yè)的開發(fā)人員來說,同樣面臨著人工智能算法門檻太高,難于掌握的困境,使得一般的軟件公司很難組建面向行業(yè)數(shù)據(jù)分析處理和挖掘的研發(fā)團(tuán)隊(duì)[25-26]。

      課題組依托的國家超算長沙中心,作為我國在云計(jì)算、大數(shù)據(jù)及行業(yè)應(yīng)用的重大戰(zhàn)略基礎(chǔ)設(shè)施,其核心設(shè)備天河一號(hào)超級(jí)計(jì)算機(jī)與云服務(wù)器集群具備PB級(jí)的數(shù)據(jù)存儲(chǔ)、并行處理和分析挖掘的能力,能有效解決傳統(tǒng)企業(yè)在面向海量數(shù)據(jù)處理中所遇到的計(jì)算、存儲(chǔ)和算法瓶頸。

      面向我國行業(yè)領(lǐng)域?qū)Υ髷?shù)據(jù)并行處理與智能分析技術(shù)和服務(wù)能力提出的迫切需求,本文提出了高效能數(shù)據(jù)并行處理與智能分析系統(tǒng),為相關(guān)行業(yè)提供數(shù)據(jù)存儲(chǔ)、分析和挖掘的智能化云服務(wù),有效降低傳統(tǒng)企業(yè)基于超級(jí)計(jì)算機(jī)、云服務(wù)集群等來實(shí)現(xiàn)大數(shù)據(jù)智能分析的使用門檻。該系統(tǒng)有效地突破了數(shù)據(jù)采集、存儲(chǔ)、壓縮、分析、挖掘過程中在數(shù)據(jù)并行處理體系結(jié)構(gòu)、人工智能算法、并行編程模型方面存在的技術(shù)瓶頸,一方面有效發(fā)揮了課題組所依托的國家超級(jí)計(jì)算長沙中心作為高性能數(shù)據(jù)處理基礎(chǔ)設(shè)施的公共服務(wù)能力,另一方面將為領(lǐng)域企業(yè)提供了行業(yè)數(shù)據(jù)并行處理與智能分析的能力,提升了我國相關(guān)骨干企業(yè)的創(chuàng)新能力。

      1 研究方案

      本文的研究應(yīng)用方案如圖1 所示。

      圖1 本文研究總體框架Fig.1 General introduction of the research

      研究應(yīng)用方案具體包括:

      1)首先針對(duì)大多數(shù)云環(huán)境中服務(wù)器內(nèi)存資源平均使用率過低問題,提出了基于服務(wù)器內(nèi)存預(yù)測的虛擬機(jī)動(dòng)態(tài)預(yù)測部署及任務(wù)節(jié)能調(diào)度模型。在此基礎(chǔ)上,針對(duì)Hadoop/Spark的數(shù)據(jù)處理過程,設(shè)計(jì)并實(shí)現(xiàn)了一種面向傾斜數(shù)據(jù)Shuffle過程的任務(wù)調(diào)度策略:一方面通過Reduce任務(wù)放置策略減少Spark/Hadoop集群的內(nèi)部通信量,通過Reducer放置算法來實(shí)現(xiàn)任務(wù)本地化,以減少系統(tǒng)的中間數(shù)據(jù)傳輸量。

      2)提出和研發(fā)了分布式異構(gòu)環(huán)境下高效的資源管理系統(tǒng)與節(jié)能調(diào)度算法,針對(duì)各種遷移模型的場景,適配性能最優(yōu)的計(jì)算資源遷移模型,并基于OpenStack云平臺(tái)實(shí)現(xiàn)了面向數(shù)據(jù)中心集群的跨域計(jì)算資源遷移基礎(chǔ)設(shè)施,能兼容多數(shù)云平臺(tái)/數(shù)據(jù)中心虛擬機(jī)遷移算法,并支持目前流行的Ceph、KVM(kernel-based virtual machine)等存儲(chǔ)和計(jì)算框架,實(shí)現(xiàn)了支持計(jì)算資源、存儲(chǔ)資源調(diào)度算法的獨(dú)立封裝和部署的多數(shù)據(jù)中心資源管理體系結(jié)構(gòu)。在此基礎(chǔ)上,針對(duì)當(dāng)前云環(huán)境中服務(wù)器內(nèi)存資源平均使用率過低問題,提出了一種基于服務(wù)器內(nèi)存預(yù)測的分配機(jī)制下的虛擬機(jī)動(dòng)態(tài)預(yù)測部署模型VM-DFS(virtual machine dynamic forecast scheduling)。同時(shí)針對(duì)虛擬機(jī)動(dòng)態(tài)遷移問題,提出了一種基于動(dòng)態(tài)預(yù)測的虛擬機(jī)遷移模型VMDFM(virtual machine dynamic forecast migration),解決了動(dòng)態(tài)遷移過程中,如何從服務(wù)器上選擇合適的虛擬機(jī)進(jìn)行動(dòng)態(tài)遷移,從而達(dá)到整體節(jié)能的目標(biāo)。

      3)海量數(shù)據(jù)存儲(chǔ)和高并發(fā)用戶訪問需要分布式環(huán)境,但以異構(gòu)眾核等為主要計(jì)算部件的參數(shù)訓(xùn)練過程無法適應(yīng)分布式系統(tǒng)。原生的Spark/Flink等分布式數(shù)據(jù)處理框架也無法高效適用于深度學(xué)習(xí)的參數(shù)訓(xùn)練,GPU等高性能計(jì)算單元又無法應(yīng)對(duì)海量數(shù)據(jù)的分布存儲(chǔ)和計(jì)算,且難以支撐高并發(fā)的數(shù)據(jù)訪問。因此,本文針對(duì)深度學(xué)習(xí)增量迭代的運(yùn)算過程,研究迭代過程中的中間共享結(jié)果在GPU內(nèi)存及Cache內(nèi)的存儲(chǔ)和管理以及線程間的共享訪問機(jī)制。針對(duì)現(xiàn)有流行的分布式大數(shù)據(jù)處理框架,研究其在CPU/GPU異構(gòu)環(huán)境中的體系結(jié)構(gòu)擴(kuò)展優(yōu)化模型,突破Spark RDD等在GPU環(huán)境中的數(shù)據(jù)結(jié)構(gòu)和體系結(jié)構(gòu)的重新設(shè)計(jì),研究增量迭代過程中計(jì)算結(jié)果在GPU線程間以及Spark進(jìn)程間的共享模型,實(shí)現(xiàn)其在異構(gòu)計(jì)算環(huán)境下的緩存和持久化。

      4)本文針對(duì)DNN(deep neural networks)、CNN(convolutional neural networks)、RNN(recurrent neural network)等典型深度學(xué)習(xí)模型訓(xùn)練中的參數(shù)迭代過程進(jìn)行了深入研究,總結(jié)出增量迭代發(fā)生的模型、數(shù)據(jù)特征,發(fā)現(xiàn)了其訓(xùn)練過程可以實(shí)行增量迭代優(yōu)化的條件和時(shí)機(jī),提出了普適性的深度學(xué)習(xí)增量迭代優(yōu)化方法;針對(duì)現(xiàn)有Spark/Flink分布式大數(shù)據(jù)處理框架,提出了其在CPU/GPU異構(gòu)環(huán)境中的體系結(jié)構(gòu)擴(kuò)展優(yōu)化模型,設(shè)計(jì)并實(shí)現(xiàn)了一種在Spark/Flink計(jì)算容器與GPU核心間的高效通信方式,將傳統(tǒng)分布式深度學(xué)習(xí)框架的運(yùn)行效率提升數(shù)倍。在此基礎(chǔ)上,提出了分布式環(huán)境中的并行條件隨機(jī)場模型,將訓(xùn)練效率提升了3.125倍;提出了一種并行維特比算法,減少了計(jì)算步驟之間存在冗余的磁盤讀寫開銷和多次資源申請的問題,加速比達(dá)到6.5倍。

      2 分布異構(gòu)環(huán)境面向數(shù)據(jù)傾斜的任務(wù)時(shí)空調(diào)度

      傾斜是自然界與人類社會(huì)中數(shù)據(jù)屬性客觀存在,會(huì)造成集群計(jì)算節(jié)點(diǎn)負(fù)載不均衡、排隊(duì)現(xiàn)象/空等待現(xiàn)象普遍存在,集群內(nèi)部吞吐率低下,大幅度降低了系統(tǒng)的實(shí)際應(yīng)用效率[27-30]。鑒于此,本文研制了分布異構(gòu)環(huán)境面向數(shù)據(jù)傾斜的任務(wù)時(shí)空調(diào)度策略,本地化任務(wù)放置算法,以及分布式并行處理框架中的內(nèi)部數(shù)據(jù)均勻分片方法。形成了面向機(jī)器學(xué)習(xí)訓(xùn)練任務(wù)的任務(wù)調(diào)度理論與方法。

      2.1 基于Spark平臺(tái)的中間數(shù)據(jù)負(fù)載平衡設(shè)計(jì)

      自然界中數(shù)據(jù)分布多數(shù)在理論上都是傾斜的,導(dǎo)致傾斜的原因復(fù)雜且無法避免,因此在處理數(shù)據(jù)時(shí),如果沒有精心設(shè)計(jì)數(shù)據(jù)劃分或任務(wù)調(diào)度會(huì)極大程度地造成計(jì)算資源的浪費(fèi)和系統(tǒng)整體性能偏差。由此可知,數(shù)據(jù)偏斜帶來的負(fù)載均衡問題是分布式計(jì)算平臺(tái)中優(yōu)化的難點(diǎn)和重點(diǎn)[31-33]。對(duì)于集群系統(tǒng),數(shù)據(jù)對(duì)應(yīng)任務(wù),數(shù)據(jù)偏斜帶來的任務(wù)負(fù)載均衡問題會(huì)導(dǎo)致分布式系統(tǒng)的資源利用率低、計(jì)算執(zhí)行時(shí)間長且能耗高。本文基于現(xiàn)有的分布式計(jì)算框架Spark,優(yōu)化Spark計(jì)算框架下shuffle執(zhí)行過程中bucket容器中的數(shù)據(jù)偏斜導(dǎo)致的負(fù)載不平衡問題。本文提出了一種面向中間偏斜數(shù)據(jù)塊的重新劃分和再合并算法,通過兩個(gè)重要操作以緩解shuffle操作后reduce任務(wù)中的負(fù)載不平衡問題。圖2是SCID系統(tǒng)架構(gòu)模塊,該模塊包含系統(tǒng)中任務(wù)執(zhí)行的流程和shuffle過程。

      在這種分布式集群體系架構(gòu)中,每一個(gè)小塊的分片數(shù)據(jù)是文件的組織單位,該分片在HDFS(hadoop distributed file system)中是默認(rèn)的固定大小。在執(zhí)行一個(gè)map任務(wù)時(shí),客戶端的初始數(shù)據(jù)首先被加載到分布式文件系統(tǒng)(HDFS)中,每個(gè)文件由多個(gè)大小相同的數(shù)據(jù)塊組成,稱為輸入分區(qū)。每個(gè)輸入分區(qū)都被映射為一個(gè)map任務(wù)。在本文中,使用I?K×V來代表m個(gè)map任務(wù)的中間結(jié)果,K和V分別代表鍵和值的集合。一個(gè)cluster是某一個(gè)key值對(duì)應(yīng)的<鍵,值>對(duì)的集合,其一個(gè)子集為

      在圖2中使用分區(qū)函數(shù) Π決定一個(gè)中間元組的分區(qū)號(hào):

      圖2 Spark中shuffle數(shù)據(jù)分布過程Fig.2 Process of shuffle data distribution in Spark

      因此,shuffle過程中map端輸出的中間結(jié)果被劃分為p個(gè)大小不同的分區(qū),分區(qū)號(hào)根據(jù)元組的鍵值通過hash計(jì)算得到。因此所有key相同的元組都會(huì)被指向相同的分區(qū),因?yàn)樗鼈兌紝儆谝粋€(gè)cluster。分區(qū)是一個(gè)包含一個(gè)或多個(gè)clusters的容器。因此,定義一個(gè)分區(qū)為

      基于以上定義,本文提出了一種新穎的Spark作業(yè)負(fù)載均衡方法,設(shè)計(jì)了一個(gè)負(fù)載均衡模塊來重新劃分使之實(shí)現(xiàn)任務(wù)的均衡劃分。該模塊的執(zhí)行流程如下:在Spark提交作業(yè)后,負(fù)載均衡器啟動(dòng)并分析作業(yè)特點(diǎn)給出均衡分區(qū)策略。該策略在Spark作業(yè)shuffle階段指導(dǎo)系統(tǒng)對(duì)中間結(jié)果數(shù)據(jù)進(jìn)行分割和重組,重組結(jié)果clusters到一個(gè)或多個(gè)buckers之中,從而實(shí)現(xiàn)均衡分區(qū)。本文提出的負(fù)載均衡模塊在Spark基礎(chǔ)上設(shè)計(jì),主要包括兩個(gè)重要過程,分別為數(shù)據(jù)的采樣和cluster的分割組合,其中在數(shù)據(jù)抽樣階段,重點(diǎn)的是對(duì)clusters大小的進(jìn)行預(yù)測。圖3代表了一種改進(jìn)的工作流的Spark作業(yè),其中的一個(gè)核心組件是負(fù)載均衡模塊。

      圖3 架構(gòu)與負(fù)載均衡Fig.3 Architecture and load balancing

      在cluster分割重組的過程中,第一要義是分割以bucket的大小作為目標(biāo)進(jìn)行分割,特別是對(duì)于一些超大的clusters應(yīng)該盡量分成多個(gè)bucket大小的數(shù)據(jù)塊,方便重組填充的過程。眾所周知,現(xiàn)有的分布式大數(shù)據(jù)處理平臺(tái)如Hadoop/Spark體系架構(gòu)中在數(shù)據(jù)處理階段缺乏對(duì)計(jì)算數(shù)據(jù)的真實(shí)分布的清晰認(rèn)知[34],抽樣數(shù)據(jù)雖然不能保證真實(shí)地反映全體數(shù)據(jù)的分布特征,但基于其結(jié)果來近似估計(jì)數(shù)據(jù)的整體分布也可以實(shí)現(xiàn)較好的結(jié)果。在此基礎(chǔ)上,本文提出了一種改進(jìn)分局均衡策略來緩解現(xiàn)有分布式并行計(jì)算框架中的數(shù)據(jù)偏斜問題。

      2.2 面向分布式處理的抗數(shù)據(jù)傾斜分片機(jī)制

      隨著大數(shù)據(jù)時(shí)代的到來,信息爆炸使得數(shù)據(jù)的規(guī)模和復(fù)雜度都在增長,大數(shù)據(jù)并行計(jì)算中數(shù)據(jù)偏斜問題也日趨嚴(yán)重,成為一個(gè)亟需解決的問題。目前,大數(shù)據(jù)處理主流框架中對(duì)抗數(shù)據(jù)偏斜的能力都普遍較弱[35-37]。普適性的分布式并行計(jì)算框架中通常假設(shè)數(shù)據(jù)在計(jì)算過程中是均勻分布的,這跟現(xiàn)實(shí)數(shù)據(jù)的分布特征背向而馳。嚴(yán)重的數(shù)據(jù)偏斜程度會(huì)使集群計(jì)算系統(tǒng)的計(jì)算能力直線下降,引發(fā)資源利用率低和任務(wù)執(zhí)行過慢等問題。鑒于此,本文提出了一種密鑰重分配和分裂分區(qū)算法(SKRSP)來解決分區(qū)傾斜,該算法同時(shí)考慮了中間數(shù)據(jù)的分區(qū)平衡和shuffle算子后的分區(qū)平衡。SKRSP策略的整體架構(gòu)如圖4所示。

      圖4 SKRSP整體架構(gòu)Fig.4 General introduction to SKRSP

      SKRSP整體框架包含了兩個(gè)主要部分:中間數(shù)據(jù)分布預(yù)測、分片策略的生成與應(yīng)用。

      1)為了避免reduce任務(wù)之間的數(shù)據(jù)偏斜,需要在shuffle階段之前估計(jì)中間數(shù)據(jù)的key分布。因此,必須在常規(guī)作業(yè)之前輸入地圖任務(wù)時(shí)啟動(dòng)先前的示例作業(yè)。本文在不同的分區(qū)上并行實(shí)現(xiàn)了基于步驟的拒絕采樣算法。所有的樣本和對(duì)應(yīng)的采樣率都是從不同的map splits中收集的,它們構(gòu)成了通過采樣率計(jì)算每個(gè)key的權(quán)重的輸入。在此基礎(chǔ)上,可以估計(jì)中間數(shù)據(jù)的一般key分布。

      2)分片策略的生成與應(yīng)用。本系統(tǒng)根據(jù)Spark作業(yè)的具體應(yīng)用場景,采用不同的方法生成分配策略。對(duì)于這些屬于排序類的應(yīng)用程序,提出了KSRP算法來確定加權(quán)邊界。最終的key重新分配策略可以通過其他 KRHP算法獲得。具體來說,采樣中間數(shù)據(jù)key的分布是系統(tǒng)用于決策分區(qū)策略的依據(jù)。一方面,如果操作結(jié)果無需排序,基于hash的key cluster分片方法將被采用;另一方面,如果操作結(jié)果是需要進(jìn)行排序,基于range的key cluster分片策略將被采用。因此,就得到了不同的分片策略。在shuffle寫數(shù)據(jù)的階段,在上一個(gè)步驟中獲得的分片策略會(huì)指導(dǎo)每個(gè)對(duì)其進(jìn)行分區(qū)計(jì)算,從而獲得其reduce端的分區(qū)ID號(hào)。該ID號(hào)就是每個(gè)map任務(wù)計(jì)算后的中間輸出結(jié)果,需要寫到磁盤的順序位置。最終這些中間結(jié)果生成一個(gè)數(shù)據(jù)文件和索引文件。在數(shù)據(jù)文件中,一個(gè)數(shù)據(jù)段(segement)是一塊索引號(hào)相同的區(qū)域。接下來進(jìn)入shuffle的讀階段,每個(gè)reduce任務(wù)將從各個(gè)map任務(wù)執(zhí)行的節(jié)點(diǎn)上根據(jù)索引文件拉取數(shù)據(jù)。也就是說,具有相同reduce索引號(hào)的鍵值對(duì)數(shù)據(jù)組成一個(gè)reduce分區(qū),將被一個(gè)對(duì)應(yīng)的reduce任務(wù)處理。經(jīng)過這樣的過程,上一步生成的分片策略便應(yīng)用到了Shuffle過程中實(shí)際的數(shù)據(jù)劃分中來。

      在實(shí)際的Spark集群上對(duì)SKRSP算法進(jìn)行了評(píng)估,并與其他算法進(jìn)行了對(duì)比實(shí)驗(yàn)如表1。在采樣率為3.3%的情況下,SKRSP算法明顯優(yōu)于其他采樣方法,且誤差小于LIBRA,僅為70。

      表1 采樣精確度實(shí)驗(yàn)結(jié)果Table 1 Experimental results of sampling accuracy

      3 分布式異構(gòu)環(huán)境下高效的資源管理系統(tǒng)與節(jié)能調(diào)度

      3.1 分布式異構(gòu)環(huán)境下的計(jì)算資源跨域遷移

      數(shù)據(jù)中心等分布式異構(gòu)基礎(chǔ)設(shè)施已經(jīng)成為現(xiàn)代各行各業(yè)的基礎(chǔ)建設(shè),從為中小型公司提供業(yè)務(wù)支撐數(shù)據(jù)機(jī)房,到大型IT 公司的IDC(internet data center)[38-39]。然而服務(wù)中斷、資源屬性等特性對(duì)資源跨域遷移的需求越來越大。結(jié)合項(xiàng)目組提出的多云資源級(jí)聯(lián)平臺(tái),本文基于OpenStack實(shí)現(xiàn)了一個(gè)面向數(shù)據(jù)中心集群的跨域計(jì)算資源遷移基礎(chǔ)設(shè)施,實(shí)現(xiàn)了多云環(huán)境下VM(virtual machine)跨域遷移,有效地滿足一種或多種用戶、資源需求,并在此基礎(chǔ)上實(shí)現(xiàn)了支持計(jì)算資源、存儲(chǔ)資源調(diào)度算法的獨(dú)立封裝和部署的多數(shù)據(jù)中心資源管理體系結(jié)構(gòu)。該結(jié)構(gòu)如圖5所示。

      如圖5所示,如若需要將VM從Pod 1 遷移到多元環(huán)境下的Pod 2下,首先Pod 1的計(jì)算組件Nova 需要向頂層OpenStack云平臺(tái)發(fā)送遷移消息,頂層OpenStack 收到該消息后交予Nova APIGW 處理,并發(fā)送給MSG.Bus ,為發(fā)送給Cascading Manager 其他模塊做準(zhǔn)備。隨后,Nova APIGW 通過消息隊(duì)列將該遷移信息發(fā)送給數(shù)據(jù)庫,請求修改資源路由表中相關(guān)資源信息。同時(shí),也通過異步作業(yè)機(jī)制給遷移的目的云實(shí)例發(fā)送遷移消息。VM 遷移的目的云實(shí)例接到該請求后發(fā)送給Pod 2 的計(jì)算組件Nova 。在多云架構(gòu)頂層為遷移做資源管理信息修改時(shí),底層的兩個(gè)云實(shí)例之間完成虛擬機(jī)冷遷移所需鏡像文件和內(nèi)存數(shù)據(jù)的傳輸。

      圖5 跨域VM遷移機(jī)制Fig.5 Cross-domain VM migration mechanism

      該架構(gòu)在真實(shí)多云環(huán)境下進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了該架構(gòu)的有效性和高效性,提升跨域資源的使用效率。此外,在多云平臺(tái)上的用戶使用過程中,該架構(gòu)也能有效地降低因虛擬機(jī)突發(fā)遷移帶來的用戶宕機(jī)體驗(yàn)率。

      3.2 基于服務(wù)器內(nèi)存預(yù)測的虛擬機(jī)分配機(jī)制

      通過對(duì)云環(huán)境下虛擬機(jī)部署方式的研究,針對(duì)現(xiàn)有云服務(wù)器中的內(nèi)存使用率低導(dǎo)致各類資源平均使用率過低[40-41],本文提出一種新型虛擬機(jī)部署機(jī)制VM-DFS,基于云服務(wù)器內(nèi)存預(yù)測下的虛擬機(jī)動(dòng)態(tài)部署模型。該模型考慮虛擬機(jī)運(yùn)行過程對(duì)云服務(wù)器內(nèi)存消耗的動(dòng)態(tài)變化,結(jié)合虛擬機(jī)部署已有的研究方案,將部署過程構(gòu)建為某一類裝箱模型,在此基礎(chǔ)上,再結(jié)合FFD(first-fit decreasing)算法對(duì)虛擬機(jī)部署算法近似求解;與此同時(shí),虛擬機(jī)部署過程中結(jié)合內(nèi)容等資源的預(yù)測機(jī)制,通過對(duì)各個(gè)虛擬機(jī)歷史內(nèi)存消耗數(shù)據(jù)的統(tǒng)計(jì)分析,使用基于時(shí)間序列的自回歸二階模型進(jìn)行內(nèi)存動(dòng)態(tài)預(yù)測。在滿足各個(gè)虛擬機(jī)對(duì)內(nèi)存SLA (service level agreement)要求的前提下減少服務(wù)器的啟動(dòng)數(shù)量。并對(duì)每個(gè)服務(wù)器的內(nèi)存分配設(shè)置一個(gè)閾值Lm,設(shè)置平衡因子r作為超過閾值的過載比例。實(shí)驗(yàn)結(jié)果顯示,VM-DFS算法能夠在滿足SLA要求的前提下,提高服務(wù)器內(nèi)存資源使用率。

      在此基礎(chǔ)上,為確保云環(huán)境中內(nèi)存資源的Qos要求,當(dāng)物理服務(wù)器內(nèi)存消耗r值時(shí),需要進(jìn)行虛擬機(jī)的動(dòng)態(tài)遷移。鑒于此,本文提出一種新型虛擬機(jī)動(dòng)態(tài)遷移模型(virtual machine dynamic forecast migration, VM-DFM),該算法解決了在虛擬機(jī)的動(dòng)態(tài)遷移過程中,如何從“熱點(diǎn)”服務(wù)器上待遷移虛擬機(jī)列表中選擇合適的虛擬機(jī)進(jìn)行動(dòng)態(tài)遷移。

      4 適應(yīng)于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法迭代的分布式異構(gòu)環(huán)境構(gòu)建

      針對(duì)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法迭代過程中的算力、架構(gòu)瓶頸及計(jì)算效率低等問題[42-43]。提出了普適性的深度學(xué)習(xí)增量迭代優(yōu)化方法;針對(duì)現(xiàn)有Spark/Flink分布式大數(shù)據(jù)處理框架,在此基礎(chǔ)上提出了其在CPU/GPU異構(gòu)環(huán)境中的體系結(jié)構(gòu)擴(kuò)展優(yōu)化模型,設(shè)計(jì)并實(shí)現(xiàn)了一種在Spark/Flink計(jì)算容器與GPU核心間的高效通信方式,解決了分布式異構(gòu)環(huán)境中的計(jì)算效率問題。

      4.1 機(jī)器學(xué)習(xí)/深度學(xué)習(xí)增量迭代優(yōu)化方法

      眾所周知,算力一直以來是人工智能發(fā)展的最大瓶頸。以異構(gòu)眾核等高性能處理器為主要計(jì)算部件的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)參數(shù)訓(xùn)練過程并不適用于分布式系統(tǒng),傳統(tǒng)的機(jī)器學(xué)習(xí)算法因其無法保證數(shù)據(jù)分片分開訓(xùn)練是否能與整體集中訓(xùn)練結(jié)果保持一致,需要在分布環(huán)境下進(jìn)行并行優(yōu)化與適應(yīng)性改進(jìn)。

      鑒于此,本文針對(duì)分布式機(jī)器學(xué)習(xí)體系結(jié)構(gòu)中的并行優(yōu)化問題,提出了機(jī)器學(xué)習(xí)/深度學(xué)習(xí)增量迭代優(yōu)化模型及其分布式異構(gòu)CPU/GPU集群體系結(jié)構(gòu)的優(yōu)化設(shè)計(jì)方法。在此基礎(chǔ)上,針對(duì)DNN/CNN/RNN等典型深度學(xué)習(xí)模型訓(xùn)練中的參數(shù)迭代過程,通過總結(jié)增量迭代發(fā)生的模型、數(shù)據(jù)特征,揭示了其訓(xùn)練過程可以實(shí)行增量迭代優(yōu)化的條件和時(shí)機(jī)等客觀規(guī)律,提出了普適性的深度學(xué)習(xí)增量迭代優(yōu)化方法;提出并實(shí)現(xiàn)了一種在Spark/Flink計(jì)算容器與GPU核心間的高效通信方式,在兼具各個(gè)節(jié)點(diǎn)GPU/MIC眾核計(jì)算能力的同時(shí),利用分布式組件間的通信協(xié)議完成了各個(gè)服務(wù)器節(jié)點(diǎn)的協(xié)同運(yùn)算。

      4.2 分布式異構(gòu)CPU/GPU集群體系結(jié)構(gòu)的優(yōu)化設(shè)計(jì)方法

      考慮到目前Spark分布式框架無法有效利用計(jì)算節(jié)點(diǎn)上的多GPU[42],本文提出了MGSpark系統(tǒng):一個(gè)CPU-GPU分布式異構(gòu)環(huán)境下多GPU工作負(fù)載均衡的計(jì)算框架。MGSpark系統(tǒng)能有效地將GPUs融入到Spark框架中,充分挖掘計(jì)算節(jié)點(diǎn)上的多GPU的計(jì)算能力,使集群中的GPUs工作負(fù)載達(dá)到均衡,如圖6所示。

      圖6 MGSpark系統(tǒng)架構(gòu)Fig.6 System architecture of MGSpark

      本文建立了與原有Spark RDD(resilient distributed datasets)編程模型相兼容的GPU加速的編程模型,使編程人員創(chuàng)建GPUs加速的Spark應(yīng)用程序更加簡便。為了優(yōu)化主機(jī)端和設(shè)備端的數(shù)據(jù)通信,MGSpark提出了一個(gè)多GPU環(huán)境下的異步JVM-GPU數(shù)據(jù)傳輸方案。

      MGSpark架構(gòu)與Spark運(yùn)行時(shí)相兼。因此Spark的任務(wù)調(diào)度和錯(cuò)誤恢復(fù)機(jī)制被保留下來。Standalone模式下的MGSpark系統(tǒng)框架如圖7所示,保留著Spark運(yùn)行時(shí)的所有組件(DAGScheduler、TaskScheduler、 excutor)。作者還擴(kuò)展了RDD模型來融合GPU和Spark的計(jì)算模型,以方便編程人員使用擴(kuò)展的RDD編程模型來創(chuàng)建MGSpark應(yīng)用程序,并使用GPUs進(jìn)行加速。新增加的系統(tǒng)組件是MGTaskScheduler,它駐留在每個(gè)Worker節(jié)點(diǎn)上。MGTaskScheduler負(fù)責(zé)將excutor上的Tasks卸載到節(jié)點(diǎn)上的GPUs上執(zhí)行,進(jìn)行多GPUs工作負(fù)載均衡調(diào)度。

      圖7 PRF決策樹模型訓(xùn)練過程的任務(wù)DAG模型Fig.7 Task DAG model of PRF decision tree model training process

      使用擴(kuò)展的RDD編程模型所創(chuàng)建的MGSpark應(yīng)用程序在Client節(jié)點(diǎn)上被提交。Master為應(yīng)用程序分配所需的集群資源,主要包括內(nèi)存和CPU資源。一個(gè)DAG graph根據(jù)RDDs之間的依賴關(guān)系被創(chuàng)建。DAG-Schedule將DAG圖劃分為多個(gè)有先后順序的stage。每個(gè)stage劃分為一系列可以并發(fā)的Tasks通過Task-Scheduler。Task-Scheduler 根據(jù)集群每個(gè)節(jié)點(diǎn)資源狀態(tài)調(diào)度Tasks到workers的進(jìn)程上執(zhí)行。與源生Spark框架不同(在Spark中GPU不能被識(shí)別和使用,Tasks必須被調(diào)度到CPU),MGspark Tasks可以將計(jì)算與將要處理的數(shù)據(jù)卸載到GPUs上去進(jìn)行加速通過MGTaskScheduler組件。

      在此基礎(chǔ)上,本文提出了基于CUDA流的異構(gòu)任務(wù)執(zhí)行模型(MGMS),可以充分平衡GPUs工作負(fù)載。并且將MGMS模型整合到最新版本的Spark分布式計(jì)算框架中開發(fā)了MGSpark計(jì)算框架。

      Task是Spark的最小調(diào)度和并發(fā)執(zhí)行單元,每個(gè)Task需要順序處理一個(gè)Partition的數(shù)據(jù)量。但是由于各個(gè)Partition之間的數(shù)據(jù)量不一樣,特別是執(zhí)行完shuffle類的算子,partition之間的數(shù)據(jù)量差別更為明顯。為了利用GPUs進(jìn)行加速,將Tasks卸載到設(shè)備端形成GTasks。如果將GTask作為一個(gè)最小執(zhí)行單元分配設(shè)備資源:設(shè)備內(nèi)存資源和CUDA流資源,調(diào)度到GPUs上去執(zhí)行,會(huì)造成計(jì)算節(jié)點(diǎn)上各個(gè)GPU之間的工作負(fù)載不均衡。為了能平衡計(jì)算節(jié)點(diǎn)上各個(gè)GPU之間的工作負(fù)載,本文提出了一個(gè)任務(wù)分解執(zhí)行模型。該模型主要包括兩個(gè)部分:自動(dòng)數(shù)據(jù)切片機(jī)制和自動(dòng)任務(wù)分解機(jī)制。

      5 面向機(jī)器學(xué)習(xí)/圖迭代算法的分布式并行優(yōu)化

      針對(duì)機(jī)器學(xué)習(xí)/圖迭代算法過程中的分布式并行優(yōu)化中的計(jì)算效率等問題[43-44]。提出了面向機(jī)器學(xué)習(xí)算法的分布式并行優(yōu)化模型、分布式環(huán)境中的并行條件隨機(jī)場模型、并行維特比算法、基于冗余距離消除和極端點(diǎn)優(yōu)化的數(shù)據(jù)聚類方法。解決了機(jī)器學(xué)習(xí)分布式優(yōu)化的問題,突破了大規(guī)模高效能數(shù)據(jù)并行處理系統(tǒng)的算力瓶頸。

      5.1 分布式環(huán)境中的并行條件隨機(jī)場模型

      條件隨機(jī)場(conditional random fields)是一種概率圖模型[45-46]。它是一種機(jī)器學(xué)習(xí)算法,需要多次迭代。條件隨機(jī)場在標(biāo)記或分析序列數(shù)據(jù)方面發(fā)揮了重要作用,并取得了顯著的效果。條件隨機(jī)場結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),但隱馬爾可夫模型不能直接看到其狀態(tài),不能應(yīng)用復(fù)雜的特征。然而,根據(jù)這一思想,條件隨機(jī)場模型可以很好地應(yīng)用于依賴長距離和使用重疊特征的特征。同時(shí),條件隨機(jī)場可以解決其他判別模型中的標(biāo)注偏差問題。為此,本文提出了一種基于Spark的改進(jìn)條件隨機(jī)場模型(SCRFs),重點(diǎn)提高算法處理大數(shù)據(jù)的效率。該模型有以下創(chuàng)新:為了加快速度,將迭代過程中多次使用的中間數(shù)據(jù)緩存到內(nèi)存中;利用特征哈希的方法降低特征的維數(shù);對(duì)于梯度更新策略,本文選擇Batch-SGD。基于上述創(chuàng)新,可以有效地提高處理的時(shí)間效率。

      參數(shù)估計(jì)是條件隨機(jī)場模型中最重要的階段。在處理大規(guī)模數(shù)據(jù)時(shí),模型的訓(xùn)練時(shí)間會(huì)大大增加,需要花費(fèi)大量的學(xué)習(xí)時(shí)間。大量實(shí)驗(yàn)表明,LBFGS的第一步是訓(xùn)練過程中的主要環(huán)節(jié)。LBFGS約90%的計(jì)算消耗處于第一步。如果能加快第一步,整個(gè)訓(xùn)練過程的時(shí)間就會(huì)明顯減少。因此,條件隨機(jī)場訓(xùn)練過程的并行化主要是并行計(jì)算目標(biāo)梯度。

      通過式(3)可以得出第1部分是給定任意一個(gè)數(shù)據(jù),特征fk的經(jīng)驗(yàn)分布期望??梢悦枋鰹?/p>

      第2部分是特征fk的模型的期望分布:

      經(jīng)過簡單的替換,得到:

      在求特征fk的模型的期望分布的時(shí)候需要用到前面的sum-product信念傳播算法,sumproduct能推斷出模型的各邊際分布概率。

      然后根據(jù)式(7)可以直接求出各特征的模型的期望分布。

      但是當(dāng)使用原生的sum-product信念傳播算法的時(shí)候,會(huì)出現(xiàn)數(shù)值溢出的問題。這是因?yàn)闂l件隨機(jī)場擁有非常大的參數(shù)量,但是這些參數(shù)中許多參數(shù)對(duì)應(yīng)的權(quán)重系數(shù)卻很小,這樣就導(dǎo)致了模型推斷中不斷進(jìn)行sum-product操作,會(huì)因?yàn)閿?shù)值過小溢出。為了解決這個(gè)問題,將原來的數(shù)值空間轉(zhuǎn)換到log空間,sum就變成了相應(yīng)的logsumexp,product就變成了求和。而且logsumexp不能直接簡單地對(duì)各值先取exp再sum最后再取log,因?yàn)閷?duì)于很小或者很大的數(shù)值,直接計(jì)算會(huì)溢出。相應(yīng)的解決方法為

      這對(duì)任意a都成立,這意味著可以自由地調(diào)節(jié)指數(shù)函數(shù)的指數(shù)部分,一個(gè)典型的做法是取xi的最大值:

      這樣就保證指數(shù)最大不會(huì)超過0,于是就不會(huì)上溢。即便剩余的部分下溢了,也能夠得到一個(gè)合理的值。

      5.2 基于分布式機(jī)器學(xué)習(xí)的系統(tǒng)威脅感知模型

      為了提高RF算法的性能,有效解決分布式計(jì)算環(huán)境下大規(guī)模RF算法執(zhí)行過程中的數(shù)據(jù)通信開銷和工作負(fù)載不均衡等問題,本文將改進(jìn)的隨機(jī)森林分類算法在Apache Spark云計(jì)算平臺(tái)上進(jìn)一步并行優(yōu)化,提出一種基于Apache Spark的并行隨機(jī)森林 (parallel random forest,PRF) 算法。

      PR模型的每棵元決策樹都是相互獨(dú)立構(gòu)建的,而且元決策樹的每個(gè)樹節(jié)點(diǎn)也是獨(dú)立劃分的。PRF 模型和各個(gè)決策樹模型的結(jié)構(gòu)使得它們訓(xùn)練過程中的計(jì)算任務(wù)具有天然的可并行性。

      PRF的雙層并行訓(xùn)練過程:在雙層并行訓(xùn)練方法中,并行訓(xùn)練隨機(jī)森林模型中各元素決策樹模型的構(gòu)建過程和各元素決策樹各節(jié)點(diǎn)的分裂過程。由于每個(gè)PRF模型中的每個(gè)元決策樹都是通過每個(gè)訓(xùn)練子集的獨(dú)立訓(xùn)練來構(gòu)建的,所以每個(gè)決策樹之間不存在邏輯依賴和數(shù)據(jù)依賴。因此,在外部并行訓(xùn)練中,將訓(xùn)練數(shù)據(jù)集隨機(jī)采樣到K個(gè)訓(xùn)練子集中,分別對(duì)這些訓(xùn)練子集進(jìn)行并行訓(xùn)練,構(gòu)建相應(yīng)的K元素決策樹模型。在每個(gè)元決策樹的構(gòu)建過程中,通過計(jì)算當(dāng)前特征子集的信息增益率來完成每個(gè)節(jié)點(diǎn)的分裂過程,同一層次節(jié)點(diǎn)的分裂過程不存在邏輯依賴和數(shù)據(jù)依賴。因此,在內(nèi)層并行訓(xùn)練中,對(duì)每棵決策樹中的同一級(jí)節(jié)點(diǎn),分別對(duì)當(dāng)前訓(xùn)練子集的M個(gè)特征變量同時(shí)計(jì)算,以實(shí)現(xiàn)節(jié)點(diǎn)并行分裂。

      在PRF模型的每棵元決策樹的訓(xùn)練過程中有多種計(jì)算任務(wù),本節(jié)根據(jù)各計(jì)算任務(wù)所需的數(shù)據(jù)資源和數(shù)據(jù)通信成本,將這些計(jì)算任務(wù)分為信息增益率計(jì)算任務(wù)和節(jié)點(diǎn)分裂任務(wù)2類。

      每個(gè)決策樹模型的訓(xùn)練任務(wù)DAG包含了對(duì)應(yīng)于決策樹模型節(jié)點(diǎn)級(jí)的多個(gè)任務(wù)階段。數(shù)據(jù)特征降維后,操作階段 1 將為m個(gè)輸入特征變量生成m個(gè)TGR任務(wù)(TGR1.1~TGR1.m)。這些TGR任務(wù)負(fù)責(zé)計(jì)算對(duì)應(yīng)特征變量的信息熵、自分解信息、信息增益和信息增益率,并將計(jì)算結(jié)果提交給TNS 1任務(wù)。TNS 1任務(wù)負(fù)責(zé)尋找最優(yōu)的拆分特征,并對(duì)當(dāng)前決策樹模型的第一個(gè)樹節(jié)點(diǎn)進(jìn)行拆分。假設(shè)y1是當(dāng)前階段的最佳分裂特征,y1的取值范圍為 {v01,v02,v03},則第1個(gè)樹節(jié)點(diǎn)由特征y1構(gòu)成,并且生成3個(gè)子節(jié)點(diǎn),如圖7所示。拆分樹節(jié)點(diǎn)后,TNS 1任務(wù)的中間結(jié)果被分配到相應(yīng)的計(jì)算節(jié)點(diǎn),以便各計(jì)算節(jié)點(diǎn)并行計(jì)算該決策樹的下一級(jí)節(jié)點(diǎn)分裂。所發(fā)送的中間結(jié)果包括分裂特征的信息和各個(gè)取值{v01,v02,v03}所對(duì)應(yīng)的數(shù)據(jù)索引列表。

      在作業(yè)階段2中,由于y1是分裂特征,已經(jīng)在第1個(gè)節(jié)點(diǎn)中被使用,因此接下來根據(jù) TNS 1的結(jié)果為其他特征子集生成新的TGR任務(wù)。根據(jù){v01,v02,v03}的數(shù)據(jù)索引列表,每個(gè)特征子集將對(duì)應(yīng)不超過3個(gè)TGR任務(wù)。然后將任務(wù)的結(jié)果提交給任務(wù)TNS 2.1,用于拆分相同的樹節(jié)點(diǎn)。其他樹節(jié)點(diǎn)和其他階段中的任務(wù)也以類似方式執(zhí)行。這樣,每個(gè)決策樹模型訓(xùn)練過程分別建立相應(yīng)的DAG任務(wù)調(diào)度圖,即PRF模型的k棵決策樹,分別建立k個(gè)DAG任務(wù)調(diào)度圖。

      本文提出的雙層并行訓(xùn)練方法,分別在隨機(jī)森林模型中的決策樹層面和各樹的節(jié)點(diǎn)層面進(jìn)行并行化訓(xùn)練。在數(shù)據(jù)量大的情況下,可以減少模型的訓(xùn)練時(shí)間。當(dāng)數(shù)據(jù)量增加時(shí),PRF 的性能優(yōu)勢更為明顯。

      6 高效能數(shù)據(jù)并行處理與分析系統(tǒng)

      融合上述4項(xiàng)分布式并行計(jì)算關(guān)鍵技術(shù),本文進(jìn)一步研發(fā)了高效能數(shù)據(jù)處理與智能分析系統(tǒng),并以天河超級(jí)計(jì)算機(jī)作為主要高性能計(jì)算資源池。針對(duì)超算調(diào)度系統(tǒng)中涉及數(shù)據(jù)的實(shí)際特征較少的困難,研制異構(gòu)并行環(huán)境時(shí)空任務(wù)調(diào)度子系統(tǒng),解決調(diào)度過程中的資源感知差的問題;針對(duì)超算調(diào)度系統(tǒng)中的資源跨域分配難、策略固定等困難,研制高性能計(jì)算資源池及子系統(tǒng),解決超算平臺(tái)上的資源自適應(yīng)低等問題;針對(duì)超算平臺(tái)中缺乏適應(yīng)超算異構(gòu)并行的機(jī)器學(xué)習(xí)算法庫等缺陷,提出了大數(shù)據(jù)并行處理與建模子系統(tǒng),解決了超算算法庫中的資源、算力浪費(fèi)等問題。該系統(tǒng)的研制初步解決了在異構(gòu)并行超算上構(gòu)建大數(shù)據(jù)與人工智能應(yīng)用環(huán)境的問題,有效降低傳統(tǒng)企業(yè)基于超級(jí)計(jì)算機(jī)、云服務(wù)集群等來實(shí)現(xiàn)大數(shù)據(jù)智能分析的使用門檻。高效能數(shù)據(jù)并行處理與分析系統(tǒng)如圖8所示。

      圖8 高效能數(shù)據(jù)并行處理與分析系統(tǒng)Fig.8 High-performance data parallel processing and analysising system

      7 結(jié)束語

      算力是人工智能應(yīng)用落地的關(guān)鍵,一直以來是人工智能發(fā)展的最大瓶頸。在國家自然科學(xué)基金重點(diǎn)項(xiàng)目等課題的資助下,本文從基礎(chǔ)理論研究、關(guān)鍵技術(shù)突破,到面向領(lǐng)域應(yīng)用的智能分析系統(tǒng)的研制和應(yīng)用,形成了面向機(jī)器學(xué)習(xí)的分布式并行計(jì)算關(guān)鍵技術(shù)體系,研制了高效能數(shù)據(jù)并行處理與分析系統(tǒng)。該系統(tǒng)及相關(guān)研究成果,支撐了中國工程科技知識(shí)中心建設(shè)項(xiàng)目、廣鐵集團(tuán)列車故障快速自動(dòng)檢測與分析系統(tǒng)等多項(xiàng)國家及行業(yè)應(yīng)用項(xiàng)目中大數(shù)據(jù)和智能算法平臺(tái)的研制,解決了其算力瓶頸,有力促進(jìn)了我國人工智能應(yīng)用技術(shù)進(jìn)步,推動(dòng)了我國制造、交通、教育、醫(yī)療等行業(yè)智能軟件產(chǎn)品的跨越式發(fā)展。項(xiàng)目成果成為了聯(lián)想、證通電子、東華軟件、天聞數(shù)媒等上市公司和行業(yè)龍頭企業(yè)行業(yè)大數(shù)據(jù)與智能計(jì)算產(chǎn)品的核心組件,解決了其大規(guī)模任務(wù)調(diào)度與資源管理、數(shù)據(jù)并行處理與智能分析等關(guān)鍵問題。

      猜你喜歡
      決策樹分布式節(jié)點(diǎn)
      CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      基于決策樹的出租車乘客出行目的識(shí)別
      基于DDS的分布式三維協(xié)同仿真研究
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
      武强县| 玉田县| 淮北市| 陆丰市| 兴安盟| 桦川县| 苏尼特右旗| 谷城县| 鸡东县| 壶关县| 秦安县| 泰宁县| 西丰县| 叙永县| 平昌县| 交城县| 卢氏县| 旺苍县| 金坛市| 富宁县| 吴忠市| 永康市| 潜江市| 深州市| 咸丰县| 谢通门县| 武强县| 高邮市| 永州市| 蒙城县| 寿宁县| 金平| 都江堰市| 鄯善县| 阜新| 辰溪县| 长垣县| 秦皇岛市| 吉首市| 武川县| 苏尼特左旗|