• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向大規(guī)模計(jì)算集群的多軌分割網(wǎng)絡(luò)

      2017-12-08 05:30:24元國(guó)軍郇志軒孫凝暉
      計(jì)算機(jī)研究與發(fā)展 2017年11期
      關(guān)鍵詞:高帶寬數(shù)據(jù)包端口

      邵 恩 元國(guó)軍 郇志軒 曹 政 孫凝暉

      1(計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院計(jì)算技術(shù)研究所) 北京 100190) 2(中國(guó)科學(xué)院大學(xué) 北京 100049)

      (shaoen@ncic.ac.cn)

      面向大規(guī)模計(jì)算集群的多軌分割網(wǎng)絡(luò)

      邵 恩1,2元國(guó)軍1,2郇志軒1,2曹 政1孫凝暉1

      1(計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院計(jì)算技術(shù)研究所) 北京 100190)2(中國(guó)科學(xué)院大學(xué) 北京 100049)

      (shaoen@ncic.ac.cn)

      在千萬(wàn)億次規(guī)模的系統(tǒng)中,互連網(wǎng)絡(luò)設(shè)計(jì)面臨新的挑戰(zhàn).高性能節(jié)點(diǎn)和大規(guī)模是構(gòu)建千萬(wàn)億次系統(tǒng)的主要技術(shù)趨勢(shì),不斷提高的節(jié)點(diǎn)計(jì)算能力要求互連網(wǎng)絡(luò)提供更高的性能,而不斷增大的規(guī)模又對(duì)互連網(wǎng)絡(luò)擴(kuò)展性提出了更高的要求.此外,隨著系統(tǒng)規(guī)模的增大,集合通信的執(zhí)行時(shí)間也在不斷增長(zhǎng),制約了應(yīng)用的擴(kuò)展性,集合通信的性能需要得到進(jìn)一步優(yōu)化.除性能之外,可靠性問題也隨著系統(tǒng)規(guī)模的擴(kuò)大而日益嚴(yán)重.而隨著計(jì)算節(jié)點(diǎn)性能的不斷提高,互連網(wǎng)絡(luò)逐漸成為限制大規(guī)模計(jì)算機(jī)系統(tǒng)性能的瓶頸.互連網(wǎng)絡(luò)核心部件交換芯片可提供的聚合網(wǎng)絡(luò)帶寬受到工藝和封裝技術(shù)的限制.從網(wǎng)絡(luò)結(jié)構(gòu)與交換機(jī)結(jié)構(gòu)的協(xié)同設(shè)計(jì)思想出發(fā),提出了一種在交換機(jī)聚合帶寬限定的條件下多軌分割網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)計(jì)方法.通過數(shù)學(xué)建模和網(wǎng)絡(luò)模擬仿真,分析了該多軌分割網(wǎng)絡(luò)的性能邊界.評(píng)測(cè)結(jié)果表明:該網(wǎng)絡(luò)可將短消息(長(zhǎng)度小于128 B)的平均延遲性能提高10倍以上,為以短消息占多數(shù)的數(shù)據(jù)中心網(wǎng)絡(luò)的性能優(yōu)化提供了新思路.

      大規(guī)模計(jì)算集群;多軌網(wǎng)絡(luò);帶寬分割;數(shù)據(jù)中心網(wǎng)絡(luò);大規(guī)模網(wǎng)絡(luò)模擬

      隨著集群計(jì)算機(jī)計(jì)算節(jié)點(diǎn)性能的不斷提高,互連網(wǎng)絡(luò)性能逐漸成為大規(guī)模計(jì)算集群整體性能提升的瓶頸,然而網(wǎng)絡(luò)核心部件——“交換芯片”——的性能提升受到工藝和封裝的限制[1-2]: 1)高速串行收發(fā)器(serdes)的帶寬提升緩慢,端口帶寬提升依賴于多路高速串行鏈路的并行,例如100 Gbps端口采用4路25 Gbps鏈路;2)封裝技術(shù)限制交換芯片的引腳數(shù)目,進(jìn)而限制交換芯片能夠集成的serdes數(shù)目.因此,工藝和封裝技術(shù)限定交換芯片能夠提供聚合網(wǎng)絡(luò)帶寬.在聚合帶寬限定的條件下,傳統(tǒng)追求高階高帶寬的best-effort設(shè)計(jì)方法將不再有效,交換芯片設(shè)計(jì)必須考慮最優(yōu)的帶寬分配,如圖1所示:1)多端口策略.端口帶寬低,端口數(shù)目多.2)高帶寬策略.端口帶寬高,端口數(shù)目少.

      Fig. 1 Strategy between high bandwidth and multi-port圖1 高帶寬與多端口策略示意圖

      直觀地,多端口策略是高帶寬策略的細(xì)化分割,更有利于提高組網(wǎng)的靈活性,降低網(wǎng)絡(luò)流的調(diào)度粒度,而高帶寬策略則有利于快速緩解網(wǎng)絡(luò)的擁塞.為評(píng)估2種策略的優(yōu)劣,本文分別使用滿足不同策略的交換芯片模型,構(gòu)建相同拓?fù)涞木W(wǎng)絡(luò),通過理論分析和網(wǎng)絡(luò)模擬進(jìn)行全系統(tǒng)網(wǎng)絡(luò)性能的評(píng)估.

      為構(gòu)建相同的拓?fù)?,本文借鑒多軌網(wǎng)絡(luò)(multi-rail network)的思想,提出了多軌分割網(wǎng)絡(luò)結(jié)構(gòu):將多端口交換芯片抽象為高帶寬交換芯片的細(xì)分,將其構(gòu)建的網(wǎng)絡(luò)(為方便描述,仍稱為多軌網(wǎng)絡(luò))抽象為基于高帶寬交換芯片網(wǎng)絡(luò)的多軌化實(shí)現(xiàn).但有別于傳統(tǒng)多軌網(wǎng)絡(luò),本文的多軌網(wǎng)絡(luò)由多層低帶寬網(wǎng)絡(luò)構(gòu)成,且層與層之間并不獨(dú)立,消息可以在不同層之間切換傳輸.本文多軌網(wǎng)絡(luò)的構(gòu)建方法、流量分配、消息分片和路由策略,是本文重點(diǎn)討論的內(nèi)容,是對(duì)基于高階交換芯片的組網(wǎng)方法的有益探索.

      本文的網(wǎng)絡(luò)模擬均基于胖樹拓?fù)湔归_,模擬結(jié)果表明多端口策略相比高帶寬策略有3個(gè)優(yōu)點(diǎn):1)使網(wǎng)絡(luò)具有可擴(kuò)展性的網(wǎng)絡(luò)流量調(diào)度與帶寬分配策略;2)在降低基礎(chǔ)網(wǎng)絡(luò)硬件成本的同時(shí),將短消息(長(zhǎng)度小于128 B)的延遲性能提高近10倍以上;3)隨網(wǎng)絡(luò)流量注入率的增加,長(zhǎng)消息傳輸(長(zhǎng)度大于2 048 B)出現(xiàn)擁塞的情況會(huì)提前10%以上.因此,多軌分割網(wǎng)絡(luò)能夠給目前短消息占據(jù)多數(shù)的數(shù)據(jù)中心網(wǎng)絡(luò)帶來明顯的性能提升.

      1 相關(guān)研究

      本文所提出的帶寬分割化網(wǎng)絡(luò)借鑒多軌網(wǎng)絡(luò)的設(shè)計(jì)思想.多軌網(wǎng)絡(luò)是指網(wǎng)絡(luò)拓?fù)浠ヂ?lián)節(jié)點(diǎn)間用大于一層以上的彼此獨(dú)立且具有相同結(jié)構(gòu)和功能的網(wǎng)絡(luò)相互連接,這種網(wǎng)絡(luò)通過設(shè)置多層并行子網(wǎng)的設(shè)計(jì)思路,將大規(guī)模計(jì)算集群從單純高聚合帶寬交換模式中解放,成為另一種網(wǎng)絡(luò)設(shè)計(jì)選擇.網(wǎng)絡(luò)分割度指網(wǎng)絡(luò)內(nèi)具有彼此獨(dú)立且具有相同結(jié)構(gòu)和功能的子網(wǎng)絡(luò)的個(gè)數(shù);而單軌網(wǎng)絡(luò)作為多軌網(wǎng)絡(luò)的特例,其分割度為1.同時(shí),多軌網(wǎng)絡(luò)因其擁有靈活配置網(wǎng)絡(luò)帶寬資源的設(shè)計(jì)可能,通過優(yōu)化設(shè)計(jì)可以達(dá)到比高聚合帶寬設(shè)計(jì)性能更好的可能.但是本文提出的帶寬分割網(wǎng)絡(luò)結(jié)構(gòu),在包括帶寬鏈路分配、消息分片、路由和虛通道切換等策略方面,與傳統(tǒng)多軌網(wǎng)絡(luò)有很大區(qū)別.

      對(duì)于傳統(tǒng)的多軌網(wǎng)絡(luò)結(jié)構(gòu),已經(jīng)有較為充分的研究.文獻(xiàn)[3]結(jié)合多核網(wǎng)絡(luò)系統(tǒng)對(duì)多軌網(wǎng)絡(luò)的需求,針對(duì)在系統(tǒng)軟件層對(duì)多軌網(wǎng)絡(luò)子網(wǎng)利用率低的問題,提出獨(dú)立的一套軟件層通信庫(kù),結(jié)合該通信庫(kù)對(duì)小包通信場(chǎng)景的優(yōu)化,降低CPU通信開銷并提高通信并行性能.此論文所提出的通信協(xié)議優(yōu)化策略,并未全面分析多軌網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu).文獻(xiàn)[4]基于InfiniBand與RDMA的特征,通過增高帶寬數(shù)據(jù)傳輸緩沖方式提高多軌HCA網(wǎng)絡(luò)的通信性能,并針對(duì)MPI多軌中數(shù)據(jù)亂序處理進(jìn)行優(yōu)化.文獻(xiàn)[5]希望通過在多軌網(wǎng)絡(luò)中設(shè)置靜態(tài)和動(dòng)態(tài)的路徑分配算法來提升網(wǎng)絡(luò)的整體通信性能,雖然對(duì)路徑分配算法描述得非常清楚且給出數(shù)學(xué)模型,但是從模擬的結(jié)果上看整體通信性能并沒有提高,反而有惡化的現(xiàn)象.文獻(xiàn)[6]結(jié)合MPI在多軌網(wǎng)絡(luò)中上對(duì)失效備援和系統(tǒng)災(zāi)備恢復(fù)方面的需求,設(shè)計(jì)并評(píng)測(cè)一套建立在多軌網(wǎng)絡(luò)上的系統(tǒng)切換與恢復(fù)算法.

      文獻(xiàn)[7]面向Quadrics QsNetII集群系統(tǒng),基于多核多軌網(wǎng)絡(luò)設(shè)計(jì)思想,通過增加源節(jié)點(diǎn)到目的節(jié)點(diǎn)的連接通道,即增加通信聚合帶寬,提高網(wǎng)絡(luò)的通信性能.該文與本文雖然都對(duì)多軌網(wǎng)絡(luò)的結(jié)構(gòu)和通信行為進(jìn)行分析,但是本文旨在不改變通信總帶寬的基礎(chǔ)上進(jìn)行優(yōu)化策略,與文獻(xiàn)[7]側(cè)重點(diǎn)不同.

      Fig. 2 The algorithm comparison between of multi-rail and single-rail圖2 多軌與單軌鏈路算法對(duì)比

      目前已實(shí)現(xiàn)[8-9]針對(duì)多軌QsNetII網(wǎng)絡(luò)中基于多端口RDMA軟件通信層數(shù)據(jù)分片和歸集算法,并對(duì)小數(shù)據(jù)包進(jìn)行性能評(píng)測(cè).2篇論文對(duì)多軌網(wǎng)絡(luò)研究集中在彌補(bǔ)現(xiàn)有軟件通信庫(kù)功能的不足,與本文側(cè)重點(diǎn)不同.文獻(xiàn)[10]著眼于uDAPL獨(dú)立通信庫(kù)在對(duì)多軌網(wǎng)絡(luò)中通信功能支持方面進(jìn)行的補(bǔ)充,通過實(shí)現(xiàn)2種多軌網(wǎng)絡(luò)的配置方法,實(shí)現(xiàn)在InfiniBand集群上的多軌通信性能優(yōu)化,也與本文側(cè)重點(diǎn)不同.

      文獻(xiàn)[11-12]中分別對(duì)微軟與Facebook數(shù)據(jù)中心網(wǎng)絡(luò)的負(fù)載特性進(jìn)行了分析,通過真實(shí)的網(wǎng)絡(luò)平臺(tái)實(shí)驗(yàn)測(cè)試,分析并總結(jié)主流數(shù)據(jù)中心網(wǎng)絡(luò)負(fù)載的數(shù)據(jù)包長(zhǎng)度上具有固定性分布,超過50%以上的負(fù)載數(shù)據(jù)包長(zhǎng)保持在100~400 B之間,表明低負(fù)載數(shù)據(jù)包在數(shù)據(jù)中心網(wǎng)絡(luò)中占有重要比重.

      2 多軌網(wǎng)絡(luò)模型分析

      本節(jié)將基于網(wǎng)絡(luò)多軌化構(gòu)建思想對(duì)網(wǎng)絡(luò)多軌分割方法進(jìn)行闡述,結(jié)合傳輸延遲性能理論推導(dǎo),對(duì)其性能預(yù)期進(jìn)行量化分析.

      2.1多軌分割方法論

      建立多軌網(wǎng)絡(luò)存在的2種策略:1)少量的高帶寬端口,即高帶寬策略;2)較多的低帶寬端口,即多端口策略.本節(jié)的目的就在于分析2種策略的性能差別,使用如下場(chǎng)景:?jiǎn)诬壘W(wǎng)絡(luò)使用一個(gè)高帶寬端口,多軌網(wǎng)絡(luò)使用多個(gè)低帶寬端口,但二者的聚合帶寬相同.下面將根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)搭建方法和多軌分割在網(wǎng)絡(luò)通信行為上的變化進(jìn)行說明.

      這2種構(gòu)建多軌網(wǎng)絡(luò)的策略在拓?fù)浯罱ㄉ?,多端口策略是由高帶寬策略進(jìn)行多軌帶寬分割變形而來,如圖2網(wǎng)絡(luò)分割方法所示,該方法不受網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)所限制.圖2中40 Gbps link的網(wǎng)絡(luò)鏈路為具有少量端口數(shù)且單條端口和鏈路帶寬都較高的高帶寬策略;10 Gbps link的網(wǎng)絡(luò)鏈路為具有較多端口數(shù)且單條端口和鏈路帶寬都較低的多端口策略.圖2羅列出從系統(tǒng)進(jìn)程層面之間的數(shù)據(jù)傳輸通路,具體的分割算法可以視為將40 Gbps link的每一條鏈路都拆分為4條10 Gbps link,由此保證單條鏈路的聚合帶寬不變,同時(shí)單一鏈路的目的也要相應(yīng)地多出端口來承載分割多出的鏈路.

      網(wǎng)絡(luò)通信行為方面,40 Gbps link網(wǎng)絡(luò)鏈路由于網(wǎng)卡端口的唯一性,會(huì)在進(jìn)程分發(fā)task和目的NIC接收數(shù)據(jù)的2處鏈路造成網(wǎng)卡數(shù)據(jù)聚集(NIC gather)現(xiàn)象;又由于網(wǎng)絡(luò)流量指向非定向行,在網(wǎng)絡(luò)鏈路傳輸過程中也會(huì)在交換機(jī)上產(chǎn)生交換數(shù)據(jù)聚集(switch gather)現(xiàn)象. 而這些收集現(xiàn)象在數(shù)據(jù)載荷較輕的流量傳輸過程中,往往會(huì)造成網(wǎng)絡(luò)的局部擁塞.

      Fig. 3 Network delay model of single-rail圖3 單軌網(wǎng)絡(luò)延遲模型

      在進(jìn)行網(wǎng)絡(luò)分割后,在圖2所示的10 Gbps link網(wǎng)絡(luò)中,進(jìn)程在進(jìn)行task分發(fā)以及網(wǎng)絡(luò)轉(zhuǎn)發(fā)時(shí),由于網(wǎng)卡和交換設(shè)備端口的分割,數(shù)據(jù)包產(chǎn)生開始以及網(wǎng)絡(luò)轉(zhuǎn)發(fā)階段都進(jìn)行task pipeline.而在交換機(jī)將數(shù)據(jù)傳輸?shù)侥康木W(wǎng)卡時(shí),由于網(wǎng)卡端口的分割帶來的可選傳輸端口增多,因而任播通信方式也可以得以實(shí)現(xiàn).雖然從以上分析來看,分割后網(wǎng)絡(luò)在通信行為上能夠更好地進(jìn)行流水線傳輸;但是由于單端口帶寬降低,網(wǎng)絡(luò)中對(duì)單一數(shù)據(jù)包轉(zhuǎn)發(fā)時(shí)延也會(huì)增大.而多軌網(wǎng)絡(luò)中網(wǎng)絡(luò)分割策略究竟對(duì)網(wǎng)絡(luò)性能有怎樣的影響,還需要進(jìn)行定量分析.

      2.2多軌網(wǎng)絡(luò)性能理論分析

      本節(jié)理論分析做如下設(shè)定:虛切入網(wǎng)絡(luò)中的最大包長(zhǎng)(MTU)為L(zhǎng),共有n個(gè)長(zhǎng)度為L(zhǎng)的網(wǎng)絡(luò)數(shù)據(jù)包連續(xù)傳輸,網(wǎng)絡(luò)接口控制器的輸入帶寬為BW_i,單軌模式下的網(wǎng)絡(luò)鏈路帶寬為BW_sl,多軌模式下單層網(wǎng)絡(luò)鏈路帶寬為BW_ml,交換機(jī)單級(jí)交換延遲為Tswitch,單級(jí)傳輸延遲為Tline,網(wǎng)絡(luò)跳步數(shù)為Hop_cnt,并行網(wǎng)絡(luò)層數(shù)為m,數(shù)據(jù)傳輸延遲為L(zhǎng)BW_sl與交換延遲Tswitch.令單軌網(wǎng)絡(luò)的帶寬BW_sl=m×BW_ml,網(wǎng)絡(luò)控制器輸入帶寬BW_i=k×BW_ml.

      單軌網(wǎng)絡(luò)的信息注入模型如圖3所示.

      在單軌網(wǎng)絡(luò)中,消息的傳輸延遲Ts為

      Ts= t0+(n-1)×max(LBW_sl,Tswitch)+

      Hop_cnt×(Tswitch+Tline)+LBW_sl.

      (1)

      根據(jù)多軌網(wǎng)絡(luò)中的2種策略相應(yīng)地存在對(duì)應(yīng)的信息注入模型,如圖4所示.多軌網(wǎng)絡(luò)中,消息的傳輸延遲Tm為

      Tm=t0+(m-1) ×LBW_i+(nm-1) ×

      max(LBW_ml,m×LBW_i,Tswitch)+

      Hop_cnt×(Tswitch+Tline)+LBW_ml.

      (2)

      設(shè)如下場(chǎng)景:?jiǎn)诬壘W(wǎng)絡(luò)使用一個(gè)高帶寬端口,多軌網(wǎng)絡(luò)使用多個(gè)低帶寬端口,但二者的聚合帶寬相同.令單軌網(wǎng)絡(luò)的帶寬BW_sl=m×BW_ml,網(wǎng)絡(luò)控制器輸入帶寬BW_i=k×BW_ml.可得多端口策略比高帶寬策略的性能提升倍數(shù)為

      G=((n-1)×max(L(m×BW_ml),Tswitch)+

      Hop_cnt×(Tswitch+Tline)+L(m×BW_ml))

      max(LBW_ml,m×L(k×BW_ml),Tswitch)+

      Hop_cnt×(Tswitch+Tline)+LBW_ml).

      可得多端口策略比高帶寬策略的性能提升倍數(shù)為

      G=((n-1)×max(L(m×BW_ml),Tswitch)+

      Hop_cnt×(Tswitch+Tline)+L(m×BW_ml))

      max(LBW_ml,m×L(k×BW_ml),Tswitch)+

      Hop_cnt×(Tswitch+Tline)+LBW_ml).

      (3)

      (Tswitch+Tline))((1+kn-1n)×LBW_ml+

      當(dāng)持續(xù)傳輸消息時(shí),n趨于無(wú)窮,則提升倍數(shù)的極限為

      (4)

      (Tswitch+Tline)+k×L(m×n×BW_ml))

      Hop_cnt×(Tswitch+Tline)).

      當(dāng)持續(xù)傳輸消息時(shí),n趨于無(wú)窮,則提升倍數(shù)的極限為

      (5)

      (Tswitch+Tline))((k+m2n-mn-

      Hop_cnt×(Tswitch+Tline)).

      當(dāng)持續(xù)傳輸消息時(shí),n 趨于無(wú)窮,則提升倍數(shù)的極限為

      (6)

      (Tswitch+Tline)+L(n×BW_ml))

      ((1+(m2-m)(k×n)-mn)×LBW_ml+

      當(dāng)持續(xù)傳輸消息時(shí),n 趨于無(wú)窮,則提升倍數(shù)的極限為

      (7)

      5) 當(dāng)Tswitch≥max(LBW_ml,m×L(k×BW_ml))時(shí),則提升倍數(shù)為

      (Tswitch+Tline)+L(m×n×BW_ml))

      (Tswitch+Tline)+L(n×BW_ml)).

      當(dāng)持續(xù)傳輸消息時(shí),n趨于無(wú)窮,則提升倍數(shù)的極限為

      (8)

      (9)

      (10)

      當(dāng)Tswitch≥LBW_ml時(shí)(數(shù)據(jù)包較短),多端口策略相比高帶寬策略可以獲得m 倍的性能提升;當(dāng)Tswitchlt;LBW_ml時(shí)(數(shù)據(jù)包較長(zhǎng)),多端口策略的性能提升卻與m成反比.

      因此若采用多端口策略,端口的數(shù)目不能無(wú)限制增加,其取值受限于k,即網(wǎng)絡(luò)接口控制器輸入帶寬與單層網(wǎng)絡(luò)帶寬的比值.當(dāng)m=k 時(shí),才能保證包長(zhǎng)較大的情況下,多端口策略仍具有與高帶寬策略相當(dāng)?shù)男阅?

      通過3級(jí)胖樹為例,對(duì)以上分析進(jìn)行計(jì)算,設(shè)Tswitch=130ns,Tline=100ns,BW_ml=10Gbps,k=6,Hop_cnt=5,n=10 000.可得不同分割度情況下,多軌策略性能提升倍數(shù)性能曲線,如圖5所示.數(shù)據(jù)負(fù)載重量都集中在小于數(shù)據(jù)包長(zhǎng)度為128B的區(qū)間,多軌網(wǎng)絡(luò)中實(shí)行多端口策略較高帶寬網(wǎng)絡(luò)有性能提升優(yōu)勢(shì).實(shí)際網(wǎng)絡(luò)情況具體如何還需要進(jìn)行模擬仿真進(jìn)行驗(yàn)證.

      Fig. 5 Performance improvement in multi-rail with multi-port圖5 多軌網(wǎng)絡(luò)多端口策略性能提升倍數(shù)

      3 多軌胖樹網(wǎng)絡(luò)實(shí)例分析

      Fig. 6 The topological difference between high bandwidth and multi-rail in Fat-tree network圖6 高帶寬網(wǎng)絡(luò)與多軌胖樹網(wǎng)絡(luò)的拓?fù)鋮^(qū)別

      標(biāo)準(zhǔn)胖樹(Fat-tree)拓?fù)浣Y(jié)構(gòu)如圖6(a)結(jié)構(gòu)所示,具有等分帶寬、低網(wǎng)絡(luò)直徑以及易于擴(kuò)展的特點(diǎn).圖6(a)所示胖樹拓?fù)渲?,方框圖形為網(wǎng)絡(luò)交換節(jié)點(diǎn),圓形圖形為產(chǎn)生數(shù)據(jù)和接收數(shù)據(jù)的網(wǎng)卡.圖6中網(wǎng)絡(luò)交換節(jié)點(diǎn)各有4個(gè)端口,即A~D.在能夠滿足高帶寬、低延遲和可擴(kuò)展的需求之外,由于標(biāo)準(zhǔn)胖樹拓?fù)浣Y(jié)構(gòu)包含眾多冗余鏈路的結(jié)構(gòu)特性,有效避免網(wǎng)絡(luò)中死鎖問題的出現(xiàn).

      結(jié)合本文中所提出的數(shù)據(jù)分片算法,如2.1節(jié)中多軌分割方法所述,標(biāo)準(zhǔn)胖樹網(wǎng)絡(luò)進(jìn)行帶寬分割后,形成的多軌分割胖樹網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖6(b)所示.圖6(b)是基于圖6(a)標(biāo)準(zhǔn)胖樹網(wǎng)絡(luò)進(jìn)行分割度為4的帶寬分割變換后形成的網(wǎng)絡(luò)結(jié)構(gòu).標(biāo)準(zhǔn)胖樹單條帶寬為40 Gbps,而多軌胖樹由于將單條40 Gbps鏈路分割成4條10 Gbps鏈路,對(duì)網(wǎng)絡(luò)交換節(jié)點(diǎn)的端口需求也正比增加.在圖6(b)中,每個(gè)交換節(jié)點(diǎn)的都有A~P共16個(gè)端口.多軌胖樹在拓?fù)浣Y(jié)構(gòu)中的單層網(wǎng)絡(luò)擁塞可能性提高,因此需要設(shè)計(jì)專有負(fù)載均衡、數(shù)據(jù)處理以及通道處理算法.

      本節(jié)將針對(duì)多軌胖樹網(wǎng)絡(luò)的特殊結(jié)構(gòu),設(shè)計(jì)流量均衡算法、數(shù)據(jù)分片算法以及路由和虛通道切換策略.為簡(jiǎn)單描述,本文中所有的交換機(jī)都簡(jiǎn)寫為SW,在集群中作為數(shù)據(jù)源的網(wǎng)卡簡(jiǎn)寫為NIC.

      3.1網(wǎng)絡(luò)流量均衡算法設(shè)計(jì)

      網(wǎng)絡(luò)的多軌化為原有網(wǎng)絡(luò)提供更加豐富的路徑選擇,但是如果網(wǎng)絡(luò)中流量出現(xiàn)不均衡,網(wǎng)絡(luò)性能不但不會(huì)提高反倒會(huì)因?yàn)閱我蛔泳W(wǎng)擁塞而導(dǎo)致更多不可預(yù)期的局部熱點(diǎn),網(wǎng)絡(luò)也會(huì)更容易出現(xiàn)網(wǎng)絡(luò)擁塞.因此,配套的網(wǎng)絡(luò)流量均衡策略對(duì)多軌網(wǎng)絡(luò)優(yōu)勢(shì)體現(xiàn)尤為重要.本節(jié)通過對(duì)多軌網(wǎng)絡(luò)中原址路由算法進(jìn)行優(yōu)化,提出一種基于單步均衡思想的流量均衡算法.下面以分割度為4的多軌胖樹網(wǎng)絡(luò)舉例來闡述該算法實(shí)現(xiàn)過程,設(shè)胖樹網(wǎng)絡(luò)中共有編號(hào)為0~3的4套胖樹子網(wǎng).

      保證在已有的多軌網(wǎng)絡(luò)源址路由算法中,網(wǎng)絡(luò)數(shù)據(jù)包由系統(tǒng)進(jìn)程產(chǎn)生后,統(tǒng)一集中在4路子網(wǎng)的“0”號(hào)子網(wǎng),即默認(rèn)第1路子網(wǎng).首先保證圖2中Task Division階段NIC網(wǎng)卡產(chǎn)生原始數(shù)據(jù)輸出的4路帶寬均衡,即進(jìn)程產(chǎn)生數(shù)據(jù)包根據(jù)網(wǎng)絡(luò)分割度將task進(jìn)行分段,形成適合多軌網(wǎng)絡(luò)均衡的數(shù)據(jù)包個(gè)數(shù),由此保證NIC輸出的每一路都是10 Gbps帶寬.設(shè)連接相同源節(jié)點(diǎn)與目的節(jié)點(diǎn)的4條子網(wǎng)鏈路為同一組端口,即端口組.在多軌網(wǎng)絡(luò)的傳輸過程期間,在交換機(jī)的數(shù)據(jù)發(fā)送的中間處理過程中(即在原址路由表修改的步驟中)根據(jù)發(fā)往的目的節(jié)點(diǎn)端口ID,設(shè)置交換機(jī)的網(wǎng)絡(luò)局部變量,在每個(gè)交換設(shè)備中記錄下每個(gè)端口組上具有相同目的端口組和源發(fā)送節(jié)點(diǎn)的數(shù)據(jù)包所占用的端口號(hào)為歷史端口占用號(hào).根據(jù)歷史端口占用號(hào),設(shè)置當(dāng)前數(shù)據(jù)包轉(zhuǎn)發(fā)端口,并修正歷史端口信息.在設(shè)置當(dāng)前轉(zhuǎn)發(fā)端口時(shí),可以通過依次遞增同一端口組中的端口號(hào)方式進(jìn)行歷史端口占用號(hào)更新,保證每次發(fā)往統(tǒng)一交換設(shè)備的數(shù)據(jù)包能夠平均分配在4個(gè)子網(wǎng)上.

      以上是多軌網(wǎng)絡(luò)中的端口流量均衡算法,在實(shí)現(xiàn)上是通過每次數(shù)據(jù)包在多軌網(wǎng)絡(luò)中轉(zhuǎn)發(fā)時(shí)進(jìn)行單步修正的.結(jié)合3.3節(jié)中VOQ模式的使用策略,也可以采用相同機(jī)理的網(wǎng)絡(luò)虛通道流量均衡算法來進(jìn)行實(shí)現(xiàn),實(shí)現(xiàn)機(jī)理與端口均衡相同,這里不再贅述.這種算法在實(shí)現(xiàn)上的優(yōu)勢(shì):1)該流量均衡算法避免使用全局網(wǎng)絡(luò)狀態(tài)信息,僅使用網(wǎng)絡(luò)局部狀態(tài)信息就可以保證多軌分割網(wǎng)絡(luò)中同端口組子網(wǎng)間的流量均衡;2)算法可以在源址路由算法執(zhí)行網(wǎng)絡(luò)包頭修改的過程中進(jìn)行,沒有額外的算法執(zhí)行時(shí)間損耗;3)根據(jù)分割度和交換設(shè)備的實(shí)際端口個(gè)數(shù)決定算法局部變量的存儲(chǔ)損耗,不會(huì)額外占用交換設(shè)備的過多存儲(chǔ)空間.

      3.2數(shù)據(jù)分片算法

      如圖7所示,進(jìn)行重載數(shù)據(jù)(長(zhǎng)消息)傳輸時(shí),根據(jù)網(wǎng)絡(luò)分割度,對(duì)重載數(shù)據(jù)進(jìn)行數(shù)據(jù)分割.根據(jù)圖5中不同分割度多軌網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)負(fù)載的傳輸性能的提升倍數(shù),考慮到數(shù)據(jù)分片帶來的信息包頭的冗余信息,合理安排重載數(shù)據(jù)的分片方式,由此一個(gè)長(zhǎng)消息被分拆為若干數(shù)據(jù)塊,分發(fā)到多個(gè)鏈路中同時(shí)傳遞.

      Fig. 7 Patch transmission of weight load圖7 重載數(shù)據(jù)包信息分片傳輸

      在圖7某重載數(shù)據(jù)在分隔度為4的多軌網(wǎng)絡(luò)中,對(duì)重載數(shù)據(jù)分片后形成N個(gè)輕載數(shù)據(jù)包分別攜帶N個(gè)數(shù)據(jù)塊.這些輕載數(shù)據(jù)包依次被分配到鏈路A~D之中,在每個(gè)鏈路中,標(biāo)記此消息在該鏈路中的首包和尾包,而此時(shí)所有鏈路中傳輸?shù)臄?shù)據(jù)包均為分片后的輕載荷數(shù)據(jù)包.由于單層網(wǎng)絡(luò)中該消息數(shù)據(jù)包的傳輸保序,因此目標(biāo)節(jié)點(diǎn)通過對(duì)首包和尾包的記錄,即可獲得消息在單層網(wǎng)絡(luò)中的接收狀態(tài).本研究后續(xù)在對(duì)多軌網(wǎng)絡(luò)實(shí)際性能進(jìn)行評(píng)測(cè)時(shí)所使用的流量,都將使用本節(jié)中網(wǎng)絡(luò)接口設(shè)計(jì)中數(shù)據(jù)包分片后形成的流量進(jìn)行評(píng)測(cè).

      這樣的網(wǎng)絡(luò)接口和重載數(shù)據(jù)包處理方法,雖然增加對(duì)單個(gè)重載包的處理成本,但是通過對(duì)多鏈路并行使用,并根據(jù)數(shù)據(jù)長(zhǎng)度決定鏈路的使用個(gè)數(shù),實(shí)現(xiàn)多鏈路的負(fù)載均衡和高效利用,因此在網(wǎng)絡(luò)整體性能角度上看,是極具性價(jià)比的網(wǎng)絡(luò)實(shí)現(xiàn)模式.

      3.3路由和虛通道切換策略

      虛擬輸出隊(duì)列(virtual output queuing, VOQ)結(jié)構(gòu)可以很好地解決隊(duì)頭阻塞(HOL blocking)問題,在VOQ結(jié)構(gòu)下,每個(gè)輸出端口設(shè)置多個(gè)虛通道緩沖隊(duì)列.如圖8(a)(b)所示,不同的數(shù)據(jù)包由于傳輸路徑不同,因而在節(jié)點(diǎn)A和節(jié)點(diǎn)B上流經(jīng)不同的虛通道,緩解數(shù)據(jù)端口緩沖排隊(duì)的擁塞情況,因此在單、多軌網(wǎng)絡(luò)中利用VOQ和數(shù)據(jù)包分片策略,都能發(fā)揮數(shù)據(jù)包傳輸并行化的優(yōu)勢(shì).結(jié)合圖5中關(guān)于分隔度不同,多軌網(wǎng)絡(luò)對(duì)不同數(shù)據(jù)包長(zhǎng)傳輸性能的差異,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)者除了需要確定重負(fù)載數(shù)據(jù)包數(shù)據(jù)分片的策略和多軌分割度之外,還需要考慮虛通道的設(shè)置個(gè)數(shù).不同分割度情況下,虛通道策略實(shí)現(xiàn)的數(shù)據(jù)并行效果如圖8(c)所示.在圖8(c)中表現(xiàn)單軌網(wǎng)絡(luò)(即分割度為1)和分割度為2的多軌網(wǎng)絡(luò),在端口緩沖空間總量相同的前提下,對(duì)同樣重量的數(shù)據(jù)載荷進(jìn)行數(shù)據(jù)分片后的并行傳輸效果.相同分割度情況下,受到端口轉(zhuǎn)發(fā)速率的影響,數(shù)據(jù)分片大小沒有本質(zhì)影響數(shù)據(jù)轉(zhuǎn)發(fā)效率.

      Fig. 8 The design of virtual channel圖8 虛通道設(shè)計(jì)與效果示意圖

      由于端口緩沖空間總量相同,分割度為2的多軌網(wǎng)絡(luò)的單獨(dú)虛通道緩沖隊(duì)列是單軌隊(duì)列的一半,因此數(shù)據(jù)轉(zhuǎn)發(fā)效率雖然在并行處理上提高1倍效率,但是獨(dú)立隊(duì)列有效使用率出現(xiàn)50%的性能折損.如果圖8(c)中多軌虛通道緩沖區(qū)的深度與對(duì)應(yīng)單軌虛通道保持一致,即在現(xiàn)有基礎(chǔ)上緩沖區(qū)的深度翻倍,圖8中的“Busy”就也能進(jìn)行數(shù)據(jù)包轉(zhuǎn)發(fā),而整體數(shù)據(jù)轉(zhuǎn)發(fā)性能也將翻一倍.因此,要想進(jìn)一步發(fā)揮多軌網(wǎng)絡(luò)在VOQ模式下的性能,應(yīng)該根據(jù)網(wǎng)絡(luò)熱點(diǎn)嚴(yán)重程度的不同,合理分配端口轉(zhuǎn)發(fā)緩沖區(qū)的深度.

      4 網(wǎng)絡(luò)分割性能模擬與分析

      本節(jié)中所進(jìn)行的性能仿真都是基于(m-port,n-tree)胖樹網(wǎng)絡(luò)所進(jìn)行的.其中,m為網(wǎng)絡(luò)中交換設(shè)備的端口總數(shù),n為樹的最大層級(jí)數(shù),記(m-port,n-tree)胖樹網(wǎng)絡(luò)為FT(m,n),樹的高度為n+1,包含2×(m/2)n個(gè)計(jì)算節(jié)點(diǎn)和(2n-1)×(m/2)n-1個(gè)交換機(jī).本節(jié)仿真使用m=4,n=3標(biāo)準(zhǔn)胖樹網(wǎng)絡(luò)以及其多軌分割后形成的多軌胖樹網(wǎng)絡(luò)為仿真對(duì)象.在仿真所采用的網(wǎng)絡(luò)拓?fù)渲?,網(wǎng)絡(luò)交換節(jié)點(diǎn)從結(jié)構(gòu)上共分為3級(jí),最接近節(jié)點(diǎn)網(wǎng)絡(luò)一級(jí)的網(wǎng)絡(luò)交換節(jié)點(diǎn)為邊界交換節(jié)點(diǎn)asymmetricSW,作為第3級(jí)switch.除此之外,另外還有2級(jí)交換節(jié)點(diǎn),其中距離網(wǎng)卡最遠(yuǎn)的switch層級(jí)為第1級(jí),另外一層為第2級(jí).流量產(chǎn)生方式上,仿真流量采用uniform隨機(jī)流量模型.NIC端帶寬分割和網(wǎng)絡(luò)數(shù)據(jù)流量分配后,switch,asymmetricSW交換機(jī)的工作時(shí)鐘周期f(單位為ns)與數(shù)據(jù)位寬b(單位為B)的設(shè)置對(duì)網(wǎng)絡(luò)性能的影響;分割度d作為區(qū)別多軌分割網(wǎng)絡(luò)結(jié)構(gòu)的特征參數(shù).網(wǎng)絡(luò)交換節(jié)點(diǎn)的聚合帶寬B計(jì)算為

      (11)

      因此在各個(gè)參數(shù)共同影響下的B,可以表示當(dāng)前網(wǎng)絡(luò)聚合帶寬,其中d還單獨(dú)表示當(dāng)前因?yàn)閹挿指疃炔煌憩F(xiàn)的多軌網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的差異.結(jié)合NIC端帶寬分割和網(wǎng)絡(luò)數(shù)據(jù)流量分配的情況下,本節(jié)仿真分為2部分:1)多軌極限性能仿真,用以模擬網(wǎng)絡(luò)多軌分割后網(wǎng)絡(luò)可達(dá)到的極限性能;2)數(shù)據(jù)均衡分片對(duì)比仿真,用以驗(yàn)證多軌網(wǎng)絡(luò)的性能提升倍數(shù)理論.

      本文網(wǎng)絡(luò)模擬基于cHPPNetSim(configurable HPP network simulator)多功能可配置并行網(wǎng)絡(luò)模擬器進(jìn)行仿真.該模擬平臺(tái)主要功能是對(duì)大規(guī)模并行網(wǎng)絡(luò)進(jìn)行細(xì)粒度的模擬,模擬結(jié)果可以得到網(wǎng)絡(luò)整體性能、局部性能,獲取每個(gè)網(wǎng)絡(luò)部件運(yùn)行狀態(tài).

      4.1多軌極限性能仿真

      本次仿真中的多軌網(wǎng)絡(luò)除對(duì)40 Gbps網(wǎng)絡(luò)進(jìn)行帶寬4等分之外,子網(wǎng)間流量可以交叉,與此對(duì)比的對(duì)象是未分割獨(dú)立帶寬10 Gbps網(wǎng)絡(luò).獨(dú)立10 Gbps網(wǎng)絡(luò)可以表示4路獨(dú)立10 Gbps網(wǎng)絡(luò)在網(wǎng)絡(luò)設(shè)備獨(dú)立、子網(wǎng)路徑獨(dú)立不共用情況下40 Gbps網(wǎng)絡(luò)的網(wǎng)絡(luò)性能.由于子網(wǎng)間沒有相互串?dāng)_,較少因跨網(wǎng)串?dāng)_導(dǎo)致的局部子網(wǎng)擁塞,所以10 Gbps網(wǎng)絡(luò)模擬組的網(wǎng)絡(luò)性能在理論上是40 Gbps網(wǎng)絡(luò)進(jìn)行帶寬4等分網(wǎng)絡(luò)的極限性能.

      如圖9所示的是2個(gè)網(wǎng)絡(luò)的最大延遲性能差對(duì)比圖.受工作頻率影響,以高頻工作的40 Gbps的分割網(wǎng)絡(luò)在接收帶寬小于32 Gbps的情況下,分割后性能優(yōu)于10 Gbps獨(dú)立網(wǎng)絡(luò)50%左右;但從高強(qiáng)度注入率的情況看出,分割40 Gbps網(wǎng)絡(luò)性能在處理?yè)砣闆r時(shí)仍然處于劣勢(shì),性能較10 Gbps獨(dú)立網(wǎng)絡(luò)要差很多.

      Fig. 9 The simulation of flow partitioning strategy of multi-rail圖9 流量均分策略多軌分割性能仿真

      Fig. 10 Supplement simulation of flow partitioning圖10 流量均分策略性能補(bǔ)充仿真

      為減少因?yàn)楣ぷ黝l率較高帶來的網(wǎng)絡(luò)延遲性能提高,本節(jié)仿真特意增加40 Gbps,f=32 ns,b=40 B,d=4仿真組,代表40 Gbps分割網(wǎng)絡(luò)在低工作頻率情況下網(wǎng)絡(luò)特性的情況.如圖10所示2個(gè)網(wǎng)絡(luò)的最大延遲性能差對(duì)比圖.可以看出整體趨勢(shì)受到降低工作頻率的影響,在低注入率時(shí)性能提升幅度減小到10%左右.

      4.2數(shù)據(jù)均衡分片對(duì)比仿真

      在2.2節(jié)中對(duì)多軌網(wǎng)絡(luò)性能的理論分析,沒有考慮到網(wǎng)絡(luò)擁塞情況;但是在實(shí)際網(wǎng)絡(luò)中,擁塞情況往往會(huì)讓網(wǎng)絡(luò)性能急劇惡化.結(jié)合之前對(duì)多軌網(wǎng)絡(luò)的研究,多軌網(wǎng)絡(luò)雖然擁有結(jié)構(gòu)靈活,且解放高帶寬網(wǎng)絡(luò)設(shè)備依賴等問題;但是由于網(wǎng)絡(luò)路徑數(shù)量隨分割度正比增加,分割多軌網(wǎng)絡(luò)的通信性能會(huì)因任何一條擁塞的鏈路導(dǎo)致整個(gè)網(wǎng)絡(luò)的通信傳輸性能下滑.

      本次仿真中對(duì)20 Gbps,40 Gbps,80 Gbps高帶寬網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)包進(jìn)行數(shù)據(jù)均勻分片,比如4 096 B數(shù)據(jù)包在4×10 Gbps網(wǎng)絡(luò)中,通過(4 096-16)/4+16=1 036 B在4段均分?jǐn)?shù)據(jù)分片網(wǎng)絡(luò)中4路子網(wǎng)并行傳輸1 036 B數(shù)據(jù)包.結(jié)合之前所實(shí)現(xiàn)的子網(wǎng)間流量均衡,4 096 B數(shù)據(jù)包在40 Gbps高帶寬網(wǎng)絡(luò)傳輸?shù)木W(wǎng)絡(luò)性能對(duì)比對(duì)象即為:1 036 B數(shù)據(jù)包在4×10 Gbps多軌分割網(wǎng)絡(luò)傳輸?shù)木W(wǎng)絡(luò)性能,以此類推.所得到的網(wǎng)絡(luò)特性結(jié)果如圖11~16所示:

      Fig. 11 Network latency performance of multi-rail in 4×10 Gbps圖11 4×10 Gbps多軌網(wǎng)絡(luò)延遲性能

      Fig. 12 The performance of light load圖12 輕重量數(shù)據(jù)載荷性能對(duì)比

      Fig. 13 The performance of medium load圖13 中等重量數(shù)據(jù)載荷等性能對(duì)比

      Fig. 14 The performance of weight load圖14 重度重量數(shù)據(jù)載荷度性能對(duì)比

      Fig. 15 The bandwidth variation of maximum load圖15 網(wǎng)絡(luò)的最大負(fù)載帶寬變化曲線

      Fig. 16 Practical improvement of multi-real network圖16 多軌網(wǎng)絡(luò)的實(shí)際性能提升倍數(shù)

      4×10 Gbps多軌網(wǎng)絡(luò)進(jìn)行不同數(shù)據(jù)大小傳輸下的網(wǎng)絡(luò)延遲性能,如圖11曲線所示.多軌網(wǎng)絡(luò)的網(wǎng)絡(luò)傳輸性能隨網(wǎng)絡(luò)負(fù)載數(shù)據(jù)包的包長(zhǎng)逐步增大,網(wǎng)絡(luò)出現(xiàn)擁塞的情況就會(huì)更早地出現(xiàn),且網(wǎng)絡(luò)負(fù)載數(shù)據(jù)包越長(zhǎng),網(wǎng)絡(luò)最大流量帶寬隨之降低.結(jié)合圖1中的數(shù)據(jù)可體現(xiàn)出網(wǎng)絡(luò)最大流量帶寬的范圍.

      40 Gbps高帶寬胖樹網(wǎng)絡(luò)與4×10 Gbps多軌網(wǎng)絡(luò)在輕重量數(shù)據(jù)載荷傳輸情況下網(wǎng)絡(luò)性能對(duì)比結(jié)果,如圖12所示.圖12中128 B→44 B與256 B→76 B兩條線表示在4×10 Gbps分割網(wǎng)絡(luò)中分別傳輸44 B和76 B兩種數(shù)據(jù)流量情況下的網(wǎng)絡(luò)延遲性能,分別與128 B和256 B兩種數(shù)據(jù)負(fù)載在40 Gbps高帶寬胖樹網(wǎng)絡(luò)中的網(wǎng)絡(luò)性能進(jìn)行對(duì)比.圖12顯示,128 B和256 B這2種數(shù)據(jù)負(fù)載屬于輕重量數(shù)據(jù)載荷;在這種負(fù)載情況下,多軌網(wǎng)絡(luò)表現(xiàn)出網(wǎng)絡(luò)傳輸性能優(yōu)勢(shì)的現(xiàn)象,且多軌網(wǎng)絡(luò)的接收帶寬也比單獨(dú)高帶寬網(wǎng)絡(luò)要高.

      40 Gbps高帶寬胖樹網(wǎng)絡(luò)與4×10 Gbps多軌網(wǎng)絡(luò)在中等重量數(shù)據(jù)載荷傳輸情況下網(wǎng)絡(luò)性能對(duì)比結(jié)果,如圖13所示.從圖13中可以看出,在512 B,1 024 B,2 048 B這3種數(shù)據(jù)負(fù)載屬于中等重量數(shù)據(jù)載荷;在這種負(fù)載情況下,多軌網(wǎng)絡(luò)表現(xiàn)出網(wǎng)絡(luò)傳輸性能出現(xiàn)劣勢(shì)的現(xiàn)象,且多軌網(wǎng)絡(luò)的接收帶寬也比單獨(dú)高帶寬網(wǎng)絡(luò)要低.

      40 Gbps高帶寬胖樹網(wǎng)絡(luò)與4×10 Gbps多軌網(wǎng)絡(luò)在重度重量數(shù)據(jù)載荷傳輸情況下網(wǎng)絡(luò)性能對(duì)比結(jié)果,如圖14所示.從圖14中可以看出,在4 096 B和8 192 B這2種數(shù)據(jù)負(fù)載屬于重度重量數(shù)據(jù)載荷;在這種負(fù)載情況下,多軌網(wǎng)絡(luò)表現(xiàn)出網(wǎng)絡(luò)傳輸性能出現(xiàn)更加劣勢(shì)的現(xiàn)象,多軌網(wǎng)絡(luò)的接收帶寬不僅比單獨(dú)高帶寬網(wǎng)絡(luò)要低,而且比中等載荷仿真中更加明顯.

      40 Gbps高帶寬胖樹網(wǎng)絡(luò)與4×10 Gbps多軌網(wǎng)絡(luò)在不同數(shù)據(jù)包長(zhǎng)載荷情況下網(wǎng)絡(luò)的最大負(fù)載帶寬情況,如圖15所示.從圖15中看到,在較低負(fù)載情況下虛線的多軌網(wǎng)絡(luò)接收帶寬還處于較高的位置,但在數(shù)據(jù)負(fù)載大于400 B后,表明多軌網(wǎng)絡(luò)的整體網(wǎng)絡(luò)處理能力的最大負(fù)載帶寬要低于高帶寬胖樹網(wǎng)絡(luò),且隨著網(wǎng)絡(luò)負(fù)載包長(zhǎng)的增加,最大負(fù)載帶寬有進(jìn)一步降低的趨勢(shì).從圖15中的波峰位置可以看出,無(wú)論是高帶寬胖樹網(wǎng)絡(luò)還是多軌網(wǎng)絡(luò),2種網(wǎng)絡(luò)都有最佳網(wǎng)絡(luò)負(fù)載點(diǎn),低于或高于該點(diǎn)網(wǎng)絡(luò)整體性能都會(huì)有所下滑.針對(duì)同一總網(wǎng)絡(luò)帶寬情況下網(wǎng)絡(luò)分割程度不同,如何影響最佳網(wǎng)絡(luò)負(fù)載點(diǎn)的移動(dòng),還需對(duì)如40 Gbps高帶寬胖樹網(wǎng)絡(luò)與8×5 Gbps多軌網(wǎng)絡(luò)對(duì)比仿真的類似仿真進(jìn)行分析.

      單鏈路帶寬20 Gbps,40 Gbps,80 Gbps的3種網(wǎng)絡(luò)的高帶寬胖樹網(wǎng)絡(luò)與相應(yīng)的10 Gbps多軌網(wǎng)絡(luò)在不同數(shù)據(jù)包長(zhǎng)載荷情況下的實(shí)際策略性能提升倍數(shù),如圖16所示.結(jié)合第2節(jié)的理論分析可以證實(shí),理論分析的整體趨勢(shì)確實(shí)存在,但是受到網(wǎng)絡(luò)擁塞和多軌網(wǎng)絡(luò)流量分配策略誤差等綜合情況的影響,提升倍數(shù)與理論分析結(jié)果間存在差異.

      5 總結(jié)及下一步工作

      在交換芯片聚合帶寬確定的條件下,本文所提出的多軌分割網(wǎng)絡(luò)的每條子網(wǎng)帶寬需要根據(jù)分割度進(jìn)行等比例縮減.網(wǎng)絡(luò)多軌分割后,帶寬分配的網(wǎng)絡(luò)可擴(kuò)展性更好.應(yīng)對(duì)多發(fā)性局部流量擁塞造成的網(wǎng)絡(luò)阻塞情況,單一的高帶寬網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)由于流量分配、擁塞避免算法的路徑切換顆粒度不夠小,無(wú)法避免多發(fā)性擁塞造成的擁塞情況.

      輕載荷網(wǎng)絡(luò)負(fù)載下的網(wǎng)絡(luò)延遲性能根據(jù)分割度的提升也展現(xiàn)出了正比優(yōu)勢(shì).在實(shí)際的系統(tǒng)中,短消息占據(jù)了數(shù)據(jù)中心網(wǎng)絡(luò)的大部分流量.在文獻(xiàn)[11]中,根據(jù)Facebook數(shù)據(jù)中心對(duì)數(shù)據(jù)負(fù)載情況的統(tǒng)計(jì)結(jié)果,主要數(shù)據(jù)負(fù)載集中在長(zhǎng)度小于200 B的數(shù)據(jù)包上,基于Hadoop的大數(shù)據(jù)應(yīng)用也存在同樣的負(fù)載特征.以PageRank為例,在map,shuffle,reduce在內(nèi)的3個(gè)主要工作階段中數(shù)據(jù)負(fù)載包長(zhǎng)接近60%的負(fù)載流量都集中在小于128 B區(qū)間.

      分析結(jié)果表明,本文的多軌分割網(wǎng)絡(luò)有利于提高短消息的延遲性能,因此該結(jié)論對(duì)于優(yōu)化實(shí)際網(wǎng)絡(luò)系統(tǒng)的性能有重要指導(dǎo)意義.評(píng)測(cè)結(jié)果客觀體現(xiàn)了多軌分割網(wǎng)絡(luò)自身固有的性能局限.在網(wǎng)絡(luò)擁塞狀態(tài)下,相較于高帶寬網(wǎng)絡(luò),多軌分割網(wǎng)絡(luò)會(huì)出現(xiàn)更快的網(wǎng)絡(luò)性能下降現(xiàn)象.而該現(xiàn)象的主要成因是網(wǎng)絡(luò)流量處于非絕對(duì)平均狀態(tài),且多軌策略鋪設(shè)了更多的網(wǎng)絡(luò)路徑,鏈路出現(xiàn)擁塞的概率得到增加.所以,網(wǎng)絡(luò)設(shè)計(jì)者在進(jìn)行多軌網(wǎng)絡(luò)設(shè)計(jì)時(shí),除了需要根據(jù)網(wǎng)絡(luò)路徑和端口虛通道流量分配策略進(jìn)行體系結(jié)構(gòu)設(shè)計(jì),還需要結(jié)合網(wǎng)絡(luò)流量的實(shí)際熱點(diǎn)特征,針對(duì)網(wǎng)絡(luò)熱點(diǎn)端口,加大網(wǎng)絡(luò)端口隊(duì)列緩沖深度或提升關(guān)鍵路徑的路徑帶寬,來緩解多軌化分割后熱點(diǎn)路徑的擁塞問題.本文對(duì)多軌分割網(wǎng)絡(luò)的研究還僅僅處于初步探索階段.未來工作中會(huì)將非對(duì)稱網(wǎng)絡(luò)與網(wǎng)絡(luò)多軌化相結(jié)合.深入網(wǎng)絡(luò)局部性多軌化策略以及非對(duì)稱交換機(jī)方面的研究,針對(duì)實(shí)際大規(guī)模計(jì)算集群部署時(shí)出現(xiàn)的問題展開新的工作.同時(shí),也將會(huì)進(jìn)一步深入到目前實(shí)際集群應(yīng)用的相關(guān)通信特性分析,探討針對(duì)各種實(shí)際應(yīng)用使用下的網(wǎng)絡(luò)多軌優(yōu)化設(shè)計(jì)方法和相應(yīng)的優(yōu)化策略.網(wǎng)絡(luò)多軌化策略目前值得進(jìn)一步研究的問題還有很多,該思想會(huì)逐步成為高性能計(jì)算和大數(shù)據(jù)網(wǎng)絡(luò)體系結(jié)構(gòu)的重要研究熱點(diǎn).

      致謝感謝中國(guó)科學(xué)院國(guó)有資產(chǎn)經(jīng)營(yíng)有限責(zé)任公司對(duì)本論文的大力支持!感謝中科院計(jì)算所的王展博士對(duì)本論文在網(wǎng)絡(luò)體系結(jié)構(gòu)方面的技術(shù)指導(dǎo)!

      [1]Wang Dawei, Cao Zheng, Liu Xinchun, et al. Research and design of high performance interconnection network switch [J]. Journal of Computer Research and Development, 2008, 45(12): 2069-2078 (in Chinese)(王達(dá)偉, 曹政, 劉新春, 等. 高性能互聯(lián)網(wǎng)絡(luò)交換機(jī)研究與設(shè)計(jì)[J]. 計(jì)算機(jī)研究與發(fā)展, 2008, 45(12): 2069-2078)

      [2]Cao Zheng. Research on interconnection network of dawning 5000 high productivity computer[D]. Beijing: Institute of Computing Technology, Chinese Academy of Sciences, 2009 (in Chinese)(曹政. 曙光5000高效能計(jì)算機(jī)系統(tǒng)的互連網(wǎng)絡(luò)研究[D]. 北京: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2009)

      [3]Brunet E, Trahay F, Denis A. A multicore-enabled multirail communication engine[C]Proc of IEEE Int Conf on Cluster Computing. Piscataway, NJ: IEEE, 2008: 316-321

      [4]Liu Jiuxing, Vishnu A, Panda D K. Building multirail infiniband clusters: MPI-level design and performance evaluation[C]Proc of the 2004 ACMIEEE Conf on Supercomputing. Los Alamitos, CA: IEEE Computer Society, 2004: 33

      [5]Salvador C. Static allocation of multirail networks [EBOL]. (2012-08-16)[2015-07-18].https:www.researchgate.netpublication2546969_Static_Allocation_of_Multirail_Networks

      [6]Raikar S, Subramoni H, Kandalla, K, et al. Designing network failover and recovery in MPI for multi-rail infiniband clusters[C]Proc of IEEE Parallel and Distributed Processing Symp Workshops. Piscataway, NJ: IEEE, 2012: 1160-1167

      [7]Qian Ying, Afsahi A. Efficient RDMA-based multi-port collectives on multi-rail QsNet II clusters[C]Proc of the 20th Int Conf on Parallel and Distributed Processing. Los Alamitos, CA: IEEE Computer Society, 2006: 273

      [8]Qian Ying, Afsahi A. High performance RDMA-based multi-port all-gather on multi-rail QsNet Ⅱ[C]Proc of the 21st Int Symp on High Performance Computing Systems and Applications (HPCS 2007). Piscataway, NJ: IEEE, 2007: 3

      [9]Qian Ying, Afsahi A. RDMA-based and SMP-aware multi-port all-gather on multi-rail QsNet Ⅱ SMP clusters[C]Proc of the 42nd Int Conf on Parallel Processing. Piscataway, NJ: IEEE, 2007: 48

      [10]Cai Jie, Rendell A P, Strazdins P E. Non-threaded and threaded approaches to multirail communication with uDAPL[C]Proc of the 6th IFIP Int Conf on Network amp; Parallel Computing (NPC 2009). Piscataway, NJ: IEEE, 2009: 233-239

      [11]Arjun R, Hongyi Z, Jasmeet B, et al. Inside the social network’s (datacenter) network [J]. ACM SIGCOMM Computer Communication Review, 2015, 45(5): 123-137

      [12]Theophilus B, Ashok A, Aditya A, et al. Understanding data center traffic characteristics [J]. ACM SIGCOMM Computer Communication Review, 2010, 40(1): 92-99

      ShaoEn, born in 1988. PhD candidate, engineer. His main research interests focus on SDN, big data, high performance interconnection, and optical network.

      YuanGuojun, born in 1983. PhD candidate, engineer. His main research interests include computer architecture and optical flexible network.

      HuanZhixuan, born in 1990. MSc candidate. His main research interests include inter-connection networks, computer architec-ture and parallel computing.

      CaoZheng, born in 1982. PhD, associate professor. His main research interests include high performance computer archi-tecture, high performance interconnection, and optical interconnection.

      SunNinghui, born in 1968. PhD, professor, PhD supervisor. His main research interests include computer architecture, high perfor-mance computing and distributed OS.

      ASlicedMulti-RailInterconnectionNetworkforLarge-ScaleClusters

      Shao En1,2, Yuan Guojun1,2, Huan Zhixuan1,2, Cao Zheng1, and Sun Ninghui1

      1(State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190)2(University of Chinese Academy of Sciences, Beijing 100049)

      In large-scale clusters, the design of interconnection network is facing greater challenges. Firstly, the increasing computing capacity of a single node requires the network providing higher bandwidth and lower latency. Secondly, the increasing number of nodes requires the network to have extremely better scalability. Thirdly, the increasing scale of system leads to worse performance of collective communication, which is harmful to the performance and scalability of applications. Fourthly, the increasing number of devices requires the network to have better reliability. As the performance of computing nodes keeps increasing, interconnection network has gradually become the bottleneck of large-scale computing system. However, switch chip, the core component of interconnection network, can offer limited aggregate bandwidth because of the constraint of physical processes and packaging technologies. With the co-design of network architecture and switch micro-architecture, this paper proposes a sliced multi-rail network architecture regarding the given aggregate bandwidth. Through mathematical modeling and network simulation, we studies the performance boundaries of sliced multi-rail network. Evaluation results show that the average latency of the short message (less than 128B)can be increased by more than 10 times.

      large-scale clusters; multi-rail network; bandwidth division; data center network; large-scale network simulation

      2015-12-09;

      2016-05-25

      國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFB0200300,2016YFGX030148,2016YFB0200205,2016GZKF0JT006);國(guó)家自然科學(xué)基金項(xiàng)目(61572464,61331008,61402444);國(guó)家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2015AA01A301);華為科研基金項(xiàng)目(YB2015070066);中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(XDB24060600)

      This work was supported by the National Key Research and Development Program of China (2016YFB0200300, 2016YFGX030148, 2016YFB0200205, 2016GZKF0JT006), the National Natural Science Foundation of China(61572464, 61331008, 61402444), the National High Technology Research and Development Program of China (863 Program) (2015AA01A301), the Scientific Research Foundation of Huawei (YB2015070066), and the CAS Strategic Priority Program (XDB24060600).

      TP303

      猜你喜歡
      高帶寬數(shù)據(jù)包端口
      一種高增益高帶寬的全差分運(yùn)算放大器設(shè)計(jì)
      一種端口故障的解決方案
      SmartSniff
      城市光網(wǎng)引領(lǐng)高帶寬應(yīng)用探討
      大科技·D版(2018年7期)2018-10-21 09:38:17
      端口阻塞與優(yōu)先級(jí)
      面向PPPoE用戶的寬帶測(cè)速平臺(tái)的搭建和應(yīng)用研究
      初識(shí)電腦端口
      電腦迷(2015年6期)2015-05-30 08:52:42
      生成樹協(xié)議實(shí)例探討
      政企客戶組網(wǎng)中MSTP、MSAP技術(shù)的應(yīng)用分析
      基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
      卢湾区| 黑河市| 什邡市| 新泰市| 邵阳市| 遂昌县| 庄浪县| 共和县| 宁阳县| 美姑县| 枞阳县| 凤凰县| 丹棱县| 福海县| 高青县| 蒲江县| 洛浦县| 荔波县| 宾阳县| 西丰县| 明水县| 信阳市| 体育| 虹口区| 拜城县| 陇南市| 吴忠市| 云霄县| 纳雍县| 通道| 稷山县| 吴江市| 新源县| 方山县| 嵊泗县| 赣榆县| 紫云| 奎屯市| 乐至县| 星子县| 遂平县|