• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于氣泡流控的改進多播路由算法*

      2015-07-10 01:23:50肖燦文董德尊龐征斌李存祿
      計算機工程與科學 2015年2期
      關(guān)鍵詞:多播延時報文

      婁 輝,肖燦文,董德尊, 龐征斌,李存祿

      (國防科學技術(shù)大學計算機學院,湖南 長沙 410073)

      1 引言

      隨著人們對芯片計算性能需求的不斷提升,單純依靠提高芯片時鐘頻率來提高整體計算性能的方法已經(jīng)很難滿足性能的需要,因此當前片上系統(tǒng)大多通過增加芯片上集成的處理器核的數(shù)目來進一步提升性能。片上網(wǎng)絡(luò)通過通信鏈路連接多個處理器核,這種方式與基于總線的互連相比,能夠?qū)崿F(xiàn)更低的通信延遲、更高的吞吐量和更低的能耗。片上網(wǎng)絡(luò)作為不同處理器核之間的通信部件,其性能對片上系統(tǒng)的整體性能會產(chǎn)生很大影響。當前片上多處理器系統(tǒng)研究大多致力于提升單播通信的性能,然而許多并行應(yīng)用和程序模型都需要支持多播。例如,在基于目錄的 Cache 一致性[1]協(xié)議中,大量依賴多播和廣播通信特性去維持請求間的順序,并通過廣播作廢不同Cache節(jié)點上的共享數(shù)據(jù)塊;而在基于令牌的 Cache 一致性協(xié)議[2]中也需要使用多播收集令牌。在不同的Cache 一致性協(xié)議通信模型中,多播通信占網(wǎng)絡(luò)總通信量的3.1%~12.4%[3]。因此,設(shè)計一種針對多播通信的高效的路由算法將會有效提升片上網(wǎng)絡(luò)的通信性能。表1列出了不同協(xié)議下多播通信占系統(tǒng)總通信量的比例。從表1可以看出,多播通信在網(wǎng)絡(luò)中所占的比例很大,這些聚合通信對多核系統(tǒng)的性能會產(chǎn)生顯著的影響,即使網(wǎng)絡(luò)中注入很少的多播包,網(wǎng)絡(luò)吞吐量也會明顯下降。為了避免這些重要的聚合通信成為整個片上系統(tǒng)性能提升的瓶頸,片上網(wǎng)絡(luò)必須支持多播通信這種重要的通信模式。路由算法決定了網(wǎng)絡(luò)中報文的通信形式,同時不同的路由算法對網(wǎng)絡(luò)中帶寬的利用、平均報文時延、飽和吞吐率以及能耗等都有很大的影響。對于多播也是一樣,不同的多播路由算法也會顯著影響網(wǎng)絡(luò)資源的利用效率。因此,一個高效的多播路由算法對多處理器系統(tǒng)來說至關(guān)重要。

      Table 1 Proportion of multicast in the network

      多播和廣播是一個源節(jié)點向一個目的節(jié)點集合發(fā)送同樣的數(shù)據(jù)信息的通信模型。多播報文通信的主要目標是為多播報文選擇一條最優(yōu)路徑,使得報文在該路徑上傳播所占用的通道帶寬盡可能少,并使該報文的傳播延遲盡可能短。報文死鎖會明顯降低多播通信的性能,因此在多播路由設(shè)計中應(yīng)保證報文傳播不會產(chǎn)生死鎖。多播通信對網(wǎng)絡(luò)的整體性能產(chǎn)生很大影響,因此當前的許多工作對如何設(shè)計高效的多播路由算法以提高片上網(wǎng)絡(luò)整體性能進行了研究。

      當前已有很多針對多播通信的路由算法,例如,基于樹的多播路由算法[4]保證多播報文盡可能地沿著共同路徑傳輸,當需要發(fā)往不同方向的目標節(jié)點時進行報文復(fù)制,從而使多播報文以樹的形式發(fā)送到所有目標節(jié)點。該方法的一個明顯缺陷是容易產(chǎn)生擁塞,當傳播樹中有一個分支擁塞時,其它的分支也會被阻塞,擁塞的產(chǎn)生使得該方法的網(wǎng)絡(luò)吞吐率很低?;诼窂降亩嗖ヂ酚伤惴ㄏ拗贫嗖笪难刂宦窂揭来瓮ㄟ^各個目標節(jié)點,報文首先到達離源節(jié)點最近的目的節(jié)點,然后到達較遠的節(jié)點,并在報文到達目的節(jié)點時進行復(fù)制。這種方法往往使得報文傳播的路徑很長,從而增加了報文的傳輸延遲。由于片上網(wǎng)絡(luò)在面積、能耗和性能等方面都有嚴格的限制,因此這些方法不適合在片上網(wǎng)絡(luò)使用。虛電路樹多播路由VCTM(Virtual Circuit Tree Multicasting)[3]是片上網(wǎng)絡(luò)中一種重要的多播路由算法。該算法只需要添加較少的存儲空間就能夠有效地支持多播與廣播。但是,該算法有三個缺點:(1)為維持多播信息需要額外的存儲空間,從而增加了芯片的面積;(2)傳播過程中需要多播包的建立信號,從而增加了網(wǎng)絡(luò)中的延時;(3)即使是同樣的目的節(jié)點集,如果多播源節(jié)點改變,VCTM也必須重新建立多播樹進行多播通信。這些缺陷使得VCTM不能很好地運用到大規(guī)模網(wǎng)絡(luò)中。支持廣播的邏輯劃分路由BLBDR(Broadcast Logic-Based Distributed Routing)[5]通過劃分工作區(qū)域來有效隔離有缺陷的區(qū)域,同時關(guān)閉不需要的網(wǎng)絡(luò)區(qū)域,從而有效降低能耗。該方法確定了NOC中層虛擬化的概念,對網(wǎng)絡(luò)的不同區(qū)域進行隔離通信。但是,如果目的節(jié)點集合散落到不同的網(wǎng)絡(luò)部分,則該算法的性能會明顯降低,這是因為該方法很難確定一個能夠覆蓋所有的目的節(jié)點的區(qū)域,因此該調(diào)度算法在片上網(wǎng)絡(luò)多播通信中并不適用。遞歸劃分多播路由算法RPM (Recursive Partitioning Multicast)[6]由于存在緩存資源利用的不均衡,其性能也受到了相應(yīng)影響,本文后續(xù)部分將進行詳細分析。均衡自適應(yīng)多播路由算法BAM (Balanced Adaptive Multicast)[7]采用的死鎖避免方法,影響了網(wǎng)絡(luò)通道資源的利用率,本文就是針對RPM和BAM算法的不足提出了新的基于氣泡流控的多播路由算法。

      本文的主要貢獻總結(jié)如下:

      (1)改進了多播路由算法(RPM和BAM)的死鎖避免方法。通過加入氣泡(即空閑虛通道)的方法來避免死鎖,該方法釋放了為了防止死鎖而預(yù)留的網(wǎng)絡(luò)緩存資源,從而更有效地利用了網(wǎng)絡(luò)的緩沖資源,提升了網(wǎng)絡(luò)的性能。

      (2)對該方法的無死鎖性進行了論述。

      (3)評估了不同流量模型下改進的RPM和BAM的性能,同時評估了改進的BAM在不同網(wǎng)絡(luò)資源下的敏感性及可擴展性。

      本文其余部分組織如下:第2節(jié)介紹了我們的多播路由算法的實現(xiàn)過程;第3節(jié)介紹路由器流水線和微體系結(jié)構(gòu);第4節(jié)評估了不同路由算法的性能,并與我們提出的方法進行了比較,同時總結(jié)了模擬結(jié)果;最后是本文的結(jié)論。

      2 多播路由算法

      本文針對RPM和BAM兩種多播路由算法存在的不足,提出一種新的多播路由算法。RPM能夠根據(jù)包當前所在的地址,將網(wǎng)絡(luò)劃分成八個區(qū)域。根據(jù)報文目的節(jié)點在這八個區(qū)域的位置,采用一系列的優(yōu)先級規(guī)則計算出報文去每個區(qū)域的優(yōu)先的輸出端口。RPM盡可能多地使報文沿著同一條路徑傳輸來減小網(wǎng)絡(luò)帶寬的使用,之后進行復(fù)制操作,將復(fù)制的包傳輸?shù)礁鱾€目的節(jié)點。但是,為了防止多播路由的死鎖,RPM采用了兩個虛擬網(wǎng)絡(luò)VN0和VN1,VN0只傳輸向上的報文,VN1只傳輸向下的報文。這種死鎖避免的方法使水平方向的緩存成為了性能的瓶頸,它被VN0和VN1同時使用而垂直方向的只有一個方向使用。這種方法由于不同維度的緩存資源的使用不均衡影響了它的性能。BAM也是根據(jù)包當前所在的地址,將網(wǎng)絡(luò)劃分成八個區(qū)域,但它根據(jù)各輸出端口的擁塞程度選擇到達目的區(qū)域具有較低擁塞程度的輸出端口,從而高效地使用鏈路帶寬。BAM為了防止死鎖,將Duato 的單播死鎖避免理論[8]運用到多播路由算法上,將網(wǎng)絡(luò)中的虛通道劃分為適應(yīng)性虛通道和逃逸虛通道。一旦多播包進入逃逸虛通道,后續(xù)路由算法就按維序路由進行報文復(fù)制。這種死鎖避免的方法,當網(wǎng)絡(luò)要發(fā)生死鎖的時候才用逃逸虛通道,所以網(wǎng)絡(luò)中的逃逸虛通道在網(wǎng)絡(luò)使用的概率比較小。它使網(wǎng)絡(luò)的虛通道的資源沒有充分利用,造成資源浪費,導(dǎo)致網(wǎng)絡(luò)性能不能充分發(fā)揮。當多播報文進入逃逸虛通道時報文只能夠進行維序路由。這種路由方法是為了保證無死鎖而犧牲了網(wǎng)絡(luò)中的帶寬,從而使帶寬不能充分利用,網(wǎng)絡(luò)延時增大。由于在逃逸虛網(wǎng)絡(luò)中向北和向南傳輸?shù)膱笪牟荒軌蜣D(zhuǎn)變方向,造成了網(wǎng)絡(luò)不同維度間的資源的不均衡。

      基于對RPM和BAM的觀察與分析,本文提出了一種新的多播死鎖避免方法。這種死鎖避免方法是在網(wǎng)絡(luò)的垂直方向注入氣泡(Bubble),取消RPM和BAM的兩個網(wǎng)絡(luò)。以BAM為例簡述新死鎖避免方法,改進BAM簡稱BAM-B。

      BAM-B是在BAM基礎(chǔ)上提出來的,首先敘述BAM的均衡自適應(yīng)多播路由算法。BAM首先根據(jù)報文的位置將網(wǎng)絡(luò)劃分成八個區(qū)域,分別為 0、1、2、3、4、5、6、7,如圖1所示。位于 1、3、5 和 7 中的目標節(jié)點只有一個輸出端口到達, 因此多播報文目標節(jié)點中有處于 1、3、5 或 7的,則對應(yīng)的北、西、南或東輸出端口一定會被選擇使用,這些端口被稱作必須輸出端口。而處于區(qū)域0、2、4、6的多播報文目標節(jié)點,源節(jié)點有兩個方向輸出端口可以到達它們。網(wǎng)絡(luò)中報文傳輸遵守如下規(guī)則:(1)如果目標節(jié)點只有一個必須端口,則沿著必須端口傳輸數(shù)據(jù)。(2)如果沒有必須輸出端口或有兩個必須輸出端口,則報文沿最低擁塞的輸出端口方向傳輸。以上是BAM與BAM-B相同的地方,下面是本文提出的改進算法不同的地方。

      Figure 1 Network regional division schematic diagram圖1 網(wǎng)絡(luò)區(qū)域劃分示意圖

      不同的主要地方在于對死鎖的處理方式。不失一般性,考慮多播源節(jié)點位于如圖1所示的位置,考慮多播包向北輸出端口傳輸,且目標節(jié)點集都在北向這一維的不轉(zhuǎn)維的情況,即目的節(jié)點集中不帶有0和2區(qū)域的節(jié)點,則不需要加入氣泡(即空虛通道),虛通道全部分配給包進行虛通道VC(Virtual Channel)分配。當去目標節(jié)點存在一次路由轉(zhuǎn)維時,此例子中即目的節(jié)點集中存在0或2區(qū)域的目的節(jié)點,則將VC中加入氣泡,即留一個切片緩存區(qū),其它的全部分配給包進行VC分配。

      死鎖發(fā)生的情況如圖2所示,A包占據(jù)通道U請求通道V,B包占據(jù)通道V請求通道W,C包占據(jù)通道W請求通道X,D包占據(jù)通道X請求通道U。

      Figure 2 Packet deadlock situation圖2 報文發(fā)生死鎖情況

      文獻[9]證明了在Mesh網(wǎng)絡(luò)中通過注入氣泡來提高單播完全自適應(yīng)路由網(wǎng)絡(luò)性能的方法是無死鎖的。但是,它沒有涉及網(wǎng)絡(luò)中存在多播的情況。由于Cache 一致性協(xié)議的多播包大量用于傳輸網(wǎng)絡(luò)中的控制信息,同時片上有大量的連線資源,所以可以將這些信息用單切片的多播包傳輸。在網(wǎng)絡(luò)中傳輸?shù)膯吻衅亩嗖グ?,各個復(fù)制的切片相互獨立,類似于單播包。

      所以新的多播路由算法與網(wǎng)絡(luò)中注入氣泡的單播完全自適應(yīng)路由算法有類似的性質(zhì)且都是無死鎖的。下面將描述新的多播路由算法是無死鎖的:

      (1)如果X中的虛通道中所有的報文都請求U,由改進新的路由算法知X通道中必然存在一個空閑VC。W中請求X虛通道的報文必有一個能夠請求成功,則W中的報文可以繼續(xù)向X通道傳輸。因此,W中將有空閑VC,V可以請求W,則這種情況下存在一個報文可以移動。

      (2)如果X中的所有VC都被占用,由改進的新路由算法知X通道中必然存在一個報文到達目的節(jié)點(可以排出)或脫離該環(huán)(不請求U,向上傳輸),則將產(chǎn)生新的空閑VC。W中請求X虛通道的報文必有一個能夠請求成功,W中的報文可以繼續(xù)向X通道傳輸,則在這種情況下存在一個報文可以移動。

      綜上所述,這種新的多播路由算法是無死鎖的。與RPM的死鎖避免方法不同,新的多播死鎖避免方法解決了RPM 為了防止死鎖而采用兩個虛擬網(wǎng)絡(luò)造成的網(wǎng)絡(luò)緩存資源使用不均衡的問題;與BAM的死鎖避免方法也不同,解決了BAM為防止網(wǎng)絡(luò)死鎖采用逃逸虛通道而造成的虛通道的資源沒有充分利用,和逃逸虛通道中帶寬的不充分利用等問題。

      3 路由器流水線和微體系結(jié)構(gòu)

      本文選擇的基準路由器是交叉開關(guān)分配虛通道路由器[10,11]。路由器使用預(yù)先選擇策略來提前選擇擁塞比較小的輸出端口,其原理是前一個時鐘預(yù)先選擇每個象限下一時鐘的優(yōu)先輸出端口。多播報文和單播報文采用經(jīng)典的五步流水線,單播報文流水線如圖3a所示和多播報文流水線如圖3b所示。

      Figure 3 Packet pipeline圖3 報文的流水線

      在多播通信模式下,在中間路由器,一個包需要去復(fù)制幾個拷貝的包。為了支持多播包的復(fù)制,路由器需要增加復(fù)制部件,修改在單播包情況下的虛通道分配器VA(Virtual Channel Allocator)和交叉開關(guān)分配器SA(Switch Allocator) 。由于Cache 一致性協(xié)議的多播報文一般傳輸?shù)氖强刂菩盘?,故網(wǎng)絡(luò)上傳輸?shù)亩嗖笪亩际菃吻衅瑘笪?。路由器增加的?fù)制部件僅僅是一些控制邏輯,多播包只有SA和VA分配成功才復(fù)制切片向下傳輸。這種情況下不需要等待所有的地址都分配成功才發(fā)送切片。滿足一個輸出端口則發(fā)送一個復(fù)制切片,只有當所有的請求輸出端口都得到滿足時 ,多播報文才能夠從輸入虛通道中移除。

      圖4描述了路由器微體系結(jié)構(gòu)。Pre-selection 模塊為每個象限預(yù)先選擇了優(yōu)先的輸出端口,由于預(yù)先選擇模塊在報文進行路由計算之前已經(jīng)預(yù)先選擇了優(yōu)先的輸出端口,故不會影響路由器關(guān)鍵路徑的延時,單播報文和多播報文路由計算都會使用該模塊的預(yù)先選擇輸出信號來提前確定每個象限的優(yōu)先方向。

      Figure 4 Router microarchitecture圖4 路由器微體系結(jié)構(gòu)

      4 實驗評估

      本節(jié)評估所提出的死鎖避免方法與RPM和BAM結(jié)合使用時網(wǎng)絡(luò)性能的改進。實驗中主要使用合成流量模式[11],使用時鐘精確模擬器Booksim[11],對改進的多播路由器微體系結(jié)構(gòu)進行了細粒度建模。合成流量模式下評估RPM、BAM和本文提出的基于氣泡流控的RPM和BAM(分別記做RPM-B、BAM-B)。RPM需要將網(wǎng)絡(luò)劃分成兩個虛擬網(wǎng)絡(luò)(分別用于傳輸向上和向下的報文),故不需要配置逃逸虛通道,不會發(fā)生死鎖;BAM 的多播虛擬網(wǎng)絡(luò)也需要劃分兩個虛擬網(wǎng)絡(luò)(自適應(yīng)網(wǎng)絡(luò)和逃逸虛網(wǎng)絡(luò)),逃逸虛網(wǎng)絡(luò)是為了防止死鎖。而RPM-B和BAM-B只有一個網(wǎng)絡(luò),它通過向網(wǎng)絡(luò)注入氣泡來防止死鎖。本實驗在二維Mesh網(wǎng)絡(luò)中進行評估。

      多播報文與單播報文都包含一個切片,實驗中使用多種合成流量模型[11],包括uniform random、transpose、bit rotation 和random permutation。網(wǎng)絡(luò)拓撲結(jié)構(gòu)使用4×4、8×8的Mesh網(wǎng)絡(luò),多播報文目的節(jié)點數(shù)目與位置在網(wǎng)絡(luò)中均勻分布。表2給出了基準實驗配置參數(shù)和用于算法敏感性分析和它的擴展性分析的參數(shù)。

      Table 2 Configuration parameters in these experiments

      4.1 性能

      實驗測試了RPM、RPM-B、BAM和BAM-B網(wǎng)絡(luò)的整體性能。RPM:兩個虛擬網(wǎng)絡(luò)分別用于傳輸向上和向下的報文;RPM-B: RPM路由算法的改進,只有一個虛擬網(wǎng)絡(luò),在其網(wǎng)絡(luò)加入氣泡,即空VC避免死鎖;BAM:兩個虛擬網(wǎng)絡(luò)分別是自適應(yīng)網(wǎng)絡(luò);逃逸虛網(wǎng)絡(luò)和BAM-B:BAM路由算法的改進,只有一個虛擬網(wǎng)絡(luò),在其網(wǎng)絡(luò)加入氣泡,即空VC。

      4.1.1 網(wǎng)絡(luò)的整體性能

      圖5給出了網(wǎng)絡(luò)的路由算法在uniform random、transpose、bit rotation 和random permutation四種不同的合成流量模型下網(wǎng)絡(luò)的整體性能。

      Figure 5 Performance of different synthetic loads圖5 不同合成負載下的性能

      將RPM-B和BAM-B與RPM和BAM 進行比較,從圖5中看到取得了性能的提升,報文的平均延時都得到了降低,而網(wǎng)絡(luò)的飽和吞吐量除了bit rotation合成流量負載下RPM-B的性能比RPM性能稍差外,其他的飽和吞吐率得到了提升。uniform random 合成流量模型下BAM-B飽和吞吐率提升了6.3%,網(wǎng)絡(luò)平均延時下降了8.6%。而RPM-B相對于RPM來說,網(wǎng)絡(luò)的平均延時在注入率比較高時得到了下降,而網(wǎng)絡(luò)吞吐率沒有明顯提升。因為RPM分為兩個網(wǎng)絡(luò),在流量比較低的時候資源和RPM-B基本上一樣,對性能沒有多大的影響,當網(wǎng)絡(luò)流量比較高時,RPM不同維度間緩存資源的不均衡性顯現(xiàn),導(dǎo)致報文的延時增大。transpose和random permutation合成流量模型下BAM-B相對于BAM飽和吞吐率分別提升了4.1%、5.5%,平均網(wǎng)絡(luò)延時降低了15.4%、15.0%;而RPM-B相對于RPM飽和吞吐率分別提升了71.4%、75%,網(wǎng)絡(luò)平均延時降低了24.9%、12.7%。由于transpose和random permutation兩種合成流量負載模型對于RPM將網(wǎng)絡(luò)分成兩個虛擬網(wǎng)絡(luò)的算法,更容易造成網(wǎng)絡(luò)中不同維度間緩存資源的不均衡,所以網(wǎng)絡(luò)中的平均吞吐率提升和網(wǎng)絡(luò)平均延時的下降都比較明顯。BAM在不同維度緩存資源相對均衡,只有逃逸虛通道網(wǎng)絡(luò)存在緩存資源不均衡問題,所以網(wǎng)絡(luò)平均吞吐率相對增加較少,網(wǎng)絡(luò)平均延時下降沒有RPM-B的明顯。而在bit rotation模型下,BAM-B相對于BAM飽和吞吐率沒有得到提升,網(wǎng)絡(luò)平均延時降低了12.2%;RPM-B相對于RPM飽和吞吐率和網(wǎng)絡(luò)平均延時都沒有得到很好的提升。

      4.1.2 多播的性能

      圖6給出了網(wǎng)絡(luò)中只有多播報文時網(wǎng)絡(luò)的整體性能,BAM-B相對于BAM飽和吞吐率提升了16.7%,網(wǎng)絡(luò)平均延時降低17.30%,網(wǎng)絡(luò)中全都是多播報文相比網(wǎng)絡(luò)中存在單播報文的流量模型,使網(wǎng)絡(luò)中的報文更容易進入逃逸網(wǎng)絡(luò),更容易成為網(wǎng)絡(luò)的瓶頸,從而改進后使網(wǎng)絡(luò)飽和吞吐率提升最大,網(wǎng)絡(luò)平均延時降低最大。RPM-B相對于RPM平均網(wǎng)絡(luò)延時僅僅在網(wǎng)絡(luò)注入率比較高的時候才有少許的性能提高,而網(wǎng)絡(luò)飽和吞吐率提升了6.7%,由于網(wǎng)絡(luò)中都是多播包,當網(wǎng)絡(luò)注入率比較低時RPM和RPM-B都能夠有效地使用網(wǎng)絡(luò)的資源,性能基本相當,而當網(wǎng)絡(luò)注入率比較高時由于RPM把網(wǎng)絡(luò)分成向上和向下的網(wǎng)絡(luò),造成網(wǎng)絡(luò)不同維度的通道使用率不同,導(dǎo)致相對于RPM-B更容易發(fā)生飽和。

      Figure 6 Performance under 100% the proportion of multicast packets圖6 100%多播報文比例下的性能

      4.2 敏感性分析

      為了分析本文方法對網(wǎng)絡(luò)整體性能影響和可擴展性方面的影響,進一步開展敏感性分析實驗。由于RPM與BAM有類似的性質(zhì),不再討論RPM與它的改進算法對于各種資源的敏感性分析。我們主要以BAM與BAM-B為分析對象,圖7對多播改進性能在虛通道數(shù)目、多播報文比例、多播報文的平均目標節(jié)點數(shù)、網(wǎng)絡(luò)規(guī)模四個方面對網(wǎng)絡(luò)性能與可擴展性進行分析。

      4.2.1 虛通道數(shù)目

      圖7a給出了虛通道配置分別是8個VC、6個VC、4個VC時網(wǎng)絡(luò)的性能。從圖7a中可以看到,當虛通道數(shù)為8個VC、6個VC、4個VC時,網(wǎng)絡(luò)吞吐量分別提升6.3%、8.8%、14.2%,延時分別下降8.6%、8.1%、14.2%。當配置較小的虛通道時,由加氣泡的方法來避免死鎖帶來了性能的很大提升。

      主要有兩個方面因素影響了性能:(1)虛通道比較少時,緩存資源稀缺性增強,增加氣泡的方法可以使逃逸虛通道的緩存資源釋放,釋放稀缺的緩存資源。隨著虛通道數(shù)的增加,緩存資源的稀缺性逐漸降低,當8個VC時,網(wǎng)絡(luò)飽和吞吐率只有6.3%的提升,而4個VC時,網(wǎng)絡(luò)飽和吞吐率提升14.2%。

      (2)由于BAM由自適應(yīng)網(wǎng)絡(luò)和逃逸虛網(wǎng)絡(luò)組成,逃逸虛網(wǎng)絡(luò)中采取維序路由的算法,使多播通道重用的概率降低,增加了網(wǎng)絡(luò)延時;同時,由于逃逸虛通道只有符合維序路由的包才能夠注入,使得垂直方向和水平方向的網(wǎng)絡(luò)使用情況不均衡,這種不均衡性隨著網(wǎng)絡(luò)中虛通道的減小更加明顯,所以虛通道少時,改進算法的延遲下降更明顯。

      Figure 7 Performance under different network parameters圖7 不同網(wǎng)絡(luò)參數(shù)下的性能

      4.2.2 多播報文比例

      圖7b給出了多播比例配置不同時網(wǎng)絡(luò)的性能及可擴展性分析。從圖7b中可以看,到多播比例分別是10%、15%、20%時,網(wǎng)絡(luò)的平均延時降低分別為13.80%、14.40%、14.80%,網(wǎng)絡(luò)的吞吐率提升分別為8.6%、7.3%、7.9%。改進的多播路由算法隨著網(wǎng)絡(luò)多播包比例的提高,平均延時降低越明顯,因為隨著網(wǎng)絡(luò)中多播報文的增加,網(wǎng)絡(luò)中總的報文數(shù)量也在大量增加。在BAM中進入逃逸虛通道的報文數(shù)量也增加,從而增加網(wǎng)絡(luò)中報文的網(wǎng)絡(luò)延時,降低了網(wǎng)絡(luò)的吞吐率。多播比例增加時,加入氣泡避免死鎖的方法能夠提供更多的網(wǎng)絡(luò)資源,延時下降更為明顯,使得延時下降比例從13.80% 提升到14.80%。

      4.2.3 多播報文的平均目標節(jié)點數(shù)

      圖7c給出了多播目的節(jié)點數(shù)量配置不同時網(wǎng)絡(luò)的性能及可擴展性分析。從圖7c中可以看到,多播目的節(jié)點數(shù)量分別為6、9、12、15時,網(wǎng)絡(luò)的平均延時分別降低13.80%、14.70%、15.30%、16.60%,網(wǎng)絡(luò)的吞吐率分別提升8.6%、7.3%。10.50%、8.1%??梢?,多播平均節(jié)點數(shù)目對網(wǎng)絡(luò)延時與吞吐率的影響,與多播報文比例對網(wǎng)絡(luò)性能的影響類似。

      4.2.4 網(wǎng)絡(luò)規(guī)模

      圖7d給出了4×4 Mesh、8×8 Mesh網(wǎng)絡(luò)性能,本文方法的網(wǎng)絡(luò)平均延時分別下降13.80%、18.1%,網(wǎng)絡(luò)飽和吞吐率提升分別為8.6%、9.8%。由于8×8 Mesh網(wǎng)絡(luò)中節(jié)點數(shù)目比4×4 Mesh網(wǎng)絡(luò)中的節(jié)點數(shù)目多,報文需要走過更多的路徑才能到達目的節(jié)點。所以,從圖7d中可以看到,對于網(wǎng)絡(luò)的延時,8×8網(wǎng)絡(luò)比4×4網(wǎng)絡(luò)延時明顯增大,同時改進后的網(wǎng)絡(luò)平均延時降低比率也從13.8%增加到18.1%,網(wǎng)絡(luò)的飽和吞吐率提升比例從8.6%提升到9.8%。由于網(wǎng)絡(luò)規(guī)模的增大對于BAM來說,包進入逃逸虛通道避免死鎖的機會更大,更容易使逃逸虛通道成為網(wǎng)絡(luò)性能提升的瓶頸,而BAM-B能夠更好地利用網(wǎng)絡(luò)的資源,去掉了逃逸虛通道,解除了網(wǎng)絡(luò)性能提升的瓶頸,使網(wǎng)絡(luò)平均延時明顯降低,吞吐率明顯增加。

      5 結(jié)束語

      在當前的眾核系統(tǒng)中,支持多播的片上網(wǎng)絡(luò)變得非常重要。它不僅可以提高網(wǎng)絡(luò)的飽和吞吐率,也可以降低網(wǎng)絡(luò)的平均延時,提高網(wǎng)絡(luò)帶寬的利用率。不同多播路由算法對網(wǎng)絡(luò)資源的利用和網(wǎng)絡(luò)中報文的分布至關(guān)重要,從而對網(wǎng)絡(luò)的飽和吞吐率和平均網(wǎng)絡(luò)延時有極大的影響。

      本文提出的通過網(wǎng)絡(luò)中加入氣泡,即空閑虛通道的方式來避免網(wǎng)絡(luò)中的死鎖,充分釋放了網(wǎng)絡(luò)中的緩沖資源,提高了網(wǎng)絡(luò)性能。我們提出的新多播路由算法,相對于最先進的多播路由算法,減少了網(wǎng)絡(luò)的平均延時和提升了網(wǎng)絡(luò)的飽和吞吐率。網(wǎng)絡(luò)平均延時相對于最先進的多播路由算法降低了18.1%,飽和吞吐率相對于最先進的多播路由算法提升了16.7%。相對于RPM路由算法改進后的飽和吞吐率最大提升75%,平均延時最大下降24.9%。

      [1] Chaiken D,Field C,Kurihara K,et al.Directory-based cache coherence in large scale multiprocessors[J]. Computer,1990, 23 (6):49-58.

      [2] Martin M M K, Hill M D, Wood D A. Token coherence:Decoupling performance and correctness[C]∥Proc of the 30th International Symposium on Computer Architecture, 2003:182-193.

      [3] Jerger N E, Peh L-S, Lipasti M, et al. Virtual circuit tree multicasting:A case for on-chip hardware multicast support[C]∥Proc of ISCA, 2008:229-240.

      [4] Malumbres M P, Duato J, Torrellas J. An efficient implementation of tree-based multicast routing for distributed shared-memory multiprocessors[C]∥Proc of IPDPS,1996:186-189.

      [5] Rodrigo S, Flich J, Duato J, et al. Efficient unicast and multicast support for CMPs[C]∥Proc of MICRO’08, 2008:364-375.

      [6] Wang L, Jin Yu-hu, Kim H, et al. Recursive partitioning multicast:A bandwidth-efficient routing for networks-on-chip[C]∥Proc of NOCS’09, 2009:64-73.

      [7] Ma S, Jerger N E, Wang Z Y. Supporting efficient collective communication in NoCs[C]∥Proc of HPCA’12, 2012:165-176.

      [8] Duato J. A new theory of deadlock-free adaptive routing in wormhole networks [J].IEEE Transactions on Parallel and Distributed Systems, 1993,4(12):1320-1331.

      [9] Xiao Can-wen, Zhang Min-xuan, Dou Yong, et al. Dimensional bubble flow control and fully adaptive routing in the 2-D mesh network on chip[C]∥Proc of EUC’08,2008:353-358.

      [10] Jerger N E, Peh L. On-chip networks [M]. 1st ed. California:Morgan & Claypool Publishers, 2009.

      [11] Dally W, Towles B. Principles and practices of interconnection networks [M]. San Francisco:Morgan Kaufmann Publishers Inc, 2003.

      猜你喜歡
      多播延時報文
      胖樹拓撲中高效實用的定制多播路由算法
      基于J1939 協(xié)議多包報文的時序研究及應(yīng)用
      汽車電器(2022年9期)2022-11-07 02:16:24
      用于超大Infiniband網(wǎng)絡(luò)的負載均衡多播路由
      InfiniBand中面向有限多播表條目數(shù)的多播路由算法
      基于級聯(lián)步進延時的順序等效采樣方法及實現(xiàn)
      CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
      淺析反駁類報文要點
      中國外匯(2019年11期)2019-08-27 02:06:30
      ATS與列車通信報文分析
      Two-dimensional Eulerian-Lagrangian Modeling of Shocks on an Electronic Package Embedded in a Projectile with Ultra-high Acceleration
      船舶力學(2015年6期)2015-12-12 08:52:20
      桑塔納車發(fā)動機延時熄火
      乌鲁木齐市| 武邑县| 连平县| 邹平县| 阿瓦提县| 宣汉县| 南安市| 新昌县| 隆尧县| 琼海市| 沈阳市| 玛曲县| 屯门区| 湟源县| 清徐县| 朝阳区| 盐源县| 响水县| 垫江县| 芒康县| 廊坊市| 古丈县| 石渠县| 武胜县| 莱州市| 铜梁县| 小金县| 临朐县| 宣恩县| 铁岭市| 韶关市| 广水市| 宁化县| 万州区| 竹溪县| 资中县| 苍山县| 太白县| 太康县| 青浦区| 临朐县|