劉金鎖,孫信軍,李 洋,馮 寶,高凱強(qiáng)
(1.南瑞集團(tuán)公司(國(guó)網(wǎng)電力科學(xué)研究院),江蘇 南京 211000;2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
電力通信中基于動(dòng)態(tài)閾值的流量控制機(jī)制研究
劉金鎖1,孫信軍1,李 洋1,馮 寶1,高凱強(qiáng)2
(1.南瑞集團(tuán)公司(國(guó)網(wǎng)電力科學(xué)研究院),江蘇 南京 211000;2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
InfiniBand架構(gòu)(IBA)是一種基于交換機(jī)的互連技術(shù),擁有高帶寬和低時(shí)延的特點(diǎn)。InfiniBand網(wǎng)絡(luò)很適合構(gòu)建高速網(wǎng)絡(luò)集群系統(tǒng)并且已經(jīng)被批準(zhǔn)為I/O技術(shù)和進(jìn)程間通信標(biāo)準(zhǔn)。提出了一種適用于電力廣域高性能計(jì)算網(wǎng)絡(luò)的基于動(dòng)態(tài)工作閾值的有效流量控制方法。與以往的靜態(tài)閾值方法不同,該方法根據(jù)一個(gè)周期內(nèi)對(duì)鏈路中業(yè)務(wù)流量的監(jiān)聽(tīng),記錄下突發(fā)大流量,最后根據(jù)所記錄的流量特點(diǎn)來(lái)動(dòng)態(tài)設(shè)定工作閾值。交換機(jī)對(duì)業(yè)務(wù)流量評(píng)估是一個(gè)動(dòng)態(tài)連續(xù)的過(guò)程,對(duì)每一個(gè)業(yè)務(wù)流的最大突發(fā)值進(jìn)行評(píng)估,動(dòng)態(tài)調(diào)整仲裁表來(lái)設(shè)置恰當(dāng)?shù)拈撝甸T(mén)限,使每個(gè)信道都能適應(yīng)當(dāng)前鏈路的流量特點(diǎn),提高網(wǎng)絡(luò)突發(fā)大流量的處理能力、帶寬利用率和傳輸效率,降低網(wǎng)絡(luò)能耗、丟包率和時(shí)延。采用最大熵原理(Maximum Entropy,ME)來(lái)分析所提出的流量控制機(jī)制,并用廣義指數(shù)分布GE-Type模擬業(yè)務(wù)流到達(dá)率和業(yè)務(wù)服務(wù)時(shí)間。仿真結(jié)果表明,所提出的機(jī)制可以實(shí)現(xiàn)電力通信網(wǎng)絡(luò)中廣域高性能計(jì)算網(wǎng)絡(luò)流量的有效控制。
InfiniBand技術(shù);動(dòng)態(tài)閾值;流量控制;GE-Type;最大熵原理
隨著智能電網(wǎng)的飛速發(fā)展,電力通信網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,承載業(yè)務(wù)日趨多元化。電力通信部門(mén)需要通過(guò)可靠、有效的技術(shù)手段對(duì)網(wǎng)絡(luò)業(yè)務(wù)流量進(jìn)行監(jiān)控,以降低能耗、丟包率和網(wǎng)絡(luò)時(shí)延。然而,由于交換機(jī)網(wǎng)絡(luò)技術(shù)的固有缺陷,如網(wǎng)絡(luò)風(fēng)暴、網(wǎng)絡(luò)擁塞、流量管理和控制等,在一定程度上影響了站內(nèi)系統(tǒng)的安全與性能。為避免上述風(fēng)險(xiǎn),必須做好變電站通信網(wǎng)絡(luò)的規(guī)劃設(shè)計(jì),應(yīng)使用具備風(fēng)暴抑制和流量管理功能的專用交換機(jī),并采用合適的網(wǎng)絡(luò)架構(gòu)和流量管控措施[1]。但現(xiàn)有方式無(wú)法完全實(shí)現(xiàn)流量的有效控制問(wèn)題。
高性能計(jì)算網(wǎng)絡(luò)集群已被廣泛地應(yīng)用于不同的領(lǐng)域去解決富有挑戰(zhàn)性的問(wèn)題[2]。從高端的浮點(diǎn)密集型科學(xué)和工程計(jì)算問(wèn)題到商業(yè)數(shù)據(jù)密集任務(wù),很多現(xiàn)行的產(chǎn)品已經(jīng)實(shí)現(xiàn)了吞吐量最大化和延時(shí)最小化,但在帶寬保證、有限的數(shù)據(jù)包投遞時(shí)間和有限的到達(dá)時(shí)延等方面仍存在不少問(wèn)題。Infiniband網(wǎng)絡(luò)由于其可擴(kuò)展性成為高性能計(jì)算網(wǎng)絡(luò)的首選。Infiniband架構(gòu)是一種新的工業(yè)架構(gòu)標(biāo)準(zhǔn),可以使Infiniband網(wǎng)絡(luò)支持時(shí)延約束和多種QoS服務(wù)要求的應(yīng)用。Infiniband提供了一系列機(jī)制,例如:服務(wù)級(jí)別(Service Levels,SL)、虛擬鏈路(Virtual Lanes,VL)、虛擬鏈路仲裁表(VLArbitration Table),通過(guò)一定配置可以提供滿足不同業(yè)務(wù)需求的QoS服務(wù)[3]。這些機(jī)制包括不同的業(yè)務(wù)類型和不同輸出端口的仲裁。仲裁表存儲(chǔ)在Infiniband網(wǎng)絡(luò)的交換機(jī)中,可以根據(jù)嚴(yán)格的QoS要求配置數(shù)據(jù)包的優(yōu)先權(quán)[4]?,F(xiàn)有技術(shù)中有一種固定工作閾值的流量控制機(jī)制[5-6],該方法雖在一定程度上提高了鏈路吞吐量,降低了時(shí)延,但是由于部分電力業(yè)務(wù)具有突發(fā)大流量的特點(diǎn),僅設(shè)置一個(gè)靜態(tài)閾值難以滿足各類電力業(yè)務(wù)的通信需求。靜態(tài)閾值過(guò)低,交換機(jī)會(huì)頻繁切換,導(dǎo)致網(wǎng)絡(luò)延時(shí)和能耗增加。相反地,靜態(tài)閾值設(shè)置過(guò)高,交換隊(duì)列的長(zhǎng)度就會(huì)增加,導(dǎo)致網(wǎng)絡(luò)延時(shí)增加、帶寬利用率下降,當(dāng)突發(fā)流量到達(dá)時(shí)會(huì)導(dǎo)致數(shù)據(jù)包的丟失,可見(jiàn)靜態(tài)閾值不是有效的配置方法。
文中提出了一種有效地應(yīng)用于Infiniband網(wǎng)絡(luò)中的動(dòng)態(tài)流量控制機(jī)制。該機(jī)制的基本思想是在虛擬鏈路仲裁表中給虛擬鏈路引入一個(gè)動(dòng)態(tài)的工作閾值,這些閾值通過(guò)嚴(yán)格的QoS限制有效控制了不同業(yè)務(wù)的帶寬劃分,從而提高了系統(tǒng)的總體性能。采用廣義指數(shù)分布對(duì)外部的通信量進(jìn)行建模,捕獲網(wǎng)絡(luò)突發(fā)數(shù)據(jù)流量,利用信息論中的最大熵原理可以得出近似的分析結(jié)果,實(shí)現(xiàn)對(duì)通信網(wǎng)絡(luò)的簡(jiǎn)單、可靠、高效的分析和預(yù)測(cè)。
2.1 Infiniband網(wǎng)絡(luò)
Infiniband技術(shù)規(guī)范描述了一個(gè)系統(tǒng)區(qū)域網(wǎng)絡(luò)連接了多重獨(dú)立的處理器平臺(tái)、I/O平臺(tái)和I/O設(shè)備等。SAN是一個(gè)通信管理設(shè)備,支持單個(gè)和多個(gè)計(jì)算機(jī)系統(tǒng)的I/O流和處理器間通信。IBA的設(shè)計(jì)是基于交換機(jī)的高速點(diǎn)到點(diǎn)鏈路互連技術(shù)。一個(gè)IBA網(wǎng)絡(luò)可以劃分為由路由器互連的多個(gè)子網(wǎng),每個(gè)子網(wǎng)由一個(gè)或多個(gè)交換機(jī)、處理節(jié)點(diǎn)和I/O設(shè)備組成。在IBA中,消息是通信的基本單元,數(shù)據(jù)被分成數(shù)據(jù)包在鏈路上傳輸。每一個(gè)數(shù)據(jù)包包括數(shù)據(jù)頭信息和實(shí)體數(shù)據(jù),每一個(gè)包的長(zhǎng)度為256字節(jié)到4 096字節(jié)[7]。IBA有三種機(jī)制支持QoS:服務(wù)級(jí)別,虛擬鏈路和虛擬鏈路仲裁表[8]。IBA中規(guī)定了最大16個(gè)服務(wù)級(jí)別,它取決于管理員如何在不同服務(wù)級(jí)別之間分派不同的流量類型,并提供了一個(gè)字段用來(lái)標(biāo)記服務(wù)的級(jí)別。根據(jù)不同的需求處理不同的業(yè)務(wù),可以在一條物理鏈路上創(chuàng)建多條虛擬鏈路連接機(jī)制。
在Infiniband網(wǎng)絡(luò)中,每一個(gè)節(jié)點(diǎn)最小有兩個(gè)最大16個(gè)服務(wù)級(jí)別(VL0,VL1,…,VL15)。VL15是為子網(wǎng)管理預(yù)留的,所有端口都支持并有最高的數(shù)據(jù)業(yè)務(wù)級(jí)別。因?yàn)榻粨Q機(jī)支持不同的服務(wù)級(jí)別,子網(wǎng)管理器通過(guò)端口的使用數(shù)量來(lái)配置服務(wù)級(jí)別的數(shù)量。當(dāng)有超過(guò)兩個(gè)服務(wù)級(jí)別執(zhí)行時(shí),仲裁機(jī)制將允許一個(gè)輸出節(jié)點(diǎn)選擇虛擬鏈路進(jìn)行傳輸。由于VL15用來(lái)進(jìn)行流量控制,并且擁有最高的優(yōu)先權(quán),因此僅對(duì)數(shù)據(jù)的服務(wù)級(jí)別進(jìn)行仲裁。虛擬鏈路仲裁表定義了數(shù)據(jù)通道的優(yōu)先級(jí)別,如圖1所示。
圖1 仲裁表結(jié)構(gòu)
2.2 流量分類
Pelissier基于目前應(yīng)用的QoS提出了五種業(yè)務(wù)級(jí)別[9]:專用帶寬時(shí)間敏感業(yè)務(wù)、專用帶寬業(yè)務(wù)、盡力優(yōu)先服務(wù)(Preferential Best Effort,PBE)、盡力服務(wù)和富有挑戰(zhàn)性的流量業(yè)務(wù)。每一類使用一個(gè)不同的SL,因此可以達(dá)到所要求的QoS。下一步是找到合適的方法填寫(xiě)仲裁表。Pelissier提出對(duì)于DBTS業(yè)務(wù)使用高服務(wù)級(jí)別,其他業(yè)務(wù)使用低服務(wù)級(jí)別。Alfaro等提出了一種填補(bǔ)仲裁表權(quán)重的策略[5]。上述兩種方法在廣域高性能網(wǎng)絡(luò)中處理突發(fā)流量時(shí)都存在時(shí)延過(guò)大和丟包率的問(wèn)題,因此文中提出一種新的有效的流量控制機(jī)制。利用動(dòng)態(tài)閾值以有效填寫(xiě)虛擬仲裁表,提高了網(wǎng)絡(luò)突發(fā)大流量的處理能力、帶寬利用率和傳輸效率,降低了網(wǎng)絡(luò)的能耗、丟包率和時(shí)延。
2.3 過(guò)程分析
如圖2所示,本地通信代理根據(jù)每個(gè)交換機(jī)的本地信息來(lái)決定接受或拒絕連接請(qǐng)求。這些信息包括輸出鏈路的狀態(tài)以及它們已預(yù)留的帶寬。當(dāng)一個(gè)連接被接受,代理根據(jù)連接請(qǐng)求更改虛擬鏈路仲裁表,而且為每一個(gè)虛擬鏈路設(shè)定初始工作閾值,閾值函數(shù)是一個(gè)增加排隊(duì)系統(tǒng)利用率的擁塞控制函數(shù),并且是否到達(dá)工作閾值取決于每一個(gè)虛擬鏈路的流量大小。交換機(jī)動(dòng)態(tài)地記錄下鏈路中的突發(fā)大數(shù)據(jù)流量。每一個(gè)虛擬鏈路保持各自的動(dòng)態(tài)閾值。動(dòng)態(tài)閾值(Dynamic Threshold,DT)的計(jì)算公式為:
DT=Lcap-LBtotal
(1)
其中,Lcap為虛擬鏈路的容量;中間變量LBtotal計(jì)算如下:
(2)
其中,LBmaxi表示第i條虛擬鏈路觀察到的最大流量。
圖2 系統(tǒng)流程圖
重點(diǎn)關(guān)注擁有高優(yōu)先權(quán)的VLi并且按照服務(wù)時(shí)間分布,到達(dá)工作閾值,先到先服務(wù)(FCFS)的原則,把它模擬成一個(gè)業(yè)務(wù)到達(dá)間隔服從廣義指數(shù)分布GE/GE/1/N/ET/FCFS的排隊(duì)系統(tǒng)[10]。業(yè)務(wù)級(jí)別VLs可分為兩個(gè)部分:常態(tài)VLs和共享VLs,如圖3所示。
當(dāng)某一特定VLi的業(yè)務(wù)量到達(dá)閾值時(shí),系統(tǒng)就會(huì)分派空閑共享VLs傳輸數(shù)據(jù)包,共享過(guò)程如圖4所示。
假設(shè)虛擬鏈路A的服務(wù)速率為u,容量為N,當(dāng)高優(yōu)先權(quán)的VL業(yè)務(wù)量達(dá)到其閾值(L1)時(shí),VLA將會(huì)占用一個(gè)空閑的共享虛擬鏈路VLB。服務(wù)率將從u1變?yōu)閡2,而容量從N增加到2N。另一方面,當(dāng)業(yè)務(wù)量小于閾值時(shí),VLA不能使用共享虛擬鏈路。同時(shí),若VLB的業(yè)務(wù)量達(dá)到了其閾值L2,則來(lái)自高優(yōu)先級(jí)的虛擬鏈路將會(huì)占用第二條共享的虛擬鏈路[11]。
圖3 激活共享鏈路過(guò)程
圖4 虛擬鏈路共享過(guò)程
3.1 GE-Type分布
GE-Type分布常被用來(lái)模擬到達(dá)時(shí)間間隔和服務(wù)時(shí)間[12-13],形式如下:
F(t)=P(W≤t)=1-τe-σt,t≥0
(3)
τ=2/(C2+1)
(4)
σ=τv
(5)
其中,W為隨機(jī)變量;1/v和C2分別為均值和方差。
均值和方差是隨機(jī)變量的兩個(gè)重要參數(shù),GE-Type分布具有很強(qiáng)的通用性和無(wú)記憶性,使得很多基于GE排隊(duì)模型系統(tǒng)的分析很方便。突發(fā)性到達(dá)過(guò)程由方差和到達(dá)時(shí)間間隔來(lái)表征,這可以模擬突發(fā)性流量。文中用GE-Type分布來(lái)模擬無(wú)線帶寬網(wǎng)絡(luò)中的突發(fā)業(yè)務(wù),推導(dǎo)出平均隊(duì)列長(zhǎng)度和阻塞概率。提出的流量控制機(jī)制基于如下假設(shè):
(1)當(dāng)某一虛擬鏈路的流量達(dá)到閾值時(shí),系統(tǒng)就會(huì)嘗試使用空閑的共享信道傳輸數(shù)據(jù)包。如果所有的共享信道被占用,那么這些業(yè)務(wù)就會(huì)在虛擬鏈路仲裁表中等待。
(2)一旦虛擬鏈路j接受來(lái)自VLi的數(shù)據(jù)包,那么在VLi數(shù)據(jù)傳輸完成前,不能接受其他VL的數(shù)據(jù)。
(3)當(dāng)VLi完成所有的數(shù)據(jù)包傳輸時(shí),虛擬鏈路i會(huì)被立即釋放。
為了清晰起見(jiàn),每個(gè)符號(hào)的意義如表1所示。
表1 參數(shù)表
(6)
式(6)歸一化得:
(7)
平均隊(duì)列長(zhǎng)度為:
(8)
3.2 最大熵原理
狀態(tài)概率分布P(n)(n=1,2,…,iN)可由最大熵函數(shù)表征:
(9)
系統(tǒng)模型的最大熵的狀態(tài)概率分布由下式給出:
(10)
其中:
(11)
利用歸一化限制,可以推導(dǎo)出P(0):
(12)
由式(10)和式(12)可得隊(duì)列長(zhǎng)度的概率分布為:
(13)
式(13)表示在平均隊(duì)列長(zhǎng)度的約束下門(mén)限值為T(mén)的GE/GE/1隊(duì)列的最大熵[14],所以很容易得出拉格朗日系數(shù)gi和xi(i=1,2)為:
(14)
(15)
其中
(16)
(17)
進(jìn)一步得出:
(18)
(19)
最后得出平均隊(duì)列長(zhǎng)度為:
(20)
(21)
其中
(22)
(23)
(24)
用仿真結(jié)果和ME算法值進(jìn)行誤差評(píng)估,平均隊(duì)列長(zhǎng)度誤差函數(shù)(Error Measures,EM)為:
(25)
基于ME對(duì)文中提出的動(dòng)態(tài)閾值模型和先前的靜態(tài)閾值進(jìn)行研究對(duì)比,如圖5所示。
圖5 對(duì)平均隊(duì)列長(zhǎng)度的影響
圖中,仿真結(jié)果和ME預(yù)測(cè)的結(jié)果在誤差允許的范圍內(nèi)是一致的。通過(guò)計(jì)算發(fā)現(xiàn),誤差值在0.05~0.1之間,證明了結(jié)果分析的正確性。所以閾值函數(shù)可以由ME的解來(lái)計(jì)算,并且圖中動(dòng)態(tài)閾值的平均隊(duì)列長(zhǎng)度明顯好于靜態(tài)閾值,減少了隊(duì)列的平均長(zhǎng)度,降低了通信時(shí)延和丟包率,并且提高了帶寬利用率和傳輸效率。
圖6為動(dòng)態(tài)閾值函數(shù)和靜態(tài)閾值函數(shù)的阻塞概率對(duì)比曲線。
圖6 對(duì)阻塞概率的影響
從圖6可知,動(dòng)態(tài)閾值算法可以有效降低阻塞概率,提高網(wǎng)絡(luò)突發(fā)大流量的處理能力。
文中提出了一種適應(yīng)于電力通信系統(tǒng)的廣域高性能計(jì)算網(wǎng)絡(luò)中基于動(dòng)態(tài)閾值的有效流量控制方法。首先本地代理根據(jù)連接請(qǐng)求更改虛擬鏈路仲裁表,并且為每一個(gè)虛擬鏈路設(shè)定初始的靜態(tài)工作閾值,其次交換機(jī)動(dòng)態(tài)地記錄下鏈路中的突發(fā)大數(shù)據(jù)流量,最后仲裁表根據(jù)記錄的突發(fā)數(shù)據(jù)流量信息,動(dòng)態(tài)調(diào)整本鏈路中的工作閾值。仿真結(jié)果表明,該方法提高了網(wǎng)絡(luò)突發(fā)大流量的處理能力、帶寬利用率和傳輸效率,降低了能耗、丟包率和網(wǎng)絡(luò)時(shí)延。
[1] 鄭涪文.交換機(jī)流量限制技術(shù)及其在智能變電站的技術(shù)應(yīng)用分析[J].華東科技:學(xué)術(shù)版,2016(6):254.
[2] 黃建強(qiáng),吳 利,曹騰飛,等.基于高性能計(jì)算平臺(tái)和WRF環(huán)境實(shí)驗(yàn)的教學(xué)改革[J].實(shí)驗(yàn)室研究與探索,2016,35(2):94-97.
[3] 夏曉爽,劉 軼,王允彬,等.基于InfiniBand的多鏈路mesh/torus大規(guī)模并行系統(tǒng)互連網(wǎng)絡(luò)[J].計(jì)算機(jī)研究與發(fā)展,2012,49(1):76-82.
[4] 徐迪威,余焯佳.InfiniBand高速互連網(wǎng)絡(luò)設(shè)計(jì)的研究[J].電腦與電信,2012(7):26-29.
[5] Alfaro F J,Nchez J,Duato J.A new strategy to manage the InfiniBand arbitration tables[J].Journal of Parallel & Distributed Computing,2009,69(6):508-520.
[6] Gran E G,Reinemo S A,Lysne O,et al.Exploring the scope of the InfiniBand congestion control mechanism[C]//26th IEEE international symposium on parallel and distributed processing.[s.l.]:IEEE,2012:1131-1143.
[7] Kim E J,Yum K H,Das C R,et al.Performance enhancement techniques for InfiniBand architecture[C]//International symposium on high-performance computer architecture.[s.l.]:IEEE,2003.
[8] Alfaro F J,Sánchez J L,Duato J.A strategy to manage time sensitive traffic in InfiniBand[C]//Parallel and distributed processing symposium.[s.l.]:[s.n.],2001.
[9] Pelissier J.Providing quality of service over Infiniband architecture fabrics[C]//Symposium on hot interconnects.[s.l.]:[s.n.],2000:127-132.
[10] 熊方方.M/M/l/N→M/M/c/K排隊(duì)系統(tǒng)及其在錨地中的應(yīng)用研究[D].武漢:武漢理工大學(xué),2010.
[11] 王東洋.基于虛擬設(shè)備的虛擬交換機(jī)設(shè)計(jì)[J].軟件,2012,33(1):42-45.
[12] 周宗好.通信網(wǎng)絡(luò)中的排隊(duì)模型研究[D].鎮(zhèn)江:江蘇大學(xué),2011.
[13] Yahyaoui N,Sfina N,Lazzari J L,et al.Stark shift of the absorption spectra in Ge/Ge 1-x Sn x /Ge type-I single QW cell for mid-wavelength infra-red modulators[J].Superlattices & Microstructures,2015,85:629-637.
[14] Kouvatsos D D.Entropy maximisation and queueing network models[J].Annals of Operations Research,1994,48(1):63-126.
Research on a Flow Control Mechanism Based on Dynamic Threshold in Power Communication
LIU Jin-suo1,SUN Xin-jun1,LI Yang1,F(xiàn)ENG Bao1,GAO Kai-qiang2
(1.NARI Group Corporation (State Grid Electric Power Research Institute),Nanjing 211000,China;2.College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
InfiniBand Architecture (IBA) is defined as a switch-based interconnection technology with high bandwidth and low-latency,which is suitable for constructing high-speed networks for cluster systems and has been ratified as a new industry standard for the server I/O and inter-processor communication.An efficient flow control mechanism with dynamic job threshold for InfiniBand networks is propopsed.Unlike the existing static threshold methods,it dynamically sets threshold according to the recording traffic in a cycle of traffic monitoring on the link.Switch to traffic assessment is a dynamic and continuous process.The maximum burst value of each business flow to assess,dynamic adjustment of the table to set the appropriate threshold.It can improve the processing capacity,bandwidth utilization,transmission efficiency of network burst traffic and reduce the delay,blocking probability,mean queue length.The principle of Maximum Entropy (ME) is adopted as an effective methodology to analyze the new mechanism with the generalized exponential distribution(GE-Type) for modeling the inter-arrival times and service times of the input traffic.The simulation results show that it can achieve the effective control of traffic flow in the high performance computing network in power communication.
InfiniBand;dynamic threshold;flow control;GE-Type;maximum entropy principle
2016-08-26
2016-11-29 網(wǎng)絡(luò)出版時(shí)間:2017-07-05
國(guó)家自然科學(xué)基金資助項(xiàng)目(61302100,61471203);教育部博士點(diǎn)基金資助項(xiàng)目(20133223120002);國(guó)家電網(wǎng)公司2016年科技項(xiàng)目
劉金鎖(1980-),男,碩士研究生,高級(jí)工程師,研究方向?yàn)殡娏ο到y(tǒng)通信及信息安全防護(hù)技術(shù)。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1650.042.html
TP39
A
1673-629X(2017)08-0187-05
10.3969/j.issn.1673-629X.2017.08.039