OBS網(wǎng)絡(luò)中基于可用性感知的故障恢復(fù)機制

2012-06-25 03:31:18李季碧路振山

電視技術(shù) 2012年3期

李季碧，趙蕾，路振山

(重慶郵電大學通信與信息工程學院，重慶 400065)

目前提出的OBS網(wǎng)絡(luò)故障恢復(fù)機制主要關(guān)注于如何縮短故障的恢復(fù)時間，加快恢復(fù)速度。而對于恢復(fù)后的通信負載如何在網(wǎng)絡(luò)中進行均衡分配則少有研究。提高恢復(fù)速度一般采用預(yù)先計算路由的主動式故障恢復(fù)方案［1－3］，并且為了便于分析通常假設(shè)鏈路的容量足夠大。但是，在網(wǎng)絡(luò)產(chǎn)生故障時，這些方案只是簡單地將故障路徑上的業(yè)務(wù)轉(zhuǎn)移到備份路徑上傳送，這種轉(zhuǎn)移容易造成備份路徑的擁塞，導(dǎo)致網(wǎng)絡(luò)吞吐能力下降。

為保證備用路徑的可用性，同時避免備份路徑擁塞，網(wǎng)絡(luò)不僅需要對故障后的負載進行均衡分配，而且要加強網(wǎng)絡(luò)對鏈路可用性的感知功能。為此，筆者改進了傳統(tǒng)的故障恢復(fù)機制，在支持區(qū)分業(yè)務(wù)恢復(fù)機制的基礎(chǔ)上，引入可用性自感知機制。網(wǎng)絡(luò)通過恢復(fù)路徑擁塞狀態(tài)的反饋結(jié)果，對受損業(yè)務(wù)進行均衡分配，從而提高網(wǎng)絡(luò)對高優(yōu)先級業(yè)務(wù)的恢復(fù)能力。

1 快速故障恢復(fù)策略

如圖1所示，假設(shè)網(wǎng)絡(luò)使用JIT協(xié)議［2］，每個核心節(jié)點含有一個通向目的節(jié)點的工作路徑及恢復(fù)路徑下一跳節(jié)點信息的轉(zhuǎn)發(fā)表。采用2－shortest－path的路由算法，一條作為工作路徑，另一條作為恢復(fù)路徑。網(wǎng)絡(luò)采取集中式管理，網(wǎng)絡(luò)中所有節(jié)點根據(jù)來自中心網(wǎng)管系統(tǒng)的鏈路狀態(tài)信息更新轉(zhuǎn)發(fā)表。

圖1 快速恢復(fù)策略示意圖

當節(jié)點X－D之間鏈路出現(xiàn)故障，節(jié)點X首先采取本地恢復(fù)，將業(yè)務(wù)轉(zhuǎn)發(fā)到備用路徑L0中，同時產(chǎn)生并廣播告警信息。當節(jié)點Y收到告警信息后，屏蔽故障鏈路，更新并廣播告警消息，在L1和L0中選擇最優(yōu)路徑作為恢復(fù)路徑，轉(zhuǎn)發(fā)受影響的業(yè)務(wù)。當告警消息傳至源節(jié)點后，源節(jié)點屏蔽故障鏈路，啟動通道恢復(fù)，將受影響的業(yè)務(wù)通過恢復(fù)路徑L2轉(zhuǎn)發(fā)。

快速故障恢復(fù)機制充分利用兩種恢復(fù)策略的優(yōu)點，在不同恢復(fù)階段采取不同的恢復(fù)策略。即為加快恢復(fù)速度，故障前端節(jié)點進行本地恢復(fù)，并廣播告警信息。隨著告警信息的廣播，各節(jié)點根據(jù)資源利用情況采取合適的恢復(fù)機制，從而提高資源利用率。

由于OBS網(wǎng)絡(luò)采用單向波長信道預(yù)約方式，所以很容易引起數(shù)據(jù)突發(fā)競爭，占用波長信道資源，從而導(dǎo)致數(shù)據(jù)丟失。尤其在網(wǎng)絡(luò)出現(xiàn)故障的情況下，簡單地將故障路徑上的業(yè)務(wù)轉(zhuǎn)移到備份路徑上傳送，更容易造成備份路徑的擁塞，造成大量數(shù)據(jù)突發(fā)丟失并引起核心節(jié)點業(yè)務(wù)吞吐量的迅速下降。如果擁塞狀況不能及時解決，則會進一步加重OBS網(wǎng)絡(luò)的擁塞，導(dǎo)致鏈路不可用，惡化網(wǎng)絡(luò)性能。

2 基于可用性感知的故障恢復(fù)機制

恢復(fù)節(jié)點簡單轉(zhuǎn)發(fā)受損業(yè)務(wù)，容易出現(xiàn)備份路徑擁塞現(xiàn)象［4－5］，從而導(dǎo)致網(wǎng)絡(luò)的可用性降低。為解決上述問題，該方案在快速恢復(fù)策略中引入可用性感知機制。故障恢復(fù)節(jié)點通過恢復(fù)路徑的擁塞狀況反饋結(jié)果，對故障后的負載進行均衡分配，從而提高業(yè)務(wù)恢復(fù)率，改善網(wǎng)絡(luò)性能。

2.1 恢復(fù)方案描述

如圖2所示，當節(jié)點X－D間鏈路出現(xiàn)故障，節(jié)點X采取本地恢復(fù)，將產(chǎn)生的CMP(Control Management Packet)沿恢復(fù)路徑L0發(fā)送到目的節(jié)點D，同時產(chǎn)生并廣播告警信息。目的節(jié)點D收到CMP后，處理并產(chǎn)生確認分組CMP－ACK(Control Management Packet－Acknowledge)，CMP－ACK周期性沿路L0返回節(jié)點X，沿途中各節(jié)點將本節(jié)點的擁塞狀況填入CMP－ACK，節(jié)點X根據(jù)L0中各節(jié)點的擁塞情況調(diào)整轉(zhuǎn)發(fā)的業(yè)務(wù)量，不能成功轉(zhuǎn)發(fā)的突發(fā)數(shù)據(jù)則丟棄。當節(jié)點Y收到告警信息后，屏蔽故障鏈路，更新并廣播告警消息。選擇最優(yōu)的路徑L0作為默認恢復(fù)路徑，并在轉(zhuǎn)發(fā)受影響的業(yè)務(wù)前，分別通過恢復(fù)路徑L1和L0向目的節(jié)點D發(fā)送CMP1，CMP2。節(jié)點Y根據(jù)周期性收到的CMP－ACK1，CMP－ACK2調(diào)整轉(zhuǎn)發(fā)至兩條路徑的業(yè)務(wù)量。如果其中一條鏈路出現(xiàn)擁塞，則減小其對應(yīng)的發(fā)送窗口，增大另外一條恢復(fù)路徑的發(fā)送窗口。如果兩條路徑都擁塞，則節(jié)點主動丟棄突發(fā)數(shù)據(jù)。當擁塞解除后，增加默認恢復(fù)路徑的業(yè)務(wù)發(fā)送量。同樣，當告警消息傳至源節(jié)點后，源節(jié)點屏蔽故障鏈路，啟動通道恢復(fù)。并根據(jù)來自L0，L1，L2的 CMP－ACK調(diào)整轉(zhuǎn)發(fā)至3條路徑的業(yè)務(wù)量。

圖2 基于可用性感知的恢復(fù)機制示意圖

2.2 可用性確定與流量調(diào)整

該機制以鏈路中某個節(jié)點一個周期內(nèi)通過該節(jié)點端口的各路徑上的BDP丟失率是否大于路徑可用門限作為判斷鏈路可用性的條件。在這里，僅考慮由業(yè)務(wù)擁塞導(dǎo)致鏈路的不可用，鏈路可用門限即為節(jié)點的擁塞門限。假設(shè)核心節(jié)點的擁塞門限為D，節(jié)點的總丟失率為Pnode;通過節(jié)點的路徑有N條;Di為節(jié)點第i條路徑單位時間內(nèi)接收的突發(fā)總數(shù)量，其中丟失的突發(fā)數(shù)為DLi;擁塞解除門限為D－δ;δ為一個任意小數(shù)，則

當Pnode＞D時，表明節(jié)點發(fā)生擁塞，路徑不可用，并將CMP－ACK中節(jié)點擁塞告警指示CF置1;當Pnode≤D－δ時，表明鏈路可用或擁塞解除，恢復(fù)鏈路可用，并將CMPACK中節(jié)點擁塞指示CF清0。

恢復(fù)鏈路覆蓋的各核心節(jié)點將本地節(jié)點的擁塞狀態(tài)通過分組CMP－ACK反饋給恢復(fù)操作節(jié)點，恢復(fù)操作節(jié)點根據(jù)鏈路的可用情況采取相應(yīng)的措施調(diào)整發(fā)送流量的大小。如果可用性告警指示CF為0，則選用最優(yōu)恢復(fù)路徑偏轉(zhuǎn)受影響的全部業(yè)務(wù);如果可用性告警指示CF為1，則根據(jù)業(yè)務(wù)量調(diào)整策略減少流量。

目前，OBS網(wǎng)絡(luò)中沒有高速光隨機存儲器，對BDP沒有緩存過程，只有用光纖延遲線(FDL)作為光數(shù)據(jù)單元的緩存器。在核心節(jié)點中除了有限延時的FDL緩存器外，很難做到對大量業(yè)務(wù)的隨機存取［3］。當BDP到達核心節(jié)點時，如果沒有空閑的波長信道承載業(yè)務(wù)，則該BDP只能被丟棄。因此，傳統(tǒng)的調(diào)整節(jié)點業(yè)務(wù)發(fā)送速率的方式［4－5］不再適用于OBS網(wǎng)絡(luò)。

通過對業(yè)務(wù)劃分不同的優(yōu)先級，以不同優(yōu)先級的業(yè)務(wù)為調(diào)整對象，以相同優(yōu)先級的所有受影響的BDP為調(diào)整粒度，來調(diào)整故障恢復(fù)節(jié)點轉(zhuǎn)發(fā)業(yè)務(wù)流量的大小。流量調(diào)整機制如下:

1)未收到擁塞告警，默認為恢復(fù)路徑?jīng)]有擁塞，將所有受影響業(yè)務(wù)通過最優(yōu)恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點。

2)收到擁塞告警，CF=0，恢復(fù)路徑?jīng)]有擁塞，將所有受影響業(yè)務(wù)通過最優(yōu)恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點。

3)收到擁塞告警，CF=1，恢復(fù)路徑發(fā)生擁塞，首先，查詢當前擁塞路徑中轉(zhuǎn)發(fā)業(yè)務(wù)的優(yōu)先級別。其次，將當前擁塞路徑中轉(zhuǎn)發(fā)的低優(yōu)先級業(yè)務(wù)通過其他恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點。如果該節(jié)點沒有其他恢復(fù)路徑，或其他恢復(fù)路徑中無空閑資源，則丟棄低優(yōu)先級業(yè)務(wù)。然后，將較高優(yōu)先級業(yè)務(wù)通過最優(yōu)恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點，直至所有業(yè)務(wù)由最優(yōu)恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點。

4)收到擁塞告警，CF=0，恢復(fù)路徑擁塞擁塞解除，首先，較高優(yōu)先級業(yè)務(wù)通過最優(yōu)恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點。其次，查詢其他恢復(fù)路徑中轉(zhuǎn)發(fā)業(yè)務(wù)的優(yōu)先級別。最后，將由其他恢復(fù)路徑轉(zhuǎn)發(fā)業(yè)務(wù)中較高優(yōu)先級業(yè)務(wù)通過最優(yōu)恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點，直至所有業(yè)務(wù)由最優(yōu)恢復(fù)路徑轉(zhuǎn)發(fā)至目的節(jié)點。

2.3 恢復(fù)方案實施過程

根據(jù)恢復(fù)節(jié)點有無收到擁塞告警信息，可將恢復(fù)方案的實施過程分為2個階段:恢復(fù)啟動階段和自適應(yīng)調(diào)整階段。假設(shè)業(yè)務(wù)分為3個優(yōu)先級別:Class0，Class1，Class2。其中Class0優(yōu)先級最高，Class1次之，Class2優(yōu)先級最低。下面介紹各階段的恢復(fù)機制實施過程。

在恢復(fù)啟動階段，當鏈路發(fā)生故障時，節(jié)點首先產(chǎn)生并廣播告警信息，同時查詢恢復(fù)路徑。節(jié)點在轉(zhuǎn)發(fā)受影響業(yè)務(wù)之前，生成CMP，由恢復(fù)路徑中的控制信道傳送到目的節(jié)點，并接收來自目的節(jié)點的CMP_ACK。CMP_ACK攜帶恢復(fù)路徑的擁塞信息。如果節(jié)點未收到CMP_ACK，將受影響的全部業(yè)務(wù)轉(zhuǎn)發(fā)至恢復(fù)路徑;如果恢復(fù)信道沒有可用資源，則將丟棄業(yè)務(wù)。

在自適應(yīng)調(diào)整階段，當節(jié)點收到來自目的節(jié)點的CMP_ACK后，節(jié)點根據(jù)CMP_ACK攜帶的擁塞信息對轉(zhuǎn)發(fā)的不同優(yōu)先級別的業(yè)務(wù)量進行自適應(yīng)調(diào)整。CF=0和CF=1時的調(diào)整過程如圖3～4所示。

圖3 CF=0時恢復(fù)節(jié)點處理流程圖

3 仿真及性能分析

采用OPNET仿真軟件對改進機制進行仿真驗證。網(wǎng)絡(luò)仿真拓撲如圖5所示。業(yè)務(wù)源采用ON/OFF模型，且ON∶OFF=1∶1，ON期間IP包的產(chǎn)生間隔服從負指數(shù)分布，突發(fā)包分為3個優(yōu)先等級，從高到低依次為BE，AF，EF，且3 種類型業(yè)務(wù)的強度之比為 BE∶AF∶EF=1∶2∶2。每條鏈路有8條數(shù)據(jù)信道和1條控制信道，信道傳輸速率為2.5 Gbit/s，假定鏈路的傳輸時延為0.2 ms。

不同恢復(fù)機制下恢復(fù)時間與負載的關(guān)系如圖6所示。

帶有可用性感知的恢復(fù)機制(Con_QoS)與基于鏈路的恢復(fù)機制(Link)具有較低的恢復(fù)時間，且兩者相差不大，平均為0.506 ms。這是因為兩種機制都由故障鏈路的前端節(jié)點采取恢復(fù)操作，節(jié)省了故障告警傳輸時延。而基于子路徑的恢復(fù)機制(Subpath)及基于通道的恢復(fù)機制(Path)由于要等到故障告警信息傳到恢復(fù)操作節(jié)點及源節(jié)點之后，才實施恢復(fù)動作，因此較之帶有可用性感知的恢復(fù)機制(Con_QoS)與基于鏈路的恢復(fù)機制(Link)具有較大的傳輸延時，從而導(dǎo)致恢復(fù)時間增大。

當節(jié)點2負載為0.5時兩種機制在不同門限下的丟包率隨仿真時間的變化關(guān)系如圖7所示。其中NON_QoS為沒有可用性感知的恢復(fù)機制，CON_QoS，CON_QoS_1，CON_QoS_2為基于可用性感知的恢復(fù)機制，不可用門限分別為0.012，0.0115 ，0.011。由圖7可知，基于可用性感知的恢復(fù)機制相比不帶有可用性感知的恢復(fù)機制具有較好的丟包性能。當備用鏈路發(fā)生擁塞時，即丟包率大于不可用門限時，基于可用性感知的恢復(fù)機制能夠及時調(diào)整轉(zhuǎn)發(fā)流量大小，通過主動丟棄較低優(yōu)先級業(yè)務(wù)的方式解決備用鏈路的不可用問題，因此丟包率在不可用門限左右。

圖7 節(jié)點2不同門限時丟包率與仿真時間的變化關(guān)系(Load=0.5，截圖)

節(jié)點2采集到的基于可用性感知的恢復(fù)機制在不同告警周期下的丟包率隨仿真時間的變化關(guān)系如圖8所示。其中負載Load=0.5，可用門限D(zhuǎn)=0.011。由圖8可知，恢復(fù)操作節(jié)點周期越小，丟包率的擺動幅度越小，越接近門限值。這主要因為當備用鏈路發(fā)生擁塞時，告警周期越小，基于可用性感知的恢復(fù)機制越能夠及時調(diào)整轉(zhuǎn)發(fā)流量大小，通過主動丟棄較低優(yōu)先級業(yè)務(wù)的方式解決備用鏈路的不可用問題，不僅在恢復(fù)操作節(jié)點較低優(yōu)先級業(yè)務(wù)轉(zhuǎn)發(fā)包數(shù)的變化率越低，而且備用路徑中丟包率在不可用門限左右擺動的幅度也越小。

圖8 節(jié)點2丟包率與仿真時間的變化關(guān)系(Load=0.5，D=0.011，截圖)

節(jié)點2處不同恢復(fù)機制總丟包率與網(wǎng)絡(luò)負載的關(guān)系如圖9所示。其中NON_QoS表示傳統(tǒng)的不帶有可用性感知的恢復(fù)機制，CON_QoS表示基于可用性感知的恢復(fù)機制，可用門限D(zhuǎn)分別取值0.02，0.015，0.011。由圖9可知，在負載低于0.51時，兩種機制的丟包率都隨業(yè)務(wù)負載的增加而增大，且兩種機制具有相同的丟包率，因為此時沒有達到恢復(fù)機制的可用門限。但當丟包率高于可用門限時，基于可用性感知的恢復(fù)機制的丟包率保持在可用門限左右，而不帶有可用性感知的恢復(fù)機制則隨負載的增大而增大，表明當Load＞0.51時，基于可用性感知的恢復(fù)機制在丟包率方面相比傳統(tǒng)沒有可用性感知的恢復(fù)機制具有較好的性能。這主要是因為帶有可用性感知的恢復(fù)機制能夠根據(jù)恢復(fù)路徑的鏈路可用指示信息周期性地調(diào)整轉(zhuǎn)發(fā)業(yè)務(wù)量，從而有效避免了因為鏈路擁塞而導(dǎo)致的鏈路不可用，提高了恢復(fù)成功率，并且可用性門限越低，丟包率越小。

圖9 節(jié)點2丟包率與網(wǎng)絡(luò)負載的關(guān)系

4 結(jié)論

本文針對快速恢復(fù)機制所存在的問題，提出了一種基于可用性感知的故障恢復(fù)機制。通過對備用鏈路的可用性感知，使得故障恢復(fù)節(jié)點能夠根據(jù)鏈路的擁塞情況進行自適應(yīng)的業(yè)務(wù)均衡分配。業(yè)務(wù)量的轉(zhuǎn)發(fā)以優(yōu)先級為調(diào)整粒度，從而在恢復(fù)過程中很好地實現(xiàn)了業(yè)務(wù)區(qū)分，增強了網(wǎng)絡(luò)對高優(yōu)先級業(yè)務(wù)的恢復(fù)能力。

仿真結(jié)果表明，基于可用性感知的恢復(fù)機制比傳統(tǒng)的恢復(fù)機制具有較好的丟包性能，并且能夠?qū)I(yè)務(wù)進行區(qū)分。對高優(yōu)先級業(yè)務(wù)丟包性能的改善更為明顯，提高了對受影響業(yè)務(wù)尤其是高優(yōu)先級業(yè)務(wù)的恢復(fù)能力，從而改善網(wǎng)絡(luò)性能。

［1］XIONG Y，VANDERHOUTE M，CANKAYA H C.Control architecture in optical burst－switched WDM networks［J］.IEEE Journal on Selected Areas in Communication，2000，18(10):1838－1851.

［2］XIN Yufeng，TENG Jing，KARMOUS E G，et al.Fault management with fast restoration for optical burst switched networks［C］//Proc.BroadNets 2004.［S.l.］:Broadband Networks，2004:34－42.

［3］HUANG Y，HERITAGE J P，MUKHERIEE B.Dynamic routing with preplanned congestion avoidance for survivable optical bust－switched(OBS)networks［C］//Proc.OFC/NFOEC 2005.［S.l.］:OFC，2005:3－7.

［4］CHEN Hehe，GAO Zehua，NING Fan，et al.A novel burst assembly algorithm based on control channel and traffic type for OBS［C］//Proc.APCC 2009.［S.l.］:APCC，2009:507－510.

［5］郭彥濤，文愛軍，劉增基，等.光突發(fā)交換網(wǎng)絡(luò)擁塞控制策略［J］.西安電子科技大學學報:自然科學版，2009，36(1):5－10.