孫兵
摘要:隨著IP網(wǎng)絡(luò)承載業(yè)務(wù)的不斷豐富,網(wǎng)絡(luò)接入業(yè)務(wù)高可靠性成為關(guān)鍵需求。為達到電信級可靠性要求,用戶接入網(wǎng)關(guān)設(shè)備高的可靠性保證成為關(guān)鍵。通過系統(tǒng)研究用戶網(wǎng)關(guān)電信級可靠性保證方案,包括端口級/單板級/設(shè)備級1+1、N+I、N+M備份方案,設(shè)計基于二層網(wǎng)絡(luò)的冗余檢測備份協(xié)議(L2SP)與用戶網(wǎng)關(guān)業(yè)務(wù)的熱備份機制,解決用戶典型接入?yún)f(xié)議(PPPOE/802.1X/DHCP)設(shè)備間用戶信息與業(yè)務(wù)狀態(tài)熱備份難題,使設(shè)備在一年的連續(xù)運行中因各種可能原因造成的停機維護時間少于5分鐘,達成網(wǎng)絡(luò)設(shè)備99.999%的高可用性目標(biāo)。相較于傳統(tǒng)設(shè)備級不帶用戶業(yè)務(wù)熱備的可靠性方案,可靠性能力提升50%以上。
關(guān)鍵詞:IP網(wǎng)絡(luò)設(shè)備可靠性;L2SP;用戶業(yè)務(wù)熱備份;業(yè)務(wù)可靠性
DOI:10.11907/rjdk.201172開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP393文獻標(biāo)識碼:A 文章編號:1672-7800(2020)006-0244-04
0 引言
隨著Internet業(yè)務(wù)和IP網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,基于Internet網(wǎng)絡(luò)承載電信級業(yè)務(wù)成為IP網(wǎng)絡(luò)發(fā)展演進的必然趨勢。IP網(wǎng)絡(luò)可靠性、服務(wù)質(zhì)量控制技術(shù)要求越來越嚴(yán)格,IP網(wǎng)絡(luò)電信級業(yè)務(wù)可靠性主要包括3個層面:設(shè)備可靠性、鏈路可靠性和網(wǎng)絡(luò)可靠性,其中鏈路可靠性和網(wǎng)絡(luò)可靠性技術(shù)日趨成熟,但IP設(shè)備級可靠性技術(shù)還不完善。目前行業(yè)標(biāo)準(zhǔn)IETF VRRP(Virtual Router Redundancy Protoc01)技術(shù)是基于OSI(Open System Intereonnect ReferenceModel)三層網(wǎng)絡(luò)協(xié)議的設(shè)備級冗余備份檢測技術(shù),并且VRRP僅是設(shè)備主備狀態(tài)檢測和倒換觸發(fā)協(xié)議,并未系統(tǒng)地定義設(shè)備間業(yè)務(wù)狀態(tài)實時備份機制。實際IP網(wǎng)絡(luò)中匯聚層用戶接人網(wǎng)關(guān)設(shè)備(如運營商網(wǎng)絡(luò)邊緣業(yè)務(wù)路由器、BRAS/企業(yè)網(wǎng)絡(luò)用戶網(wǎng)關(guān))所處位置較低,基于建網(wǎng)成本規(guī)劃考慮,用戶終端大多通過二層網(wǎng)絡(luò)接人至匯聚層用戶網(wǎng)關(guān)設(shè)備。因此本文基于OSI二層網(wǎng)絡(luò)研究新一代設(shè)備級冗余檢測備份技術(shù),以填補業(yè)界空白。
現(xiàn)有相關(guān)研究主要分為3種類型:①設(shè)備可靠性模型研究。文獻進行了設(shè)備可靠性場景假設(shè)并給出了模型定義,但未針對電信級實際應(yīng)用場景和承載的用戶業(yè)務(wù)跨設(shè)備間熱備給出方案設(shè)計和流程機制定義;②設(shè)備內(nèi)模塊級可靠性研究。重點是制定模塊級備份機制和方案,如電源模塊、微波通信模塊、傳輸模塊等,局部硬件級備份是關(guān)鍵,包括電源模塊的N+I備份、硬盤磁盤陣列M+N備份,但不涉及整個IP通信設(shè)備級及承載的業(yè)務(wù)備份;③設(shè)備可靠性應(yīng)用場景及業(yè)務(wù)備份案例研究。文獻提出的通用網(wǎng)絡(luò)設(shè)備可靠性備份場景考慮了OSI網(wǎng)絡(luò)分層的抽象備份,但未就電信級IP網(wǎng)絡(luò)設(shè)備承載的用戶業(yè)務(wù)(認證協(xié)議、地址分配協(xié)議等)、設(shè)備間業(yè)務(wù)級備份模型擴展及實際IP承載網(wǎng)場景提出可靠性方案。
1 相關(guān)技術(shù)
1.1 基于二層網(wǎng)絡(luò)的設(shè)備冗余檢測技術(shù)
本文研究基于二層網(wǎng)絡(luò)的設(shè)備冗余檢測協(xié)議(LaYer-2Standby Protocol,L2SP),實現(xiàn)用戶接入網(wǎng)關(guān)設(shè)備單板內(nèi)端口間/設(shè)備內(nèi)單板間/設(shè)備間的3級l+1、N+1、N+M冗余備份,管理控制用戶網(wǎng)關(guān)設(shè)備在二層接入網(wǎng)絡(luò)中相應(yīng)冗余狀態(tài)聯(lián)動,包括主備倒換和回切。
1.2 用戶業(yè)務(wù)熱備份技術(shù)
IP網(wǎng)絡(luò)廣泛存在的PPPOE/DHCP/802.1X終端接人協(xié)議業(yè)務(wù)相關(guān)技術(shù)包括:
(1)DHCP用戶業(yè)務(wù)熱備份。通過二層冗余檢測技術(shù)L2SP觸發(fā)用戶網(wǎng)關(guān)設(shè)備單板間和設(shè)備間的DHCP用戶熱備份,關(guān)鍵是DHCP用戶信息設(shè)備間備份和同步更新機制,實現(xiàn)DHCP在線用戶冗余熱備,對DHCP用戶備份協(xié)議一致性檢測性能要求較高。
(2)PPPOE/802.1X用戶熱備份,即通過二層冗余檢測技術(shù)L2SP觸發(fā)用戶網(wǎng)關(guān)設(shè)備單板間和設(shè)備間的PPPOE/802.1X用戶熱備份。相對于DHCP用戶熱備份,該技術(shù)主要有兩個難點:首先PPPOE/802.1X用戶屬性可從AAA(Authentication,Authorization and Accounting)服務(wù)器動態(tài)下發(fā),設(shè)備間熱備機制需考慮與AAA服務(wù)器鏈路聯(lián)動切換;其次PPPOE和802.1X會話以序列號進行標(biāo)識,會話序列號由用戶網(wǎng)關(guān)設(shè)備自行分配,設(shè)備間熱備需考慮兩臺或多臺用戶網(wǎng)關(guān)設(shè)備的PPPOE或802.1X會話序列號可能沖突的問題。因此對于PPPOE/802.IX用戶接人,設(shè)備間用戶業(yè)務(wù)熱備在解決DHCP熱備問題的基礎(chǔ)上,還需解決上述兩個難題。
1.3 關(guān)鍵挑戰(zhàn)、技術(shù)創(chuàng)新點與技術(shù)難點
基于二層網(wǎng)絡(luò)的用戶網(wǎng)關(guān)設(shè)備級冗余檢測,在1+1冗余備份基礎(chǔ)上可擴展支持N+I、M+N冗余備份,填補國內(nèi)外電信設(shè)備級可靠性空白,解決運營商或企業(yè)網(wǎng)用戶網(wǎng)關(guān)設(shè)備通過二層網(wǎng)絡(luò)接人用戶的高可靠性難題。
用戶網(wǎng)關(guān)常用業(yè)務(wù)和協(xié)議包括:用戶終端接人PPPOE或802.1x協(xié)議、用戶終端地址動態(tài)分配DHCP(v4/v6),用戶網(wǎng)關(guān)設(shè)備間熱備需實時備份802.1x/PPPOE/DHCP協(xié)議會話狀態(tài),并解決備份過程中會話ID沖突的難題。
PPPOE/802.1X和DHCP用戶接人在網(wǎng)關(guān)設(shè)備內(nèi)單板間倒換切換時間小于50ms,在網(wǎng)關(guān)設(shè)備間倒換切換時間小于200ms。
2 用戶網(wǎng)關(guān)設(shè)備高可靠性組網(wǎng)方案與技術(shù)流程
2.1 二層冗余備份檢測技術(shù)L2SP
用戶接入網(wǎng)關(guān)最基本的可靠性要求是設(shè)備內(nèi)單板級與端口級冗余檢測和備份。例如對于Internet上網(wǎng)業(yè)務(wù),為便于基于用戶會話的靈活計費策略(時長/流量計費、預(yù)付費等),電信網(wǎng)絡(luò)一般采用PPPOE接人方式(也可能是DHCP方式直接IP接人),用戶接人后,終端和用戶網(wǎng)關(guān)之間建立PPP或IP會話,如果用戶網(wǎng)關(guān)端口或單板發(fā)生故障,用戶將不能正常上網(wǎng)。
本文研究的二層冗余備份檢測協(xié)議(Layer-2StandbyProtocol,L2SP)可用于網(wǎng)關(guān)設(shè)備端口間備份方案,如果主端口發(fā)生故障,則用戶業(yè)務(wù)被切換到備份端口,保證用戶PPPOE和DHCP業(yè)務(wù)不中斷、不丟包。主端口和備份端口可不在網(wǎng)關(guān)設(shè)備的同一塊單板上,需實現(xiàn)設(shè)備內(nèi)單板間的用戶業(yè)務(wù)狀態(tài)備份,保證用戶接人業(yè)務(wù)可靠性和組網(wǎng)靈活性。
L2SP基于二層網(wǎng)、采用二層組播協(xié)議承載用戶網(wǎng)關(guān)設(shè)備間冗余備份機制。對于VOIP和IPTV業(yè)務(wù),為了實現(xiàn)“即插即用”,一般采用DHCP接人方式。用戶接入網(wǎng)絡(luò)后,終端和用戶網(wǎng)關(guān)之間建立IP會話(session)。如果網(wǎng)絡(luò)設(shè)備或鏈路由于發(fā)生故障而切換到新的網(wǎng)關(guān)設(shè)備上,此時用戶終端必須與新的網(wǎng)關(guān)設(shè)備建立會話。在這種情況下,用戶須重啟認證客戶端軟件才能恢復(fù)業(yè)務(wù),用戶體驗較差。本文技術(shù)方案可有效改進用戶業(yè)務(wù)體驗問題,用戶網(wǎng)關(guān)設(shè)備上采用L2SP+BFD聯(lián)動,對用戶業(yè)務(wù)進行實時熱備份,一旦發(fā)生設(shè)備或鏈路故障,主備網(wǎng)關(guān)設(shè)備間會進行平滑切換,做到用戶零感知,并且借助于BFD檢測方式,保證故障檢測時間小于50ms,實現(xiàn)設(shè)備平滑切換。用戶網(wǎng)關(guān)設(shè)備L2SP+BFD方案要點如圖1所示。
2.2 用戶與業(yè)務(wù)熱備技術(shù)
用戶接入網(wǎng)關(guān)設(shè)備間的PPPOE/802.1X/DHCP用戶信息備份是實現(xiàn)用戶業(yè)務(wù)熱備的關(guān)鍵,考慮兩種用戶會話熱備份模式:積極(Active)和消極(Pasive)模式。
(1)積極模式。備用設(shè)備主動獲得與主用設(shè)備同步的用戶會話信息,立即更新建立自己的用戶會話信息;一旦主備切換事件發(fā)生,將根據(jù)已建立的用戶會話信息進行用戶接人業(yè)務(wù)處理。
(2)消極模式。備用設(shè)備獲得與主用設(shè)備同步的用戶會話信息并進行存儲,只有當(dāng)主備切換事件發(fā)生時,根據(jù)L2SP協(xié)議切換模型,找不到轉(zhuǎn)發(fā)路徑的用戶報文將被發(fā)送至備用設(shè)備處理,若備用設(shè)備判斷是原故障主用設(shè)備的用戶報文,則將先前緩存的主用設(shè)備用戶信息更新到自己的會話信息表中,此后原故障設(shè)備所有用戶業(yè)務(wù)報文均可被備用設(shè)備接管處理。
積極模式可應(yīng)用于1+1備份的環(huán)境中,備份設(shè)備能容納兩臺設(shè)備轉(zhuǎn)發(fā)表,主備切換時不會丟包;消極模式可用于N+l備份的環(huán)境中,一臺設(shè)備可作為多個設(shè)備備份,一旦主設(shè)備切換,新主用設(shè)備只會將發(fā)生故障設(shè)備轉(zhuǎn)發(fā)表下發(fā)至自己的數(shù)據(jù)轉(zhuǎn)發(fā)平面。
PPPOE/802.1X/DHCP用戶信息備份協(xié)議和備份機制的工作流程為:①用戶接入網(wǎng)關(guān)通過二層冗余協(xié)議L2SP協(xié)商檢測獲得主備狀態(tài);②主設(shè)備通過用戶表項備份協(xié)議將PPPOE/802.1X/DHCP用戶信息備份到備用設(shè)備;③二層冗余檢測協(xié)議L2SP基于BFD進行減速檢測,以達到50+ms級故障檢測能力;④發(fā)現(xiàn)用戶網(wǎng)關(guān)設(shè)備或接人鏈路故障、啟動主備切換;⑤故障消除后進行按需回切用戶業(yè)務(wù),同時備份用戶信息,故障恢復(fù)后用戶業(yè)務(wù)是否回切的策略可被預(yù)先配置。
在網(wǎng)關(guān)設(shè)備用戶熱備協(xié)議工作過程中,由于軟件異常、鏈路通信異常等問題,主設(shè)備上的用戶信息不可避免地會出現(xiàn)不一致,因此用戶信息設(shè)備間實時同步是用戶信息備份協(xié)議的重要組成部分,可靈活配置實時同步時間間隔。
對于PPPOE/802.1X用戶,如果會話ID由各網(wǎng)關(guān)設(shè)備自主分配,則可能使不同網(wǎng)關(guān)間會話ID沖突,導(dǎo)致用戶信息異常、影響用戶正常業(yè)務(wù)。這是用戶業(yè)務(wù)跨網(wǎng)關(guān)設(shè)備熱備份面臨的重大挑戰(zhàn),需采用集中資源管理服務(wù)器對用戶與會話ID進行統(tǒng)一分配管理,各用戶網(wǎng)關(guān)不再自主分配會話ID,防止因用戶網(wǎng)關(guān)會話ID資源沖突造成PPPOE用戶熱備異常。
2.3 N+I與M+N備份擴展技術(shù)
在l+l冗余備份協(xié)議基礎(chǔ)上,研究擴展成N+1、M+N備份方法。
首先介紹N+1的方案。1臺備用設(shè)備與N臺主用設(shè)備分別建立L2SP二層冗余檢測關(guān)系,任何一臺主用設(shè)備出現(xiàn)故障,均會將其它業(yè)務(wù)切換到備用設(shè)備上,如圖3所示。
備用網(wǎng)關(guān)設(shè)備與各個主用網(wǎng)關(guān)分別進行L2SP+BFD協(xié)議檢測,任何一個主用網(wǎng)關(guān)設(shè)備或鏈路故障均會觸發(fā)倒換動作,使其用戶業(yè)務(wù)切換到備用網(wǎng)關(guān)上。
M+N冗余備份技術(shù)在N+I備份基礎(chǔ)上進行擴展,多個備份設(shè)備組成一個備份組(Standby Group),對多個主用設(shè)備進行備份。備份組通過算法給每個備份設(shè)備標(biāo)識出優(yōu)先級,高優(yōu)先級備用設(shè)備與各個主用設(shè)備分別進行L2SP檢測,當(dāng)主用設(shè)備出現(xiàn)故障時,備用設(shè)備立即接管其業(yè)務(wù),此時該備份設(shè)備主動降低自己的優(yōu)先級(如降低到最低值0),備份組中其它高優(yōu)先級的備份設(shè)備會與剩下的各主用設(shè)備進行L2SP冗余檢測。
如果備份組中最后一個備用設(shè)備接管了故障主用設(shè)備業(yè)務(wù),則不降低自己的優(yōu)先級,繼續(xù)與其它主用設(shè)備進行L2SP冗余檢測和備份,該情況下對于備份組中最后一個備用設(shè)備,衍化為N+2備份模式。設(shè)備間M+N備份方案如圖4所示。
備份組中的最高優(yōu)先級網(wǎng)關(guān)設(shè)備分別與各個主用網(wǎng)關(guān)進行L2SP+BFD協(xié)議檢測,任何一個主用網(wǎng)關(guān)設(shè)備或鏈路出現(xiàn)故障,均將其業(yè)務(wù)切換到備份組最高優(yōu)先級網(wǎng)關(guān)設(shè)備上。備份組中各個網(wǎng)關(guān)間通過選舉算法確定最高優(yōu)先級設(shè)備,由其對各主用網(wǎng)關(guān)進行L2SP+BFD檢測和用戶業(yè)務(wù)備份。
3 結(jié)語
隨著IP技術(shù)的飛速發(fā)展,各種增值業(yè)務(wù)在互聯(lián)網(wǎng)上廣泛應(yīng)用,對IP網(wǎng)絡(luò)電信級可靠性提出了很高要求。由于大量用戶通過二層網(wǎng)絡(luò)接人到用戶網(wǎng)關(guān)設(shè)備,雖然業(yè)界利用以太OAM等技術(shù)解決鏈路可靠性問題,但接入網(wǎng)關(guān)設(shè)備級可靠性無法得到根本保證。本文L2SP協(xié)議填補了業(yè)界用戶接入網(wǎng)關(guān)設(shè)備的設(shè)備級二層冗余檢測協(xié)議空白,可將接人二層用戶網(wǎng)絡(luò)的用戶網(wǎng)關(guān)設(shè)備可用性提高至99.999%,相當(dāng)于設(shè)備連續(xù)運行一年,因各種可能原因造成的停機維護時間少于5分鐘。按照一個中大型企業(yè)7000臺用戶接入網(wǎng)關(guān)計算,每年累計可節(jié)約因設(shè)備軟硬件故障導(dǎo)致用戶業(yè)務(wù)中斷時間233小時。由此可見,二層設(shè)備冗余檢測和用戶業(yè)務(wù)熱備技術(shù)可提高IP網(wǎng)絡(luò)接人可靠性,提升運營商和企業(yè)用戶滿意度,蘊藏著巨大商機。