李騰飛
(中通服咨詢設(shè)計研究院有限公司,江蘇 南京 210019)
在IP化的背景下,移動通信核心網(wǎng)需要充分挖掘利用有限的IP資源,并借助IP優(yōu)化維持IPv4的可持續(xù)利用。核心網(wǎng)在功能域上分為兩部分,分別是電路交換(Circuit Switch,CS)域和分組交換(Packet Switch,PS)域。CS域主要負(fù)責(zé)語音業(yè)務(wù),通信之前資源預(yù)留,不同用戶獨占各自分配的資源,沒有統(tǒng)計復(fù)用。PS域主要負(fù)責(zé)數(shù)據(jù)業(yè)務(wù),不同的用戶可以共享同樣的資源,統(tǒng)計復(fù)用。移動通信核心網(wǎng)同時接入這兩個域,實現(xiàn)核心網(wǎng)多元業(yè)務(wù)的同時處理。由于核心網(wǎng)結(jié)構(gòu)復(fù)雜,同時連接大量的網(wǎng)絡(luò)設(shè)備,鏈路存在故障隱患,因此需要通過雙向轉(zhuǎn)發(fā)檢測(Bidirectional Forwarding Detection,BDF)協(xié)議在核心網(wǎng)中的準(zhǔn)確部署來提升核心網(wǎng)的可靠性。
BFD協(xié)議在兩個系統(tǒng)之間雙向轉(zhuǎn)發(fā)檢測,當(dāng)其中一個系統(tǒng)沒有及時接收到BFD報文時,則確定該鏈路中存在故障。根據(jù)實際需要設(shè)定報文發(fā)送周期,防止持續(xù)性雙向檢測增加網(wǎng)絡(luò)運行負(fù)擔(dān)[1]。BFD協(xié)議在網(wǎng)絡(luò)運行過程中不具有鄰居發(fā)現(xiàn)機制,當(dāng)其發(fā)現(xiàn)鄰居后,將信息傳遞給BFD模塊。當(dāng)BFD在規(guī)定的時間內(nèi)沒有接收到網(wǎng)絡(luò)鏈路一端發(fā)送的報文時,則確定該鏈路出現(xiàn)問題并將信息傳遞給上層協(xié)議,由其做出保護決策。以中間系統(tǒng)到中間系統(tǒng)(Intermediate System-to-Intermediate System,ISIS)路由協(xié)議與BFD聯(lián)動為例:一是建立對話流程,ISIS具備鄰居發(fā)現(xiàn)機制,發(fā)現(xiàn)鄰居后建立連接,同時將信息傳遞給BFD,然后BFD與ISIS形成對話連接;二是檢測故障處理流程,當(dāng)BFD檢測到故障后,會話由Up轉(zhuǎn)換成Down,將鏈路故障信息傳遞給ISIS,由ISIS進行處理決策。
BFD協(xié)議在移動通信核心網(wǎng)中的應(yīng)用模式包括兩種,分別是異步模式與查詢模式。異步模式在網(wǎng)絡(luò)中的應(yīng)用較為廣泛,當(dāng)系統(tǒng)一端超過規(guī)定時間沒有接收到報文時,會話變?yōu)镈own。查詢模式中,系統(tǒng)與BFD建立對話后自身便具有鏈路檢測能力,當(dāng)該系統(tǒng)查詢鏈路時,會向另一個系統(tǒng)發(fā)送查詢報文,兩個系統(tǒng)也可同時查詢報文。如果網(wǎng)絡(luò)中建立了數(shù)量較多的BFD會話,查詢模式會檢測各個系統(tǒng)的鏈路情況,其中檢測鏈路由其他應(yīng)用決定。此外,回聲報文可以配合異步模式或查詢模式運行,將系統(tǒng)端的報文反饋給對端。如果對端沒有及時接收報文,則會話變?yōu)镈own[2]。采用回聲檢測鏈路會影響到BFD的報文傳輸,其直接原路徑返回報文,縮短了BFD報文發(fā)送時間,檢測也更加細(xì)致,能夠發(fā)現(xiàn)隱藏深處的故障問題。
BFD控制報文主要由兩部分組成:一是可選部分,主要作用是安全認(rèn)證;二是必選部分,主要用于會話狀態(tài)的控制。BFD控制報文必選部分的具體結(jié)構(gòu)如圖1所示。
圖1 BFD控制報文必選部分具體結(jié)構(gòu)
其中Vers默認(rèn)值為1,表示協(xié)議的版本號。Diag表示會話狀態(tài)發(fā)生變化的原因,屬于診斷碼。例如,Diag為0表示會話狀態(tài)沒有變化,Diag為1表示報文檢測時間過長,Diag為2表示回聲功能失效,Diag為3表示對端會話為Down等。Sta是會話狀態(tài),Sta為 0表 示 Admin Down,Sta為 1表 示 Down,Sta為2表示Init,Sta為3表示Up。此外,P與F是報文協(xié)商,C出現(xiàn)說明控制平面故障,A是認(rèn)證功能使能,D是查詢模式,M是網(wǎng)絡(luò)為點對多模式。Detect Mult主要用于確定檢測時間,Length主要顯示報文長度[3]。My Discriminator為鑒別器,可以區(qū)分不同會話,兩個對話端各自擁有自身的My Discriminator。Your Discriminator與My Discriminator相對應(yīng),當(dāng)接收到對端的報文后,填寫至Your Discriminator,建立雙方的對話。Desired Min TX Interval是最小發(fā)送間隔,而Required Min RX Interval是最小接收間隔。Required Min Echo RX Interval支持對端發(fā)送的回聲報文,并給出最大速率。
核心網(wǎng)組網(wǎng)采用IP技術(shù),通過IP骨干網(wǎng)承載業(yè)務(wù),連接核心網(wǎng)所有的業(yè)務(wù)網(wǎng)元,構(gòu)建扁平化網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)拓展能力良好。移動通信核心網(wǎng)在實際運行過程中可靠性面臨著考驗,例如鏈路故障導(dǎo)致會話中斷,信息在設(shè)備、端口延遲時間過長影響到業(yè)務(wù)處理的速率等[4]。核心網(wǎng)需要借助BFD協(xié)議快速雙向故障檢測機制加快故障修復(fù)速度,提高移動通信核心網(wǎng)維護管理的質(zhì)量和效果。
將BFD協(xié)議應(yīng)用于移動通信核心網(wǎng),通過發(fā)送BFD報文雙向檢測核心網(wǎng)端對端鏈路通信故障,可以在第一時間發(fā)現(xiàn)故障并及時修復(fù)通信網(wǎng)絡(luò),將故障鏈路切換至備用鏈路,維持核心網(wǎng)的永久持續(xù)運行,將鏈路通信故障影響范圍控制在最小,提升核心網(wǎng)的可靠性。將BFD協(xié)議毫秒級故障檢測能力與核心網(wǎng)其他控制協(xié)議功能進行整合,當(dāng)BFD檢測到故障后,核心網(wǎng)中其他控制協(xié)議自動處理,實現(xiàn)毫米級的故障處理。此外,以BFD作為輔助機制,為核心網(wǎng)提供故障檢測服務(wù)功能。其接口簡單,不直接與其他網(wǎng)絡(luò)協(xié)議進行連接,但充分利用了其他網(wǎng)絡(luò)協(xié)議會話機制進行核心網(wǎng)鏈路的狀態(tài)檢測,獲取鏈路的運行狀況后將信息反饋給其他網(wǎng)絡(luò)協(xié)議,由其他網(wǎng)絡(luò)協(xié)議進行故障的處理與恢復(fù)工作,從而提高了核心網(wǎng)的可靠性[5]。
移動通信核心網(wǎng)主要負(fù)責(zé)數(shù)據(jù)處理,是移動通信網(wǎng)絡(luò)的最頂層,可以理解為一個由很多網(wǎng)絡(luò)設(shè)備組成的超級路由器。為了控制訪問與組網(wǎng)成本,核心網(wǎng)的網(wǎng)絡(luò)設(shè)備以局域網(wǎng)的形式連接,借助交換機及路由器接入網(wǎng)絡(luò),并在相應(yīng)設(shè)備上使用了虛擬路由器冗余協(xié)議(Virtual Router Redundancy Protocol,VRRP)。VRRP協(xié)議為備用機制,當(dāng)核心網(wǎng)中的路由器出現(xiàn)故障后,立即由虛擬路由器接替工作,以避免核心網(wǎng)業(yè)務(wù)的中斷。在實際應(yīng)用中,備份路由接替故障路由需要大約3 s,而將虛擬路由器冗余協(xié)議與BFD協(xié)議配合應(yīng)用,可將接替時間降至1 s以下[6]。核心網(wǎng)先接入多個路由器,然后與多個交換機連接。在交換機之間使用VRRP協(xié)議,同時在交換機與路由器之間采用BFD協(xié)議,BFD檢測到的故障信息傳遞至VRRP,VRRP根據(jù)檢測結(jié)果確定是否需要進行備用虛擬路由的切換,加快了核心網(wǎng)故障處理的速度。
2.3.1 BFD和內(nèi)部網(wǎng)關(guān)協(xié)議聯(lián)用
移動通信核心網(wǎng)中,路由器之間使用的是內(nèi)部網(wǎng)關(guān)協(xié)議,比較常用的有開放式最短路徑優(yōu)先(Open Shortest Path First,OSPF)與ISIS。其中,OSPF協(xié)議為分布式鏈路狀態(tài)協(xié)議,ISIS是鏈路狀態(tài)路由協(xié)議。兩者都使用“Hello”協(xié)議發(fā)現(xiàn)鄰居,采用一個傳播協(xié)議發(fā)送鏈接信息來完成鏈路的故障檢測。BFD檢測時間為毫秒級,一般小于30 ms,OSPF協(xié)議通常為2 s,ISIS協(xié)議為1 s。在核心網(wǎng)絡(luò)中,使用BFD輔助OSPF或ISIS協(xié)議可以縮短核心網(wǎng)鏈路故障檢測時間,確保核心網(wǎng)的可靠性[7]。BFD與內(nèi)部網(wǎng)關(guān)協(xié)議聯(lián)用實現(xiàn)較為容易,內(nèi)部網(wǎng)關(guān)協(xié)議使用的是“Hello”協(xié)議進行鏈路狀態(tài)檢測,在獲取檢測結(jié)果后促使兩個鄰居之間的BFD建立會話,從而進行兩個鄰居之間的鏈路檢測。一旦BFD沒有啟動,說明該條鏈路存在問題,內(nèi)部網(wǎng)關(guān)協(xié)議獲取反饋信息后做出故障處理反應(yīng)。
OSPF與ISIS協(xié)議本身存在不同,在故障處理表現(xiàn)上有一定的差異。OSPF處于IP層上,使用的是IPv4或IPv6協(xié)議。在應(yīng)用BFD協(xié)議時,只能檢測IP協(xié)議的鏈路。在IP層發(fā)生故障后,BFD協(xié)議失效,OSPF會取消連接并重新發(fā)現(xiàn)鄰居,建立新的路由連接。ISIS處于數(shù)據(jù)鏈路層,支持多種傳送協(xié)議且共享路由拓?fù)?。ISIS在核心網(wǎng)中通常為多拓?fù)浣Y(jié)構(gòu),當(dāng)ISIS與BFD協(xié)議會話建立失敗后,ISIS協(xié)議啟動保護機制。在多拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)傳送過程中,每個拓?fù)鋫鬟f不同的數(shù)據(jù)類型,即每個拓?fù)涠紩右粋€BFD會話,當(dāng)其中一個拓?fù)滏溌窓z測到故障時,ISIS接收故障信息后取消該鏈路并刪除該路由上的數(shù)據(jù)協(xié)議,其他無故障鏈路不間斷數(shù)據(jù)傳送,同時維持拓?fù)渲械腂FD會話。ISIS多拓?fù)滏溌饭收咸幚砣鐖D2所示。核心網(wǎng)中同時運行數(shù)據(jù)傳送協(xié)議1、2、3,當(dāng)R1與R2之間傳送協(xié)議3的鏈路出現(xiàn)故障后,ISIS取消數(shù)據(jù)傳送協(xié)議3,數(shù)據(jù)傳送協(xié)議1與2則正常傳送,其他拓?fù)洳皇苡绊慬8]。
圖2 ISIS多拓?fù)滏溌饭收咸幚?/p>
2.3.2 BFD與快速重路由聯(lián)用
快速重路由本質(zhì)是路由備份技術(shù),適用于核心網(wǎng)丟包、延時等業(yè)務(wù)。在傳統(tǒng)的IP網(wǎng)絡(luò)中,當(dāng)轉(zhuǎn)發(fā)鏈路層出現(xiàn)故障時,鏈路連接處于Down狀態(tài),快速重路由檢測到故障后將信息反饋至上一層路由,同時重新計算路由,這一過程需要花費大約幾秒鐘[9]。移動通信核心網(wǎng)的規(guī)模大,局域網(wǎng)絡(luò)中包含著大量的路由器,如果路由收斂時間過長造成故障處理反應(yīng)不及時,將影響到核心網(wǎng)的可靠性?;诖耍诵木W(wǎng)中的快速重路由與BFD聯(lián)用,可以有效解決快速重路由收斂時間過長的問題,使網(wǎng)絡(luò)中斷時間縮減至毫秒級,進一步提升核心網(wǎng)的可靠性[10]??焖僦芈酚稍诤诵木W(wǎng)中設(shè)有一個主用接口與一個備用接口,主用接口設(shè)置BFD協(xié)議,當(dāng)BFD檢測到主用接口鏈路出現(xiàn)故障后,快速重路由根據(jù)BFD反饋的信息自動啟用備用接口,借助該接口連接的路由接入核心網(wǎng)絡(luò),降低快速重路由在切換過程中花費的時間。在核心網(wǎng)業(yè)務(wù)容忍網(wǎng)絡(luò)中斷的時間范圍內(nèi),進一步提高核心網(wǎng)業(yè)務(wù)的安全可靠性。
核心網(wǎng)傳統(tǒng)的網(wǎng)絡(luò)控制協(xié)議在故障檢測及路由收斂過程中所需要的時間為秒級,導(dǎo)致移動通信網(wǎng)經(jīng)常出現(xiàn)中斷,降低了核心網(wǎng)的可靠性?;诖耍柚鶥FD協(xié)議毫秒級的雙向故障檢測能力,將其部署在核心網(wǎng)的節(jié)點間或網(wǎng)絡(luò)邊緣,輔助核心網(wǎng)中的其他網(wǎng)絡(luò)控制協(xié)議檢測故障,加快故障檢測及故障恢復(fù)的速度,從而提高移動通信核心網(wǎng)的可靠性。