丁大為
(中國(guó)移動(dòng)通信集團(tuán)上海有限公司 上海市 200233)
運(yùn)營(yíng)商移動(dòng)承載網(wǎng)經(jīng)過(guò)多年建設(shè),呈現(xiàn)融合組網(wǎng)狀態(tài),廣泛采用MPLS VPN 進(jìn)行部署,各類承載CE 間進(jìn)行互聯(lián)或通過(guò)反射器互聯(lián),各業(yè)務(wù)VPN 間互通及隔離控制異常關(guān)鍵;面對(duì)潛在的跨網(wǎng)流量繞行、網(wǎng)絡(luò)環(huán)路等維護(hù)痛點(diǎn)如何進(jìn)行防范,并在網(wǎng)絡(luò)架構(gòu)優(yōu)化、防護(hù)措施梳理、承載質(zhì)量提升、運(yùn)維手段強(qiáng)化等方面如何通過(guò)深入研究及落實(shí)舉措,既保障各類承載業(yè)務(wù)平穩(wěn)高效運(yùn)作,又使得組網(wǎng)架構(gòu)清晰、安全、易于運(yùn)維,是當(dāng)前亟需解決的問(wèn)題。
IPRAN 是一種面向多業(yè)務(wù)綜合承載的IP 化解決方案,具有良好的擴(kuò)展性和可維護(hù)性。當(dāng)前,運(yùn)營(yíng)商3G/4G/5G數(shù)據(jù)、語(yǔ)音、自營(yíng)平臺(tái)類業(yè)務(wù)均以融合后的IPRAN 網(wǎng)絡(luò)為主要載體,移動(dòng)融合承載組網(wǎng)架構(gòu)(如圖1 所示)由以下四個(gè)層次組成
圖1: 移動(dòng)融合承載組網(wǎng)示意拓?fù)?/p>
1.1.1 IPRAN MCE 層
由 區(qū) 域 中 心MCE、EPC CE、5GC CE 分 別 接 入3G/4G/5G 各類核心網(wǎng)網(wǎng)元,CE 側(cè)通過(guò)MPLS VPN 進(jìn)行部署,并作為一級(jí)RR 的Client 端,實(shí)現(xiàn)各成員組網(wǎng)內(nèi)相同業(yè)務(wù)VPN 路由互通及數(shù)據(jù)傳遞,不同VPN 間的相互隔離。
1.1.2 IPRAN 區(qū)域中心層
區(qū)域內(nèi)一個(gè)MPLS 域,采用相同AS,區(qū)域中心ER作為一級(jí)RR,只需具備MPLS 轉(zhuǎn)發(fā)能力,不維護(hù)各業(yè)務(wù)VPN。
1.1.3 IPRAN 區(qū)域核心層
區(qū)域ER 作為二級(jí)RR,反射并傳遞核心網(wǎng)路由且具備MPLS 轉(zhuǎn)發(fā)能力,將接收自B 的基站路由通過(guò)兩層反射器傳遞給核心網(wǎng)側(cè)。
1.1.4 IPRAN 匯聚層
B 設(shè)備作為基站側(cè)接入網(wǎng)關(guān),采用PW 技術(shù)對(duì)接A 設(shè)備實(shí)現(xiàn)基站接入,在將基站路由傳遞給區(qū)域ER 的同時(shí),接收核心網(wǎng)路由,實(shí)現(xiàn)核心網(wǎng)對(duì)基站信令面控制及媒體流傳輸。
(1)IPRAN 技術(shù)是一種基于IP/MPLS 協(xié)議的技術(shù),區(qū)域設(shè)立一個(gè)MPLS 域,均采用相同AS,開(kāi)啟MP-BGP 功能。
(2)區(qū)域中心ER 作為一級(jí)RR、區(qū)域ER 作為二級(jí)RR,與各類CE 及B 設(shè)備形成Server-Client 星型全互聯(lián)結(jié)構(gòu)。
(3)各類CE 與城域網(wǎng)骨干出口D 及骨干承載網(wǎng)PE 之間,均采用MP-eBGP Option A 方式對(duì)接。
以4G/5G 融合組網(wǎng)為例,存在若干網(wǎng)間相同業(yè)務(wù)VPN路由互通和需嚴(yán)格控制互通的場(chǎng)景,其中最重要的是公網(wǎng)業(yè)務(wù)VPN 。
某運(yùn)營(yíng)商早期城域網(wǎng)骨干出口D 存在兩個(gè)核心平面,老平面包含所有國(guó)內(nèi)訪問(wèn)路由和國(guó)際訪問(wèn)路由,公網(wǎng)新平面建成后暫僅承接國(guó)內(nèi)路由部分。
5G 承載網(wǎng)5GC CE 由于建網(wǎng)較晚,根據(jù)規(guī)劃僅接入新平面,由于新平面僅有國(guó)內(nèi)明細(xì)路由,5G 用戶訪問(wèn)國(guó)際流量或新平面缺少的少量國(guó)內(nèi)路由時(shí),就存在選擇出口問(wèn)題。解決方式有兩種,方式一為依賴4G 承載網(wǎng)EPC CE 至公網(wǎng)出口;方式二為5G 承載網(wǎng)新建至城域網(wǎng)CR 鏈路,由CR傳遞老平面默認(rèn)路由;
如果采用方式一,4G/5G 承載網(wǎng)CE 在不做任何策略防護(hù)情況下,兩類CE 均可學(xué)習(xí)來(lái)自區(qū)域中心ER 反射的公網(wǎng)路由,雖然根據(jù)BGP 選路原則,兩類CE 會(huì)優(yōu)先選擇來(lái)自城域網(wǎng)的EBGP 路由,優(yōu)于通過(guò)區(qū)域中心ER 反射的IBGP路由,但可能存在如下風(fēng)險(xiǎn):
2.1.1 流量擁塞及網(wǎng)絡(luò)癱瘓
4G/5G 任何一側(cè)CE 至城域網(wǎng)鏈路由于傳輸故障或其他因素全部中斷,通過(guò)區(qū)域中心ER 反射的公網(wǎng)路由將成為優(yōu)選路由,4G 流量將全部被跨網(wǎng)引導(dǎo)至5G 網(wǎng)絡(luò),反之亦相同,造成網(wǎng)絡(luò)擁塞甚至癱瘓,影響面涉及兩張承載網(wǎng)。
2.1.2 轉(zhuǎn)發(fā)面不通導(dǎo)致業(yè)務(wù)中斷
除路由層面需要做到跨網(wǎng)隔離或選擇性放通外,至城域網(wǎng)出口側(cè)還會(huì)設(shè)置虛假源地址防護(hù)等安全策略,繞行流量可能在轉(zhuǎn)發(fā)層面受到阻斷,從而影響業(yè)務(wù)。
某運(yùn)營(yíng)商啟動(dòng)首批5G SA 組網(wǎng)建設(shè)試點(diǎn)工程,5GC CE作為SA 組網(wǎng)下核心網(wǎng)重要承載接入設(shè)備,需率先入網(wǎng)對(duì)接骨干承載網(wǎng)PE 并打通各業(yè)務(wù)VPN。
5GC CE 入網(wǎng)操作完成后,監(jiān)控收到多條區(qū)域外部至4G核心網(wǎng)DRA 網(wǎng)元不可達(dá)及VoLTE 注冊(cè)成功率下降告警。
2.2.1 背景
如圖2 所示。
圖2: 4G/5G 融合組網(wǎng)拓?fù)浼碍h(huán)路示意圖
2.2.2 原因分析
(1)在骨干承載網(wǎng)PE 側(cè)查看DRA 路由地址段學(xué)習(xí)情況,發(fā)現(xiàn)路由產(chǎn)生過(guò)震蕩。
(2)EPC CE 和5GC CE 的AS 號(hào)均為650XX,正常情況下,EPC CE 引入DRA 所在VPN 靜態(tài)路由地址段,發(fā)布給骨干承載網(wǎng)PE,攜帶AS 650XX,PE 在接收后,為避免路由環(huán)路,不會(huì)再向AS 號(hào)同為650XX 的5GC CE 進(jìn)行傳遞。
(3)經(jīng)核實(shí),由于在配合PE 側(cè)各業(yè)務(wù)VPN 電路開(kāi)通環(huán)節(jié),通過(guò)自動(dòng)配置模板生腳本錯(cuò)誤套用了政企電路開(kāi)通模板,使得PE 側(cè)配置僅使能AS-OVERRIDE 功能,沒(méi)有加載SOO 配置。
(4)PE 在 接 收 到EPC CE 發(fā) 布 帶AS 號(hào)650XX 的DRA 路由后,經(jīng)轉(zhuǎn)發(fā)又回至5GC CE,經(jīng)區(qū)域中心ER 反射后再回到EPC CE,形成環(huán)路并引發(fā)路由震蕩。
如今4G/5G 正在互聯(lián)網(wǎng)領(lǐng)域共同發(fā)展,而相互合作已成為當(dāng)前的發(fā)展趨勢(shì),融合承載組網(wǎng)架構(gòu)下,需要高度重視跨網(wǎng)流量繞行控制。網(wǎng)絡(luò)建設(shè)之初,因?qū)I(yè)務(wù)開(kāi)通時(shí)間節(jié)點(diǎn)有嚴(yán)格要求,網(wǎng)絡(luò)建設(shè)規(guī)劃牽頭部門(mén)、項(xiàng)目建設(shè)方均會(huì)受到種種壓力,可能會(huì)以先搶通業(yè)務(wù)可用為優(yōu)先;由于5G 業(yè)務(wù)全新的承載要求且需要滿足后續(xù)4G/5G 諸多網(wǎng)元間互通要求,隨著時(shí)間的推移,如流量繞行隔離等需要優(yōu)化和嚴(yán)格控制的細(xì)節(jié)可能被忽視。
運(yùn)維人員需重點(diǎn)規(guī)避因網(wǎng)絡(luò)架構(gòu)、路由組織、安全防護(hù)層面疏漏產(chǎn)生網(wǎng)絡(luò)環(huán)路隱患。隨著網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,維護(hù)量工作量也隨之加大,在尋求一些自動(dòng)化手段減少重復(fù)工作量,提升運(yùn)維效率的同時(shí),有一些稽核問(wèn)題可能會(huì)被忽略;同時(shí),以太網(wǎng)交換機(jī)的大規(guī)模使用也會(huì)增加環(huán)路風(fēng)險(xiǎn),防環(huán)配置是否部署也是重中之重。
路由組織不統(tǒng)一,帶來(lái)的問(wèn)題是業(yè)務(wù)流量流向的不可控;需要以全局、宏觀的視野去看待整張網(wǎng)絡(luò)的穩(wěn)定性、安全性,關(guān)注網(wǎng)與網(wǎng)之間的關(guān)聯(lián);由于成員網(wǎng)絡(luò)之間有互通的需求,也有隔離的需求,那么全網(wǎng)路由組織的統(tǒng)一性,直接決定了各類業(yè)務(wù)流量流向的合理性。
4.1.1 杜絕跨網(wǎng)流量繞行
在同一個(gè)AS 域內(nèi)的多張承載網(wǎng)絡(luò),必須仔細(xì)分析和研究各業(yè)務(wù)VPN 互通需求。對(duì)于需要互通的同類業(yè)務(wù)VPN,路由反射器傳遞路由時(shí),應(yīng)按照規(guī)劃路由,嚴(yán)格做好路由策略過(guò)濾;對(duì)于不需要互通的同類業(yè)務(wù)VPN,可通過(guò)各自CE 規(guī)劃不通的RD,通過(guò)RD-LIST 進(jìn)行過(guò)濾。
在依托承載網(wǎng)組網(wǎng)規(guī)范作為組網(wǎng)基礎(chǔ)參考的同時(shí),需要結(jié)合自身實(shí)際情況進(jìn)行靈活運(yùn)用;流量流向的精確控制不僅考驗(yàn)維護(hù)人員對(duì)整張網(wǎng)絡(luò)的熟悉程度,更考驗(yàn)異常緊急狀態(tài)下的綜合判斷能力。
4.1.2 降低環(huán)路發(fā)生概率
高冗余度網(wǎng)絡(luò)設(shè)計(jì)及二三層交換機(jī)的大規(guī)模使用增加了環(huán)路故障發(fā)生概率;廣播風(fēng)暴產(chǎn)生的原因是多方面的,網(wǎng)絡(luò)成環(huán)具有潛伏性,在不作擴(kuò)容或調(diào)整且各項(xiàng)業(yè)務(wù)正常運(yùn)作時(shí)不易被發(fā)現(xiàn),當(dāng)進(jìn)行如新設(shè)備入網(wǎng)工程調(diào)測(cè)、網(wǎng)絡(luò)優(yōu)化改造等操作時(shí),一個(gè)微小的開(kāi)啟現(xiàn)網(wǎng)設(shè)備對(duì)接調(diào)試端口的操作,都可能成為一個(gè)導(dǎo)火索,引發(fā)連鎖反應(yīng);融合承載組網(wǎng)下,二層以太網(wǎng)交換機(jī)設(shè)備如不做好防環(huán)配置,均可能成為傳播媒介;三層交換機(jī)或路由器雖然作為二層廣播報(bào)文的終結(jié),但不斷擴(kuò)散的廣播風(fēng)暴最終會(huì)消耗掉受影響網(wǎng)絡(luò)設(shè)備的CPU資源,使得正常業(yè)務(wù)的處理資源被過(guò)度剝奪,網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)面轉(zhuǎn)發(fā)能力受到嚴(yán)重影響,可能會(huì)導(dǎo)致整張網(wǎng)絡(luò)癱瘓。
某運(yùn)營(yíng)商某業(yè)務(wù)平臺(tái)進(jìn)行工程調(diào)測(cè),用于服務(wù)器接入的二層交換機(jī)存在環(huán)路,在承載網(wǎng)CE 側(cè)打開(kāi)對(duì)接端口后,觸發(fā)廣播風(fēng)暴,承載網(wǎng)及辦公網(wǎng)均受到波及,由于辦公網(wǎng)基本由二層和三層以太網(wǎng)交換機(jī)組成,開(kāi)通專有業(yè)務(wù)VPN,經(jīng)骨干承載網(wǎng)實(shí)現(xiàn)省際互通,廣播風(fēng)暴傳播范圍最終波及骨干承載網(wǎng)PE 設(shè)備,導(dǎo)致PE 設(shè)備CPU 資源耗盡,無(wú)法正常進(jìn)行業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)發(fā)。
借由此次環(huán)路問(wèn)題啟發(fā),具體舉措為組織制定了交換機(jī)防環(huán)配置規(guī)范,具體到運(yùn)營(yíng)商所使用的各類主流廠商交換機(jī),全網(wǎng)全量進(jìn)行篩查,關(guān)閉現(xiàn)網(wǎng)交換機(jī)、現(xiàn)網(wǎng)新擴(kuò)容業(yè)務(wù)板卡、待入網(wǎng)交換機(jī)所有未使用端口,并將端口配置為T(mén)runk 模式,規(guī)避交換機(jī)出廠端口默認(rèn)配置均為VLAN 1 的風(fēng)險(xiǎn)。按計(jì)劃分批次對(duì)城域網(wǎng)、承載網(wǎng)、辦公網(wǎng)全部在網(wǎng)交換機(jī)進(jìn)行整治優(yōu)化,并配合自動(dòng)化手段,實(shí)現(xiàn)常態(tài)化定期稽核或不定期抽查,有效降低網(wǎng)絡(luò)環(huán)路發(fā)生概率。
4.1.3 規(guī)范路由組織
(1)充分摸排各成員網(wǎng)基礎(chǔ)架構(gòu)、關(guān)鍵技術(shù)、路由組織明細(xì),形成體系化的基礎(chǔ)材料。
(2)分析機(jī)構(gòu)現(xiàn)網(wǎng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及訪問(wèn)需求,明確各個(gè)分支節(jié)點(diǎn)與總點(diǎn)以及各分支節(jié)點(diǎn)之間的訪問(wèn)需求。
(3)總結(jié)提煉路由組織層面風(fēng)險(xiǎn)規(guī)避紅線,對(duì)引發(fā)流量繞行、環(huán)路等高風(fēng)險(xiǎn)關(guān)鍵路由組織技術(shù)條目,需逐條進(jìn)行分析及評(píng)估,保障網(wǎng)絡(luò)最大限度的安全,降低重大故障發(fā)生概率。
4.2.1 優(yōu)化網(wǎng)管告警內(nèi)容
對(duì)各類已納入網(wǎng)管監(jiān)控的重要網(wǎng)絡(luò)告警,通過(guò)創(chuàng)新手段將告警類型分為不同重要等級(jí)并標(biāo)注不同顏色,對(duì)于重要程度很高的告警使用如紅色、橙色等活躍色進(jìn)行關(guān)鍵內(nèi)容標(biāo)注,在發(fā)生故障時(shí),監(jiān)控人員面對(duì)大量次生關(guān)聯(lián)告警,可以快速、準(zhǔn)確的篩選關(guān)注并處理重要告警。
由局方技術(shù)骨干牽頭,詳盡梳理廠家各型號(hào)網(wǎng)絡(luò)設(shè)備告警類型,將原有告警類型字段進(jìn)行中文化翻譯,將晦澀難懂的英文字符串轉(zhuǎn)換為中文告警注釋,并標(biāo)注告警分類,并固化到告警字段中去,提升告警呈現(xiàn)內(nèi)容可讀性,即使對(duì)于外包監(jiān)控人員或新進(jìn)員工,也可根據(jù)指導(dǎo)手冊(cè)快速上手。
4.2.2 拓展預(yù)警維度和思路
集中自有人員力量開(kāi)發(fā)了端到端先于客戶(故障)發(fā)現(xiàn)系統(tǒng)(如圖3 所示),并組織成立專項(xiàng)工作虛擬團(tuán)隊(duì),筆者擔(dān)任數(shù)據(jù)專業(yè)牽頭人;在專項(xiàng)工作開(kāi)展期間,積極梳理城域網(wǎng)、承載網(wǎng)中用戶感知明顯的業(yè)務(wù)種類,根據(jù)不同網(wǎng)絡(luò)層次進(jìn)行分類,新增如端口流量超限、端口光功率異常、端口誤碼增長(zhǎng)等監(jiān)控預(yù)警內(nèi)容,根據(jù)各廠家設(shè)備特性,制定不同的告警派單規(guī)則,并根據(jù)告警重要程度及介入處理緊急程度,細(xì)化派單區(qū)域、立即派單、延遲派單等功能;按月導(dǎo)出分析報(bào)表,觀察工單處理及時(shí)率等重要指標(biāo),并制定和推行考核制度。
圖3: 先于客戶(故障)發(fā)現(xiàn)系統(tǒng)整體運(yùn)作架構(gòu)示意圖
該系統(tǒng)后續(xù)也逐步從數(shù)據(jù)專業(yè)推廣至交換、傳輸、動(dòng)環(huán)、平臺(tái)等各專業(yè),實(shí)際運(yùn)行情況和使用體驗(yàn)良好,做到了對(duì)影響業(yè)務(wù)感知關(guān)鍵指標(biāo)的實(shí)時(shí)監(jiān)控和態(tài)勢(shì)分析,在隱患面未加深和影響面未擴(kuò)散的情況下,提前進(jìn)行預(yù)檢預(yù)修,切實(shí)達(dá)到了先于客戶(故障)發(fā)現(xiàn)的預(yù)期效果,具有良好的推廣性。
運(yùn)營(yíng)商后端生產(chǎn)及運(yùn)維部門(mén)在面對(duì)日益擴(kuò)大的網(wǎng)絡(luò)規(guī)模、數(shù)以千計(jì)的硬件設(shè)備、紛繁復(fù)雜的考核要求時(shí),一套行之有效、簡(jiǎn)明清晰的運(yùn)維手段必不可少。如果能在建設(shè)及運(yùn)維階段,從不同維度全面把控基礎(chǔ)維護(hù)要點(diǎn),有效組織生產(chǎn)支撐保障,使得前端部門(mén)能夠順利推廣現(xiàn)有成熟業(yè)務(wù)并放心大膽引入新市場(chǎng)商機(jī),就能扮演好“基石”的角色。
4.3.1 運(yùn)維管理人員明確角色職能
運(yùn)維管理人員站在縱向管理的角度,一方面需響應(yīng)領(lǐng)導(dǎo)的管理要求,一方面需管控專業(yè)部門(mén)工作具體落實(shí)情況,但必須深刻認(rèn)識(shí)到自身不僅是一個(gè)公司業(yè)務(wù)發(fā)展思路、領(lǐng)導(dǎo)工作要求的傳遞者,還是一個(gè)決策者。運(yùn)維管理人員遇到重要網(wǎng)絡(luò)建設(shè)及調(diào)整中疑難問(wèn)題時(shí),應(yīng)當(dāng)具備打破爭(zhēng)執(zhí)、化混亂為有序、拿捏要點(diǎn)、排除干擾的能力,從更為宏觀的視野、更為開(kāi)闊的思路去完成即將開(kāi)展的短期網(wǎng)絡(luò)改造任務(wù)或長(zhǎng)期推進(jìn)項(xiàng)目。
4.3.2 技術(shù)維護(hù)人員改變維護(hù)觀念和提升綜合能力
維護(hù)人員需要從根本的思想觀念上進(jìn)行改變,網(wǎng)絡(luò)維護(hù)不能脫離技術(shù),但不能被技術(shù)束縛,“躺平”的心態(tài)不能有,應(yīng)積極發(fā)揮主觀能動(dòng)性和自身綜合能力,調(diào)動(dòng)周邊可協(xié)調(diào)資源,快速解決問(wèn)題,降低扯皮推諉的時(shí)間和精力成本。
4.3.3 尋求新方法節(jié)省運(yùn)維成本
積極推廣自主開(kāi)發(fā),通過(guò)公司內(nèi)部開(kāi)展IT 化培訓(xùn),培養(yǎng)IT 開(kāi)發(fā)梯隊(duì)人才,讓有自主開(kāi)發(fā)潛力的年輕力量通過(guò)邊學(xué)習(xí)、邊實(shí)踐的方式,帶著手頭運(yùn)維、專項(xiàng)工作投身于體系化的學(xué)習(xí)中,通過(guò)理論和實(shí)操的充分結(jié)合,將學(xué)習(xí)到的開(kāi)發(fā)技能靈活運(yùn)用于實(shí)際工作場(chǎng)景,從開(kāi)發(fā)各類小工具逐步累積經(jīng)驗(yàn)到逐步梳理出一套成熟的、可推廣的運(yùn)維自動(dòng)化輔助手段;企業(yè)可根據(jù)個(gè)人或團(tuán)隊(duì)自主開(kāi)發(fā)項(xiàng)目工作量及具體成效,授予榮譽(yù)稱號(hào)及給予相應(yīng)的激勵(lì)。
對(duì)于整個(gè)通信行業(yè)來(lái)說(shuō),網(wǎng)絡(luò)融合無(wú)疑會(huì)成為未來(lái)的主要發(fā)展趨勢(shì)。本文從移動(dòng)融合承載組網(wǎng)架中部分典型維護(hù)痛點(diǎn)出發(fā),抽絲剝繭拓展并提煉網(wǎng)絡(luò)運(yùn)維工作關(guān)鍵要素,結(jié)合自身主導(dǎo)或參與的專項(xiàng)工作或重大網(wǎng)絡(luò)調(diào)整項(xiàng)目,體系化梳理了當(dāng)前及未來(lái)網(wǎng)絡(luò)運(yùn)維面臨的難點(diǎn)以及突破思路,提出了網(wǎng)絡(luò)優(yōu)化研究方案及具體舉措,其中也包含了對(duì)網(wǎng)絡(luò)運(yùn)維管理思路轉(zhuǎn)變方面的個(gè)人見(jiàn)解。
希望筆者的一些思考和總結(jié),可以點(diǎn)燃廣大通信后端工作者對(duì)行業(yè)未來(lái)發(fā)展將無(wú)限可能的信念之火;運(yùn)維并不簡(jiǎn)單,必須腳踏實(shí)地做好基礎(chǔ)維護(hù)工作,在一個(gè)個(gè)不眠之夜的平凡中產(chǎn)生屬于通信行業(yè)的專屬優(yōu)勢(shì)和自信,從而體現(xiàn)通信運(yùn)維工作的規(guī)范性、專業(yè)性。