遆艷萍
【摘要】 本文針對臨汾IPRAN網(wǎng)絡由于二層交換功能出現(xiàn)環(huán)路導致承載的部分3G基站數(shù)據(jù)業(yè)務閃斷故障進行了專題分析,提出了解決該類故障的措施以及網(wǎng)絡規(guī)劃布局時需要注意的問題,總結(jié)了處理IPRAN網(wǎng)絡故障的一般方法,與大家共同學習。
【關(guān)鍵詞】 IPRAN RSG 環(huán)路
一、引言
1.1 IPRAN技術(shù)引入背景
隨著移動通信2G向3G技術(shù)的演進,以話音為主的移動業(yè)務向著話音和數(shù)據(jù)業(yè)務并重的方向發(fā)展,且移動互聯(lián)網(wǎng)的新型業(yè)務爆發(fā)增長,這些需求推動著移動業(yè)務、承載網(wǎng)絡的IP化進程。進入LTE等4G時代,無線網(wǎng)絡演變?yōu)檐浗粨Q架構(gòu),基站的業(yè)務流向由3G基站到RNC的匯聚型變?yōu)?G時代動態(tài)的MESH網(wǎng)型。傳統(tǒng)MSTP技術(shù),在三層支持、靈活高效的組播能力、與骨干層標準的IP網(wǎng)VPN和PW等業(yè)務無縫對接等功能實現(xiàn)上,都存在障礙。路由型的IPRAN技術(shù),是基于標準的全IP承載技術(shù),具有對IP承載更加靈活、功能更加全面的優(yōu)勢。全面支持IPTV組播,大客戶全網(wǎng)的2、3層VPN業(yè)務,動態(tài)高效的PW功能,可與已有的IP城域網(wǎng)進行業(yè)務的無縫對接,是未來高QoSIP業(yè)務在接入層的最佳解決方案。
1.2臨汾IPRAN承載網(wǎng)概述
中國聯(lián)通臨汾分公司分組傳送網(wǎng)絡主要定位于3G移動回傳FE業(yè)務,兼顧少量2G/3G移動回傳TDM業(yè)務;該網(wǎng)絡采用集團推薦的B方案(PW+L3VPN,即L2+L3方案)來進行設(shè)計和建設(shè)。2013年6月,臨汾聯(lián)通開始IPRAN規(guī)模組網(wǎng),至2013年底已新建IPRAN設(shè)備300多端,承載3G基站FE業(yè)務283個,運行期間,各項業(yè)務運行穩(wěn)定,性能符合要求,解決了臨汾聯(lián)通SDH網(wǎng)絡容量不足及3G基站FE業(yè)務帶寬不足的問題,提升了網(wǎng)絡質(zhì)量。網(wǎng)絡組網(wǎng)涉及CX600設(shè)備43臺,ATN950B設(shè)備86臺,iManagerU2000網(wǎng)管2臺。其中核心CX600-X8設(shè)備2臺,同時為每臺核心CX600-X8設(shè)備配置2臺擴展網(wǎng)元CX600-X8,單獨提供CPOS端口用于RNC/BSC設(shè)備接入。ATN950B設(shè)備做為低速業(yè)務落地擴展設(shè)備。U2000網(wǎng)管負責業(yè)務發(fā)放、日常管理和故障處理。RSG設(shè)備使用CX600-X8,本網(wǎng)共涉及4臺RSG,包括一樞紐RSG1、一樞紐RSG2、二樞紐RSG1、二樞紐RSG2。
隨著移動業(yè)務的發(fā)展,ipran網(wǎng)絡承載的業(yè)務量也急劇增加,由于ipran網(wǎng)絡故障影響的業(yè)務范圍也越來越大,因此總結(jié)IPRAN網(wǎng)絡故障類型、分析IPRAN網(wǎng)絡故障原因及總結(jié)出行之有效的處理方法是目前維護中重中之重的工作。本文針對2015年6月8日臨汾聯(lián)通堯都區(qū)40多個基站數(shù)據(jù)業(yè)務同時出現(xiàn)閃斷的故障分析,得出臨汾IPRAN網(wǎng)絡由于二層交換功能出現(xiàn)環(huán)路導致承載的部分3G基站數(shù)據(jù)業(yè)務閃斷的結(jié)論,總結(jié)出IPRAN網(wǎng)絡規(guī)劃布署合理的重要性,當二層功能出現(xiàn)環(huán)路時處理故障的一些經(jīng)驗。
二、故障策略分析
2.1故障現(xiàn)象
2015年6月8日15:00臨汾市基站網(wǎng)管發(fā)現(xiàn)堯都區(qū)46個3G基站數(shù)據(jù)業(yè)務同時出現(xiàn)閃斷,故障基站所在子網(wǎng)為堯都區(qū)農(nóng)話SDH10G環(huán)、城域環(huán)SDH10G以及華為ASON環(huán),涉及中心局620-14EGS4、700-13EGS4、700-15EGS4、208-02EGS4四個GE匯聚光口,故障基站為每個匯聚光口中的部分基站。傳輸SDH網(wǎng)管查看基站傳輸設(shè)備、中心局SDH匯聚GE單板無告警,故障基站傳輸EFT單板RMON性能正常,收發(fā)包流量正常,無壞包,錯包;ipran網(wǎng)管查看一樞紐RSG擴展設(shè)備無告警,但登錄至RSG02上ping基站ip地址有丟包現(xiàn)象;RNC側(cè)無異常告警。網(wǎng)絡圖如圖1。
2.2故障排查及處理
(1)故障定位
根據(jù)以上故障現(xiàn)象,定位故障范圍:查詢基站資料,發(fā)現(xiàn)故障基站都是通過SDH承載與ipran對接傳輸至RNC,通過ipran網(wǎng)絡承載的基站沒有中斷現(xiàn)象。而SDH上承載的基站也只有部分閃斷,并且不在同一個傳輸環(huán)中,與ipran對接傳輸也在不同設(shè)備、不同板卡上,基本排除由SDH傳輸引起網(wǎng)絡故障。由于登錄至RSG02上ping故障基站ip地址有丟包現(xiàn)象,排除RNC側(cè)故障,故障可能在ipran上或基站側(cè)設(shè)備上或是RSG二層有環(huán)路。
(2)故障排查及處理
1.核查資料后發(fā)現(xiàn)故障基站都單歸于RSG02設(shè)備4槽位單板,懷疑該槽位單板可能有故障,由于沒有備板,且4槽位單板上帶有很多基站,并且大部分基站都正常,無法進行插板或更換。2.用交換機和筆記本模擬一臺基站,在交換機上配置基站VLAN,在筆記本電腦上配置基站ip地址,接至一樞紐機房ASG上,ping此基站不丟包。讓接入維護人員拿至故障基站上,將基站設(shè)備替換,看是否有丟包來排除是否是基站側(cè)設(shè)備故障。3.IPRAN網(wǎng)管、SDH網(wǎng)管及RNC基站側(cè)同時將一個故障基站和一個正常基站的VLAN、ip地址進行互換,互換后所有閃斷站全部恢復。將互換的兩個基站配置恢復后,基站業(yè)務也正常,其他基站也沒有閃斷出現(xiàn)。
(3)故障處理結(jié)果
基站業(yè)務恢復但故障恢復原因不明。為了進一步定位故障原因,采集數(shù)據(jù)華為研發(fā)進行分析。
2.3具體原因分析
研發(fā)人員調(diào)用數(shù)據(jù)庫日志發(fā)現(xiàn),在故障時間點范圍內(nèi)RSG02 Virtual-Ethernet4/0/1.500接口14:46檢測到環(huán)路,環(huán)路一直到19:04分才徹底消除,與基站業(yè)務閃斷恢復時間點相吻合。VE 4/0/1.500接口環(huán)路之后,設(shè)備收到了大量的ARP攻擊報文導致4槽位單板ARP CPCAR報文通道丟包;由于單板上ARP CPCAR通道帶寬是基于單板的,所以單板上一個端口或者一個VLAN出現(xiàn)ARP攻擊會導致整個單板的ARP通道擁塞,從而導致正常端口的ARP報文會被攻擊報文擠掉,造成正常的業(yè)務端口在ARP攻擊期間無法正常學習ARP,導致業(yè)務出現(xiàn)閃斷。
根據(jù)端口描述,環(huán)路的端口是連接視頻監(jiān)控的設(shè)備。
interface Virtual-Ethernet4/0/1.500
control-vid 500 dot1q-termination
dot1q termination vid 500 to 600
ip binding vpn-instance ShiPinJianKong
ip address 172.17.160.1 255.255.255.0
由以上數(shù)據(jù)分析,得出故障原因:
1)RSG02設(shè)備VE4/0/1.500接口有環(huán)路,設(shè)備收到了大量的ARP攻擊報文導致4槽位單板ARP CPCAR報文通道丟包,從而導致正常端口的ARP報文會被攻擊報文擠掉,造成正常的業(yè)務端口在ARP攻擊期間無法正常學習ARP,導致業(yè)務出現(xiàn)閃斷。2)檢查視頻監(jiān)控交換機在故障時間點內(nèi)并未出現(xiàn)硬件環(huán)回,造成交換機出現(xiàn)環(huán)路的原因及解開環(huán)路的原因不明,已經(jīng)聯(lián)系中興廠家對交換機出現(xiàn)環(huán)路的原因進行進一步分析。中興廠家登錄中興交換機未能采集到故障時間段內(nèi)的數(shù)據(jù),未能進行分析。
解決措施:(1)排查視頻監(jiān)控二層設(shè)備環(huán)路的源頭,在二層設(shè)備上部署防環(huán)檢測和破環(huán)協(xié)議。將視頻監(jiān)控交換機網(wǎng)關(guān)下沉至ASG設(shè)備上,并檢查現(xiàn)網(wǎng)ipran核心層和匯聚層是否仍有二層交換機接入,將有二層交換機的網(wǎng)關(guān)下沉至ipran接入層上,避免由于環(huán)路造成批量業(yè)務閃斷。(2)CX600設(shè)備計劃在V6R6SPH037補丁中優(yōu)化防攻擊方案,優(yōu)化為當設(shè)備檢測到一個接口或者一個VLAN出現(xiàn)攻擊或者環(huán)路后,針對這個環(huán)路的接口或者VLAN子接口自動下發(fā)防攻擊策略,避免整個單板的ARP CP-CAR通道擁塞影響其它正常端口的業(yè)務。
三、經(jīng)驗總結(jié)
移動業(yè)務的IP化和寬帶化發(fā)展趨勢,推動著移動承載網(wǎng)絡向IP化演進。未來承載網(wǎng)應具備網(wǎng)絡智能化、結(jié)構(gòu)扁平化、帶寬GE化等特點。隨著移動數(shù)據(jù)流量不斷增大,承裁網(wǎng)只有提供更高的帶寬才能滿足用戶需要。而IPRAN支持豐富的路由協(xié)議、動態(tài)轉(zhuǎn)發(fā)、L3VPN、組播等動態(tài)網(wǎng)絡部署,都能很好地滿足上述要求。最近幾年,IPRAN產(chǎn)品在OAM、網(wǎng)絡保護能力、建設(shè)成本方面都有了很大的提高,在運營商網(wǎng)絡中得到了大規(guī)模的部署,在未來的承載網(wǎng)中,IPRAN將會是最重要的傳送技術(shù),同時,基于傳統(tǒng)傳送網(wǎng)的故障處理辦法也將發(fā)生深刻變化,出現(xiàn)逐步IP化的變化趨勢。
本次ipran網(wǎng)絡故障歷時較長,影響范圍較大,事后對本次故障的處理方法進行了總結(jié),以便以后出現(xiàn)類似故障時能迅速定位,減少故障處理時間,大概為如下幾點:
1)基站網(wǎng)管人員發(fā)現(xiàn)有批量基站中斷時應立即通知傳輸網(wǎng)管人員和屬地維護人員,并上報至相關(guān)主管領(lǐng)導。
2)傳輸網(wǎng)管人員接到故障通知后,根據(jù)告警對故障進行初步定位,如無法定位通知相關(guān)技術(shù)人員及廠家技術(shù)支援。
3)遇有基站數(shù)據(jù)業(yè)務閃斷的告警并且網(wǎng)管查看無任何異常告警的情況下,可以登錄RSG擴展對故障基站進行ping測試,如果有丟包可排除RNC側(cè)故障,故障可定位至傳輸通道或基站側(cè)設(shè)備。
4)查看傳輸路由,查找故障基站是否經(jīng)過相同的路徑或板卡,如果有,則可定位故障為相同的路徑或板卡有故障。如果不是,繼續(xù)查找原因
5)網(wǎng)管上無法定位故障時可以用交換機和筆記本模擬一臺故障基站,將故障基站替換進行測試,可以排除基站側(cè)設(shè)備故障。
6)將故障基站和正?;镜臄?shù)據(jù)進行對換,如果正常的基站發(fā)生故障,故障的基站恢復,可以定位為基站數(shù)據(jù)配置有故障,如果故障基站仍舊有故障,正常的基站也仍然正常,則可以定位為傳輸通道有故障。
7)檢查ipran網(wǎng)絡對應故障板卡是否有環(huán)路或arp攻擊,有環(huán)路時可能會造成網(wǎng)絡出現(xiàn)丟包或中斷。