劉貽雄,丁艷琴
隨著同步數(shù)字體系(SDH)的優(yōu)點不斷凸顯,其應(yīng)用也越來越廣泛。作為鐵路重要行車業(yè)務(wù)及其他網(wǎng)絡(luò)的承載網(wǎng),SDH傳輸網(wǎng)在鐵路通信中發(fā)揮了重要作用,其運行質(zhì)量直接關(guān)系到鐵路運輸?shù)陌踩?。SDH的各項強大功能和優(yōu)越性能是通過在先進的管理系統(tǒng)之下充分顯示出來的。網(wǎng)絡(luò)管理包括業(yè)務(wù)管理和設(shè)備監(jiān)控,簡稱網(wǎng)管系統(tǒng)。其中性能監(jiān)視是一項重要的網(wǎng)絡(luò)管理功能[1],在日常網(wǎng)絡(luò)運維中承擔(dān)著對網(wǎng)絡(luò)性能事件進行分析處理、數(shù)據(jù)采集、可用性指標分析、故障告警等重要職能,一旦網(wǎng)元脫管,會阻礙網(wǎng)絡(luò)隱患的發(fā)現(xiàn),需要盡快處理,否則有可能導(dǎo)致業(yè)務(wù)中斷。因此分析網(wǎng)元脫管對日常網(wǎng)絡(luò)維護有著重要的意義。
SDH傳輸網(wǎng)管系統(tǒng)由網(wǎng)管和網(wǎng)絡(luò)組成。網(wǎng)管和網(wǎng)關(guān)網(wǎng)元之間通過TCP/IP(傳輸控制協(xié)議/因特網(wǎng)互聯(lián)協(xié)議)傳遞信息,網(wǎng)關(guān)網(wǎng)元和非網(wǎng)關(guān)網(wǎng)元之間通過ECC(嵌入控制通路)通信,從而實現(xiàn)網(wǎng)管和非網(wǎng)關(guān)網(wǎng)元之間的通信[2]。ECC屬于數(shù)據(jù)通信通路(DCC)D1~D12,SDH段 開 銷(SOH)中 的DCC,用來構(gòu)成SDH管理網(wǎng)的傳送鏈路。D1~D3為再生段DCC,用于再生段終端之間交流OAM(管理和維護)信息,帶寬為192 kb/s;D4~D12為復(fù)用段DCC,用于復(fù)用段終端之間交流OAM信息,帶寬為576 kb/s[3]。這些數(shù)據(jù)通路為SDH網(wǎng)絡(luò)的管理和控制提供了強大的通信基礎(chǔ)結(jié)構(gòu)。中興、華為SDH網(wǎng)元通信均使用OSPF(開放式最短路徑優(yōu)先)協(xié)議,通過ECC通道實現(xiàn)信息傳遞。目前鐵路傳輸網(wǎng)絡(luò)管理系統(tǒng)結(jié)構(gòu)見圖1。
圖1 鐵路傳輸網(wǎng)絡(luò)管理系統(tǒng)結(jié)構(gòu)
ECC路由的建立方式與SNCP(子網(wǎng)連接)保護類似,都采用發(fā)端并發(fā)、收端選收建立路由的方式,其原則是根據(jù)最短路徑建立路由。正常情況下,網(wǎng)管通過網(wǎng)關(guān)網(wǎng)元登錄非網(wǎng)關(guān)網(wǎng)元走最短路由,若短路由不通,則走長路由;若所有ECC路由均不通,則無法登錄網(wǎng)元[4]。
鐵路通信傳輸網(wǎng)絡(luò)中,華為SDH網(wǎng)管系統(tǒng)采用網(wǎng)關(guān)網(wǎng)元通信模式,網(wǎng)關(guān)網(wǎng)元IP地址主要用于設(shè)備與網(wǎng)管之間的通信,只有在參與TCP/IP通信時的IP地址才有效。也就是說,只有網(wǎng)關(guān)網(wǎng)元才設(shè)置IP地址,非網(wǎng)關(guān)網(wǎng)元不設(shè)置IP地址。華為傳輸網(wǎng)絡(luò)中每個網(wǎng)元必須有1個獨立的標識符ID,ID號沖突會造成ECC路由表建立出錯,導(dǎo)致網(wǎng)管無法實現(xiàn)對網(wǎng)元的管理[5]。
鐵路通信傳輸網(wǎng)絡(luò)中,中興SDH網(wǎng)管系統(tǒng)則采用非網(wǎng)關(guān)網(wǎng)元通信模式,網(wǎng)絡(luò)中所有網(wǎng)元遵循一定的規(guī)則,統(tǒng)一規(guī)劃IP地址,每個網(wǎng)元IP地址唯一,各網(wǎng)元通過IP地址與網(wǎng)管通信。當網(wǎng)絡(luò)中有2個網(wǎng)元使用同一個IP地址時,會造成ECC通信異常,ECC路由表建立出錯,網(wǎng)管無法實現(xiàn)對網(wǎng)元的管理。
網(wǎng)元脫管,即網(wǎng)管無法對網(wǎng)元進行正常的管理,其現(xiàn)象主要表現(xiàn)為網(wǎng)元變灰、網(wǎng)元無法登錄等[6],是傳輸網(wǎng)絡(luò)維護中經(jīng)常發(fā)生的障礙。正常情況下,傳輸網(wǎng)元脫管不會造成所承載業(yè)務(wù)中斷,只是網(wǎng)管無法實時監(jiān)控網(wǎng)元、分析網(wǎng)絡(luò)性能、進行數(shù)據(jù)備份或下載、以及遠程應(yīng)急處置等。但若處置不當,極有可能會造成脫管網(wǎng)元承載業(yè)務(wù)全部中斷。
造成傳輸網(wǎng)元脫管的原因多種多樣,大致分為硬件故障和軟件故障。硬件故障主要包括光路故障、板件故障,以及網(wǎng)管與網(wǎng)關(guān)網(wǎng)元間網(wǎng)線故障等;軟件故障主要包括網(wǎng)元ID號或IP地址沖突、ECC風(fēng)暴、ECC參數(shù)配置錯誤等。而處理網(wǎng)元脫管問題需要了解各方面技術(shù)原理,包括設(shè)備ECC通信原理、網(wǎng)管與設(shè)備通信原理等。以下簡要分析4種故障類型。
主控板作為整個系統(tǒng)的網(wǎng)元級監(jiān)控中心,與本網(wǎng)元所有單板的MCU(管理控制單元)之間采用S接口進行通信,與網(wǎng)管之間采用Qx接口進行通信,是網(wǎng)管與網(wǎng)元通信的紐帶。網(wǎng)關(guān)網(wǎng)元主控板故障會造成本系統(tǒng)所有網(wǎng)元脫管,而非網(wǎng)關(guān)網(wǎng)元主控板故障引起的脫管范圍與其在網(wǎng)絡(luò)中的位置有關(guān)[7]。
簡單的鏈型組網(wǎng)結(jié)構(gòu)中,DCC方向只有一個,光口DCC均配置為開啟狀態(tài)。環(huán)型、網(wǎng)狀組網(wǎng)要注意DCC的方向,中心網(wǎng)元光口方向過多容易造成DCC擁塞,需要適當采用DCC屏蔽,避免因DCC擁塞導(dǎo)致網(wǎng)元間歇性脫管。
華為SDH設(shè)備網(wǎng)元ID是網(wǎng)元身份標識,由于網(wǎng)絡(luò)擴展需要可能出現(xiàn)ID號重復(fù)的情況,需要對擴展ID進一步區(qū)分。不同擴展ID對應(yīng)不同自治域,只要保持擴展ID+網(wǎng)元ID唯一即可。在光路互聯(lián)的不同自治域,擴展ID+網(wǎng)元ID重復(fù)會引起網(wǎng)元脫管,處理不當可能會導(dǎo)致脫管網(wǎng)元數(shù)據(jù)丟失,造成嚴重通信障礙[8]。
中興網(wǎng)管對網(wǎng)元的管理不同于華為SDH,它以網(wǎng)元IP地址作為網(wǎng)元身份標識。采用IP地址定義的方法,遵循一定的規(guī)則,IP地址配置重復(fù)或錯誤均會引起網(wǎng)元登錄失敗。
某鐵路線基站組網(wǎng)情況如下:區(qū)間基站與相鄰車站2.5 GHz傳輸設(shè)備構(gòu)成622 MHz二纖雙向復(fù)用段環(huán),網(wǎng)內(nèi)DCC通道如圖2箭頭所示。為避免ECC擁塞,正常情況下基站7與B車站2.5 G基站間ECC通道應(yīng)處于關(guān)閉狀態(tài)。
圖2 鐵路基站傳輸組網(wǎng)
故障現(xiàn)象:巡檢網(wǎng)管發(fā)現(xiàn)基站4、5、6、7網(wǎng)元脫管。
通過網(wǎng)管查證,基站7與B車站2.5 G基站間ECC通道關(guān)閉,基站3、4間ECC通道不通。
故障處理:
1)網(wǎng)管查詢基站3、4間光路ECC為開啟狀態(tài)。
2)網(wǎng)管登錄基站3網(wǎng)元,利用ppptable命令查看ppp端口配置表[9],如圖3所示。
圖3 ppp端口配置表
ppp0、ppp1、ppp2表示已經(jīng)創(chuàng)建的ppp通道(與之對應(yīng)的flag端口序號為2、3、4),Tx/Rx_addr表示光板,Tx/Rx_port表示光板上相應(yīng)的端口。利用ifconfig-a命令[9]查看端口是否建立連接,結(jié)果見圖4。
圖4 端口信息
基站3網(wǎng)元光線路板6槽1口對接基站4網(wǎng)元光線路板11槽1口。由圖4可知,ppp1/3:flags基站3網(wǎng)元6槽1口與基站4網(wǎng)元11槽1口未建立連接,判斷基站3至基站4光路ECC通路中斷。
3)網(wǎng)管定位基站3至基站4的ECC通道不良故障點,現(xiàn)場對基站3光線路板6槽1口硬件環(huán)回,網(wǎng)管登錄基站3網(wǎng)元,輸入命令“eping 6 1”(6槽1口),發(fā)現(xiàn)有丟包,則基站3光線路板6槽1口ECC模塊性能不良。更換基站3的6槽1口光模塊,恢復(fù)了網(wǎng)管對網(wǎng)元的實時監(jiān)控。
針對連續(xù)幾個網(wǎng)元脫管的故障現(xiàn)象,要先確定ECC路由方向,再利用網(wǎng)管檢測手段判斷出網(wǎng)元ECC通道中斷的區(qū)域,最后與現(xiàn)場配合,利用網(wǎng)管ping測工具定位故障點,在最短的時間內(nèi)使網(wǎng)元監(jiān)控恢復(fù)到正常狀態(tài)。
新建線設(shè)計規(guī)劃在A站新建通信樓,將既有通信樓局干10G、骨干10G設(shè)備搬遷至新建通信樓,既有通信樓設(shè)備連接見圖5。由于只有1架過渡設(shè)備,設(shè)備搬遷工作需按以下步驟進行。
圖5 既有通信樓設(shè)備連接
1)過渡設(shè)備安裝在新建通信樓,命名為“骨干10G”,設(shè)備配置與既有通信樓原骨干10G一致,并與既有通信樓局干10G設(shè)備建立光路連接,同時既有通信樓原骨干10G設(shè)備斷電。
2)既有通信樓局干10G設(shè)備搬遷至新建通信樓,與骨干10G光路互聯(lián)不變。
3)既有通信樓原骨干10G設(shè)備更名為“局干擴”,下掛于新建通信樓局干10G設(shè)備。
4)將局干擴網(wǎng)元納入局干網(wǎng)管監(jiān)控。
既有通信樓設(shè)備搬遷后,新、舊通信樓設(shè)備連接關(guān)系見圖6。
圖6 搬遷后新、舊通信樓連接關(guān)系
故障現(xiàn)象:在進行第4步,將局干擴網(wǎng)元納入局干網(wǎng)管監(jiān)控后,骨干10G網(wǎng)元頻繁脫管。檢查局干擴網(wǎng)元屬性,發(fā)現(xiàn)與骨干10G設(shè)備的擴展ID+網(wǎng)元ID相同,且局干擴與局干10G、局干10G與骨干10G網(wǎng)元間ECC通道開啟,3個網(wǎng)元DCC字節(jié)均使能,導(dǎo)致骨干10G網(wǎng)元頻繁脫管。
通過網(wǎng)管發(fā)現(xiàn),搬遷任務(wù)完成后既有通信樓局干擴設(shè)備納入局干網(wǎng)管監(jiān)控,現(xiàn)場未在設(shè)備側(cè)線下修改設(shè)備主控板配置(擴展ID+網(wǎng)元ID),導(dǎo)致骨干10G網(wǎng)元頻繁脫管。
故障處理:關(guān)閉局干10G對骨干10G方向光板ECC通道,將局干擴ID更改為5098(規(guī)劃ID),重新下載骨干10G網(wǎng)元數(shù)據(jù)庫,骨干、局干網(wǎng)管監(jiān)控恢復(fù)正常。
需要注意的是,在以后的站改施工中,若要將既有設(shè)備納入網(wǎng)管監(jiān)控,需線下修改設(shè)備配置,避免設(shè)備上線時發(fā)生網(wǎng)元頻繁脫管;若由于網(wǎng)管誤判斷導(dǎo)致強制進行數(shù)據(jù)上傳和下載,會造成網(wǎng)元數(shù)據(jù)丟失,大面積影響業(yè)務(wù)。
為實現(xiàn)L地與X地業(yè)務(wù)互通,開通L地與X地間OTN波道,L地與X地光路互通后的網(wǎng)絡(luò)拓撲見圖5。
圖5 L地與X地光路互通后的網(wǎng)絡(luò)拓撲
故障現(xiàn)象:OTN波道在L、X地分別對接B、E網(wǎng)元,對接完成后,L地傳輸網(wǎng)絡(luò)中C、D等網(wǎng)元相繼脫管。
網(wǎng)管查詢L地傳輸網(wǎng)絡(luò)網(wǎng)元IP地址為132.1.N.18,聯(lián)系X地傳輸網(wǎng)管,咨詢X地傳輸網(wǎng)絡(luò)IP地址為132.N.1.18。當L、X地傳輸網(wǎng)絡(luò)中同時存在IP地址為132.1.1.18(N=1)的網(wǎng)元,在網(wǎng)絡(luò)建立光路連接后,兩地網(wǎng)絡(luò)中IP地址沖突,引起網(wǎng)元脫管。
故障處理:檢查網(wǎng)元B與波道對接光口DCC為開啟狀態(tài),L地傳輸網(wǎng)管關(guān)閉該光口DCC通道后,網(wǎng)元脫管恢復(fù),L地傳輸網(wǎng)C網(wǎng)元與X地傳輸網(wǎng)F網(wǎng)元IP地址均為132.1.1.18(N=1),網(wǎng)元脫管由IP地址沖突導(dǎo)致。
因此,在不同傳輸網(wǎng)絡(luò)光路互聯(lián)時,應(yīng)關(guān)閉互聯(lián)光口DCC通道,避免網(wǎng)元IP地址沖突引起網(wǎng)元脫管。
作為網(wǎng)管日常維護人員,迅速定位障礙點并采取相應(yīng)措施是非常重要的。本文通過對日常障礙處理中遇到的典型案例進行分析,研究常見網(wǎng)元脫管原因,總結(jié)網(wǎng)元脫管的特點,提出網(wǎng)元脫管處理建議,以保障鐵路通信安全。通常情況下,SDH傳輸網(wǎng)元脫管不會造成所承載業(yè)務(wù)中斷,僅影響網(wǎng)管對網(wǎng)元的監(jiān)控[10]。在新線建設(shè)、既有線改造以及網(wǎng)絡(luò)中新增網(wǎng)元時,規(guī)劃每個網(wǎng)元必須有唯一的ID號或IP地址,避免網(wǎng)元ID/IP沖突造成網(wǎng)元脫管。在日常的網(wǎng)絡(luò)維護中,網(wǎng)絡(luò)維護人員應(yīng)綜合掌握網(wǎng)絡(luò)結(jié)構(gòu)、ECC通信原理以及網(wǎng)管與設(shè)備通信原理等[11]。面對各類網(wǎng)元脫管問題,維護人員應(yīng)該有清晰的思路,根據(jù)障礙現(xiàn)象、告警內(nèi)容進行障礙分析,不能在網(wǎng)管中盲目進行數(shù)據(jù)配置及數(shù)據(jù)的上傳和下載,防止網(wǎng)元數(shù)據(jù)丟失,造成通信故障的升級。