陸震 郭騰飛 高小龍
中郵建技術(shù)有限公司
數(shù)據(jù)通信是通信技術(shù)與計算機技術(shù)相結(jié)合而產(chǎn)生的一種新的通信方式。數(shù)通設(shè)備作為數(shù)據(jù)通信的硬件基礎(chǔ),是最重要的數(shù)據(jù)承載及數(shù)據(jù)收發(fā)設(shè)備。本文中的數(shù)通設(shè)備主要指網(wǎng)絡(luò)系統(tǒng)中最為常用的兩個數(shù)據(jù)通信設(shè)備——交換機和路由器。隨著IT技術(shù)的迅猛發(fā)展和大數(shù)據(jù)時代的到來,數(shù)據(jù)中心的網(wǎng)絡(luò)規(guī)模逐漸擴大,數(shù)據(jù)流量增長帶來的帶寬需求和網(wǎng)絡(luò)穩(wěn)定性需求成為數(shù)據(jù)通信工程師面臨的挑戰(zhàn)。
某日客戶網(wǎng)維人員反饋IDC網(wǎng)絡(luò)某局點部分網(wǎng)元托管,通過相關(guān)軟件初步對問題進(jìn)行定位和故障恢復(fù)工作。涉及到的設(shè)備為華為NE40E路由器(NE40E是華為公司一款中高端路由器)、華為S5300匯聚交換機(S5300是華為公司一款中低端交換機),組網(wǎng)如下:
圖1 組網(wǎng)圖
(1)查看NE5000E(NE5000E是華為公司一款高端核心路由器)側(cè)鏈路一切正常,因中間過傳輸設(shè)備,因此初步認(rèn)為設(shè)備宕機或者傳輸?shù)絅E40E鏈路故障;
(2)緊急趕到機房現(xiàn)場后檢查設(shè)備硬件,NE40E路由器硬件運行正常并未宕機,登錄設(shè)備檢查log日志以及告警等信息也并未發(fā)現(xiàn)因斷電或其他原因?qū)е略O(shè)備重啟的告警;
(3)查看設(shè)備端口鏈路狀態(tài)后發(fā)現(xiàn),出口Eth-Trunk1中4條10GE鏈路有一條GE5/1/1處于DOWN的狀態(tài),查看端口狀態(tài)無收光現(xiàn)象,查看聚合端口配置并未啟用靜態(tài)LACP模式,判定此條故障鏈路導(dǎo)致設(shè)備托管。因?qū)τ诰酆隙丝谖磫⒂渺o態(tài)LACP模式,中間過傳輸設(shè)備時Eth-Trunk1有鏈路中斷而對于NE5000設(shè)備Eth-Trunk34端口并未感知,所以導(dǎo)致報文通過傳輸設(shè)備到達(dá)GE5/1/1端口時丟棄,剔除GE5/1/1端口,兩端配置靜態(tài)LACP模式后故障排除。
經(jīng)以上操作后,網(wǎng)管與網(wǎng)元脫管故障得到解決,恢復(fù)正常。對于靜態(tài)LACP模式,當(dāng)把一組接口加入Eth-Trunk接口后,這些成員接口中哪些接口作為活動接口,哪些接口作為非活動接口,需要經(jīng)過LACP協(xié)議報文的協(xié)商確定,對于中途過傳輸設(shè)備,通過LACP協(xié)議報文感知兩端聚合端口狀態(tài),同時實現(xiàn)負(fù)載分擔(dān)和冗余備份的雙重功能。
解決方案:核查全網(wǎng)設(shè)備,排除隱患。
措施:當(dāng)兩臺設(shè)備組成Eth-trunk經(jīng)過傳輸設(shè)備互聯(lián)時,必須配置靜態(tài)LACP模式,對于工作模式未啟用靜態(tài)LACP模式的聚合端口及時整改。
對某局點的ME60(ME60是華為公司目前生產(chǎn)的寬帶接入路由器,作為匯聚層設(shè)備,一般承載一個區(qū)域的寬帶上網(wǎng)和大客戶業(yè)務(wù))設(shè)備版本升級過程中,出現(xiàn)主控板升級后所有業(yè)務(wù)單板無法正常注冊的問題。
具體操作如下:
(1)00 :50分左右,開始刪除并清空設(shè)備原補丁文件,指定下次啟動文件為新的版本文件,進(jìn)行剔除用戶等操作;
(2)1 :01分左右,執(zhí)行reboot設(shè)備主控板重啟操作;
(3)1 :20分左右,設(shè)備主控板正常啟動并能登錄設(shè)備,正常情況下主控板注冊成功后會下發(fā)版本軟件至各個業(yè)務(wù)單板;
(4)1 :40分左右,通過dis device查看設(shè)備單板注冊情況,發(fā)現(xiàn)除了主控板正常注冊外,其他所有單板均為Unregistered狀態(tài);通過disp ver查看設(shè)備版本,主控板已經(jīng)升級到目標(biāo)版本;
(5)1 :50分左右,嘗試做主控板主備切換操作,但提示“備用主控板MBUS不正常!”,無法進(jìn)行主備切換;
(6)1 :55分左右,聯(lián)系華為400專家(400是華為公司一個技術(shù)支持電話,參與400技術(shù)技持的人員都是相關(guān)設(shè)備的研發(fā)人員,又稱為研發(fā)工程師)配合診斷,400工程師建議通過手工下發(fā)版本軟件至業(yè)務(wù)單板的方式來升級業(yè)務(wù)單板;
(7)1 :58分左右,根據(jù)400工程師的建議,用手工下發(fā)軟件的方式升級業(yè)務(wù)單板,但由于手工下發(fā)方式比較慢,歷時60分鐘左右;
(8)3 :00左右,手工方式升級業(yè)務(wù)單板操作完成,但是升級后業(yè)務(wù)單板還是未能正常注冊;
(9)3 :07分左右,嘗試下電拔插1槽位業(yè)務(wù)單板,3:15分查看1槽位單板狀態(tài)還是未注冊;
(10)3 :20分左右,根據(jù)400專家建議將9槽位主控板拔出,只剩10槽位主控板在位并整機下電重啟設(shè)備;
(11)3 :27分左右,設(shè)備主控板正常啟動并能登錄設(shè)備,從界面信息可看到正在upgrade各業(yè)務(wù)單板;
(12)3 :35分左右,查看其他業(yè)務(wù)單板均正常注冊,各業(yè)務(wù)接口已正常up,用戶陸續(xù)上線。
升級成功后,通過采集升級操作記錄以及設(shè)備相關(guān)log記錄,華為400研發(fā)工程師分析,主控板第一次重啟后沒有下發(fā)軟件版本至各個業(yè)務(wù)單板,導(dǎo)致業(yè)務(wù)單板無法正常注冊,原因是由于第一次重啟后主控9槽位單板升級后EPLD狀態(tài)異常,EPLD固件未正常升級成功,導(dǎo)致系統(tǒng)無法升級其他業(yè)務(wù)單板;整機重啟后,設(shè)備主控板正常啟動,狀態(tài)恢復(fù);系統(tǒng)升級各業(yè)務(wù)單板成功。
(1)9槽位主控異常時日志信息:
因華為ME60設(shè)備升級重啟后主控單板會出現(xiàn)EPLD狀態(tài)異常,所以根據(jù)設(shè)備特性分析及設(shè)備升級情況提出如下措施建議:
(1)設(shè)備升級后如果個別單板無法正常注冊,可以嘗試通過手工升級業(yè)務(wù)單板的方式來升級未能正常注冊的單板,如果還不能成功,建議更換故障業(yè)務(wù)單板;
(2)如果設(shè)備升級后主控板正常注冊,所有業(yè)務(wù)單板無法正常注冊,那么可以嘗試再次重啟主控板來重新加載版本軟件;
(3)如果再次重啟后還是無法正常注冊,則需更換主控板,重新升級。
某日發(fā)現(xiàn)S9312設(shè)備下掛二級匯聚老城機房的華為匯聚S9306交換機下掛的OLT設(shè)備,OLT入方向報文有丟包,導(dǎo)致下掛IPTV的直播和點播畫面卡頓;OLT上聯(lián)到華為匯聚S9306交換機的端口是GE1/0/12端口?,F(xiàn)網(wǎng)組網(wǎng)結(jié)構(gòu)為:
圖2 組網(wǎng)圖
分析二級匯聚老城機房的華為匯聚交換機S9306設(shè)備連接OLT的端口GigabitEthernet1/0/12,發(fā)現(xiàn)出方向有大量discard持續(xù)存在,端口信息如下:
經(jīng)過計算,該端口每秒鐘丟包在200至500個左右,這表明,該端口出方向有持續(xù)的擁塞丟包發(fā)生。進(jìn)一步通過端口鏡像抓包分析該端口的流量情況發(fā)現(xiàn),當(dāng)日白天的抓包記錄顯示,該端口在此次抓包的過程中,突發(fā)流量達(dá)到1G流量,單條單播源發(fā)的流量突發(fā)比較大的可達(dá)到600M,單條組播源發(fā)的流量突發(fā)比較大的可達(dá)到200M。單播流量經(jīng)過確認(rèn)為預(yù)留給用戶的點播視頻業(yè)務(wù),8021p優(yōu)先級是5;組播流量有的8021p優(yōu)先級是5,有的是0,組播復(fù)制點在NE設(shè)備,組播流量為組播源往多個用戶復(fù)制疊加的流量。
通過對數(shù)據(jù)的分析研究,得出:
(1)當(dāng)華為匯聚層交換機S9306設(shè)備的GE1/0/12端口出方向的帶寬被占滿時,多余的報文就會緩存在緩存區(qū)內(nèi);
(2)當(dāng)端口出方向的帶寬有剩余帶寬時,緩存區(qū)中積壓的報文就會逐步釋放;
(3)如果積壓在緩存中的報文越積越多,超過緩存大小時,這些報文就會被丟棄,丟棄的報文數(shù)量會在端口的discard計數(shù)中體現(xiàn);
(4)如果端口突發(fā)的流量超過現(xiàn)有空閑的緩沖區(qū),就會存在端口擁塞,導(dǎo)致出方向不能及時得到處理,引起同優(yōu)先級的報文丟棄,這樣就可能影響到客戶的業(yè)務(wù),對外的表現(xiàn)可能有:上網(wǎng)速度比較緩慢,IPTV存在卡頓或馬賽克情況等。
綜上分析,導(dǎo)致IPTV業(yè)務(wù)受損的原因是客戶原先使用的華為匯聚交換機S9306設(shè)備的G24CA型號單板緩存較小,同時該單板的GE1/0/12接口下掛的用戶較多,當(dāng)網(wǎng)絡(luò)中突發(fā)訪問量較大時,產(chǎn)生擁塞丟包,引起機頂盒觀看的電視節(jié)目花屏。
由于華為匯聚交換機S9306設(shè)備的G24CA型號單板緩存較小,同時該單板的GE1/0/12接口下掛的用戶較多,所以在機房有條件的情況下,建議采取如下措施:
(1)建議將華為匯聚交換機S9306設(shè)備的G24CA型號單板,更換為緩存更大的單板;
(2)擴容OLT上聯(lián)到華為匯聚交換機S9306設(shè)備的鏈路帶寬。但是擴容需要注意的是,由于OLT現(xiàn)有上聯(lián)華為匯聚交換機S9306設(shè)備的端口是在1槽位,1槽位的G24CA型號單板已經(jīng)緩存較小,所以要擴容到華為匯聚交換機S9306設(shè)備除1槽位外的其他槽位,這樣問題就可以解決了。
通過三個典型案例的研究與分析,總結(jié)出如下數(shù)通設(shè)備故障的處理方法:
(1)在網(wǎng)絡(luò)維護(hù)中出現(xiàn)部分網(wǎng)元托管時,首先核查全網(wǎng)設(shè)備進(jìn)行隱患排除,當(dāng)兩臺設(shè)備組成Eth-trunk經(jīng)過傳輸設(shè)備互聯(lián)時,必須配置靜態(tài)LACP模式,及時整改工作模式未啟用靜態(tài)LACP模式的聚合端口。
(2)因華為ME60設(shè)備升級重啟后主控單板會出現(xiàn)EPLD狀態(tài)異常,所以設(shè)備升級出現(xiàn)EPLD狀態(tài)異常時,可以重啟主控板,通過重新加載版本軟件進(jìn)行解決。
(3)在網(wǎng)絡(luò)維護(hù)中如果出現(xiàn)華為匯聚交換機S9306設(shè)備下掛IPTV的直播和點播畫面卡頓,首先排查設(shè)備上是否有G24CA型號單板,同時該單板下掛的用戶是否較多,如果有G24CA型號單板并且該單板下掛的用戶較多,可以直接更換為緩存更大的單板或者擴容鏈路。
數(shù)通設(shè)備是數(shù)據(jù)中心不可缺失的一部分,數(shù)通設(shè)備的穩(wěn)定運行是數(shù)據(jù)中心機房的核心。所以,在維護(hù)過程中要對數(shù)據(jù)機房中的每一個故障加以研究與分析,及時總結(jié)發(fā)現(xiàn)現(xiàn)網(wǎng)的漏洞,營造一個安全穩(wěn)定的數(shù)據(jù)中心。