分公司兩臺(tái)核心的NE40路由器分別通過(guò)兩條MPLS VPN鏈路上聯(lián)到合肥的NE80核心路由器,而且這兩臺(tái)路由器之間也有通路,這樣的網(wǎng)絡(luò)結(jié)構(gòu)保證了在出現(xiàn)一條上聯(lián)電路故障的時(shí)候,數(shù)據(jù)流量仍然可以從正常的鏈路流出。因此在很長(zhǎng)時(shí)間內(nèi)分公司DCN網(wǎng)絡(luò)都是相當(dāng)穩(wěn)定的,沒(méi)有大規(guī)模網(wǎng)絡(luò)阻塞事件的發(fā)生。
但是有一次當(dāng)各個(gè)部門(不是所有部門)紛紛申告網(wǎng)絡(luò)不通的時(shí)候,有個(gè)奇怪的現(xiàn)象,就是Ping合肥的認(rèn)證服務(wù)器是可以Ping通,但是網(wǎng)絡(luò)認(rèn)證卻無(wú)法通過(guò)。經(jīng)過(guò)重啟認(rèn)證服務(wù)器、Web接入認(rèn)證路由器,現(xiàn)象依舊。用Console口連接到有問(wèn)題的NE40,配合合肥華為工程師排查故障,結(jié)果發(fā)現(xiàn)上聯(lián)端口不正常,發(fā)包多收包少。經(jīng)過(guò)緊張的幾小時(shí),嘗試各種方法一直無(wú)果之后,有識(shí)之士果斷將故障端口關(guān)閉,于是流量開(kāi)始流向正常的路由器,各報(bào)障點(diǎn)開(kāi)始恢復(fù)正常。其后過(guò)了很多天我們專門利用一個(gè)晚上更換了故障板卡,這個(gè)問(wèn)題才得到真正解決,但是前面先恢復(fù)網(wǎng)絡(luò)再排查故障的經(jīng)驗(yàn)已經(jīng)給我留下了深刻的印象。
類似NE40的雙上聯(lián)結(jié)構(gòu),分公司兩臺(tái)S8505也是采取的兩條鏈路分別上聯(lián)到一臺(tái)NE40。這兩個(gè)三層交換機(jī)下是分公司最核心的服務(wù)器與部分核心終端設(shè)備(如114臺(tái)席)。理論上來(lái)說(shuō)它們不可能同時(shí)完全斷網(wǎng),但是有一天中午卻忽然收到全部斷網(wǎng)告警,經(jīng)現(xiàn)場(chǎng)檢查,有一臺(tái)8505的一塊主控板告警燈閃(其他狀態(tài)燈均正常),兩臺(tái)8505之間互聯(lián)光路Down,上聯(lián)的兩臺(tái)NE40分別有告警顯示兩個(gè)8505 neigbour掉線。如果說(shuō)一臺(tái)8505設(shè)備故障掉線還好理解,但這卻無(wú)法解釋另一臺(tái)8505為何會(huì)離線。
經(jīng)過(guò)漫長(zhǎng)的故障排查,重啟設(shè)備、換上聯(lián)光纖口。將故障設(shè)備斷電,都不能有所改觀。最終由于偶然找到了故障的原因。原來(lái)這兩臺(tái)上聯(lián)鏈路配置有問(wèn)題,每根互聯(lián)的光纖兩端不是同組IP地址,一端設(shè)備的互聯(lián)地址分別與對(duì)端非直連的另外一臺(tái)設(shè)備的互聯(lián)地址相對(duì)應(yīng)了(地址形成交叉了),因此實(shí)際上這兩臺(tái)8505之間的互聯(lián)光路就成了關(guān)鍵因素,只要這條鏈路出問(wèn)題,兩組交叉的地址都將無(wú)法互訪,而且這也就解釋了我們所見(jiàn)到的奇怪的現(xiàn)象。臨時(shí)解決辦法就是,重新建立互聯(lián)光路或電路,但最終還是需要修改錯(cuò)誤的配置才能杜絕這個(gè)問(wèn)題?;仡欉@次事件我們耗費(fèi)了相當(dāng)長(zhǎng)的時(shí)間才恢復(fù),對(duì)我們來(lái)說(shuō)這實(shí)在是一次嚴(yán)重的教訓(xùn)。
縣公司有兩臺(tái)核心路由器,但是與之前介紹的組網(wǎng)結(jié)構(gòu)不同,這兩臺(tái)路由器一臺(tái)是負(fù)責(zé)縣城關(guān)的,另一臺(tái)是負(fù)責(zé)各個(gè)鄉(xiāng)鎮(zhèn)的。有一次晚上十一點(diǎn)多接到告警,說(shuō)縣公司下各個(gè)鄉(xiāng)鎮(zhèn)支局動(dòng)力監(jiān)控信號(hào)時(shí)斷時(shí)續(xù),經(jīng)檢查,負(fù)責(zé)城關(guān)的路由器正常,但負(fù)責(zé)鄉(xiāng)鎮(zhèn)的路由器掉包嚴(yán)重。開(kāi)始我們以為是互聯(lián)的光路或者電路松了,后來(lái)才發(fā)現(xiàn)并非如此,這兩臺(tái)路由器之間并不是直連的,它們之間有一臺(tái)二層交換機(jī),而那臺(tái)二層交換機(jī)下有端口存在大量垃圾包,明顯是有機(jī)器中毒了。也正是由于這些病毒包阻塞了這條關(guān)鍵的互聯(lián)電路,才使得核心路由器也無(wú)法正常運(yùn)作。
關(guān)閉掉問(wèn)題端口以后,網(wǎng)絡(luò)恢復(fù)了正常。但是這個(gè)故障不得不令我們反思,如果我們組網(wǎng)的時(shí)候不是采取這種共享的方式,而是獨(dú)立的互聯(lián)電路,這個(gè)問(wèn)題會(huì)不會(huì)避免呢?
綜合以上幾個(gè)例子,我們應(yīng)該認(rèn)識(shí)到,因?yàn)楹诵穆酚稍O(shè)備如此重要,所以在網(wǎng)絡(luò)組建的時(shí)候,我們就應(yīng)該謹(jǐn)慎小心,避免潛在的各種問(wèn)題。一旦真的發(fā)生了不可避免的各類故障,我們也沒(méi)必要慌神自亂陣腳,只要冷靜理智,對(duì)癥下藥,就不難解決各種問(wèn)題。