單位同事因?yàn)楣ぷ髟颍總€年度都會互相搬遷一次辦公室位置。正常情況下,同事辦公室的更換,無非就是缺一條網(wǎng)線或者網(wǎng)線不夠長之類的小問題。
但是,今年在換辦公室期間的某天中午,突然出現(xiàn)網(wǎng)絡(luò)癱瘓,具體表現(xiàn)為:辦公VLAN內(nèi)的客戶端與二級交換機(jī)和核心交換機(jī)的網(wǎng)關(guān)無法通訊,大部分其他的VLAN也同時斷線,如機(jī)房的VLAN下客戶機(jī)Ping二級交換機(jī)和核心交換機(jī),都是time out。僅有一個所有物理端口都在核心交換機(jī)上的VLAN未受影響,該VLAN是給服務(wù)器用的。
在這種情況下,只有連接在核心交換機(jī)上的那些服務(wù)器網(wǎng)絡(luò)是通的,其他的二級交換機(jī)以及客戶端都無法通信了,基本上宣告整個網(wǎng)絡(luò)癱瘓。
初看整個網(wǎng)絡(luò)癱瘓,似乎無從著手,冷靜下來一想,既然網(wǎng)絡(luò)都是匯聚到核心交換機(jī)而且直連到核心交換機(jī)的服務(wù)器是通信正常的,那就可以從核心交換機(jī)s8610入手。于是,通過服務(wù)器上的telnet程序進(jìn)入核心交換機(jī),利用Ping命令測試它與二級交換機(jī)以及各VLAN網(wǎng)關(guān)的通信情況,發(fā)現(xiàn)核心交換機(jī)與二級交換機(jī)都不通,與VLAN網(wǎng)關(guān)通信很差。
這 時,在telnet終 端上不斷跳出類似NFPP_ARP_GRARD DOS-DETECTED 以及DOS-ATTACKED的提示信息,所有的提示信息都指向核心交換機(jī)上的一個光纖端口,而這條光纖連接的是某一幢辦公樓的二級交換機(jī)。通過核心交換機(jī)由于網(wǎng)絡(luò)問題已經(jīng)沒法與這幢辦公樓的二級交換機(jī)通信,當(dāng)然也無法用telnet登錄了。
確定了可能出問題的二級交換機(jī)位置后,趕赴該樓的分機(jī)房實(shí)地查看,那里二級交換機(jī)有5個,接入方式是4臺二級交換機(jī)接入到一臺s5750交換機(jī),然后由s5750交換機(jī)通過光纖連接核心交換機(jī)。于是,在現(xiàn)場直接用銳捷的通信線通過Console口連接該樓的二級匯聚用的交換機(jī)s5750,這時要用到Windows的超級終端,Windows 7系統(tǒng)里沒有的話,可以到網(wǎng)上下載一個用。選擇比特率9600,進(jìn)入交換機(jī)后,切換到Config模式還沒用命令查看,就已經(jīng)跳出提示信息(如圖1)。根據(jù)提示信息,gi0/4端口有問題,查看物理連接后,發(fā)現(xiàn)該端口直連著一臺二級交換機(jī),這時,范圍已經(jīng)縮小到具體的一臺二級交換機(jī)。
通過Console口進(jìn)入有問題的二級交換機(jī)后,用enable命令提升權(quán)限,然后用命令show interface count summary看到各端口的數(shù)據(jù)統(tǒng)計信息(如圖2),發(fā)現(xiàn)端口7和10的多播和廣播數(shù)據(jù)特別巨大,而且多播數(shù)據(jù)是廣播數(shù)據(jù)的很多倍,基本可以確定是這兩個端口的廣播風(fēng)暴導(dǎo)致自己所在的VLAN網(wǎng)絡(luò)癱瘓。而且因?yàn)閿?shù)據(jù)過大,導(dǎo)致核心交換機(jī)擁堵,影響其他VLAN的通信。
在利用技術(shù)手段檢測的同時,同步使用物理斷線的方式來判斷分析的正確性并及時緩解網(wǎng)絡(luò)擁堵問題。首先在檢測出可能出問題的核心交換機(jī)上的光纖端口后,先把該端口的光纖拔掉,一來可以快速驗(yàn)證核心交換機(jī)和其他二級交換機(jī)的通信狀況是否好轉(zhuǎn),二來可以緩解網(wǎng)絡(luò)擁堵的問題,斷開一路,先讓其他的網(wǎng)絡(luò)暢通。
圖1 二級匯聚交換機(jī)中的警告信息
圖2 二級交換機(jī)的端口數(shù)據(jù)信息
在找到二級交換機(jī)上可能有問題的端口的時候,也是先把這兩個端口連接的網(wǎng)線拔掉,然后在這臺二級交換機(jī)上接一臺筆記本,設(shè)置成與它同一網(wǎng)段,測試通信是否正常。這樣就可以及時驗(yàn)證分析的正確性。
通過上述分析,已經(jīng)確定問題出在某個二級交換機(jī)上的兩個端口,在拔掉這兩個端口網(wǎng)線的前提下,將核心交換機(jī)上分析時拔掉的光纖接上。這時,通過telnet登錄核心交換機(jī),測試它與各VLAN網(wǎng)關(guān)的通信,都正常了。
至此,大部分二級交換機(jī)與核心交換機(jī)的通信都恢復(fù)了,但是發(fā)現(xiàn)一個機(jī)房的二級交換機(jī)與核心交換機(jī)上的VLAN網(wǎng)關(guān)不通,但核心交換機(jī)已經(jīng)沒有擁堵,Ping各VLAN網(wǎng)關(guān)都是通的。后來,通過重啟機(jī)房二級交換機(jī),一切恢復(fù)正常。
通過查端口分配表以及實(shí)地查看,最后發(fā)現(xiàn)出問題的二級交換機(jī)上的兩個端口處于同一個辦公室的墻上相鄰位置,那個辦公室的老師在接電腦的過程中,沒注意,把一條網(wǎng)線的兩頭分別插入了墻上的兩個口,導(dǎo)致網(wǎng)絡(luò)廣播風(fēng)暴,引起網(wǎng)絡(luò)癱瘓。
網(wǎng)絡(luò)癱瘓是網(wǎng)管工作中經(jīng)常會遇到的問題,有多種的可能性,經(jīng)過這次事件,對于解決這類問題,有以下感悟。
在網(wǎng)絡(luò)癱瘓的時候,作為管理人員應(yīng)該沉著冷靜,找準(zhǔn)切入點(diǎn),一般可以從核心上查起,逐層深入。用好交換機(jī)提供的命令,如查看端口的數(shù)據(jù)包統(tǒng)計信息等。必要時,用簡單的插拔線路的方式來驗(yàn)證自己的判斷,這里沒有用命令的方式來開關(guān)端口,一來插拔比較方便,二來當(dāng)問題解決后直接插上網(wǎng)線或光纖即可,不用再次登錄交換機(jī)操作。
當(dāng)問題已經(jīng)排除,而網(wǎng)絡(luò)依舊有問題的時候,尤其是二級交換機(jī)經(jīng)過網(wǎng)絡(luò)擁堵后(已經(jīng)解決了引起擁堵的問題)一直網(wǎng)絡(luò)不通,可以嘗試重新啟動。
網(wǎng)絡(luò)問題大部分是人為原因造成的,要注重使用人員的安全培訓(xùn),包括不亂接線路、不私接路由器、注意電腦病毒防護(hù)、系統(tǒng)補(bǔ)丁安裝等。
如果資金允許的話,還是應(yīng)該配專業(yè)的網(wǎng)管軟件,這樣在軟件系統(tǒng)里就可以發(fā)現(xiàn)問題所在,并及時處理,省去了一層層去排查的時間。