筆者單位在超過一定距離的網(wǎng)絡環(huán)境中使用一對單模光纖收發(fā)器連通兩臺思科交換機的接入層端口,組成簡單的局域網(wǎng)絡(如圖1)。
在網(wǎng)絡連通使用后,發(fā)現(xiàn)兩臺思科交換機相連的接入層端口會不定時up/down,并產(chǎn)生了對應日志。如下:
Mar 22 06:48:07.060:%LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet0/47,changed state to down
圖1 網(wǎng)絡結構
Mar 22 06:48:08.070:%LINK-3-UPDOWN: Interface%LINEPROTO-5-UPDOWN: Line protocol on I n t e r f a c e G i g a b i t Ethernet0/47,changed state to up GigabitEthernet0/47,changed state to down
Mar 22 06:48:10.783:%LINK-3-UPDOWN: Interface Gigabit Ethernet0/47,changed state to up
Mar 22 06:48:12.789:
通過分析以上日志發(fā)現(xiàn)三個問題。
1.每次端口up/down的時間沒有規(guī)律可循。
2.每次持續(xù)時間大約5秒左右。
3.通過DOS下Ping命令監(jiān)控發(fā)現(xiàn),每次端口up/down時,交換機也不會失去連接,只是Ping命令會延遲5s左右,過后又正常工作。而且通過Ping的結果看time時間也沒有規(guī)律特別不穩(wěn)定。
此故障不是導致整個網(wǎng)絡斷線,在某一段時間里也不影響使用,只是在端口up/down時客戶端出現(xiàn)假死機現(xiàn)象。通過以上現(xiàn)象判斷想快速解決該問題點具有一定困難,針對此問題現(xiàn)象,筆者選擇了利用排除法去排除所有的可能性。
首先確定三大排除方向:客戶端數(shù)據(jù)量、物理鏈路、思科交換機。
起初認為可能是因為某臺客戶端數(shù)據(jù)流量在某個時間點數(shù)據(jù)流量過大,對交換機端口造成堵塞,后來通過log發(fā)現(xiàn),即使在夜間沒有客戶端工作的情況下,也會出現(xiàn)up/down,故排除是客戶端因數(shù)據(jù)量過大導致。
首先,排除單模光纖跳線原因。通過更換各個結點光纖跳線確保光纖是被折斷而導致,更換后通過觀察log日志,交換機端口依然存在up/down現(xiàn)象,從而排除跳線故障原因。
其次,更換單模光纖收發(fā)器并更換收發(fā)器品牌,更換后通過觀察log日志,交換機端口依然存在up/down現(xiàn)象,從而排除單模光纖收發(fā)器故障原因。
最后,通過將1和2芯光纜換至3和4芯、5和6芯……心想這下問題肯定解決,可是當換至最后兩芯時,發(fā)現(xiàn)單模收發(fā)器燈亮完全正常,可是問題仍然存在。當時就肯定這根光纜為劣質光纜。最后決定更換光纜,但更換后問題還是沒能解決,端口依然會不定時產(chǎn)生up/down現(xiàn)象。
為了能徹底排除是物理鏈路的原因,又想到劈開光纜,使用足夠長的網(wǎng)絡雙絞線進行直接連接,后來通過觀察故障消失。此時就更不明白什么原因了,因為整個排除過程中,交換機端口配置沒有變,也百分百確保光纖鏈路沒有問題,可為什么使用光纖鏈路就有問題,而使用網(wǎng)絡雙絞線就沒有問題呢?
為了徹底搞明白其中的原因,最后將重心轉移到思科交換機上進行逐一排除。起初因為客戶端都是千兆網(wǎng)卡,就想著通過修改交換機端口的雙工及速率模式,強行將兩端2個交換機端口更改為千兆全雙工,觀察日志現(xiàn)象依然出現(xiàn)。后手動強行改制千兆半雙工,觀察日志,問題依然存在。最后,抱著試試看的態(tài)度,降低了2個端口的速率,強行改為百兆全雙工,雖然速度相對有所減慢,但是上述故障消失了。
為了證明問題,長時間觀察log日志,沒有再出現(xiàn)端口up/down的現(xiàn)象,從而確定故障點所在,也充分證實了單模光纖收發(fā)器與思科交換機在某個意義上講性能不完全兼容。
在有條件的情況下盡量不使用光纖收發(fā)器,可以選擇光纖模塊。因為光纖收發(fā)器的性能沒有模塊穩(wěn)定。另外,光纖收發(fā)器與思科交換機的兼容性也不夠好,因為思科不做光纖收發(fā)器,正好光纖模塊和交換機都是思科產(chǎn)品。