江 杰
一、網(wǎng)絡故障診斷原則
網(wǎng)絡診斷是一門綜合性技術,以網(wǎng)絡原理、網(wǎng)絡配置和網(wǎng)絡運行的知識為基礎。從故障現(xiàn)象出發(fā),以網(wǎng)絡診斷工具為手段獲取診斷信息,確定網(wǎng)絡故障點,查找問題的根源,排除故障,恢復網(wǎng)絡正常運行。
網(wǎng)絡故障診斷應該實現(xiàn)三方面的目的:確定網(wǎng)絡的故障點,恢復網(wǎng)絡的正常運行;發(fā)現(xiàn)網(wǎng)絡規(guī)劃和配置中欠佳之處,改善和優(yōu)化網(wǎng)絡的性能;觀察網(wǎng)絡的運行狀況,及時預測網(wǎng)絡通信質量。
網(wǎng)絡故障通常有以下幾種可能:1、物理層中物理設備相互連接失敗或者硬件及線路本身的問題。2、數(shù)據(jù)鏈路層的網(wǎng)絡設備的接口配置問題。3、網(wǎng)絡層網(wǎng)絡協(xié)議配置或操作錯誤。4、傳輸層的設備性能或通信擁塞問題。5、上三層或網(wǎng)絡應用程序錯誤。
網(wǎng)絡故障的診斷過程應該沿著OSI七層模型從物理層開始向上進行。首先檢查物理層,然后檢查數(shù)據(jù)鏈路層,以此類推,設法確定通信失敗的故障點,直到系統(tǒng)通信恢復正常為止。
網(wǎng)絡診斷可以使用包括局域網(wǎng)或廣域網(wǎng)分析在內的多種工具:路由器診斷命令、網(wǎng)絡管理工具和其他故障診斷工具。一般情況下查看路由表是解決網(wǎng)絡故障的起點。ICMP的ping、trace命令和cisco的show命令、debug命令是獲取故障診斷有用信息的網(wǎng)絡工具。通常使用一個或多個命令收集相應的信息。
二、網(wǎng)絡故障的分類
(一)按網(wǎng)絡故障的性質分類
1、硬件故障:硬件故障指的是設備或線路損壞、插頭松動、線路受到嚴重電磁干擾等情況。
2、軟件故障:軟件故障中最常見的情況就是配置錯誤,就是指因為網(wǎng)絡主機或網(wǎng)絡設備的配置原因而導致的網(wǎng)絡異?;蚬收?。
另一類軟件故障就是一些重要進程或端口關閉,以及系統(tǒng)的負載過高導致。
(二)按網(wǎng)絡故障的對象分類
1、線路故障:線路故障最常見的情況就是線路不通,診斷這種情況首先檢查該線路上流量是否還存在,然后用ping命令檢查線路遠端的路由器端口能否響應,用traceroute命令檢查路由器配置是否正確,然后找出問題逐個解決。
2、路由器故障:線路故障中的很多情況都涉及到路由器,因此也可以把一些線路故障歸結為路由器故障。檢測路由器故障,需要易用MIB變量瀏覽器,用它收集路由器的路由表、端口流量數(shù)據(jù)、計費數(shù)據(jù)、路由器CPU的溫度、負載以及路由器的內存余量等數(shù)據(jù)。通常情況下網(wǎng)絡管理系統(tǒng)有專門的管理進程不斷地檢測路由器的關鍵數(shù)據(jù),并及時給出報警。
3、主機故障:主機故障常見的現(xiàn)象就是主機的配置不當。例如主機配置的IP地址與其它主機沖突,或IP地址根本就不存在子網(wǎng)范圍內,由此導致主機無法連通。主機的另一故障就是安全故障。
三、網(wǎng)絡故障診斷步驟
網(wǎng)絡故障以某種癥狀表現(xiàn)出來,故障癥狀包括一般性的(象用戶不能接入某個服務器)和較特殊的(如路由器不在路由表中)。對每一個癥狀使用特定的故障診斷工具和方法都能查找出一個或多個故障原因。
一般故障診斷及排除模式如下:
第一步,當分析網(wǎng)絡故障時,首先要清楚故障現(xiàn)象。應該詳細說明故障的癥候和潛在的原因。為此,要確定故障的具體現(xiàn)象,然后確定造成這種故障現(xiàn)象的原因的類型。例如,主機不響應客戶請求服務??赡艿墓收显蚴侵鳈C配置問題、接口卡故障或路由器配置命令丟失等。
第二步,收集需要的用于幫助隔離可能故障原因的信息。向用戶、網(wǎng)絡管理員、管理者和其他關鍵人物提一些和故障有關的問題。廣泛的從網(wǎng)絡管理系統(tǒng)、協(xié)議分析跟蹤、路由器診斷命令的輸出報告或軟件說明書中收集有用的信息。
第三步,根據(jù)收集到的情況考慮可能的故障原因。町以根據(jù)有關情況排除某些故障原因。例如,根據(jù)某些資料可以排除硬件故障,把注意力放軟件原因上。對于任何機會都應該設法減少可能的故障原因,以至于盡快的策劃出有效的故障診斷計劃。
第四步,根據(jù)最后的可能的故障原因,建立一個診斷計劃。開始僅用一個最可能的故障原因進行診斷活動,這樣可以容易恢復到故障的原始狀態(tài)。如果一次同時考慮一個以上的故障原因,試圖返回故障原始狀態(tài)就困難的多了。
第五步,執(zhí)行診斷計劃,認真做好每一步測試和觀察,直到故障癥狀消失。
第六步,每改變一個參數(shù)都要確認其結果。分析結果確定問題是否解決,如果沒有解決,繼續(xù)下去,直到解決。
四、路由器接口故障排除
(一)故障排除一般過程。第一步:收集故障現(xiàn)象:第二步:收集能夠確定故障原因的一切信息;第三步:根據(jù)收集到的信息考慮可能的故障原因;第四步:根據(jù)可能的故障原因,建立一個診斷計劃;第五步:執(zhí)行診斷計劃,做好每一步測試和觀察,每改變一個參數(shù)都要確認其結果,只至故障癥狀消失。
(二)路由器的串口故障排除。串口出現(xiàn)連通性問題時,一般是從show interface serial命令開始,分析屏幕輸出的報告內容,找出問題之所在。接口和線路協(xié)議的可能組合有以下幾種:
1、串口運行、線路協(xié)議運行,這是完全的工作條件。
2、串口運行、線路協(xié)議關閉,這說明可能的故障發(fā)生在路南器配置、調制解調器等方面。
3、串口和線路協(xié)議都關閉,可能是電信部門的線蹄故障、電纜故障或者是調制解調器故障。
4、串口管理性關閉和線路協(xié)議關閉,這種情況是在接口配置中輸入了shutdown命令。可以通過輸入no shutdown命令,打開串口連接。
(三)路由器的以太接口故障排除。以太接口的典型故障問題是寬帶的過分利用,碰撞沖突次數(shù)頻繁。使用不兼容的幀類型。使用show interface ethernet命令可以查看該接口的吞吐量、碰撞沖突、信息包丟失、以及幀類型的有關內容等。
1、通過查看接口的吞吐量可以檢測網(wǎng)絡的利用。
2、當兩個基本點接口試圖同時傳輸信息包到以太電纜上時,將發(fā)生碰撞。碰撞沖突產(chǎn)生擁塞,碰撞沖突的原因通常是由于敷設的電纜過長或者過分利用。
3、如果接口和線路協(xié)議報告運行狀態(tài)無誤,并且節(jié)點的物理連接都完好,可是不能通信,引起問題的原因也可能是兩個節(jié)點使用了不兼容的幀類型。解決問題的辦法是重新配置使用相同幀類型。
五、結語
網(wǎng)絡發(fā)生故障是不可避免的。網(wǎng)絡建成運行后,網(wǎng)絡故障診斷是網(wǎng)絡管理的重要技術工作。搞好網(wǎng)絡的運行管理和故障診斷工作,提高故障診斷水平需要注意以下幾方面的問題:認真學習有關網(wǎng)絡技術理論;清楚網(wǎng)絡的結構設計,包括網(wǎng)絡拓樸、設備連接、系統(tǒng)參數(shù)設置及軟件使用:了解網(wǎng)絡正常運行狀況、注意收集網(wǎng)絡正常運行時的各種狀態(tài)和報告輸出參數(shù);熟悉常用的診斷工具,準確的描述故障現(xiàn)象??傊?,作為網(wǎng)絡管理人員的最大職責就是利用一切可能利用的方法保障網(wǎng)絡安全暢通運行。