■ 何春江
珠海大橫琴科技發(fā)展有限公司 廣東珠海 519000
通常我們把網(wǎng)絡(luò)故障按其性質(zhì)、對象或出現(xiàn)的區(qū)域等進行網(wǎng)絡(luò)故障分類。
按網(wǎng)絡(luò)故障的性質(zhì)來分,網(wǎng)絡(luò)故障可分為物理故障與邏輯故障。物理故障也就是指設(shè)備或線路損壞、插頭松動、線路受到嚴重的直接電磁干擾等情況,或者是人為的疏忽導致網(wǎng)絡(luò)連接錯誤等硬件故障現(xiàn)象。時斷時續(xù)或網(wǎng)絡(luò)完全斷開都是此類故障所引起的故障表現(xiàn)。邏輯故障也就是軟件安裝或配置錯誤引起的網(wǎng)絡(luò)異?;蚬收希ǔ4祟惞收舷鄬τ布收蟻碚f要復雜很多。網(wǎng)卡驅(qū)動問題、網(wǎng)絡(luò)協(xié)議問題、IP地址沖突問題都是軟件故障的主要問題,而無法瀏覽網(wǎng)頁、時斷時續(xù)、網(wǎng)速緩慢等也就是軟件故障的主要表現(xiàn)。
按網(wǎng)絡(luò)故障的不同對象來分。網(wǎng)絡(luò)故障可分為線路故障、路由器故障、主機故障。線路不通、路由器配置錯誤都是線路故障的主要表現(xiàn)。而路由器通常也會影響到線路故障,所以有一些線路故障也可以被歸結(jié)為路由器故障。路由器硬件故障(CPU中央處理器溫度過高或者內(nèi)存容量太小)、配置錯誤等都是路由器故障的常見表現(xiàn)。主機的配置不當常常會引起主機故障的出現(xiàn),如主機配置的IP地址與其他主機沖突,或lP地址不在子網(wǎng)范圍內(nèi)等都是主機故障的常見表現(xiàn)。另一故障就是安全故障,主要表現(xiàn)為如在啟動了多余的服務(wù)情況下攻擊者通過這些多余進程的正常服務(wù)或bug對該主機進行攻擊。
網(wǎng)絡(luò)故障原因千變?nèi)f化,卻萬變不離其宗,基本上就是硬件問題和軟件問題,或者更準確地說就是配置文件選項問題、網(wǎng)絡(luò)連接性問題以及網(wǎng)絡(luò)協(xié)議問題,但是具體問題的定位是難點,下面我們將講述如何使用十字交叉法定位網(wǎng)絡(luò)故障問題。
十字交叉法即從鏈路和協(xié)議兩個方面去定位網(wǎng)絡(luò)故障點,先從鏈路層大體定位問題所在,再從協(xié)議方面分析具體故障點,即鏈路軸和協(xié)議軸的交叉點就是網(wǎng)絡(luò)故障所在。
鏈路軸的故障診斷是要大體上定位故障所在位置,即排除互聯(lián)網(wǎng)鏈路導致的網(wǎng)絡(luò)故障,大體定位故障所在區(qū)域。下面以舉例的方式進行說明:
有一公司,總部在D處,有A、B和C三個分公司,某一天B在訪問公司D時出現(xiàn)緩慢現(xiàn)象,我們在處理此問題時按照鏈路軸的診斷思想就是先考察A和C訪問D時是否存在緩慢問題,如A和D沒有出現(xiàn)訪問緩慢情況,則可排除D處的網(wǎng)絡(luò)服務(wù)問題,問題很大原因可能是B自身的原因?qū)е?。如下圖所示。
在確定了故障的大致位置后,需要對故障進行具體定位,此時故障定位應(yīng)分為物理層故障診斷、流量與協(xié)議分析診斷和網(wǎng)絡(luò)設(shè)備搜尋與定位診斷三個部分。物理層故障診斷即確定物理層中物理設(shè)備相互連接失敗或者硬件及線路本身的問題;流量與協(xié)議分析診斷是確定數(shù)據(jù)鏈路層的網(wǎng)絡(luò)設(shè)備的接口配置問題,網(wǎng)絡(luò)層網(wǎng)絡(luò)協(xié)議配置或操作錯誤,傳輸層的設(shè)備性能或通信擁塞問題,上三層或網(wǎng)絡(luò)應(yīng)用程序錯誤;網(wǎng)絡(luò)設(shè)備搜尋與定位則是根據(jù)流量和協(xié)議分析結(jié)果確定具體故障點。下面以舉例的方式進行說明:
某天上班時間,某公司網(wǎng)管接到投訴說上網(wǎng)和發(fā)郵件很慢,并且時斷時續(xù)。經(jīng)查證內(nèi)網(wǎng)間訪問一切正常,但在訪問外網(wǎng)時連接不穩(wěn)定甚至中斷,并且此故障存在于全網(wǎng)范圍內(nèi)。
此次故障只是針對訪問外網(wǎng),而在內(nèi)網(wǎng)一切正常。那么首先要排除是否為路由器故障。查看路由器工作的指示燈一切正常,登陸路由器查看WAN口流量也不大,不存在與外網(wǎng)連接鏈路帶寬被占用情況,更換路由器與交換機的連接線后故障依然存在,將路由器重啟,故障依舊,排除路由器的原因,同時確定不存在物理層故障診斷。
采用ES網(wǎng)絡(luò)通,在交換機上隨便找個接口連接到了網(wǎng)絡(luò)中,發(fā)現(xiàn)本地帶寬和廣播占用情況正常。
通過查看本地帶寬和帶寬占用情況得知網(wǎng)絡(luò)中沒有出現(xiàn)廣播風暴,從查看的結(jié)果來看,各種數(shù)據(jù)包的占用情況屬于正常。接下來查看各協(xié)議的分布情況。
通過協(xié)議分布結(jié)果中看到ARP包的百分比占用率84.5%,這對于一個正常的網(wǎng)絡(luò)來說顯得有些過高,在詳細查看中發(fā)現(xiàn)設(shè)備QINHAON的發(fā)包量是其他設(shè)備的幾千倍,由此可以大致判斷設(shè)備QINHAON存在問題,很有可能是中了ARP病毒!
下面將通過協(xié)議分析工具,進行捕獲數(shù)據(jù)包并進行解包分析以驗證判斷。
通過捕獲數(shù)據(jù)包發(fā)現(xiàn)ARP包均是從網(wǎng)關(guān)發(fā)來的應(yīng)答包,對捕獲的數(shù)據(jù)包進行解包后,記錄數(shù)據(jù)包的IP地址和MAC地址,然后利用ES-LAN查找此IP地址對應(yīng)的主機,發(fā)現(xiàn)IP地址和MAC并不是數(shù)據(jù)包解包后的IP地址,因此判斷出故障的原因是因為有臺設(shè)備中了ARP病毒,在全網(wǎng)中發(fā)送ARP欺騙數(shù)據(jù)包,從而導致其他的設(shè)備無法找到網(wǎng)關(guān)路由器,也就無法訪問外網(wǎng)。此時已通過流量與協(xié)議分析診斷確定出了故障原因。
最后使用ES-LAN便攜式分析儀,定位故障設(shè)備的位置。定位到該中毒設(shè)備的交換機位置后,只需要斷開此設(shè)備進行病毒查殺即可,此時就完成了網(wǎng)絡(luò)設(shè)備搜尋與定位診斷。
網(wǎng)絡(luò)發(fā)生故障是不可避免的。網(wǎng)絡(luò)建成運行后,網(wǎng)絡(luò)故障診斷非常重要。本文闡述了在網(wǎng)絡(luò)發(fā)生故障時,如何根據(jù)十字交叉法,從宏觀鏈路到微觀協(xié)議逐步確定故障點,最終排除故障。需要注意的是,如果想順利地實施十字交叉法,那么建立規(guī)范的運行有序的網(wǎng)絡(luò)系統(tǒng)是前提。如果網(wǎng)絡(luò)管理不規(guī)范,拓撲混亂,將會給十字交叉法的實施帶來很大的阻力,從而影響網(wǎng)絡(luò)故障定位的效率。