周佳明
(寧夏寧東供電局調(diào)度通信中心 寧夏 靈武 750411)
在排除比較復(fù)雜網(wǎng)絡(luò)的故障時(shí),我們常常要從多種角度來測試和分析故障的現(xiàn)象,準(zhǔn)確確定故障點(diǎn)。
1.1 七層的網(wǎng)絡(luò)結(jié)構(gòu)分析模型方法
我們知道根據(jù)ISO組織發(fā)布的OSI(Open System Internetwork)即開放通信系統(tǒng)互聯(lián)參考模型。計(jì)算機(jī)網(wǎng)絡(luò)自下而上分為物理層、數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層、會話層、表示層、應(yīng)用層。從這七層結(jié)構(gòu)的定義和功能上逐一進(jìn)行分析和排查,這是傳統(tǒng)的而且最基礎(chǔ)的分析和測試方法。這里有自下而上和自上而下兩種思路。自下而上是:從物理層的鏈路開始檢測直到應(yīng)用。自上而下是:從應(yīng)用協(xié)議中捕捉數(shù)據(jù)包,分析數(shù)據(jù)包統(tǒng)計(jì)和流量統(tǒng)計(jì)信息,以獲得有價(jià)值的資料。
1.2 使用工具分析
工具型分析方法有強(qiáng)大的各種測試工具和軟件,它們的自動(dòng)分析能快速地給出網(wǎng)絡(luò)的各種參數(shù)甚至是故障的分析結(jié)果,這對解決常見網(wǎng)絡(luò)故障非常有效。這里推薦使用的是FLUCK網(wǎng)絡(luò)測試工具。但是工具畢竟是工具,在使用過程中難免會出現(xiàn)一些人為的或者設(shè)備的誤差,會在處理的過程中擾亂處理思路。
1.3 依靠經(jīng)驗(yàn)分析
在大多數(shù)的網(wǎng)絡(luò)維護(hù)工作人員的工作中是在不斷的積累處理故障的經(jīng)驗(yàn)。從而在新的故障發(fā)生時(shí)依靠平時(shí)積累的經(jīng)驗(yàn)首先對故障做出判斷。這種方式雖然在處理一些故障時(shí)迅速而且有效,但是容易產(chǎn)生慣性思維。當(dāng)出現(xiàn)新的故障無法用經(jīng)驗(yàn)解決時(shí)就顯得比較棘手。
2.1 根據(jù)上面所述,對于某一臺聯(lián)網(wǎng)計(jì)算機(jī)上不了網(wǎng)的故障,我們使用網(wǎng)絡(luò)分層分析法自下而上進(jìn)行分析。首先要分別確定此計(jì)算機(jī)的網(wǎng)卡安裝是否正確,是否存在硬件故障,網(wǎng)絡(luò)配置是否正確在實(shí)際工作中我們一般采用Ping本機(jī)的回送地址(127.0.0.1)來判斷網(wǎng)卡硬件安裝和TCP/IP協(xié)議的正確性。如果能Ping通,即說明這部分沒有問題。如果出現(xiàn)超時(shí)情況,則要檢查計(jì)算機(jī)的網(wǎng)卡是否與機(jī)器上的其它設(shè)備存在中斷沖突的問題。通過查看系統(tǒng)屬性中的設(shè)備管理器,查看是否在網(wǎng)絡(luò)適配器的設(shè)備前面有黃色驚嘆號或紅色叉號,如有則說明硬件的驅(qū)動(dòng)程序沒有安裝成功,可刪除后重新安裝。另外,要確保TCP/IP協(xié)議安裝的正確性,并且要綁定在你所安裝的網(wǎng)卡上。如果重新安裝后還是Ping不通回送地址,最好換上一塊正常的網(wǎng)卡試一試。
當(dāng)確保了計(jì)算機(jī)的硬件設(shè)備和網(wǎng)絡(luò)配置正確后,接著就要查看計(jì)算機(jī)與交換機(jī)之間的雙絞線,交換機(jī)的RJ45端口或交換機(jī)的配置是否有問題。此時(shí)我們要Ping上網(wǎng)計(jì)算機(jī)所在VLAN的網(wǎng)關(guān),不通的話就要分段檢查上面所說的各項(xiàng)。最簡單的方法是檢查雙絞線。這里我們使用設(shè)備進(jìn)行分析,用線纜測試儀檢測雙絞線是否斷開。雙絞線沒有問題,就要查看交換機(jī)的端口是否壞了。交換機(jī)每一個(gè)端口都有狀態(tài)指示燈以詢問一下其它網(wǎng)管人員就可以排除了,如果不放心可以對照查看。交換機(jī)的參數(shù)配置表也是網(wǎng)絡(luò)管理員必備的資料之一,并且隨著網(wǎng)絡(luò)用戶的變化要不斷地修改,檢測到此,如果端口指示燈不亮,就只能是端口損壞了,可以把跳線接到正常使用的端口上排除其它原因,確定是端口的問題。
這里要補(bǔ)充的一點(diǎn)是,作為一名網(wǎng)絡(luò)管理員還必須清楚單位的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。這一點(diǎn)在處理單臺計(jì)算機(jī)的問題上似乎顯的不是很重要但是其重要性體現(xiàn)在在處理一批計(jì)算機(jī)的網(wǎng)絡(luò)故障。
2.2 一批聯(lián)網(wǎng)計(jì)算機(jī)上不了網(wǎng)對于同時(shí)有一批計(jì)算機(jī)上不了網(wǎng)的故障,首先要找到這些計(jì)算機(jī)的共性,如是不是屬于同一VLAN或接在同一交換機(jī)上的,若這些計(jì)算機(jī)屬于同一VLAN,且屬于計(jì)算機(jī)分別連接于不同的樓層交換機(jī),那么檢查一下路由器上是否有acl限制,在路由器上對該VLAN的配置是否正確,路由協(xié)議(如我局的OSPF協(xié)議)是否配置正確。若這些計(jì)算機(jī)屬于同一交換機(jī),則應(yīng)到機(jī)房檢查該交換機(jī)是否有電源松落情況,或該交換機(jī)CPU負(fù)載率是否很高,與上一級網(wǎng)絡(luò)設(shè)備的鏈路是否正常。通常某交換機(jī)連接的所有電腦都不能正常與網(wǎng)內(nèi)其它電腦通訊,這是典型的交換機(jī)死機(jī)現(xiàn)象,可以通過重新啟動(dòng)交換機(jī)的方法解決。如果重新啟動(dòng)后故障依舊,則檢查一下那臺交換機(jī)連接的所有電腦,看逐個(gè)斷開連接的每臺電腦的情況,慢慢定位到某個(gè)故障電腦,會發(fā)現(xiàn)多半是某臺電腦上的網(wǎng)卡故障導(dǎo)致的。故障通常是交換機(jī)的某個(gè)端口變得非常緩慢,最后導(dǎo)致整臺交換機(jī)或整個(gè)堆疊慢下來。通過控制臺檢查交換機(jī)的狀態(tài),發(fā)現(xiàn)交換機(jī)的緩沖池增長得非???,達(dá)到了90%或更多。原因及解決方法為:首先應(yīng)該使用其它電腦更換這個(gè)端口上原來的連接,看是否由這個(gè)端口連接的那臺電腦的網(wǎng)絡(luò)故障導(dǎo)致的,也可以重新設(shè)置出錯(cuò)的端口并重新啟動(dòng)交換機(jī),個(gè)別時(shí)候,可能是這個(gè)端口損壞了。
另外,還要注意網(wǎng)絡(luò)回路問題,所謂網(wǎng)絡(luò)回路就是網(wǎng)絡(luò)中存在環(huán),簡單點(diǎn)比方說兩臺交換機(jī)相連,應(yīng)該使用一條線相連,達(dá)到級聯(lián)的效果。如果使用兩條線連接,就構(gòu)成了回路。因此在回路產(chǎn)生的時(shí)候需要對交換機(jī)配置生成樹協(xié)議,不然的話信息會無終止傳輸,引起廣播風(fēng)暴.整個(gè)網(wǎng)絡(luò)癱瘓。例如剛有新機(jī)器加入網(wǎng)絡(luò)的時(shí)候,從本身接入交換機(jī)產(chǎn)生一個(gè)mac地址和端口對照表,然后該交換機(jī)將該表傳到相鄰交換機(jī),在另一個(gè)端口會穿回來,從而又增加一個(gè)mac地址表,這樣無限制的傳輸會引起網(wǎng)絡(luò)帶寬用盡,從而癱瘓。筆者所在單位的一個(gè)工區(qū)曾經(jīng)出現(xiàn)過這樣的情況,該網(wǎng)段的所有計(jì)算機(jī)均無法正常使用網(wǎng)絡(luò),在重啟交換機(jī)后的開始一小段時(shí)間網(wǎng)絡(luò)恢復(fù),但是過一段時(shí)間故障依舊。最后經(jīng)過檢查發(fā)現(xiàn)該工區(qū)的一間辦公室內(nèi)使用一臺8口交換機(jī),該辦公室人員由于沒有基礎(chǔ)的網(wǎng)絡(luò)知識將一根雙絞線環(huán)接在了該交換機(jī)的兩個(gè)端口上,將該雙絞線摘除問題即解決。解決方法雖然簡單但是檢查的方法需要我們研究學(xué)習(xí)。
如果判斷網(wǎng)絡(luò)中存在回路的話,你可以用抓包分析軟件對這批計(jì)算機(jī)所在的網(wǎng)絡(luò)進(jìn)行抓包。注意軟件的部署位置要正確,回路問題可能導(dǎo)致廣播風(fēng)暴,查看抓包后的數(shù)據(jù)包解碼,如有大量的數(shù)據(jù)包IP標(biāo)識相同,則可能存在回路問題,因?yàn)檎G闆r下網(wǎng)絡(luò)中每個(gè)數(shù)據(jù)包的IP標(biāo)識符都會是不同的。
3.1 監(jiān)控系統(tǒng)分析
通過網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)獲取告警和性能信息進(jìn)行故障定位。我們單位使用了深信服網(wǎng)絡(luò)網(wǎng)管,可以對全單位的網(wǎng)絡(luò)設(shè)備進(jìn)行管理,平時(shí)多觀察各端口、各鏈路、以及各業(yè)的流量。當(dāng)有人反映不能連接至網(wǎng)絡(luò)或網(wǎng)速很慢時(shí),可通過網(wǎng)管觀察計(jì)算機(jī)與交換機(jī)的連接情況,是否有時(shí)斷時(shí)通的現(xiàn)象,交換機(jī)CPU負(fù)載率是否很高,線路流量是否很大。通過觀察設(shè)備端口狀態(tài),分析和觀察交換機(jī)哪個(gè)端口所接的計(jì)算機(jī)發(fā)包量不太正常。
3.2 查看網(wǎng)絡(luò)設(shè)備日志
經(jīng)常檢查網(wǎng)絡(luò)設(shè)備的日志,分析設(shè)備狀況。我曾經(jīng)通過檢查設(shè)備日志觀察到一變電站交換機(jī)的業(yè)務(wù)VLAN在一時(shí)間 down掉,然后在另一時(shí)間又up。因該變電站計(jì)算機(jī)很少有人使用,單位人員未感覺網(wǎng)絡(luò)中斷,在此期間我們檢查并確定了設(shè)備、網(wǎng)線、交換機(jī)配置、交換機(jī)端口均正常。后來又出現(xiàn)長時(shí)間down掉,由此我們立即該光路存在有故障,后經(jīng)通信專業(yè)人員檢查,發(fā)現(xiàn)該變電站的光纖配線盒的法蘭頭出現(xiàn)接觸問題。經(jīng)過更換問題得到長久的解決,從而減少了出現(xiàn)故障的隱患,并在最短時(shí)間內(nèi)恢復(fù)網(wǎng)絡(luò)。
3.3 替換法
替換法就是使用一個(gè)工作正常的物體去替換一個(gè)工作不正常的物體,從而達(dá)到定位故障、排除故障的目的。這里的物件可以是一段線纜、一個(gè)設(shè)備和一塊模塊。這種方法的好處是可以快速的處理故障,從而減少業(yè)務(wù)中斷的時(shí)間。通常應(yīng)急處置都使用該方法。
在日常辦公環(huán)境下的網(wǎng)絡(luò)故障種類繁多且十分復(fù)雜。單一得使用一種方法在處理故障時(shí)是很難獲得快速有效的結(jié)果。將各種方法有機(jī)的結(jié)合在一起,則會使得處理故障時(shí)事半功倍。本文只是介紹了常見的幾類故障及其維護(hù)方法,為了在網(wǎng)絡(luò)出現(xiàn)故障時(shí)及時(shí)對網(wǎng)絡(luò)進(jìn)行維護(hù),以最快的速度恢復(fù)網(wǎng)絡(luò)的正常運(yùn)行,在網(wǎng)絡(luò)維護(hù)中還需要注意以下幾個(gè)方面:(1)建立完整的網(wǎng)絡(luò)檔案,以供維護(hù)時(shí)查詢。如系統(tǒng)需求分析報(bào)告、網(wǎng)絡(luò)設(shè)計(jì)總體思路和方案、網(wǎng)路拓?fù)浣Y(jié)構(gòu)圖、規(guī)劃圖、網(wǎng)絡(luò)設(shè)備和網(wǎng)線的選擇、網(wǎng)絡(luò)的布線、網(wǎng)絡(luò)的IP分配,網(wǎng)絡(luò)設(shè)備分布等等;(2)做好網(wǎng)絡(luò)維護(hù)日志的良好習(xí)慣,尤其是有一些發(fā)生概率低但危害大的故障和一些概率高的故障,對每臺機(jī)器都要作完備的維護(hù)文檔,以有利于以后故障的排查。這也是一種經(jīng)驗(yàn)的積累;(3)提高網(wǎng)絡(luò)安全防范意識,提高口令的可靠性,并為主機(jī)加裝最新的操作系統(tǒng)的補(bǔ)丁程序和防火墻、防黑客程序等來防止可能出現(xiàn)的漏洞;(4)增強(qiáng)日常巡檢機(jī)制,對重要設(shè)備做到實(shí)時(shí)監(jiān)控,對非重要設(shè)備做出現(xiàn)問題能夠馬上獲知;(4)再好的技術(shù)手段也會存在漏洞,因此完備的行政管理措施在避免出現(xiàn)人為故障時(shí)顯的尤為重要。