近幾天,單位有部分用戶反映訪問互聯(lián)網(wǎng)有明顯的卡頓現(xiàn)象,網(wǎng)頁(yè)經(jīng)常無法順利打開,要刷新一次或多次才能顯示。經(jīng)ping –t xxx命 令測(cè) 試 www.163.com,www.qq.com,www.sina.com.cn等網(wǎng)站,丟包率均在8%左右(如圖 1)。
圖1 Ping命令測(cè)試
引起網(wǎng)絡(luò)傳輸丟包的原因主要有三類。
設(shè)備故障包括硬件方面的故障和軟件方面的故障。硬件故障主要是物理層故障,如網(wǎng)卡故障、交換機(jī)、路由器接口故障等。軟件故障是指參數(shù)配置問題,如網(wǎng)卡參數(shù)、靜態(tài)路由、路由協(xié)議、默認(rèn)網(wǎng)關(guān)、DNS等設(shè)置有誤。
當(dāng)網(wǎng)絡(luò)帶寬過小或網(wǎng)絡(luò)中存在環(huán)路、ARP病毒、蠕蟲病毒、P2P等引起的網(wǎng)絡(luò)風(fēng)暴或異常增大的流量時(shí),往往發(fā)生擁塞。
關(guān)鍵設(shè)備的MTU(最 大 傳 輸單元)配置不正確,引起數(shù)據(jù)包無法被正確重組或被丟棄(以太網(wǎng)MTU為1500Byte,IEEE802.3/802.2MTU為1492Byte)。
單位網(wǎng)絡(luò)拓?fù)浣Y(jié)果如圖2所示。
圖2 網(wǎng)絡(luò)拓?fù)?/p>
依據(jù)網(wǎng)絡(luò)拓?fù)?,在用戶終端上,逐級(jí)用ping –t xxx命令測(cè)試有無丟包現(xiàn)象發(fā)生,其中xxx代表所經(jīng)過的網(wǎng)絡(luò)設(shè)備。Ping接入層交換機(jī)無丟包,延時(shí)<1ms,ping核心交換機(jī)無丟包,延時(shí)<1ms,ping防火墻內(nèi)網(wǎng)接口無丟包,延時(shí)<1ms,ping防火墻外網(wǎng)接口無丟包,延時(shí)<1ms,但Ping互聯(lián)網(wǎng)網(wǎng)址時(shí)產(chǎn)生丟包,丟包率約 8%,延時(shí) >12ms,說明導(dǎo)致丟包的設(shè)備可能為防火墻、8口小交換機(jī)、光纖收發(fā)器或電信光纖鏈路。
進(jìn)一步在核心交換機(jī)Cisco 6504E上使用擴(kuò)展Ping命令,或用簡(jiǎn)化的命令ping xxx repeat 1000測(cè)試互聯(lián)網(wǎng)地址,均發(fā)生丟包,而且丟包率為14%(如圖 3)。
圖3 核心交換機(jī)Ping測(cè)試
在核心交換機(jī)上做端口鏡像,命令為:
其中g(shù)4/47口上連防火墻,g4/46口連接安裝有“科來網(wǎng)絡(luò)分析系統(tǒng)”的筆記本電腦,進(jìn)行抓包分析,結(jié)果如圖4所示。
圖4 科來網(wǎng)絡(luò)分析系統(tǒng)抓包分析
發(fā)現(xiàn)有大量的TCP重傳數(shù)據(jù)包,這是由于丟包造成的,而重傳的包絕大部分是與公網(wǎng)IP地址交互的數(shù)據(jù)包。
telnet登錄防火墻,使用ping xxx interface eth0(eth0為連接光纖收發(fā)器的接口),丟包率更大。
綜合以上測(cè)試結(jié)果,可以排除核心交換機(jī)硬件故障或配置故障的可能。
根據(jù)用戶反饋,此次報(bào)告網(wǎng)速慢、卡頓情況的用戶數(shù)較少,大部分用戶并未受影響,因此防火墻硬件故障的可能性也可排除。防火墻上有2條互聯(lián)網(wǎng)鏈路,帶寬分別為30Mbps和50Mbps,其中有30%用戶使用默認(rèn)路由經(jīng)30M鏈路訪問互聯(lián)網(wǎng),其余用戶使用策略路由通過50M鏈路訪互聯(lián)網(wǎng)。由此想到是否是30M鏈路故障。
將筆記本電腦IP地址、網(wǎng)關(guān)、DNS設(shè)置為與防火墻eth0相同的參數(shù)后,直接連接光纖收發(fā)器1的LAN口,進(jìn)行Ping測(cè)試,到電信網(wǎng)關(guān)和互聯(lián)網(wǎng)地址均無丟包,說明光纖鏈路和光纖收發(fā)器1無故障。
難道是8口小交換機(jī)的問題?該機(jī)是一款低端桌面型交換機(jī),沒有網(wǎng)管功能,已使用了6年,數(shù)據(jù)交換能力可能成為瓶頸。于是,用一臺(tái)二層Cisco 2960交換機(jī)替換,再次Ping測(cè)試,丟包現(xiàn)象消失了。
此次解決網(wǎng)絡(luò)丟包問題走了一些彎路,花了3天時(shí)間才找出問題。其實(shí),根據(jù)逐級(jí)Ping測(cè)試結(jié)果,以及受影響用戶的VLAN分布情況,可以更快速地大致判斷出是光纖鏈路1所連接的部分出現(xiàn)故障,再根據(jù)筆記本單機(jī)測(cè)試光纖鏈路1無丟包這一情況,從而推斷出故障設(shè)備為小交換機(jī)。