引言:Ping這個(gè)命令對(duì)于網(wǎng)絡(luò)運(yùn)維人員再熟悉不過(guò)了,它主要用于檢查網(wǎng)絡(luò)是否連通,可以很好地幫助我們分析和判定網(wǎng)絡(luò)故障。在日常網(wǎng)絡(luò)維護(hù)過(guò)程中,Ping延遲大甚至丟包的現(xiàn)象最讓我們?yōu)橹^痛。本文運(yùn)用抓包工具和Ping命令,準(zhǔn)確地揪出故障元兇——ONU自動(dòng)配置腳本。
近日,有同事反映,配置OLT設(shè)備時(shí)輸入命令不流暢,有卡頓的現(xiàn)象。得知這一故障現(xiàn)象后我們立即展開(kāi)排查。
使用Ping命令對(duì)OLT設(shè)備進(jìn)行測(cè)試,發(fā)現(xiàn)數(shù)據(jù)抖動(dòng)很大,具體Ping測(cè)試結(jié)果如圖1所示。
通過(guò)圖1可以看到,Ping該OLT的延遲時(shí)間長(zhǎng),而且報(bào)文的抖動(dòng)也比較大。這種延遲長(zhǎng)抖動(dòng)大的問(wèn)題就會(huì)導(dǎo)致遠(yuǎn)程配置設(shè)備卡頓和操作不流暢。
圖1 Ping測(cè)試結(jié)果
為了盡快排除故障,我們對(duì)其他的OLT設(shè)備也進(jìn)行了同樣的Ping測(cè)試,結(jié)果都是一樣。其實(shí)172.16.90.130這是一個(gè)設(shè)備的管理地址,那么互聯(lián)網(wǎng)業(yè)務(wù)是不是也和設(shè)備管理業(yè)務(wù)一樣呢?搭建測(cè)試環(huán)境使用PC機(jī)對(duì)BRAS進(jìn)行Ping測(cè)試,結(jié)果是互聯(lián)網(wǎng)業(yè)務(wù)沒(méi)有發(fā)現(xiàn)延遲和抖動(dòng)大的現(xiàn)象?,F(xiàn)在基本可以斷定只是網(wǎng)管業(yè)務(wù)受到影響,
我們的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)十分簡(jiǎn)單,故障OLT直連BRAS設(shè)備,設(shè)備的網(wǎng)管是通過(guò)BRAS另外一個(gè)端口連接網(wǎng)管交換機(jī)來(lái)實(shí)現(xiàn)的。為了盡快鎖定故障,我們決定使用抓包工具來(lái)分析問(wèn)題。在對(duì)設(shè)備進(jìn)行抓包前,首先需要配置鏡像端口和源端口,這次出現(xiàn)故障的OLT管理VLAN是VLAN90,所以有針對(duì)性地對(duì)該VLAN進(jìn)行分析。OLT設(shè)備的鏡像配置命令如下:
通過(guò)上面的配置定義8/5為監(jiān)視端口,被監(jiān)視端口即源端口是8/1,端口8/1上聯(lián) BRAS,端口 8/5連接抓包電腦。
通過(guò)報(bào)文的查看可以發(fā)現(xiàn)一些異常的報(bào)文信息,即有一些固定的IP地址給該OLT發(fā)送特定報(bào)文。在OLT上使用命令show process cpu和show cpuutilization查看設(shè)備進(jìn)程占用和OLT的CPU利用率時(shí),發(fā)現(xiàn)CPU利用率有時(shí)比較高。同時(shí)發(fā)現(xiàn)2個(gè)IP地址固定向該OLT發(fā)送報(bào)文,其中一個(gè)地址即該設(shè)備的管理服務(wù)器,還有一個(gè)地址10.66.66.16,該地址每隔一秒就會(huì)向OLT發(fā)送數(shù)據(jù),頻率十分高。
通過(guò)對(duì)該設(shè)備MAC地址的追蹤確定了該服務(wù)器的用途,該服務(wù)器用于配置ONU,其系統(tǒng)在運(yùn)行一個(gè)自動(dòng)配置ONU的腳本,它的工作原理是及時(shí)發(fā)現(xiàn)ONU上線,主動(dòng)配置設(shè)備。為了做到及時(shí)發(fā)現(xiàn)新上線ONU,該腳本會(huì)持續(xù)不斷地向設(shè)置好的OLT發(fā)送命令。
發(fā)現(xiàn)問(wèn)題后,我們果斷地將該腳本關(guān)閉,這時(shí)發(fā)現(xiàn)設(shè)備的CPU利用率立馬得到了下降,隨后也關(guān)閉了設(shè)備網(wǎng)管服務(wù)器的部分服務(wù)進(jìn)程,故障OLT的CPU利用率從剛才的80%下降到了20%,回到了正常的范圍內(nèi)。這個(gè)時(shí)候再次對(duì)OLT進(jìn)行Ping測(cè)試,網(wǎng)絡(luò)恢復(fù)正常,設(shè)備的Ping延遲普遍在1ms左右,同時(shí)遠(yuǎn)程配置該設(shè)備也十分流暢,故障得到解決。
上面我們從得知故障現(xiàn)象到使用Ping命令對(duì)設(shè)備測(cè)試時(shí)發(fā)現(xiàn)延遲長(zhǎng)、包抖動(dòng)大。找到問(wèn)題的誘因后,運(yùn)用抓包軟件和show命令將故障原因準(zhǔn)確定位。故障原因是自動(dòng)配置ONU的腳本頻繁的向OLT發(fā)送查詢(xún)命令,OLT的CPU利用率過(guò)高,從而導(dǎo)致設(shè)備網(wǎng)管數(shù)據(jù)無(wú)法處理。在采取關(guān)閉自動(dòng)配置腳本的措施后,設(shè)備CPU利用率回歸理性值,故障也隨之恢復(fù)。
通過(guò)該故障的排查,為方便后期ONU設(shè)備的配置,我們降低了腳本對(duì)OLT執(zhí)行命令的頻率,從而有效地減輕了設(shè)備CPU的利用率,這樣做的好處是在保證設(shè)備工作正常的同時(shí),還能繼續(xù)發(fā)揮自動(dòng)配置ONU的作用,達(dá)到了一舉兩得的好效果。