近日,某小區(qū)用戶反映上網(wǎng)時(shí)常會(huì)中斷,中斷的時(shí)間大概在10分鐘左右。由于網(wǎng)絡(luò)中斷的時(shí)間比較短,故障現(xiàn)象不容易捕捉到,這給故障的排查帶來了困難。
按照故障現(xiàn)象,首先排查了該OLT連接BRAS的端口收發(fā)光功率和設(shè)備的配置均沒有問題。趕到現(xiàn)場(chǎng),根據(jù)用戶ONU的MAC地址查找到了其所屬的OLT,然后使用ONU進(jìn)行上網(wǎng)測(cè)試,一段時(shí)間后果然出現(xiàn)了上網(wǎng)故障,于是決定配置端口鏡像進(jìn)行抓包分析。
抓包可以用來檢查網(wǎng)絡(luò)安全,也經(jīng)常用來進(jìn)行數(shù)據(jù)截取等,達(dá)到數(shù)據(jù)分析的目的。本例故障需要對(duì)數(shù)據(jù)進(jìn)行截獲。配置端口鏡像,端口鏡像功能通過在交換機(jī)或路由器上,將一個(gè)或多個(gè)源端口的數(shù)據(jù)流量轉(zhuǎn)發(fā)到某一個(gè)指定端口來實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的監(jiān)聽,在不嚴(yán)重影響源端口正常吞吐流量的情況下,通過鏡像端口對(duì)網(wǎng)絡(luò)的流量進(jìn)行監(jiān)控分析。在網(wǎng)絡(luò)中用鏡像功能,可以很好地對(duì)內(nèi)部的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行監(jiān)控管理,在網(wǎng)絡(luò)出故障的時(shí)候,可以快速定位故障。按照鏡像端口的定義,需要定義源端口和目的端口,針對(duì)此次網(wǎng)絡(luò)的具體情況,定義上聯(lián)口8/1為源端口,8/5為目的端口。接下來開始對(duì)端口進(jìn)行鏡像配置,具體的配置命令如下:
通過上面的配置,定義了監(jiān)視端口是8/5,被監(jiān)視端口即源端口是8/1,端口8/1上聯(lián) BRAS,端口8/5連接抓包電腦。通過使用專業(yè)抓包工具發(fā)現(xiàn)許多黑底紅字的報(bào)文,該報(bào)文大多是TCP錯(cuò)誤包或者校驗(yàn)和錯(cuò)誤的包,這說明數(shù)據(jù)在轉(zhuǎn)發(fā)過程中出現(xiàn)問題。出現(xiàn)這種報(bào)文的原因多半是網(wǎng)絡(luò)擁塞,導(dǎo)致順序包抵達(dá)時(shí)間不同,延時(shí)太長(zhǎng),或者包丟失,需要重新組合數(shù)據(jù)單元。這時(shí)候我們發(fā)現(xiàn)寬帶連接上網(wǎng)又?jǐn)嚅_了,而且上不去網(wǎng)的頻率逐漸增大。
上面通過抓包分析到網(wǎng)絡(luò)中出現(xiàn)擁塞,會(huì)不會(huì)是設(shè)備的處理能力存在不足的情況?根據(jù)這一假設(shè)我們登錄上OLT設(shè)備,分別使用命令show memory和show cpu-utilization查看內(nèi)存和CPU的內(nèi)存利用率,均沒有發(fā)現(xiàn)明顯異常情況。為了盡快解決問題,我們準(zhǔn)備在現(xiàn)場(chǎng)準(zhǔn)備一個(gè)測(cè)試機(jī),然后采取逐個(gè)PON口斷開的辦法鎖定故障點(diǎn)。就在插拔第一個(gè)PON口的時(shí)候,發(fā)現(xiàn)設(shè)備的PON模塊很熱,使用命令show card-temperature對(duì)設(shè)備溫度進(jìn)行查看,設(shè)備溫度顯示70度,很顯然設(shè)備溫度過高。
立即著手檢查設(shè)備,發(fā)現(xiàn)風(fēng)扇沒有正常工作,原因是連接風(fēng)扇的電源線處于斷開狀態(tài)。首先調(diào)整好風(fēng)扇電源線,然后對(duì)設(shè)備的濾網(wǎng)進(jìn)行清理除塵。經(jīng)過一段時(shí)間的觀察,網(wǎng)絡(luò)恢復(fù)正常,同時(shí)查看設(shè)備溫度,顯示35攝氏度,這一數(shù)值已經(jīng)在正常的范圍內(nèi)。
上面我們從得知故障現(xiàn)象后,認(rèn)真收集了故障信息,然后采取了使用鏡像端口對(duì)數(shù)據(jù)抓包的方式進(jìn)行問題分析,在得到故障原因是由于網(wǎng)絡(luò)擁塞引起,緊接著通過搭建測(cè)試環(huán)境,最終發(fā)現(xiàn)是設(shè)備溫度過熱,導(dǎo)致工作不正常,從而影響了正常上網(wǎng)數(shù)據(jù)的轉(zhuǎn)發(fā)。
這次故障的處理過程存在一定的僥幸心理,如果設(shè)備溫度一直保持或者持續(xù)升高,不但嚴(yán)重影響的寬帶用戶上網(wǎng)感受,而且會(huì)導(dǎo)致設(shè)備輕者宕機(jī),重者整機(jī)物理?yè)p壞,帶來不可預(yù)料的后果。借鑒此次故障的處理我們舉一反三,對(duì)所有在網(wǎng)OLT的風(fēng)扇、包括其他硬件進(jìn)行了一次排查,從而杜絕了此類事件的發(fā)生。