潘曉峰
一、概述
在現(xiàn)網(wǎng)維護(hù)工作中,BRAs設(shè)備接口板或主控板CPU高是常見(jiàn)的故障之一。單板CPU高并不一定影響設(shè)備業(yè)務(wù)運(yùn)行,往往不是導(dǎo)致設(shè)備業(yè)務(wù)故障的根因,因此單板CPU高是只是設(shè)備異常運(yùn)行的表現(xiàn)。在某些情況下cPU使用率可以協(xié)助進(jìn)行網(wǎng)上問(wèn)題定位。本文以華為ME60為例介紹CPU高問(wèn)題的定位思路及解決措施。
二、CPU高問(wèn)題基本定位思路
(1)采集單板CPU占用率:
在CPU高時(shí),第一時(shí)間采集單板CPU各任務(wù)占用率,以華為設(shè)備為例:display cpu-usage。
(2)查看告警、日志信息:
查看設(shè)備告警、歷史告警、日志信息,確認(rèn)CPU高問(wèn)題發(fā)生時(shí)間點(diǎn)和觸發(fā)任務(wù):
a)單板CPu默認(rèn)超過(guò)80%時(shí)設(shè)備會(huì)上報(bào)告警,低于80%會(huì)報(bào)告警恢復(fù)。
b)設(shè)備自啟動(dòng)后,日志會(huì)每間隔30分鐘記錄一次整機(jī)CPU和內(nèi)存信息,用于監(jiān)控設(shè)備CPU/內(nèi)存運(yùn)行軌跡,ME60在CPU超過(guò)80%會(huì)日志記錄告警和CPU占用率TOP3的任務(wù)。
(3)報(bào)文上送擁塞導(dǎo)致接口板CPU高:
①問(wèn)題原因
現(xiàn)網(wǎng)約50%的CPU高問(wèn)題都和大量報(bào)文在接口板上送CPU處理有關(guān),導(dǎo)致單板報(bào)文大量上送的原因各不相同,如二層環(huán)路、惡意攻擊、大量用戶同時(shí)撥號(hào)、大量IPOE用戶正常ARP學(xué)習(xí)等都可能導(dǎo)致大量報(bào)文上送。
②定位和處理方法:
1、確認(rèn)CPU高的任務(wù)模塊,如果SOCK/VPR/FECD/PES/TSD/SPMT等模塊CPU占用較高,則可以確認(rèn)是單板報(bào)文上送過(guò)多導(dǎo)致。
2、按照前面所描述的方法查看單板的CP-CAR上送統(tǒng)計(jì),連續(xù)查看CP-CAR~送計(jì)數(shù)確認(rèn)是哪類報(bào)文上送多導(dǎo)致CPU高。
3、display attack-source-trace slot