中國電信集團公司河南省電信分公司網(wǎng)管中心 李德偉
華為小區(qū)服務(wù)能力下降告警排查方法及解決思路
中國電信集團公司河南省電信分公司網(wǎng)管中心 李德偉
1.1 告警解釋
當(dāng)基站射頻資源或基帶資源不能滿足當(dāng)前小區(qū)的配置規(guī)格或CA業(yè)務(wù)配置異常時,產(chǎn)生此告警。例如:當(dāng)前小區(qū)的天線規(guī)格為4T4R,但是由于2個發(fā)射通道異常關(guān)閉,導(dǎo)致當(dāng)前小區(qū)異常,為保證小區(qū)業(yè)務(wù)不受影響,小區(qū)的天線規(guī)格會降低到2T2R;當(dāng)前小區(qū)需要重建到另外一塊基帶板,目標(biāo)基帶板的基帶資源不允許該小區(qū)按照原規(guī)格重建,則需要降低小區(qū)規(guī)格;多模場景下由于共享資源受限(如頻率、功率),導(dǎo)致部分天線資源分配失敗,引起小區(qū)降規(guī)格,產(chǎn)生此告警;多BBU互聯(lián)場景下,不同BBU上的CaGroupCell配置不一致導(dǎo)致CA工作不正常,產(chǎn)生此告警。
1.2 告警產(chǎn)生原理
當(dāng)小區(qū)建立需要的射頻資源或基帶資源不能滿足時,小區(qū)會嘗試降低規(guī)格建立,比如從2T2R小區(qū)降低為1T2R小區(qū),這時小區(qū)還是能正常建立,但是由于規(guī)格達不到配置要求,所以上報小區(qū)服務(wù)能下降告警來提示用戶。
1.3 告警恢復(fù)原理
小區(qū)服務(wù)能力下降告警需要以下兩個條件都滿足:
■ 底層的射頻、基帶資源恢復(fù),并滿足小區(qū)配置的規(guī)格要求;
■ 小區(qū)中沒有上行同步用戶;
說明:第二個條件是為了提升用戶的感受做的保護措施,因為在有上行同步用戶的情況下恢復(fù)告警,小區(qū)需要自動重建,用戶會掉網(wǎng),用戶感受會降低;當(dāng)小區(qū)中沒有上行同步用戶時,小區(qū)會自動重建,告警會自動恢復(fù)。
2.1 排查根源告警
排查根源告警是最重要也是首先要做的,因為大部分的小區(qū)服務(wù)能力下降告警都是底層故障導(dǎo)致,排查小區(qū)服務(wù)能力下降告警產(chǎn)生時間點前后是否存在以下根源告警,如果存在根源告警首先根據(jù)告警參考文檔恢復(fù)根源告警。
■ 26529 射頻單元駐波告警
■ 26545 射頻單元發(fā)射通道手動關(guān)閉告警
■ 26504 射頻單元CPRI接口異常告警
■ 26532 射頻單元硬件故障告警
■ 26538 射頻單元時鐘異常告警
■ 26524 射頻單元功放過流告警
■ 26200 單板硬件故障告警
■ 26230 BBU CPRI光模塊故障告警
■ 26232 BBU光模塊收發(fā)異常告警
■ 26234 BBU CPRI接口異常告警
■ 26503 射頻單元光模塊收發(fā)異常告警
該問題場景排查可以參考案例4.1。
2.2 排查人工操作
該步驟主要通過基站側(cè)的操作日志來排查,在操作日志中找到小區(qū)服務(wù)能力下降告警產(chǎn)生的時間點有沒有人工操作,重點關(guān)注駐波比測試操作,修改小區(qū)帶寬,天線數(shù),CPRI壓縮方式,閉塞RRU通道等。
2.2.1 排查駐波比測試場景
啟動駐波比測試時,RRU會依次上報通道不可用,當(dāng)BBU收到一個通道不可用消息時即降額建1T小區(qū)。這時如果有用戶接入且不退網(wǎng),即使后面RRU上報了通道可用消息給BBU小區(qū)也無法恢復(fù)為2T2R小區(qū),必須等到小區(qū)無用戶時才會恢復(fù)為2T2R??梢酝ㄟ^操作日志和告警日志排查,案例請參考4.2章節(jié)。
注意:如果駐波比測試是在M2000的定時任務(wù)里做的,在基站側(cè)的操作日志中觀察不到,這時需要在M2000上確認(rèn)是否有該操作。
2.2.2 排查修改小區(qū)規(guī)格的操作
查看操作日志中是否有修改小區(qū)帶寬,天線數(shù),CPRI壓縮方式的操作,這些操作會影響導(dǎo)致使用的CPRI線速率不同,其實這種場景也可以在2.3.1章節(jié)中排查出來。
2.2.3 排查人工關(guān)閉RRU通道
查看操作日志中是否有關(guān)閉RRU通道的操作,其實這種場景也可以在2.1章節(jié)排查出來,會有射頻單元發(fā)射通道手動關(guān)閉的告警。
2.3 根據(jù)具體問題排查
在小區(qū)服務(wù)能力下降告警的詳細(xì)信息中有“具體問題”字段,該字段指出了這次告警是哪個模塊異常導(dǎo)致的。
“具體問題”(Special Problem)包括以下原因:
(1)通道異常:這次告警是由RRU射頻通道上報的,需要重點檢查RRU相關(guān)的信息,可能原因有:
■ 執(zhí)行駐波比測試,導(dǎo)致射頻通道異常,請按照2.2.1章節(jié)排查。
■ CPRI線速率不滿足小區(qū)規(guī)格要求,請按照2.3.1章節(jié)排查。
■ 人工關(guān)閉RRU通道,請參考2.2.3章節(jié)。
■ 射頻單元CPRI接口異常,請參考2.1章節(jié)排查。
■ RRU的硬件能力不支持,用錯RRU模塊,請按照2.3.2章節(jié)排查。
(2)基帶降額:這次告警是由基帶L1上報的,需要重點檢查基帶板相關(guān)的信息,可能原因有:
■ 上行數(shù)據(jù)不同步,CPRI鏈路異常,請參考案例4.3章節(jié)排查。
■ BBU CPRI接口異常,有根源告警,請按照2.1章節(jié)排查。
■ 基帶板的硬件能力不支持,用錯基帶板,請按照2.3.3章節(jié)排查。
(3)CA業(yè)務(wù)異常:這次告警和CA業(yè)務(wù)相關(guān),需要檢查不同BBU間CaGroupCell的配置信息,具體參考2.4章節(jié)。
2.3.1 排查CPRI線速率
小區(qū)的建立需要占用一定的CPRI資源,比如2T2R 20M小區(qū)要求的CPRI線速率為2.5Gbit/s(可以通過附件的工具算出需要的CPRI線速率),如果CPRI線速率不夠會導(dǎo)致載波資源配置失敗,小區(qū)就會嘗試降低天線規(guī)格來適配,可以通過以下命令查詢當(dāng)前CPRI的線速率:
%%DSP CPRILBR:;%%
RETCODE = 0 執(zhí)行成功
查詢CPRI線速率
當(dāng)前鏈環(huán)首線速率(吉比特/秒) = 2.5
當(dāng)前鏈環(huán)首協(xié)商狀態(tài) = 協(xié)商完成
當(dāng)前環(huán)尾線速率(吉比特/秒) = 2.5
當(dāng)前環(huán)尾協(xié)商狀態(tài) = 協(xié)商完成
如果查出來的CPRI線速率低于需要的線速率則需要確認(rèn)光纖和光模塊的速率規(guī)格,可以通過換光模塊或光纖使CPRI速率達到要求。
注意:如果是CPRI MUX場景,需要確認(rèn)LTE的載波配置情況以及與LTE共用CPRI帶寬的其他制式的載波配置情況是否超過典型配置的最大規(guī)格,對于CPRI容量的要求可以參考附件《CPRI MUX特性參數(shù)描述》。
2.3.2 確認(rèn)基帶板型號和規(guī)劃一致
通過命令LST EUCELLSECTOREQM和LST BASEBANDEQM中的BaseBandEqmId關(guān)聯(lián)來查詢到基帶板的柜框槽號,再用查詢到的柜框槽號通過DSP BRDMFRINFO查詢基帶板的型號,確認(rèn)是否和規(guī)劃一致。
%%DSP BRDMFRINFO: CN=0, SRN=0, SN=2;%%
RETCODE = 0 執(zhí)行成功
查詢單板制造信息
----------------
型號 = WD22LBBPC
條碼 = 020UAQ10A7000122
描述 = HERT BBU,WD22LBBPC,HERT BBU Baseband Processing and Interface Unit,1*1
生產(chǎn)日期 = 2014-07-09
生產(chǎn)商 = Huawei
發(fā)行號 = 00
2.3.3 確認(rèn)RRU型號和規(guī)劃一致
通過命令LST EUCELLSECTOREQM和LST SECTOREQM中的SectorEqmId關(guān)聯(lián)來查詢到RRU的柜框槽號,再用查詢到的柜框槽號通過DSP BRDMFRINFO查詢RRU的型號,確認(rèn)是否和規(guī)劃一致。
特別地,如果基站是CPRI MUX場景,需要參考附件中《CPRI MUX特性參數(shù)描述》中關(guān)于CPRI MUX的基帶單板及射頻模塊的要求以及相關(guān)約束條件,確認(rèn)對應(yīng)的基帶板和射頻模塊是否滿足CPRI MUX組網(wǎng)要求。
2.4 排查CA場景
首先確認(rèn)CA小區(qū)是否是跨BBU CA場景,通過DSP CAGROUPCELL查看配置狀態(tài)是否正常。如果狀態(tài)不正常,需要通過命令LST CAGROUPCELL查看兩個BBU中的配置參數(shù)是否一致,如果不一致通過命令RMV CAGROUPCELL、ADD CAGROUPCELL修改配置,使兩個BBU中的CAGROUPCELL配置一致。
2.5 告警恢復(fù)
通過以上步驟排查完后,如果小區(qū)服務(wù)能力下降告警還沒有恢復(fù),有可能是此時小區(qū)中有上行同步用戶。確認(rèn)小區(qū)是否有上行用戶的方法,在WEBLMT中打開“監(jiān)測-->小區(qū)性能監(jiān)測--->監(jiān)測項選擇用戶數(shù)”(M2000上也可以啟動對應(yīng)的用戶數(shù)監(jiān)控),如下圖可以確認(rèn)上行同步用戶數(shù)。
圖1 WEBLMT上觀察小區(qū)用戶數(shù)
如果上行同步用戶數(shù)非0,而且需要立即恢復(fù)告警,可以通過如下命令去激活和激活小區(qū)操作來恢復(fù)。
%%/*35983*/DEA CELL:LOCALCELLID= 0;%%
RETCODE = 0 執(zhí)行成功
%%/*36361*/ACT CELL:LOCALCELLID= 0;%%
RETCODE = 0 執(zhí)行成功
經(jīng)過上面的步驟嘗試恢復(fù)告警,如果告警還沒有恢復(fù),請返回主控板、基帶板和RRU的日志給華為研發(fā)分析。
4.1 CPRI接口異常導(dǎo)致的小區(qū)服務(wù)能力下降告警
鄭州電信港區(qū)棗?;▓@發(fā)現(xiàn)小區(qū)服務(wù)能力下降告警,通過根源告警排查,看到相關(guān)時間點有“射頻單元CPRI接口異常告警”,所以首先排查該根源告警(說明:由于兩個告警的機制不同,告警上報時間點不會完全相同,在1分鐘之內(nèi)都正常),一線上站確認(rèn)光模塊和光纖間沒有插緊,重新插拔了一下光模塊和光纖,問題解決。
圖2 查看時間點的根源告警
注意:有些場景在告警日志中可能看不到相關(guān)的告警(比如說CPRI閃斷),這個時候除了看告警日志還需要看故障日志。
4.2 CPRI接口接收失敗故障導(dǎo)致上行數(shù)據(jù)不同步最終導(dǎo)致小區(qū)服務(wù)能力下降告警
南陽電信方城化肥廠局點產(chǎn)生小區(qū)服務(wù)能力下降告警,具體問題是基帶降額,排查了相關(guān)告警、操作日志和CPRI線速率,從基帶的故障日志中可以看到對應(yīng)時間點有上行數(shù)據(jù)不同步故障,并且前面有CPRI接口接收失敗故障,基帶檢測5分鐘內(nèi)沒有收到RRU發(fā)的上行數(shù)據(jù),就認(rèn)為是異常,給L3報上行數(shù)據(jù)不同步故障,L3再把該故障映射為小區(qū)服務(wù)能力下降告警。
圖3 小區(qū)服務(wù)能力下降告警具體原因