License是一種不依賴于硬件的軟件保護(hù)方法,主要通過含有授權(quán)信息的License文 件,來規(guī)定用戶可以使用的功能、性能和其他相關(guān)約束。它可以控制系統(tǒng)支持的用戶接入數(shù)目等一系列內(nèi)容。筆者單位的互聯(lián)網(wǎng)用戶最近頻繁出現(xiàn)撥號故障,通過排查網(wǎng)絡(luò)設(shè)備,并運用抓包工具對PPPOE會話分析、查看BRAS設(shè)備日志信息,最終將故障源頭定位在License上,即系統(tǒng)支持的用戶接入數(shù)目達(dá)到上限。重新申請安裝License后故障排除。接下來就詳細(xì)介紹故障的處理過程。
近日,陸續(xù)接到互聯(lián)網(wǎng)用戶報修,反映的故障現(xiàn)象是用戶瀏覽網(wǎng)頁時掉線,時間大多集中在夜間。針對這一故障現(xiàn)象,我們決定進(jìn)一步收集故障信息,快速找到故障點。
圖1 PPPOE會話抓包示意圖
首先向一線運維人員了解情況,得到的信息是最近幾天晚上寬帶用戶會集中報修,而且會在晚上10點左右故障自動恢復(fù)。了解了這一信息,我們通過用戶的ONU地址迅速鎖定了OLT設(shè)備。從OLT設(shè)備的溫度、內(nèi)存和CPU利用率等方面進(jìn)行查看,并且在BRAS上查看連接該OLT的端口利用率,均沒有發(fā)現(xiàn)問題。
為了進(jìn)一步掌握第一手資料,我們在夜間用戶反映故障的時間段至現(xiàn)場排查,就在撥號上網(wǎng)的同時,顯示錯誤代碼651。但是重復(fù)撥號還可以撥上去,然后正常退出來就撥不上去了。
針對這一故障現(xiàn)象,我們在現(xiàn)場撥號的同時在Radius服務(wù)器上查看賬號上線記錄,只有撥號成功的時候,Radius上可以看到賬號正常上線,但是撥號651的時候,Radius沒有接收到賬號的請求記錄。
既然可以撥號成功,就可以排除賬號和服務(wù)器的故障嫌疑。既然Radius服務(wù)器運行正常,那么為什么撥號不能成功呢?為了進(jìn)一步了解寬帶用戶PPPOE撥號的會話過程,需要使用抓包工具進(jìn)一步采集信息,從而盡快找到故障原因。具體的PPPOE會話抓包示意圖如圖1所示。
通過圖1可以看到撥號的電腦和BRAS進(jìn)行PPPOE報文的交互過程,在進(jìn)行寬帶賬號進(jìn)行認(rèn)證的時候,顯示認(rèn)證失敗Auth Failed。剛才我們講到在撥號錯誤的時候,賬號撥號的信息沒有到達(dá)Radius,而且BRAS返回的信息顯示認(rèn)證失敗。這樣就可以進(jìn)一步將故障的排查點指向BRAS。
登錄到BRAS上使用命令show submanage ip-pool used-rate domain jn 查看用戶地址池的使用情況,得到的信息是地址池內(nèi)的IP地址充足。如果地址池的IP地址數(shù)量達(dá)到上限,撥號會顯示錯誤代碼734,而這里顯示的是651。排除地址池的問題后,緊接著在BRAS設(shè)備上使用命令show logging alarm查看到設(shè)備告警信息:
threshold({ | system| }, CurCount = 16000,MaxCount = 16000, Current= 100%, threshold =100%)
這個告警信息頻繁出現(xiàn),該告警信息清晰地告訴我們,用戶數(shù)已經(jīng)超過閾值16000,閾值的使用率也是100%。再使用命令show License查看用戶數(shù),已經(jīng)到達(dá)16000。
了解了故障根源,立即著手申請License,并準(zhǔn)備安裝新的License,具體的步驟是,使用FTP軟件上傳至BRAS,然后安裝、使能和更新即可。安裝完新的License后,查看到設(shè)備可支持最大上線數(shù)達(dá)到64000,正常用戶在線數(shù)達(dá)到16200。經(jīng)過對網(wǎng)絡(luò)驗證測試,撥號恢復(fù)正常,故障得以排除。
上面我們從得知故障現(xiàn)象入手,按照網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)先后查看OLT和BRAS的相關(guān)參數(shù),并使用抓包工具對PPPOE會話進(jìn)行了分析,得知是BRAS拒絕了撥號認(rèn)證。也正是這一工具的使用,使我們迅速縮小了故障范圍,最后,結(jié)合BRAS的告警日志找到了故障根源,通過安裝新的License后故障徹底排除。
其實,故障的處理過程也是自身能力不斷得到提高的過程。故障的出現(xiàn)并不可怕,可怕的是找不到頭緒。故障出現(xiàn)后,最主要的是收集相關(guān)信息,然后根據(jù)這些信息迅速做出判斷,并使用show命令查看設(shè)備告警信息進(jìn)行輔助。同時,掌握抓包工具的使用至關(guān)重要,它可以清晰地將數(shù)據(jù)包轉(zhuǎn)發(fā)過程展現(xiàn)在我們面前,對故障的準(zhǔn)確定位和處理提供良好的理論依據(jù)。故障處理的基本思路是逐步縮小故障范圍,進(jìn)而找到故障點解決問題。
后期,我們在BRAS上查看互聯(lián)網(wǎng)用戶僅12000,其他的4000是VOD點播用戶,這樣整機用戶數(shù)就超過16000。針對這次故障,我們認(rèn)真排查了其他BRAS的License,并將License用戶數(shù)使用情況進(jìn)行實時監(jiān)控,在利用率達(dá)到85%時會出現(xiàn)告警,在一定程度上做到了問題的早發(fā)現(xiàn),早診斷,以期將網(wǎng)絡(luò)維護(hù)的更加穩(wěn)定和諧。