目前廣東電信IPTV用戶數(shù)高達(dá)1000萬(wàn),保證服務(wù)質(zhì)量是提升用戶體驗(yàn)、防止客戶流失的基本要求。EPG交互數(shù)據(jù)采集分析系統(tǒng)[1]涵蓋廣東全網(wǎng)用戶,采集大量EPG用戶體驗(yàn)數(shù)據(jù),形成多維度報(bào)表,有效地評(píng)估全網(wǎng)用戶的體驗(yàn)水平。然而,EPG用戶交互體驗(yàn)涉及機(jī)頂盒、網(wǎng)絡(luò)、EPG服務(wù)器等多個(gè)環(huán)節(jié),引起用戶體驗(yàn)變差的因素較為復(fù)雜,包括機(jī)頂盒硬件配置、網(wǎng)絡(luò)接入方式、網(wǎng)絡(luò)帶寬、EPG服務(wù)器配置、頁(yè)面資源緩存、系統(tǒng)的響應(yīng)速度等。針對(duì)突發(fā)故障,人工定位故障癥結(jié)存在效率低、準(zhǔn)確性低、不及時(shí)等缺陷,無(wú)法保障業(yè)務(wù)高效可靠地運(yùn)轉(zhuǎn)。
傳統(tǒng)的運(yùn)維方式已經(jīng)無(wú)法滿足IPTV業(yè)務(wù)需求。因此,需要借助機(jī)器學(xué)習(xí)算法和人工智能技術(shù)輔助運(yùn)維,在突發(fā)異常時(shí)快速定位故障原因,并給出正確的決策和修復(fù)?;谌W(wǎng)用戶的EPG體驗(yàn)數(shù)據(jù),量化用戶體驗(yàn)水平,實(shí)時(shí)監(jiān)測(cè)并自動(dòng)檢測(cè)體驗(yàn)異常,定位異常的癥結(jié)所在,報(bào)告運(yùn)維專家進(jìn)一步修復(fù)故障。
EPG用戶體驗(yàn)異常的自動(dòng)化檢測(cè)和異常原因的自動(dòng)化定位,是現(xiàn)階段IPTV智能運(yùn)維的基本需求。EPG異常原因自動(dòng)化定位框架如圖1所示,主要包括異常檢測(cè)模塊和異常定位模塊。異常檢測(cè)模塊中異常檢測(cè)算法監(jiān)測(cè)體驗(yàn)數(shù)據(jù)的時(shí)間序列,即用戶體驗(yàn)好壞,發(fā)現(xiàn)異常后自動(dòng)觸發(fā)異常定位模塊,機(jī)器學(xué)習(xí)算法從EPG用戶操作記錄中挖掘異常因素,定位異常原因。
圖1 EPG異常原因自動(dòng)化定位框架
EPG交互數(shù)據(jù)采集系統(tǒng)輸出多維度的體驗(yàn)數(shù)據(jù)時(shí)間序列,時(shí)間序列具有嚴(yán)格的有序性,移動(dòng)平均值算法[2]根據(jù)一定時(shí)間內(nèi)的實(shí)際數(shù)據(jù),逐項(xiàng)推移計(jì)算算術(shù)平均,預(yù)測(cè)下一時(shí)刻的體驗(yàn)數(shù)據(jù)值。通過(guò)對(duì)比下一時(shí)刻的實(shí)際值與預(yù)測(cè)值,檢測(cè)時(shí)間序列是否出現(xiàn)異常。
異常檢測(cè)自動(dòng)化流程如下:
①選擇長(zhǎng)度N的體驗(yàn)數(shù)據(jù)時(shí)間序列
②采用移動(dòng)平均值算法計(jì)算體驗(yàn)數(shù)據(jù)時(shí)間序列的波動(dòng)指標(biāo)——序列的移動(dòng)平均值和標(biāo)準(zhǔn)差
③比較序列預(yù)測(cè)值和下一時(shí)刻的體驗(yàn)數(shù)據(jù)實(shí)際值,若下一時(shí)刻的實(shí)際值在正常的波動(dòng)范圍(標(biāo)準(zhǔn)差倍數(shù))內(nèi),則體驗(yàn)數(shù)據(jù)正常;若下一時(shí)刻的實(shí)際值超出正常的波動(dòng)范圍,則體驗(yàn)數(shù)據(jù)異常,此時(shí)用預(yù)測(cè)值替代實(shí)際值作為下一時(shí)刻的體驗(yàn)數(shù)據(jù)值
④增加新的體驗(yàn)數(shù)據(jù)值,同時(shí)舍去序列最前面的體驗(yàn)數(shù)據(jù)值,生成新的時(shí)間序列,回到2),如此循環(huán)。
體驗(yàn)數(shù)據(jù)異常,從側(cè)面反映了EPG用戶交互體驗(yàn)過(guò)程中出現(xiàn)了問題,如何在眾多影響因素中定位導(dǎo)致異常的根本原因是智能運(yùn)維的一大難點(diǎn)。體驗(yàn)數(shù)據(jù)異常非個(gè)別現(xiàn)象,因此基于用戶體驗(yàn)的大數(shù)據(jù),采用決策樹機(jī)器學(xué)習(xí)算法挖掘出導(dǎo)致用戶體驗(yàn)異常的主要原因。
一旦發(fā)現(xiàn)異常,將當(dāng)前小時(shí)用戶操作記錄中的影響因素作為特征,建立決策樹模型[3],利用特征對(duì)數(shù)據(jù)進(jìn)行最佳劃分,從中找到導(dǎo)致用戶體驗(yàn)變差的原因。
異常原因定位自動(dòng)化流程如下:
①將異常時(shí)間段中的用戶分為緩慢用戶和正常用戶,將影響因素作為特征輸入決策樹建立模型
②根據(jù)模型的分支關(guān)系,確定異常原因。
EPG交互數(shù)據(jù)采集分析系統(tǒng)已在廣東IPTV現(xiàn)網(wǎng)部署應(yīng)用,實(shí)時(shí)采集用戶體驗(yàn)數(shù)據(jù),分析存儲(chǔ)了各地區(qū)緩慢用戶數(shù)和頁(yè)面、機(jī)頂盒、EPG服務(wù)器等多維度的EPG體驗(yàn)數(shù)據(jù)。EPG用戶體驗(yàn)異常原因自動(dòng)化定位方案已在廣東現(xiàn)網(wǎng)進(jìn)行實(shí)踐,多次監(jiān)測(cè)到體驗(yàn)數(shù)據(jù)異常,并及時(shí)定位到異常原因。
算法監(jiān)測(cè)到Z市某天晚高峰時(shí)段緩慢用戶數(shù)大幅升高,如圖2所示。正常情況下,Z市的緩慢用戶數(shù)維持在1000以下,當(dāng)天緩慢用戶數(shù)高達(dá)5000以上,超出移動(dòng)平均值的波動(dòng)范圍,檢測(cè)為異常。決策樹算法針對(duì)當(dāng)時(shí)時(shí)段EPG用戶操作記錄建模,從中定位到該城市某臺(tái)服務(wù)器出現(xiàn)問題,如圖3所示,問題服務(wù)器E1處于決策樹根節(jié)點(diǎn),其子節(jié)點(diǎn)均屬于緩慢用戶一類。報(bào)告運(yùn)維人員后,及時(shí)停止服務(wù)器相關(guān)服務(wù)并做相關(guān)排查,Z市的用戶體驗(yàn)恢復(fù)正常。
異常檢測(cè)和原因定位的自動(dòng)化實(shí)踐,從發(fā)現(xiàn)異常到找到異常服務(wù)器僅僅用了幾分鐘時(shí)間,相關(guān)運(yùn)維人員可以馬上停掉問題服務(wù)器的服務(wù),保證用戶體驗(yàn)質(zhì)量,做到及時(shí)止損。后面再更有針對(duì)性地檢查問題服務(wù)器具體故障,修復(fù)服務(wù)器。若是傳統(tǒng)的人工監(jiān)控,需對(duì)全省22個(gè)地市的緩慢用戶數(shù)曲線進(jìn)行觀察,憑借運(yùn)維人員經(jīng)驗(yàn)判斷是否發(fā)生異常,有可能會(huì)忽略某些輕微的浮動(dòng)(實(shí)際是異常)。發(fā)現(xiàn)異常后,運(yùn)維人員需從機(jī)頂盒、頁(yè)面、服務(wù)器等三個(gè)維度查看各個(gè)指標(biāo)是否正常,指標(biāo)數(shù)量大,耗時(shí)長(zhǎng),無(wú)法快速縮小異常范圍,更談不上快速修復(fù)故障。機(jī)器算法能夠在替代人工完成監(jiān)控,準(zhǔn)確又省時(shí)地定位異常原因,提高運(yùn)維效率,減小人工成本。
圖2 Z市緩慢用戶數(shù)
圖3 Z市決策樹模型
本文采用移動(dòng)平均值算法自動(dòng)化檢測(cè)異常,實(shí)時(shí)提醒運(yùn)維人員用戶體驗(yàn)是否變差;采用決策樹算法自動(dòng)化定位導(dǎo)致異常的原因,輔助運(yùn)維人員快速定位排障的方向,大大提高排障效率。下一步研究中,可納入更多的運(yùn)維事件與數(shù)據(jù),與各系統(tǒng)聯(lián)動(dòng),實(shí)現(xiàn)更智能化的運(yùn)維流程,提高運(yùn)維效率,減輕運(yùn)維人員負(fù)擔(dān),最終更好的保障用戶體驗(yàn)。