張佳
摘要:現(xiàn)階段國(guó)家大力推廣數(shù)字高清互動(dòng)電視業(yè)務(wù)以及今后全面實(shí)現(xiàn)數(shù)字電視及其增值服務(wù),互動(dòng)高清電視用戶數(shù)量的不斷增加,隨之而來的互動(dòng)電視故障問題也日益增多。機(jī)頂盒在安裝維修以及使用過程中出現(xiàn)黑屏故障占維修故障總數(shù)的比例明顯升高。在多年對(duì)系統(tǒng)升級(jí)改造和使用維護(hù)中,我們結(jié)合機(jī)頂盒的硬件、軟件及網(wǎng)絡(luò)等相關(guān)知識(shí),摸索和總結(jié)了一些經(jīng)驗(yàn),在此與同行們共同探討,希望能在機(jī)頂盒運(yùn)行和維護(hù)技術(shù)上,起到拋磚引玉的作用。本文對(duì)互動(dòng)電視常見點(diǎn)播故障的排查方法進(jìn)行探討。
關(guān)鍵詞:互動(dòng)電視;故障處理;智能運(yùn)維
1.常見點(diǎn)播故障的排查方法
為了更好的分析問題排查故障,在報(bào)故障時(shí)制定了上報(bào)故障規(guī)范,并提前通知分公司。規(guī)范如下:一是明確什么業(yè)務(wù)出問題,并提供出故障的機(jī)頂盒的智能卡號(hào),時(shí)間點(diǎn),以及錄像或照片;二是根據(jù)分析故障需求,可提供網(wǎng)絡(luò)抓包以進(jìn)一步分析;三是從地市分公司省公司的匯聚交換機(jī)上接出網(wǎng)線連接到STB上,通過繞開地市城域網(wǎng)的方式,點(diǎn)播是否能夠復(fù)現(xiàn)故障,能夠復(fù)現(xiàn)就是省公司或者機(jī)頂盒的問題。如果不能夠復(fù)現(xiàn)問題則是分公司本地網(wǎng)絡(luò)的問題。運(yùn)維人員需掌握的知識(shí)及會(huì)使用點(diǎn)播模擬器:一是熟悉互動(dòng)電視系統(tǒng)的工作原理;二是能夠熟練使用Wireshark工具分析TCP,UDP,HLS協(xié)議;三是掌握點(diǎn)播模擬器的使用,該工具是根據(jù)機(jī)頂盒點(diǎn)播的流程開發(fā)的,工具可調(diào)用VLC直接播放點(diǎn)播故障視頻,以查看播放效果,或者將問題節(jié)目下載下來,使用碼流分析儀進(jìn)行分析。全省大面積用戶報(bào)故障的原因比較好排查,根據(jù)現(xiàn)象逐個(gè)模塊排查,以確定原因。以下主要探討的是個(gè)別用戶上報(bào)的SP、時(shí)移回看業(yè)務(wù)黑屏、馬賽克故障排查。
1.1SP業(yè)務(wù)故障排查
(1)個(gè)別用戶點(diǎn)播黑屏故障排查。根據(jù)用戶提供的智能卡號(hào)從ES(授權(quán)服務(wù)器)中查看是否有該SP業(yè)務(wù)的套餐,如果沒有套餐,需要重新開套餐。如果有套餐,根據(jù)節(jié)目名稱從CMS(節(jié)目管理系統(tǒng))查詢節(jié)目是否成功注入CDN中,如果沒有注入成功,需要查看注入模塊的日志,進(jìn)行分析原因,并重新注入節(jié)目。如果都不是上面的原因,可以通過抓機(jī)頂盒的網(wǎng)絡(luò)包,用Wireshark分析報(bào)文查找原因,以及開啟機(jī)頂盒的日志,抓取日志,并協(xié)調(diào)機(jī)頂盒廠家排查。
(2)個(gè)別用戶點(diǎn)播馬賽克故障排查。對(duì)于馬賽克問題,首先查看是否同一位置馬賽克,如果是同一位置,說明是節(jié)目源有問題,聯(lián)系SP廠家重新注入該節(jié)目。如果是不同位置馬賽克,需要查看推流服務(wù)器的CPU、內(nèi)存、磁盤I/O、推流帶寬是否存在問題,并查看服務(wù)器日志是否有報(bào)錯(cuò)。如果都正常,則需要分公司排查當(dāng)?shù)鼐W(wǎng)絡(luò)。如果查看網(wǎng)絡(luò)正常,需要服務(wù)端和STB端,同時(shí)抓網(wǎng)絡(luò)包,進(jìn)行對(duì)比分析,查看到底是網(wǎng)絡(luò)的問題還是服務(wù)器的問題,還可以使用點(diǎn)播模擬器從PC機(jī)端點(diǎn)播查看是否存在馬賽克。如果都不是上述原因,需要機(jī)頂盒開啟日志,抓取到日志后協(xié)調(diào)STB廠家分析。
1.2時(shí)移回看業(yè)務(wù)故障
(1)個(gè)別用戶點(diǎn)播回看或者時(shí)移黑屏。處理方式如上SP業(yè)務(wù)點(diǎn)播黑屏情況;時(shí)移黑屏,還有一種情況是時(shí)移節(jié)目的頻道信息與實(shí)際的頻道信息不一致導(dǎo)致的,需要根據(jù)分公司新提供的頻道信息、頻點(diǎn)、TSID、ServiceID,在系統(tǒng)內(nèi)進(jìn)行更正。
(2)個(gè)別用戶點(diǎn)播或者時(shí)移馬賽克。如果馬賽克的位置相同,則排查轉(zhuǎn)碼器出來的節(jié)目源是否馬賽克,如果有馬賽克,需要排查轉(zhuǎn)碼器的輸入節(jié)目源是否正常,與值班同事咨詢直播是否存在馬賽克問題,若無,則需轉(zhuǎn)碼廠家進(jìn)一步解決。如果馬賽克位置不固定,則與上面SP業(yè)務(wù)點(diǎn)播馬賽克排查方法一致。
1.3網(wǎng)絡(luò)故障
獲取IP地址困難,通過STB和DHCP服務(wù)端,同時(shí)抓包分析問題,分析是DHCP服務(wù)端的問題還是STB終端的問題,以及是否是網(wǎng)絡(luò)設(shè)備的問題。
2.用Wireshark分析故障
在排查點(diǎn)播故障中使用Wireshark是必須掌握的技能,以下是使用Wireshark分析排查直播節(jié)目源和HLS點(diǎn)播故障問題原因。
2.1直播節(jié)目源問題
使用筆記本電腦用網(wǎng)線直接接到交換機(jī)上,使用Wireshark進(jìn)行抓包,或者登錄錄制節(jié)目服務(wù)器使用命令tcpdump進(jìn)行抓包。使用wirshark打開獲取到的抓包文件,右鍵→FollowUDPstream→使用raw模式Saveas成ts流文件,并使用碼流分析儀分析,能夠根據(jù)碼流分析儀的結(jié)果判斷問題。比如:丟包、缺少音頻信息、靜幀等問題。如果抓取到的包比較大,Wireshark分析非常慢,可以采用Windows安裝的Wireshark包里自帶的editcap進(jìn)行切割成小文件進(jìn)行分析。
2.2HLS點(diǎn)播問題
首先從地市分公司的匯聚交換機(jī)上,拉出網(wǎng)線,接到STB上,查看是否能夠復(fù)現(xiàn)問題。這樣做的好處是撇開地市分公司的網(wǎng)絡(luò),便于排查問題。如果點(diǎn)播正常,需要排查地市分公司的網(wǎng)絡(luò)情況。如果能夠復(fù)現(xiàn),就需要排查省公司的系統(tǒng),協(xié)調(diào)分公司抓取網(wǎng)絡(luò)包。使用做好端口鏡像的交換機(jī),筆記本電腦抓機(jī)頂盒的網(wǎng)絡(luò)包。分析過程如下:
①使用Wireshark打開抓取到的包。
②找到相應(yīng)的m3u8文件所在的包,然后右鍵→followhttpstream,查看m3u8問題的問題。M3u8可能存在不標(biāo)準(zhǔn)、時(shí)間戳添加不正確等問題。
③若m3u8文件正常,則需要查看ts包的問題。
④從抓包文件中提取ts包文件:File→Export→Objects→HTTP→SaveAll。
⑤然后采用python腳本,將每個(gè)ts包重命名,并生成m3u8文件,采用VLC進(jìn)行播放查看效果。若存在卡頓和馬賽克問題,需要排查節(jié)目源。
⑥懷疑某個(gè)包有問題時(shí),可以用碼流分析儀器直接分析。
⑦在排查網(wǎng)絡(luò)問題時(shí),首先將http協(xié)議response中的Timesincerequest作為一列http.time,這個(gè)參數(shù)含義時(shí):下載m3u8文件或者下載ts片的時(shí)間。然后將這個(gè)時(shí)間按大到小排序。
⑧在系統(tǒng)中切片的時(shí)長(zhǎng)是6s,如果有多個(gè)片時(shí)間大于6s,說明機(jī)頂盒下載ts片比較慢,可能的原因:網(wǎng)絡(luò)的問題或者推流服務(wù)器性能的問題。需要逐級(jí)排查網(wǎng)絡(luò)或詳細(xì)查看推流服務(wù)器CPU、內(nèi)存、磁盤I/O等。
結(jié)束語
排查問題需要注重前端服務(wù)器和終端機(jī)頂盒的結(jié)合分析,注重查看日志,服務(wù)運(yùn)行情況,對(duì)于比較難查的問題,需要通過抓網(wǎng)絡(luò)包和使用PC模擬器測(cè)試解決問題。往往分公司上報(bào)故障時(shí)才知曉系統(tǒng)出問題,迫切需要防患于未然,進(jìn)行智能化運(yùn)維,后期的運(yùn)維思路如下:一是出現(xiàn)問題時(shí)通過短信、郵件、微信報(bào)警系統(tǒng)及時(shí)報(bào)警出來;二是系統(tǒng)在出現(xiàn)問題前,往往日志中會(huì)有報(bào)警信息,所以有必要搭建日志分析系統(tǒng),將所有設(shè)備的日志集中到一起,通過數(shù)據(jù)挖掘出報(bào)警信息,及早發(fā)現(xiàn)問題,解決問題;三是開發(fā)互動(dòng)電視的探針系統(tǒng),每隔10秒請(qǐng)求一次模擬終端的請(qǐng)求過程,如果發(fā)現(xiàn)問題及時(shí)處理。
參考文獻(xiàn)
[1]李川.淺談互動(dòng)電視技術(shù)及常見故障處理方法[J].科技視界,2018(5):66-67.
[2]常廣華.高清互動(dòng)電視平臺(tái)常用故障排查方法淺談[J].中國(guó)有線電視,2018(4):544-545.
[3]吳建雄.廣電網(wǎng)絡(luò)互動(dòng)電視的運(yùn)營(yíng)機(jī)制研究[J].中國(guó)有線電視,2017(9):1089-1091.