王嬌嬌,王 瑞,包 云,李亞群
(中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所 100081)
截止2017年底,我國高速鐵路運(yùn)營里程已超過2.5萬km,為保障列車安全運(yùn)行,已開通的高速鐵路均同步建設(shè)了高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)(簡稱“災(zāi)害監(jiān)測系統(tǒng)”),實(shí)現(xiàn)對鐵路沿線風(fēng)、雨、雪、地震及異物侵限的實(shí)時(shí)監(jiān)測,同時(shí)具備報(bào)警、預(yù)警及聯(lián)動觸發(fā)功能[1-2]。系統(tǒng)為列車的安全運(yùn)行發(fā)揮了重要的安全技術(shù)保障作用,但是,系統(tǒng)在長期運(yùn)用過程中也逐漸暴露了一些問題,其中現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控便是其中的一個(gè)主要問題。針對災(zāi)害監(jiān)測設(shè)備的可靠性問題,業(yè)內(nèi)專家學(xué)者也展開了一系列研究工作。張翠兵[3]分析了導(dǎo)致異物侵限監(jiān)測子系統(tǒng)運(yùn)用失效的故障類型,并統(tǒng)計(jì)出各類設(shè)備故障對系統(tǒng)的影響程度;李曉宇等[4]從設(shè)計(jì)、建設(shè)、運(yùn)用及維護(hù)等角度調(diào)研了災(zāi)害監(jiān)測系統(tǒng)存在的問題,并給出優(yōu)化措施及建議;李亞群等[5]提出了災(zāi)害監(jiān)測系統(tǒng)關(guān)鍵設(shè)備監(jiān)控單元的可靠性檢驗(yàn)方法,完善系統(tǒng)的可靠性管理;除此之外,其他學(xué)者也對如何全方位完善災(zāi)害監(jiān)測系統(tǒng)進(jìn)行了探索工作[6-7]。本文在對全路災(zāi)害系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況調(diào)研的基礎(chǔ)上,開展系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控故障的相關(guān)分析。
現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控是指終端查詢不到當(dāng)前災(zāi)害監(jiān)測信息和設(shè)備狀態(tài)信息的一種狀況,包括監(jiān)控終端監(jiān)測到現(xiàn)場采集設(shè)備、監(jiān)控單元及附屬設(shè)備狀態(tài)顯示灰色,監(jiān)測終端黑屏、死機(jī),軟、硬件故障導(dǎo)致的災(zāi)害監(jiān)測系統(tǒng)無采集數(shù)據(jù)或數(shù)據(jù)不更新,通信中斷、異常等現(xiàn)象?,F(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控會導(dǎo)致災(zāi)害監(jiān)測系統(tǒng)無法反映現(xiàn)場情況、終端灰屏無法使用,甚至造成列車晚點(diǎn)或停運(yùn),是災(zāi)害監(jiān)測系統(tǒng)故障中影響范圍較大、故障排查較復(fù)雜的系統(tǒng)故障之一。
根據(jù)對全路災(zāi)害監(jiān)測系統(tǒng)設(shè)備故障情況的統(tǒng)計(jì)分析,2013年1月至2017年5月,全路共發(fā)生現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況238次,具體故障原因如圖1所示。從圖中可以看出,傳感器故障和網(wǎng)絡(luò)故障是造成災(zāi)害監(jiān)測系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的主要原因,兩者占總故障原因的38%,其次是電源故障、防雷模塊故障等。
在此,按照設(shè)備脫離監(jiān)控的影響范圍將設(shè)備脫離監(jiān)控分為兩種情況:(1)大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控,該情況影響范圍大,如一處或多處監(jiān)測終端灰屏、多監(jiān)測點(diǎn)通信中斷等;(2)局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控,如單監(jiān)測點(diǎn)無采集數(shù)據(jù)或監(jiān)控?cái)?shù)據(jù)不更新等。
圖1 現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控原因統(tǒng)計(jì)
2013年1 月~2017年5月,全路共發(fā)生54次大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況,對列車運(yùn)行造成了不同程度的不良影響。系統(tǒng)大范圍脫離監(jiān)控的原因如圖2所示,可以看出,網(wǎng)絡(luò)故障和電源故障是主要原因,系統(tǒng)的具體故障原因如圖3所示。
(1) 網(wǎng)絡(luò)故障
圖2 大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控總體原因統(tǒng)計(jì)
圖3 大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控具體原因統(tǒng)計(jì)
網(wǎng)絡(luò)故障包括網(wǎng)絡(luò)風(fēng)暴、網(wǎng)線故障、路由器故障、終端網(wǎng)絡(luò)傳輸故障、交換機(jī)故障、通信電纜被挖斷等多種情況,是災(zāi)害監(jiān)測系統(tǒng)較難排查的故障之一,如圖4所示。網(wǎng)絡(luò)出現(xiàn)故障時(shí),不易分析和定位[8]。
圖4 網(wǎng)絡(luò)故障分類
其中,網(wǎng)絡(luò)風(fēng)暴是網(wǎng)絡(luò)廣播風(fēng)暴(Network Broadcast Storm)的簡稱。當(dāng)主機(jī)系統(tǒng)響應(yīng)一個(gè)在網(wǎng)上不斷循環(huán)的報(bào)文分組或者試圖響應(yīng)一個(gè)沒有應(yīng)答的系統(tǒng)時(shí)就會發(fā)生網(wǎng)絡(luò)廣播風(fēng)暴[9]。導(dǎo)致網(wǎng)絡(luò)風(fēng)暴的可能因素有網(wǎng)絡(luò)設(shè)備不符合要求、網(wǎng)卡損壞、網(wǎng)絡(luò)環(huán)路故障及網(wǎng)絡(luò)病毒入侵等。2016年1月某客運(yùn)專線發(fā)生3次網(wǎng)絡(luò)風(fēng)暴問題,致使災(zāi)害監(jiān)測系統(tǒng)監(jiān)控終端灰屏、全線報(bào)警、無數(shù)據(jù)顯示,系統(tǒng)分別于1 min、18 min、 1 h11 min后自動恢復(fù),故障導(dǎo)致的不良影響十分嚴(yán)重。
(2) 電源故障
電源故障會導(dǎo)致監(jiān)測點(diǎn)通信中斷、監(jiān)測終端無法正常顯示等問題,故障原因通常包括施工斷電、機(jī)房斷電、UPS故障和電源線松動等。其中,施工斷電導(dǎo)致的電源故障次數(shù)最多,經(jīng)調(diào)研得知,主要由于相關(guān)單位檢修作業(yè)前沒有做好有效的溝通,如:需停電作業(yè)的情況下,供電段切斷了供給配電箱的供電通道,而設(shè)備管理單位相關(guān)人員未對配電箱及時(shí)進(jìn)行手動切換,最終電源電量耗盡,影響系統(tǒng)正常運(yùn)行。
(3) 軟件故障
導(dǎo)致軟件故障原因有災(zāi)害
監(jiān)測軟件不穩(wěn)定、未及時(shí)升級、缺乏定期維護(hù)等。
(4) 監(jiān)控?cái)?shù)據(jù)處理設(shè)備故障監(jiān)控?cái)?shù)據(jù)處理設(shè)備故障包括服務(wù)器故障、硬盤損壞、工控機(jī)死機(jī)和小型機(jī)故障。其中,服務(wù)器故障導(dǎo)致的監(jiān)控?cái)?shù)據(jù)處理設(shè)備故障次數(shù)最多,主要表現(xiàn)為服務(wù)
器宕機(jī)等。此外,機(jī)房環(huán)境差,服務(wù)器未進(jìn)行定期重啟、維護(hù)等會大大增加此類問題發(fā)生的概率。
(5) 終端故障
終端故障主要有主機(jī)故障和顯示器故障,主機(jī)故障表現(xiàn)為主機(jī)死機(jī)或損壞兩種情況:主機(jī)死機(jī)時(shí),經(jīng)重啟后一般可以恢復(fù)正常;遇主機(jī)受損時(shí),經(jīng)現(xiàn)場修復(fù)或更換備用機(jī)可恢復(fù)正常。顯示器故障時(shí),需及時(shí)更換新的顯示器。
相比于大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控,局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控對系統(tǒng)造成的不良影響相對較小,但故障類型多樣,排查工作復(fù)雜,同樣要給以足夠的重視。
2013年1 月~2017年5月,全路共發(fā)生184次局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的情況,原因統(tǒng)計(jì)如圖5、圖6所示。由圖可知,傳感器故障是導(dǎo)致局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控最主要的原因,其次為網(wǎng)絡(luò)故障、防雷模塊故障、電源故障、監(jiān)控單元主機(jī)故障等。
圖5 局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控總體原因統(tǒng)計(jì)
圖6 局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控具體原因統(tǒng)計(jì)
(1) 傳感器故障
災(zāi)害監(jiān)測系統(tǒng)現(xiàn)場傳感器主要包括風(fēng)、雨、風(fēng)雨、異物侵限和地震傳感器5種類型,故障分類統(tǒng)計(jì)如圖7所示。傳感器故障通常有設(shè)備本身損壞、傳感器接線脫落兩種表現(xiàn)。因此,初期選用合格的產(chǎn)品和后期及時(shí)的故障排查尤為重要。
圖7 傳感器故障分類
(2) 網(wǎng)絡(luò)故障
導(dǎo)致網(wǎng)絡(luò)故障的問題中,通信元件故障占比最多,約58%,其次還有傳輸通道故障、通信模塊故障等。由圖8可知,造成局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的網(wǎng)絡(luò)故障主要成因是硬件設(shè)備的損壞,所以需要準(zhǔn)備充足的備品備件。
圖8 網(wǎng)絡(luò)故障分類
(3) 防雷模塊故障
防雷模塊故障會直接影響雷電天氣下設(shè)備的正常使用,需引起高度重視,以便及時(shí)發(fā)現(xiàn)問題,排除隱患。
(4) 電源故障
電源故障包括UPS故障、變壓器故障和逆變電源故障。UPS故障是導(dǎo)致局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的主要電源故障。表現(xiàn)為UPS數(shù)據(jù)采集串口共享器故障、UPS電源空開跳閘等,日常維護(hù)工作中應(yīng)進(jìn)一步加強(qiáng)對UPS的故障排查。
(5) 監(jiān)控單元主機(jī)故障
監(jiān)控單元主機(jī)故障分為主機(jī)死機(jī)及主板老化、損壞等情況,需要重啟主機(jī)或更換備用機(jī)、備用主板才能恢復(fù)正常運(yùn)行。
(6) 其他故障
此外,數(shù)據(jù)傳輸單元、數(shù)據(jù)采集模塊、軟件故障等同樣會導(dǎo)致局部監(jiān)測點(diǎn)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控。其中,數(shù)據(jù)傳輸單元故障分為數(shù)據(jù)采集箱故障和配電箱故障兩類,配電箱故障居多,表現(xiàn)為自動切換模塊故障、箱內(nèi)空開跳閘等;數(shù)據(jù)采集模塊故障包括氣象板故障、CMM數(shù)據(jù)采集模塊故障等;軟件故障包括版本未及時(shí)更新、軟件不穩(wěn)定、互聯(lián)互通程序接口服務(wù)器上軟件故障等;長線收發(fā)器故障時(shí),需要及時(shí)更換新設(shè)備;監(jiān)控?cái)?shù)據(jù)處理設(shè)備故障為2次服務(wù)器故障,對服務(wù)器進(jìn)行重啟即可恢復(fù)正常。
以上描述的設(shè)備故障中,惡劣天氣是導(dǎo)致系統(tǒng)故障的間接原因之一。如雷雨天氣會使得傳感器或者基站內(nèi)設(shè)備被雷擊損壞,寒冷天氣下設(shè)備故障的頻率增大等。資料顯示,某客運(yùn)專線某公司管段1年內(nèi)發(fā)生了10余次因環(huán)境溫度過低導(dǎo)致傳感器表面被凍住引起監(jiān)測點(diǎn)閃灰的故障。因此,需將如何應(yīng)對特殊氣候環(huán)境下的設(shè)備維管問題納入下一步工作范疇。
綜合以上分析,提出以下幾條改進(jìn)措施和建議:
(1)加強(qiáng)結(jié)合部管理。災(zāi)害監(jiān)測作為一個(gè)綜合的專業(yè),涉及到工務(wù)、電務(wù)、供電、信息等部門和站段,由鐵路局工務(wù)處負(fù)責(zé)災(zāi)害監(jiān)測系統(tǒng)的統(tǒng)一管理[10],各設(shè)備管理單位進(jìn)行維修作業(yè)時(shí)應(yīng)加強(qiáng)聯(lián)系,共同確認(rèn)影響范圍及配合方式后方能作業(yè),停電作業(yè)需要提前通知工務(wù)做好應(yīng)急準(zhǔn)備。
(2)加強(qiáng)設(shè)備日常巡檢。各設(shè)備管理單位應(yīng)根據(jù)實(shí)際情況定期對各自管轄設(shè)備進(jìn)行檢修,并做好檢查記錄,確保災(zāi)害監(jiān)測系統(tǒng)各部位處于良好工作狀態(tài),保證良好的機(jī)房環(huán)境,備品備件充足,降低系統(tǒng)的故障風(fēng)險(xiǎn),提高服務(wù)器系統(tǒng)穩(wěn)定性和效能。
(3)加強(qiáng)網(wǎng)絡(luò)故障的排查,提高網(wǎng)絡(luò)安全保障能力。特別是傳輸通道、通信元件等易出現(xiàn)問題的部位需定期檢查、維護(hù)。通過從技術(shù)、管理和運(yùn)維等方面綜合加強(qiáng)網(wǎng)絡(luò)安全保障。在技術(shù)上,通過認(rèn)證授權(quán)、數(shù)據(jù)加密、訪問控制、邊界防護(hù)等技術(shù),確保系統(tǒng)網(wǎng)絡(luò)安全;在管理上,建立網(wǎng)絡(luò)安全全員培訓(xùn)機(jī)制,覆蓋網(wǎng)絡(luò)安全管理人員、技術(shù)人員和應(yīng)用系統(tǒng)操作人員。另外,進(jìn)行檢查考核,包括政策法規(guī)和標(biāo)準(zhǔn)執(zhí)行情況、重大網(wǎng)絡(luò)安全事件及整改情況、網(wǎng)絡(luò)安全技術(shù)防護(hù)要求完成情況等內(nèi)容。
(4)完善災(zāi)害監(jiān)測軟件,增強(qiáng)軟件容錯(cuò)能力與健壯性。定期(1個(gè)月、3個(gè)月等)對磁盤進(jìn)行清理,刪除無效日志,釋放磁盤空間;每半年對服務(wù)器進(jìn)行重啟維護(hù),使服務(wù)器操作系統(tǒng)重新初始化;至少每一年備份一次數(shù)據(jù)庫,積累監(jiān)測數(shù)據(jù),便于開展大數(shù)據(jù)分析研究。
(5)對故障頻發(fā)的設(shè)備進(jìn)行監(jiān)測,研究可替代的設(shè)備和技術(shù)。針對監(jiān)控單元電源故障頻發(fā)的問題,對其進(jìn)行實(shí)時(shí)監(jiān)控,并研發(fā)可靠性高的電源設(shè)備;針對異物侵限雙電網(wǎng)故障多的問題,研發(fā)基于雷達(dá)和綜合視頻智能分析相結(jié)合的非接觸式異物侵限監(jiān)測設(shè)備,提高異物侵限監(jiān)測的可靠性和適用范圍。
(6)做好惡劣天氣下設(shè)備的防護(hù)工作,如雷電天氣下應(yīng)安排人員及時(shí)做好防雷模塊的故障排查,研發(fā)鐵路沿線雷電預(yù)警產(chǎn)品,提前做好防范和應(yīng)急處置工作;嚴(yán)寒天氣下應(yīng)有針對性的對相關(guān)線路上的傳感器啟用加熱功能,防止設(shè)備由于覆冰或溫度過低而無法發(fā)揮作用。
(7)開展災(zāi)害監(jiān)測設(shè)備狀態(tài)大數(shù)據(jù)分析。對災(zāi)害監(jiān)測系統(tǒng)收集的設(shè)備狀態(tài)數(shù)據(jù)開展大數(shù)據(jù)分析,及時(shí)掌握設(shè)備特性變化趨勢,有針對性地進(jìn)行維修和處理,預(yù)防設(shè)備故障發(fā)生,充分發(fā)揮數(shù)據(jù)對系統(tǒng)運(yùn)用、維護(hù)的支撐作用。
(8)強(qiáng)化應(yīng)急管理。建立路局災(zāi)害監(jiān)測設(shè)備故障知識庫,結(jié)合災(zāi)害監(jiān)測系統(tǒng)設(shè)備故障出現(xiàn)頻率及檢查要求,編寫相關(guān)故障應(yīng)急處置預(yù)案,發(fā)生設(shè)備故障時(shí),應(yīng)按險(xiǎn)情等級和影響程度及時(shí)啟動應(yīng)急預(yù)案。同時(shí)加強(qiáng)對員工的故障應(yīng)急處置方面的培訓(xùn),并且就培訓(xùn)內(nèi)容對人員進(jìn)行考核,定期組織應(yīng)急演練,提高干部職工的應(yīng)急處置能力。
本文通過對全路災(zāi)害監(jiān)測系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況的調(diào)研,分析了系統(tǒng)現(xiàn)場監(jiān)測設(shè)備的故障原因,并針對網(wǎng)絡(luò)故障、電源故障、傳感器故障等 具體問題,挖掘成因,提出改進(jìn)建議,旨在降低災(zāi)害監(jiān)測系統(tǒng)的故障率、提高可靠性,為高速鐵路災(zāi)害監(jiān)測系統(tǒng)的運(yùn)用和維護(hù)提供參考。
[1] 中國鐵路總公司. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)總體技術(shù)方案:鐵總科技[2013] 35號[Z]. 北京:中國鐵道出版社,2013,2.
[2] 王 楠. 高速鐵路防災(zāi)安全監(jiān)控系統(tǒng)[J]. 鐵路計(jì)算機(jī)應(yīng)用,2012,21(7):56-56.
[3] 張翠兵. 異物侵限監(jiān)測子系統(tǒng)運(yùn)用失效的故障樹分析[J]. 鐵路計(jì)算機(jī)應(yīng)用,2016,25(1):4-7.
[4] 李曉宇,張 鵬,戴賢春,等. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)運(yùn)用及管理優(yōu)化研究[J]. 中國鐵路,2013(10):21-25.
[5] 李亞群,姜 勇,雷 震,等. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)監(jiān)控單元設(shè)備可靠性驗(yàn)證試驗(yàn)方法研究[J]. 鐵路計(jì)算機(jī)應(yīng)用,2013,22(12):25-27.
[6] 武明生,秦成文,徐成偉. 高速鐵路風(fēng)監(jiān)測設(shè)備比對試驗(yàn)方法的研究[J].鐵路計(jì)算機(jī)應(yīng)用,2013,22(2):5-8.
[7] Tao Wu, Yusong Yan, Xi Chen. Reduction of Power Consumption in Wireless Sensor Networks for Railway Disaster Prevention and Safety Monitoring System [C]//In:International Conference on Energy and Environmental Science (ICEES),2011:983-991.
[8] 姚鯤鵬,周 宇. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)網(wǎng)絡(luò)優(yōu)化方案[J]. 電腦知識與技術(shù),2016,12(34):64-67.
[9] 龔仁樹. 基于CBTC的DCS通信系統(tǒng)介紹與網(wǎng)絡(luò)風(fēng)暴成因及其處理方式[J]. 鐵路通信信號工程技術(shù),2015,12(6):69-74.
[10] 中國鐵路總公司.高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)維護(hù)試行辦法: 鐵總運(yùn)[2013] 142號[Z]. 北京:中國鐵道出版社,2013,11.