施成超 中國鐵路上海局集團有限公司科技和信息化部
近年來,國鐵集團對各局C3無線超時制動問題的分析、處置及定責(zé)要求日趨嚴格,上海局利用C3無線超時制動信息流轉(zhuǎn)平臺、C3無線超時月度分析會對每件制動、降級信息落實逐件分析要求。但車載側(cè)受限于現(xiàn)有的分析、監(jiān)測手段,在未額外安裝監(jiān)測設(shè)備的情況下只能對車地應(yīng)用層數(shù)據(jù)進行分析,缺乏底層數(shù)據(jù)記錄,對車地交互、結(jié)合部問題分析并不徹底。同時由于無線通信受環(huán)境因素影響較大,因此對于個別無線超時問題,降級原因無法精準定位。
如圖1所示,2020年3月至12月上海局累計發(fā)生642件由于電務(wù)列控設(shè)備造成的無線超時類制動、降級問題。最終經(jīng)分析會定為原因不明的合計120件,占比約19%。
圖1 上海局2020年度無線超時類問題統(tǒng)計
以300T型ATP設(shè)備為例,車載側(cè)在處理DMS報告的此類無線超時問題時,需下載ATPCU、SDP、STU-V-V、JRU等ATP數(shù)據(jù)進行分析,查看在應(yīng)用層有無設(shè)備故障報警語句及車地數(shù)據(jù)交互邏輯異常信息。車載側(cè)對上述原因不明無線超時問題進行數(shù)據(jù)分析時,現(xiàn)象及結(jié)論基本類似:車載側(cè)連續(xù)發(fā)送多條M136包后,一直未收到RBC的M24或M3包回復(fù),車載設(shè)備在T_NVCONTACT時間內(nèi)(10 s-20 s)未收到任何來自RBC的應(yīng)用層消息后判斷無線超時,觸發(fā)最大常用制動乃至降級,車載設(shè)備正常。若車載側(cè)對此類問題需要進一步分析時,需依靠六婕AMS(監(jiān)測Igsm-r、Um接口)或通號datalog(監(jiān)測Igsm-r接口)監(jiān)測設(shè)備(如圖2所示),但目前上海局加裝的該類設(shè)備數(shù)量較少,導(dǎo)致現(xiàn)場分析處置能力有所欠缺,分析處置時往往還需要依賴通信三接口數(shù)據(jù)。
圖2 車地接口監(jiān)測接口示意圖
根據(jù)現(xiàn)場多年的無線超時問題處置經(jīng)驗,將原因不明類問題分為四大類:一是小區(qū)切換后電臺異常;二是車載或RBC判斷TPDU幀類型錯誤,發(fā)送ER幀;三是車載或RBC判斷HDLC幀類型或時序錯誤,發(fā)送FRMR幀;四是車地10 s-20 s無通信導(dǎo)致車載安全傳輸層發(fā)送DI/DR??梢悦鞔_的是,原因不明類故障與列控設(shè)備運用檢修狀態(tài)無關(guān),一般無需對列控設(shè)備進行處置。
此類問題一般發(fā)生在MT小區(qū)切換時。其典型場景為:在小區(qū)切換前,上、下行鏈路接收電平、質(zhì)量均正常,切換后上行接收質(zhì)量突然下降,導(dǎo)致數(shù)據(jù)包連續(xù)錯誤,無線鏈接超時。此前該類問題認為與切換后MT異常有關(guān),但在實際案例中發(fā)現(xiàn)車地均有可能引起該類問題。
2021年3月13日G1971次列車DMS報C3降級,下載ATP數(shù)據(jù)分析,9:16:37時車載收到RBC側(cè)最后一條24消息,9:16:41時起車載向RBC發(fā)送了3條136包,均未得到回復(fù),至9:16:56時無線連接超時觸發(fā)常用制動,9:17:06時降為C2等級。
結(jié)合通信三接口數(shù)據(jù),查看Abis口數(shù)據(jù)發(fā)現(xiàn)由XZDTSXLS06小區(qū)切換至XZD-TSXLS07B后,上行鏈路通信質(zhì)量突降為7級,并且下行鏈路通信質(zhì)量、電平值均未收到,屬于典型的小區(qū)切換后異常問題。再由PRI接口數(shù)據(jù)可知,小區(qū)正常切換后09:16:41.502時RBC發(fā)送SREJ重傳幀,要求ATP重傳98號I幀,09:16:42.127收到重傳的98號I幀,但由于FSC校驗失敗再次要求ATP重傳,但后續(xù)ATP已斷開鏈接。同時在長達9 s時間內(nèi)收到車載側(cè)發(fā)送了大量的無效數(shù)據(jù)Link Invalid Data,并只收到ATP發(fā)送的1條136包。
因此該問題原因可能為:一是切換后電臺異常;二是切換后上行鏈路異常,存在干擾。由于此車安裝了AMS裝置,車載側(cè)人員對Um接口、Igsm-r接口數(shù)據(jù)(如圖3所示)進行進一步分析。從Igsm-r接口監(jiān)測信令來看ATP側(cè)交互邏輯正常。由Um接口監(jiān)測測量報告可知,切換前后下行鏈路通信質(zhì)量和電平值均正常,上行鏈路中MT正常向地發(fā)送測量報告,MT工作正常。由上,可以得出此次無線超時問題是由上行方向鏈路存在干擾導(dǎo)致。
圖3 IGSM-R、Um接口監(jiān)測信令
車地發(fā)送數(shù)據(jù)鏈路層FRMR幀、傳輸層ER幀一般是因為判定接收的幀通過FSC校驗但最終判定結(jié)構(gòu)錯誤導(dǎo)致,從而釋放車地鏈接導(dǎo)致無線鏈接超時。一般情況下,該類問題基本是由于通信HDLC、TPDU協(xié)議機制、無線通信極小概率丟包、誤碼特點導(dǎo)致的。
其較典型的問題場景為:車地在接收到的NR幀序出現(xiàn)回退或異常增大情況下,導(dǎo)致一方發(fā)送FRMR幀。分析人員可以在Igsm-r或Pri接口數(shù)據(jù)上對此類問題予以明確。從車載側(cè)來看,車地設(shè)備在處置此類NR幀序異常問題時,直接發(fā)送FRMR幀存在一定的不合理性,車地安全計算機設(shè)備可丟棄回退的、異常增大的幀來確保車地交互的一致性,而不是直接發(fā)送FRMR幀來重置當前鏈路。
丟幀現(xiàn)象易發(fā)生在小區(qū)切換或上下行通信鏈路存在干擾場景下,并通過幀重發(fā)機制來保持車地正常通信。但是在單個小區(qū)內(nèi)且車地通信環(huán)境滿足要求的情況下,仍會遇到異常丟幀問題。
3.3.1 上行鏈路異常案例
2021年3月13日6時31分,DJ8729次列車運行至杭長客專K384處C3降級。從ATPCUlog中分析得知,06:35:27時車載收到RBC側(cè)最后一條24消息。06:35:31起車載向RBC發(fā)送了4條136消息包,均未得到回復(fù),06:35:39報無線網(wǎng)絡(luò)資源不可用,至06:35:45時無線連接超時觸發(fā)常用制動18 s,根據(jù)CTCS-3級規(guī)范,超過無線超時判定時間(10 s-20 s),06:35:48降級一次,未恢復(fù),后續(xù)運行正常。
結(jié)合通信數(shù)據(jù),分析Abis、A口數(shù)據(jù)可知故障發(fā)生時未處于小區(qū)切換狀態(tài),且上下行電平值為40-50,接收質(zhì)量0-2級,滿足車地正常通信要求。
分析Pri口數(shù)據(jù)可知(如圖4所示),下行數(shù)據(jù)既RBC向ATP發(fā)送的N(S)信息至124幀,ATP向RBC回復(fù)N(R)=125信息表明ATP收到所有RBC發(fā)送的信息幀,下行通道暢通。分析上行數(shù)據(jù),RBC從06:35:27.203至06:35:31.671一直在向ATP發(fā)送N(R)=119,表明RBC一直在等待ATP發(fā)送N(S)=119幀,但RBC一直未收到,并于06:35:32.328收到ATP的N(S)=120,表明ATP發(fā)送的119幀丟失,RBC隨即向ATP發(fā)送三次SREJ要求重傳,但均未收到ATP的有效幀回復(fù),亦未看到從ATP發(fā)送的后續(xù)四條136包,最終導(dǎo)致RBC發(fā)起SABME。
圖4 車地數(shù)據(jù)鏈路層交互示意圖
我們注意到,從06:35:27.000 RBC發(fā)送N(S)=124到06:35:29.578收到ATP發(fā)送確認N(R)=125間隔時間長達2.5 s,因此,綜合判斷造成此次降級的原因是上行通道異?;虼嬖谳^大延時,造成ATP發(fā)送的若干信息未被RBC收到。
3.3.2 下行鏈路異常案例
2021年1月13日21時13分,G7744次交路報無線連接超時制動并降級。通過對車載JRU和ATPlog數(shù)據(jù)的分析獲知,車載自21:13:20收到地面?zhèn)茸詈笠粭l應(yīng)用層消息M24包后,從21:13:24開始,6次發(fā)送M136信息包,均未收到回復(fù),2 1時1 3分38秒觸發(fā)無線超時制動并降級。
通過通信Abis口數(shù)據(jù)可知故障發(fā)生時未處于小區(qū)切換狀態(tài),上下行電平值為50-60,接收質(zhì)量2-4級,滿足車地正常通信要求。
再查看通信Pri口數(shù)據(jù),如圖5所示,下行通信鏈路中,21:13:26.985時RBC向ATP發(fā)送了N(S)=12幀,但21:13:27.204時ATP仍在向RBC發(fā)送N(R)=12幀,表明ATP未收到12幀。因此ATP在21:13:28.095時向RBC發(fā)送SREJ要求重傳12幀,RBC于21:13:28.265重傳,但ATP于21:13:32.954開始,多次向RBC發(fā)送N(R)=12,表明ATP仍未收到RBC第二次重傳的12幀。由此造成ATP缺少12幀信息無法組成M24包,并于21:13:40.720向RBC發(fā)送了DR/DI拆鏈信息。值得注意的是,自ATP發(fā)送SREJ重傳幀后,從21:13:32.954到21:13:38.938約6s期間,ATP共計向RBC發(fā)送了5次N(R)=12幀,但并未再次發(fā)送SREJ重傳幀。
圖5 車地數(shù)據(jù)鏈路層交互示意圖
由于該車未安裝空口監(jiān)測設(shè)備,結(jié)合ATP數(shù)據(jù)、地面三接口數(shù)據(jù)判斷降級原因為:下行通信鏈路異常(MT異常未轉(zhuǎn)發(fā)或通信通道瞬時干擾),導(dǎo)致RBC側(cè)2次發(fā)送的12幀丟失。
文中對原因不明類無線超時問題的發(fā)生原因及典型性問題分析等進行了一些探究。由于現(xiàn)場Um口監(jiān)測設(shè)備的缺少及無線通信機制的若干特點,目前對該結(jié)合部問題的定責(zé)、處置存在一定的困局,我們可以從以下3點嘗試減少該類問題的影響:
(1)繼續(xù)增加車載側(cè)、基站側(cè)Um口監(jiān)測裝置(特別是存在重復(fù)發(fā)生點)。
避免車載側(cè)與通信側(cè)定責(zé)不清、推諉扯皮現(xiàn)象,提高現(xiàn)場分析處置能力,增強設(shè)備穩(wěn)定性。
(2)考慮在車載側(cè)增加濾波裝置。
加強MT電臺抗干擾能力,減少小區(qū)切換環(huán)境及通信干擾環(huán)境下電臺異常概率。
(3)繼續(xù)在車載軟件上優(yōu)化車地交互邏輯。
一是可增加車載設(shè)備無線超時后觸發(fā)C3降級的時間。以此增加車地通信異常后鏈路恢復(fù)的幾率,減少降級的概率,降低無線超時問題對現(xiàn)場運營的負面影響。目前在2021年300T型ATP最新V1.11.2版軟件中,已將無線超時降級邏輯由“C3無線超時制動后列車速度低于C2允許速度后降級C2”更改為“無線超時制動超40 s或時速降至50 km且低于C2允許速度才可降級”,較大程度上降低了降級問題的發(fā)生概率。
二是修改跳幀及回退現(xiàn)象的處理邏輯,可采用錯誤幀棄用的方法,而不是發(fā)送FRMR幀導(dǎo)致無線超時問題;三是優(yōu)化異常丟幀后自動重發(fā)能力。例如在上述下行鏈路異常案例已明確丟幀的情況下,車載側(cè)仍在長時間范圍內(nèi)連續(xù)重復(fù)發(fā)送N(R)幀,未繼續(xù)主動向RBC發(fā)送SJET重傳幀,RBC側(cè)亦在被動等待。