張俊 張欣愉 葉玉玲
摘? 要:在高速鐵路日常行車(chē)組織工作中,及時(shí)準(zhǔn)確地把握高速鐵路非正常事件下的延誤特征和事件分級(jí)是后續(xù)運(yùn)行調(diào)整決策的基礎(chǔ)。文章面對(duì)高速鐵路非正常事件擾動(dòng),基于多源歷史數(shù)據(jù)提取并分析初始延誤場(chǎng)景參數(shù)特征,篩選初始延誤時(shí)長(zhǎng)和線路列車(chē)服務(wù)頻率作為兩個(gè)聚類(lèi)指標(biāo),并應(yīng)用輪廓系數(shù)論證FCM模糊聚類(lèi)對(duì)當(dāng)前場(chǎng)景的適用性。根據(jù)最終聚類(lèi)結(jié)果,區(qū)間和車(chē)站非正常事件分別被聚為4類(lèi)和3類(lèi)。提出的聚類(lèi)指標(biāo)易于量化,非正常場(chǎng)景聚類(lèi)分級(jí)結(jié)果能為實(shí)際延誤管理工作提供有效支撐。
關(guān)鍵詞:高速鐵路;非正常事件;延誤管理;場(chǎng)景分析;FCM聚類(lèi)
中圖分類(lèi)號(hào):U292.4? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: During the daily train organization of high-speed railway(HSR), grasping the delay characteristics and event classification timely and accurately is the basis of subsequent rescheduling decisions. Faced with the disturbance of HSR abnormal events, this paper first extracts and analyzes the parameter characteristics under primary delay scenarios based on multi-source historical data, then selects the primary delay and line service frequency as two clustering indicators, and validates the applicability of Fuzzy C-Means(FCM)clustering to current context via silhouette coefficient. According to the final clustering results, the abnormal events of section and station have been classified into 4 levels and 3 levels respectively. The proposed clustering indicators are easy to quantify, and the clustering results of abnormal events can provide effective support for the actual work of delay management.
Key words: high-speed railway; abnormal event; delay management; scenarios analysis; FCM clustering
0? 引? 言
在高速鐵路網(wǎng)絡(luò)化運(yùn)營(yíng)發(fā)展背景下,列車(chē)、站點(diǎn)和線路之間的相互關(guān)聯(lián)性不斷加強(qiáng),受運(yùn)輸組織方案復(fù)雜性、實(shí)時(shí)列車(chē)調(diào)度動(dòng)態(tài)性和場(chǎng)景因素的不確定性影響[1],日常運(yùn)輸過(guò)程中的非正常事件不可避免。做好非正常事件的分級(jí)工作有助于完善延誤管理體系、輔助運(yùn)行調(diào)整決策?,F(xiàn)行鐵路相關(guān)規(guī)范標(biāo)準(zhǔn)主要依據(jù)傷亡人數(shù)、經(jīng)濟(jì)損失、中斷行車(chē)時(shí)間等指標(biāo)對(duì)突發(fā)事件進(jìn)行了分級(jí),但是這些標(biāo)準(zhǔn)多針對(duì)惡性強(qiáng)擾動(dòng)的突發(fā)事件,而對(duì)于日常運(yùn)輸組織過(guò)程中相對(duì)高頻弱擾動(dòng)的非正常事件則不具備適用性。因此,開(kāi)展高鐵非正常事件延誤場(chǎng)景聚類(lèi)研究對(duì)提升日常運(yùn)輸組織管理水平具有較為重要的現(xiàn)實(shí)意義。
高速鐵路非正常事件引起的列車(chē)運(yùn)行延誤包括初始延誤和連帶延誤兩種[2],初始延誤為受非正常事件直接影響產(chǎn)生的時(shí)刻表偏差,連帶延誤則是在延誤傳播過(guò)程中為疏解行車(chē)沖突而產(chǎn)生的時(shí)間代價(jià)[3]。相關(guān)文獻(xiàn)表明連帶延誤與初始延誤場(chǎng)景特征之間存在一定的相關(guān)性[4-5],因此本文以高速鐵路非正常事件下的初始延誤場(chǎng)景為對(duì)象,研究初始延誤場(chǎng)景屬性參數(shù)的分布特征,綜合比選K-means、FCM模糊聚類(lèi)和DPC密度聚類(lèi)等聚類(lèi)方法,分別對(duì)車(chē)站、區(qū)間非正常事件延誤場(chǎng)景進(jìn)行聚類(lèi)研究,實(shí)現(xiàn)延誤分級(jí)管理。
1? 數(shù)據(jù)采集
1.1? 數(shù)據(jù)來(lái)源
本文研究所需數(shù)據(jù)內(nèi)容主要包括延誤信息數(shù)據(jù)和運(yùn)行圖數(shù)據(jù)兩種。其中,非正常事件信息來(lái)源于高速鐵路安監(jiān)系統(tǒng)平臺(tái)相關(guān)數(shù)據(jù),選取2018至2019年時(shí)段內(nèi)部分高鐵線路的延誤記錄信息進(jìn)行分析,延誤信息數(shù)據(jù)以文本形式記錄了產(chǎn)生非正常事件的線路、車(chē)次、位置、處置策略及實(shí)際影響等信息;運(yùn)行圖數(shù)據(jù)則根據(jù)調(diào)圖文件獲取對(duì)應(yīng)高鐵線路區(qū)段上的時(shí)刻表信息,主要用于提取初始延誤產(chǎn)生時(shí)刻對(duì)應(yīng)的線路運(yùn)輸服務(wù)狀況。
1.2? 數(shù)據(jù)預(yù)處理
(1)延誤信息數(shù)據(jù)處理
為便于后續(xù)聚類(lèi)研究,需要有針對(duì)性地提取其中與初始延誤相關(guān)的參數(shù),并對(duì)其中部分參數(shù)進(jìn)行一定的修正。通過(guò)文本提取共篩選出以下6類(lèi)屬性:
①所處線路:初始延誤所處的高鐵線路名稱(chēng);
②發(fā)生時(shí)刻:產(chǎn)生初始延誤的時(shí)刻,采用24h制;
③事件致因:造成非正常事件的原因,主要包括車(chē)載設(shè)備故障、車(chē)站設(shè)備設(shè)施故障、區(qū)間設(shè)備設(shè)施故障、異物入侵、環(huán)境影響、旅客異常和超員報(bào)警7類(lèi);
④事件位置:發(fā)生在車(chē)站或區(qū)間,0-1變量,0表示區(qū)間,1表示車(chē)站;
⑤應(yīng)急措施:非正常事件發(fā)生后采取的應(yīng)急措施,主要包括車(chē)站超停、車(chē)站臨停、區(qū)間臨停、始發(fā)晚點(diǎn)、局部限速、區(qū)間封鎖、投用熱備車(chē)組以及相關(guān)組合措施等;
⑥初始延誤時(shí)長(zhǎng):首列受非正常事件影響的車(chē)次產(chǎn)生初始延誤,不同于事件持續(xù)時(shí)長(zhǎng),單位:min。
(2)時(shí)刻表數(shù)據(jù)處理
時(shí)刻表數(shù)據(jù)主要用于提取初始延誤場(chǎng)景下的列車(chē)服務(wù)頻率(單位:列/h),結(jié)合前述延誤信息中的所處線路、發(fā)生時(shí)刻和事件位置,從既有時(shí)刻表信息中計(jì)算對(duì)應(yīng)時(shí)空位置的列車(chē)服務(wù)頻率,形成對(duì)非正常事件延誤場(chǎng)景特征參數(shù)的補(bǔ)充。
2? 場(chǎng)景特征分析
2.1? 初始延誤分布
通過(guò)數(shù)據(jù)采集和處理,共獲取有效初始延誤場(chǎng)景樣本501條。在高速鐵路非正常事件初始延誤時(shí)長(zhǎng)分布上,根據(jù)處理后的樣本數(shù)據(jù)可知該時(shí)長(zhǎng)從1~175min不等。據(jù)統(tǒng)計(jì),33.1%的初始延誤在10min以下,35.5%的初始延誤位于(10,20]min區(qū)間內(nèi),13.5%的初始延誤位于(20,30]min區(qū)間內(nèi),8.2%的初始延誤位于(30,40]min區(qū)間內(nèi),40min以上的初始延誤占比約9.6%。
2.2? 發(fā)生時(shí)刻及事件致因分布
綜合考慮非正常事件的發(fā)生時(shí)刻和事件致因進(jìn)行分析。在發(fā)生時(shí)刻分布上,高速鐵路非正常事件多集中于8:00~20:00時(shí)段內(nèi),8:00之前以及20:00之后非正常事件的數(shù)量占比較少,同時(shí)在12:00~16:00時(shí)段內(nèi)的平均初始延誤相對(duì)其他時(shí)段較高;在事件致因分布上,車(chē)載設(shè)備故障的發(fā)生概率最高,異物入侵、車(chē)站和區(qū)間設(shè)備設(shè)施故障的發(fā)生概率次之,其他事件致因的發(fā)生概率較小。
2.3? 發(fā)生位置及處置措施分布
在501起高速鐵路非正常事件樣本中,有303起分布在區(qū)間,占比約60.5%;有198起分布于車(chē)站,占比約39.5%。其中,區(qū)間非正常事件以采用區(qū)間臨停措施和區(qū)間臨停+局部限速組合措施這兩種為主,累計(jì)占比為81.4%;車(chē)站非正常事件以采用車(chē)站超停、始發(fā)晚點(diǎn)和區(qū)間臨停措施為主,累計(jì)占比約72.6%。
2.4? 事件致因與初始延誤相關(guān)性
對(duì)不同事件致因下的初始延誤影響進(jìn)行分析,如表1所示。在7類(lèi)非正常事件致因中,旅客異常和超員報(bào)警的發(fā)生概率最小,分別為1.2%和1%,對(duì)應(yīng)的平均初始延誤也最低;環(huán)境影響導(dǎo)致的行車(chē)異常概率也極小,約為1.6%,但是其對(duì)應(yīng)產(chǎn)生的平均初始延誤較高;車(chē)站設(shè)備設(shè)施故障和區(qū)間設(shè)備設(shè)施故障發(fā)生的概率較高,但前者產(chǎn)生的平均初始延誤高于后者;車(chē)載設(shè)備故障發(fā)生的概率最高,約為54.5%,對(duì)應(yīng)的平均初始延誤較低。
3? 聚類(lèi)方法比選
3.1? 聚類(lèi)指標(biāo)
從初始延誤場(chǎng)景特征參數(shù)集合中選取量化且獨(dú)立的數(shù)值型屬性作為聚類(lèi)指標(biāo)。已量化的參數(shù)有初始延誤、發(fā)生時(shí)刻、發(fā)生位置、服務(wù)頻率這4種,其中由于服務(wù)頻率是基于所處線路、發(fā)生時(shí)刻和事件位置綜合得出,因此剔除發(fā)生時(shí)刻指標(biāo),而發(fā)生位置為0-1邏輯變量,因此本文將分別針對(duì)區(qū)間和車(chē)站延誤場(chǎng)景,根據(jù)初始延誤時(shí)長(zhǎng)和服務(wù)頻率指標(biāo)進(jìn)行二維聚類(lèi)。
3.2? 聚類(lèi)方法
為尋找適用于當(dāng)前應(yīng)用場(chǎng)景指標(biāo)樣本集合的聚類(lèi)方法,在對(duì)常用的K均值聚類(lèi)(K-means)、模糊均值聚類(lèi)(FCM)和密度峰值聚類(lèi)(DPC)算法的適用性和優(yōu)缺點(diǎn)進(jìn)行分析,如表2所示。其中FCM是對(duì)傳統(tǒng)K-means硬聚類(lèi)算法的改進(jìn),兩者均屬于優(yōu)化迭代型算法;DPC則是屬于基于密度的空間聚類(lèi)算法[6]。
3.3? 聚類(lèi)方法適應(yīng)性
(1)聚類(lèi)輪廓系數(shù)
輪廓系數(shù)(Silhouette Coefficient)可用于對(duì)聚類(lèi)方法及聚類(lèi)數(shù)量合理性進(jìn)行綜合驗(yàn)證[7]。輪廓系數(shù)綜合考慮了各個(gè)分類(lèi)簇的內(nèi)部聚合程度以及不同簇之間的分離程度,可對(duì)不同聚類(lèi)數(shù)目或聚類(lèi)算法的結(jié)果優(yōu)劣進(jìn)行評(píng)價(jià)。輪廓系數(shù)計(jì)算步驟如下:
①對(duì)于分類(lèi)結(jié)果,根據(jù)所采用的距離公式計(jì)算樣本i到同簇C中其他樣本的平均距離a,即樣本i的簇內(nèi)不相似度;
②計(jì)算樣本i與其他簇C中所有包含樣本的平均距離b,即樣本i的與簇C的不相似度,進(jìn)而可得樣本i的簇間不相似度b,計(jì)算公式如下:
b=minb|j=1,2,…,K? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
③根據(jù)前兩步計(jì)算得出的樣本i的簇內(nèi)不相似度a和簇間不相似度b,則樣本i的輪廓系數(shù)S為:
=?圯s=? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
(2)聚類(lèi)方法適應(yīng)性
根據(jù)輪廓系數(shù)對(duì)樣本i的聚類(lèi)結(jié)果合理性進(jìn)行分析。若s越接近于1,表明樣本i的分類(lèi)越合理;若s越接近-1,表明樣本i越應(yīng)當(dāng)歸類(lèi)至其他簇C中。以區(qū)間非正常事件樣本進(jìn)行測(cè)試分析可得,對(duì)于K-means和FCM而言,聚類(lèi)數(shù)為4時(shí)的樣本輪廓系數(shù)中的負(fù)值數(shù)量及數(shù)值大小均低于聚類(lèi)數(shù)為5時(shí)的樣本輪廓系數(shù)分布,對(duì)應(yīng)的聚類(lèi)效果也較優(yōu);同時(shí)根據(jù)兩種算法的輪廓系數(shù)分布可知,當(dāng)聚類(lèi)數(shù)量為4時(shí),F(xiàn)CM的聚類(lèi)效果優(yōu)于K-means聚類(lèi)。對(duì)于DPC而言,由于部分孤點(diǎn)的存在導(dǎo)致不同類(lèi)別的數(shù)量差異過(guò)大,且輪廓系數(shù)中的負(fù)值達(dá)到-0.65,從其輪廓系數(shù)分布表現(xiàn)來(lái)看不如K-means和FCM聚類(lèi),代表性FCM和DPC輪廓系數(shù)分布如圖1所示。綜上,選擇FCM作為高鐵延誤場(chǎng)景聚類(lèi)算法。
4? 聚類(lèi)結(jié)果分析
4.1? 初始延誤場(chǎng)景聚類(lèi)
通過(guò)應(yīng)用FCM聚類(lèi)并結(jié)合輪廓系數(shù)分布驗(yàn)證,樣本數(shù)據(jù)集中303起高速鐵路區(qū)間非正常事件被聚為4類(lèi),198起車(chē)站非正常事件被聚為3類(lèi)。圖2展示了區(qū)間延誤場(chǎng)景的4類(lèi)樣本數(shù)據(jù)的分布和迭代優(yōu)化過(guò)程,圖3展示了車(chē)站延誤場(chǎng)景下3類(lèi)歸一化后樣本數(shù)據(jù)點(diǎn)的模糊隸屬度分布。
4.2? 非正常事件延誤場(chǎng)景聚類(lèi)結(jié)果分析
如表3所示,對(duì)區(qū)間非正常事件而言,第4類(lèi)、第1類(lèi)和第2類(lèi)的占比較高,對(duì)應(yīng)的比例依次為37.3%、28.7%和25.7%;對(duì)車(chē)站非正常事件而言,第3類(lèi)和第1類(lèi)的占比均較高,對(duì)應(yīng)的比例分別為41.9%和38.4%。在服務(wù)頻率和初始延誤的參數(shù)特征的取值分布上,各類(lèi)型的非正常事件有著明顯不同于其他類(lèi)型事件的主要分布區(qū)間,且不同類(lèi)型非正常事件之間既互補(bǔ)又存在一定的交叉融合。高速鐵路非正常事件聚類(lèi)結(jié)果如表3所示。
5? 結(jié)? 論
本文基于歷史非正常事件記錄,提取延誤場(chǎng)景相關(guān)的參數(shù)并分析相關(guān)特征分布,基于此篩選聚類(lèi)指標(biāo)并通過(guò)算法比選最終采用FCM進(jìn)行聚類(lèi)研究,分別分析了車(chē)站和區(qū)間各級(jí)非正常事件場(chǎng)景特征和行車(chē)影響,能為相關(guān)延誤預(yù)測(cè)和動(dòng)態(tài)行車(chē)調(diào)度提供參考。
后續(xù)研究將進(jìn)一步結(jié)合事故致因和應(yīng)急措施細(xì)化延誤分級(jí)和特征識(shí)別工作,并對(duì)比基本運(yùn)行圖和實(shí)際運(yùn)行圖數(shù)據(jù)分析不同場(chǎng)景下的連帶延誤的傳播特性[8],以期充分解析高速鐵路列車(chē)延誤的傳播機(jī)理,并為動(dòng)態(tài)列車(chē)調(diào)度提供輔助決策。
參考文獻(xiàn):
[1] Goverde R M P. Railway timetable stability analysis using max-plus system theory[J]. Transportation Research Part B: Methodological, 2007,41(2):179-201.
[2] 袁志明. 復(fù)雜線路列車(chē)晚點(diǎn)控制優(yōu)化策略及方法[D]. 北京:中國(guó)鐵道科學(xué)研究院(博士學(xué)位論文),2016.
[3] 文超,彭其淵,陳芋宏. 高速鐵路列車(chē)運(yùn)行沖突機(jī)理[J]. 交通運(yùn)輸工程學(xué)報(bào),2012,12(2):119-126.
[4] Carey M, Kwieciński A. Stochastic approximation to the effects of headways on knock-on delays of trains[J]. Transportation Research Part B: Methodological, 1994,28(4):251-267.
[5] 張琦,陳峰,張濤,等. 高速鐵路列車(chē)連帶晚點(diǎn)的智能預(yù)測(cè)及特征識(shí)別[J]. 自動(dòng)化學(xué)報(bào),2019,45(12):2251-2259.
[6] 王洋,張桂珠. 自動(dòng)確定聚類(lèi)中心的密度峰值算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2018,54(8):137-142.
[7] 朱連江,馬炳先,趙學(xué)泉. 基于輪廓系數(shù)的聚類(lèi)有效性分析[J]. 計(jì)算機(jī)應(yīng)用,2010,30(S2):139-141.
[8] 孟令云,Goverde R M P. 基于實(shí)際數(shù)據(jù)分析的列車(chē)晚點(diǎn)傳播過(guò)程構(gòu)建方法與實(shí)例[J]. 北京交通大學(xué)學(xué)報(bào),2012,36(6):15-20.