李 擎,劉仍奎,白 磊, ,王福田,陳云峰
(1. 北京交通大學(xué) 交通運輸學(xué)院,北京 100044;2. 北京易華錄信息技術(shù)股份有限公司,北京 100043;3. 北京交通大學(xué) 軌道交通控制與安全國家重點實驗室,北京 100044;4. 蘭州鐵路局 工務(wù)處,甘肅 蘭州 730000)
軌道[1]是多種設(shè)備的集合體,是鐵路行車的基礎(chǔ),其作用是引導(dǎo)機車車輛運行。如有砟軌道由鋼軌、軌枕、道床、聯(lián)結(jié)零件及防爬設(shè)備構(gòu)成。全面直觀地把握鐵路軌道健康狀態(tài)是科學(xué)編制養(yǎng)護維修計劃的基礎(chǔ),對確保鐵路行車安全具有重要意義。鐵路現(xiàn)場主要以病害等級、病害數(shù)量、病害扣分及軌道質(zhì)量指數(shù) TQI等指標評定軌道設(shè)備狀態(tài)[2?6]。Sadeghi等[7?11]提出利用軌道結(jié)構(gòu)指數(shù) TSI、軌道質(zhì)量等級TQR、軌道不平順功率譜、病害重復(fù)度、失效率等評定軌道設(shè)備狀態(tài)。隨著鐵路工務(wù)信息化工作的不斷推進,以及更多檢查檢測方式的廣泛使用,軌道狀態(tài)數(shù)據(jù)日益豐富。但是,目前鐵路管理者主要利用折線圖、柱狀圖等簡單圖形對分析結(jié)果進行直觀化展示,難以深度挖掘數(shù)據(jù)中潛在的規(guī)律,無法直觀、清晰地展示海量數(shù)據(jù)中的相關(guān)信息。數(shù)據(jù)可視化分析是大數(shù)據(jù)分析的一類重要研究方向。數(shù)據(jù)可視化分析的基本思想是,借助計算機圖形學(xué)以及圖像處理技術(shù),對數(shù)據(jù)進行組織融合,從不同的維度觀察數(shù)據(jù),對數(shù)據(jù)進行更深入的分析,實現(xiàn)對 3類知識的獲取[12?13]:1) 異常:判斷數(shù)據(jù)集中是否存在“問題”數(shù)據(jù);2) 關(guān)系:分析不同數(shù)據(jù)間的相關(guān)性;3) 模式:分析數(shù)據(jù)中存在的某種規(guī)律。本文研究提出一種基于網(wǎng)格的鐵路軌道狀態(tài)大數(shù)據(jù)可視化模型(Grid-based Visualization Model for Big Data of Railway Track Condition,GVM-BDRTC),直觀展現(xiàn)不同軌道設(shè)備健康狀態(tài)的相似性或差異性,讓管理者可以在較小的空間范圍內(nèi)全面直觀把握軌道設(shè)備健康狀態(tài)分布,為軌道養(yǎng)護維修管理提供決策支持。
基于鐵路基礎(chǔ)設(shè)施設(shè)備網(wǎng)格化管理理論[14],作者把線性、連續(xù)的鐵路軌道按照200 m的長度,劃分成若干相鄰等長的“小區(qū)段”?!靶^(qū)段”是鋼軌、軌枕、道床、聯(lián)結(jié)零件等設(shè)備組成的綜合體。每個“小區(qū)段”稱為一個軌道網(wǎng)格。軌道網(wǎng)格的長度理論上應(yīng)充分小,便于管理者更精確地把握軌道健康狀態(tài),但應(yīng)與鐵路現(xiàn)有的管理水平與能力相匹配。
某一軌道網(wǎng)格狀態(tài)是由該網(wǎng)格里程范圍內(nèi)各設(shè)備狀態(tài)共同確定的,其狀態(tài)評定指標包括高低、軌向、軌距、水平、三角坑等軌道局部不平順性指標,軌道質(zhì)量指數(shù)TQI,病害數(shù)量,病害扣分,平均病害率,病害變化率,平均維修時間等。因此,管理者難以直接利用上述多維狀態(tài)指標把握軌道網(wǎng)格健康。
本文提出的基于網(wǎng)格的鐵路軌道狀態(tài)大數(shù)據(jù)可視化模型(GVM-BDRTC),可在較好地保持軌道網(wǎng)格在原高維狀態(tài)空間中健康狀態(tài)相似關(guān)系的前提下,可視化展現(xiàn)軌道網(wǎng)格健康狀態(tài)特征的相似性或差異性。模型GVM-BDRTC由3部分構(gòu)成,其計算流程見圖1。
圖1 模型GVM-BDRTC計算流程圖Fig.1 Algorithm flowchart of the GVM-BDRTC model
1) 以鐵路軌道網(wǎng)格作為研究對象,使軌道健康狀態(tài)在較小的空間范圍內(nèi)被管理者掌握;
2) 軌道網(wǎng)格多狀態(tài)評定指標降維。在由多狀態(tài)評定指標構(gòu)成的多維空間中,采用各軌道網(wǎng)格的相互距離,定義各軌道網(wǎng)格健康狀態(tài)的相似程度,利用多維尺度分析算法(Multidimensional Scaling,簡稱MDS)[15],在較好地保持各軌道網(wǎng)格健康狀態(tài)相似程度的前提下,對軌道網(wǎng)格多維狀態(tài)評定指標進行降維;
3) 軌道網(wǎng)格健康特征聚類。利用混合層次 K均值聚類算法(Hybrid Hierarchical K-means Clustering,HHKMC),在第2) 步計算結(jié)果基礎(chǔ)上,對軌道網(wǎng)格的健康狀態(tài)特征進行聚類分析。同時,在低維狀態(tài)空間可視化地展現(xiàn)軌道網(wǎng)格狀態(tài)的空間分布,分析原高維狀態(tài)空間各軌道網(wǎng)格狀態(tài)的相似性或差異性。
假設(shè) Δ =[δij] 表示軌道網(wǎng)格在由原多狀態(tài)評定指標構(gòu)成的多維空間內(nèi)的距離矩陣,空間維度用m表示,依據(jù)狀態(tài)評定指標個數(shù)確定。矩陣Δ中的元素δij表示軌道網(wǎng)格Gi與軌道網(wǎng)格Gj的空間距離,用于表示健康狀態(tài)的相似度,采用歐式距離定義。δij越小表明軌道網(wǎng)格樣本間的健康特征越相似。D = [ dij]表示軌道網(wǎng)格在新生成的低維狀態(tài)空間內(nèi)的距離矩陣,空間維度用n表示,n<m。矩陣D中的元素dij表示軌道網(wǎng)格軌道網(wǎng)格Gi與軌道網(wǎng)格Gj在低維狀態(tài)空間的距離,采用歐式距離定義。dij反映了上述2個軌道網(wǎng)格在低維空間上健康狀態(tài)的相似度。
多維尺度分析MDS算法的目的是使軌道網(wǎng)格在低維空間內(nèi)的距離 dij盡可能與軌道網(wǎng)格健康相似度δij接近,見式(1)。用軌道網(wǎng)格在低維狀態(tài)空間內(nèi)的距離dij,近似表示各軌道網(wǎng)格健康狀態(tài)的相似度。通過分析dij即可研究軌道網(wǎng)格健康狀態(tài)間的相似性與差異性。
采用Shepard-Kruskal[16?17]算法,求解上述最優(yōu)化問題,其算法流程如下。
Step 1:任意選取低維狀態(tài)空間中軌道網(wǎng)格Gp的初始坐標,
Step 2:依據(jù)軌道網(wǎng)格在低維狀態(tài)空間坐標,計算對應(yīng)的距離矩陣,k=0。
Step 4:更新軌道網(wǎng)格 Gp在低維空間的坐標),見式(2)。其中,n表示軌道網(wǎng)格數(shù),θ表示迭代的步長。
Step 5:根據(jù)步驟4計算的結(jié)果,更新軌道網(wǎng)格點的距離矩陣。
Step 6:計算壓力系數(shù) S,見式(3)。若壓力系數(shù) s小于預(yù)先設(shè)定殘差ε,計算結(jié)束;否則,返回步驟3。
假設(shè)軌道網(wǎng)格樣本有U個,聚類的簇數(shù)有S個。論文利用第 1.2節(jié) MDS算法輸出的軌道網(wǎng)格 z1,z2,…,zn狀態(tài)數(shù)據(jù),采用混合層次 K均值聚類算法HHKMC對U個軌道網(wǎng)格樣本進行聚類分析,劃分為S個簇,屬于同一簇的軌道網(wǎng)格樣本的健康狀態(tài)具有極大的相似性,屬于不同的簇的軌道網(wǎng)格樣本的健康狀態(tài)差異較大,具體算法如下。
Step 1:在屬性變量z1, z2,…,zn構(gòu)成的多維空間中,U個軌道網(wǎng)格樣本各自作為一簇(或類),即假定 U個軌道網(wǎng)格的健康特征各不相同。
Step 2:計算所有軌道網(wǎng)格簇兩兩之間的距離,判斷兩兩軌道網(wǎng)格簇健康特征相似性。采用歐式距離定義軌道網(wǎng)格樣本Gi與Gj之間的距離dij,見式(4)。軌道網(wǎng)格樣本間的距離 dij用于衡量軌道網(wǎng)格樣本間健康特征的相似性。其中,Zi是軌道網(wǎng)格Gi的狀態(tài)屬性變量, Zi= ( zi1,zi2,…,zin)T。Zj是Gj的狀態(tài)屬性變量,。
采用Average Linkage策略定義軌道網(wǎng)格簇Cv與Ce的距離Dve,見式(5),即軌道網(wǎng)格簇間的距離是簇中所有樣本對之間的平均距離。軌道網(wǎng)格簇間的距離Dve用于衡量軌道網(wǎng)格簇間健康特征的相似性,Dve越小表明軌道網(wǎng)格簇間的健康特征越相似。其中,tv表示軌道網(wǎng)格簇Cv中的樣本個數(shù)。te表示簇Ce中的樣本個數(shù)。
Step 3:將距離最短的2個簇合并為1個新的簇,即將健康特征最相似的2個軌道網(wǎng)格簇合為1個新的簇。
Step 4:重復(fù)步驟2,3,直到將U個軌道網(wǎng)格分為S個簇。
Step 6:分別計算每個軌道網(wǎng)格樣本Gi與S個簇中心的距離,將這些軌道網(wǎng)格樣本分別劃歸到距離最小的簇,即將軌道網(wǎng)格樣本分別劃歸到與其健康狀態(tài)最相似的軌道網(wǎng)格簇,如式(7)所示。
Step 7:根據(jù)聚類的結(jié)果,更新S個簇各自的中心,同步驟5。
Step 8:重復(fù)步驟6、7,直到S個簇中心不發(fā)生改變,得到軌道網(wǎng)格健康特征聚類的最終結(jié)果。
蘭新鐵路是東起蘭州西至烏魯木齊的有砟軌道鐵路。本節(jié)以蘭新線上下行K548+000~K985+600里程范圍內(nèi)的1 447個軌道網(wǎng)格為研究對象,選用這些軌道網(wǎng)格2016年3月份的10 129條狀態(tài)評定指標數(shù)據(jù),驗證論文提出模型 GVM-BDRTC的有效性。作者利用R編程語言[19?20]實現(xiàn)對模型GVMBDRTC的構(gòu)建和求解?;趯嶋H收集到的數(shù)據(jù)情況,本實例選用7個狀態(tài)評定指標(見表1)衡量軌道網(wǎng)格狀態(tài),記為。表2為蘭新線2016年3月份部分軌道網(wǎng)格的狀態(tài)評定指標數(shù)據(jù)。
表1 選取的軌道網(wǎng)格狀態(tài)評定指標Table1 Selected condition indexes of tracks grids
表 1中的“軌道質(zhì)量等級 TQR”是依據(jù)軌道TQI及各類軌道幾何局部超限病害個數(shù)確定的,該指標目前用于在蘭州鐵路局評定軌道線路健康狀態(tài)。TQR劃分為4個狀態(tài)等級,TQR等級越高,軌道網(wǎng)格質(zhì)量越差,表3是蘭新線TQR的判定依據(jù)。
作者采用模型GVM-BDRTC中的MDS算法,把軌道網(wǎng)格的多狀態(tài)評定指標維度由 7維降到 2維。經(jīng)過迭代23次后,Stress的改變量小于1×10?6,停止迭代。Stress=0.109 8<0.2,這說明模型GVMBDRTC的降維效果良好,新構(gòu)造出的軌道網(wǎng)格 2維狀態(tài)空間,能較好地保持軌道網(wǎng)格在原7維狀態(tài)空間中健康狀態(tài)的相似關(guān)系。降維得到的2維狀態(tài)指標,沒有明確的物理含義,采用其計算出的歐式距離,衡量軌道網(wǎng)格間健康狀態(tài)的相似程度。這些軌道網(wǎng)格新構(gòu)造出的 2維狀態(tài)指標值(部分)如表 4所示。
表2 蘭新線2016年3月份軌道網(wǎng)格狀態(tài)評定指標數(shù)據(jù)(部分)Table2 Condition indexes data of tracks grids in the Lanzhou-Xinjiang railway (partial)
表3 蘭新線TQR判定依據(jù)Table3 Standards and definitions for TQR in the Lanxin Railway
表4 蘭新線2016年3月份軌道網(wǎng)格新構(gòu)造出的狀態(tài)評定指標數(shù)據(jù)(部分)Table4 Reconstructed condition indexes data of tracks grids in the Lanzhou-Xinjiang railway (partial)
144 7個軌道網(wǎng)格在2維狀態(tài)空間的狀態(tài)分布圖,見圖2。圖中的橫坐標表示模型GVM-BDRTC新構(gòu)造出的狀態(tài)屬性變量y1,縱坐標表示新構(gòu)造出的狀態(tài)屬性變量y2。圖中的圓點表示軌道網(wǎng)格。圖中兩個軌道網(wǎng)格的空間距離越近,說明這2個軌道網(wǎng)格健康狀態(tài)越類似。從圖2可明顯看出大部分軌道網(wǎng)格處于圖中左下角。
作者采用模型GVM-BDRTC中的HHKMC算法,對1 447個軌道網(wǎng)格的健康狀態(tài)特征進行了聚類分析。這些軌道網(wǎng)格健康狀態(tài)特征劃分為了三大類(或簇),如圖 3所示。屬于不同簇的軌道網(wǎng)格用不用顏色和形狀的點表示。紅色圓點表示屬于第一簇(用Cluster=1表示)的軌道網(wǎng)格,綠色三角點表示屬于第二簇(用Cluster=2表示)的軌道網(wǎng)格,藍色方框點表示屬于第三簇(用 Cluster=3表示)的軌道網(wǎng)格。通過分析圖3可知,這些軌道網(wǎng)格分布在圖中的3個區(qū)域:1) Cluster=1的軌道網(wǎng)格處于圖中左下角,其y1,y2值較??;2) Cluster=2的軌道網(wǎng)格處于圖中右上角,其 y1的值較小、y2的值較大;3) Cluster=3的軌道網(wǎng)格處于圖中右下角,其y1的值較大、y2的值較小。
圖2 軌道網(wǎng)格2維狀態(tài)空間分布圖Fig.2 2-dimensional spatial distribution map for track grids condition
圖3 軌道網(wǎng)格健康狀態(tài)聚類結(jié)果圖Fig.3 Clustering map for health features of track grids
作者將模型 GVM-BDRTC分析結(jié)果與軌道質(zhì)量等級TQR進行了疊合分析,見圖4。屬于不同簇的軌道網(wǎng)格用不同的顏色表示,紅色表示Cluster=1的軌道網(wǎng)格,綠色表示 Cluster=2軌道網(wǎng)格,藍色表示Cluster=3的軌道網(wǎng)格。不同等級的TQR用不同的數(shù)字表示,TQR=1的軌道網(wǎng)格用“1”表示,TQR=2的軌道網(wǎng)格用“2”表示,TQR=3的軌道網(wǎng)格用“3”表示,TQR=4的軌道網(wǎng)格用“4”表示。
從圖4可分析出,1) Cluster=3的軌道網(wǎng)格,主要對應(yīng) TQR=4、TQR=3的軌道網(wǎng)格,這些軌道網(wǎng)格的健康狀態(tài)較差;2) Cluster=1軌道網(wǎng)格,主要對應(yīng) TQR=1的軌道網(wǎng)格,這些軌道網(wǎng)格的健康狀態(tài)較好;3) Cluster=2的網(wǎng)格,主要對應(yīng)TQR=2,TQR=1的軌道網(wǎng)格。由此可知,軌道網(wǎng)格的模型 GVMBDRTC分析結(jié)果與相應(yīng)軌道質(zhì)量等級TQR評定結(jié)果基本一致,這反映了模型 GVM-BDRTC的有效性。但上述分析結(jié)果也存在一定的差異性,部分健康狀態(tài)相似的軌道網(wǎng)格卻對應(yīng)不同的 TQR值,這說明了模型GVM-BDRTC分析結(jié)果與TQR判定方法相比更科學(xué)。
圖4 模型GVM-BDRTC分析結(jié)果與TQR疊合分析Fig.4 Overlaying results of GVM-BDRTC and TQR
綜上分析,模型 GVM-BDRTC能實現(xiàn)對狀態(tài)差異較大的軌道網(wǎng)格進行不同程度的區(qū)分,對狀態(tài)類似的軌道網(wǎng)格進行很好的聚類分辨,同時對軌道網(wǎng)格健康狀態(tài)分布進行直觀清晰的展現(xiàn)。
1) 基于鐵路基礎(chǔ)設(shè)施設(shè)備網(wǎng)格化管理理論,將鐵路線路劃分為連續(xù)的200 m的軌道網(wǎng)格,以軌道網(wǎng)格為基本單元,提出了基于網(wǎng)格的鐵路軌道狀態(tài)大數(shù)據(jù)可視化模型GVM-BDRTC,直觀展現(xiàn)了各軌道網(wǎng)格健康狀態(tài)的相似性或差異性,提升了管理者對數(shù)據(jù)的分析挖掘能力,提高了管理者對軌道網(wǎng)格健康狀態(tài)分布的整體把握。作者采用蘭新線的實際數(shù)據(jù)驗證了模型 GVM-BDRTC的有效性,并將模型的計算結(jié)果與蘭州鐵路局現(xiàn)場常用的指標 TQR進行了疊合分析。
2) 如何將本文提出的可視化模型與 GIS技術(shù)相結(jié)合,實現(xiàn)更豐富的軌道狀態(tài)數(shù)據(jù)可視化效果,是下一步研究的重點。