喻冰春
(中國鐵道科學研究院集團有限公司 電子計算技術(shù)研究所,北京 100081)
大數(shù)據(jù)是新資源、新技術(shù)、新理念的混合體[1]。從資源角度,大數(shù)據(jù)已經(jīng)成為了一種基礎(chǔ)性戰(zhàn)略資源;從技術(shù)角度,大數(shù)據(jù)代表了新一代數(shù)據(jù)管理與分析技術(shù);從理念角度,大數(shù)據(jù)采用數(shù)據(jù)驅(qū)動和數(shù)據(jù)閉環(huán)的理念,利用數(shù)據(jù)進行決策、實現(xiàn)自我升級[2-3]。
大數(shù)據(jù)技術(shù)在鐵路的應用,有利于促進數(shù)據(jù)資源共享,以數(shù)據(jù)驅(qū)動業(yè)務創(chuàng)新,更有助于保障鐵路行車安全,增加鐵路企業(yè)的經(jīng)濟效益。近年來的相關(guān)鐵路大數(shù)據(jù)研究已經(jīng)提出了鐵路大數(shù)據(jù)應用頂層設(shè)計[4]、鐵路大數(shù)據(jù)平臺總體方案及關(guān)鍵技術(shù)[5]和鐵路大數(shù)據(jù)應用體系架構(gòu)[6]。本文旨在結(jié)合鐵路貨車數(shù)據(jù)資源情況,開展鐵路貨車大數(shù)據(jù)平臺總體設(shè)計,為鐵路貨車大數(shù)據(jù)平臺的搭建提供設(shè)計依據(jù),推進大數(shù)據(jù)技術(shù)在鐵路貨車領(lǐng)域的應用。
鐵路貨車大數(shù)據(jù)包括了貨車及關(guān)鍵零部件從設(shè)計、制造、運用、檢修到報廢的全生命周期各個環(huán)節(jié)所產(chǎn)生的各類數(shù)據(jù)。鐵路貨車大數(shù)據(jù)的數(shù)據(jù)來源主要有3類。
(1)鐵路貨車運用維修數(shù)據(jù)
運用維修數(shù)據(jù)主要來源于鐵路貨車技術(shù)管理信息系統(tǒng),數(shù)據(jù)資源分別存放在中國國家鐵路集團有限公司(簡稱:國鐵集團)、鐵路局集團公司(簡稱:鐵路局)、車輛段、作業(yè)場以及貨車造修工廠中,各級系統(tǒng)存儲了系統(tǒng)應用至今的全部數(shù)據(jù),每日新增數(shù)據(jù)量約2 G。
(2)鐵路貨車運行安全監(jiān)控數(shù)據(jù)
安全監(jiān)控數(shù)據(jù)主要來源于鐵路車輛運行安全監(jiān)控系統(tǒng)[7],數(shù)據(jù)資源存放在國鐵集團、鐵路局、車輛段中,系統(tǒng)利用紅外軸溫探測、力學檢測、高速攝像、聲學診斷等軌邊安全監(jiān)測設(shè)備對運行中的貨車車輛進行動態(tài)監(jiān)測與管理,每日監(jiān)控車輛約1 000余萬輛次,每日新增數(shù)據(jù)量約120 G,目前系統(tǒng)存儲了近3個月的圖像、實時車載數(shù)據(jù)和近2年的非圖像數(shù)據(jù)。
(3)相關(guān)外部數(shù)據(jù)
相關(guān)外部數(shù)據(jù)主要來源于與鐵路貨車運用維修管理相關(guān)的外專業(yè)信息系統(tǒng),包括鐵路貨物列車編組、裝載及運輸調(diào)度信息等,數(shù)據(jù)資源主要存放在國鐵集團和鐵路局。
鐵路貨車大數(shù)據(jù)具有5大特征:
(1)數(shù)據(jù)體量巨大,隨著物聯(lián)網(wǎng)在車輛制造維修各領(lǐng)域的廣泛應用,接入的信息量持續(xù)增大;
(2)數(shù)據(jù)分布廣泛,分布于全路范圍內(nèi)的眾多機器設(shè)備、各級信息系統(tǒng)等各個環(huán)節(jié);
(3)結(jié)構(gòu)復雜,既有結(jié)構(gòu)化、半結(jié)構(gòu)化的傳感數(shù)據(jù),也有圖片、音頻、視頻、日志等非結(jié)構(gòu)化數(shù)據(jù);
(4)數(shù)據(jù)處理速度需求多樣化,生產(chǎn)現(xiàn)場要求實時數(shù)據(jù)分析,管理與決策應用需要交互式或批量數(shù)據(jù)分析;
(5)對數(shù)據(jù)分析的置信度要求較高,相關(guān)關(guān)系分析不足以支撐故障診斷、預測預警等應用,需要將物理模型與數(shù)據(jù)模型結(jié)合,追蹤挖掘因果關(guān)系。
結(jié)合鐵路貨車大數(shù)據(jù)資源現(xiàn)狀及業(yè)務應用需要,鐵路貨車大數(shù)據(jù)平臺的總體架構(gòu)由現(xiàn)場數(shù)據(jù)采集傳輸層、平臺及設(shè)施層和應用層3部分構(gòu)成,如圖1所示。
現(xiàn)場數(shù)據(jù)采集傳輸層以實現(xiàn)鐵路貨車及關(guān)鍵零部件全壽命周期數(shù)據(jù)資源采集和傳輸為核心,在車輛段、貨車造修工廠、軌旁監(jiān)測設(shè)備等基層數(shù)據(jù)采集地點進一步完善數(shù)據(jù)采集內(nèi)容、強化數(shù)據(jù)采集質(zhì)量,實現(xiàn)數(shù)據(jù)匯集及本地應用,并且通過貨車技術(shù)管理信息系統(tǒng)、車輛運行安全監(jiān)控系統(tǒng)等將全過程數(shù)據(jù)上傳至國鐵集團。
圖1 鐵路貨車大數(shù)據(jù)平臺總體架構(gòu)圖
平臺及設(shè)施層在國鐵集團構(gòu)建基礎(chǔ)設(shè)施虛擬運行環(huán)境,對數(shù)據(jù)資源進行采集與集成、數(shù)據(jù)存儲與管理、數(shù)據(jù)計算與分析和數(shù)據(jù)可視化展示,通過數(shù)據(jù)統(tǒng)一規(guī)劃、數(shù)據(jù)集成與綜合治理等大數(shù)據(jù)技術(shù),提高貨車數(shù)據(jù)資產(chǎn)價值。
應用層實現(xiàn)現(xiàn)有軟件的優(yōu)化和應用服務創(chuàng)新。利用大數(shù)據(jù)計算分析結(jié)果支持貨車技術(shù)管理信息系統(tǒng)、車輛運行安全監(jiān)控系統(tǒng)等現(xiàn)有系統(tǒng)的功能優(yōu)化,同時,為實現(xiàn)貨車故障預測與健康管理(PHM,Prognostic and Health Management)[8]、大數(shù)據(jù)質(zhì)量評價及管理決策等應用創(chuàng)新提供支撐。
鐵路貨車大數(shù)據(jù)平臺技術(shù)架構(gòu)以整合、集成成熟的Hadoop生態(tài)圈開源技術(shù)為主,主要由數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算分析、數(shù)據(jù)應用5部分組成,如圖2所示。
(1) 數(shù)據(jù)源:包括與鐵路貨車大數(shù)據(jù)分析有關(guān)的數(shù)據(jù),主要來源于貨車技術(shù)管理信息系統(tǒng)、車輛運行安全監(jiān)控系統(tǒng)等相關(guān)信息系統(tǒng),數(shù)據(jù)類型可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
(2) 數(shù)據(jù)采集:通過數(shù)據(jù)抽取轉(zhuǎn)換加載(ETL,Extract Transform Load)工具將原始采集數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換、加載,將各關(guān)系數(shù)據(jù)庫利用Sqoop進行關(guān)系數(shù)據(jù)抽取和轉(zhuǎn)換,對于系統(tǒng)日志、操作日志等非結(jié)構(gòu)化數(shù)據(jù)利用Flume進行文件轉(zhuǎn)換存儲,對于圖片、視頻等以數(shù)據(jù)流的方式通過Kafka進行采集。
(3) 數(shù)據(jù)存儲:利用HDFS、HBase、Hive進行數(shù)據(jù)存儲,實現(xiàn)貨車數(shù)據(jù)資源的統(tǒng)一規(guī)劃和分布式存儲與管理。
圖2 鐵路貨車大數(shù)據(jù)平臺技術(shù)架構(gòu)
(4) 數(shù)據(jù)計算分析:利用MapReduce進行批量數(shù)據(jù)并行計算,利用Hive進行數(shù)據(jù)查詢計算,利用Spark進行內(nèi)存化實時分析,利用Storm進行數(shù)據(jù)流實時分析。
(5) 數(shù)據(jù)應用:根據(jù)業(yè)務需求和數(shù)據(jù)分析結(jié)果,提供數(shù)據(jù)目錄服務、數(shù)據(jù)共享服務、數(shù)據(jù)可視化等多種數(shù)據(jù)應用。
(6) 元數(shù)據(jù)管理、主數(shù)據(jù)管理、配置管理、安全管理:提供各類基礎(chǔ)數(shù)據(jù)管理及服務。
3.1.1 大數(shù)據(jù)采集與存儲技術(shù)
鐵路貨車大數(shù)據(jù)平臺主要利用數(shù)據(jù)ETL、分布式存儲等技術(shù),進行關(guān)系數(shù)據(jù)庫數(shù)據(jù)抽取、文件數(shù)據(jù)采集、實時流數(shù)據(jù)采集等多個功能的封裝,實現(xiàn)鐵路貨車海量、多樣化的數(shù)據(jù)采集與轉(zhuǎn)換。結(jié)合不同的數(shù)據(jù)處理需求,采用數(shù)據(jù)倉庫和分布式文件系統(tǒng)、分布式數(shù)據(jù)庫等技術(shù),實現(xiàn)對鐵路貨車大數(shù)據(jù)資源的統(tǒng)一規(guī)劃和存儲管理。
3.1.2 大數(shù)據(jù)治理技術(shù)
為確保鐵路貨車大數(shù)據(jù)完整、準確、唯一,鐵路貨車大數(shù)據(jù)平臺采用以下數(shù)據(jù)治理技術(shù):
(1)對鐵路貨車基礎(chǔ)數(shù)據(jù)進行統(tǒng)一管理、及時更新、動態(tài)發(fā)布、全路共享;
(2)建立貨車基礎(chǔ)技術(shù)、新造、運用、檢修等關(guān)鍵數(shù)據(jù)的數(shù)據(jù)標準,明確各級采集、維護、管理對象及機制,實現(xiàn)統(tǒng)一來源、統(tǒng)一使用;
(3)對歷史數(shù)據(jù)進行重新審查和校驗,剔除無效、不符合規(guī)范的數(shù)據(jù);
(4)加強系統(tǒng)間數(shù)據(jù)共享和校驗,對關(guān)鍵數(shù)據(jù)的質(zhì)量問題進行分析、識別、監(jiān)控、預警等,提升數(shù)據(jù)質(zhì)量。
3.1.3 算法和模型
鐵路貨車大數(shù)據(jù)分析算法包括分類、回歸、聚類、決策樹、貝葉斯、支持向量機、深度學習等核心機器學習算法。鐵路貨車大數(shù)據(jù)專業(yè)模型主要用于評價分析和狀態(tài)預測,針對具體的業(yè)務應用場景建立貨車及零部件實時技術(shù)狀態(tài)評價及故障預測、貨車運用質(zhì)量評價、貨車檢修質(zhì)量評價、貨車源頭質(zhì)量評價等專業(yè)模型。
3.1.4 大數(shù)據(jù)計算分析
(1)對于鐵路貨車運行安全監(jiān)控產(chǎn)生的順序、快速、連續(xù)、大量的數(shù)據(jù),采用流計算分析方法,實現(xiàn)實時在線統(tǒng)計和預警;
(2)對于貨車運用維修生產(chǎn)支持,采用內(nèi)存計算分析方法,提供在線數(shù)據(jù)查詢和分析;
(3)對于貨車經(jīng)營及管理決策支持,采用批量計算分析方法,滿足大批量、綜合數(shù)據(jù)的離線分析。
在數(shù)據(jù)計算分析的基礎(chǔ)上結(jié)合專業(yè)模型,滿足實時、離線的大數(shù)據(jù)分析應用需求。
鐵路貨車大數(shù)據(jù)應用主要包括貨車全壽命周期管理、貨車PHM、貨車產(chǎn)品質(zhì)量反饋、維修生產(chǎn)過程優(yōu)化、生產(chǎn)質(zhì)量管控、設(shè)備預測性維修、供應鏈管理優(yōu)化、智能決策管理等8大應用場景。
(1)貨車全壽命周期管理
對鐵路貨車及關(guān)鍵零部件的設(shè)計、制造、運用、維修、報廢數(shù)據(jù)進行全面集成,形成完整準確的電子履歷檔案,實現(xiàn)全壽命周期的可追溯管理。
(2)貨車PHM
將鐵路貨車及關(guān)鍵零部件的實時運行數(shù)據(jù)與其設(shè)計、制造和歷史維修數(shù)據(jù)進行融合,提供技術(shù)狀態(tài)評價、壽命預測和運行維護建議,實現(xiàn)維修管理決策等健康管理應用。
(3)貨車產(chǎn)品質(zhì)量反饋
將鐵路貨車及關(guān)鍵零部件運行情況和運用維修數(shù)據(jù)反饋到設(shè)計和制造階段,從而促進貨車造修工廠改進設(shè)計和制造方案,加速創(chuàng)新迭代。
(4)維修生產(chǎn)過程優(yōu)化
通過鐵路貨車大數(shù)據(jù)平臺對生產(chǎn)進度、物料管理、經(jīng)營管理等數(shù)據(jù)進行分析,提升貨車制造、維修、排產(chǎn)、進度、物料、人員等方面管理的準確性。
(5)生產(chǎn)質(zhì)量管控
基于鐵路貨車及關(guān)鍵零部件生產(chǎn)和維修的檢查檢驗數(shù)據(jù)和“人機料法環(huán)”等過程數(shù)據(jù)進行關(guān)聯(lián)性分析,實現(xiàn)在線質(zhì)量監(jiān)測和異常分析,強化生產(chǎn)及維修質(zhì)量管控。
(6)設(shè)備預測性維護
針對貨車大型在線檢修、監(jiān)測設(shè)備,平臺結(jié)合設(shè)備歷史數(shù)據(jù)與實時運行數(shù)據(jù),監(jiān)控設(shè)備運行狀態(tài),實現(xiàn)設(shè)備預測性維護,保障設(shè)備穩(wěn)定運用。
(7)供應鏈管理優(yōu)化
鐵路貨車大數(shù)據(jù)平臺可實時跟蹤現(xiàn)場物料消耗,結(jié)合庫存情況安排相關(guān)供應商進行精準配貨,推進零庫存管理,有效降低庫存成本。
(8)智能決策管理
借助鐵路貨車大數(shù)據(jù)平臺整合生產(chǎn)現(xiàn)場數(shù)據(jù)、技術(shù)管理數(shù)據(jù)和供應鏈數(shù)據(jù),提升經(jīng)營管理及維修管理決策效率,實現(xiàn)更加精準與透明的分析評價與決策管理。
應用大數(shù)據(jù)技術(shù)進行數(shù)據(jù)采集、存儲、分析并挖掘出有價值的信息,是將數(shù)據(jù)轉(zhuǎn)化為生產(chǎn)力的必然選擇[9-10]。本文結(jié)合鐵路貨車數(shù)據(jù)資源情況,基于大數(shù)據(jù)采集與存儲技術(shù)、大數(shù)據(jù)治理技術(shù)、大數(shù)據(jù)算法和模型、大數(shù)據(jù)計算分析技術(shù),提出了鐵路貨車大數(shù)據(jù)平臺的總體設(shè)計及應用場景,為鐵路貨車大數(shù)據(jù)平臺的搭建提供設(shè)計依據(jù)。
基于本文提出的鐵路貨車大數(shù)據(jù)平臺總體設(shè)計方案,已經(jīng)在國鐵集團開展了鐵路貨車大數(shù)據(jù)平臺搭建,后續(xù)需進一步針對貨車大數(shù)據(jù)應用場景,建立貨車及零部件實時技術(shù)狀態(tài)評價及故障預測、貨車質(zhì)量評價及風險預警等專業(yè)模型,推進大數(shù)據(jù)技術(shù)在鐵路貨車領(lǐng)域深入應用。