海 洋,李浩鵬,劉 懺,劉靖宇
(1.中國(guó)鐵路信息科技集團(tuán)有限公司,北京 100844;2.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
隨著鐵路行業(yè)信息技術(shù)的快速發(fā)展,鐵路信息化建設(shè)逐步深化。鐵路領(lǐng)域各業(yè)務(wù)系統(tǒng),如電子支付系統(tǒng)、貨運(yùn)票據(jù)電子化系統(tǒng)、鐵路運(yùn)輸管理信息系統(tǒng)、客票清算系統(tǒng)和鐵路車輛運(yùn)行安全監(jiān)控系統(tǒng)等,每年都會(huì)產(chǎn)生海量數(shù)據(jù),且新產(chǎn)生的數(shù)據(jù)量逐年增加[1-2]。同時(shí),鐵路管理部門和業(yè)務(wù)部門產(chǎn)生包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種類型的數(shù)據(jù)[3]。基于鐵路業(yè)務(wù)場(chǎng)景、數(shù)據(jù)類型、安全級(jí)別對(duì)數(shù)據(jù)進(jìn)行分類存儲(chǔ)與管理,保證存儲(chǔ)效率、安全性和經(jīng)濟(jì)性,便于數(shù)據(jù)分析處理,成為亟待解決的問(wèn)題。
本文設(shè)計(jì)的鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)使鐵路各部門及時(shí)、準(zhǔn)確掌握不同業(yè)務(wù)數(shù)據(jù)的產(chǎn)生、存儲(chǔ)、使用、管理、備份和刪除等情況,協(xié)助相關(guān)部門規(guī)范鐵路大數(shù)據(jù)存儲(chǔ)、管理與使用,為鐵路精細(xì)化經(jīng)營(yíng)管理和決策制定提供數(shù)據(jù)支撐,為更加科學(xué)、有效地規(guī)劃數(shù)據(jù)中心建設(shè)提供依據(jù)。
鐵路領(lǐng)域業(yè)務(wù)種類多、數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜[4],這為鐵路數(shù)據(jù)存儲(chǔ)與管理帶來(lái)了挑戰(zhàn)。鐵路大數(shù)據(jù)具有以下明顯特征。
(1)海量數(shù)據(jù),且數(shù)據(jù)增量逐年遞增。5類主要的鐵路業(yè)務(wù)2020年新增數(shù)據(jù)總和約為220 TB,其中,貨運(yùn)票據(jù)電子化系統(tǒng)新增約114 TB、客票清算數(shù)據(jù)新增約50 TB。
(2)數(shù)據(jù)格式多樣化。鐵路涉及的業(yè)務(wù)種類較多,應(yīng)用場(chǎng)景復(fù)雜,產(chǎn)生的數(shù)據(jù)格式包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等,如鐵路車輛運(yùn)行數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)、設(shè)備臺(tái)賬、電子郵件等。
(3)數(shù)據(jù)類型復(fù)雜。包括客貨運(yùn)數(shù)據(jù)、設(shè)備臺(tái)賬數(shù)據(jù)、基礎(chǔ)設(shè)施監(jiān)測(cè)和視頻監(jiān)控?cái)?shù)據(jù)等。
上述鐵路數(shù)據(jù)的特征為數(shù)據(jù)的存儲(chǔ)和管理帶來(lái)了難度。
鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)是針對(duì)鐵路數(shù)據(jù)中心大數(shù)據(jù)的采集、分類、存儲(chǔ)、管理的多維管理系統(tǒng)。系統(tǒng)面向鐵路局集團(tuán)公司各業(yè)務(wù)部門,使鐵路局集團(tuán)公司和數(shù)據(jù)中心的管理人員可以從多個(gè)層次,宏觀、高效地管理數(shù)據(jù)。系統(tǒng)架構(gòu)如圖1所示。
圖1 鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)架構(gòu)
2.1.1 數(shù)據(jù)采集模塊
該模塊包括數(shù)據(jù)源、下級(jí)數(shù)據(jù)中心和各鐵路業(yè)務(wù)系統(tǒng)數(shù)據(jù)交換與整合3個(gè)部分。模塊采集下級(jí)數(shù)據(jù)中心交換、整合的鐵路各項(xiàng)業(yè)務(wù)(如工務(wù)、電務(wù)、機(jī)務(wù)等)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)訪問(wèn),并進(jìn)行數(shù)據(jù)綜合管理。
2.1.2 數(shù)據(jù)綜合管理模塊
數(shù)據(jù)綜合管理模塊按照大數(shù)據(jù)處理順序分為數(shù)據(jù)集成層、數(shù)據(jù)湖、數(shù)據(jù)分析層和數(shù)據(jù)應(yīng)用層。
(1)數(shù)據(jù)集成層的主要功能是數(shù)據(jù)采集,通過(guò)前端服務(wù)器,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一讀寫控制,該層使用Sqoop、Flume、Kafka等,從物理和邏輯層次上把來(lái)自各項(xiàng)鐵路業(yè)務(wù)中具有不同性質(zhì)、不同格式的數(shù)據(jù)有機(jī)集中起來(lái),為上層大數(shù)據(jù)應(yīng)用開發(fā)提供數(shù)據(jù)支持[5]。
(2)數(shù)據(jù)湖用于存儲(chǔ)和管理由數(shù)據(jù)集成層采集的全量數(shù)據(jù),包括鐵路各業(yè)務(wù)領(lǐng)域信息系統(tǒng)所產(chǎn)生的原始數(shù)據(jù),及各類轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)和管理。
(3)數(shù)據(jù)分析層通過(guò)人工智能技術(shù)(算法預(yù)測(cè)、機(jī)器學(xué)習(xí)等)對(duì)鐵路大數(shù)據(jù)進(jìn)行分析和處理,充分挖掘鐵路大數(shù)據(jù)的潛在價(jià)值,分析結(jié)果可為數(shù)據(jù)應(yīng)用層提供理論依據(jù)。
(4)數(shù)據(jù)應(yīng)用層基于數(shù)據(jù)分析層對(duì)鐵路各業(yè)務(wù)和管理部門的數(shù)據(jù)的分析結(jié)果,對(duì)鐵路運(yùn)營(yíng)進(jìn)行科學(xué)合理的管理和規(guī)范,在管理、決策中充分發(fā)揮鐵路大數(shù)據(jù)的價(jià)值。
2.1.3 數(shù)據(jù)存儲(chǔ)模塊
存儲(chǔ)設(shè)備由虛擬存儲(chǔ)設(shè)備與磁盤陣列兩部分構(gòu)成,虛擬存儲(chǔ)設(shè)備的主要功能是為已分類的冷溫?zé)釘?shù)據(jù)指定邏輯存儲(chǔ)地址,而硬盤陣列的主要功能是將已指定好邏輯路徑的數(shù)據(jù)塊映射至對(duì)應(yīng)的物理存儲(chǔ)區(qū)。
2.2.1 統(tǒng)一交換云平臺(tái)
為實(shí)現(xiàn)鐵路數(shù)據(jù)資源的整合,方便鐵路數(shù)據(jù)的存儲(chǔ)管理,系統(tǒng)采用統(tǒng)一的云平臺(tái),通過(guò)數(shù)據(jù)交換技術(shù)將各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)統(tǒng)一存儲(chǔ),包括在局域網(wǎng)和WLAN端產(chǎn)生的數(shù)據(jù),從而降低鐵路大數(shù)據(jù)存儲(chǔ)管理的復(fù)雜度。
2.2.2 無(wú)丟包服務(wù)
鐵路各業(yè)務(wù)均要求數(shù)據(jù)具有高可靠性。由于網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)通常將數(shù)據(jù)存儲(chǔ)在不同節(jié)點(diǎn)上,在進(jìn)行數(shù)據(jù)訪問(wèn)時(shí),往往需要在多節(jié)點(diǎn)并行讀取或?qū)懭霐?shù)據(jù),需保障數(shù)據(jù)并行處理時(shí)的可靠性,避免數(shù)據(jù)在傳輸過(guò)程中出現(xiàn)傳輸失敗現(xiàn)象,實(shí)現(xiàn)數(shù)據(jù)傳輸過(guò)程中的無(wú)丟包目標(biāo)。鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)通過(guò)基于優(yōu)先級(jí)的流量控制、帶寬管理、擁塞管理技術(shù)實(shí)現(xiàn)無(wú)丟包服務(wù)[6-7]。系統(tǒng)采用的無(wú)丟包技術(shù)及實(shí)現(xiàn)方式如表1所示。
表1 無(wú)丟包技術(shù)及實(shí)現(xiàn)方式
系統(tǒng)基于優(yōu)先級(jí)類別的流量控制、帶寬管理和擁塞管理技術(shù),構(gòu)建無(wú)丟包網(wǎng)絡(luò)架構(gòu)[8]。該技術(shù)為鐵路各項(xiàng)業(yè)務(wù)提供安全的數(shù)據(jù)管理環(huán)境,為鐵路各類應(yīng)用直接合理分配資源提供技術(shù)保障和支持,使鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)能夠在復(fù)雜的網(wǎng)絡(luò)環(huán)境下安全運(yùn)行。
2.2.3 虛擬化技術(shù)
鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)采用虛擬接口技術(shù)、VN-Link技術(shù)和服務(wù)器虛擬化技術(shù)。利用虛擬化技術(shù)[9]實(shí)現(xiàn)“接口—鏈路—服務(wù)器”的虛擬化[7],便于整個(gè)系統(tǒng)工作負(fù)載的整合,可以在最大程度上提升存儲(chǔ)和網(wǎng)絡(luò)系統(tǒng)的利用率,從而降低整個(gè)系統(tǒng)的運(yùn)營(yíng)成本;虛擬接口技術(shù)為系統(tǒng)中所有可訪問(wèn)資源提供統(tǒng)一的管理和控制接口;利用VN-Link技術(shù)可在網(wǎng)絡(luò)、存儲(chǔ)和服務(wù)器的物理鏈路上建立多條虛擬鏈路,且直接映射到物理端口,避免數(shù)據(jù)在多個(gè)交換層之間傳輸時(shí)的轉(zhuǎn)換操作,為管理者提供便利;通過(guò)服務(wù)器虛擬化技術(shù)可自由調(diào)度數(shù)據(jù)中心的計(jì)算資源,使不同業(yè)務(wù)應(yīng)用不再考慮硬件資源對(duì)自身的影響,實(shí)現(xiàn)資源的合理分配。
系統(tǒng)開發(fā)基于Windows 10操作系統(tǒng),Tomcat 7.0 Web應(yīng)用服務(wù)器,數(shù)據(jù)庫(kù)采用MySQL 8.0。系統(tǒng)前端基于AngularJS框架,可視化工具采用ECharts,后臺(tái)采用SSH框架。AngularJS框架具有強(qiáng)大、豐富的模板,能夠?qū)崿F(xiàn)數(shù)據(jù)的雙向綁定,支持自定義指令,并可跨項(xiàng)目使用,顯著提升開發(fā)自由度和效率。ECharts是一個(gè)開源的可視化工具,具有封裝性好、圖表工具種類多、功能按鈕豐富、兼容性高等優(yōu)點(diǎn),能夠快速構(gòu)建當(dāng)前所需的各類可視化圖表。SSH框架是一種開源的Web應(yīng)用程序框架,實(shí)現(xiàn)了代碼分離,降低了工作復(fù)雜度,維護(hù)方便,且具有良好的可復(fù)用性。
3.2.1 數(shù)據(jù)來(lái)源管理
該功能統(tǒng)計(jì)和管理各業(yè)務(wù)平臺(tái)數(shù)據(jù)信息,為數(shù)據(jù)生命周期管理、數(shù)據(jù)分層、存儲(chǔ)管理提供依據(jù)。統(tǒng)計(jì)當(dāng)前數(shù)據(jù)容量、IOPS、吞吐量等信息,且可查看近期寫入、刪除的數(shù)據(jù)條目和不同業(yè)務(wù)數(shù)據(jù)的詳情,如電子支付、貨運(yùn)票據(jù)、資金詳情、車輛監(jiān)控、貨運(yùn)編組等。
3.2.2 存儲(chǔ)系統(tǒng)資源可視化管理
該功能包括內(nèi)存資源管理、冷溫?zé)釘?shù)據(jù)存儲(chǔ)管理、數(shù)據(jù)中心資源管理。其中,內(nèi)存資源管理使用戶可直觀地查看不同業(yè)務(wù)的當(dāng)前內(nèi)存占比,并可根據(jù)需求增加或減少相關(guān)業(yè)務(wù)資源;冷溫?zé)釘?shù)據(jù)存儲(chǔ)管理對(duì)冷溫?zé)釘?shù)據(jù)區(qū)別存儲(chǔ)和使用,收集冷溫?zé)釘?shù)據(jù)近期漲幅情況,適當(dāng)調(diào)整冷溫?zé)釘?shù)據(jù)存儲(chǔ)量;數(shù)據(jù)中心資源管理,以可視化形式對(duì)各下級(jí)數(shù)據(jù)中心的CPU、內(nèi)存、存儲(chǔ)等資源的使用狀況進(jìn)行管理,收集和展示近期各數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)量及傳輸量,以便在需要的時(shí)候進(jìn)行數(shù)據(jù)轉(zhuǎn)移或數(shù)據(jù)恢復(fù)操作。
3.2.3 數(shù)據(jù)預(yù)測(cè)和存儲(chǔ)規(guī)劃
通過(guò)大數(shù)據(jù)技術(shù)和人工智能技術(shù),預(yù)測(cè)冷數(shù)據(jù)、溫?cái)?shù)據(jù)、熱數(shù)據(jù)的存儲(chǔ)和管理需求,合理規(guī)劃數(shù)據(jù)分層存儲(chǔ)架構(gòu),為數(shù)據(jù)中心規(guī)劃建設(shè)提供理論支撐。
3.2.4 數(shù)據(jù)的統(tǒng)一管理
鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)實(shí)現(xiàn)鐵路各業(yè)務(wù)數(shù)據(jù)的統(tǒng)一管理,使鐵路大數(shù)據(jù)能作為一個(gè)邏輯整體進(jìn)行存儲(chǔ)管理。系統(tǒng)實(shí)現(xiàn)對(duì)鐵路大數(shù)據(jù)存儲(chǔ)資源的統(tǒng)一管理,例如,對(duì)各業(yè)務(wù)占用存儲(chǔ)資源的分配、調(diào)度,以及對(duì)資源的使用情況統(tǒng)計(jì)等。系統(tǒng)提供了一個(gè)B/S模式圖形化人機(jī)交互界面,用戶可直觀查看系統(tǒng)的各項(xiàng)功能。
針對(duì)鐵路信息化建設(shè)所面臨的數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、管理難度大等特點(diǎn),本文設(shè)計(jì)了鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng),使鐵路各部門及時(shí)準(zhǔn)確掌握和管理不同業(yè)務(wù)的數(shù)據(jù)產(chǎn)生、存儲(chǔ)、使用、管理、備份和刪除等現(xiàn)狀,實(shí)現(xiàn)了鐵路大數(shù)據(jù)的多維度綜合管理,使鐵路數(shù)據(jù)得到了充分利用。隨著鐵路信息化程度的不斷加深,鐵路大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)可進(jìn)一步結(jié)合各類最新的信息技術(shù),為鐵路數(shù)據(jù)中心和鐵路業(yè)務(wù)提供更高效的管理手段。