武威,馬小寧,劉彥軍,張曉棟
(中國鐵道科學(xué)研究院集團有限公司 鐵路大數(shù)據(jù)研究與應(yīng)用創(chuàng)新中心,北京 100081)
近年來,信息技術(shù)的飛速發(fā)展帶來社會的巨大變革,當(dāng)前已由信息時代步入數(shù)據(jù)時代。數(shù)據(jù)的潛在價值不斷被挖掘,發(fā)展好、利用好大數(shù)據(jù)已逐步上升為國家戰(zhàn)略?!坝脭?shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”已經(jīng)成為數(shù)據(jù)時代的發(fā)展方向。
鐵路信息化水平的不斷提升和數(shù)據(jù)處理分析技術(shù)的不斷發(fā)展,使對鐵路行業(yè)各業(yè)務(wù)系統(tǒng)積累的海量數(shù)據(jù)進行分析成為可能。這些數(shù)據(jù)具有量大、類型多樣、產(chǎn)生頻率高、價值性高等特點,對這些數(shù)據(jù)進行全面有效管理和深入分析挖掘,充分發(fā)揮數(shù)據(jù)的價值,對提高鐵路運輸生產(chǎn)效率、降低運輸成本、提升客貨運產(chǎn)品服務(wù)質(zhì)量、提高運營管理水平等具有重要意義。
根據(jù)《鐵路信息化總體規(guī)劃》,面向鐵路大數(shù)據(jù)的存儲與分析,建設(shè)了包含數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)可視化的一站式鐵路數(shù)據(jù)服務(wù)平臺[1]。鐵路數(shù)據(jù)服務(wù)平臺一站式處理流程見圖1。該平臺匯集鐵路運輸生產(chǎn)、經(jīng)營開發(fā)、戰(zhàn)略決策、資源管理、建設(shè)管理、綜合協(xié)同六大業(yè)務(wù)領(lǐng)域海量數(shù)據(jù),提供統(tǒng)一資產(chǎn)視圖和數(shù)據(jù)共享?;阼F路數(shù)據(jù)服務(wù)平臺,采用“平臺+應(yīng)用”的服務(wù)模式,利用鐵路數(shù)據(jù)服務(wù)平臺的數(shù)據(jù)存儲共享和分析計算能力,支撐大數(shù)據(jù)應(yīng)用的創(chuàng)新發(fā)展[2]。
鐵路數(shù)據(jù)服務(wù)平臺匯集與存儲了海量業(yè)務(wù)數(shù)據(jù),保障其安全是大數(shù)據(jù)存儲分析和大數(shù)據(jù)應(yīng)用建設(shè)的前提和基礎(chǔ)。因此,迫切需要全面分析鐵路數(shù)據(jù)服務(wù)平臺的安全風(fēng)險和需求,構(gòu)建鐵路數(shù)據(jù)服務(wù)平臺安全架構(gòu),制定相應(yīng)安全策略,保障平臺的安全性。
鐵路數(shù)據(jù)服務(wù)平臺集中存儲鐵路海量業(yè)務(wù)數(shù)據(jù),需應(yīng)對來自基礎(chǔ)環(huán)境、數(shù)據(jù)管理、平臺管理等方面的復(fù)雜風(fēng)險,在保障平臺數(shù)據(jù)安全方面面臨嚴(yán)峻的挑戰(zhàn)。因此,需要系統(tǒng)梳理平臺面臨的安全風(fēng)險,全面把控平臺的安全需求。
(1)硬件安全風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺作為分布式部署的大數(shù)據(jù)平臺,面臨通用的物理機房安全風(fēng)險、硬件穩(wěn)定性安全風(fēng)險等基礎(chǔ)環(huán)境風(fēng)險,其分布式部署和管理方式增加了節(jié)點通信、網(wǎng)絡(luò)配置、域名配置等基礎(chǔ)環(huán)境配置和維護的復(fù)雜性,對DNS、DDOS等網(wǎng)絡(luò)攻擊的防范提出了更高要求。
(2)軟件安全風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺整合和優(yōu)化Hadoop組件,基于Linux操作系統(tǒng)進行安裝部署。Linux操作系統(tǒng)存在穩(wěn)定性和漏洞風(fēng)險,Hadoop組件之間存在兼容性和依賴性的問題及風(fēng)險,組件之間的協(xié)調(diào)管理和認(rèn)證也可能造成潛在的安全風(fēng)險[3]。
(1)數(shù)據(jù)集成風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺數(shù)據(jù)集成過程中,處于傳輸過程的數(shù)據(jù)具有泄露、傳輸中斷等傳輸風(fēng)險,數(shù)據(jù)傳輸通道和數(shù)據(jù)傳輸協(xié)議的安全性也會形成數(shù)據(jù)管理的風(fēng)險點。
(2)數(shù)據(jù)存儲風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺存儲的海量業(yè)務(wù)數(shù)據(jù)往往具有保密性,甚至有一些敏感數(shù)據(jù)。數(shù)據(jù)在存儲過程中存在數(shù)據(jù)丟失、泄露等風(fēng)險。
(3)數(shù)據(jù)訪問風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺存儲來自各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),不同的數(shù)據(jù)具有不同的訪問權(quán)限,在多用戶使用平臺的情況下,具有越權(quán)訪問數(shù)據(jù)的風(fēng)險。
(4)數(shù)據(jù)共享風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺具有多源異構(gòu)數(shù)據(jù)接入平臺的能力,也具有與其他業(yè)務(wù)系統(tǒng)共享數(shù)據(jù)的能力,在數(shù)據(jù)共享交換的過程中存在數(shù)據(jù)丟失、通道阻塞、數(shù)據(jù)攔截等安全風(fēng)險[4]。
(1)制度管控風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺匯集了來自車務(wù)、機務(wù)、工務(wù)、電務(wù)、供電等不同專業(yè)業(yè)務(wù)信息系統(tǒng)的海量數(shù)據(jù),這些數(shù)據(jù)在管理方式上需滿足各業(yè)務(wù)部門共享和使用的需求,不完善、不規(guī)范的操作流程和管理制度會造成數(shù)據(jù)管理混亂等風(fēng)險。
(2)人員管控風(fēng)險。鐵路數(shù)據(jù)服務(wù)平臺的數(shù)據(jù)處理流程貫穿數(shù)據(jù)采集、存儲、分析、共享等各階段,人員的越權(quán)訪問及不規(guī)范的訪問等行為[5],都會造成數(shù)據(jù)安全管理的風(fēng)險。
通過全面把握鐵路數(shù)據(jù)服務(wù)平臺在技術(shù)、管理等多方面的安全風(fēng)險,梳理鐵路數(shù)據(jù)服務(wù)平臺的安全需求。
(1)基礎(chǔ)硬件、網(wǎng)絡(luò)安全性需求。需提供安全的鐵路數(shù)據(jù)服務(wù)平臺部署環(huán)境和運行環(huán)境,包括穩(wěn)定可靠的硬件配置、操作系統(tǒng)、殺毒軟件及防火墻等網(wǎng)絡(luò)安全設(shè)備,提供安全可靠的網(wǎng)絡(luò)環(huán)境。
(2)Hadoop組件安全性需求。鐵路數(shù)據(jù)服務(wù)平臺作為分布式系統(tǒng)進行部署,需保證各組件的安全穩(wěn)定
運行,同時平臺和組件需具備安全認(rèn)證的措施和策略,保障平臺穩(wěn)定運行。
(1)數(shù)據(jù)集成安全需求。鐵路數(shù)據(jù)服務(wù)平臺需提供可靠的數(shù)據(jù)集成通道,采用數(shù)據(jù)傳輸中間件、加密傳輸?shù)确绞奖WC數(shù)據(jù)采集過程的安全性,做到完整準(zhǔn)確地采集數(shù)據(jù)。
(2)數(shù)據(jù)存儲安全需求。鐵路數(shù)據(jù)服務(wù)平臺需提供數(shù)據(jù)備份、數(shù)據(jù)加密、數(shù)據(jù)脫敏等安全可靠的存儲方式,防止敏感數(shù)據(jù)泄露。
(3)數(shù)據(jù)訪問安全需求。鐵路數(shù)據(jù)服務(wù)平臺管理的各類業(yè)務(wù)數(shù)據(jù)中,數(shù)據(jù)的特性不盡相同,需構(gòu)建數(shù)據(jù)分類分級管理體系和方法,根據(jù)數(shù)據(jù)的不同保密級別,設(shè)置不同的安全策略,滿足數(shù)據(jù)分類分級安全管理的需求。
(4)數(shù)據(jù)共享安全需求。鐵路數(shù)據(jù)服務(wù)平臺需提供操作用戶間的數(shù)據(jù)共享和業(yè)務(wù)應(yīng)用系統(tǒng)的數(shù)據(jù)共享。對于在線使用和操作的平臺用戶,在滿足不同用戶管控各自數(shù)據(jù)的數(shù)據(jù)隔離基礎(chǔ)上,通過數(shù)據(jù)申請審批的權(quán)限管理方式,使不同用戶之間能夠通過授權(quán)使用數(shù)據(jù);對于業(yè)務(wù)應(yīng)用系統(tǒng),在調(diào)用平臺數(shù)據(jù)接口時,平臺需提供加密的數(shù)據(jù)傳輸方式和可靠的數(shù)據(jù)傳輸通道,滿足數(shù)據(jù)共享的安全需求。
(1)制度及人員管控需求。鐵路數(shù)據(jù)服務(wù)平臺匯集運輸生產(chǎn)、經(jīng)營開發(fā)、戰(zhàn)略決策、資源管理、建設(shè)管理、綜合協(xié)同六大業(yè)務(wù)領(lǐng)域海量數(shù)據(jù),這些海量數(shù)據(jù)的安全管控要求鐵路數(shù)據(jù)服務(wù)平臺不僅要從技術(shù)上保證數(shù)據(jù)安全,還要在管理方式上滿足各業(yè)務(wù)部門共享和使用數(shù)據(jù)的需求。因此應(yīng)建立完善的平臺安全管理制度和操作規(guī)程,滿足數(shù)據(jù)安全管理需求。
(2)技術(shù)保障需求。針對標(biāo)準(zhǔn)化業(yè)務(wù)管理流程,鐵路數(shù)據(jù)服務(wù)平臺需提供相應(yīng)的技術(shù)保障,從事前、事中、事后3個方面對安全進行管理和防控。事前防控需滿足多租戶管理的需求,基于多租戶構(gòu)建嚴(yán)格的數(shù)據(jù)權(quán)限、資源權(quán)限、功能權(quán)限體系,并通過數(shù)據(jù)加密、數(shù)據(jù)脫敏等安全管控技術(shù)保障安全;事中防控需以預(yù)警和告警的方式進行防范,針對數(shù)據(jù)泄露、流量異常、節(jié)點告警等異常狀態(tài)進行實時監(jiān)控,及時發(fā)現(xiàn)數(shù)據(jù)安全異常問題;事后防控需建立全面的行為監(jiān)控和日志審計,詳細記錄用戶操作行為和平臺運行日志,全面監(jiān)控影響數(shù)據(jù)流轉(zhuǎn)的各類操作狀態(tài)。
通過對鐵路數(shù)據(jù)服務(wù)平臺面臨的安全風(fēng)險進行綜合分析,形成以安全需求為導(dǎo)向,以保障平臺安全為目標(biāo)的鐵路數(shù)據(jù)服務(wù)平臺安全架構(gòu)(見圖2),涵蓋數(shù)據(jù)集成、存儲、共享、分析等數(shù)據(jù)流轉(zhuǎn)的各階段,從基礎(chǔ)環(huán)境、數(shù)據(jù)管理、平臺管理3方面保障鐵路數(shù)據(jù)服務(wù)平臺的安全。
圖2 鐵路數(shù)據(jù)服務(wù)平臺安全架構(gòu)
鐵路數(shù)據(jù)服務(wù)平臺安全架構(gòu)描述了整體的安全管控方式。由數(shù)據(jù)庫、消息隊列、數(shù)據(jù)倉庫、FTP服務(wù)器等接入結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),通過平臺的基礎(chǔ)環(huán)境、數(shù)據(jù)管理、平臺管理相關(guān)安全策略保證平臺的安全性,并為客運、貨運等業(yè)務(wù)應(yīng)用提供安全、穩(wěn)定、可靠的數(shù)據(jù)接口支持。其中基礎(chǔ)環(huán)境包括軟件安全和硬件安全,軟件安全包括操作系統(tǒng)安全、大數(shù)據(jù)組件安全、集群認(rèn)證安全和數(shù)據(jù)庫安全;硬件安全包括機房安全、網(wǎng)絡(luò)安全、物理機安全和虛擬化安全。數(shù)據(jù)管理包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)訪問和數(shù)據(jù)共享的安全策略。平臺管理包括身份驗證、功能授權(quán)、資源授權(quán)、日志審計、用戶管理、角色管理等安全策略。通過對基礎(chǔ)環(huán)境、數(shù)據(jù)管理、平臺管理設(shè)置相應(yīng)的安全策略,能夠有效保障平臺的安全性。
5.1.1 基礎(chǔ)設(shè)施安全策略
基礎(chǔ)設(shè)施包括機房、網(wǎng)絡(luò)、物理機等[6]。鐵路數(shù)據(jù)服務(wù)平臺的部署機房需滿足機房建設(shè)標(biāo)準(zhǔn),在電源、通風(fēng)、空調(diào)、供電、機架等方面應(yīng)滿足服務(wù)器部署要求。鐵路數(shù)據(jù)服務(wù)平臺的部署應(yīng)滿足內(nèi)外網(wǎng)隔離的要求[7],并在網(wǎng)絡(luò)邊界處部署網(wǎng)絡(luò)防火墻,嚴(yán)格保證網(wǎng)絡(luò)安全。同時,在網(wǎng)絡(luò)邊界出入口等安全關(guān)鍵位置,還需通過入侵檢測、網(wǎng)絡(luò)異常流量監(jiān)控等安全管控措施進行防范,保證網(wǎng)絡(luò)層設(shè)備的運行安全。
5.1.2 軟件安全策略
軟件安全策略中,操作系統(tǒng)安全要求鐵路數(shù)據(jù)服務(wù)平臺集群的主機需安裝正版操作系統(tǒng),及時更新系統(tǒng)版本和補丁,并定期備份操作系統(tǒng),全面防控安全漏洞和病毒,在故障出現(xiàn)時快速修復(fù)操作系統(tǒng)問題。大數(shù)據(jù)組件安全涉及Hadoop組件相關(guān)配置,要求HDFS、Hbase、Hive、Spark等大數(shù)據(jù)組件進行有機結(jié)合,保證版本的兼容性,不同組件之間需進行用戶同步,保證組件間的權(quán)限配置一致。組件需具有高可用性,保證組件節(jié)點的宕機不會影響平臺正常運轉(zhuǎn),宕機節(jié)點在恢復(fù)后可以實現(xiàn)備份數(shù)據(jù)恢復(fù)。需對Hadoop組件進行安全審計,監(jiān)控對Hadoop組件的操作和訪問記錄。集群認(rèn)證安全遵循Kerberos網(wǎng)絡(luò)認(rèn)證協(xié)議,保證鐵路數(shù)據(jù)服務(wù)平臺的大數(shù)據(jù)組件之間安全地互相訪問。Kerberos為不同的組件用戶生成具有時效性的不同訪問票據(jù),具有不同操作權(quán)限的用戶根據(jù)授予的相應(yīng)票據(jù)實現(xiàn)對組件的安全訪問。數(shù)據(jù)庫安全要求與鐵路數(shù)據(jù)服務(wù)平臺相關(guān)的關(guān)系型數(shù)據(jù)庫、Postgresql數(shù)據(jù)庫也應(yīng)提供數(shù)據(jù)備份、恢復(fù)等安全機制,保證數(shù)據(jù)庫的安全穩(wěn)定運行。
數(shù)據(jù)管理安全貫穿于鐵路數(shù)據(jù)服務(wù)平臺業(yè)務(wù)流程的每個階段,因此數(shù)據(jù)集成、存儲、訪問、共享的每個階段都需要制定相應(yīng)的安全策略[8]。
(1)數(shù)據(jù)集成安全策略。在數(shù)據(jù)集成過程中,要保證數(shù)據(jù)集成全過程的安全性,并對傳輸數(shù)據(jù)進行加密,防止數(shù)據(jù)被竊取。在數(shù)據(jù)集成后需進行數(shù)據(jù)一致性、準(zhǔn)確性、完整性檢驗。
(2)數(shù)據(jù)存儲安全策略。鐵路數(shù)據(jù)服務(wù)平臺的數(shù)據(jù)存儲需采用加密存儲的方式,防止由于底層硬件故障等因素造成數(shù)據(jù)泄露,并采用備份的方式,實現(xiàn)故障后及時恢復(fù)。同時,平臺需針對敏感數(shù)據(jù)和隱私數(shù)據(jù)制定相應(yīng)的數(shù)據(jù)防泄漏策略,對敏感數(shù)據(jù)進行過濾,防止敏感數(shù)據(jù)泄露。
(3)數(shù)據(jù)訪問安全策略。為保證數(shù)據(jù)訪問的安全性,需制定嚴(yán)格的訪問權(quán)限。數(shù)據(jù)擁有者具有數(shù)據(jù)管控和數(shù)據(jù)流轉(zhuǎn)的審批權(quán)限,申請者根據(jù)需要進行數(shù)據(jù)申請。同時,對于敏感數(shù)據(jù)的安全管控,需采用數(shù)據(jù)脫敏[9]策略。根據(jù)不同敏感數(shù)據(jù)的特點,結(jié)合相應(yīng)的數(shù)據(jù)脫敏算法設(shè)計脫敏策略,展示脫敏后的數(shù)據(jù)。
(4)數(shù)據(jù)共享安全策略。以鐵路數(shù)據(jù)服務(wù)平臺的存儲和計算能力為基礎(chǔ),為各業(yè)務(wù)應(yīng)用系統(tǒng)提供數(shù)據(jù)接口和計算接口,將鐵路數(shù)據(jù)服務(wù)平臺的服務(wù)能力以服務(wù)接口的方式對外提供。為保證數(shù)據(jù)服務(wù)的安全性,在提供服務(wù)接口時,需針對應(yīng)用系統(tǒng)進行認(rèn)證,應(yīng)用系統(tǒng)需在平臺完成接口調(diào)用注冊和調(diào)用權(quán)限申請,權(quán)限審批通過并獲取安全密鑰后方可調(diào)用數(shù)據(jù)接口。
5.3.1 安全管理制度
鐵路數(shù)據(jù)服務(wù)平臺是一站式的DaaS平臺,需滿足各類型用戶開展數(shù)據(jù)采集、存儲、分析等工作,因此需針對用戶、用戶擁有的數(shù)據(jù)、用戶使用的資源等進行分類管理。鐵路數(shù)據(jù)服務(wù)平臺通過建立租戶來管理用戶,并做到數(shù)據(jù)隔離、資源隔離、用戶隔離,制定用戶管理相關(guān)規(guī)程。同時針對數(shù)據(jù)安全性的要求,根據(jù)不同數(shù)據(jù)的保密級別和公開特性,通過數(shù)據(jù)分類分級管理的方式,管理不同安全等級要求的數(shù)據(jù),形成數(shù)據(jù)分類分級管理方案。在鐵路數(shù)據(jù)服務(wù)平臺運維過程中,需合理分配運維人員職責(zé),通過安全終端進行系統(tǒng)運維,建立標(biāo)準(zhǔn)化運維管理機制。
基于鐵路數(shù)據(jù)服務(wù)平臺的數(shù)據(jù)安全管理規(guī)范、數(shù)據(jù)共享管理規(guī)范、系統(tǒng)運維管理規(guī)范等標(biāo)準(zhǔn)化管理方案,結(jié)合中國國家鐵路集團有限公司《鐵路數(shù)據(jù)管理暫行辦法》,形成統(tǒng)一的管理辦法和操作規(guī)程,約束平臺操作人員和管理人員,從管理手段的角度保證平臺的數(shù)據(jù)安全。
5.3.2 安全管理技術(shù)
安全管理技術(shù)包括多租戶管理技術(shù)、認(rèn)證技術(shù)、授權(quán)技術(shù)、審計技術(shù)等。
多租戶管理技術(shù)[10]需保證數(shù)據(jù)隔離、資源隔離、用戶隔離。數(shù)據(jù)隔離要求存儲在鐵路數(shù)據(jù)服務(wù)平臺的數(shù)據(jù)按其原始歸屬者進行管理,沒有權(quán)限的用戶不能隨意查看其他用戶擁有的數(shù)據(jù),如要查看需通過數(shù)據(jù)共享流程進行申請。鐵路數(shù)據(jù)服務(wù)平臺的硬件資源和計算資源作為平臺用戶共有的資源池,用戶可根據(jù)所需的資源進行申請,不同用戶之間的資源需做到隔離,用戶在自己資源池內(nèi)進行數(shù)據(jù)分析。鐵路數(shù)據(jù)服務(wù)平臺的用戶之間互相隔離,需保證用戶擁有獨立工作空間,可以完成數(shù)據(jù)管理、存儲、分析等數(shù)據(jù)處理流程。
認(rèn)證技術(shù)指采用用戶名、密碼的身份認(rèn)證,確保登錄平臺的用戶已經(jīng)進行了注冊。在應(yīng)用系統(tǒng)接入鐵路數(shù)據(jù)服務(wù)平臺進行接口對接和數(shù)據(jù)共享時,必須要求應(yīng)用系統(tǒng)經(jīng)過認(rèn)證。
授權(quán)技術(shù)主要分為用戶授權(quán)和應(yīng)用系統(tǒng)授權(quán)。用戶授權(quán)為用戶賦予平臺操作的功能權(quán)限、菜單權(quán)限和數(shù)據(jù)權(quán)限;應(yīng)用系統(tǒng)授權(quán)針對不同應(yīng)用系統(tǒng)授予不同的接口調(diào)用權(quán)限和接口內(nèi)容調(diào)用權(quán)限。
審計技術(shù)[11]主要針對操作行為進行審計,包括用戶行為審計、運維日志審計和Hadoop組件訪問日志審計。鐵路數(shù)據(jù)服務(wù)平臺針對用戶行為、運維日志和Hadoop組件的訪問日志進行詳細的審計,記錄用戶和運維人員每次操作行為的時間、內(nèi)容等詳細信息,并且針對Hadoop組件的HDFS、HIVE等組件,設(shè)計詳細的操作行為審計,監(jiān)控Hadoop組件訪問詳情。
通過分析鐵路數(shù)據(jù)服務(wù)平臺所面臨的安全風(fēng)險,梳理平臺的安全需求,構(gòu)建安全架構(gòu),制定基礎(chǔ)環(huán)境、數(shù)據(jù)管理和平臺管理3方面的安全策略,為鐵路數(shù)據(jù)服務(wù)平臺安全管理奠定基礎(chǔ),對鐵路大數(shù)據(jù)的安全管控和應(yīng)用具有重要意義。