王子淵
(中鐵第五勘察設(shè)計(jì)院集團(tuán)有限公司 北京 102600)
智慧城軌具有如下特征:一是具有實(shí)時(shí)控制特性,涉及行車安全;二是具有大數(shù)據(jù)共享;三是需要通過(guò)跨域訪問(wèn)和移動(dòng)互聯(lián)[1]。軌道交通網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,對(duì)數(shù)據(jù)共享和大容量數(shù)據(jù)通信的迫切需求,使系統(tǒng)對(duì)外界具有了前所未有的開放性、互聯(lián)性,導(dǎo)致被入侵概率增加[2],一旦出現(xiàn)網(wǎng)絡(luò)安全事故將直接影響人民的正常生活,造成的損失不可估量。
作為城市綜合運(yùn)輸體系,安全生產(chǎn)面臨著前所未有的挑戰(zhàn)[3]。王宇嘉等人[4-5]提出應(yīng)用層次分析法的模糊綜合評(píng)價(jià)模型評(píng)價(jià)軌道集團(tuán)行車組織和安全的影響,并從目標(biāo)、原則、方法及步驟等方面對(duì)客運(yùn)專業(yè)的技術(shù)規(guī)章進(jìn)行優(yōu)化。本文利用非負(fù)矩陣算法對(duì)跨域網(wǎng)絡(luò)降維分析解決智慧城軌入侵檢測(cè),可達(dá)到國(guó)家對(duì)關(guān)鍵信息基礎(chǔ)設(shè)施的高安全等級(jí)保護(hù)的要求。
歐盟信息安全局(ENISA)2020年11月發(fā)布了《鐵路網(wǎng)絡(luò)空間安全—鐵路運(yùn)輸行業(yè)的安全度量》,美國(guó)政府總審計(jì)署2020年4月發(fā)布GAO-20-404審計(jì)報(bào)告-《鐵路空運(yùn)網(wǎng)絡(luò)安全》,英國(guó)政府運(yùn)輸部于2016年發(fā)布了《鐵路網(wǎng)絡(luò)空間安全—行業(yè)指南》等,均發(fā)布了相應(yīng)的行業(yè)網(wǎng)絡(luò)安全戰(zhàn)略或規(guī)范,但解決網(wǎng)絡(luò)安全問(wèn)題的技術(shù)路徑依然堅(jiān)持了威脅對(duì)抗的思路。
我國(guó)互聯(lián)網(wǎng)應(yīng)急中心(CNCERT)最新發(fā)布的“城市軌道交通行業(yè)網(wǎng)絡(luò)安全態(tài)勢(shì)分析報(bào)告”指出,城市軌道交通WEB系統(tǒng)暴露情況全國(guó)共發(fā)現(xiàn)聯(lián)網(wǎng)的城軌相關(guān)系統(tǒng)99個(gè),涉及運(yùn)行管理類88個(gè),其中47個(gè)暴露系統(tǒng)存在漏洞,涉及保護(hù)機(jī)制故障、敏感信息的明文傳輸、跨站請(qǐng)求偽造等14種不同漏洞類型。城軌行業(yè)主要供應(yīng)商的工控產(chǎn)品共計(jì)發(fā)布漏洞539個(gè),中高危漏洞數(shù)量占93.69%。整個(gè)城軌行業(yè)面臨的安全態(tài)勢(shì)日益嚴(yán)峻,主要存在安全體系建設(shè)離散化、用戶業(yè)務(wù)行為保護(hù)弱相關(guān)、協(xié)同性安全保護(hù)不足等問(wèn)題。需深刻認(rèn)識(shí)智慧城軌的豐富內(nèi)涵,構(gòu)建安全、便捷、高效、綠色、經(jīng)濟(jì)的新一代中國(guó)式智慧型城市軌道交通[6]。針對(duì)不同的安全威脅部署了相應(yīng)安全功能的安全部件,卻難以抵抗多樣化攻擊帶來(lái)的安全問(wèn)題。
智能城軌以云平臺(tái)為承載,支撐智能建造、智能裝備和智能運(yùn)營(yíng)三大板塊的智能化應(yīng)用。云平臺(tái)以城市軌道交通數(shù)據(jù)全生命周期為目標(biāo),實(shí)現(xiàn)設(shè)計(jì)、建造階段的BIM一體化、運(yùn)維專業(yè)數(shù)據(jù)共享化、設(shè)備感知物聯(lián)化和線路管理網(wǎng)絡(luò)化,見(jiàn)圖1。
圖1 智慧城軌系統(tǒng)網(wǎng)絡(luò)
將各個(gè)層來(lái)源不同、格式不同的數(shù)據(jù)在物理或邏輯上進(jìn)行集成的過(guò)程,非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生于城軌系統(tǒng)工程包括勘測(cè)、設(shè)計(jì)、施工、運(yùn)維、IOT數(shù)據(jù)及生產(chǎn)調(diào)度等在內(nèi)的各個(gè)環(huán)節(jié)。將這些非結(jié)構(gòu)化的數(shù)據(jù)通過(guò)Hadoop MapReduce處理[7],生成計(jì)算機(jī)可識(shí)別數(shù)據(jù)供計(jì)算機(jī)處理,然后使用 Streamsets采集工具并通過(guò)FTP、SFTP等方式進(jìn)行交換處理。
軌道交通建設(shè)、運(yùn)營(yíng)生產(chǎn)等過(guò)程中已產(chǎn)生出海量數(shù)據(jù)信息,如BIM數(shù)據(jù)、PMS系統(tǒng)資產(chǎn)數(shù)據(jù)、應(yīng)急處置、票務(wù)數(shù)據(jù)、清分?jǐn)?shù)據(jù)、POI數(shù)據(jù)、手機(jī)信令數(shù)據(jù)、視頻數(shù)據(jù)、IOT數(shù)據(jù)等大量高維數(shù)據(jù)(10 or 10 000 dimensions),且在高維空間中點(diǎn)間的距離看起來(lái)都是近似的,處理起來(lái)比較復(fù)雜。故存儲(chǔ)方案采用HDFS分布式文件系統(tǒng)[8],以流式數(shù)據(jù)訪問(wèn)模式存儲(chǔ)大數(shù)據(jù)文件。
上文提到的存儲(chǔ)工點(diǎn)設(shè)備歷史行為數(shù)據(jù),一個(gè)最重要的問(wèn)題是計(jì)算請(qǐng)求域中用戶在服務(wù)域中信任度,且必須考慮其時(shí)間復(fù)雜度[9]。一般來(lái)說(shuō),城軌云各業(yè)務(wù)系統(tǒng)間訪問(wèn)協(xié)議名、域名、端口名均一樣的情況下,才允許訪問(wèn)相同的 COOKIE、LOCALSTORAGE或是發(fā)起AJAX請(qǐng)求等。若在不同源的情況下訪問(wèn),跨域的訪問(wèn)會(huì)帶來(lái)許多安全性的問(wèn)題??缬騿?wèn)題就是同源策略所導(dǎo)致的,同源策略是一個(gè)重要的安全策略,它用于限制一個(gè)origin的文檔或者它加載的腳本如何能與另外一個(gè)源的資源進(jìn)行交互,它能減少可能被攻擊的媒介。在日常的運(yùn)維時(shí)會(huì)不可避免地需要進(jìn)行跨域操作,而在實(shí)際進(jìn)行跨域請(qǐng)求時(shí)CORS驗(yàn)證機(jī)制需要客戶端和服務(wù)端協(xié)同處理,產(chǎn)生非法跨域?qū)е翪SRF攻擊安全問(wèn)題。
大數(shù)據(jù)的人工智能神經(jīng)網(wǎng)絡(luò)算法逐漸發(fā)展成熟[10]。機(jī)器學(xué)習(xí)訓(xùn)練模型適合對(duì)入侵檢測(cè)進(jìn)行分類應(yīng)用[11]。但網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜化,攻擊手段日益多樣化,特征趨向高維化,數(shù)量也日益增多,嚴(yán)重影響了入侵檢測(cè)系統(tǒng)的性能。數(shù)據(jù)存在分布不均,維度大以及入侵檢測(cè)處理時(shí)間消耗大等缺陷,需采用矩陣的方式來(lái)存儲(chǔ),然后對(duì)數(shù)據(jù)進(jìn)行維數(shù)約減。
NMF能夠挖掘數(shù)據(jù)集合特征并進(jìn)行特征提取和降維[12],在匯聚節(jié)點(diǎn)完成對(duì)分類規(guī)則和屬性約簡(jiǎn)規(guī)則的學(xué)習(xí),分別在簇頭和匯聚節(jié)點(diǎn)做聚類分析,減小數(shù)據(jù)傳輸時(shí)的通信開銷,提高分類器分類性能。其算法相較于傳統(tǒng)的一些算法而言,具有實(shí)現(xiàn)上的簡(jiǎn)便性、分解形式和分解結(jié)果上的可解釋性,它能將多維的數(shù)據(jù)矩陣降維處理,適合處理大規(guī)模數(shù)據(jù)。
令待處理數(shù)據(jù)n個(gè)m維度集合,即:m×n大小的非負(fù)矩陣V,待分解矩陣V不能為負(fù),則有V[i][j]≥0。排除負(fù)值無(wú)效性,NMF算法目的是將原始矩陣Vm×n進(jìn)行降維處理近似分解,獲得數(shù)據(jù)特征的低秩矩陣:m×k的基矩陣U和k×n投影矩陣F。
通過(guò)設(shè)定k?n,一般地,令k為數(shù)據(jù)聚類的類數(shù),則矩陣U和F的乘積近似等于矩陣V中的值,如式(1):
將原矩陣Vm×n降維,如式(2):
式(2)中,原矩陣V與重構(gòu)矩陣之間同時(shí)加入混淆矩陣W。原矩陣進(jìn)行降維分解后仍包含原樣本矩陣信息,故節(jié)省了數(shù)據(jù)存儲(chǔ)的空間,聚類過(guò)程中減少計(jì)算時(shí)間和內(nèi)存開銷。研究提出非負(fù)矩陣U、F的距離度量?jī)煞N方法歐氏距離、Kullback-Liebler(KL)散度。
(1)矩陣分解優(yōu)化目標(biāo)。最小化U矩陣F矩陣的乘積和原始矩陣V之間的差別,目標(biāo)函數(shù)見(jiàn)式(3):
(2)KL散度的優(yōu)化目標(biāo),損失函數(shù)見(jiàn)式(4):
根據(jù)函數(shù)式(4)找區(qū)間最優(yōu)。(1)梯度下降:每次選取當(dāng)前點(diǎn)的梯度方向,極小值不確定、函數(shù)收斂慢。(2)共軛梯度:N維方向極小值不沖突,兩兩共軛、函數(shù)收斂快。如上第一種目標(biāo)更新規(guī)則可得式(5):
其中,a、u指矩陣第a行第u列元素,充分條件為分母為零,對(duì)應(yīng)位置元素不變。充要條件為基矩陣U和投影矩陣F在靜態(tài)點(diǎn)時(shí),歐氏距離|V-UF|在更新規(guī)則中非上升。如上第二種目標(biāo)更新規(guī)則可得式(6):
充要條件V=UF,V和歐式距離為零,散度D(V‖UF)在更新規(guī)則中非上升,損失函數(shù)越小,模型的性能越好。
本文數(shù)據(jù)進(jìn)行迭代處理中函數(shù)相應(yīng)的偽代碼如下:
軌道交通作為積累工程數(shù)據(jù)的典型行業(yè),積累了大量的BIM數(shù)據(jù)、PMS系統(tǒng)資產(chǎn)數(shù)據(jù)、應(yīng)急處置、票務(wù)數(shù)據(jù)、清分?jǐn)?shù)據(jù)、POI數(shù)據(jù)、手機(jī)信令數(shù)據(jù)、視頻數(shù)據(jù)、IOT數(shù)據(jù)等。一方面這些數(shù)據(jù)可以被用來(lái)研究軌道交通站臺(tái)站廳實(shí)時(shí)客流量監(jiān)控;軌道交通站內(nèi)換乘客流量分析;軌道交通精準(zhǔn)清分清算。另一方面,由于這些行為數(shù)據(jù)具有地理上下文,因此也可以基于網(wǎng)絡(luò)理論來(lái)研究軌道交通TOD地產(chǎn)、商業(yè)物業(yè)競(jìng)合關(guān)系與功能。
本文實(shí)驗(yàn)提取鐵建工程設(shè)計(jì)一體化平臺(tái)與軌道交通運(yùn)維海量數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)進(jìn)行NMF降維分析。
通過(guò)不斷的迭代優(yōu)化將一個(gè)項(xiàng)目矩陣分解為兩個(gè)矩陣,那么需要將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集來(lái)對(duì)預(yù)處理后構(gòu)建的監(jiān)督模型進(jìn)行評(píng)估。將訓(xùn)練集數(shù)據(jù)進(jìn)行劃分為 TRAIN、VAL、TEST和 TRAINVAL集。代碼保存為 TRAIN_VAL_TEST.PY,并將放置在云機(jī)Worker節(jié)點(diǎn)下執(zhí)行迭代。
數(shù)據(jù)集包含569個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)由30個(gè)測(cè)量值表示。我們將數(shù)據(jù)集分成包含426個(gè)樣本的訓(xùn)練集與包含143個(gè)樣本的測(cè)試集。模型代碼片段如下:
然后,使用FIT方法擬合縮放器Scaler,并將其應(yīng)用于訓(xùn)練數(shù)據(jù)。對(duì)于MinMaxScaler來(lái)說(shuō)FIT方法計(jì)算訓(xùn)練集中每個(gè)特征的最大值和最小值,與梯度下降分類器和回歸器Regressor不同,在對(duì)縮放器調(diào)用FIT時(shí)只提供X_TRAIN,而不用Y_TRAIN。
本過(guò)程目的就是壓縮數(shù)據(jù),NMF通常用于特征提取,將數(shù)據(jù)分解成非負(fù)加權(quán)求和的這個(gè)過(guò)程,對(duì)由多個(gè)獨(dú)立源疊加創(chuàng)建而成的數(shù)據(jù)特別有用,NMF可以識(shí)別出組成合成數(shù)據(jù)的原始分量,因?yàn)樨?fù)的分量和系數(shù)可能會(huì)導(dǎo)致難以解釋的抵消效應(yīng)(Cancellation effect)。我們可以用NMF來(lái)還原這三個(gè)信號(hào):
本過(guò)程目的算法步驟如圖2所示。
圖2 算法步驟
步驟1:特征提取。
步驟2:判斷屬于訓(xùn)練數(shù)據(jù)集進(jìn)一步的處理,結(jié)合修正后的入侵檢測(cè)標(biāo)簽交給向量機(jī),否則直接將為數(shù)據(jù)交給向量機(jī)。
步驟3:生成訓(xùn)練模型,跳轉(zhuǎn)到步驟1。
步驟4:基于訓(xùn)練模型進(jìn)行入侵檢測(cè)。
步驟5:檢測(cè)值滿足,發(fā)出警告。
本文提出的非負(fù)矩陣分解更新規(guī)則算法,基于軌道交通大規(guī)模工程數(shù)據(jù)網(wǎng)絡(luò)跨域安全降維分析,其對(duì)傳統(tǒng)聚類算法進(jìn)行了改進(jìn):(1)利用梯度下降法計(jì)算函數(shù)最小值并將每次梯度向量模長(zhǎng)列出,從而對(duì)目標(biāo)進(jìn)行更新,使得更容易尋找區(qū)間最優(yōu)解;(2)提出工程數(shù)據(jù)相似性度量方法,得出損失函數(shù)越小,模型的性能越好。為了算法驗(yàn)證效果,提取了鐵建工程設(shè)計(jì)一體化平臺(tái)和城軌運(yùn)維海量數(shù)據(jù),詳細(xì)介紹了實(shí)驗(yàn)步驟,測(cè)試證明使用NMF進(jìn)行跨域網(wǎng)絡(luò)安全降維可以很好地完成入侵檢測(cè)。