任 超, 牛宏俠, 陳光武, 司涌波, 佘一鳴
(1.蘭州交通大學(xué),甘肅 蘭州 730070; 2.甘肅省高原交通信息工程及控制重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730070;3.軌道交通運(yùn)行控制與運(yùn)維甘肅省國際科技合作基地,甘肅 蘭州 730070)
當(dāng)前我國高速鐵路正處于快速發(fā)展時(shí)期,建設(shè)新型智能運(yùn)維管理模式是近年來我國高鐵發(fā)展的主要方向之一[1,2]。高鐵信號(hào)系統(tǒng)作為高速鐵路的大腦和神經(jīng)中樞,智能化運(yùn)維管理模式在其上的應(yīng)用可以有效提升高速鐵路的安全性和高效性。
高鐵信號(hào)系統(tǒng)智能運(yùn)維體系總體分為三個(gè)部分:數(shù)據(jù)匯聚與融合、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用[3]。當(dāng)前高鐵信號(hào)系統(tǒng)設(shè)備監(jiān)測(cè)數(shù)據(jù)存在數(shù)據(jù)類型多、耦合度不同、語義不一致等特征問題,無法建立信號(hào)系統(tǒng)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,因此,迫切需要對(duì)現(xiàn)有鐵路基礎(chǔ)設(shè)備信號(hào)系統(tǒng)數(shù)據(jù)進(jìn)行統(tǒng)一的融合管理,深入挖掘其數(shù)據(jù)價(jià)值,建設(shè)數(shù)據(jù)平臺(tái),為后續(xù)智能服務(wù)提供數(shù)據(jù)基礎(chǔ)。因此,如何構(gòu)建高鐵信號(hào)系統(tǒng)數(shù)據(jù)融合服務(wù)平臺(tái)成為亟需待解決的問題。
目前,國內(nèi)外的學(xué)者對(duì)多源異構(gòu)數(shù)據(jù)融合的研究開展了有效探索,其研究成果主要有:文獻(xiàn)[4]驗(yàn)證了數(shù)據(jù)加權(quán)融合算法具備無需驗(yàn)證信息且融合精度比較高的優(yōu)點(diǎn);文獻(xiàn)[5]運(yùn)用了一種基于蝙蝠算法優(yōu)化加權(quán)的D-S證據(jù)融合算法,提高了監(jiān)測(cè)精確度和全局決策的快速性;文獻(xiàn)[6]提出結(jié)合D-S證據(jù)理論與不精確概率理論的故障診斷方法,并驗(yàn)證了該方法在信息融合系統(tǒng)下決策診斷效率得到明顯改進(jìn);文獻(xiàn)[7]從特征選擇和參數(shù)優(yōu)化相結(jié)合的思路,采用反饋型D-S證據(jù)理論來解決在高速列車多通道數(shù)據(jù)融合出現(xiàn)的問題;文獻(xiàn)[8]對(duì)高速鐵路信號(hào)系統(tǒng)大數(shù)據(jù)的規(guī)范化做了相關(guān)研究;文獻(xiàn)[9]針對(duì)高鐵信號(hào)系統(tǒng)智能維護(hù)決策中的數(shù)據(jù)信息多源異構(gòu)性問題,運(yùn)用本體融合算法,對(duì)比經(jīng)典閉包算法降低了計(jì)算復(fù)雜度和時(shí)間復(fù)雜度,算法運(yùn)行時(shí)間也遠(yuǎn)低于經(jīng)典閉包算法,并且提出了一種高鐵信號(hào)系統(tǒng)異構(gòu)數(shù)據(jù)融合和智能決策的統(tǒng)一框架,并驗(yàn)證了其維護(hù)決策的準(zhǔn)確性和有效性。
上述研究表明,在高鐵信號(hào)系統(tǒng)領(lǐng)域,運(yùn)用多源異構(gòu)信息融合技術(shù)和方法,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的融合互補(bǔ),形成一致性和綜合性維護(hù)數(shù)據(jù),能對(duì)后續(xù)智能維護(hù)決策提供數(shù)據(jù)保障。本文提出一種新的高鐵信號(hào)異構(gòu)數(shù)據(jù)融合框架設(shè)計(jì)方案,對(duì)底層數(shù)據(jù)利用本體思想和D-S證據(jù)理論方法進(jìn)行特征融合以減少數(shù)據(jù)間冗余,提高數(shù)據(jù)精度,優(yōu)化決策效率,并通過對(duì)某段高鐵信號(hào)系統(tǒng)監(jiān)測(cè)數(shù)據(jù)的處理驗(yàn)證本文提出的框架和算法的可行性。
目前,對(duì)高速鐵路信號(hào)系統(tǒng)有關(guān)多源異構(gòu)數(shù)據(jù)融合和智能維護(hù)決策框架整體設(shè)計(jì)還沒有統(tǒng)一的標(biāo)準(zhǔn),文獻(xiàn)[9]作為當(dāng)前數(shù)據(jù)融合在高鐵信號(hào)系統(tǒng)的典型研究,指出分布式數(shù)據(jù)庫在設(shè)計(jì)初期未考慮數(shù)據(jù)融合,致使局部的本地?cái)?shù)據(jù)庫資源存在類名和屬性命名沖突、底層數(shù)據(jù)融合機(jī)制不明確、數(shù)據(jù)冗余程度高、利用率低下等問題。本文提出一種新的高鐵信號(hào)系統(tǒng)多源異構(gòu)數(shù)據(jù)融合智能決策框架如圖1所示,增加了底層數(shù)據(jù)融合機(jī)制,在數(shù)據(jù)邏輯層和決策層之間設(shè)立數(shù)據(jù)融合層,通過抽取各局部設(shè)備數(shù)據(jù)庫信息特征屬性,形成關(guān)系映射表,融合各特征屬性,從而提升智能決策的性能。
圖1 高鐵信號(hào)系統(tǒng)多源異構(gòu)數(shù)據(jù)融合框架
高鐵信號(hào)系統(tǒng)多源異構(gòu)數(shù)據(jù)融合智能決策架構(gòu)分為4個(gè)層次。
最底層0層為物理層,表示各個(gè)不同電務(wù)段、車站、分局等基礎(chǔ)設(shè)備的實(shí)際的物理數(shù)據(jù)庫,存儲(chǔ)各設(shè)備設(shè)施的監(jiān)控信息、設(shè)備出廠信息、維護(hù)信息和日志記錄等信息。
第1層為數(shù)據(jù)邏輯層,通過構(gòu)建的分布式數(shù)據(jù)庫存儲(chǔ)各設(shè)備設(shè)施信息數(shù)據(jù)。首先按照概念、屬性映射關(guān)系建立局部數(shù)據(jù)庫,為后續(xù)分布式數(shù)據(jù)庫檢索、查詢提供數(shù)據(jù)支撐。然后根據(jù)各設(shè)備所需存儲(chǔ)的數(shù)據(jù)信息屬性建立數(shù)據(jù)表,各局部設(shè)備數(shù)據(jù)庫本體遵循關(guān)系數(shù)據(jù)庫模型即:D=(L,P,F,A)四元組模式,其中,L為名稱集合,A為屬性集合,P為主鍵,F(xiàn)為外健。
第2層為數(shù)據(jù)融合層。局部數(shù)據(jù)庫建立之后,抽取各設(shè)備信息組成新的關(guān)系映射表,從而進(jìn)行特征屬性融合。按照抽取的各設(shè)備數(shù)據(jù)特征屬性數(shù)據(jù),即:[設(shè)備編號(hào),設(shè)備名,時(shí)間,設(shè)備運(yùn)行狀態(tài),…],在融合過程中,不斷根據(jù)需求增添特征屬性到映射表,完善設(shè)備特征決策屬性知識(shí)庫以提升設(shè)備運(yùn)行狀態(tài)識(shí)別精度。
第3層為智能決策層,是整個(gè)框架的頂層。通過數(shù)據(jù)邏輯層提取各設(shè)備數(shù)據(jù)信息,在融合層將各設(shè)備數(shù)據(jù)特征完成融合,融合后的數(shù)據(jù)作為訓(xùn)練樣本交付智能決策層,采用機(jī)器學(xué)習(xí)方法形成高鐵信號(hào)系統(tǒng)故障識(shí)別模型,完成智能決策。
根據(jù)高鐵信號(hào)系統(tǒng)多源異構(gòu)數(shù)據(jù)融合框架設(shè)計(jì)方案,在數(shù)據(jù)融合層中融合各設(shè)備間信息特征屬性。在滿足時(shí)空匹配條件下,通過融合特征知識(shí)庫與D-S證據(jù)理論的對(duì)應(yīng)關(guān)系,運(yùn)用互補(bǔ)型結(jié)構(gòu)方法,提升智能決策置信度。
D-S證據(jù)理論是將證據(jù)集劃分稱兩個(gè)或兩個(gè)以上的不相關(guān)部分,利用它們對(duì)識(shí)別框架獨(dú)立進(jìn)行判斷,然后用組合規(guī)則將其組合起來,并結(jié)合信度函數(shù)和證據(jù)間的支持度原則進(jìn)行修正,有效提升算法可行性。
D-S證據(jù)理論,由Dempster A P[10]提出,Shafer G[11]進(jìn)一步改進(jìn)發(fā)展而來,其核心是Dempster合成規(guī)則。本文采用D-S證據(jù)理論方法,并對(duì)此方法進(jìn)行改進(jìn),為決策分析提供理論支持。
定義1基本概率分配
存在一個(gè)假設(shè)空間Χ(辨識(shí)框架),包含N個(gè)完備且互不相容假設(shè)命題元素AN,元素個(gè)數(shù)N的集合有2N互斥的子集,記為2Χ,m函數(shù):2Χ∈[0,1],若滿足下列條件
則稱m函數(shù)為Χ上的基本概率分配(bastic probablity assignment,BPA)或mass函數(shù)。
定義2證據(jù)組合規(guī)則
設(shè)m1,m2,…,mn為n個(gè)獨(dú)立證據(jù)的基本概率值,組合公式采用正交和運(yùn)算計(jì)算得出即m=m1⊕m2⊕…⊕mn,則
(1)
(2)
式中K∈[0,1]為歸一化系數(shù)(沖突系數(shù)),反映的是證據(jù)間的沖突程度,即當(dāng)K→1時(shí),證據(jù)間沖突性逐漸提高,當(dāng)K→0時(shí),證據(jù)間沖突性逐漸降低。
證據(jù)理論并不是在任意場(chǎng)合均適用,當(dāng)外界環(huán)境因素使得證據(jù)源出現(xiàn)問題時(shí),則會(huì)引發(fā)證據(jù)間沖突,從而產(chǎn)生與事實(shí)不符的結(jié)論,即“Zadeh悖論”。因此,在組合高沖突的證據(jù)時(shí),需要做出一定的修正來確保達(dá)到更好的融合結(jié)果。
定義3Pignistic概率
在識(shí)別框架X={X(1),X(2),X(3),…,X(n)}下的單個(gè)子集均獨(dú)立并滿足
(3)
則稱BetPmi(Xj)為基本信任分配下的Pignistic概率。
修正方法通常引入相似度函數(shù)和相似度矩陣來表明證據(jù)間的相似程度,式(4)表示的是兩個(gè)證據(jù)量間的相似度,多個(gè)證據(jù)的相似度由式(5)表示更為直觀。
相似度函數(shù)
(4)
相似度矩陣
(5)
D-S證據(jù)理論規(guī)則中,多個(gè)條件需要進(jìn)行信度分配來解決不確定性問題,提升結(jié)果準(zhǔn)確度。證據(jù)信任度(CrdPm)描述的是其他證據(jù)對(duì)本證據(jù)的支持程度,支持度越大,與其他證據(jù)的變化趨勢(shì)就越相近,即本證據(jù)就越可靠,在融合過程中不需要對(duì)其進(jìn)行修正。而證據(jù)虛假度(Fal)則表明虛假度越高,證據(jù)間沖突越大,融合前證據(jù)應(yīng)進(jìn)行修正以減少其在融合過程中的影響[12]。
對(duì)于n個(gè)證據(jù)源中每個(gè)證據(jù)體的信任度計(jì)算公式如式(6),將各個(gè)證據(jù)體的信任度組合起來就是信任度向量,如式(7)
(6)
CrdPm=[CrdPm1,CrdPm2,…,CrdPmn]
(7)
由式(3)可知,在同一識(shí)別框架下,存在多個(gè)證據(jù)的證據(jù)源的沖突系數(shù)k0,如式(8)所示,當(dāng)去除一部分證據(jù)源之后,沖突系數(shù)調(diào)整為kj,如式(9)所示
(8)
(9)
從上式(8)、式(9)可得,0≤kj≤k0≤1,因此定義虛假度如式(10)
(10)
證據(jù)融合過程中,將證據(jù)焦元權(quán)重分配修正,以減少證據(jù)間沖突對(duì)融合結(jié)果的影響,修正后的權(quán)重表示如式(11)所示
τi=1+CrdPmi-Fal(mi)
(11)
歸一化處理后可得式(12)
(12)
首先對(duì)實(shí)驗(yàn)過程的數(shù)據(jù)預(yù)先進(jìn)行數(shù)據(jù)清洗,各設(shè)備數(shù)據(jù)對(duì)應(yīng)各相關(guān)屬性,去除非關(guān)鍵影響屬性,保留主屬性,冗余數(shù)據(jù)特性描述歸一化,構(gòu)建設(shè)備數(shù)據(jù)記錄庫,對(duì)各設(shè)備數(shù)據(jù)特征設(shè)定知識(shí)庫邊界,完善設(shè)備狀態(tài)間冗余特征描述,融合成新的設(shè)備數(shù)據(jù)特征映射表,初步完成數(shù)據(jù)特征融合,提高數(shù)據(jù)質(zhì)量,提升數(shù)據(jù)融合效率。
數(shù)據(jù)融合過程具體步驟如下:
步驟1 從信號(hào)系統(tǒng)各設(shè)備監(jiān)測(cè)數(shù)據(jù)庫中抽取各設(shè)備監(jiān)測(cè)數(shù)據(jù)信息表,并提取各設(shè)備的特征,完成數(shù)據(jù)預(yù)清洗,完成局部數(shù)據(jù)庫基礎(chǔ)映射表。
步驟2 將局部信息數(shù)據(jù)特征提取形成特征數(shù)據(jù)知識(shí)庫,尤其是對(duì)各設(shè)備故障文檔描述中抽取的記錄信息要完整表示,各特征屬性排序計(jì)數(shù)表示。
步驟3 將n個(gè)特征屬性證據(jù)運(yùn)用式(3)轉(zhuǎn)為基本概率,根據(jù)式(5)~式(12)完成各證據(jù)特征間的相似度、信任度和虛假度。
步驟4 將步驟3中求解得到的信任度和虛假度完成排序,并對(duì)高沖突證據(jù)加權(quán)平均。
步驟5 根據(jù)D-S證據(jù)理論合成規(guī)則完成各特征屬性融合。
步驟6 將步驟5完成的融合結(jié)果進(jìn)行測(cè)試訓(xùn)練,對(duì)于故障識(shí)別準(zhǔn)確率達(dá)到90 %以上的可完成后續(xù)故障測(cè)試模型構(gòu)建,對(duì)于不達(dá)標(biāo)準(zhǔn)的返回步驟2進(jìn)一步抽取新特征屬性,擴(kuò)大特征知識(shí)庫集,完成數(shù)據(jù)特征融合。
具體融合算法執(zhí)行流程圖如圖2所示。
圖2 算法執(zhí)行流程圖
以CTC設(shè)備監(jiān)測(cè)數(shù)據(jù)為例,CTC設(shè)備的主屬性數(shù)據(jù)包含:始終端信號(hào)、區(qū)間方向、區(qū)間信號(hào)及燈位顯示狀態(tài)、區(qū)間軌道電路占用情況、接口狀態(tài)和站名編號(hào)等,各主屬性通過數(shù)據(jù)規(guī)則轉(zhuǎn)換表,將數(shù)據(jù)屬性特征規(guī)則化表示后轉(zhuǎn)錄入數(shù)據(jù)庫中,選定的主屬性特征錄入到特征知識(shí)庫中,而后根據(jù)D-S證據(jù)理論完成后續(xù)數(shù)據(jù)融合。表1為CTC設(shè)備數(shù)據(jù)部分?jǐn)?shù)據(jù)規(guī)則轉(zhuǎn)換規(guī)則。
表1 數(shù)據(jù)規(guī)則轉(zhuǎn)換表(部分)
根據(jù)前述的異構(gòu)數(shù)據(jù)特征融合方法,對(duì)某段高鐵信號(hào)系統(tǒng)各設(shè)備多源異構(gòu)信息數(shù)據(jù)庫中數(shù)據(jù)集預(yù)先進(jìn)行清洗,選取了該信號(hào)系統(tǒng)中具有代表性的7類設(shè)備數(shù)據(jù),清洗過后的設(shè)備有效數(shù)據(jù)量如下:CTC設(shè)備、道岔、信號(hào)機(jī)、電源屏、軌道電路、計(jì)算機(jī)聯(lián)鎖、車載設(shè)備分別為78,218,121,65,327,196,58。合計(jì)1 063條數(shù)據(jù),通過效數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,驗(yàn)證本文方法的可行性。
在實(shí)驗(yàn)過程中對(duì)1 063條有效數(shù)據(jù)集隨機(jī)選取80 %的數(shù)據(jù)進(jìn)行參數(shù)學(xué)習(xí)訓(xùn)練,20 %的數(shù)據(jù)用來測(cè)試故障診斷的準(zhǔn)確率。采用故障分級(jí)思想,通過研究歸納總結(jié),將目前高鐵信號(hào)系統(tǒng)故障決策預(yù)警分為三級(jí),即:第一級(jí)故障為故障所發(fā)生的位置或者大致范圍,第二級(jí)故障為產(chǎn)生故障的具體原因,第三級(jí)故障為故障的可維護(hù)措施預(yù)警。
圖3給出了文獻(xiàn)[9]本體融合算法和本文D-S理論融合算法的計(jì)算時(shí)間比較結(jié)果。
圖3 運(yùn)行時(shí)間對(duì)比
如圖3所示,在數(shù)據(jù)集數(shù)在不超過700的情況下,本文D-S理論融合算法的計(jì)算時(shí)間要少于本體融合算法的算法;當(dāng)節(jié)點(diǎn)數(shù)在700以上逐步增加時(shí),數(shù)據(jù)集間沖突增加,融合成本提升,計(jì)算時(shí)間較比本體融合算法方法略有延長(zhǎng),平均延長(zhǎng)時(shí)間不超過4 ms。本文方法對(duì)于一級(jí)~三級(jí)故障的平均準(zhǔn)確率均高于本體融合算法的方法,如表2所示。尤其是對(duì)第三級(jí)故障的準(zhǔn)確率而言,由于增加了底層數(shù)據(jù)的融合機(jī)制,使得數(shù)據(jù)細(xì)粒度更為準(zhǔn)確,三級(jí)故障的平均準(zhǔn)確率提升了5.6 %,驗(yàn)證了本文方法的有效性。
表2 故障診斷測(cè)試準(zhǔn)確率對(duì)比 %
針對(duì)高鐵信號(hào)系統(tǒng)的多源異構(gòu)數(shù)據(jù)信息特征,本文構(gòu)建了新的高鐵信號(hào)系統(tǒng)多源異構(gòu)數(shù)據(jù)融合架構(gòu),確保多源異構(gòu)數(shù)據(jù)之間的形成知識(shí)共享和重用,并通過D-S證據(jù)理論的過濾,確保底層數(shù)據(jù)質(zhì)量的提升并形成有效的規(guī)則組合,縮小規(guī)則間沖突。實(shí)驗(yàn)驗(yàn)證結(jié)果表明:對(duì)于一定規(guī)模數(shù)據(jù)集,D-S證據(jù)理論下的數(shù)據(jù)融合方法有良好的適用性和可擴(kuò)展性,將信息數(shù)據(jù)最大程度的利用化,在算法實(shí)時(shí)性和故障診斷準(zhǔn)確率方面提升了頂層智能決策性能。