牛太冬
摘 要:道岔的正常運轉(zhuǎn)是保證列車正常運行的必備條件,傳統(tǒng)的道岔故障檢測方法主要來源于人的工作經(jīng)驗,根據(jù)電流的非正常變化來判別道岔是否發(fā)生故障,消耗較多的人力資源與物力資源。為了提升資源的有效利用率,本文運用概率主成分分析法提取數(shù)據(jù)的主要特征,分別采用支持向量機模型和[k]近鄰模型作為道岔故障分類器,然后使用十折交叉驗證法作為模型的評價標準,以達到智能識別鐵路道岔故障的目的。
關(guān)鍵詞:概率主成分分析;支持向量機;故障識別;[k]近鄰法
中圖分類號:U284.92 文獻標識碼:A 文章編號:1003-5168(2021)06-0033-03
Railway Turnout Fault Recognition Based on Machine Learning
NIU Taidong
(Tianjin University of Science & Technology,Tianjin 300457)
Abstract: The normal operation of the switch is a necessary condition to ensure the normal operation of the train, traditional turnout fault detection methods are mainly derived from human work experience, it judges whether the turnout is malfunctioning according to the abnormal change of the current, which consumes more human resources and material resources. In order to improve the effective utilization of resources, this paper used the probabilistic principal component analysis method to extract the main characteristics of the data, respectively used the support vector machine model and the [k]-nearest neighbor model as the turnout fault classifier, and then used the ten-fold cross validation method as the evaluation standard of the model to achieve the purpose of intelligently identifying the railway turnout fault.
Keywords: probabilistic principal component analysis;support vector machine; fault identification;[k]-nearest neighbor method
目前,大部分地區(qū)通過微機監(jiān)控系統(tǒng)采集道岔開閉時的電流值來判斷鐵路道岔是否發(fā)生故障。轉(zhuǎn)轍機正常動作時的電流曲線如圖1所示,發(fā)生故障時的轉(zhuǎn)轍機動作電流曲線如圖2至圖6所示。由圖像可以看出,除了故障時轉(zhuǎn)轍機動作電流與正常時轉(zhuǎn)轍機動作電流不同外,不同情形下的故障電流也不相同。
隨著人工智能行業(yè)的發(fā)展和完善,人們可以使用機器學(xué)習(xí)算法進行鐵路道岔故障識別,減少人力和物力的浪費,提高鐵路道岔故障識別的準確性,減少故障識別的時間成本。唐維華[1]等利用LSTM(Long-Short Term Memory)電流數(shù)據(jù)的特征,將神經(jīng)網(wǎng)絡(luò)算法應(yīng)用到道岔動作電流曲線分類器中。程宇佳[2]以核方法為基礎(chǔ),研究高速鐵路道岔故障診斷方法??涉玫萚3]利用主成分法提取道岔工作電流特征的主成分,并利用查準率和查全率構(gòu)造道岔識別性能指標。楊菊花等[4]利用基于密度的聚類方法提取電流曲線數(shù)據(jù)的故障敏感特征,并利用PSO-SOM算法作為故障分類器。
1 道岔電流數(shù)據(jù)特征的提取
1.1 概率主成分分析法
利用高維度的數(shù)據(jù)來訓(xùn)練道岔故障識別模型時,模型的時間復(fù)雜度會較大,同時冗余信息也會影響模型分類的準確性。因此,人們可以通過特征提取技術(shù)將數(shù)據(jù)的主成分提取出來,減少數(shù)據(jù)特征相關(guān)性帶來的影響。主成分分析(Principal Component Analysis)是最常用的降維技術(shù),這一技術(shù)利用線性變換把高維度的線性相關(guān)的向量轉(zhuǎn)化為低維度的線性無關(guān)的向量。
概率主成分分析法將概率框架引入主成分分析中,并引入非主成分因子,相較于主成分分析法,概率主成分分析法可以提取同樣個數(shù)的特征數(shù),其累計貢獻率高于經(jīng)典的主成分分析法[5]。
設(shè)[s1,s2,…,sd]為[d]維觀測數(shù)據(jù),樣本數(shù)為[N],對于單個樣本,人們可以通過隱變量模型得到觀測數(shù)據(jù)[s]與隱變量[x]的關(guān)系,即
[s=wx+μ+ε]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
式中,[w]為[d×q]因子載荷矩陣;[x]為[q]維隱變量;[μ]為非零均值;[ε]為誤差。
設(shè)[x?N0,1],[ε?N0,σ2I],人們可以建立模型,表示隱變量[x]條件下觀測數(shù)據(jù)[s]的概率分布情況,即
[p(s|x)=(2πσ2)-d2e-12σ2∥s-Wx-μ∥2]? ? ? ? ? ? ? ? (2)
式中,[W]為變量[x]的系數(shù)。
若隱變量模型[x]的先驗概率分布為標準的高斯分布[見式(3)],則觀測數(shù)據(jù)[s]的概率分布可以用式(4)表示。
[p(x)=(2π)-q2e-12xTx]? ? ? ? ? ? ? ? ? ? ? ? ? (3)
[p(s)=(2π)-d2|C|-12e-12(s-μ)TC-1(s-μ)]? ? ? ? ? ? ? ? (4)
式中,[T]為變量[x]的指數(shù);[C=WWT+σ2I],維數(shù)為[d×d]。
基于貝葉斯公式,人們可以計算出隱變量[x]關(guān)于觀察值[s]的后驗概率分布,即
[p(x|s)=(2π)-q2σ2M-12e-12(s-μ)TC-1(s-μ)]? ? ? ? ? ?(5)
式中,[M=WTW+σ2I],維數(shù)為[q×q]。
在此模型下,對數(shù)似然函數(shù)為:
[Ls=-N2dln2π+lnC+trC-1U]? ? ? (6)
式中,[U]為觀測樣本的協(xié)方差矩陣。
參數(shù)[U]用公式可以表示為:
[U=1Nn=1N(sn-μ)(sn-μ)T]? ? ? ? ? ? ? ? ? ?(7)
對參數(shù)[μ]和[W]求解后,人們就可以對高維空間中的樣本[見式(8)]進行降維,降維后數(shù)據(jù)的重構(gòu)形式如式(9)所示。
[xn=WTsn-μ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (8)
[sn=W(WTW)-1xn+μ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)
1.2 主成分分析法和概率主成分分析法的實踐比較
在Matlab軟件中,本研究利用主成分分析法提取鐵路道岔電流的主成分,原樣本數(shù)據(jù)維數(shù)為960×371,樣本數(shù)據(jù)的協(xié)方差矩陣前9個特征值的累計貢獻率為0.952 933。利用概率主成分分析法后,人們?nèi)蕴崛?個主成分,累計貢獻率達到0.953 001。
2 道岔故障識別模型的建立
2.1 支持向量機故障識別模型
支持向量機(Support Vector Machines,SVM)是一種二分類模型。由圖1可以看出,道岔故障有5種不同的情況,將所有道岔故障類的標簽記為[yi=-1],將正常狀況標簽記為[yi=+1],[yi∈+1,-1],然后建立支持向量機模型,即
[? ? ?minw,b,η12|a|2+Cs.t.? ?yiaxi+b≥1-ηi, i=1,2,…,p ηi≥0,? i=1,2,…,p]? ? ? ? (10)
式中,[a]為超平面的法向量;[ηii=1,2,…,p]為松弛變量;[C]為懲罰參數(shù)。
通過求解上述優(yōu)化模型的解[a*]和[b*],人們可以得到相應(yīng)的分類決策函數(shù),即
[fx=signa*x+b*]? ? ? ? ? ? ? ? ? ?(11)
2.2 KNN算法識別模型
[k]近鄰法(k-Nearest Neighbor)是一種基本分類與回歸的方法,本文利用Matlab中的Statistics and Machine Learning Toolbox,基于概率主成分分析法降維后的數(shù)據(jù)訓(xùn)練[k]近鄰法分類器,距離度量為曼哈頓距離,[k]值取5。
3 模型評價與比較
3.1 10次10折交叉驗證法
本試驗中,數(shù)據(jù)量一共有960例,數(shù)據(jù)量較小,為了充分利用所有數(shù)據(jù),其采用十折交叉驗證(10-Fold Cross Validation)法。該方法能夠在較少數(shù)據(jù)的情況下充分利用數(shù)據(jù)訓(xùn)練模型,并且可以得到可靠的模型評價。
3.2 模型比較
如表1所示,SVM模型10折交叉驗證的錯誤率為0.001 2,KNN模型10折交叉驗證的錯誤率為0.004 9,雖然將[k]近鄰算法做二分類降低了錯誤率,但是其仍然不如支持向量機方法。KNN算法能夠判斷道岔故障類型,減少維修的時間成本。
表1 SVM和KNN模型交叉驗證錯誤率
[序號 模型 錯誤率 1 SVM 0.001 2 2 KNN 0.004 9 ]
4 結(jié)論
本文首先對不同故障類別電流數(shù)據(jù)進行可視化處理,然后利用概率主成分分析法提取轉(zhuǎn)轍機動作電流的數(shù)據(jù)特征,在371維的電流數(shù)據(jù)中提取9個主成分,方差累計貢獻率達到95.3%,高于主成分分析法提取9個主成分的方差累計貢獻率,支持向量機分類模型的準確率為99.88%,[k]近鄰法分類模型的準確率為99.51%,因此支持向量機模型在準確性方面優(yōu)于[k]近鄰法模型。在實踐中,訓(xùn)練好的模型對道岔故障做出判別的響應(yīng)速度優(yōu)于工作人員實時觀察轉(zhuǎn)轍機工作電流進行故障識別的速度,故障識別的準確率接近100%,不僅節(jié)約人力資源,而且降低了錯誤識別的風(fēng)險。
參考文獻:
[1]唐維華,李德敏.鐵路道岔故障診斷及顯示系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2019(9):37-40.
[2]程宇佳.基于核方法的高速鐵路道岔故障診斷[D].北京:北京交通大學(xué),2016:12-13.
[3]可婷,葛雪純,張立東,等.鐵路道岔故障的智能診斷[J].電子技術(shù)應(yīng)用,2020(4):29-33.
[4]楊菊花,李旭彤,邢東峰,等.基于DBSCAN/SOM的道岔故障診斷[J].計量科學(xué)與技術(shù),2020(12):5-7.
[5]高兵,孫琳,謝彪,等.權(quán)重概率主成分分析模型的建立及應(yīng)用研究[J].中國衛(wèi)生統(tǒng)計,2018(6):802-805.