基于時(shí)間序列數(shù)據(jù)挖掘的地鐵車門亞健康狀態(tài)識(shí)別方法

2018-05-21 01:01:18支有冉許志興

計(jì)算機(jī)應(yīng)用 2018年3期

薛鈺，梅雪，支有冉，許志興，史翔

(1.南京工業(yè)大學(xué) 電氣工程與控制科學(xué)學(xué)院，南京 211816； 2.南京康尼機(jī)電股份有限公司，南京 210013)

近年來，城市人口的急劇增加，城市規(guī)模的增大，致使城市的交通系統(tǒng)面臨嚴(yán)峻的局勢。地鐵作為公共交通中重要的組成部分，是目前人們主要出行方式之一。列車車門由于其工作環(huán)境中經(jīng)常受到擠壓和震動(dòng)，所以它是整個(gè)車輛中故障頻發(fā)的部分[1]。車門打開和關(guān)閉過程中最重要的驅(qū)動(dòng)部件就是電機(jī)，其工作狀態(tài)可以直接或間接反映出車門的工作狀態(tài)。最近這些年人們提出多種方法用于電機(jī)的故障診斷，例如基于神經(jīng)網(wǎng)絡(luò)的方法[2]、基于信號(hào)處理的方法[3]和基于規(guī)則發(fā)現(xiàn)的診斷方法[4]等。車門亞健康狀態(tài)不同于故障，是介于車門正常運(yùn)行和故障之間的中間狀態(tài)，對(duì)其進(jìn)行識(shí)別存在重要意義。

由于車門電機(jī)參數(shù)為時(shí)間序列相關(guān)的數(shù)據(jù)，故可以利用時(shí)間序列數(shù)據(jù)挖掘算法和技術(shù)來對(duì)電機(jī)的運(yùn)行狀態(tài)進(jìn)行分析。目前，時(shí)間序列常用的表示方法有離散小波變換、分段線性表示和符號(hào)化方法。文獻(xiàn)[5]采用離散小波變換處理地震波時(shí)間序列，將轉(zhuǎn)化后小波的系數(shù)作為特征，實(shí)現(xiàn)對(duì)地震信號(hào)的跟蹤。文獻(xiàn)[6]等依據(jù)時(shí)間序列中斜率的變化，提出了基于一階濾波的時(shí)間序列分段線性表示方法(Piecewise Linear Representation method of time Series based on First-order Filtering, PLR_SFWF)，將時(shí)間序列分段線性表示。文獻(xiàn)[7]挖掘字符串處理后時(shí)間序列中的頻繁模式，實(shí)現(xiàn)時(shí)間序列的聚類以及分類。雖然上述的算法對(duì)時(shí)間序列處理效果很好，但遺憾的是運(yùn)算比較復(fù)雜，難以應(yīng)用于地鐵車門電機(jī)數(shù)據(jù)處理中。本文針對(duì)地鐵門電機(jī)數(shù)據(jù)提出了一種新的亞健康識(shí)別算法。首先，采用多尺度滑動(dòng)窗口的方法并結(jié)合拓展符號(hào)聚集近似(Extension of Symbolic Aggregate approXimation, ESAX)算法對(duì)地鐵門電機(jī)數(shù)據(jù)進(jìn)行挖掘；然后，采用主成分分析(Principal Component Analysis, PCA)法降維并選擇較為敏感的參數(shù)作為亞健康判斷的特征量；最后，結(jié)合基礎(chǔ)特征利用分層模式識(shí)別模型對(duì)各類亞健康狀態(tài)進(jìn)行識(shí)別，并以實(shí)測地鐵門電機(jī)數(shù)據(jù)為例驗(yàn)證本文所提方法的有效性。

1 地鐵門電機(jī)數(shù)據(jù)特征提取

1.1 時(shí)間序列符號(hào)化

Lin等[8]提出符號(hào)化聚合近似(Symbolic Aggregate approXimation, SAX)算法,對(duì)于長度為n的時(shí)間序列X，若要將其用長度為w的字符串表示，需要進(jìn)行下面四個(gè)步驟：

1)對(duì)數(shù)據(jù)X進(jìn)行標(biāo)準(zhǔn)化處理。對(duì)于標(biāo)準(zhǔn)化后的時(shí)間序列，數(shù)據(jù)往往呈現(xiàn)高斯分布，計(jì)算公式如下：

(1)

3) 依據(jù)間斷點(diǎn)β={β1,β2,…,βα-1}將高斯空間等概率劃分，其中的區(qū)間個(gè)數(shù)為α。間斷點(diǎn)可以查表獲得，表1給出了α從3到5時(shí)的間斷點(diǎn)的值。

表1 高斯空間等概率劃分?jǐn)帱c(diǎn)(α為區(qū)間個(gè)數(shù)， β為斷點(diǎn))Tab. 1 Breakpoints that divide a Gaussian distribution into equiprobable regions (α is the number of regions， β are the breakpoints)

1.2 改進(jìn)時(shí)間序列符號(hào)化

SAX在應(yīng)用中的良好效果使其成為近10年來被廣泛使用的一種符號(hào)化特征表示方法;然而，只計(jì)算均值往往會(huì)忽略時(shí)間序列中的極值點(diǎn)。圖1為車門在剛啟動(dòng)階段時(shí)的電流曲線，通過SAX算法可以將其離散化為字符串DCBCDE(a=6，w=6)?？梢园l(fā)現(xiàn)，圖1中很多重要的極值點(diǎn)信息被忽略了，這些極值點(diǎn)記錄車門運(yùn)行過程中一些極端且不尋常的模式，這些模式往往是進(jìn)行識(shí)別的關(guān)鍵。文獻(xiàn)[9]提出了拓展符號(hào)聚集近似(ESAX)算法并將其應(yīng)用于金融數(shù)據(jù)處理，其思想是在計(jì)算均值的時(shí)候同時(shí)引入最大值和最小值，以此來保留時(shí)間序列數(shù)據(jù)中的極值點(diǎn)。

圖1 通過SAX字符化車門電機(jī)電流曲線 Fig. 1 Current data of motor represented by SAX

圖2為使用ESAX算法對(duì)電流曲線進(jìn)行離散化。當(dāng)α=6,w=6時(shí)，曲線離散字符化結(jié)果為BDFECBABBBCCCDDDEE。這種改進(jìn)的字符化算法能夠保留圖中的極值點(diǎn)信息，缺點(diǎn)是使得原來長度為6的字符串變?yōu)殚L度為18的字符串。

圖2 通過ESAX字符化車門電機(jī)電流曲線 Fig. 2 Current curve of motor represented by ESAX

為了使ESAX算法進(jìn)一步適用于車門電機(jī)數(shù)據(jù)，對(duì)其作出改進(jìn)，結(jié)合滑動(dòng)窗口重疊分割法來離散時(shí)間序列[10]。滑動(dòng)窗口的原理如圖3所示，其將時(shí)間序列分成若干等寬的短序列，序列個(gè)數(shù)為N-s+1(為了避免序列末端數(shù)據(jù)剩余，取步長r=1)。

圖3 滑動(dòng)窗原理 Fig. 3 Principle diagram of sliding window

1.3 基于多尺度滑動(dòng)窗口的特征提取

地鐵車門所受的阻力主要來源于機(jī)械阻力、空氣阻力、密封條反彈力和密封條摩擦力四個(gè)方面，而這些阻力受到溫度和濕度等環(huán)境的影響。車門在開關(guān)門過程中的開始階段和結(jié)束階段阻力變化較大，從而使得這部分電機(jī)的轉(zhuǎn)速和轉(zhuǎn)矩信號(hào)變化明顯。圖4為車門開關(guān)門時(shí)電機(jī)的轉(zhuǎn)矩曲線，依據(jù)曲線的變化，將開關(guān)門過程大致分為3個(gè)階段，即啟動(dòng)段、勻速段和減速段。開關(guān)門過程中啟動(dòng)段和減速段蘊(yùn)含著更多的車門狀態(tài)信息，對(duì)這兩個(gè)階段的數(shù)據(jù)挖掘有著更加重要的意義。在本文中，采用一種多尺度的滑動(dòng)窗口的方法對(duì)開關(guān)門過程中的轉(zhuǎn)速、轉(zhuǎn)角和電流信號(hào)進(jìn)行挖掘，在勻速階段采用較大的滑動(dòng)窗口來將時(shí)間序列離散成字符，在啟動(dòng)段和減速段采用比較小的滑動(dòng)窗口進(jìn)行離散。在盡可能多地挖掘時(shí)間序列數(shù)據(jù)特征的同時(shí)降低數(shù)據(jù)的維數(shù)。

通過符號(hào)化特征表示之后，可以識(shí)別車門電機(jī)參數(shù)形態(tài)特征，接著通過選取合適的距離度量的函數(shù)，可以找出數(shù)據(jù)之間的差別。歐氏距離[11]和最小距離[8]是目前最常見的兩種計(jì)算離散字符序列距離的方法。本文通過對(duì)最小距離方法的改進(jìn)，計(jì)算時(shí)間序列的相似性。對(duì)于字符化后的時(shí)間序列AEsax={a1,a2,…,an}和BEsax={b1,b2,…,bn}，計(jì)算公式如下：

(2)

其中：c為壓縮率，c=3n/w,n為滑動(dòng)窗口長度，w為字符化后字符的個(gè)數(shù)；ai和bi來自字符表V={V1,V2，…,Vn}，且

(3)

其中k為間斷點(diǎn)β={β1,β2,…,βn}之間的距離。

本文基于多尺度滑動(dòng)窗口的符號(hào)化特征提取算法如下：

1) 初始化相關(guān)數(shù)據(jù)。字符種類數(shù)α=6，字符個(gè)數(shù)w=5，電機(jī)的轉(zhuǎn)角數(shù)據(jù)滑動(dòng)窗口長度s=120；轉(zhuǎn)速和電流數(shù)據(jù)在啟動(dòng)段和減速段滑動(dòng)窗口長度s=30，勻速段滑動(dòng)窗口長度s=120。

2)標(biāo)準(zhǔn)化車門正常狀態(tài)下的模板曲線，利用滑動(dòng)窗口對(duì)其中的轉(zhuǎn)角、轉(zhuǎn)速和電流曲線依次分段，并通過對(duì)子序列均值、最大值和最小值的計(jì)算，將時(shí)間序列離散成ESAX字符串。

3)對(duì)亞健康和其對(duì)應(yīng)正常數(shù)據(jù)的電機(jī)轉(zhuǎn)速、轉(zhuǎn)角和轉(zhuǎn)矩曲線預(yù)處理，包括問題數(shù)據(jù)的去除和數(shù)據(jù)長度的處理，然后采用步驟2)的方法進(jìn)行離散，獲得離散后的字符串序列。

4)利用式(2)分別計(jì)算亞健康狀態(tài)下轉(zhuǎn)速、轉(zhuǎn)角和轉(zhuǎn)矩和模板之間的距離，即d(ESAX,ESAXT)，將其組合獲得距離表示的特征集。

步驟2)中模板曲線對(duì)車門亞健康狀態(tài)的識(shí)別有著重要意義。由于地鐵門受其工作環(huán)境和人為因素的影響，使得其正常狀態(tài)之間的曲線也存在差異，比如溫度的降低或者氣壓的增加，車門開關(guān)過程中受到的阻力會(huì)變大，其電機(jī)電流將會(huì)增加。因此有必要考慮各亞健康對(duì)應(yīng)的模板曲線，以減小實(shí)驗(yàn)過程中門的調(diào)整所帶來的誤差，提高特征的可靠性。本文將車門調(diào)整之后正常運(yùn)行一段時(shí)間數(shù)據(jù)的均值作為模板曲線。

圖4 電機(jī)電流曲線分段 Fig. 4 Curve segmentation of motor current

2 分層亞健康狀態(tài)識(shí)別模型

在實(shí)際的地鐵車門亞健康狀態(tài)診斷中，亞健康類別與亞健康的狀態(tài)并不存在完全的一一對(duì)應(yīng)的關(guān)系，部分亞健康例如電機(jī)組松動(dòng)、下?lián)蹁N干涉對(duì)電機(jī)的運(yùn)行過程中所造成的阻力干擾比較小，對(duì)曲線的變化不如其他亞健康狀態(tài)明顯。將這些靠近正常狀態(tài)的亞健康狀態(tài)歸為Ⅱ類亞健康，而將遠(yuǎn)離正常狀態(tài)的亞健康歸為Ⅰ類亞健康。本文采用一種由粗到精細(xì)分層分類的算法[12]，對(duì)2類亞健康逐層進(jìn)行區(qū)分，算法流程如圖5所示。

分層亞健康狀態(tài)識(shí)別算法含有2層識(shí)別過程：針對(duì)正常數(shù)據(jù)和亞健康數(shù)據(jù)，首先采用字符化處理對(duì)數(shù)據(jù)進(jìn)行挖掘，獲得距離表示的特征集，接著使用主成分分析(Principal Component Analysis, PCA)進(jìn)行降維，去除冗余信息并選擇貢獻(xiàn)率較高的特征用于第一層分類；第一層的訓(xùn)練識(shí)別的過程主要針對(duì)Ⅰ類亞健康，這類亞健康往往擁有著很高的區(qū)分度。在第二層識(shí)別中，通過融合數(shù)據(jù)的基礎(chǔ)特征和距離表示的特征集，進(jìn)一步區(qū)分出Ⅱ類亞健康數(shù)據(jù)和正常數(shù)據(jù)。本文的分層亞健康識(shí)別模型采用鑒別能力和推廣特性較好的支持向量機(jī)(Support Vector Machine, SVM)作為分類器。

圖5 分層亞健康識(shí)別模型 Fig. 5 Hierarchical sub-health state identification model

SVM的本質(zhì)是采用核函數(shù)將特征非線性映射到高維空間，并在高維空間尋找最大間隔分類面。SVM常見的核函數(shù)包括線性核、高斯核和Sigmoid核，本文選用高斯核。SVM在進(jìn)行分類時(shí)通常會(huì)引入松弛變量ξ和懲罰系數(shù)C，求解軟邊界二次規(guī)劃問題。其中C>0為一個(gè)自定義的懲罰因子，它決定對(duì)錯(cuò)分樣本的懲罰程度，用來控制樣本偏差與機(jī)器泛化能力之間的平衡。C越大，懲罰就越大，暗示著對(duì)離群點(diǎn)的重視程度也越高，其取值與具體應(yīng)用有關(guān)。當(dāng)各亞健康特征的區(qū)分特性較好時(shí)，可以適當(dāng)提高懲罰因子，以提高SVM分類能力。當(dāng)亞健康特征區(qū)分度較差時(shí)，必須適當(dāng)減小懲罰因子，保證分類器有著比較好的泛化性能。因此，在第一層分類模型中選擇較大的C來區(qū)別出Ⅰ類亞健康；第二層分類模型中，減小C的取值，以得到較為準(zhǔn)確的識(shí)別結(jié)果。

在每一層的分類識(shí)別過程中，需要同時(shí)對(duì)多種亞健康狀態(tài)進(jìn)行分類。單個(gè)支持向量機(jī)只能解決二分類問題，對(duì)于多分類問題，本文使用一對(duì)一的方法來實(shí)現(xiàn)多分類的功能。通過在各個(gè)亞健康之間構(gòu)造決策函數(shù)，對(duì)t個(gè)類別共需構(gòu)造t(t-1)/2個(gè)決策超平面。當(dāng)對(duì)未知亞健康數(shù)據(jù)進(jìn)行分類時(shí)，采用投票法，即得票最多的類為樣本所屬的類別。

傳統(tǒng)特征[13]通過總結(jié)時(shí)間序列中一個(gè)單一的值來描述時(shí)間序列，本文稱這些特征為基礎(chǔ)特征。這些特征計(jì)算簡單并且快速，實(shí)時(shí)性效果比較好，因而在實(shí)際中被廣泛地使用。常用的基礎(chǔ)特征類型包括三種：1)簡單的靜態(tài)值，例如時(shí)間序列均值、最大最小值、方差、標(biāo)準(zhǔn)差、斜率；2)頻率主導(dǎo)特征，例如時(shí)間序列的傅里葉變換以及穿越橫軸的次數(shù)和頻率；3)不同序列之間的相關(guān)特征，例如協(xié)方差、相關(guān)系數(shù)、歐氏距離等。本文采用的基礎(chǔ)特征主要包括兩部分：一是運(yùn)動(dòng)曲線靜態(tài)值特征，通過對(duì)三種曲線的分析，啟動(dòng)段提取的特征包括最大轉(zhuǎn)速以及其對(duì)應(yīng)的轉(zhuǎn)角、加速度和最大電流。勻速段提取的特征包括最大轉(zhuǎn)速、平均轉(zhuǎn)速和電流的有效值。減速段提取的特征包括最大加速度、最大電流、截止轉(zhuǎn)速、電流有效值和開關(guān)到位堵轉(zhuǎn)電流以及時(shí)間。二是曲線與模板曲線的相關(guān)特征，包括協(xié)方差和相關(guān)系數(shù)的計(jì)算。其中相關(guān)系數(shù)反映當(dāng)前曲線與模板曲線的相似程度，協(xié)方差反映當(dāng)前曲線與模板曲線的總體誤差。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)來源及分析

實(shí)驗(yàn)所依賴的地鐵門臺(tái)架為塞拉門結(jié)構(gòu)，通過對(duì)其進(jìn)行調(diào)整來模擬各種亞健康狀態(tài)。數(shù)據(jù)采集由內(nèi)置的采集設(shè)備對(duì)電機(jī)開關(guān)門過程中的各項(xiàng)數(shù)據(jù)實(shí)時(shí)采集，并通過無線傳輸?shù)姆绞?由外置監(jiān)測設(shè)備轉(zhuǎn)發(fā))將數(shù)據(jù)信息傳到數(shù)據(jù)中心服務(wù)器。電機(jī)數(shù)據(jù)采集設(shè)備(編碼器)由采樣電路、霍爾傳感器及無線傳輸模塊等組成，采集的數(shù)據(jù)量包括轉(zhuǎn)角、轉(zhuǎn)速和電流，數(shù)據(jù)采集流程如圖6所示。

圖6 數(shù)據(jù)采集流程 Fig. 6 Data acquisition process

主要針對(duì)實(shí)際運(yùn)行過程中地鐵門可能發(fā)生的各種常見亞健康進(jìn)行分析，通過對(duì)門結(jié)構(gòu)進(jìn)行微調(diào)整來模擬這些常見的亞健康狀態(tài)，本實(shí)驗(yàn)包括的亞健康類型主要有V型異常、電機(jī)組件松動(dòng)、對(duì)中尺寸變化小、對(duì)中尺寸變化大、上滑道外移、下?lián)蹁N橫向干涉、下?lián)蹁N縱向干涉和壓輪過壓這8種。由于每次的實(shí)驗(yàn)過程中地鐵門的調(diào)整都會(huì)對(duì)門的正常狀態(tài)造成影響，所以每一組亞健康都對(duì)應(yīng)一組正常數(shù)據(jù)。

在實(shí)驗(yàn)中，選取8種亞健康狀態(tài)下的電機(jī)數(shù)據(jù)，每種亞健康狀態(tài)選取約40組數(shù)據(jù)(每組數(shù)據(jù)又分別包含開門數(shù)據(jù)和關(guān)門數(shù)據(jù))，每組正常數(shù)據(jù)也約40組，分別與亞健康數(shù)據(jù)一一對(duì)應(yīng)。圖7為其中的一種亞健康狀態(tài)(對(duì)中尺寸變化小)以及其對(duì)應(yīng)的正常狀態(tài)曲線。從圖7中可以看出，亞健康曲線與正常曲線相似程度比較高，其中轉(zhuǎn)角的正常曲線和亞健康曲線基本重合；轉(zhuǎn)速曲線和電流曲線在勻速段基本重合，在啟動(dòng)段和減速段差異較為明顯。其他各組亞健康情況基本類似，所以選取了一組亞健康進(jìn)行說明。

圖7 車門電機(jī)數(shù)據(jù) Fig. 7 Data of door motor

3.2 距離表示的特征集參數(shù)分析

利用多尺度滑動(dòng)窗口的特征提取算法對(duì)8種亞健康以及對(duì)應(yīng)的正常數(shù)據(jù)進(jìn)行分析，每組數(shù)據(jù)分別可以獲得600多個(gè)開門特征及關(guān)門特征。最終獲得的整體的特征已經(jīng)達(dá)到1 200個(gè)之多，構(gòu)成的特征維數(shù)很高，各組特征之間的相關(guān)性較大，且存在大量冗長信息(主要存在于開關(guān)門過程中的均速段)。直接將這些數(shù)據(jù)放入分類器進(jìn)行模式識(shí)別，不僅給分類的過程造成較大的負(fù)擔(dān)，同時(shí)還影響分類的準(zhǔn)確率。主成分分析(PCA)[14]通過映射的方法將特征變換為維數(shù)較少的新特征，在保留主要特征的同時(shí)極大地降低特征的維數(shù)。

針對(duì)開關(guān)門整體特征參數(shù)，通過求解協(xié)方差矩陣的特征值和對(duì)應(yīng)的特征向量，確定各主要成分。圖8列出了前10個(gè)主成分的貢獻(xiàn)率隨主成分變化趨勢圖。

由圖8分析得到，從第5個(gè)主成分開始，貢獻(xiàn)率的變化趨勢已趨于平穩(wěn)并逐漸接近于0。累計(jì)經(jīng)過主成分變換后各特征值的貢獻(xiàn)率，前4個(gè)特征值累計(jì)貢獻(xiàn)率達(dá)到73%，相對(duì)的前20個(gè)累計(jì)貢獻(xiàn)率為90%。由此可見，前4個(gè)主成分可以很好地表示原本數(shù)據(jù)的大部分特征。為了進(jìn)一步反映各主成分對(duì)車門亞健康狀態(tài)的敏感程度，圖9給出了前4個(gè)主成分在不同的亞健康狀態(tài)下的分布。由圖9可知，第一個(gè)特征擁有著最高的貢獻(xiàn)率，能準(zhǔn)確地區(qū)分對(duì)中尺寸變化大、對(duì)中尺寸變化小、上滑道外移和正常這4個(gè)狀態(tài)，對(duì)其他幾種狀態(tài)存在著混疊現(xiàn)象；其他3個(gè)特征僅對(duì)部分的亞健康狀態(tài)有著很好的區(qū)分度，對(duì)其余狀態(tài)存在著明顯的混疊以及波動(dòng)較大。結(jié)合這些特征的分布情況，可以發(fā)現(xiàn)區(qū)分度最好的亞健康狀態(tài)為對(duì)中尺寸變化小、對(duì)中尺寸變化大、壓輪過壓和正常狀態(tài)，其次為上滑道外移、V型異常和下?lián)蹁N縱向干涉，而電機(jī)組松動(dòng)和下?lián)蹁N橫向干涉的區(qū)分度較差。綜上所述，將電機(jī)組松動(dòng)和下?lián)蹁N橫向干涉歸為Ⅱ類亞健康，其他6種歸為Ⅰ類亞健康；在分層識(shí)別算法，首先對(duì)6種Ⅰ類亞健康進(jìn)行區(qū)分，接著結(jié)合基礎(chǔ)特征，對(duì)正常數(shù)據(jù)和剩下的2種Ⅱ類亞健康狀態(tài)作進(jìn)一步識(shí)別。

圖8 貢獻(xiàn)率隨特征變化趨勢 Fig. 8 Trend of contribution rate with principal components changing

圖9 前4個(gè)主成分在各亞健康狀態(tài)下的分布 Fig. 9 Distribution of first four principal components in different sub-health states

3.3 亞健康狀態(tài)的識(shí)別

3.3.1 基于距離表示特征的亞健康狀態(tài)識(shí)別

為了進(jìn)一步驗(yàn)證距離表示特征集的有效性，采用幾個(gè)常用分類器對(duì)其進(jìn)行分類。選取3.1節(jié)中的8種正常數(shù)據(jù)和亞健康數(shù)據(jù)，其中一半用作訓(xùn)練集，另一半用作測試集，得到總的訓(xùn)練集數(shù)據(jù)330個(gè)，測試集數(shù)據(jù)326個(gè)，實(shí)驗(yàn)分為3次，分別依據(jù)車門開門特征、關(guān)門特征以及整體特征進(jìn)行識(shí)別。實(shí)驗(yàn)過程中選擇降維后的前20個(gè)主成分進(jìn)行訓(xùn)練識(shí)別，分類器分別為1NN(k-Nearest Neighbor，其中k=1)[15]、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)[2]和支持向量機(jī)(Support Vector Machine, SVM)[12]。其中：SVM選擇高斯核，懲罰系數(shù)C為10；ANN使用多層感知器拓?fù)浣Y(jié)構(gòu)，節(jié)點(diǎn)輸出函數(shù)采用Sigmoid函數(shù)。

表2中的識(shí)別率為測試集正確識(shí)別的個(gè)數(shù)占測試集總個(gè)數(shù)的比例，基于距離的特征集通過對(duì)電機(jī)數(shù)據(jù)的字符化處理和序列中極值點(diǎn)的挖掘，其識(shí)別的準(zhǔn)確率要高于傳統(tǒng)特征集。從各特征的識(shí)別準(zhǔn)確率來看，開關(guān)門整體特征要比單個(gè)特征擁有更好的識(shí)別結(jié)果。各分類器識(shí)別的準(zhǔn)確率相差不大，SVM識(shí)別的準(zhǔn)確率比其他分類器略高。由于Ⅱ類亞健康與正常數(shù)據(jù)比較接近，錯(cuò)誤識(shí)別主要發(fā)生在某些正常數(shù)據(jù)被錯(cuò)分成Ⅱ類亞健康。

表2 不同特征的識(shí)別結(jié)果 %Tab. 2 Results of classification based on different feature %

3.3.2 基于融合特征的分層亞健康狀態(tài)識(shí)別

采用分層亞健康識(shí)別模型對(duì)同樣的數(shù)據(jù)進(jìn)行識(shí)別。在第1層訓(xùn)練中，將Ⅱ類亞健康和正常數(shù)據(jù)看作一類，依據(jù)基于距離特征集，對(duì)其他6種Ⅰ類亞健康進(jìn)行識(shí)別；在第2層的識(shí)別中，融合基于距離的特征集和基礎(chǔ)特征集，對(duì)正常數(shù)據(jù)和Ⅱ類亞健康進(jìn)一步判斷。各層分類器均采用SVM作為分類器，核函數(shù)使用高斯核，第1層中懲罰系數(shù)C為10，第2層中懲罰系數(shù)C為1。測試集數(shù)據(jù)每層的識(shí)別結(jié)果如表3所示。

表3 分層亞健康狀態(tài)識(shí)別結(jié)果 %Tab. 3 Results of hierarchical sub-health state identification %

表3中第1層的識(shí)別率表示第1層中測試集正確識(shí)別的個(gè)數(shù)占測試集總個(gè)數(shù)的比例；第2層對(duì)Ⅱ類亞健康進(jìn)一步判斷，識(shí)別率表示兩層中正確識(shí)別的個(gè)數(shù)之和占測試集總數(shù)的比例。分析表3可知，與3.3.1節(jié)的識(shí)別結(jié)果相比，分層亞健康識(shí)別模型的開門、關(guān)門和整體特征的識(shí)別率都有所提高。在第1層中，將區(qū)分度較差的亞健康數(shù)據(jù)和正常數(shù)據(jù)歸為一類，先區(qū)分較為明顯的Ⅰ類亞健康，故三種特征的識(shí)別率都比較高，其中整體特征在這層的識(shí)別結(jié)果全部正確；第2層中，亞健康差別較小，錯(cuò)誤明顯增多，識(shí)別率下降較大。最終本文方法的識(shí)別率可達(dá)到99%，測試樣本中僅有3個(gè)下檔銷橫向干涉被識(shí)別錯(cuò)誤。由此可見，采用分層識(shí)別的模型能夠?qū)喗】禂?shù)據(jù)做到更加準(zhǔn)確的區(qū)分。

4 結(jié)語

本文提出了一種基于時(shí)間序列數(shù)據(jù)挖掘的軌道車輛門亞健康狀態(tài)識(shí)別的方法，通過對(duì)實(shí)測地鐵門電機(jī)數(shù)據(jù)的分析得到以下結(jié)論：

1)采用多尺度滑動(dòng)窗口的方法并結(jié)合ESAX字符化算法對(duì)地鐵門電機(jī)數(shù)據(jù)進(jìn)行字符化，有效地捕捉了時(shí)間序列中的極值點(diǎn)信息，同時(shí)能夠多層次地挖掘出車門運(yùn)行過程中不同階段的信息。

2)將亞健康數(shù)據(jù)與模板曲線之間的距離作為特征集，減小實(shí)驗(yàn)中車門調(diào)整所帶來的誤差；同時(shí)使用主成分分析對(duì)特征降維并分析了前4種主成分在不同的亞健康狀態(tài)下的分布，將實(shí)測的8種車門亞健康劃分為Ⅰ類和Ⅱ類。

3)通過車門8種亞健康狀態(tài)結(jié)果分析，表明分層亞健康識(shí)別模型比單個(gè)特征集有更好的分類效果，能夠準(zhǔn)確識(shí)別各種亞健康狀態(tài)。

由于本文算法字符化后的字符串的長度較長，存在著效率較低的缺點(diǎn)，接下來的工作就是進(jìn)一步提高算法實(shí)現(xiàn)的效率，以及對(duì)更多類型的亞健康狀態(tài)進(jìn)行分析。

參考文獻(xiàn)(References)

[1] REN J B, LONG J, QIN Y, et al. Fault criticality evaluation of metro door based on WLSM and FWGM [C]// EITRT 2013: Proceedings of the 2013 International Conference on Electrical and Information Technologies for Rail Transportation, LNEE 288. Berlin: Springer, 2014, Ⅱ: 293-300.

[2] 朱興統(tǒng),熊建斌.基于PCA和BP神經(jīng)網(wǎng)絡(luò)的故障診斷仿真系統(tǒng)[J].自動(dòng)化與儀器儀表,2015(12):47-48. (ZHU X T, XIONG J B. The fault diagnosis system based on PCA and BP neural network [J]. Automation & Instrumentation, 2015(12): 47-48.)

[3] 李海林,郭崇慧,楊麗彬. 基于時(shí)間序列數(shù)據(jù)挖掘的故障檢測方法[J].數(shù)據(jù)采集與處理,2016,31(4):782-790. (LI H L, GUO C H, YANG L B. Fault detection algorithm based on time series data mining [J]. Journal of Data Acquisition and Processing, 2016, 31(4): 782-790.)

[4] 胡為,高雷,傅莉.基于最優(yōu)階次HMM的電機(jī)故障診斷方法研究[J].儀器儀表學(xué)報(bào),2013,34(3):524-530. (HU W, GAO L, FU L. Research on motor fault detection method based on optimal order hidden Markov model [J]. Chinese Journal of Scientific Instrument, 2013, 34(3): 524-530.)

[5] GRUBB H J, WALDEN A T. Characterizing seismic time series using the discrete wavelet transform [J]. Geophysical Prospecting, 2010, 45(2): 183-205.

[6] 林意,王智博.基于一階濾波的時(shí)間序列分段線性表示方法[J].計(jì)算機(jī)工程,2016,42(9):151-157.(LIN Y, WANG Z B. Time series piecewise linear representation method based on first-order filtering [J]. Computer Engineering, 2016, 42(9): 151-157.)

[7] LIN J, KHADE R, LI Y. Rotation-invariant similarity in time series using bag-of-patterns representation [J]. Journal of Intelligent Information Systems, 2012, 39(2): 287-315.

[8] LIN J, KEOGH E, WEI L, et al. Experiencing SAX: a novel symbolic representation of time series [J]. Data Mining and Knowledge Discovery, 2007, 15(2): 107-144.

[9] LKHAGVAK B, SUZUKI Y, KAWAGOE K. Extended SAX: extension of symbolic aggregate approximation for financial time series data representation [EB/OL]. [2017- 03- 16]. http://www.ieice.org/iss/de/DEWS/DEWS2006/doc/4A-i8.pdf.

[10] 田再克,李洪儒,孫健,等.基于改進(jìn)MF-DFA和SSM-FCM的液壓泵退化狀態(tài)識(shí)別方法[J].儀器儀表學(xué)報(bào),2016,37(8):1851-1860. (TIAN Z K, LI H R, SUN J, et al. Degradation state identification method of hydraulic pump based on improved MF-DFA and SSM-FCM [J]. Chinese Journal of Scientific Instrument, 2016, 37(8): 1851-1860.)

[11] LAI C-P, CHUNG P-C, TSENG V S. A novel two-level clustering method for time series data analysis [J]. Expert Systems with Applications, 2010, 37(9): 6319-6326.

[12] 陳立江,毛峽,MITSURU I,等.基于Fisher準(zhǔn)則與SVM的分層語音情感識(shí)別[J].模式識(shí)別與人工智能,2012,25(4):604-609. (CHEN L J, MAO X, MITSURU I, et al. Multi-level speech emotion recognition based on Fisher criterion and SVM [J]. Pattern Recognition and Artificial Intelligence, 2012, 25(4): 604-609.)

[13] SIIRTOLA P, KOSKIMAKI H, HUIKARI V, et al. Improving the classification accuracy of streaming data using SAX similarity features [J]. Pattern Recognition Letters, 2011, 32(13): 1659-1668.

[14] 律方成,金虎,王子建,等.基于主成分分析和多分類相關(guān)向量機(jī)的GIS局部放電模式識(shí)別[J].電工技術(shù)學(xué)報(bào),2015,30(6):225-231. (LYU F C, JIN H, WANG Z J, et al. GIS partial discharge pattern recognition based on principal component analysis and milticlass relevance vector machine [J]. Transactions of China Electrotechnical Society, 2015, 30(6): 225-231.)

[15] 陳法法,湯寶平,蘇祖強(qiáng),等.基于等距映射與加權(quán)KNN的旋轉(zhuǎn)機(jī)械故障診斷[J].儀器儀表學(xué)報(bào),2013,34(1):215-220. (CHEN F F, TANG B P, SU Z Q, et al. Rotation machinery fault diagnosis based on isometric mapping and weightedKNN [J]. Chinese Journal of Scientific Instrument, 2013, 34(1): 215-220.)

XUEYu, born in 1992, M. S. candidate. His research interests include data mining, pattern recognition.

MEIXue, born in 1975, Ph. D., associate professor. Her research interests include image processing, pattern recognition.

ZHIYouran, born in 1984, Ph. D., associate professor. His research interests include fire science, pattern recognition.

XUZhixin, born in 1970, Ph. D. His research interests include fault diagnosis, data mining.

SHIXiang, born in 1956, M. S. His research interests include fault diagnosis, data mining.