付 強(qiáng),袁 磊
(北京交通大學(xué) 軌道交通運(yùn)行控制系統(tǒng)國(guó)家工程研究中心,北京 100044)
計(jì)算機(jī)與通信信號(hào)
基于聚類(lèi)分析及SVM的DMI機(jī)車(chē)信號(hào)自動(dòng)識(shí)別
付 強(qiáng),袁 磊
(北京交通大學(xué) 軌道交通運(yùn)行控制系統(tǒng)國(guó)家工程研究中心,北京 100044)
本文針對(duì)CTCS-3級(jí)列車(chē)控制系統(tǒng)車(chē)載設(shè)備DMI機(jī)車(chē)信號(hào)基本特征及識(shí)別的特點(diǎn),提出一種基于綜合聚類(lèi)分析和SVM算法的DMI機(jī)車(chē)信號(hào)自動(dòng)識(shí)別方法。建立DMI機(jī)車(chē)信號(hào)模型,通過(guò)圖像二值化等處理技術(shù)提取其目標(biāo)特征,通過(guò)聚類(lèi)分析對(duì)機(jī)車(chē)信號(hào)圖像進(jìn)行初步分類(lèi),利用SVM分類(lèi)器對(duì)初步分類(lèi)后的各種不同機(jī)車(chē)信號(hào)進(jìn)行目標(biāo)識(shí)別,為進(jìn)一步實(shí)現(xiàn)DMI機(jī)車(chē)信號(hào)的自動(dòng)數(shù)據(jù)采集提供了方法支持。試驗(yàn)結(jié)果表明,該方法具有良好的性能,機(jī)車(chē)信號(hào)圖像的平均識(shí)別率達(dá)到了95%左右。
機(jī)車(chē)信號(hào);數(shù)據(jù)挖掘;特征提取;聚類(lèi)分析;SVM算法
在CTCS-2級(jí)或CTCS-3級(jí)列車(chē)控制系統(tǒng)中,DMI是一種重要的列控車(chē)載設(shè)備,用于司機(jī)與ATP車(chē)載設(shè)備之間的人機(jī)交互。DMI顯示屏上顯示的機(jī)車(chē)信號(hào)作為CTCS-2級(jí)行車(chē)的重要依據(jù),提示司機(jī)前方閉塞分區(qū)空閑數(shù)量或進(jìn)路情況。DMI機(jī)車(chē)信號(hào)顯示真實(shí)反應(yīng)地面列車(chē)控制中心設(shè)備與軌道電路發(fā)碼情況,為保證行車(chē)安全,三者信號(hào)必須完全一致。由于DMI設(shè)備無(wú)記錄功能,因此,通過(guò)圖像識(shí)別技術(shù)實(shí)時(shí)識(shí)別DMI機(jī)車(chē)信號(hào),將對(duì)信號(hào)數(shù)據(jù)自動(dòng)分析起到數(shù)據(jù)采集的作用。
在圖像識(shí)別技術(shù)中,一般通過(guò)對(duì)目標(biāo)圖像中具有獨(dú)特性質(zhì)的區(qū)域進(jìn)行特征提取,對(duì)此特征運(yùn)用神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘等方法建立模型后,就可以對(duì)此類(lèi)目標(biāo)圖像進(jìn)行自動(dòng)識(shí)別。數(shù)字圖像處理技術(shù)運(yùn)行圖像形態(tài)學(xué)方法對(duì)圖像進(jìn)行腐蝕膨脹等變換,提取圖像特征,可以用于圖像分割等領(lǐng)域的研究。同時(shí),顏色是圖像內(nèi)容的一個(gè)基本要素,蘊(yùn)含著圖像的豐富信息,但由于其分析的復(fù)雜性,目前運(yùn)用顏色分析進(jìn)行圖像識(shí)別仍處于探索階段。本文綜合利用顏色特征及其他輔助特征分析實(shí)現(xiàn)機(jī)車(chē)信號(hào)的自動(dòng)識(shí)別。
高速鐵路線(xiàn)路上機(jī)車(chē)信號(hào)有4種基本顏色:紅、黃、綠、白,所用機(jī)車(chē)信號(hào)主要有L5、L4、L3、L2、L、LU、U、H、U2、U2S、UU、UUS、HU、HB、 無(wú)碼。本文采用靜態(tài)圖像識(shí)別方法,排除需動(dòng)態(tài)圖像識(shí)別的U2S、UUS、HB機(jī)車(chē)信號(hào)。因此,需識(shí)別的機(jī)車(chē)信號(hào)為L(zhǎng)5、L4、L3、L2、L、LU、U、H、U2、UU、HU、無(wú)碼,靜態(tài)圖像如圖1所示。
圖1 機(jī)車(chē)信號(hào)目標(biāo)圖像
目前對(duì)機(jī)車(chē)信號(hào)的識(shí)別關(guān)注點(diǎn)主要在于對(duì)地面機(jī)車(chē)信號(hào)的識(shí)別,以防止司機(jī)未看清信號(hào)導(dǎo)致調(diào)車(chē)冒進(jìn)等行車(chē)事故的發(fā)生。文獻(xiàn)[1]研究了圖像識(shí)別技術(shù)在調(diào)車(chē)安全中的運(yùn)用,提出了運(yùn)用圖像分割技術(shù)實(shí)現(xiàn)監(jiān)控并識(shí)別地面信號(hào)以防止調(diào)車(chē)冒進(jìn)的方法;文獻(xiàn)[2]中對(duì)純彩色信號(hào)燈如L、U、UU、LU、UUS等進(jìn)行了動(dòng)態(tài)識(shí)別,并設(shè)計(jì)了相應(yīng)的硬件實(shí)現(xiàn)模塊。但上述文獻(xiàn)均沒(méi)有涉及到L5、L4、U2等帶有數(shù)字的CTCS-3級(jí)DMI機(jī)車(chē)信號(hào)的模式識(shí)別問(wèn)題,本文將利用數(shù)據(jù)挖掘中的相關(guān)技術(shù)對(duì)上述目標(biāo)圖像進(jìn)行處理。
待識(shí)別的機(jī)車(chē)信號(hào)含有顏色特征和數(shù)字特征,據(jù)此將目標(biāo)圖像分為兩大類(lèi):(1)I型:兩種顏色混合的機(jī)車(chē)信號(hào),如LU、HU。(2)II型:?jiǎn)畏N顏色的機(jī)車(chē)信號(hào),如L5、L、U、UU等,可進(jìn)一步劃分為L(zhǎng)系列、U系列、H碼系列、無(wú)碼系列。
劃分的依據(jù)是混合顏色的機(jī)車(chē)信號(hào)可以在聚類(lèi)分析時(shí)明顯地聚類(lèi)為兩種不同的類(lèi)型,所以可以做初步識(shí)別;剩余的機(jī)車(chē)類(lèi)型為單種顏色,聚類(lèi)分析后雖可以分辨出顏色,但因?yàn)榭赡芎衅渌麛?shù)字特征,因此無(wú)法精確識(shí)別,需要用其他方法來(lái)做進(jìn)一步的分析。
建模時(shí),將目標(biāo)數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用來(lái)訓(xùn)練模型,測(cè)試集用來(lái)驗(yàn)證模型的準(zhǔn)確性。對(duì)訓(xùn)練集中的每一類(lèi)型樣本,根據(jù)顏色特征進(jìn)行聚類(lèi)分析,計(jì)算其均值與方差,然后在訓(xùn)練集上進(jìn)行SVM多分類(lèi)器的設(shè)計(jì);對(duì)于測(cè)試集,通過(guò)聚類(lèi)分析找出每個(gè)樣本可能對(duì)應(yīng)的圖像類(lèi)型(I型或II型),對(duì)II型數(shù)據(jù)根據(jù)SVM多分類(lèi)器進(jìn)行進(jìn)一步的分類(lèi),得到其精確識(shí)別結(jié)果。整個(gè)分析過(guò)程如圖2所示。
圖2 機(jī)車(chē)信號(hào)識(shí)別過(guò)程
2.1 圖像預(yù)處理
圖像由于受到環(huán)境及采集手段的影響而夾雜一定的噪聲,噪聲會(huì)對(duì)識(shí)別結(jié)果造成影響。因此,在識(shí)別圖像前,需要對(duì)圖像進(jìn)行預(yù)處理。常用的去噪方法包括圖像平滑、濾波等。根據(jù)噪聲特性,所選用的去噪方法也有所不同。本文采用比較常用的小波分析去除圖像中的高頻噪聲,提取圖像經(jīng)過(guò)二級(jí)小波分解后的低頻分量,既可以濾掉高頻噪聲,又減少了待處理的數(shù)據(jù)量。
如圖3所示,提取彩色圖像二維離散小波分解后的LL低頻分量,其保留了原圖像的低頻信息,且圖像大小縮小為原來(lái)的四分之一,減少了數(shù)據(jù)處理量,可用作進(jìn)一步的模式識(shí)別。
圖3 二維離散小波分析變換
2.2 聚類(lèi)分析
聚類(lèi)分析是將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程,目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類(lèi)。本文采用k-means方法對(duì)圖像的顏色特征進(jìn)行聚類(lèi)提取。
k-means方法首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類(lèi)中心的相似度(距離),分別將它們分配給與其最相似的(聚類(lèi)中心所代表的)聚類(lèi);再計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心(該聚類(lèi)中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。k個(gè)聚類(lèi)具有以下特點(diǎn):各聚類(lèi)本身盡可能的緊湊,而各聚類(lèi)之間盡可能的分開(kāi)。
對(duì)于本文要識(shí)別的機(jī)車(chē)信號(hào),將其隨機(jī)劃分為訓(xùn)練集和測(cè)試集。首先根據(jù)顏色特征對(duì)訓(xùn)練集進(jìn)行k-means分析,針對(duì)I型和II型分別進(jìn)行2-means和1-means聚類(lèi)分析,計(jì)算聚類(lèi)后每一類(lèi)的均值和方差。在判斷測(cè)試集圖像類(lèi)別時(shí),可根據(jù)以下步驟做初步分類(lèi)。
(1)對(duì)測(cè)試集圖像均進(jìn)行2-means分類(lèi),分為C1類(lèi)和C2類(lèi)。
(2)計(jì)算C1類(lèi)和C2類(lèi)元素個(gè)數(shù)比Ratio。
(3)根據(jù)Ratio初步確定圖像屬于I型或II型。
(4)對(duì)I型圖像根據(jù)訓(xùn)練集I型聚類(lèi)后的均值和方差計(jì)算距離,確定屬于I型中LU或HU碼。
(5)對(duì)II型圖像根據(jù)訓(xùn)練集II型聚類(lèi)后的均值和方差計(jì)算距離,確定屬于II型中L碼系列、U碼系列、無(wú)碼系列或H碼系列,并根據(jù)SVM方法進(jìn)行進(jìn)一步識(shí)別。
對(duì)于II型圖像樣本,其與各II型聚類(lèi)的距離定義如下:
其中x為測(cè)試集中某個(gè)圖像,C為任一II型聚類(lèi),μ為C的均值, ∑為C的協(xié)方差。
對(duì)于I型圖像樣本,其與各I型聚類(lèi)的距離定義如下:
其中x為測(cè)試集中某個(gè)圖像, x1為x中類(lèi)別1的均值, x2為類(lèi)別2 的均值;C為任一I型聚類(lèi),μ1為C中類(lèi)別1的均值,∑1為類(lèi)別1的協(xié)方差,μ2為類(lèi)別2的均值, ∑2為類(lèi)別2的協(xié)方差。
x的判別類(lèi)型取與之距離值最小的相應(yīng)聚類(lèi)類(lèi)型。
2.3 SVM模式識(shí)別
支持向量機(jī)是Cor-tes和Vapnik于1995年首先提出的[3],它在解決小樣本、非線(xiàn)性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到其他機(jī)器學(xué)習(xí)問(wèn)題中。
SVM可用于分類(lèi)和回歸問(wèn)題,分類(lèi)問(wèn)題是一種有監(jiān)督的學(xué)習(xí)過(guò)程,通常將樣本分為訓(xùn)練集和測(cè)試集進(jìn)行建模與驗(yàn)證?;貧w問(wèn)題是一種無(wú)監(jiān)督的學(xué)習(xí)過(guò)程。二分類(lèi)SVM分類(lèi)器的基本設(shè)計(jì)思路是通過(guò)尋找最優(yōu)分類(lèi)超平面H,將兩類(lèi)數(shù)據(jù)正確分開(kāi),且使分類(lèi)間隔最大。對(duì)于非線(xiàn)性不可分問(wèn)題,可以通過(guò)非線(xiàn)性變換將其轉(zhuǎn)換為線(xiàn)性可分問(wèn)題。對(duì)于多分類(lèi)問(wèn)題,可以將其分解為二分類(lèi)問(wèn)題進(jìn)行處理。本文處理的是一個(gè)多分類(lèi)的問(wèn)題。
對(duì)于上一節(jié)經(jīng)過(guò)聚類(lèi)分析分類(lèi)后II型測(cè)試集圖像的進(jìn)一步識(shí)別,可以看做一個(gè)數(shù)字模式識(shí)別的問(wèn)題。運(yùn)用Hopfield神經(jīng)網(wǎng)絡(luò)或SVM均可以實(shí)現(xiàn)對(duì)含有數(shù)字圖像的識(shí)別[4~5]。本文采用SVM實(shí)現(xiàn)含數(shù)字機(jī)車(chē)信號(hào)的識(shí)別,首先將彩色圖像轉(zhuǎn)換為灰度圖像,并提取其中的數(shù)字特征。以L(fǎng)4機(jī)車(chē)信號(hào)為例,其彩色圖像及經(jīng)過(guò)灰度變換后的二值圖像如圖4所示。
圖4 L4碼彩色圖像及灰度變換后的圖像
可以看出,經(jīng)過(guò)二值化處理的L4機(jī)車(chē)信號(hào)圖像,其數(shù)字部分作為主體特征被提取出來(lái),綠色部分被濾掉(變?yōu)楹谏?/p>
通過(guò)SVM方法對(duì)訓(xùn)練集中提取的數(shù)字特征進(jìn)行建模,生成多分類(lèi)器,對(duì)II型測(cè)試集圖像進(jìn)行進(jìn)一步精確的預(yù)測(cè)分類(lèi)。
模型訓(xùn)練完成后,進(jìn)行預(yù)測(cè)。根據(jù)經(jīng)驗(yàn)值,對(duì)測(cè)試集進(jìn)行2-means聚類(lèi)分析時(shí),如果分成的兩類(lèi)元素?cái)?shù)量大致相等,可認(rèn)為樣本屬于I類(lèi)型,否則屬于II類(lèi)型,需根據(jù)SVM分類(lèi)器模型進(jìn)一步預(yù)測(cè)。
綜合聚類(lèi)分析和SVM分類(lèi),部分機(jī)車(chē)信號(hào)識(shí)別結(jié)果如表1所示。
表1 部分機(jī)車(chē)信號(hào)識(shí)別結(jié)果
可以看出,綜合聚類(lèi)分析和SVM分類(lèi)器進(jìn)行DMI機(jī)車(chē)信號(hào)的自動(dòng)識(shí)別,識(shí)別準(zhǔn)確率達(dá)到了較高水平,表明此方法是可行的。
本文提出了一種綜合運(yùn)用數(shù)據(jù)挖掘中的聚類(lèi)分析與SVM分類(lèi)器進(jìn)行DMI機(jī)車(chē)信號(hào)自動(dòng)識(shí)別的方法,可以識(shí)別含有數(shù)字的復(fù)雜機(jī)車(chē)信號(hào)靜態(tài)圖像。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,該方法具有較高的識(shí)別精度。本文只針對(duì)靜態(tài)圖像的識(shí)別,不能處理實(shí)時(shí)動(dòng)態(tài)圖像,可考慮進(jìn)一步研究動(dòng)態(tài)圖像識(shí)別,以實(shí)時(shí)得到DMI機(jī)車(chē)信號(hào)的識(shí)別結(jié)果。
[1]何 港.圖像識(shí)別技術(shù)在調(diào)車(chē)安全中的應(yīng)用[J].鐵道機(jī)車(chē)與動(dòng)車(chē),2013(7).
[2]趙志帥.基于彩色圖像處理的鐵路信號(hào)燈識(shí)別及測(cè)距技術(shù)研究[D].武漢:武漢理工大學(xué),2010.
[3]Cortes C,Vpnik V. Support vector networks [J].Machine Learning ,1995,20(3) .
[4]高 錦.基于SVM的圖像分類(lèi)[D].西安:西北大學(xué),2010.
[5]史 峰,王小川,郁 磊,李 洋.Matlab神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
責(zé)任編輯 陳 蓉
DMI cab signal automatic identif i cation based on Cluster Analysis and SVM Algorithm
FU Qiang, YUAN Lei
( National Engineering Research Center of Rail Transportation Operation and Control System, Beijing Jiaotong University, Beijing 100044, China )
In this paper, according to the characteristics of basic feature and identif i cation about onboard equipment DMI cab signals of CTCS-3 level Train Control System, a novel method based on Cluster Analysis and SVM Algorithm was proposed for DMI cab signal automatic identif i cation. The paper established a model of cab signal, extracted the target features by binary image processing techniques, classif i ed cab signal image preliminary cluster analysis made target identif i cation for various cab signals by SVM classif i er, provided a method supporting for further automatic data collection of DMI cab signals. Results showed that the novel method was with good performance. The average image recognition rate was reached about 95%.
cab signal; data mining; feature extraction; Cluster Analysis; SVM Alogrithm
U284.4∶TP39
A
1005-8451(2015)08-0046-04
2014-12-30
付 強(qiáng),研究實(shí)習(xí)員;袁 磊,講師。