蔡光偉 李揚(yáng) 方志 蔣遂平
摘 要:針對(duì)機(jī)械設(shè)備工況傳感數(shù)據(jù)維度高、數(shù)據(jù)量大的特點(diǎn),提出了一種基于極限學(xué)習(xí)機(jī)的故障診斷方法。首先,將機(jī)械設(shè)備傳感器收集到的數(shù)據(jù)進(jìn)行規(guī)范化處理,并采用過(guò)采樣方法解決樣本數(shù)據(jù)類(lèi)別不平衡的問(wèn)題;其次,通過(guò)預(yù)處理后的訓(xùn)練數(shù)據(jù)構(gòu)建極限學(xué)習(xí)機(jī)模型,采用增量式方法確定隱層節(jié)點(diǎn)最佳數(shù)目。在氣壓系統(tǒng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與其他機(jī)器學(xué)習(xí)方法相比,基于極限學(xué)習(xí)機(jī)的機(jī)械設(shè)備故障診斷方法在訓(xùn)練速率和故障查全率上更具優(yōu)越性。
關(guān)鍵詞:極限學(xué)習(xí)機(jī);過(guò)采樣;隱層節(jié)點(diǎn);故障診斷;神經(jīng)網(wǎng)絡(luò);反向傳播
中圖分類(lèi)號(hào):TP39文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-1302(2020)04-00-03
0 引 言
隨著計(jì)算機(jī)技術(shù)和物聯(lián)網(wǎng)技術(shù)的快速興起與蓬勃發(fā)展,各類(lèi)傳感器已大量嵌入到機(jī)械設(shè)備中,用以實(shí)時(shí)采集設(shè)備運(yùn)行過(guò)程中的工況數(shù)據(jù)。如何有效利用傳感器采集到的工況數(shù)據(jù)進(jìn)行故障診斷,實(shí)現(xiàn)設(shè)備故障的快速定位與檢測(cè),消除設(shè)備運(yùn)行的安全隱患,已成為機(jī)械維修保障領(lǐng)域的發(fā)展趨勢(shì)。
本文提出了一種基于極限學(xué)習(xí)機(jī)的故障診斷模型。對(duì)機(jī)械設(shè)備工況數(shù)據(jù)進(jìn)行預(yù)處理后,采用增量式方法確定極限學(xué)習(xí)機(jī)隱層節(jié)點(diǎn)最佳節(jié)點(diǎn)數(shù)目,構(gòu)建極限學(xué)習(xí)機(jī)最終模型。在氣壓系統(tǒng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本模型具有較大的優(yōu)
越性。
1 極限學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是由新加坡南洋理工大學(xué)的Huang等人提出的一種基于單隱層前向神經(jīng)網(wǎng)絡(luò)(Single-Hidden Layer Feedforward Network,SLFN)構(gòu)建的機(jī)器學(xué)習(xí)算法,適用于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)[1]。
極限學(xué)習(xí)機(jī)具有如下特點(diǎn):
(1)只需人工設(shè)置隱含層節(jié)點(diǎn)數(shù)目,訓(xùn)練算法執(zhí)行過(guò)程中無(wú)需人工調(diào)整參數(shù);
(2)避免了傳統(tǒng)訓(xùn)練算法反復(fù)迭代的過(guò)程,可以快速收斂,極大地減少了訓(xùn)練時(shí)間;
(3)所得解是唯一最優(yōu)解,保證網(wǎng)絡(luò)的泛化性能[2-4]。
SLFN的學(xué)習(xí)模式可以描述為對(duì)于M個(gè)不同的樣本
(xi, ti),xi=(xi1, xi2, ..., xiN)∈RN,g (x)為激活函數(shù)。具有個(gè)隱含層節(jié)點(diǎn)的SLFN前向傳播過(guò)程可以表示為:
(1)
式中:wi=[wi1, wi2, ..., wiN]T為連接第i個(gè)隱含節(jié)點(diǎn)和輸入層各節(jié)點(diǎn)的權(quán)值向量;βi=[βi1, βi2, ..., βim]T為連接第i個(gè)隱含節(jié)點(diǎn)和輸出層各節(jié)點(diǎn)的權(quán)值向量;bi為第i個(gè)隱含層節(jié)點(diǎn)的偏置。
通過(guò)反向傳播(Back Propagation,BP)多次迭代的SLFN可以有效擬合M個(gè)樣本:,即存在βi,wi,bi使得:
(2)
個(gè)等式可以寫(xiě)成:
Hβ=T? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
其中:
(4)
式中,H為神經(jīng)網(wǎng)絡(luò)隱含層的輸出矩陣,H的第i列為神經(jīng)網(wǎng)絡(luò)隱含層的第i個(gè)節(jié)點(diǎn)輸出。
ELM與SLFN在結(jié)構(gòu)上大體相似,由輸人層、隱含層和輸出層構(gòu)成。但不同于SLFN利用傳統(tǒng)的BP算法反復(fù)迭代求得各層的權(quán)值向量與偏置,ELM學(xué)習(xí)算法是對(duì)輸入層權(quán)值w和偏置b進(jìn)行隨機(jī)賦值,然后利用求Moore-Penrose廣義逆矩陣的方法直接求解出隱層節(jié)點(diǎn)到輸出層節(jié)點(diǎn)的
權(quán)值[2]β。
β=H-1T? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)
式中,H-1為H的逆矩陣或者M(jìn)oore-Penrose廣義逆矩陣。
2 技術(shù)方案
2.1 數(shù)據(jù)規(guī)范化
一個(gè)訓(xùn)練數(shù)據(jù)xi有N個(gè)屬性,xi=(xi1, xi2, ..., xiN),則N為xi的維數(shù)。收集訓(xùn)練數(shù)據(jù)時(shí),將數(shù)據(jù)的各屬性用數(shù)值表示。如果數(shù)據(jù)xi的屬性xij數(shù)值缺失,則標(biāo)記為“不可用/na”。
由于訓(xùn)練數(shù)據(jù)來(lái)源于不同的傳感器,數(shù)據(jù)的各屬性值往往具有量綱不同、數(shù)值范圍差異大等特點(diǎn)??梢酝ㄟ^(guò)2次規(guī)范化操作進(jìn)行數(shù)據(jù)預(yù)處理,分別為屬性值的規(guī)范化和單位向量化。
如果屬性的可用數(shù)據(jù)值的平均值和方差分別為μj和σj,則屬性的每個(gè)可用屬性值xij根據(jù)平均值和方差進(jìn)行規(guī)范化,這樣不同屬性的屬性值就可落入相近范圍:
(6)
在規(guī)范化過(guò)程中,如果屬性值xij標(biāo)記為“不可用/na”,則x'ij=0。相當(dāng)于將標(biāo)記為“不可用/na”的缺失值用平均值替代。
由于訓(xùn)練數(shù)據(jù)中可能缺失數(shù)據(jù),導(dǎo)致數(shù)據(jù)之間存在差異,因此還需要進(jìn)行單位向量化處理,進(jìn)一步消除訓(xùn)練數(shù)據(jù)之間的差異。對(duì)每個(gè)訓(xùn)練數(shù)據(jù)x'i=(x'i1, x'i2, ..., x'iN)進(jìn)行單位向量化,得到x''i=(x''i1, x''i2, ..., x''iN):
(7)
2.2 數(shù)據(jù)分布調(diào)整
由于機(jī)械設(shè)備在多數(shù)時(shí)間處于正常工作狀態(tài),因此,傳感器采集到的設(shè)備工況數(shù)據(jù)多為正常狀態(tài)數(shù)據(jù),只有很少的故障狀態(tài)數(shù)據(jù)。為了緩解少數(shù)類(lèi)故障數(shù)據(jù)與多數(shù)類(lèi)正常數(shù)據(jù)之間的不平衡程度,我們對(duì)規(guī)范化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分布調(diào)整??紤]到若采用刪除過(guò)多正常狀態(tài)數(shù)據(jù)的欠采樣方法會(huì)丟失較多信息,所以在數(shù)據(jù)分布調(diào)整中采用過(guò)采樣方式。過(guò)采樣即通過(guò)對(duì)少數(shù)類(lèi)樣本進(jìn)行多次復(fù)制,并將生成的樣本集合添加到少數(shù)類(lèi)中,由此得到與多數(shù)類(lèi)數(shù)量相同的少數(shù)類(lèi)集合。假設(shè)有K個(gè)少數(shù)類(lèi)樣本Xp1, Xp2, ..., XpK,有L個(gè)多數(shù)類(lèi)樣本Xn1, Xn2, ..., XnL,K< ,? pi=1, 2, ..., L? ? ? ? ? ? ? ? ? ? ? ? ?(8) 2.3 極限學(xué)習(xí)機(jī)的實(shí)現(xiàn) 極限學(xué)習(xí)機(jī)采用三層結(jié)構(gòu),包括輸入層、隱含層、輸出層。輸入層節(jié)點(diǎn)數(shù)目與樣本屬性數(shù)目一致,輸出層節(jié)點(diǎn)數(shù)目與故障分類(lèi)數(shù)目一致。我們采用增量法來(lái)確定隱層節(jié)點(diǎn)數(shù)目。的值從1開(kāi)始逐漸增加,步長(zhǎng)為5,利用測(cè)試數(shù)據(jù)獲取隱層節(jié)點(diǎn)數(shù)目為時(shí)ELM的性能;隨后在能取得較好性能值的隱層節(jié)點(diǎn)數(shù)目附近以步長(zhǎng)1確定最佳節(jié)點(diǎn)數(shù)目。 3 實(shí)驗(yàn)結(jié)果分析 3.1 實(shí)驗(yàn)數(shù)據(jù)集 氣壓系統(tǒng)APS(Air Pressure System)數(shù)據(jù)集來(lái)源于瑞典重型Scania卡車(chē)工況傳感器采集的數(shù)據(jù)??ㄜ?chē)的氣壓系統(tǒng)產(chǎn)生剎車(chē)和齒輪變速等各種功能需要的壓縮空氣,對(duì)卡車(chē)的安全行駛具有重要意義。在APS數(shù)據(jù)集中,正例數(shù)據(jù)記錄氣壓系統(tǒng)在故障狀態(tài)下的工況信息,反例記錄正常狀態(tài)下的工況信息。所有數(shù)據(jù)均經(jīng)過(guò)專(zhuān)家人工檢查[5]。 APS數(shù)據(jù)集屬于類(lèi)別不平衡的數(shù)據(jù)集。此外,APS數(shù)據(jù)還具有屬性值差異大、屬性缺失率較高等特點(diǎn)。APS數(shù)據(jù)特性見(jiàn)表1所列。 3.2 評(píng)價(jià)指標(biāo) 混淆矩陣是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中分類(lèi)模型預(yù)測(cè)結(jié)果的情形分析表,以矩陣形式將數(shù)據(jù)的真實(shí)類(lèi)別與預(yù)測(cè)類(lèi)別進(jìn)行統(tǒng)計(jì)。其中矩陣的行表示真實(shí)值,列表示預(yù)測(cè)值,內(nèi)部數(shù)據(jù)表示相應(yīng)類(lèi)別的樣本數(shù)目。二分類(lèi)任務(wù)的混淆矩陣形式見(jiàn)表2所列。 在故障診斷任務(wù)中,由于故障狀態(tài)數(shù)據(jù)的準(zhǔn)確分類(lèi)更為重要,所以表示真實(shí)故障狀態(tài)數(shù)據(jù)預(yù)測(cè)準(zhǔn)確程度的查全率(Recall)是評(píng)價(jià)模型的重要指標(biāo),計(jì)算公式如下: (9) 此外,APS數(shù)據(jù)集定義了不同類(lèi)的誤分代價(jià),并建議采用各類(lèi)誤分代價(jià)之和Score值作為評(píng)價(jià)標(biāo)準(zhǔn)。誤分代價(jià)之和Score值在重點(diǎn)考慮查全率的同時(shí),兼顧對(duì)正常狀態(tài)數(shù)據(jù)預(yù)測(cè)準(zhǔn)確度的考量,其值越小說(shuō)明模型性能越好。代價(jià)矩陣見(jiàn)表3所列。 (10) 在設(shè)計(jì)ELM后,利用APS數(shù)據(jù)集中的訓(xùn)練集進(jìn)行訓(xùn)練,然后利用APS數(shù)據(jù)集中的測(cè)試集數(shù)據(jù)評(píng)價(jià)ELM模型的性能。實(shí)驗(yàn)結(jié)果表明,要獲得模型的最佳性能,ELM的最佳隱含層節(jié)點(diǎn)數(shù)目為375。 本次實(shí)驗(yàn)環(huán)境為Ubuntu18.04,Intel CPU 8300,顯卡為GTX 1080 Ti,內(nèi)存為雙通道16 GB,編程語(yǔ)言采用Python 3.7。ELM模型性能與其他算法性能的比較見(jiàn)表4所列。 從表4可以看出,本文提出的ELM故障診斷模型可以提升模型構(gòu)建速度,并且在故障查全率和整體錯(cuò)分代價(jià)上具有很大的優(yōu)越性。 4 結(jié) 語(yǔ) 本文提出了一種基于極限學(xué)習(xí)機(jī)的故障診斷模型,在對(duì)機(jī)械設(shè)備工況傳感數(shù)據(jù)進(jìn)行規(guī)范化預(yù)處理后,構(gòu)建極限學(xué)習(xí)機(jī)模型,采用增量式方法確定極限學(xué)習(xí)機(jī)最佳隱層節(jié)點(diǎn)數(shù)目。在公開(kāi)的APS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的模型具有良好的泛化能力,訓(xùn)練時(shí)間短,相較于其他算法模型,在性能上具有較大的優(yōu)越性。 參考文獻(xiàn) [1] HUANG G,HUANG G B,SONG S J,et al. Trends in extreme learning machines:a review [J]. Neural networks,2015,61(1):32-48. [2]陸思源,陸志海,王水花,等.極限學(xué)習(xí)機(jī)綜述[J].測(cè)控技術(shù),2018(10):3-9. [3] HUANG G B,ZHU Q Y,CHEE-KHEONG SIEW. Extreme learning machine:theory and applications [J]. Neurocomputing,2005,70(1):489-501. [4] HUANG G B,ZHOU H,DING X,et al. Extreme learning machine for regression and multiclass classification [J]. IEEE transactions on systems,man and cybernetics,part B(Cybernetics),2012,42(2):513-529. [5] DUA D,GRAFF C. APS Failure at Scania Trucks Data Set[DB/OL].(2017-12-08)[2019-07-08]. http://archive.ics.uci.edu/ml/datasets/APS+Failure+at+Scania+Trucks. [6] GONDEK C,HAFNER D,SAMPSON O R . Prediction of failures in the air pressure system of scania trucks using a random forest and feature engineering [M]. Advances in Intelligent Data Analysis XV. Springer International Publishing,2016. [7] COSTA C F,NASCIMENTO M A. IDA 2016 industrial challenge: using machine learning for predicting failures [M]. Advances in Intelligent Data Analysis XV. Springer International Publishing,2016. [8]車(chē)波,喻林.基于譜特征提取的汽車(chē)發(fā)動(dòng)機(jī)故障診斷系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2015,5(11):36-38. [9]陳立軍,孫凱,侯媛媛,等.基于極限學(xué)習(xí)機(jī)的汽輪機(jī)故障診斷 [J].化工自動(dòng)化及儀表,2013(4):435-438. [10]苑金莎,張利偉,王瑜,等.基于極限學(xué)習(xí)機(jī)的變壓器故障診斷方法研究[J].電測(cè)與儀表,2013(12):21-26. 作者簡(jiǎn)介:蔡光偉(1993—),男,河北石家莊人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)與智能信息處理。 李 揚(yáng)(1986—),女,河北保定人,碩士,研究方向?yàn)槲锫?lián)網(wǎng)智能信息處理技術(shù)。 方 志(1979—),男,湖南岳陽(yáng)人,博士,研究方向?yàn)槲锫?lián)網(wǎng)智能信息處理技術(shù)。 蔣遂平(1966—),男,四川遂寧人,博士,研究員,研究方向?yàn)槲锫?lián)網(wǎng)信息綜合平臺(tái)。