王振亞,劉 韜,王廷軒,楊永燦
(昆明理工大學(xué)機(jī)電工程學(xué)院,云南 昆明 650500)
軸承在各類制造業(yè)中應(yīng)用廣泛[1]。工程環(huán)境中因機(jī)械裝備部件故障失效時(shí)間短、數(shù)據(jù)難以獲取,以及不同工況和應(yīng)用場(chǎng)景差異等原因,往往造成監(jiān)測(cè)數(shù)據(jù)的不平衡問(wèn)題。訓(xùn)練一個(gè)新的模型又會(huì)依賴大量數(shù)據(jù)和時(shí)間,不利于不同工況下故障診斷的推廣[2]。數(shù)據(jù)不平衡問(wèn)題會(huì)嚴(yán)重影響設(shè)備的故障診斷率,導(dǎo)致機(jī)械裝備無(wú)法正常工作,嚴(yán)重者甚至損毀設(shè)備,嚴(yán)重影響生產(chǎn)效率,造成很大的經(jīng)濟(jì)損失。
目前,針對(duì)數(shù)據(jù)不平衡問(wèn)題,國(guó)內(nèi)外學(xué)者提出了不同種類的解決方法[3]?;谏蓪?duì)抗式網(wǎng)絡(luò)、遷移學(xué)習(xí)、對(duì)抗遷移等機(jī)器學(xué)習(xí)的數(shù)據(jù)增強(qiáng)模型層出不窮,但存在訓(xùn)練不穩(wěn)定、干擾因素大、耗費(fèi)時(shí)間、在實(shí)際工程中難以應(yīng)用等問(wèn)題;EML、SVM、CNN等處理不平衡數(shù)據(jù)的模式識(shí)別方法存在尋找穩(wěn)定性弱、參數(shù)選擇困難、在故障樣本較少情況下難以應(yīng)用的問(wèn)題;過(guò)采樣和欠采樣技術(shù)因計(jì)算速度快、應(yīng)用范圍廣等優(yōu)點(diǎn),仍是實(shí)際工程中應(yīng)用最為廣泛的處理手段[4-5]。隨機(jī)過(guò)采樣(random oversampling,RAMO)是通過(guò)隨機(jī)選取少數(shù)類樣本進(jìn)行復(fù)制從而達(dá)到數(shù)據(jù)量上的均衡,但是該方法沒(méi)有考慮到數(shù)據(jù)的分布,非常容易形成過(guò)擬合;隨機(jī)欠采樣(random underdamping,RAMU)是通過(guò)隨機(jī)選取多數(shù)類的樣本進(jìn)行刪除進(jìn)而達(dá)到數(shù)據(jù)集的均衡,但是該方式很容易刪除掉含有重要信息的樣本點(diǎn)。Chawla等[6]提出了一種合成少數(shù)類過(guò)采樣技術(shù)(synthetic minority oversampling technique,SMOTE),用來(lái)解決隨機(jī)過(guò)采樣存在過(guò)擬合的問(wèn)題;Tomek’s Links是對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗的一種關(guān)鍵性技術(shù),用來(lái)清洗因?yàn)檫^(guò)采樣而產(chǎn)生的噪聲數(shù)據(jù)以及數(shù)據(jù)重疊、堆集的情況[7]。提高不平衡數(shù)據(jù)的分類準(zhǔn)確率是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)之一[8]。
本文在軸承故障模擬實(shí)驗(yàn)中,運(yùn)用了過(guò)采樣與欠采樣結(jié)合的數(shù)據(jù)處理技術(shù)。首先,對(duì)少數(shù)類樣本使用高斯混合模型聚類算法進(jìn)行聚類;其次,根據(jù)簇密度分布函數(shù)計(jì)算簇密度;最后,在每個(gè)簇中使用改進(jìn)的 SMOTE 算法進(jìn)行過(guò)采樣,同時(shí)使用Tomek’s Links數(shù)據(jù)清洗技術(shù)進(jìn)行類內(nèi)清洗,達(dá)到類內(nèi)平衡;得到類內(nèi)平衡數(shù)據(jù)后再使用GMM-SMOTE算法進(jìn)行過(guò)采樣,同時(shí)運(yùn)用Tomek’s Links數(shù)據(jù)清洗技術(shù)進(jìn)行類間的清洗,得到不平衡技術(shù)處理好的新的樣本訓(xùn)練集。運(yùn)用主成分分析法(PCA)對(duì)所選特征進(jìn)行降維處理,并結(jié)合文中提出的技術(shù)路線生成數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,提出的方法對(duì)軸承故障數(shù)據(jù)不平衡條件下的數(shù)據(jù)生成和診斷具有較好的魯棒性,該方法具有較好的工程應(yīng)用前景。
為了提高少數(shù)類樣本的生成質(zhì)量,在下文所述理論的基礎(chǔ)上提出了GMM-SMOTE算法。
1.1.1 SMOTE算法
合成少數(shù)類過(guò)采樣技術(shù)SMOTE[6],是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案。由于隨機(jī)過(guò)采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類樣本,這樣容易產(chǎn)生模型過(guò)擬合的問(wèn)題,即使得模型學(xué)習(xí)到的信息過(guò)于特別而不夠泛化,而SMOTE算法的基本思想是對(duì)少數(shù)類樣本進(jìn)行分析,并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。
SMOTE算法流程如下:
a.對(duì)于少數(shù)類中每1個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類樣本集中所有樣本的距離,得到其k近鄰。
b.根據(jù)樣本不平衡比例設(shè)置1個(gè)采樣比例以確定采樣倍率N,對(duì)于每1個(gè)少數(shù)類樣本x,從其k近鄰中隨機(jī)選擇若干個(gè)樣本。
c.對(duì)于x的每1個(gè)隨機(jī)選出的近鄰樣本xj,分別與原樣本按照式(1)構(gòu)建新的樣本。
xnew=x+rand(0,1)(xj-x)
(1)
x為原始不平衡故障數(shù)據(jù)樣本集;xj為x的第j個(gè)鄰近樣本,j=0,…,N;xnew為過(guò)采樣后新的樣本集;rand為0到1之間的1個(gè)隨機(jī)數(shù)。將新生成的樣本集與不平衡數(shù)據(jù)集組合,生成平衡后的數(shù)據(jù)集。
1.1.2 高斯混合聚類模型
混合模型是一個(gè)可以用來(lái)表示在總體分布中含K個(gè)子分布的概率模型,換句話說(shuō),混合模型表示了觀測(cè)數(shù)據(jù)在總體中的概率分布,它是一個(gè)由K個(gè)子分布組成的混合分布?;旌夏P筒灰笥^測(cè)數(shù)據(jù)提供關(guān)于子分布的信息,來(lái)計(jì)算觀測(cè)數(shù)據(jù)在總體分布中的概率[9]。
a.高斯分布(多元)。對(duì)于n維樣本空間χ中的隨機(jī)向量x,若x服從高斯分布,其概率密度函數(shù)為
(2)
μ為n維均值向量;Σ為n×n的協(xié)方差矩陣。根據(jù)式(2)能夠清晰直觀地了解到,高斯分布主要取決于2個(gè)因素:一是均值向量,二是協(xié)方差矩陣。
b.高斯混合分布為
(3)
c.高斯混合聚類。高斯混合聚類是首先假設(shè)樣本集具有一些規(guī)律,包括以參數(shù)α作為比例分為k類,且每類內(nèi)符合高斯分布。然后根據(jù)貝葉斯原理利用極大似然法同時(shí)求出決定分類比例的α和決定類內(nèi)高斯分布的μ和Σ。最后將樣本根據(jù)α、μ和Σ再次通過(guò)貝葉斯原理求出樣本對(duì)應(yīng)的分布簇。通過(guò)找到可以刻畫(huà)樣本的原型(α、μ和Σ參數(shù)),迭代得到α、μ和Σ參數(shù)的最優(yōu)解。
1.1.3 GMM-SMOTE
GMM-SMOTE 算法流程如圖1所示,主要包括3個(gè)步驟:高斯混合模型聚類;計(jì)算簇密度分布函數(shù);根據(jù)簇密度分布函數(shù)確定采樣權(quán)重。
圖1 GMM-SMOTE算法流程
a.對(duì)于不平衡的少數(shù)類數(shù)據(jù)進(jìn)行高斯混合模型聚類,得到簇劃分。
b.根據(jù)式(4)計(jì)算簇的密度分布函數(shù),得到不同簇所對(duì)應(yīng)采樣權(quán)重。原始少數(shù)類樣本經(jīng)過(guò)高斯混合模型聚類之后,得到不同簇,為了解決類內(nèi)不平衡的問(wèn)題,對(duì)于每個(gè)聚類簇,簇密度分布函數(shù)如式(4)所示,即為簇中所包含樣本點(diǎn)的個(gè)數(shù)與其他所包含樣本點(diǎn)構(gòu)成的超球體體積的比例型函數(shù)[10]。
(4)
NCi為簇中樣本點(diǎn)的個(gè)數(shù);vol(S(ri))為簇中樣本點(diǎn)構(gòu)成的超球體體積;ri為簇中離質(zhì)心最遠(yuǎn)的樣本點(diǎn)到質(zhì)心的歐氏距離;Ci為第i個(gè)簇。簇密度分布函數(shù)值越大,代表簇中的數(shù)據(jù)分布越密集。
c.根據(jù)步驟b得到的采樣權(quán)重對(duì)不同簇進(jìn)行SMOTE過(guò)采樣,解決少數(shù)類樣本簇內(nèi)不平衡問(wèn)題。
Tomek’s Links是對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗的一種關(guān)鍵性技術(shù),可以用來(lái)清洗因?yàn)檫^(guò)采樣而產(chǎn)生的噪聲數(shù)據(jù)以及數(shù)據(jù)重疊、堆集的情況[7]。
樣本A與樣本B為2個(gè)不同的類別,當(dāng)滿足不存在其他樣本C使得d(A,C) 圖2 Tomek’s Link原理示意 本文著重探索不平衡技術(shù)在軸承故障中應(yīng)用,即用少量數(shù)據(jù)訓(xùn)練出一個(gè)能夠診斷多種故障類型模型研究。主要的技術(shù)路線可以分為數(shù)據(jù)預(yù)處理模塊與不平衡技術(shù)應(yīng)用模塊。 本次實(shí)驗(yàn)選擇UT6818的機(jī)械振動(dòng)故障模擬實(shí)驗(yàn)臺(tái),如圖3所示。利用模擬故障實(shí)驗(yàn),采集故障類型為正常、外圈故障、內(nèi)圈故障和滾動(dòng)體故障4種信號(hào)(轉(zhuǎn)速為600 r/min,采樣頻率為25.6 kHz)。 圖3 故障模擬實(shí)驗(yàn)臺(tái) 數(shù)據(jù)預(yù)處理模塊對(duì)采集的信號(hào)進(jìn)行特征提取、PCA特征降維,確定最終的不平衡數(shù)據(jù)集。 a.故障模擬實(shí)驗(yàn)臺(tái)數(shù)據(jù)特征提取。為使不同類型的數(shù)據(jù)可以更好地代表各自的故障信息,將故障模擬實(shí)驗(yàn)臺(tái)實(shí)驗(yàn)采集到的1×256 000的每組信號(hào)分為250×1 024的大小用于特征提取,在每1 024個(gè)點(diǎn)中提取時(shí)頻域共11個(gè)特征指標(biāo),分別為有效值、標(biāo)準(zhǔn)差、裕度、峭度、峭度因子、能量、峰值指標(biāo)、波形因子、脈沖因子、峰值系數(shù)和裕度因子。 經(jīng)過(guò)特征提取后將變成大小為250×11的特征數(shù)據(jù)矩陣。 b.PCA特征約減。提取特征兩兩之間交互,通過(guò)繪制的特征提取散點(diǎn)圖發(fā)現(xiàn)部分特征混淆,為提高數(shù)據(jù)處理速度,用主成分分析法對(duì)提取的11個(gè)特征進(jìn)行特征約減處理,選擇累計(jì)主元貢獻(xiàn)率為98%的4個(gè)主成分[11]。經(jīng)過(guò)PCA約減后保留的4個(gè)主成分貢獻(xiàn)率如表1所示。 表1 主成分貢獻(xiàn)率情況 c.不平衡數(shù)據(jù)集的構(gòu)造。采集信號(hào)經(jīng)過(guò)特征提取與PCA特征約減后,各工況的數(shù)據(jù)大小為250×4;選取故障類型為正常、外圈和滾動(dòng)體故障160組,故障類型為內(nèi)圈故障的20組作為少數(shù)樣本,建立初始不平衡數(shù)據(jù)集。4種工況選取剩余的90組作為測(cè)試集。數(shù)據(jù)集的樣本不平衡率為12.5%(不平衡率的計(jì)算為少數(shù)類數(shù)據(jù)20組與正常數(shù)量160組的比值)。不平衡數(shù)據(jù)集的情況如表2所示。 表2 不平衡數(shù)據(jù)集情況 故障模擬實(shí)驗(yàn)臺(tái)采集的信號(hào)經(jīng)過(guò)數(shù)據(jù)預(yù)處理模塊后,將2種少數(shù)類樣本(內(nèi)圈和滾動(dòng)體故障)通過(guò)該模塊生成為充足數(shù)量樣本。本模塊為研究重點(diǎn),不平衡技術(shù)模塊的流程如圖4所示。 圖4 不平衡技術(shù)處理訓(xùn)練集模塊 具體步驟如下: a.少數(shù)類高斯混合模型聚類進(jìn)行簇劃分,得到每個(gè)樣本所對(duì)應(yīng)的簇。 b.計(jì)算簇密度分布函數(shù)確定每個(gè)簇的采樣權(quán)重,根據(jù)采樣權(quán)重對(duì)每個(gè)簇進(jìn)行GMM-SMOTE過(guò)采樣,形成類內(nèi)平衡的數(shù)據(jù)集。 c.根據(jù)初始不平衡率確定少數(shù)類與多數(shù)類的過(guò)采樣倍率N,使用GMM-SMOTE進(jìn)行過(guò)采樣后,使用Tomek’s Links進(jìn)行數(shù)據(jù)清洗,直至不再清洗掉生成樣本為止,生成最終的訓(xùn)練集。若2種特征邊界清晰,并不存在任何1組Tomek’s Links,則直接按照N生成,不會(huì)進(jìn)行Tomek’s Links數(shù)據(jù)清洗。 d.將步驟c中生成的故障樣本與其他3種正常數(shù)量的樣本組成訓(xùn)練集,并送入SVM模型中訓(xùn)練,剩余的90組作為測(cè)試集進(jìn)行算法驗(yàn)證。 采用數(shù)據(jù)預(yù)處理-不平衡技術(shù)的處理后,將平衡后的數(shù)據(jù)送入SVM模型[12]中進(jìn)行故障診斷,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行規(guī)范合理、全面細(xì)致的檢驗(yàn)。 a.根據(jù)傳統(tǒng)為二分類問(wèn)題混淆矩陣,建立軸承故障診斷中的多分類問(wèn)題混淆矩陣。 分類的混淆矩陣如表3所示。TN、TI、TO、TR為各種工況被正確分類的樣本;FIN為內(nèi)圈故障工況被誤判為正常工況的樣本;FNI為正常工況被誤判為內(nèi)圈故障工況的樣本。此混淆矩陣的信息以此類推。 表3 多分類混淆矩陣 通過(guò)查準(zhǔn)率(precision)、G-mean和正確率(accuracy)等指標(biāo)客觀準(zhǔn)確地評(píng)估診斷性能。其中,查準(zhǔn)率表示為正常狀態(tài)的查準(zhǔn)率;G-mean為少數(shù)類分類精度與多數(shù)類分類精度的集合平均值,可以用來(lái)衡量數(shù)據(jù)集的整體性能;正確率則是支持向量機(jī)模型(SVM)的整體分類準(zhǔn)確率。 b.費(fèi)舍爾(Fisher)準(zhǔn)則。費(fèi)舍爾(Fisher)準(zhǔn)則中,判別函數(shù)的系數(shù)是按照類內(nèi)差異最小和類間差異最大同時(shí)兼顧的原則,來(lái)確定判別函數(shù)[13]。使用分散度作為標(biāo)準(zhǔn)偏差的度量,類內(nèi)離散度矩陣Si如式(5)所示,總類內(nèi)離散度矩陣Sw如式(6)所示,類間分散度矩陣SB如式(7)所示,其中mi為各類樣本的均值向量。 (5) Sw=S1+S2 (6) SB=(m1-m2)(m1-m2)T (7) 通過(guò)Fisher準(zhǔn)則,計(jì)算算法改進(jìn)前后的類內(nèi)距離以及不同工況下的類間距離,可以有效地說(shuō)明算法改進(jìn)前后生成數(shù)據(jù)的變化。此評(píng)價(jià)標(biāo)準(zhǔn)對(duì)實(shí)驗(yàn)結(jié)果分析非常適用。 故障模擬實(shí)驗(yàn)臺(tái)數(shù)據(jù)經(jīng)過(guò)技術(shù)路線處理后, 根據(jù)不平衡率確定過(guò)采樣倍數(shù)N,利用初始過(guò)采樣倍數(shù)N=4進(jìn)行過(guò)采樣,同時(shí)經(jīng)過(guò)Tomek’s Links進(jìn)行清洗,算法最終生成的樣本個(gè)數(shù)(內(nèi)圈故障)與Tomek’s Links清洗后保留的情況如圖5所示??梢钥闯?最終生成的內(nèi)圈故障樣本為162個(gè)。當(dāng)再次過(guò)采樣時(shí)則生成648個(gè)樣本,Tomek’s Links不再清除樣本。 圖5 算法樣本生成情況 將算法生成的162個(gè)內(nèi)圈故障樣本與其他3種正常數(shù)量為160組的故障樣本構(gòu)成最終的訓(xùn)練集,送入支持向量機(jī)模型中進(jìn)行訓(xùn)練,并用4種工況剩余的90組作為測(cè)試集進(jìn)行驗(yàn)證,算法分類效果驗(yàn)證如圖6所示。其中,標(biāo)簽0、1、2、3對(duì)應(yīng)軸承的正常工況、外圈故障、內(nèi)圈故障、滾動(dòng)體故障4種故障類型。 由圖6可知,SVM的分類準(zhǔn)確率為98.28%,經(jīng)過(guò)算法生成的故障樣本訓(xùn)練后在分類器上具有良好的分類效果。 圖6 SVM算法分類效果驗(yàn)證 改進(jìn)后的算法與原始SMOTE算法的各個(gè)指標(biāo)之間的對(duì)比如表4所示。通過(guò)表4可以看出,改進(jìn)后的算法在G-mean值上由原來(lái)的89.16%提升到98.12%,提升了8.96%;SVM的分類準(zhǔn)確率由90.01%提升到98.28%,提升了8.27%。評(píng)價(jià)指標(biāo)的明顯提升,充分說(shuō)明了改進(jìn)后的算法生成的故障樣本具有更好的分類效果。 表4 算法改進(jìn)前后指標(biāo)變化 為了驗(yàn)證算法生成數(shù)據(jù)的有效性,得到更多算法改進(jìn)前后類內(nèi)類間的變化關(guān)系。根據(jù)Fisher準(zhǔn)則,分別計(jì)算算法改進(jìn)前后生成數(shù)據(jù)的類內(nèi)間距和改進(jìn)前后的不同類的類外間距,類內(nèi)間距的變化如表5所示,不同類的類外間距如表6所示。 表5 算法改進(jìn)前后類內(nèi)間距(標(biāo)準(zhǔn)歐式距離)對(duì)比 表6 算法改進(jìn)前后類外間距(標(biāo)準(zhǔn)歐氏距離)對(duì)比 通過(guò)改進(jìn)前后的類內(nèi)類間的間距,可以看出算法生成的數(shù)據(jù)各個(gè)特征之間類內(nèi)間距下降,類外間距特征之間距離變大。改進(jìn)后算法生成的數(shù)據(jù)具有更好的可分性。 本文利用模擬實(shí)驗(yàn)臺(tái)數(shù)據(jù),創(chuàng)建不平衡數(shù)據(jù)集并進(jìn)行提出的技術(shù)路線處理后,得到生成得到故障樣本數(shù)據(jù),結(jié)合SVM模型進(jìn)行故障診斷,可以得到以下結(jié)論: a.改進(jìn)的SMOTE算法與Tomek’s Links數(shù)據(jù)清洗技術(shù)結(jié)合后的技術(shù)路線具有良好的數(shù)據(jù)生成效果,比原始SMOTE算法在分類準(zhǔn)確率上提升了8.27%,特征的類內(nèi)類間距也有較好的可分性,可以明顯提高分類器的分類性能。 b.數(shù)據(jù)預(yù)處理-不平衡技術(shù)在設(shè)備數(shù)據(jù)不平衡條件下進(jìn)行故障診斷取得了較好的診斷率,具有一定的實(shí)際工程應(yīng)用性。2 基于數(shù)據(jù)預(yù)處理-不平衡技術(shù)處理的故障診斷方法
2.1 數(shù)據(jù)處理模塊
2.2 不平衡技術(shù)應(yīng)用模塊
3 實(shí)驗(yàn)結(jié)果分析
3.1 評(píng)價(jià)指標(biāo)
3.2 結(jié)果分析
4 結(jié)束語(yǔ)