徐搏超
中國大唐集團(tuán)科學(xué)技術(shù)研究院有限公司華東電力實(shí)驗(yàn)研究院,合肥,230031
汽輪機(jī)組作為發(fā)電廠的主體設(shè)備,由于結(jié)構(gòu)眾多、工況復(fù)雜,極易受到眾多因素的干擾。當(dāng)轉(zhuǎn)子發(fā)生故障后,如何快速精準(zhǔn)地確認(rèn)故障是工程研究領(lǐng)域的難點(diǎn)。轉(zhuǎn)子多故障診斷具有重要意義。
基于二叉樹結(jié)構(gòu)[1-2]的相關(guān)向量機(jī)(relevance vector machine, RVM)系統(tǒng)通過細(xì)化分類實(shí)現(xiàn)了多故障診斷,目前已得到廣泛應(yīng)用。文獻(xiàn) [3]表明,二叉樹結(jié)構(gòu)越靠近頂節(jié)點(diǎn)對(duì)系統(tǒng)的累積誤差影響越大。為了提高系統(tǒng)分類精度,需要進(jìn)行結(jié)構(gòu)優(yōu)化,提高上層節(jié)點(diǎn)的分類正確率。分類器中正負(fù)類樣本的差異性決定了該節(jié)點(diǎn)的分類效率。為了抑制誤差累積效應(yīng),對(duì)系統(tǒng)的優(yōu)化策略依據(jù)相似度從小到大的順序進(jìn)行種類分割。目前常用的可分性判據(jù)中,基于后驗(yàn)概率的可分性判據(jù)[4]、基于類的概率密度函數(shù)[5]的可分性判據(jù)對(duì)樣本數(shù)量依賴性較強(qiáng),不適用于轉(zhuǎn)子故障這類小樣本問題。基于幾何距離的可分性判據(jù)[6]一般用方差描述低維空間中樣本特征向量的離散程度,相關(guān)向量機(jī)通過核函數(shù)將低維向量映射到高維空間后進(jìn)行分類,在高維空間中樣本方差并不能較好地克服度量集中效應(yīng)。
高維向量之間的分?jǐn)?shù)范數(shù)差值較大,故本文選用分?jǐn)?shù)范數(shù)作為高維空間距離度量方法,研究高斯無窮維空間樣本點(diǎn)的形式并進(jìn)行改造,使其在滿足工程精度的要求下便于計(jì)算距離;同時(shí)對(duì)傳統(tǒng)的類間類內(nèi)方差比值判據(jù)進(jìn)行了改進(jìn),引入分?jǐn)?shù)范數(shù)構(gòu)造了一種適用于高斯核空間的可分性指標(biāo)。
二叉樹多分類是二叉樹結(jié)構(gòu)的多個(gè)分類器組合。對(duì)于k?類分類問題,二叉樹算法僅需要構(gòu)造k?-1個(gè)子分類,大幅度縮減了計(jì)算量。對(duì)于單個(gè)分類器而言,正負(fù)兩類訓(xùn)練樣本數(shù)量越均衡,該分類器精度越高[6]。同時(shí)為了兼顧故障診斷的時(shí)間成本,本文選擇節(jié)點(diǎn)查詢時(shí)間復(fù)雜度較低[7]的均衡二叉樹作為系統(tǒng)結(jié)構(gòu)圖。
基于均衡二叉樹算法的多分類系統(tǒng)訓(xùn)練過程是首先將樣本數(shù)據(jù)按類別均分成兩部分,隨機(jī)標(biāo)記為正負(fù)兩類,訓(xùn)練出根節(jié)點(diǎn)分類器。分別對(duì)第一部分(左節(jié)點(diǎn))和第二部分(右節(jié)點(diǎn))中的類別再次進(jìn)行均分,訓(xùn)練第二層分類器。以此類推,直至葉子節(jié)點(diǎn)中只包含一類樣本。系統(tǒng)完成訓(xùn)練后,輸入測(cè)試樣本,樣本依次經(jīng)過各層分類器,最終會(huì)被歸類到某一葉子節(jié)點(diǎn)中完成診斷。以四分類問題為例,其均衡二叉樹結(jié)構(gòu)見圖1。
圖1 均衡二叉樹結(jié)構(gòu)圖Fig.1 Balanced binary tree structure diagram
高斯核函數(shù)空間是一個(gè)無窮維空間[8],為了找出適合高維空間的距離度量準(zhǔn)則,首先需要了解數(shù)據(jù)點(diǎn)的分布情況。本文通過高維空間中最近鄰分析的相關(guān)定理[9],研究樣本點(diǎn)在高維映射空間內(nèi)的分布規(guī)律。
定理2(定理1逆定理) 假設(shè)樣本數(shù)目n?足夠大,使得
成立,如果
則對(duì)于任一ε?,有
上述定理表明,在高維空間中樣本點(diǎn)范數(shù)的相對(duì)方差和相對(duì)差異都趨于零。上述方法對(duì)不同點(diǎn)的區(qū)分性很小。歐氏空間中方差度量的差異性隨著樣本維度的增長(zhǎng)越來越弱,這種現(xiàn)象通常稱為度量集中[10],這表明在高維空間中樣本點(diǎn)趨于均勻分布。
文獻(xiàn) [11-12]表明e?p?范數(shù)中p?值對(duì)高維空間距離影響較大。機(jī)器學(xué)習(xí)算法在較小的p?值易于求得稀疏解。
定理3[13]設(shè)定樣本集包含n?個(gè)d?維獨(dú)立分布的樣本點(diǎn),則存在常數(shù)C?k?,使得
(1)
式中,x?i?為向量x的第i?個(gè)元素。
當(dāng)p?<1時(shí),該范數(shù)稱為分?jǐn)?shù)范數(shù)[14]。
首先給出高斯核函數(shù)[15]表達(dá)式:
K?x,y=exp(-‖x-y‖2/(2σ?2))
(2)
式(2)的麥克勞林展開式如下:
為了保證一般性,設(shè)定σ?=1。
由上述公式推導(dǎo)可知,徑向基核函數(shù)φ?(x)的定義式為
高斯核空間屬于無窮維空間,方差判據(jù)不能有效克服度量集中現(xiàn)象導(dǎo)致的樣本點(diǎn)稀疏分布的難題。由上述分析可知,分?jǐn)?shù)范數(shù)相較于p?>1時(shí)的范數(shù)在高維空間中度量效果更好,故選用分?jǐn)?shù)范數(shù)作為高斯核空間樣本點(diǎn)的可分性判據(jù)。可分性指標(biāo)的構(gòu)造求解過程如下:
給定兩個(gè)原始數(shù)據(jù)集合X?={x1,x2,…,xi?},Y?={y1,y2,…,yj?},其中i?=1,2,…,n?1;j?=1,2,…,n?2。兩樣本集合映射后的均值向量分別為
(3)
類間距離度量用下式求解:
(4)
式中,μ?xi?和μ?yi?分別為向量μx?和μy?中第i?維數(shù)值。
X?和Y?的類內(nèi)距離S?x?和S?y?分別為
(5)
(6)
式中,φ?m?(xi?)和φ?n?(yi?)分別為向量φ?(xi?)和φ?(yi?)中的第m?維和第n?維數(shù)值。
分類指標(biāo)的優(yōu)劣性體現(xiàn)在兼顧同類樣本的內(nèi)聚性和異類樣本的排斥性?;谏鲜鲈瓌t,構(gòu)造可分性指標(biāo):
(7)
d?xy?越大,代表不同類的高維樣本點(diǎn)距離越遠(yuǎn),同時(shí)類內(nèi)具有內(nèi)聚性,這表明兩類樣本更易區(qū)分。
在Bently轉(zhuǎn)子實(shí)驗(yàn)臺(tái)上模擬汽輪機(jī)轉(zhuǎn)子正常狀態(tài)和轉(zhuǎn)子質(zhì)量不平衡、轉(zhuǎn)子不對(duì)中、動(dòng)靜碰磨、油膜渦動(dòng)4種常見振動(dòng)故障信號(hào)。模擬設(shè)備轉(zhuǎn)速3 000 r/min,采樣頻率1 280 Hz,采樣點(diǎn)數(shù)為1 024。每類狀態(tài)集前10組作為訓(xùn)練樣本,后10組作為測(cè)試樣本。
汽輪機(jī)故障信號(hào)特征大部分集中在前幾階倍頻段中,因此首先使用希爾伯特振動(dòng)分解(HVD)方法分解故障信號(hào),進(jìn)而選取半頻、基頻、二倍頻和高頻計(jì)算模糊熵值,最后組合這4個(gè)頻段的特征值構(gòu)建故障特征向量。通過RVM模型進(jìn)行樣本學(xué)習(xí),完成模型訓(xùn)練。上述故障特征提取過程見圖2。
圖2 故障特征提取流程圖Fig.2 Flowchart of fault feature extraction
以上述5種汽輪機(jī)運(yùn)行狀態(tài)為例,對(duì)二叉樹分類系統(tǒng)進(jìn)行節(jié)點(diǎn)優(yōu)化。實(shí)驗(yàn)1中比較不同節(jié)點(diǎn)優(yōu)化方法對(duì)系統(tǒng)最終分類精度的影響。對(duì)照方法通過求取不同故障種類樣本特征向量的方差判斷不同類別樣本的可分性,進(jìn)而進(jìn)行正負(fù)類選取,樣本可分性用下式度量:
(8)
其中,D?x?和D?y?表示樣本X?和Y?基于方差算出的類內(nèi)距離;D?xy?為不同類樣本的類間距。d?xy?越大,X?和Y?兩類樣本在特征向量空間中的可區(qū)分性越大。
樣本方差優(yōu)化后的系統(tǒng)圖見圖3;通過本文提出的指標(biāo)進(jìn)行優(yōu)化后的系統(tǒng)圖見圖4。完成優(yōu)化后系統(tǒng)各層節(jié)點(diǎn)的值見表1,優(yōu)化后系統(tǒng)的分類正確率見表2。
圖3 樣本方差指標(biāo)優(yōu)化后系統(tǒng)圖Fig.3 Optimized system chart based onsample variance index
圖4 高維可分性指標(biāo)優(yōu)化后系統(tǒng)圖Fig.4 Optimized system chart based on high-dimensionalspace separability index
dxyRVM1 RVM2RVM3RVM4樣本方差0.061 90.838 60.117 92.742 3本文方法0.137 42.140 02.946 11.076 4
表2 優(yōu)化后系統(tǒng)的分類正確率
由表2可以看出,本文提出的高維空間可分性指標(biāo)相較于傳統(tǒng)的基于樣本特征向量空間的方差指標(biāo),更能準(zhǔn)確反映樣本在高斯核空間內(nèi)的可分性。本文方法優(yōu)化后的系統(tǒng)分類準(zhǔn)確性更高。
智能診斷方法[16-17]通過充分發(fā)掘數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),避免了復(fù)雜的數(shù)學(xué)建模過程,成為故障診斷技術(shù)發(fā)展的新方向。本文選用粒子群算法優(yōu)化(PSO)的聚類算法對(duì)樣本進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)過程首先根據(jù)訓(xùn)練樣本間的距離相關(guān)性等特征將訓(xùn)練樣本聚成不同類別;再根據(jù)待測(cè)試樣本與訓(xùn)練樣本間的匹配性進(jìn)行劃分。PSO算法中群體粒子50個(gè),最大迭代次數(shù)為400次,結(jié)果見表3。
表3 聚類算法分類結(jié)果
對(duì)比智能診斷算法和均衡二叉樹系統(tǒng)的診斷性能,結(jié)果見表4。由表4可以看出,基于均衡二叉樹的多分類系統(tǒng)相較于聚類算法,分類準(zhǔn)確率更高,時(shí)間成本更低。
表4 聚類算法和本文方法的結(jié)果比較
(1)二叉樹系統(tǒng)結(jié)構(gòu)中,各節(jié)點(diǎn)的正負(fù)類選取會(huì)綜合影響系統(tǒng)的分類精度。因此對(duì)多分類系統(tǒng)結(jié)構(gòu)進(jìn)行優(yōu)化,抑制誤差累積效應(yīng)可以有效提高系統(tǒng)分類正確率。
(2)高斯核函數(shù)將樣本特征向量映射到無窮維空間中尋求分類超平面。樣本特征向量的方差屬于低維空間中的距離度量方法,并不能有效反映高斯核空間中樣本點(diǎn)的距離分布規(guī)律。本文引入分?jǐn)?shù)范數(shù)的概念對(duì)高維空間中的距離進(jìn)行度量。實(shí)驗(yàn)表明,本文提出的高維可分性指標(biāo)相較于傳統(tǒng)的方差指標(biāo),能更有效地判斷樣本在高維空間中的可分性。
(3)基于本文提出的指標(biāo)進(jìn)行優(yōu)化后的系統(tǒng),相較于智能診斷算法,在分類正確率和耗時(shí)方面也具有一定的優(yōu)勢(shì)。