陳柏志 石宇強(qiáng) 詹鈞凱 鄔江波
(西南科技大學(xué)制造科學(xué)與工程學(xué)院 四川綿陽(yáng) 621010)
支持向量機(jī)(Support Vector Machines,SVM),是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)新方法[1],它在解決小樣本、非線性以及高維模式識(shí)別等問題中表現(xiàn)出特有的優(yōu)勢(shì),并在很大程度上克服了“維數(shù)災(zāi)難”和“過(guò)學(xué)習(xí)”等問題。最初SVM是針對(duì)二分類問題設(shè)計(jì)的,而實(shí)際問題往往屬于多類別分類,如故障診斷、文本分類、人臉識(shí)別等。目前,SVM解決多類分類的方法主要有一對(duì)多SVM、一對(duì)一SVM、決策有向無(wú)環(huán)圖SVM和二叉樹SVM等[1-4]。其中,與一對(duì)一、一對(duì)多以及決策有向無(wú)環(huán)圖等SVM方法相比較,二叉樹SVM具有需要訓(xùn)練的分類器數(shù)目最少、樣本重復(fù)訓(xùn)練率低、分類速度快且不存在不可分區(qū)域等優(yōu)點(diǎn),是一種非常適合故障診斷的支持向量機(jī)多類分類算法。
二叉樹SVM由于其特有的優(yōu)勢(shì),近年來(lái)受到了學(xué)者的廣泛關(guān)注,主要聚焦在三個(gè)方面:(1)二叉樹SVM的推廣能力依賴于二叉樹的樹形結(jié)構(gòu),類間差異性估計(jì)是設(shè)計(jì)二叉樹結(jié)構(gòu)的基礎(chǔ)。樣本之間歐式距離是廣泛采用的度量手段。文獻(xiàn)[5]以類間樣本最短距離來(lái)度量類間的距離,讓距離最遠(yuǎn)的類最先分離出來(lái)。文獻(xiàn)[6]以類內(nèi)樣本間最大距離來(lái)度量類內(nèi)樣本分布的范圍,讓分布廣的類最先分離出來(lái)。文獻(xiàn)[7-8]綜合考慮類間和類內(nèi)樣本分布的情況,將兩個(gè)角度的描述合理結(jié)合起來(lái),更全面地反映類別之間的差異性。(2)將其他方法與二叉樹SVM結(jié)合起來(lái)進(jìn)一步優(yōu)化二叉樹SVM的樣本不平衡、訓(xùn)練時(shí)間以及精度等,文獻(xiàn)[9-10]將二叉樹與雙支持向量機(jī)相結(jié)合,利用雙支持向量機(jī)克服了二叉樹SVM可能存在的樣本不平衡問題和減少二叉樹SVM的訓(xùn)練時(shí)間。(3)將二叉樹SVM應(yīng)用到實(shí)際問題中,如機(jī)械故障診斷、焊縫缺陷檢測(cè)、網(wǎng)絡(luò)入侵檢測(cè)等[8,10-11]。
TE(Tennessee Eastman)過(guò)程作為一個(gè)典型的化工生產(chǎn)模型,具有復(fù)雜多變、非線性等特點(diǎn)[12],其過(guò)程存在以下特點(diǎn):(1)復(fù)雜的非線性;(2)故障發(fā)生表現(xiàn)出強(qiáng)烈的滯后性;(3)工藝參數(shù)眾多且相互干擾,彼此耦合,存在部分重合。鑒于SVM在解決非線性、高維數(shù)據(jù)以及局部極小等問題的優(yōu)勢(shì),是TE過(guò)程故障診斷的理想方法。
本文基于帕累托原則結(jié)合類間樣本距離和類內(nèi)樣本分布設(shè)計(jì)了一種新的類間差異性估計(jì)策略,并提出了完全二叉樹SVM的構(gòu)建方法。較之前的研究,本文還探討了完全二叉樹、偏二叉樹以及從上到下構(gòu)造二叉樹、從下到上構(gòu)造二叉樹的推廣性能。利用標(biāo)準(zhǔn)數(shù)據(jù)集,與一對(duì)一、一對(duì)多、決策有向無(wú)環(huán)圖以及其他二叉樹方法作比較,評(píng)定改進(jìn)算法的性能。以TE過(guò)程為故障診斷對(duì)象,基于核主成分分析提取故障特征,利用改進(jìn)算法收到了令人滿意的故障診斷效果。
目前,SVM多類分類方法根據(jù)其指導(dǎo)思想大致有兩類:一種是通過(guò)構(gòu)造多個(gè)二類分類器并將它們組合起來(lái)完成多類分類;另一種是只使用一個(gè)SVM分類器,該分類器對(duì)SVM的原始最優(yōu)化問題作適當(dāng)修改從而“一次性”地計(jì)算出多類分類決策函數(shù)。第二種方法的指導(dǎo)思想看似簡(jiǎn)單,但它的最優(yōu)化問題求解過(guò)于復(fù)雜,計(jì)算量大,而且在分類精度上也不占優(yōu)勢(shì)。因此,第一種方法更為常用。
第一種方法主要包括一對(duì)多(One-against-Rest,1-a-r),一對(duì)一(One-against-one,1-a-1),決策有向無(wú)環(huán)圖(Decision Directed Acyclic Graph,DDAG)、二叉樹(Binary Tree,BT)等方法。一對(duì)多方法簡(jiǎn)單,需要訓(xùn)練的子分類器個(gè)數(shù)少,但其缺點(diǎn)是當(dāng)類別數(shù)較多時(shí),訓(xùn)練樣本的不平衡將對(duì)精度產(chǎn)生影響,且存在拒分區(qū)域。一對(duì)一方法訓(xùn)練樣本是平衡的,訓(xùn)練精度高于一對(duì)多方法,但類別較多時(shí),需要訓(xùn)練較多的子分類器,其時(shí)間復(fù)雜度大大增加,不適用類別較多的情況,并且也存在拒分區(qū)域。DDAG方法的優(yōu)點(diǎn)是分類速度較前面兩種方法有明顯提高,不存在拒分區(qū)域,缺點(diǎn)是需要同一對(duì)一方法一樣多的子分類器,并且其根節(jié)點(diǎn)選取的二值分類器不同其精度會(huì)有明顯差異[2]。
二叉樹SVM是一種采用二叉樹結(jié)構(gòu)來(lái)構(gòu)造SVM多類分類的算法,其構(gòu)造過(guò)程如下:將所有類別依據(jù)某種策略劃分成兩個(gè)子類,再將這兩個(gè)子類分別劃分成兩個(gè)次子類,如此循環(huán)下去,直到所有的類別都作為一個(gè)單獨(dú)節(jié)點(diǎn)為止,此節(jié)點(diǎn)也就是二叉樹中的葉子節(jié)點(diǎn)。二叉樹SVM方法可以避免傳統(tǒng)的一對(duì)多、一對(duì)一方法存在的不可分區(qū)域,并且只需構(gòu)造k-1個(gè)子分類器,其分類時(shí)平均需要經(jīng)過(guò)log2k個(gè)子分類器,分類速度大大提高,缺點(diǎn)是二叉樹的結(jié)構(gòu)對(duì)整個(gè)模型的分類精度有較大的影響,可能存在“誤差累積”現(xiàn)象,上層節(jié)點(diǎn)發(fā)生的分類錯(cuò)誤,會(huì)把這種錯(cuò)誤延續(xù)下去,使后續(xù)節(jié)點(diǎn)的分類失去意義,并且分類錯(cuò)誤越靠近根結(jié)點(diǎn),模型推廣性能越差。因此,二叉樹SVM的關(guān)鍵是如何設(shè)計(jì)有效的二叉樹結(jié)構(gòu)。上述4種SVM多類分類方法對(duì)比如表1所示。
為了避免“誤差累積”現(xiàn)象,應(yīng)該讓最容易分割的類率先分離出來(lái),也就是要盡可能的去估計(jì)類別之間的差異性,類別之間差異性越大越容易分割。然而由于各個(gè)類別數(shù)據(jù)的真實(shí)分布情況無(wú)法得知,只能利用有限的樣本集的分布情況去近似估計(jì)真實(shí)數(shù)據(jù)的類別差異性。在先前的研究中,學(xué)者分別使用了多種策略對(duì)類別差異性進(jìn)行描述,其策略大致有兩個(gè)方面:一是采用不同類別樣本之間的歐氏距離來(lái)度量類別之間的距離,二是利用類內(nèi)樣本分布半徑作為類別分布區(qū)域大小的度量,或者是綜合考慮類間距離和類內(nèi)樣本分布的影響,從實(shí)際的分類效果來(lái)看[7-8],綜合考慮兩個(gè)方面的策略能更好地估計(jì)類間差異性。但是這些方法也存在一些問題,當(dāng)訓(xùn)練樣本數(shù)據(jù)存在測(cè)量誤差或者方法誤差即所謂的“野值”,導(dǎo)致數(shù)據(jù)的散布較大,由此生成比實(shí)際所占區(qū)域更大的超球體半徑,同時(shí)這些“野值”由于距離超球體中心較遠(yuǎn),因此在計(jì)算方差或者超球體中心時(shí)容易造成偏差,這樣就會(huì)帶來(lái)層次誤差,誤差逐層累積,導(dǎo)致分類精度降低。
表1 SVM多類分類方法對(duì)比Table 1 Comparison of SVM multi-class classification methods
如圖1所示,各個(gè)類別的樣本在高維空間是各自聚集在一起的,形成了超球體中心點(diǎn),按照距離中心點(diǎn)的遠(yuǎn)近將數(shù)據(jù)的分布范圍由內(nèi)到外可分為核心圈、計(jì)算半徑圈以及邊界圈。核心圈內(nèi)的數(shù)據(jù)是類別最具代表性的數(shù)據(jù),具有明顯的類別特征;計(jì)算半徑圈是將類別所有樣本都納入半徑計(jì)算過(guò)程得到的;邊界圈是依據(jù)距離中心點(diǎn)最遠(yuǎn)的樣本劃分的,包含了類別所有的樣本。
圖1 類分布示意圖Fig.1 Schematic diagram of class distribution
19世紀(jì)末期的意大利經(jīng)濟(jì)學(xué)家兼社會(huì)學(xué)家維弗利度·帕累托提出“重要的少數(shù)與瑣碎的多數(shù)”原理,該原理指出在特定領(lǐng)域20%的少數(shù)達(dá)到總體貢獻(xiàn)度的80%,掌握該20%的因子就能控制全局,這就是著名的帕累托法則,也稱80/20效應(yīng)。
根據(jù)帕累托法則,結(jié)合前面的分析,可以得出,分類樣本中20%的數(shù)據(jù)能夠代表核心圈的分布情況,80%的樣本能夠代表計(jì)算半徑圈的分布情況。
核心圈內(nèi)的樣本距離其類別中心點(diǎn)最近,是具有明顯類別特征的樣本,與其他類別樣本的距離較遠(yuǎn),不會(huì)存在樣本重疊現(xiàn)象。在此,采用核心圈樣本最近類間距離來(lái)衡量類間距離。核心圈樣本最近類間距離越大,類間距離越遠(yuǎn),類別之間的差異性越大,反之亦然。核心圈樣本最近類間距離定義如下:
計(jì)算i,j類核心圈樣本的最近距離
min(di,jker)=min{‖xiker-xjker‖}
(1)
計(jì)算半徑圈內(nèi)的樣本反映了同類樣本的整體有效分布情況。在此,采用計(jì)算半徑圈內(nèi)樣本平均密度來(lái)衡量類內(nèi)樣本的分布情況。平均密度小,表明樣本分布得越緊密,反之亦然。類內(nèi)計(jì)算半徑圈內(nèi)樣本平均密度定義如下:
(2)
其中ximax表示計(jì)算半徑圈內(nèi)的樣本,nimax表示計(jì)算半徑圈內(nèi)的樣本數(shù)目。類內(nèi)計(jì)算半徑圈內(nèi)樣本的均值
(3)
根據(jù)類間距離大且類內(nèi)樣本分布得越緊密集中的類間差異性越大的原則,設(shè)計(jì)的類間差性估計(jì)策略要能夠體現(xiàn)兩方面的因素,具體形式為:
(4)
類間差異性估計(jì)策略具體計(jì)算步驟如下:
步驟1 建立訓(xùn)練樣本集{xi,yi},yi={1,2,…,k},k為類別數(shù),然后將訓(xùn)練樣本的各特征值歸一化,線性調(diào)整到[-1,+1]。
步驟2 依據(jù)公式(3),計(jì)算每個(gè)類別的超球體中心ci。
步驟4 對(duì)各個(gè)類別的樣本取重新排序后前20%的樣本依據(jù)公式(1)計(jì)算min(di,jker),取前80%的樣本依據(jù)公式(2)和(3)計(jì)算σimax,σjmax,最后依據(jù)公式(4)求出i,j類的類別差異度Ii,j。
步驟5 按照上述步驟計(jì)算得出各類間的差異性SI=Iij,i,j=1,2,…,k,i≠j。構(gòu)造表示類間差異性的對(duì)稱矩陣
如圖2所示,二叉樹支持向量機(jī)有兩種結(jié)構(gòu),一種是偏二叉樹,在判斷節(jié)點(diǎn)處由一個(gè)類作為正類與余下的類別作為負(fù)類構(gòu)造分類超平面;一種是完全二叉樹,在判斷節(jié)點(diǎn)處由多個(gè)類與多個(gè)類構(gòu)造分類超平面。盡管偏二叉樹構(gòu)造過(guò)程簡(jiǎn)單,但是對(duì)于類別數(shù)較多的樣本集來(lái)說(shuō),樹的深度大,測(cè)試平均時(shí)間比完全二叉樹長(zhǎng),同時(shí)容易造成樣本不均衡。
圖2 完全二叉樹與偏二叉樹示意圖Fig.2 Schematic diagram of complete binary trees and partial binary trees
與常見的從上到下構(gòu)造策略不同的是,哈夫曼樹(Huffman Tree,HT)是從下往上構(gòu)造的二叉樹結(jié)構(gòu),其思想是將當(dāng)前認(rèn)為最不好分的兩類率先生成決策節(jié)點(diǎn)。從構(gòu)造思想上看,基于這種構(gòu)造思路得到的上層決策節(jié)點(diǎn)是全局最優(yōu)解,其整體分類效果可能優(yōu)于從上往下構(gòu)造的二叉樹結(jié)構(gòu),但其實(shí)際生成的樹形結(jié)構(gòu)往往傾向于偏二叉樹,其原因在于往上的構(gòu)造過(guò)程中形成的由多個(gè)類別構(gòu)成的決策節(jié)點(diǎn)在與單個(gè)類別的葉子節(jié)點(diǎn)估計(jì)類間差異性時(shí)占有很大的優(yōu)勢(shì),已生成的決策節(jié)點(diǎn)容易與葉子節(jié)點(diǎn)生成上一層的決策節(jié)點(diǎn),其總體形態(tài)偏向于偏態(tài)樹。
完全二叉樹克服了偏態(tài)樹的缺點(diǎn),特別是類別數(shù)較多時(shí),其性能優(yōu)勢(shì)更加明顯。為了生成完全二叉樹或者近似完全二叉樹,具體算法步驟如下:
步驟1 對(duì)于k類問題,求出差異性估計(jì)矩陣SI,并將各類的類別標(biāo)號(hào)由小到大存入集合C中;
步驟2 從SI中找出差異性最大(maxIi,j)的兩個(gè)類i和j,將i類樣本存入集合C1中,將j類樣本存入集合C2中,并從C中刪除i,j類標(biāo)號(hào);
步驟3 若C=φ,則轉(zhuǎn)到步驟5;
步驟4 在SI中查找類m(m∈C)分別與i,j類的差異性,若Ii,m 步驟5 將C1作為二叉樹的左子樹,C2作為二叉樹的右子樹。將C1中對(duì)應(yīng)的樣本標(biāo)記為正類,C2中對(duì)應(yīng)的樣本標(biāo)記為負(fù)類,至此,得到一個(gè)子分類器; 步驟6 令C=C1,直到C1只包含一個(gè)類別不可再分為止,此時(shí)左子樹構(gòu)造結(jié)束。否則,返回步驟2,將C1進(jìn)一步分割成左右子樹; 步驟7 令C=C2,直到C2只包含一個(gè)類別不可再分為止,此時(shí)右子樹構(gòu)造結(jié)束。否則,返回步驟2,將C2進(jìn)一步分割成左右子樹。 為了評(píng)價(jià)改進(jìn)算法的性能,本文使用UCI數(shù)據(jù)庫(kù)[13]的Win,Segment,Optdigits,Satimage 4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集(表2),將本文所提改進(jìn)算法與一對(duì)一、一對(duì)多、DDAG 3種常規(guī)SVM分類算法進(jìn)行實(shí)驗(yàn)測(cè)試對(duì)比的同時(shí),還與從上到下構(gòu)造的偏二叉樹(偏BT)、哈夫曼樹(HT)、偏哈夫曼樹(偏HT)3種二叉樹算法進(jìn)行實(shí)驗(yàn)測(cè)試對(duì)比。本文所有算法均采用VC++編程,在LIBSVM工具包基礎(chǔ)上修改實(shí)現(xiàn)。實(shí)驗(yàn)平臺(tái)為AMD A10-7400P,4GB RAM,操作系統(tǒng)為Windows 7 SP1。 為了避免取值范圍更大的屬性占更多優(yōu)勢(shì),本文對(duì)樣本數(shù)據(jù)全部進(jìn)行標(biāo)準(zhǔn)分歸一化預(yù)處理,將屬性范圍調(diào)整到[-1,+1]。SVM的核函數(shù)采用徑向基核函數(shù),具體形式為:K(x,xi)=exp{-γ‖x-xi‖2}。同時(shí)由于模型的推廣能力與核參數(shù)γ、懲罰參數(shù)C有關(guān),為了保證參數(shù)搜索空間的完備性以及對(duì)訓(xùn)練數(shù)據(jù)集獲得更好的誤差估計(jì),將網(wǎng)格尋優(yōu)和交叉驗(yàn)證共同作用,參數(shù)C的尋優(yōu)空間為[21,22,…,28],參數(shù)γ的尋優(yōu)空間為[2-4,2-3,…,20],共8×5=40種組合,采用十折交叉驗(yàn)證,從而獲得推廣能力最佳的(C,γ)組合。實(shí)驗(yàn)結(jié)果如表3所示(表中所有精度值保留兩位有效小數(shù))。 不同算法運(yùn)行的時(shí)間結(jié)果見表4,Win數(shù)據(jù)集由于其樣本數(shù)較少,運(yùn)行時(shí)間過(guò)短難以比較,故省略。為了避免不同的參數(shù)對(duì)運(yùn)行時(shí)間產(chǎn)生影響,將各個(gè)數(shù)據(jù)集的參數(shù)固定為:Segment(28,20),Satimage(23,20),Optdigits(23,2-4)。運(yùn)行時(shí)間采用CPU時(shí)間,運(yùn)行10次求平均值作為最終結(jié)果(單位為s,結(jié)果保留3位有效小數(shù))。 表2 數(shù)據(jù)集信息統(tǒng)計(jì)表Table 1 Statistic information of data sets 表3 各算法最優(yōu)參數(shù)及識(shí)別準(zhǔn)確率Table 3 Optimal parameters and recognition accuracy of each algorithm 表4 各算法運(yùn)行時(shí)間Table 4 Operation time of each algorithm 為了對(duì)比二叉樹方法與一對(duì)一、一對(duì)多、DDAG方法在精度和時(shí)間方面的優(yōu)劣以及驗(yàn)證本文算法,將4種二叉樹方法作為整體與其他3種方法進(jìn)行比較的同時(shí)比較各個(gè)數(shù)據(jù)集上精度和時(shí)間的最優(yōu)算法,如前面表1所描述,在精度方面,一對(duì)一、DDAG和二叉樹方法相當(dāng),明顯優(yōu)于一對(duì)多方法,除Segment數(shù)據(jù)集上一對(duì)一方法精度最高外,其他數(shù)據(jù)集上本文算法精度最高;在訓(xùn)練速度方面,一對(duì)一和DDAG方法由于訓(xùn)練的分類器完全一樣,其訓(xùn)練速度是一致的,一對(duì)多方法在各個(gè)數(shù)據(jù)集上的訓(xùn)練速度都最慢,HT、偏HT以及偏BT訓(xùn)練速度要明顯慢于一對(duì)一和DDAG方法,但本文所提算法在Satimage數(shù)據(jù)集上訓(xùn)練速度最快,在Segment和Opdigits數(shù)據(jù)集上略微慢于一對(duì)一和DDAG方法;在測(cè)試速度方面,本文所提算法用時(shí)最短,二叉樹方法要明顯優(yōu)于其他3種方法,DDAG方法要略優(yōu)于一對(duì)一和一對(duì)多方法,一對(duì)一和一對(duì)多方法測(cè)試速度相當(dāng)。 為了更深入更直觀地比較4種二叉樹算法的性能,將針對(duì)4種二叉樹算法生成的樹形結(jié)構(gòu)進(jìn)行討論。Win數(shù)據(jù)集由于只有3個(gè)類別,4種算法生成一樣的二叉樹結(jié)構(gòu),其精度和時(shí)間都是一致的;在Segment數(shù)據(jù)集上,HT與本文算法生成完全一樣的樹形結(jié)構(gòu),其精度和時(shí)間呈現(xiàn)出一致的效果,偏BT精度略微高于其他3種算法,但HT和本文算法由于生成的是近似完全二叉樹,其時(shí)間明顯快于偏HT、偏BT;在Satimage和Optidigits數(shù)據(jù)集上,本文算法在精度上略占優(yōu)勢(shì),其速度明顯快于其他3種算法,特別是在類別數(shù)較多的Optidigits數(shù)據(jù)集上其速度優(yōu)勢(shì)更明顯,本文算法生成完全二叉樹結(jié)構(gòu),其樹的深度比其他3種算法小很多,HT與偏HT都生成完全一致的偏二叉樹結(jié)構(gòu),偏BT生成與HT、偏HT不一樣的二叉樹結(jié)構(gòu),HT、偏HT以及偏BT由于都是偏二叉樹結(jié)構(gòu),其速度都是一致的。 TE過(guò)程是由Downs和Vogel[14]提出的一個(gè)仿真化工過(guò)程,根據(jù)伊斯曼化學(xué)公司的實(shí)際工藝流程模擬實(shí)現(xiàn)而來(lái),具有復(fù)雜多變、非性線的特點(diǎn)。TEP(Tennessee Eastman Process, TEP)包括:化學(xué)反應(yīng)器、冷凝器、壓縮機(jī)、氣液分離器、汽提塔這5個(gè)運(yùn)行單元和A,B,C,D,E,F,G,H這8種成分,A,C,D,E 4種生產(chǎn)原料和不參與反應(yīng)的惰性成分B投入裝置生成產(chǎn)品G和H,F(xiàn)是反應(yīng)過(guò)程中的副產(chǎn)品。TE過(guò)程含有41個(gè)測(cè)量變量(22個(gè)連續(xù)變量、19個(gè)成分變量)和12個(gè)操作變量,由于第12個(gè)操作變量(攪拌速度)是恒定值,所以TE過(guò)程共有52個(gè)可控的過(guò)程變量。除正常運(yùn)行狀態(tài)外,TE過(guò)程包括20個(gè)典型故障,其中有5個(gè)未知故障,本文利用15個(gè)已知故障進(jìn)行實(shí)驗(yàn),仿真產(chǎn)生7 700條訓(xùn)練數(shù)據(jù),其中500條是無(wú)故障數(shù)據(jù),各個(gè)故障類別均是480條數(shù)據(jù);12 960條測(cè)試數(shù)據(jù),960條無(wú)故障數(shù)據(jù),各個(gè)故障類別均是800條數(shù)據(jù)。 TE過(guò)程含有大量的監(jiān)控工藝參數(shù),這些工藝參數(shù)之間存在較強(qiáng)的相關(guān)性,并且反應(yīng)器溫度、壓力、原料進(jìn)料量等容易發(fā)生階躍變化,呈現(xiàn)出強(qiáng)非線性。而核主成分分析通過(guò)將原始數(shù)據(jù)映射到高維空間進(jìn)行主成分分析,達(dá)到線性可分和特征降維的效果,在過(guò)程監(jiān)測(cè)領(lǐng)域得到廣泛應(yīng)用。通過(guò)核主成分分析,選取少數(shù)的核主成分就可以表征過(guò)程主要的變化信息,實(shí)現(xiàn)過(guò)程特征提取,縮短了支持向量機(jī)的訓(xùn)練時(shí)間和訓(xùn)練精度。本文核主成分分析采用徑向基核函數(shù),特征值貢獻(xiàn)率確定為95%,核參數(shù)通過(guò)達(dá)到貢獻(xiàn)率時(shí)所需核主成分?jǐn)?shù)最少與支持向量機(jī)訓(xùn)練結(jié)果最優(yōu)共同經(jīng)驗(yàn)確定γ=2-12,選取23個(gè)核主成分。核主成分分析結(jié)果如表5所示。 表5 TEP訓(xùn)練樣本核主成分分析結(jié)果Table 5 Analysis results of kernel principal component in TEP training samples 將原始訓(xùn)練集和測(cè)試集通過(guò)核主成分變換成新的訓(xùn)練集和測(cè)試集,對(duì)于每個(gè)算法選擇其十折交叉驗(yàn)證的平均分類精度最好情況下對(duì)應(yīng)的懲罰參數(shù)C和核函數(shù)參數(shù)γ。對(duì)于本文算法的每個(gè)兩類問題,如果正類和負(fù)類樣本數(shù)目差別太大,則令C1=n1×C/n,C2=n2×C/n,其中n1和n2分別表示兩類問題中的正、負(fù)類樣本數(shù)目,n=n1+n2。各算法的實(shí)驗(yàn)結(jié)果如表6所示。 表6 各算法故障診斷識(shí)別準(zhǔn)確率Table 6 Recognition accuracy of fault diagnosis of each algorithm (1)在分析類間差異性估計(jì)策略的基礎(chǔ)之上,基于帕累托原則以核心圈樣本最近類間距離和類內(nèi)計(jì)算半徑圈樣本平均密度建立了類間差異性估計(jì)策略,提出了改進(jìn)二叉樹SVM的算法步驟。 (2)利用標(biāo)準(zhǔn)數(shù)據(jù)集,通過(guò)與其他SVM多類分類方法比較,所提算法識(shí)別準(zhǔn)確率高,訓(xùn)練和測(cè)試時(shí)間短,驗(yàn)證了該算法的優(yōu)越性。 (3)基于核主成分分析提取TE過(guò)程故障特征,應(yīng)用改進(jìn)的完全二叉樹SVM進(jìn)行故障診斷,收到了較傳統(tǒng)SVM多類分類算法更好的故障識(shí)別率。 [1] VAPNIK V N. The nature of statistical learningtheory[M]. NewYork:Springer,1995. [2] HSU C W, LIN C J. A comparison of methods for multiclass support vector machines[J]. IEEE Transactions on Neural Networks, 2002,13(2):415- 425. [3] PLATT J C, CRISTIANINI N, SHAWE TAYLOR J. Large margin DAGs for multiclass classification[J]. In:Advances in Neural Information Processing Systems,MIT press,2000,12:547-553. [4] CHEONG S, OH S H, LEE S Y. Support vector machines with binary tree architecture for multiclass classification[J]. Neural Information Processing Letters and Reviews,2004,2(3):47-51. [5] XIA S Y, LI J X, XIA L Z, et al.Tree structured support vector machines for multiclass classification[A]// Lecture Notes in Computer Science[C].Berlin,Heidelberg:Springer-Verlag,2007:392-398. [6] 唐發(fā)明,王仲東,陳綿云.支持向量機(jī)多類分類算法研究[J].控制與決策,2005,20(7):746-749. [7] 趙海洋,徐敏強(qiáng),王金東.改進(jìn)二叉樹支持向量機(jī)及其故障診斷方法研究[J].振動(dòng)工程學(xué)報(bào),2013,26(5):764-770. [8] 羅愛民,沈才洪,易彬,等.基于改進(jìn)二叉樹多分類SVM的焊縫缺陷分類方法[J].焊接學(xué)報(bào),2010,31(7):51-54. [9] 謝娟英,張兵樹,汪萬(wàn)紫.基于雙支持向量機(jī)的偏二叉樹多類分類算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,47(4):354-363. [10] 聶盼盼,臧洌,劉雷雷.基于對(duì)支持向量機(jī)的多類分類算法在入侵檢測(cè)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2013,33(2):426-429. [11] 朱新才,鄧星,周雄,等.二叉樹支持向量機(jī)的旋轉(zhuǎn)機(jī)械故障診斷[J].重慶大學(xué)學(xué)報(bào),2013,36(7):21-26. [12] 李宏光,夏麗君.改進(jìn)的FP-growth算法及其在TE過(guò)程故障診斷中的應(yīng)用[J].北京工業(yè)大學(xué)學(xué)報(bào),2016,42(5):697-706. [13] MURPHY P M, AHA D W. UCI repository of machine learning databases[EB/OL]. http://www.ics.uci.edu/mlearn/MLRepository.html. [14] DOWNS J J, VOGEL E F.A plantwide industrial process control problem[J]. Computers and chemical engineering,1993,17(3):245-255.2 標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)現(xiàn)
2.2 實(shí)驗(yàn)結(jié)果分析
3 TE過(guò)程故障診斷
3.1 TEP簡(jiǎn)介
3.2 故障特征提取
3.3 TEP故障診斷
4 結(jié)論