梁勝杰,張志華,高紹忠,胡俊波,李大偉
(1.91697部隊,山東 青島 266405;2.海軍工程大學(xué) 科研部,武漢 430033;3.91550部隊,遼寧 大連116023)
基于變點分析思想的高維機械噪聲數(shù)據(jù)本征維估計方法
梁勝杰1,張志華2,高紹忠1,胡俊波2,李大偉3
(1.91697部隊,山東 青島 266405;2.海軍工程大學(xué) 科研部,武漢 430033;3.91550部隊,遼寧 大連116023)
利用變點分析思想,針對高維數(shù)據(jù)協(xié)方差矩陣的特征值曲線特點,提出一種本征維估計方法:基于均值估計的特征值變點法,并應(yīng)用于某雙層圓柱殼體的機械噪聲數(shù)據(jù)處理中。通過與其他現(xiàn)有常用方法的比較分析,驗證了基于均值估計特征值變點法的可行性。結(jié)果顯示:基于均值估計的特征值變點法理論簡單、計算簡便,計算結(jié)果客觀、合理,對某雙層圓柱殼體機械噪聲數(shù)據(jù)的處理效果較好。
高維數(shù)據(jù);本征維;變點分析;判別分析;機械噪聲數(shù)據(jù)
智能計算技術(shù)的發(fā)展使得工程上待處理的數(shù)據(jù)對象變得越來越復(fù)雜,數(shù)據(jù)維數(shù)越來越高,如遙感圖像數(shù)據(jù)、機械振動信號、雷達目標信號、地震資料數(shù)據(jù)等等。高維數(shù)據(jù)的特征空間中通常含有許多冗余特征,這些特征增加了學(xué)習(xí)、訓(xùn)練的時間及空間復(fù)雜度,降低了分析處理的精度。因此,在對高維數(shù)據(jù)進行分析前,應(yīng)進行降維預(yù)處理[1]。
降維是指從原始數(shù)據(jù)較多的特征量中利用數(shù)學(xué)統(tǒng)計方法提取出具有代表意義的典型特征變量,以達到簡化數(shù)據(jù)的目的。常用方法如主成分分析法、因子分析法等。為敘述方便,我們將提取出來的典型特征量稱為本征特征量(如主成分分析法中的主元、因子分析法中的因子等),典型特征量的個數(shù)稱為本征維。降維過程中,一個重要步驟就是確定本征維,如主成分分析方法中的主元數(shù)目[2]。錯誤的本征維(低估或高估)將導(dǎo)致數(shù)據(jù)分析結(jié)果的錯誤,如低估本征維將導(dǎo)致有用信息的損失及造成對計算結(jié)果本質(zhì)的曲解;高估本征維將保留具有較少重要載荷的特征量,這些特征量很難被解釋其意義[3]。
目前本征維估計方法主要分為兩類:基于特征值的估計方法和基于分形思想的估計方法?;诜中嗡枷氲墓烙嫹椒梢暂^準確地估計出數(shù)據(jù)的本征維[4],但為了獲得D維數(shù)據(jù)準確的本征維,要求觀測樣本量滿足的條件,樣本量過大,大大增加了試驗難度;基于特征值的估計方法原理簡單、計算方便,在工程上得到廣泛應(yīng)用,常用方法如以“特征值大于1”為標準的方法(Eigenvalue-greaterthan-one rule,K1法)[5]、平行分析法(Parallel Analysis,PA法)[6],碎石圖檢驗法(Scree Test,SCREE法)[7],最小平均偏相關(guān)法(Minimum Average Partial,MAP法)[8-9]和累計貢獻率法(Proportion of total variation,PTV法)[10]等。因此,本文將基于特征值研究高維數(shù)據(jù)的本征維估計方法。
基于特征值的估計方法均依據(jù)原始數(shù)據(jù)協(xié)方差矩陣的特征值進行計算,其原理不同,估計結(jié)果也不盡相同,各有特點:K1法過于主觀,人們無法解釋為什么認為特征值1.01對應(yīng)的主元是重要的,而認為特征值0.99對應(yīng)的主元不重要[11];PA法是一種蒙特卡洛模擬法,計算中將花費大量時間,不適宜處理大樣本和高維數(shù)據(jù)集;SCREE法比K1法更加主觀和模棱兩可,尤其是在“肘點”不明顯或多于兩個“肘點”情況下[12];MAP法相比上述幾種方法來說能夠得到較精確的結(jié)果,但要求主元中含有較多的原始變量[3],不適宜處理維數(shù)較低的數(shù)據(jù)集;PTV法在確定累計貢獻率標準時同樣具有較強的主觀性,如可選50%[13]、80%[14]或95%[15]等。由于上述方法的種種缺點,導(dǎo)致目前比較普遍使用的統(tǒng)計程序也未能為使用者提供最精確的本征維估計方法[16]。
鑒于上述問題,本文將針對特征值曲線簡單、直觀的優(yōu)點,利用統(tǒng)計學(xué)中成熟的變點分析思想,提出一種明確、客觀的高維數(shù)據(jù)本征維估計方法:基于均值估計的特征值變點法(Eigenvalue Chang-point Method based mean estimating,meanECP),并應(yīng)用于某雙層圓柱殼體機械噪聲數(shù)據(jù)的預(yù)處理之中。與現(xiàn)有方法相比,本文方法效果較好。
變點分析研究始于20世紀50年代。自誕生以來,變點問題一直是統(tǒng)計中的一個熱門話題。變點技術(shù)早期主要應(yīng)用于工業(yè)自動控制領(lǐng)域,隨著計算機技術(shù)的發(fā)展,現(xiàn)在已在醫(yī)學(xué)、金融、水文研究、交通流研究等[17-21]領(lǐng)域得到廣泛應(yīng)用。
1.1 特征值變點定義
變點是指“模型中的某個或某些量起突然變化之點”[22]。這種突然變化往往反映事物的某種質(zhì)的變化。對工程中的高維數(shù)據(jù)來說,在利用降維方法降維過程中,首先需要計算其協(xié)方差矩陣的特征值,并將這些特征值按從大至小的次序排列。則在高維數(shù)據(jù)協(xié)方差矩陣的特征值曲線中某個特征值起突然變化之點就是變點,就稱為特征值變點。
利用特征值變點可以將高維數(shù)據(jù)協(xié)方差矩陣特征值對應(yīng)的特征量按典型和非典型分開,得到的典型特征量即認為是原始數(shù)據(jù)經(jīng)降維后的本征維,典型特征量的個數(shù)即原始數(shù)據(jù)的本征維。特征值變點分析的主要任務(wù)是對這種突變點給予客觀的劃分標準。事實上,SCREE法利用觀測所確定的“肘點”也是特征值曲線的一個變點,而此變點是通過觀察碎石圖得到,受主觀影響較大。本文將利用變點分析的統(tǒng)計知識給出特征值曲線變點的客觀數(shù)值解。
1.2 數(shù)學(xué)模型
變點分析包括兩類模型:離散型和連續(xù)型。已知高維數(shù)據(jù)協(xié)方差矩陣的特征值是按從大到小排列的離散值,本文將建立離散型特征值變點分析模型。設(shè)λ1,λ2,…,λn為來自母體的特征值抽樣,且
λ1,λ2,…,λn之間相互獨立,若
現(xiàn)在成熟的變點分析方法有:最小二乘法、極大似然法、Bayes法和局部比較法等[23]。本文將在上述方法的基礎(chǔ)上,利用變點分析思想提出一種用于估計高維數(shù)據(jù)本征維的特征值變點法。
1.3 均值估計法
對于相互獨立的λ1,λ2,…,λn特征值抽樣,設(shè)
其中:a1≠a2,隨機誤差ξ1,ξ2,…,ξn相互獨立,期望為0,方差為σ2,則稱k為特征值變點。
在特征值曲線上取第i個特征值點,位置坐標為(i,λi),記為b點。其前后兩個特征值點c點:(i+ 1,λi+1)和a點記線段與夾角為B。
由 λi-1≥λi≥λi+1可知如圖1中(Ⅰ)、(Ⅱ)兩種情況所示。
圖1 相鄰三個特征值點夾角示意圖Fig.1 Sketch map of included angle between the three contiguous eigenvalue points
當(dāng)B=π時,點a、b、c在同一直線上,此時無變點,三點對應(yīng)的特征值均值相同。如圖1(Ⅲ)所示;隨著夾角B逐漸趨向于當(dāng)λi-1=λi≠λi+1或λi-1≠λi=λi+1時,B達到最小值,此時變點最明顯,變點位置為i。由上述分析可知:當(dāng)無變點時,有即點a、c的縱坐標均值估計與點b的橫坐標相等;當(dāng)有變點時即點a、c的縱坐標均值估計與點b的橫坐標存在一定誤差,且當(dāng)時誤差最大,此時變點最明顯。因此,本文將利用均值估計誤差Δλi(1≤i≤n)對變點位置進行估計:
除變點估計技術(shù)外,變點分析方法還應(yīng)包括變點檢驗技術(shù)[22]。由于本文處理的對象是特征值曲線,且主要是通過估計一個較小的本征維達到降低觀測數(shù)據(jù)維數(shù)的目的,故認為該特征值曲線存在變點,而不需要做變點檢驗。
1.4 估計步驟
設(shè)高維數(shù)據(jù)Y是一n×N型矩陣,即
其中:n為維數(shù),N為樣本個數(shù)。為簡化敘述,通常假定Y是經(jīng)過中心化后樣本矩陣。則meanECP法估計高維數(shù)據(jù)本征維的步驟如下:
(1)標準化高維數(shù)據(jù)矩陣:
其中:Q是Y的協(xié)方差矩陣平方根的逆矩陣;
(3)計算
其中:i=2,…,n-1;
將meanECP法用于某雙層圓柱殼體機械噪聲數(shù)據(jù)的本征維估計中,并與其它常用方法進行比較。
2.1 數(shù)據(jù)來源
某雙層圓柱殼體的機械振動噪聲數(shù)據(jù)主要來自三個設(shè)備:海水泵、電機和激振器。在殼體的不同位置布置19個加速度傳感器(每個傳感器稱為一通道),設(shè)定八個不同工況,如表1所示[24]。
設(shè)定采樣時間8 s,采樣頻率2 048 Hz,則每一工況在每一通道上都可測得16 384個樣本數(shù)據(jù)。
由于同一個通道下的采樣點較多,且特征單一,不易分析數(shù)據(jù)的規(guī)律特點,因此需要對樣本點進行預(yù)處理:
(1)選定信號處理中常用的10個特征量[24]:波形因數(shù),峰值因數(shù),脈沖因數(shù),振動加速度總級,期望,方差,標準差,三階累量,四階累量,有效值;
(2)以2 048個相鄰樣本點為一個樣本段,并以70個樣本點為步長,將樣本段逐步向后平移,可在16 384個樣本點內(nèi)得到約205個樣本段;
(3)每一工況下隨機選擇100個樣本段,在每個樣本段內(nèi)計算選定的十個特征量。
本文是為了驗證基于變點分析思想估計本征維的可行性,及比較與現(xiàn)有方法的效果好壞,故只選取10個常用的特征量和隨機抽取了100個樣本段作為舉例,實際上可以選擇更多的特征量和樣本段。
預(yù)處理后,在每一工況下的每一通道上可得到一個10*100噪聲數(shù)據(jù)。其中,10是維數(shù),100是樣本量。則在八種工況下,每一條通道上可得到一個10*800數(shù)據(jù)。
2.2 計算結(jié)果
對2.1節(jié)的試驗數(shù)據(jù),分別使用K1法、PA法、SCREE法、MAP法、PTV法及meanECP法進行處理,得到噪聲數(shù)據(jù)在19條通道上的本征維,及不同方法的程序運行時間(程序運行平臺為Matlab R2009a),結(jié)果如表2和表3所示。
表2 本征維估計結(jié)果Tab.2 Latent characteristic variables dimensionality
表3 不同估計方法運算時間(單位:秒)Tab.3 Computing time of different methods(Unit:s)
續(xù)表3
表3中最后一行“時間”表示不同方法在19條通道上程序執(zhí)行時間的平均值。為直觀比較不同方法效果,圖2~7以第7通道為例,顯示了6種方法的本征維估計結(jié)果。其中PA法以蒙特卡洛模擬的特征值均值線和0.95百分位線為標準[25],兩個標準估計的結(jié)果相同;MAP法中原始MAP指的是Velicer于1976年提出的以偏相關(guān)系數(shù)平方的最小平均值為標準,改進MAP是指Velicer于2000年提出的以偏相關(guān)系數(shù)四次方的最小平均值為標準;PTV法中以0.95為標準[15]。
圖2 第七通道上K1法估計結(jié)果圖Fig.2 Evaluating result of K1 method in seventh sensor
圖3 第七通道上PA法估計結(jié)果圖Fig.3 Evaluating result of PA method in seventh sensor
圖4 第七通道上SCREE法估計結(jié)果圖Fig.4 Evaluating result of SCREE method in seventh sensor
圖5 第七通道上MAP法估計結(jié)果圖Fig.5 Evaluating result of MAP method in seventh sensor
圖6 第七通道上PTV法估計結(jié)果圖Fig.6 Evaluating result of PTV method in seventh sensor
圖7 第七通道上meanECP法估計結(jié)果圖Fig.7 Evaluating result of meanECP method in seventh sensor
2.3 比較分析
表2中結(jié)果顯示,MAP方法估計的本征維較其他方法大,且在不同通道上的變化波動也較大;同時,第18、19通道上估計的本征維為0,說明MAP方法對這兩通道不適用;由K1法、PA法、SCREE法、PTV法的計算結(jié)果可知,在所有19條通道上的某雙層圓柱殼體機械噪聲數(shù)據(jù)的本征維在2與3范圍內(nèi),由meanECP法估計的本征維同樣也在2、3兩位置浮動(只在第18通道上估計結(jié)果為4),從而驗證了meanECP的可行性。
由表3可知,PA方法的程序運算時間明顯高于其他方法,說明該法不適宜處理大樣本或高維數(shù)的觀測數(shù)據(jù)。同時,由于SCREE法與PTV法受主觀影響較大。因此,對于某雙層圓柱殼體機械噪聲數(shù)據(jù)來說K1法與meanECP法較合適。
為進一步比較K1法與ECP法的效果,下面將利用判別分析方法確定噪聲數(shù)據(jù)在兩種方法估計的本征維下對每一條通道上來自不同工況樣本的判別分析結(jié)果?;舅枷胧牵合薅骋煌ǖ?,對該通道上來自八個不同工況的100個觀測樣本組成的10*800數(shù)據(jù)矩陣進行主成分分析,并分別利用K1法和meanECP法估計本征維,然后根據(jù)估計的本征維對來自不同工況的樣本利用判別分析進行分類,依據(jù)分類正確率的大小比較估計效果:分類正確率越高,說明估計的本征維越合理,估計方法效果越好。19條通道上的判別分析結(jié)果如表4所示(程序運行平臺:SPSS 17.0)。
表4 K1法與meanECP法的判別分析結(jié)果比較Tab.4 Results of discrimnant analysis between the K1 method and the meanECP method
表4中,除第17、18通道外,其余通道上均顯示meanECP法的估計效果比K1法的估計效果好。
基于均值估計的特征值變點法是在現(xiàn)有常用本征維估計方法基礎(chǔ)上,充分利用變點分析思想提出來的。通過對現(xiàn)有變點位置估計技術(shù)的改進,基于均值估計提出了一種針對特征值曲線特點的變點估計方法。通過在某雙層圓柱殼體機械噪聲數(shù)據(jù)中的實際應(yīng)用,驗證了基于均值估計的特征值變點法(meanECP法)在高維數(shù)據(jù)本征維估計中的可行性。最后通過分析,與現(xiàn)有常用的本征維估計方法進行了比較。結(jié)果顯示:meanECP法理論簡單、計算簡便,計算結(jié)果客觀、合理,對某雙層圓柱殼體機械噪聲數(shù)據(jù)具有較好的處理效果。
參 考 文 獻:
[1]van der Maaten L J P,Postma E O,van den Herik H J.Dimensionality reduction:a comparative review[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009(10):1-35.
[2]Rubén D L,Pedro V.Determining the number of factors to retain in EFA:An easy-to-use computer program for carrying out Parallel Analysis[J].Practical Assessment,Research&Evaluation,2007,12(2):1-11.
[3]Zwick W R,Velicer W F.Comparison of five rules for determining the number of components to retain[J].Psychological Bulletin,1986,99(3):432-442.
[4]Camastra F,Vinciarelli A.Estimating the intrinsic dimension of data with a fractal-based method[J].IEEE Trans.Pattern Anal Mach Intell,2002,24(10):1404-1407.
[5]Kaiser H F.The application of electronic computers to factor analysis[J].Educational and Psychological Measurement, 1960,20:141-151.
[6]Horn J L.A rationale and test for the number of factors in factor analysis[J].Psychometrika,1965,30(2):179-185.
[7]Cattell R B.The scree test for the number of factors[J].Multivariate Behavioral Research,1966(1):245-276.
[8]Velicer W F.Determining the number of components from the matrix of partial correlations[J].Psychometrika,1976,41 (3):321-327.
[9]Velicer W F,Eaton C A,Fava J L.Construct explication through factor or component analysis:A review and evaluation of alternative procedures for determining the number of factors or components[M].Problems and solutions in human assessment:Honoring Douglas N.Jackson at seventy,Boston:Kluwer Academic Publishers,2000:41-71.
[10]Jolliffe I T.Principal component analysis(second edition)[M].New York:Springer-Verlag,2002.
[11]Fabrigar L R,Wegener D T,Maccallum R C,et al.Evaluating the use of exploratory factor analysis in psychological research[J].Psychological Methods,1999(3):272-299.
[12]Hayton J C,Allen D G,Scarpello V.Factor retention decisions in exploratory factor analysis:a tutorial on parallel analysis[J].Organizational Research Methods,2004,7:191-205.
[13]Streiner D L.Figuring out factors:The use and misuse of factor analysis[J].Canadian Journal of Psychiatry,1994,39: 135-140.
[14]Floyd F J,Widaman K F.Factor analysis in the development and refinement of clinical assessment instruments[J].Psychological Assessment,1995,7:286-299.
[15]Jackson D A.Stopping rules in principal components analysis:a comparison of heuristical and statistical approaches[J]. Ecology,1993,74(8):2204-2214.
[16]Costello A B,Osborne J W.Best practices in exploratory factor analysis:four recommendations for getting the most from your analysis[J].Practical Assessment Research&Evaluation,2005,10(7):1-9.
[17]Andreou E,Ghysels E.Structural breaks in financial time series[M].Handbook of Financial Time Series,Berlin Heidelberg:Springer-Verlag,2009:6,839-870.
[18]關(guān)文韜,金百鎖,繆柏其.原油價格與黃金價格的變點分析[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2014,44(6):502-507. Guan Wentao,Jin Baisuo,Miao Baiqi.Change-point analysis of crude oil and gold prices[J].Journal of University of Science and Technology of China,2014,44(6):502-507.
[19]熊立華,于坤霞,董磊華等.水文時間序列變點分析的可靠性檢驗[J].武漢大學(xué)學(xué)報(工學(xué)版),2011,44(2):137-141. Xiong Lihua,Yu Kunxia,Dong Leihua,et al.Reliability test for detecting change point of hydrological time series[J]. Engineering Journal of Wuhan University,2011,44(2):137-141.
[20]危潤初,肖長來,方 樟.黑龍江建三江地區(qū)地下水動態(tài)趨勢突變點分析[J].吉林大學(xué)學(xué)報:地球科學(xué)版,2016,46 (1):202-210. Wei Runchu,Xiao Changlai,Fang Zhang.Trends mutation nodes of groundwater dynamic in jiangsanjiang area of heilongjiang province[J].Journal of Jilin University(Earth Science Edition),2016,46(1):202-210.
[21]Céline L,Fran?ois R.Detection and localization of change-points in high-dimensional network traffic data[J].The Annals of Applied Statistics,2009,3(2):637-662.
[22]陳希孺.變點統(tǒng)計分析簡介(I)[J].數(shù)理統(tǒng)計與管理,1991,10(1):55-58. Chen Xiru.The overview of statistical analysis and case study of change points(I)[J].Journal of Applied Statistics and Management,1991,10(1):55-58.
[23]Csorgo M,Horvath L.Limit theorems in change-point analysis[M].London:John Wiley&Sons,1997.
[24]張志華,梁勝杰,尹曰建等.基于SVM的雙層圓柱殼體機械振動噪聲數(shù)據(jù)特征提取方法比較[J].船舶力學(xué),2015,19 (1-2):215-220. Zhang Zhihua,Liang Shengjie,Yin Yuejian,et al.Comparison of feature extraction methods on mechanical vibrating noise of ribbed cylindrical double-shells based SVM[J].Journal of Ship Mechanics,2015,19(1-2):215-220.
[25]Raiche G,Riopel M,Blais J G.Non Graphical Solutions for the Cattel’s Scree Test[C]//International Meeting of the Psychometric Society(IMPS 2006).HEC,Montreal,2006.
A method of latent characteristic variables dimensionality evaluating of High-dimensional mechanical noise data based Change-Point analysis
LIANG Sheng-jie1,ZHANG Zhi-hua2,GAO Shao-zhong1,HU Jun-bo2,LI Da-wei3
(1.91697 PLA troops,Qingdao 266405,China;2.Dept.of Scientific Research,Naval University of Engineering, Wuhan 430033,China;3.91550 PLA troops,Dalian 116023,China)
According to eigenvalue-curve’s characteristic of covariance matrix from a High-dimensional data,a new method of latent characteristic variables dimensionality evaluating is proposed based change-point analysis technology,which called Eigenvalue Change-point method based mean estimating,and then apply it to deal with the mechanical noise data of ribbed cylindrical double-shells.Through the analysis comparing with other methods,the proposed method was validated in its feasibility.It is also verified that Eigenvalue Change-point method based mean estimating is simply in theory and convenient in computing;its compute result is impersonal and reasonable;meanwhile,it has attained a preferable result when dealing with the mechanical noise data of a ribbed cylindrical double-shells.
High-dimensional data;latent characteristic variables dimensionality;Change-Point Analysis; Discriminant Analysis;mechanical noise data
TB53 O212.4
A
10.3969/j.issn.1007-7294.2016.07.015
1007-7294(2016)11-1485-09
2016-07-20
國家自然科學(xué)基金(50775218)
梁勝杰(1981-),男,博士,E-mail:lsj990308@163.com;張志華(1965-),男,教授,博士生導(dǎo)師;高紹忠(1963-),男,高級工程師;胡俊波(1982-),男,博士;李大偉(1985-),男,博士。