第一作者盧世坤男,碩士,1988年11月生
通信作者李夕海男,博士,副教授,1975年月生
郵箱:xihai_li@163.com
一種基于Fisher投影的時間序列非線性檢驗
盧世坤,李夕海,牛超,曾小牛,楊曉蕓
(第二炮兵工程大學907教研室,西安710025)
摘要:為進一步提升替代數據法非線性檢驗的性能和穩(wěn)定性,引入Fisher投影將不同的非線性檢驗統(tǒng)計量進行組合并投影,使不同非線性統(tǒng)計量的檢驗性能互補。利用6類非線性混沌序列和線性高斯白噪聲序列進行實驗,檢驗該方法的有效性,結果表明,基于Fisher投影的替代數據法對各類信號正確檢驗的能力明顯提升,且穩(wěn)定性較好,具有較強的數據適應性;尤其是三階自協(xié)方差統(tǒng)計量、峭度和三階自相關統(tǒng)計量的三維組合,相對于其他的統(tǒng)計量組合,對非線性混沌序列及線性高斯白噪聲序列的檢驗能力更強,數據適應性更高。
關鍵詞:非線性檢驗;替代數據;檢驗統(tǒng)計量;Fisher投影
基金項目:國家自然科學基金(41374154);中國博士后科學基金特別資助(2012T50882);中國博士后科學基金面上資助(201150M1554)
收稿日期:2013-07-02修改稿收到日期:2013-12-19
中圖分類號:TN911.72文獻標志碼:A
New method for detecting nonlinearity of time series based on Fisher projection
LUShi-kun,LIXi-hai,NIUChao,ZENGXiao-niu,YANGXiao-yun(Department of 907, Second Artillery Engineering University, Xi’an 710025, China)
Abstract:In order to improve the performance and stability of the surrogate data method, Fisher projection approach was introduced to combine and project different nonlinear statistics. In this way, the performance of different statistics could complement each other. Six kinds of nonlinear chaotic series and linear Gaussian white noise series were used in experiments. The results showed that the performance of the surrogate data method can be significantly improved; the stability and suitability of the method become better, especially, comparing with others, the combination of third-order autocovariance, kurtosis and third-order auocorrelation statistics can get better performance and suitability.
Key words:nonlinear test; surrogate data; test statistics; Fisher projection
目前,時間序列的研究方法主要有兩種[1]:一種是以概率統(tǒng)計學為基礎,用隨機過程理論建立其線性關系模型,如AR模型,ARMA模型等;另一種則是利用非線性動力學方法,其中研究較多的是低自由度的非線性動力系統(tǒng),比如混沌系統(tǒng)。因此用線性還是非線性方法分析實驗獲得的時間序列是理論研究和工程應用的基本問題[2-4],由此非線性檢驗成為任何系統(tǒng)進行非線性動力研究的基礎和前提[5]。
當前判定一個給定時間序列是否含有非線性成分的方法主要有以下兩種情況[1,6-9]:一是在物理機理清楚的工程系統(tǒng)的情況下,通常采用的是直接觀測法、頻閃采樣法、功率譜法和Poincare截面法;另一種情況是對物理機理不清楚的工程系統(tǒng),無法得到系統(tǒng)的動力學模型,可以采用Lyapunov指數法、關聯(lián)維數法和KS檢驗等;其中關聯(lián)維數、Lyapunov指數等特征量的計算量大、計算容易受算法和其他條件的限制,而KS檢驗的前提是待檢驗序列為平穩(wěn)序列。為此,Theiler等[10]提出了替代數據法,用于檢驗時間序列中是否存在非線性成分,該方法通過比較原始數據與線性替代數據的非線性檢驗統(tǒng)計量來判斷時間序列的非線性。
替代數據法作為一種檢驗統(tǒng)計方法,主要由零假設、替代數據生成法和檢驗統(tǒng)計量三部分組成[11]。當前,基于替代數據法的非線性檢驗中,不同的研究對象選用的檢驗統(tǒng)計量不盡相同[12];主要的非線性檢驗統(tǒng)計量有時間反演不可逆量[5]、三階自相關統(tǒng)計量[13]、時間逆不對稱統(tǒng)計量[13]、三階協(xié)方差統(tǒng)計量[14]、峭度[14]等。不同的統(tǒng)計量描述了時間序列不同的非線性特性,為充分發(fā)揮各統(tǒng)計量的檢驗性能,本文從數據融合的角度出發(fā),利用Fisher投影變換,將多個非線性統(tǒng)計量的組合投影變換成一維統(tǒng)計量,作為替代數據法中新的檢驗統(tǒng)計量,結果表明,基于Fisher投影變換的非線性檢驗對各類信號正確檢驗的能力明顯提升,且穩(wěn)定性更好,具有更強的數據適應性,在本文的檢驗過程中替代數據是由以幅度匹配傅里葉變換為基礎的算法(Amplitude Adjusted Fourier Transformed,AAFT)生成。
1數據來源
混沌是一種非線性動力學現(xiàn)象,因此混沌時間序列是一種典型的非線性時間序列,選用了6類常見的混沌時間序列作為非線性分析對象,分別代表6類不同類型的非線性序列[6,15]。
(1)Henon映射,該映射是天文學家Henon從研究球狀云團以及洛倫茲吸引子中得到啟發(fā),其離散型式:xn+1=byn+1-axn2,yn+1=xn。其中本文選用a=1.4,b=0.3,初始值為(0.1 , 0.2)。
(6)Logistic系統(tǒng),是描述昆蟲變化的一個簡單的數學模型——蟲口模型,其離散型式:xn+1=μxn(1-xn)。其中本文選用μ=3.5,x0=0.1。
其中,針對以上每一種混沌時間序列,取變量x,且去掉前面3 000個暫態(tài)點,取隨后1 000個穩(wěn)態(tài)點進行分析,每一類混沌序列選取200組數據進行實驗檢驗,其中100組數據作為訓練樣本,另外100組數據作為測試樣本。另外,產生200組長度為1 000的高斯白噪聲序列作為線性時間序列進行實驗檢驗。
2基于AAFT的替代數據法
Theiler等[10]提出了改進的以幅度匹配傅里葉變換為基礎的替代數據生成算法(AAFT算法),該方法的優(yōu)點是可以絕對保證替代數據與原始數據有相同的時間概率分布,而且其功率譜密度與原始數據相似。
2.1零假設及AAFT算法
替代數據法是根據隨機系統(tǒng)中零假設的思想提出的,即假設測得的數據序列是線性的,并依據該假設產生相應的替代數據集,然后分別計算原始數據和替代數據集的檢驗統(tǒng)計量。若兩者有顯著差異,則拒絕零假設,說明原始數據中應該存在確定的非線性成分[8,16]。
零假設:原始數據是由線性相關隨機過程經靜態(tài)、非線性變換產生。假設原始數據序列為x(n),AAFT算法具體步驟如下:
(1)用偽隨機數發(fā)生器生成高斯序列y(n);
(2)以原始數據x(n)的排列序號(即x(i)在x(n)中由小到大的排列位置)來重新排列噪聲序列,這樣得到的重排噪聲序列既遵循觀測數據的排列順序又具有高斯型幅值分布形式;
(6)按照序列y′(n)的秩來排列原始數據x(n),得到所求的替代數據x′(n)。
2.2非線性檢驗統(tǒng)計量簡介[5,13-14]
(1) 三階自協(xié)方差統(tǒng)計量:
Cor3=
(2)度量時間反轉下的不對稱性:
(2)
式中:τ為時間延遲量,xn為時間序列第n個值,N為時間序列的長度。線性隨機信號在時間反轉下總是對稱的,尤其是當信號的統(tǒng)計特性以功率譜的形式給出的時候,這主要是因為功率譜不包含原信號在時間方向上的信息。
(3)峭度是描述時間逆不對稱性的三階統(tǒng)計量
(3)
式中:τ為時間延遲量,xn為時間序列第n個值,該統(tǒng)計量能夠很好地檢驗時間序列的不對稱性,描述的是隨機信號幅值的波形特征。
(4)三階自相關統(tǒng)計量
TC3(τ1,τ2)=
(4)
式中:τ1,τ2為時間延遲量,令τ2=2τ1,xn為時間序列第n個值。
(5)時間反演不可逆量
(5)
式中:τ為時間延遲量,N為時間序列的長度,xn為時間序列第n個值。
以上5種非線性統(tǒng)計量描述了時間序列不同的非線性特征。為充分發(fā)揮各統(tǒng)計量的檢驗性能,將上述非線性統(tǒng)計量進行二維或多維組合,利用Fisher投影原理進行變換得到新的非線性檢驗統(tǒng)計量,最后利用Henon映射等6類非線性混沌序列和高斯白噪聲序列對其進行驗證計算,其中高斯白噪聲序列作為線性時間序列。
其中非線性特征峭度和時間反演不可逆量的Sigma統(tǒng)計量是相等的,證明過程見附錄,由于Fisher投影是線性變換,因此進行投影后其Sigma統(tǒng)計量仍然相等。將非線性統(tǒng)計量三階自協(xié)方差統(tǒng)計量、時間反轉下的不對稱性度量、峭度和三階自相關統(tǒng)計量分別用序號F1、F2、F3、F4表示。
2.3Sigma檢驗
每組原始序列用AAFT算法對應生成100組替代數據,然后運用Sigma統(tǒng)計檢驗方法進行檢驗。該方法原理如下[17]:
假設滿足零假設序列的檢驗統(tǒng)計量服從正態(tài)分布,To為原始數據統(tǒng)計量的均值,求出替代數據的統(tǒng)計量的均值Ts和方差σs2,計算Sigma檢驗量
(6)
根據數理統(tǒng)計中正態(tài)分布表可以查出檢驗統(tǒng)計量依概率95%拒絕零假設時Sigma=1.96,也就是說Sigma≥1.96意味原始數據拒絕零假設的概率大于95%,實際應用中一般以0.05顯著性水平作為標準,由此得到以下判據:在0.05顯著性水平下Sigma≥1.96時拒絕零假設,即原始數據是非線性的;Sigma<1.96接受零假設,即原始數據是線性的。
3Fisher投影變換原理
Fisher投影是尋找一個投影方向把高維空間的特征投影到一維上,使得同類的樣本集中在一起,不是同一類的樣本盡量分開的一種投影方法。投影后數據點就變得比較密集,從而可以克服由于特征空間維數較高而引起的“維數災難”[18]。
設給定n維訓練樣本x1,x2,…,xN,其中有N1個和N2=N-N1個樣本分別屬于類別w1和w2。為方便計,各類樣本又可以分別記為{xj(1)}和{xj(2)},于是,各類樣本均值矢量mi為
(7)
各類類內離差矩陣Swi和總的類內離差矩陣Sw分別為
(8)
Sw=Sw1+Sw2
(9)
經推導證明可得n維空間到一維空間投影軸的最佳方向u為
u=Sw-1(m1-m2)
(10)
圖1 二維模式向一維空間投影示意圖 Fig.1 Schematic diagram of the projection of two-dimensional model to one dimension
如圖1所示,直觀地,可以認為Fisher投影是將樣本進行線性變換,然后通過投影點的差異最大化,找出使得投影點分離最明顯的映射。本文選取已知性質的 6 類100組長度為1 000的混沌序列分別計算其峭度等非線性特征,并進行隨機組合作為非線性樣本集w1,由于AAFT法生成的替代數據為線性序列[17,19],因此,計算每組非線性樣本對應的一組替代數據的非線性統(tǒng)計量,隨機進行組合,構成線性樣本集w2。
以N維統(tǒng)計量組合為例,其具體實現(xiàn)步驟如下:
步驟1:分別計算 6 類200組混沌序列和高斯白噪聲序列(包括訓練樣本和測試樣本)的時間反演不可逆量等 4 種非線性統(tǒng)計量;
步驟2:將100組訓練樣本的 4 種非線性統(tǒng)計量進行N維隨機組合,作為訓練樣本的特征;
步驟3:對訓練樣本利用Fisher投影原理獲得最佳投影方向μ;
步驟4:將100組測試樣本沿μ進行投影,獲得新的非線性統(tǒng)計量;
步驟5:并利用替代數據法對測試樣本進行非線性檢驗,統(tǒng)計正確檢驗率βi%(i=1,2,…,7,其中1,2,…,6分別代表 6 類混沌序列,7代表高斯白噪聲序列);
其中N=1,2,3,4,最后比較各類組合的檢驗性能。
4實驗及結果分析
將采用Fisher投影獲得的非線性統(tǒng)計量與2.2節(jié)中介紹的傳統(tǒng)的統(tǒng)計量進行對比計算,檢驗在不同檢驗統(tǒng)計量的條件下替代數據法的非線性檢驗性能,其中檢驗性能用6類非線性混沌序列(每類混沌序列含有100組長度為1 000的數據)和高斯白噪聲序列(100組長度為1 000的數據)的正確檢驗率βi%(i=1,2,…,7)進行表征,βi的均值和標準差分別反映了該統(tǒng)計量非線性檢驗的整體性能和穩(wěn)定性,以及該統(tǒng)計量對不同數據檢驗的適應性。
傳統(tǒng)的非線性統(tǒng)計量檢驗性能如表1和圖2所示。
表1 一維統(tǒng)計量的非線性檢驗性能
通過表1和圖2可知,不同的非線性統(tǒng)計量對同一序列的檢驗性能不同,其中三階自協(xié)方差統(tǒng)計量對各類序列正確檢驗率的百分數均值最高,但僅為73,因此傳統(tǒng)的檢驗統(tǒng)計量檢驗性能較差;另外,同一非線性統(tǒng)計量對不同類型的各類序列的檢驗性能也不相同,而且差別較大,如三階自協(xié)方差統(tǒng)計量,其正確檢驗率的標準差達到38.51,由此說明應用單一非線性統(tǒng)計量對不同數據檢驗的適應性較差。
圖2 一維統(tǒng)計量對混沌和白噪聲序列 正確檢驗率百分數的均值及標準差 Fig.2 The mean and standard deviation of the percentage of the correct detecting rate of one-dimensional statistics for chaos and white noise series
將4種非線性統(tǒng)計量進行兩兩組合(產生6類組合),利用Fisher投影原理變換成一維統(tǒng)計量,得到的檢驗結果如表2和圖3所示。
表2 二維統(tǒng)計量組合Fisher投影變換后的非線性檢驗性能
通過表2和圖3可知,在6類二維統(tǒng)計量組合中,統(tǒng)計量組合(F1,F(xiàn)3)進行Fisher投影后βi的均值最大,為92.71,標準差最小,為6.68,因此,在所有二維組合中,組合(F1,F(xiàn)3)投影后的檢驗性能最好,且對各類數據的檢驗性能的穩(wěn)定性最高,相對于一維統(tǒng)計量,其檢驗性能明顯提升。由此可以說明,將傳統(tǒng)統(tǒng)計量進行二維組合并利用Fisher投影獲得的新的檢驗統(tǒng)計量,可以提升替代數據法對各類序列的檢驗性能和對各類數據檢驗的適應性。
圖3 二維統(tǒng)計量對混沌和白噪聲序列 正確檢驗率百分數的均值及標準差 Fig.3 The mean and standard deviation of the percentage of the correct detecting rate of two-dimensional statistics for chaos and white noise series
將4種傳統(tǒng)統(tǒng)計量隨機選擇3個進行組合(產生4種組合),然后利用Fisher投影原理變換生成一維檢驗統(tǒng)計量,分別利用6類混沌序列和高斯白噪聲序列進行檢驗,得到的結果如表3所示。
由表3可知,在所有的三維統(tǒng)計量組合中,統(tǒng)計量組合(F1,F(xiàn)3,F(xiàn)4)進行Fisher投影后對混沌序列和高斯白噪聲序列進行檢驗得到的βi的均值最高,為94.57,即其檢驗性能最好;標準差最小,為5.22,即該特征組合的檢驗穩(wěn)定性最好。與表2中最優(yōu)的統(tǒng)計量組合(F1,F(xiàn)3)相比檢驗的性能提升,而且穩(wěn)定性增強。
將三階自協(xié)方差統(tǒng)計量、時間反轉下的不對稱性度量、峭度和三階自相關統(tǒng)計量等傳統(tǒng)的檢驗統(tǒng)計量組合到一起,進行投影變換后獲得其檢驗結果如表4所示。
由表3和表4對比可知,除在Henon映射這一類非線性序列中,四維統(tǒng)計量組合相對于三維統(tǒng)計量組合對各類序列的檢驗性能并沒有提升,對于Quadratic映射、Logistic系統(tǒng)和高斯白噪聲序列其檢驗性能均下降。對于四維統(tǒng)計量組合,其βi的均值為91.14,標準差為9.65,相對于三維統(tǒng)計量組合(F1,F(xiàn)3,F(xiàn)4),其檢驗的性能和穩(wěn)定性均下降,數據適應性變差。
表3 三維統(tǒng)計量組合Fisher投影變換后的非線性檢驗性能
表4 四維統(tǒng)計量組合Fisher投影變換后的非線性檢驗性能
綜上所述,與傳統(tǒng)的檢驗統(tǒng)計量相比,將統(tǒng)計量組合后進行Fisher投影獲得的新的檢驗統(tǒng)計量,可以提升替代數據法檢驗的性能和穩(wěn)定性。另外,就本文涉及到的5種非線性統(tǒng)計量而言,相對于其他的統(tǒng)計量組合,三階自協(xié)方差統(tǒng)計量、峭度和三階自相關統(tǒng)計量的三維組合,對非線性混沌序列及線性高斯白噪聲序列的檢驗性能和穩(wěn)定性更高,對各類數據的適應性更好。
5結論
不同的檢驗統(tǒng)計量對替代數據法的非線性檢驗影響較大。為充分發(fā)揮不同檢驗統(tǒng)計量的優(yōu)勢,利用Fisher投影將多維的統(tǒng)計量組合投影成一維,作為新的統(tǒng)計量進行非線性檢驗,使不同檢驗統(tǒng)計量的檢驗性能互補。實驗結果表明:
(1)將檢驗統(tǒng)計量組合后進行Fisher投影獲得新的檢驗統(tǒng)計量,可以提高替代數據法的檢驗能力和對各類數據的適應性;
(2)就本文涉及到的5種傳統(tǒng)檢驗統(tǒng)計量而言,相對于其他統(tǒng)計量組合,三階自協(xié)方差統(tǒng)計量、峭度和三階自相關統(tǒng)計量的三維組合進行Fisher投影后的檢驗性能和對各類數據的適應性更高;
(3)對于非線性檢驗統(tǒng)計量組合,并不是維數越多其檢驗性能越高,以本文為例,四維統(tǒng)計量組合相對于三維,其檢驗性能和穩(wěn)定性均下降。
參考文獻
[1]宋愛軍,韓雷. 熱超聲鍵合換能系統(tǒng)動力學特性的非線性檢驗[J]. 物理學報,2007,56(7):3820-3826.
SONG Ai-jun, HAN Lei. Study of nonlinear identification of time series of vibration on transducer in ultrasonic bonding system [J]. Acta Physica sinica, 2007,56(7):3820-3826.
[2]Kantz H, Sehreiber T. Nonlinear time series analysis[M]. Cambridge University press, Cambridge, 1999:91.
[3]Li M, Sealia M, Toma C, Non linear time series: computations and applications[J]. Mathematical Problems in Engineering, 2010:1-5.
[4]石鑫,周勇,甘新年,等. 機載多源飛行數據資料的非線性檢驗[J]. 計算機與數字工程,2013,41(5):729-732.
SHI Xin, ZHOU Yong, GAN Xin-nian, et al. Testing nonlinearity in flight data series of airborne multiple sources[J]. Computer & Digital Engineering, 2013, 41(5): 729-732.
[5]劉德志,李俊杰. 大壩安全監(jiān)測資料的非線性檢驗[J]. 應用基礎與工程科學學報,2006,14(1):84-92.
LIU De-zhi, LI Jun-jie. Detecting nonlinearity in the dam’s monitoring data [J]. Journal of Basic Science and Engineering, 2006,14(1):84-92.
[6]呂金虎,陸君安,陳士華. 混沌時間序列分析及其應用[M]. 武漢:武漢大學出版社,2005.
[7]胡峰,吳波,胡友民,等. 基于概率神經網絡和KS檢驗的機械狀態(tài)監(jiān)測[J]. 振動與沖擊,2008,27(4):56-62.
HU Feng, WU Bo, HU You-min, et al. Machine condition monitoring based on probalistatic neural networks and KS test [J]. Journal of Vibration and Shock,2008,27(4):56-62.
[8]侯澍旻,李友榮,劉光臨. 一種基于KS檢驗的時間序列非線性檢驗方法[J]. 電子與信息學報,2007,29(4):808-810.
HOU Shu-min, LI You-rong, LIU Guang-lin. A new method of detecting nonlinear for time series based on KS test[J]. Journal of Electronics & Information Technology, 2007, 29(4): 56-62.
[9]徐家杰. 雙閾值LSTAR模型及其在人民幣匯率預測中的應用[J]. 系統(tǒng)科學與數學,2013,33(3):264-275.
XU Jia-jie. A LSTAR model with two thresholds and its application to RMB exchange rate forecast[J]. Journal of . Systems. Science. & Mathemeation Science,2013,33(3):264-275.
[10]Theiler J, Eubank S, Longtin A, et al, Testing for nonlinearity in time series: the method of surrogate data [J]. Physica D:Nonlinear Phenomena, 1992,58(1-4): 77-94.
[11]雷敏,孟光,馮正進. 連續(xù)動力系統(tǒng)時間序列的非線性檢驗[J]. 物理學報, 2005, 540(3): 1056-1063.
LEI Min, MENG Guang, FENG Zheng-jin. Detecting the nonlinearity for time series sampled from continuous dynamic systems [J]. Acta Physica Sinica, 2005, 54(3): 1056-1063.
[12]Chapeau-Blondeau F. Nonlinear test statistic to improve signal detection in non-Gaussian noise[J]. Signal Processing Letters, IEEE, 2000, 7(7): 205-207.
[13]眭燁. 替代數據及其應用[D]. 上海:華東師范大學,2011.
[14]侯平奎,龔云帆,史習智,等. 水下目標輻射噪聲的非線性檢驗[J]. 聲學學報,2001,26(2):135-139.
HOU Ping-kui, GONG Yun-fan, SHI Xi-zhi, et al. Detecting nonlinearity in the radiated of under water targets[J]. Acta Acustica, 2001,26(2):135-139.
[15]江平,張定會,張雅奇. 基于Henon映射和Rossler混沌映射的數字圖像加密[J]. 數據通信,2012(4):15-18.
JIANG Ping, ZHANG Ding-hui, ZHANG Ya-qi. Digatal image encryption based on Henon mapping and Rossler mapping[J]. Data Communication, 2012(4):15-18.
[16]Navarro X, Porée F, Beuchée A, et al. Assessing nonlinear properties in breathing signals from preterm infants [J]. International Journal of Bioelectromagnetism, 2013, 15(1): 102-108.
[17]姜可宇,蔡志明,唐勁松,等. 基于非線性AR模型的時間序列弱非線性檢驗方法[J]. 武漢理工大學學報(交通科學與工程版),2008,32(1):62-65.
JIANG Ke-yu, CAI Zhi-ming, TANG Jin-song, et al. Nonlinear AR model based test method for weak nonlinearity in time series[J]. Journal of Wuhan University of Technology (Transportation Science & Engineering) 2008,32(1):62-65.
[18]楊麗萍,路松峰,胡和平,等,基于Fisher判別法的一種DNA序列分類方法[J].華中農業(yè)大學學報,2013,32(1): 125-129.
YANG Li-ping, LU Song-feng, HU He-ping, et al. A classification method of DNA sequence based on Fisher discriminant analysis[J].Journal of Huadong Agricultural University, 2013,32(1): 125-129.
[19]莫馨,馬軍海. 經濟時間序列的非線性特性檢驗及其應用[J]. 河北工業(yè)大學學報,2004,33(6):13-18.
MO Xin, MA Jun-hai. Nonlinear characteristic examination of economic time serial and its applications[J]. Journal of Hebei University of Technology, 2004,33(6):13-18.
附錄
also
即,sigma(Trev)=sigma(Φrev)