宋國鋒, 董小剛, 秦喜文
(長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院,吉林 長春 130012)
在很多實際問題中,由于數(shù)據(jù)本身的問題或者人為因素的影響,數(shù)據(jù)既是非線性又是非平穩(wěn)的,在高頻數(shù)據(jù)中尤為如此[1-3]。而經(jīng)典的傳統(tǒng)數(shù)據(jù)處理方法,有的僅僅能處理非線性的信號,有的適用于處理非平穩(wěn)的信號,但是在這種既是非平穩(wěn)又是非線性的信號面前往往顯得無能為力。經(jīng)驗?zāi)B(tài)分解方法(簡稱EMD)適用于這種數(shù)據(jù)的預(yù)處理。在將原始信號進行EMD分解之后,很多信號分析方法就可以很好地應(yīng)用了。EMD方法在提出之后得到了發(fā)展[4-6]。
通常EMD方法把原始信號分解為有限個信號,這些信號稱為本征模態(tài)函數(shù)(Intrinsic Mode Function,IMF),這些IMF分別表示信號內(nèi)在的不同的頻率和不同的時間尺度。通過對這些IMF的分析,進而實現(xiàn)對非線性非平穩(wěn)數(shù)據(jù)的分析。由于高頻數(shù)據(jù)受到各種干擾因素的影響,會出現(xiàn)波動劇烈、個別值離散等異?,F(xiàn)象,傳統(tǒng)的處理高頻數(shù)據(jù)的方法無法從各個層面上良好地解讀高頻數(shù)據(jù)異常值的成因,通過EMD方法可以把高頻數(shù)據(jù)進行分解,把噪聲剝離出來,更好地解釋和分析高頻數(shù)據(jù)[7]。
文中用EMD方法分析高頻數(shù)據(jù),減小高頻噪聲[8]。首先對高頻數(shù)據(jù)進行EMD分解,然后剔除高頻噪聲,再重新構(gòu)造出信號,從而根據(jù)重新構(gòu)造出來的信號分析原始信號的一些本質(zhì)屬性,更好地進行估計和預(yù)測。
通過信號的兩個基本參數(shù)研究一個信號的特征:也就是頻率和時域。參數(shù)頻率可以反映出信號的本質(zhì)特征,但是缺點是不夠直觀。相比之下信號的時域觀測較為直觀,可以得到信號的類似頻率的特征,這就是特征時間尺度。大的頻率與小的時間尺度相對應(yīng),小的頻率與大的時間尺度相對應(yīng),可見頻率與時間尺度是相關(guān)的。時間尺度參數(shù)是用來描述信號本質(zhì)特征的參數(shù)。對于非平穩(wěn)的信號,若要研究它的本質(zhì)特征,可以從它的時間尺度入手。
對于任意一個信號x(t),可以由零點定義該信號的時間尺度參數(shù),若
滿足上式的時刻t為該信號的零點,可以通過相鄰零點的時間跨度來定義零點時間尺度。
另外,也可以通過極值點定義時間尺度,這種方法是通過信號的極值點來確定時間尺度的,即若
滿足式(2)的t值就是極值點,而極值點間的時間跨度就是極值時間尺度。
由于想討論的是信號的局部情況,所以無論使用哪一種時間尺度參數(shù),研究相鄰的特征點都是很重要的。要想得到一個復(fù)雜信號的零點是十分困難的,因此通常采用極值尺度參數(shù)。不管所要分析的這個復(fù)雜信號是否過零點,時間尺度參數(shù)都是描述模態(tài)函數(shù)時間跨度的量,它是從某一個極小值(或極大值)到另外一個極小值(或極大值)的。
EMD方法中需要定義本征模態(tài)函數(shù)(IMF),它是一類具有瞬時頻率的信號,同時它在每一個時刻頻率是唯一的。一個本征模態(tài)函數(shù)滿足以下兩個條件:
1)在所有樣本高頻數(shù)據(jù)集內(nèi),零點的數(shù)量必須和極大值或者極小值點的數(shù)量一樣,或兩者相差最多不過一個。
2)任意時間內(nèi)由樣條插值得到的上、下包絡(luò)線局部上來看是關(guān)于時間軸對稱的,即均值為零。
以上兩個條件保證了瞬時頻率有意義,本征模態(tài)函數(shù)反應(yīng)出信號本身的波動性,使得每個周期上只有一種波型。本征模態(tài)函數(shù)的零點數(shù)和極值點數(shù)相同,所以從波形圖上來看,類似于將一個標(biāo)準(zhǔn)正弦信號通過調(diào)頻和調(diào)幅得到新信號圖形。
首先提出這樣一個假設(shè):無論信號是平穩(wěn)的還是不平穩(wěn)的,線性的還是非線性的,每一個復(fù)雜的信號都可以把它看成是幾個本征模態(tài)函數(shù)構(gòu)造出來的,這些本征模態(tài)函數(shù)零點和極值點的數(shù)目是一樣的,在兩個相鄰的零點間只有一個極值點,而且通過擬合得到的上下包絡(luò)線是關(guān)于時間軸對稱的,這些IMF都是彼此正交的。有限個本征模態(tài)函數(shù)可以合成任何復(fù)雜的信號。若初始的信號滿足本征模態(tài)函數(shù)條件,就直接用信號處理方法作用于該信號上,可以得到瞬時頻率解析圖。若初始信號不是一個本征模態(tài)函數(shù),則采用EMD方法將收集到的高頻數(shù)據(jù)分解為若干個本征模態(tài)函數(shù)和一個趨勢項,然后再使用信號分析的方法,基于以上思想,用EMD方法對一個時間序列x(t)進行分解的步驟如下:
1)首先找出所獲得數(shù)據(jù)的所有的極大值點和極小值點,然后采用三次樣條插值的方法將獲得的這些極大值點連接起來形成上包絡(luò)線,同理得到下包絡(luò)線,則所有的數(shù)據(jù)都位于上下包絡(luò)之中,這也是包絡(luò)一詞的來歷。
2)求出上下包絡(luò)的均值m1,用原始時間序列x(t)減去這個平均值m1得到h1
判斷h1是否滿足IMF的兩個條件,若滿足則得到了第一個IMF分量。
3)若h1不滿足IMF的兩個條件,把h1看作原始數(shù)據(jù),再次執(zhí)行以上的兩個步驟,得到新的均值m11,再由h11=h1-m11得到h11,若h11滿足IMF的兩個條件,則h11為第一個IMF分量;若h11不滿足兩個條件,則將此方法繼續(xù)如上步驟2)的處理,直到做了k次處理,由h1(k-1)-m1k=h1k得到h1k,直到h1k滿足IMF的兩個條件為止。此時令C1=h1k,則C1是信號x(t)的第一個IMF分量。
4)從x(t)中將C1分離出來,得到r1
將r1作為新的原始數(shù)據(jù),重復(fù)進行以上3個步驟便得到x(t)的第二個分量C2,經(jīng)過n次處理,如此重復(fù)下去,便得到n個分量,即
這里需要一個結(jié)束循環(huán)的條件,即再得到的分量是不滿足IMF條件,而是一個單調(diào)的函數(shù)或者常數(shù)??梢酝ㄟ^式(4)和式(5)將初始信號x(t)分解成如下形式:
式中:rn——趨勢項。
EMD分解是一個將數(shù)據(jù)一層一層的根據(jù)其本質(zhì)特征篩分過程,因此可以把EMD分解方法看成是一個濾波器。經(jīng)過這樣的分解,模態(tài)波形會變得對稱。這些特征時間尺度Ci是依次按照由小到大分離出來的,而頻率則是從高到低的。
高頻數(shù)據(jù)具有數(shù)據(jù)時間間隔不等、數(shù)據(jù)時間間隔小、數(shù)據(jù)量大等特點。我們用EMD方法來分析高頻數(shù)據(jù)的時頻特征。選取從2010年5月27日13時至2010年5月27日15時兩個小時股票代碼為SH600383的實時價格組成的高頻數(shù)據(jù)來進行EMD分析。該高頻數(shù)據(jù)的時間間隔小于8s,記錄的筆數(shù)為1 404。
將這筆數(shù)據(jù)首先用Matlab繪圖,得到價格相對于時間的圖像,如圖1所示。
從圖1可以看到,該信號沒有什么規(guī)律可循,并且信號是非平穩(wěn)、非線性的。
將該股票價格的高頻數(shù)據(jù)進行了EMD處理,得到了7個IMF曲線,如圖2~圖8所示,圖9為趨勢項,它們的時間尺度從小到大,頻率從高到低。
圖2 IMF1
圖3 IMF2
圖4 IMF3
圖5 IMF4
圖6 IMF5
圖7 IMF6
圖8 IMF7
圖9 趨勢項r7
由于IMF的分解過程是按照頻率從高到低的,所以IMF1,IMF2,IMF3為高頻的噪音項,把該3項去掉后,由IMF4,IMF5,IMF6,IMF7這4個本征函數(shù)和趨勢項r7來重構(gòu)的信號如圖10所示。
原始數(shù)據(jù)組成的信號圖1中,我們看到的信號能量波動沒有任何規(guī)律可尋,并且看不出來任何趨勢,而進行IMF分解后,得到了7個IMF以及一個趨勢項,圖2~圖9中,我們看到每一個IMF近似于某一周期的正弦曲線,在圖6~圖8中,這種類似正弦曲線的周期性表現(xiàn)的尤為明顯,而圖2~圖4則是高頻的噪音項,波動都是十分細小的,圖9趨勢項r7則顯示出了原始數(shù)據(jù)的波動趨勢。與原始信號相比,將前3項高頻噪音項剔除之后,使用后4個IMF與趨勢項r7重構(gòu)而成的信號曲線(見圖10)更加光滑,達到了去噪的目的,且在很多部分都能清晰地看出大概的價格趨勢。
圖10 IMF4+IMF5+IMF6+IMF7+r7
實際上EMD方法由黃鍔博士提出,并且在EMD方法的基礎(chǔ)上使用了Hilbert變換,由此兩大步驟構(gòu)成了Hilbert-Huang算法,是處理非平穩(wěn)非線性的時間序列的有效工具,很多人在此之后針對Hilbert-Huang算法的某些不足,將此方法進行了相應(yīng)的改動,使得可以更好地處理非線性、非平穩(wěn)的時間序列[9-11]。
將EMD方法應(yīng)用于高頻數(shù)據(jù),將這種非平穩(wěn)、非線性的高頻數(shù)據(jù)分解為幾個有限的IMF,在信號重構(gòu)后,可以使得信號更加的光滑,將這種自適應(yīng)性分析方法應(yīng)用于高頻數(shù)據(jù)去噪處理,挖掘出更多信號本質(zhì)的直觀信息,為預(yù)測高頻數(shù)據(jù)提供了必要的信息。由于高頻數(shù)據(jù)的能量在一些頻段很微弱,且不可避免存在人為干擾,所以,對高頻數(shù)據(jù)進行EMD分析后重構(gòu)這樣的去噪預(yù)處理是非常必要的。
[1]常寧,徐國祥.金融高頻數(shù)據(jù)分析的現(xiàn)狀與問題研究[J].財經(jīng)研究,2004,30(3):31-39.
[2]余德建,吳應(yīng)宇,周偉,等.金融超高頻數(shù)據(jù)研究新進展[J].華南理工大學(xué)學(xué)報:社會科學(xué)版,2011(2):9-13.
[3]郭興義,杜本峰.何龍燦.(超)高頻數(shù)據(jù)分析與建模[J].統(tǒng)計研究,2002,11:28-31.
[4]杜修力,何立志.經(jīng)驗?zāi)B(tài)分解(EMD)中邊界處理的新方法[J].北京工業(yè)大學(xué)學(xué)報,2009(5):626-632.
[5]楊建文,賈民平.希爾伯特-黃譜的端點效應(yīng)分析及處理方法研究[J].振動工程學(xué)報,2006(6):282-288.
[6]竇東陽,英凱.利用ARIMA改進HHT端點效應(yīng)的方法[J].振動、測試與診斷,2010(6):249-337.
[7]應(yīng)益榮,包郭平.金融市場高頻數(shù)據(jù)分析的建模進展[J].五邑大學(xué)學(xué)報:自然科學(xué)版,2006(4):63-68.
[8]張翀.基于EMD去噪方法研究[J].電腦知識與技術(shù),2010(35):195-197.
[9]N E Huang,Z Shen,S R Long.A new view of nonlinear water waves the Hilbert spectrum[J].Annu.Rev.Fluid Mech.,1999,31:417-457.
[10]N E Huang,Z Shen,S R Long.The empirical mode decomposition and Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proc.R.Soc.London,Ser.A,1998,454:903-995.
[11]Z K PENG.An improved Hilbert-Huang transform and its applifcation in vibtation signal analysis[J].Jounal of Sound and Vibration,2005,286(9):187-205.