岳 琪 徐忠亮 馬 琳 李海峰
(1. 東北林業(yè)大學信息與計算機工程學院,黑龍江哈爾濱 150040;2. 哈爾濱工業(yè)大學計算機科學與技術學院,黑龍江哈爾濱 150001)
自1993年被Mallat和Zhang提出以來,稀疏分解(壓縮感知)技術作為一種可靠的信號處理與傳輸方法,在包括EEG的各類時變信號、各類圖像的分析和處理及故障診斷領域得到了廣泛的應用[1-5]。該方法可以通過學習得到樣本集相關的稀疏字典及樣本對應的稀疏系數向量,以實現對信號內在成分結構的解析,去除噪聲成分[6],并得到不依賴待處理信號的事先假設(如FFT的短時時不變假設,ICA的獨立性假設)、且具有相對較高的穩(wěn)定性(相對EMD產生的模態(tài)混疊[7]及端點效應等[8])的分解結果。
稀疏分解算法的典型應用涵蓋圖像、音頻等多類信號的壓縮存儲[9],對統(tǒng)計獨立噪聲的消除[10],信號分析相關的事件或成分探測[11],基于信號探測陣列的信源方向或陣元位置校正[12]等。 在以上這些應用領域中,信號壓縮存儲與去噪更多依賴信號樣本集的整體統(tǒng)計特性,對成分分析精度要求不高;但在信號成分分析相關的應用、特別是EEG信號的解析中,稀疏分解算法經常只能得到比真實成分更零散的原子基底,從而無法得到精密的分析結果。類似的現象也在ICA、EMD等算法中呈常態(tài)出現,體現為不同成分間線性相關部分互相包含[7- 8],而非呈現為完整、單一成分的波形。這種情況大大影響了EEG分析的效率與精準度,嚴重限制了對其進行成分分析的效果。由于篇幅所限,本文不對ICA、EMD等算法進行深入討論,只對稀疏分解算法進行分析和探討。
目前最廣泛應用的稀疏分解算法以K-SVD字典學習算法[13-14]、OMP回歸分析算法等為代表,其求解模型基于l1范數,通常把l1范數視為一個稀疏約束條件,將l0范數求解轉化為一個針對重構誤差的凸優(yōu)化問題進行求解。這樣的求解方式會帶來一些問題,即當一部分樣本初始稀疏建模的系數能量由于各種原因趨于分散時,l1范數難以使這些樣本的重構系數能量趨于聚攏、實現稀疏,稀疏字典也無法提取這些樣本的真實成分;這直接導致了上文所提現象的產生,即算法對這些樣本給出的稀疏解與真實成分不符,對它們的成分提取和分析是失敗的。
事實上,若能將l0范數有效的連續(xù)化,并納入稀疏求解模型中,重構系數能量分散的情況將會得到極大的改善。在之前的工作中,我們觀察到了l1范數求解模型影響奇異樣本重構結果的一些實驗現象,對其進行了初步解釋,并提出了一個可用于對樣本內部成分分布情況進行度量的稀疏性能評價指標SPI(Sparse performance index);在本文中,我們將對該指標進行更新,討論它作為一個連續(xù)的優(yōu)化對象代替離散的l0范數約束項的可能性,并對包含該指標(或其他l0范數的近似替代)的求解范式進行探討,論證其在腦電信號分析的實際應用中,令字典基底有效擬合訓練樣本集中實際成分的可能性。
使用字典D對樣本yi進行稀疏分解,有以下通用表示:
yi=Dai+e
(1)
式中D={d1,d2,d3,…,dM},每個原子dj長度為L;yi=(yi1,yi2,yi3,…,yiL)T,ai=(ai1,ai2,ai3,…,aiM)T表示第i個樣本及其重構系數向量;ei=(ei1,ei2,ei3,…,eiL)T表示該分解結果的重構誤差。包含l0范數的稀疏分解問題已被證明是一個NP難問題,故在實際應用中通常使用l1范數代替l0范數,此時稀疏分解迭代求解模型可以表示為:
(2)
(3)
實際計算中通常把l1范數視為約束條件,以把該NP難問題轉化為凸優(yōu)化問題進行求解。然而引言中已經提到,這種近似求解模式會導致不同樣本的初始及最終稀疏模式不同,對其進行分解的效果不一。為了準確度量單一樣本分解結果的稀疏性能,我們提出了重構系數向量的稀疏性能指標SPI[15],利用系數能量分布對稀疏性能進行度量。經過參數和值域調整,該指標被重新定義如下:
(4)
(5)
(6)
相對于傳統(tǒng)模型,該模型多了一個優(yōu)化對象即SPI指標,包含該指標的雙目標優(yōu)化模型不是凸模型,需要使用模擬退火等全局競爭性優(yōu)化方法進行求解。這會帶來一定的計算資源消耗的提升,但相對于單純以誤差作為優(yōu)化對象的傳統(tǒng)算法,將能有效防止稀疏度的過度增長和稀疏模型的碎片化,從而得到更稀疏、原子更接近樣本集內真實成分的解。接下來,我們將對優(yōu)化模型的收斂域及字典原子收斂情況進行討論,并通過實驗進一步驗證這一觀點。
在本節(jié)中,我們將對滿足稀疏性假設,即每個單一樣本恰好具有τ個實際非零成分(τ<0.05M)的充分完備的樣本集,根據其建模稀疏度τ′與實際稀疏度τ的相對關系,分三種情況討論其稀疏分解模型。
為了便于討論,不妨假設真實成分之間的差異都顯著大于成分的隨機震蕩。不妨設:
(7)
1.當τ′=τ,探討誤差期望Eei的極值:對隨機部分ri的復原誤差期望,任意兩兩線性無關的向量組都是相等的;故當誤差期望Eei取得極小值,即系統(tǒng)收斂至τ′=τ情況下的全局極小時,樣本的確定部分必然能被τ′維向量組線性表示,即有:
(8)
(9)
(10)
(11)
綜上所述,對于一個由誤差期望Eei與稀疏度限制τ構成的雙目標等權值優(yōu)化問題,在τ′=τ處事實上生成了一個對該問題組合最優(yōu)解的吸引子。該吸引子處不僅可以得到誤差-稀疏限制雙目標組合優(yōu)化問題的最優(yōu)解,還可以得到盲源分離問題的一組較精確的基底,用于樣本集內或集外同質信號的分析。接下來,我們將通過仿真與實際信號的分解實驗來證明這一觀點。
在該部分實驗中,我們將對真實腦電信號進行稀疏分解,并將不同樣本幀根據其稀疏性能指標進行排序,根據其誤差分布探討其內部成分的分布與傳統(tǒng)方法分解結果的問題。實驗數據來自柏林工業(yè)大學的聽覺數字ERP腦電數據集[16],降采樣至150 Hz,共30000幀長120采樣點的EEG數據,512維字典12稀疏度進行分解。實驗結果如圖1所示。
圖1 EEG信號與SPI指標相關的分析結果Fig.1 EEG signal analysis results related to SPI
可以看到,當分解結果中的實際SPI達到一定閾值并開始快速上升時,對應的平均誤差能量也開始快速上升,表明稀疏性能較差的樣本復原效果也較差。在這部分樣本中相對誤差能量分布范圍非常廣泛,其中誤差相對較低的部分尚可以解釋為樣本本身復雜程度更高從而導致誤差稍高;然而大量的樣本相對誤差能量超過了15%,這只能解釋為這些樣本無法在字典中精確匹配到相稱的原子,且這一現象在整個學習過程完成后都未消失,意味著傳統(tǒng)優(yōu)化范式學習得到的字典在對部分樣本(稀疏性能最好的33%)進行針對性學習的同時未能兼顧其余樣本,從而造成大量稀疏性能較差樣本的復原效果也差、對其進行的成分分析也沒有實際意義。
在該部分實驗中,我們首先構建了256×320維的人工信號基底集,由5~32 Hz的方波、正弦波、三角形波、高斯/Hanning窗函數及這些波形的低頻移相信號、高頻幅度調制信號構成。使用這些基底集構建訓練樣本集,每個訓練樣本由不同強度的τ個字典基底構成,添加能量相當于訓練樣本2%~5%的白噪聲形成人工訓練樣本集。對該樣本集在不同稀疏度限制下進行多次重構,統(tǒng)計其重構誤差、分別以l0范數和SPI作為稀疏約束的能量函數分布情況和兩個稀疏約束的相關關系。包含誤差與稀疏限制的能量函數方面,我們將誤差與稀疏約束分別歸一化至0~1區(qū)間并相加作為該能量函數的值以確保二者在優(yōu)化過程中等效。實驗結果如圖2~圖4所示。
圖2 τ=3時對分解效果的平均統(tǒng)計結果Fig.2 Average statisticaltatistical results of the decomposition results at τ=3
圖3 τ=4時對分解效果的平均統(tǒng)計結果Fig.3 Average statisticaltatistical results of the decomposition results at τ=4
圖4 τ=5時對分解效果的平均統(tǒng)計結果Fig.4 Average statisticaltatistical results of the decomposition results at τ=5
可以看到,包含l0范數和SPI的能量函數基本相同,且吸引子同樣較精確地存在于真實成分數處;l0范數(即真實稀疏度)與平均SPI近似線性相關,證明了二者在優(yōu)化過程中基本等效。當稀疏限制τ不斷提升,模擬信號中的成分之間產生相關的可能性也更大,從而無法精確保證樣本中有τ個獨立的真實成分,使實驗的直觀結果失去意義,故模擬實驗的稀疏度限制到τ=5為止。
結果表明隨稀疏度提升,重構誤差單調降低,而結合稀疏度與SPI的能量函數值在τ附近得到最低點,事實上在樣本集內部實際不相關成分數處形成了一個吸引子;若以該能量函數作為優(yōu)化目標,系統(tǒng)最后必收斂于該位置,得到與信號真實不相關成分數目相同的分解結果。相對的,傳統(tǒng)范式的優(yōu)化對象即誤差會在優(yōu)化過程中不斷趨向于降低,從而使稀疏建模的稀疏度增大至算法允許的極限,一方面使字典原子波形無法逼近真實成分、另一方面也使建模的稀疏性能變差。接下來,我們將使用真實EEG信號進行同樣的驗證。實驗采用的數據集與第一部分相同,實驗結果如圖5所示。
圖5 ERP相關腦電信號分解結果的平均統(tǒng)計結果Fig.5 Average statisticaltatistical results of the ERP related EEG signals
可以看到,實際EEG信號中,兩個能量函數依然存在著顯著的吸引子;事實上,考慮到該EEG數據集的性質(ERP誘發(fā)實驗),吸引子存在的位置(12,19)應分別與靜息及誘發(fā)波時段的真實獨立成分數量比較接近。同時,在稀疏度限制接近真實情況時,平均SPI指標與真實稀疏度呈現相當嚴格的線性相關關系,驗證了在真實情況下用SPI指標來實現l0范數近似求解的可靠性。同時,傳統(tǒng)范式優(yōu)化對象(誤差)的趨勢與模擬實驗并無差別,有力地證明了兩個范式在對樣本集擬合能力方面的差異性。
在本部分實驗中,我們使用模擬信號及真實EEG信號驗證了稀疏指標(絕對稀疏度或SPI)與誤差的聯合能量函數中吸引子的存在,并且驗證了其與真實成分數量的相關性,同時通過分別包含l0范數和SPI的能量函數的形態(tài)以及二者的直接相關性證明了SPI與l0范數在優(yōu)化過程中的等效性,這些事實可以為我們的觀點提供有力支持,即結合誤差與l0范數或SPI構成的稀疏求解范式與傳統(tǒng)范式存在著顯著的收斂域差異,可以有效地避免建模中稀疏度不受控增長及由此導致的字典原子和樣本系數模型散碎化,使分解算法收斂于樣本集真實成分的分布、實現接近該分布的信號解析。同時SPI作為l0范數的一個有效連續(xù)近似,能夠替代l0范數作為稀疏約束項,從而實現任意步長的稀疏-誤差聯合優(yōu)化——同時也是l0范數問題的更精確的近似求解過程。
本文面向EEG成分分析的實際需要,給出了經過改良的稀疏性能評價指標SPI,利用該指標進行稀疏分解中的奇異樣本分析,并對其作為l0范數的近似約束項的可能性進行了理論分析,在傳統(tǒng)稀疏優(yōu)化范式基礎上給出了利用該指標進行稀疏字典學習及稀疏建模的范式并探討了該范式的收斂情況。實驗證明,稀疏性能評價指標SPI與重構誤差結合,可以較好地鑒別不同類別訓練樣本集中的奇異樣本,同時加入了SPI指標的稀疏分解求解范式可以較好地逼近訓練樣本集中的實際成分數量,并對訓練樣本集的真實成分進行更可靠的擬合。在對以SPI指標作為近似l0范數約束項的稀疏求解范式進行可靠的工程實現后,可以在訓練樣本充足的情況下對EEG成分進行解析,提取腦電信號真實成分波形并發(fā)現可能的未知誘發(fā)信號,并基于訓練所得稀疏字典進行同質信號的解析,對EEG及其他復雜時變信號的處理及分析具有相當程度的價值。