張 章 周新淳 趙鴻浩 張雪華
(1.寶雞職業(yè)技術(shù)學(xué)院機(jī)電信息學(xué)院 寶雞 721000)(2.寶雞文理學(xué)院物理與光電技術(shù)學(xué)院 寶雞 721016)(3.陜西烽火通信集團(tuán)有限公司寶雞研發(fā)中心 寶雞 721006)
睡眠是人類生命活動(dòng)的基礎(chǔ)需求之一,從日常的生活經(jīng)驗(yàn)中可以發(fā)現(xiàn),提高學(xué)習(xí)效率和記憶力的一個(gè)前提條件就是保證充足的睡眠[1]。睡眠性疾病與個(gè)人精神狀態(tài)有關(guān),往往難以發(fā)現(xiàn)和確診,因此對(duì)睡眠數(shù)據(jù)進(jìn)行分析是發(fā)現(xiàn)和診斷與睡眠有關(guān)的疾病和加速睡眠相關(guān)的研究是十分重要的,而睡眠分期任務(wù)就是睡眠數(shù)據(jù)分析中必不可少的一個(gè)工作[2]。腦電信號(hào)(Electroencephalogram,EEG)是睡眠數(shù)據(jù)中的一個(gè)重要采集內(nèi)容,它含有豐富的與大腦生理活動(dòng)相關(guān)的信息,作為生物電信號(hào),它的變化特性極其復(fù)雜,是神經(jīng)醫(yī)學(xué)類學(xué)科分析病理和判斷病情著重參考的一個(gè)信息,它還能準(zhǔn)確反映大腦的活動(dòng)狀況,在睡眠研究中應(yīng)用逐漸普遍[3]。通過檢測(cè)平臺(tái)所記錄下的EEG 信號(hào)數(shù)據(jù)量大,希望人工判斷會(huì)大大增加醫(yī)生或相關(guān)人員的工作量,會(huì)花費(fèi)大量時(shí)間,降低工作效率增加治療周期,并且因?yàn)橹饔^性高也會(huì)容易引起較大爭(zhēng)議。尋找一種可以根據(jù)EEG 信號(hào)特點(diǎn)來完成睡眠數(shù)據(jù)快速準(zhǔn)確的自動(dòng)分期方法成為了解決睡眠分期問題的重要途徑。
近年來許多學(xué)者通過引入模式識(shí)別的方法來完成EEG 信號(hào)的自動(dòng)分期任務(wù),其中被使用較多的方法有支持向量機(jī)(Support Vector Machine,SVM)和神經(jīng)網(wǎng)絡(luò)等算法[4]。Anderer 等將決策樹的方法應(yīng)用于睡眠分期取得了80%的準(zhǔn)確率[5]。Zhang Junming 與Wu Yan 提出了基于復(fù)值卷積神經(jīng)網(wǎng)絡(luò)(Complex-valued Convolutional Neural Network,CCNN)的新的睡眠階段分類系統(tǒng),該方法通過對(duì)EEG 信號(hào)所提取的特征進(jìn)行訓(xùn)練學(xué)習(xí),然后根據(jù)所學(xué)特征對(duì)睡眠階段進(jìn)行分類,結(jié)果表明此方法的分類性能與收斂速度優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[6]。北京理工大學(xué)的由育陽等提出了一種基于正態(tài)逆高斯和特征貢獻(xiàn)度的睡眠分期實(shí)驗(yàn)框架,并設(shè)計(jì)了多分類器組合自動(dòng)睡眠分期算法,獲得了較高的準(zhǔn)確率[7]。
本文提取了EEG 節(jié)律信號(hào)的能量特征,通過小波包分解可以提取EEG 信號(hào)節(jié)律波的能量特征[8],除此之外還提取了其非線性特征計(jì)算每幀數(shù)據(jù)的排列熵和樣本熵,使用SVM 方法對(duì)劃分的測(cè)試集進(jìn)行分類完成睡眠自動(dòng)分期任務(wù)。
EEG 里的信號(hào)有著一定的特征頻率范圍和空間分布特征,依據(jù)信號(hào)的頻率特性可以劃分出四種節(jié)律波。EEG 帶寬范圍為0~100Hz,但是節(jié)律波的有效信號(hào)在0~30Hz的范圍之內(nèi)。
1)δ波(Delta):頻率在0.5Hz~4Hz 之間,振幅在20μV~200μV 之間。δ波作為大腦中自發(fā)產(chǎn)生的頻率最低的信號(hào)波,會(huì)在人深度睡眠、深度麻醉缺氧或者大腦有器質(zhì)性病變時(shí)被檢測(cè)到[9]。
2)θ波(Theta):頻率范圍為4Hz~8Hz,振幅大概為10μV~50μV。θ波有著較低的頻率,正常情況下,人處于清醒狀態(tài)時(shí)大腦不會(huì)自發(fā)產(chǎn)生θ波,只有在困倦疲乏時(shí),人的中樞神經(jīng)系統(tǒng)受到抑制,此時(shí)會(huì)有θ節(jié)律波出現(xiàn)。
3)α波(Alpha):頻率范圍為8Hz~13Hz,信號(hào)幅度在20μV~100μV 之間,檢測(cè)位置在頭枕部位。α波頻率較快,是EEG 中節(jié)律性最明顯的信號(hào)波。只有人在放松或者閉眼的狀態(tài)下,α波才能被穩(wěn)定檢測(cè)到,一旦受檢者運(yùn)動(dòng)、睜眼或者想象運(yùn)動(dòng)時(shí)就會(huì)減少甚至消失。
4)β波(Beta):頻率范圍在13Hz~30Hz之間,信號(hào)幅度為5μV~20μV。按照頻率不同,β波又可分為β1波和β2波兩種,是EEG 節(jié)律波中的一種快波。當(dāng)這一頻段波被檢測(cè)到時(shí),說明大腦皮層處在比較興奮的狀態(tài),此時(shí)人思維比較活躍,可能正在進(jìn)行邏輯思考或者情緒起伏較大[10~11]。因此β波可以認(rèn)為是大腦清醒的標(biāo)識(shí)。
圖1 EEG信號(hào)4種節(jié)律波
1)睡眠時(shí)期劃分
在不同睡眠過程中,人的眼部電信號(hào)、腦部電信號(hào)等不同的生理電信號(hào)的變化特點(diǎn)有所區(qū)別,Anthony Kates 和Allan Rechtschaffen 以此為 依據(jù)提出了R&K 睡眠分期標(biāo)準(zhǔn),在該標(biāo)準(zhǔn)中,睡眠一共被分為6 個(gè)時(shí)期即:W 期、R 期、睡眠I 期(S1)、睡眠II期(S2)、睡眠III 期(S3)、睡眠IV 期(S4)[12],其中S1、S2、S3和S4同屬于NR期,按照這一標(biāo)準(zhǔn)來劃分的睡眠階段判斷此標(biāo)準(zhǔn)比較標(biāo)準(zhǔn),因此R&K 睡眠分期標(biāo)準(zhǔn)的提出對(duì)睡眠分期的發(fā)展有巨大貢獻(xiàn)。
2)各睡眠時(shí)期特點(diǎn)
在不同的睡眠階段,每種基本特征波占比不同。在W 期α波和β波為主要部分,以α波的占比在50%以上。S1期α波的占比降到50%以下,以低幅θ波為主。S1 時(shí)期只是睡眠時(shí)期的一個(gè)過度階段,在總睡眠長(zhǎng)度中占比較短,只占有總睡眠時(shí)間的5%左右。S2 期階段腦電信號(hào)的幅值增大,δ波占20%以下。此時(shí)雖然大腦為無意識(shí)狀態(tài),但仍屬于淺睡眠時(shí)期還是容易受外界環(huán)境影響的,此睡眠時(shí)期的總長(zhǎng)度應(yīng)占睡眠的時(shí)期的45%左右。S3 和S4期的信號(hào)中以低頻δ波為主,占20%以上,現(xiàn)多被統(tǒng)一劃分為深度睡眠時(shí)期,由于在此期間腦電信號(hào)以δ波為主,所以也被稱為δ睡眠。深度睡眠時(shí)期受不易受外界影響,是人身體機(jī)能恢復(fù)的重要時(shí)期,時(shí)間長(zhǎng)度占睡眠時(shí)間長(zhǎng)度的20%左右。REM 期此階段伴隨眼球的快速自主轉(zhuǎn)動(dòng),除了尖峰波表現(xiàn)不明顯外,與S1期的波形相同。
將特定的電極筆放置在受檢者頭皮表面,探測(cè)并記錄下各個(gè)點(diǎn)位的電勢(shì)差隨著時(shí)間的變化從而得到EEG 信號(hào)[13]。從頭皮處探測(cè)到的EEG 電信號(hào)通常十分微弱,容易受儀器本身所產(chǎn)生的噪聲影響,在對(duì)EEG 信號(hào)處理之前需要進(jìn)行濾波平滑的預(yù)處理,這里選用小波域值去噪。
如前面所述,采集到的EEG 信號(hào)記錄的是各點(diǎn)位電勢(shì)差隨時(shí)間的變化,在時(shí)間域上有一定的連續(xù)性。在小波域上,有效連續(xù)性信號(hào)經(jīng)分解計(jì)算得到的小波系數(shù)的模值通常數(shù)值較大,但是儀器本身所產(chǎn)生的噪聲一般為熱噪聲也就是高斯白噪聲,其在時(shí)間域上并不具備連續(xù)性,即使經(jīng)過小波變換,高斯白噪聲在小波域上依然具有很強(qiáng)的隨機(jī)性[14]。因此在小波域上,有效連續(xù)性信號(hào)對(duì)應(yīng)的系數(shù)遠(yuǎn)大于噪聲所對(duì)應(yīng)的系數(shù),再利用閾值函數(shù)對(duì)小波系數(shù)進(jìn)行處理,將處理過后的信號(hào)做小波重構(gòu),就可以得到EEG 去噪平滑之后的信號(hào)。在此過程中對(duì)于小波基函數(shù)的選擇、分解層數(shù)的不同和閾值規(guī)則的設(shè)計(jì)都會(huì)對(duì)EEG信號(hào)去噪平滑效果產(chǎn)生影響。
巴特沃斯濾波器可使通頻帶內(nèi)的頻率響應(yīng)曲線最大限度平坦,EEG 信號(hào)帶寬在0~100Hz,但是有效信號(hào)在0~30Hz 的范圍內(nèi)所以,設(shè)定巴特沃斯帶通濾波器的采樣頻率為300(>2*100),對(duì)小波濾波默認(rèn)采用軟閾值濾波,選用Daubechies8 小波基,采用最大小波分解的層數(shù),濾波后再進(jìn)行小波重構(gòu)。對(duì)一幀數(shù)據(jù)進(jìn)行二階巴特沃斯帶通濾波和小波閾值濾波結(jié)果如圖2所示。
圖2 去噪濾波效果
對(duì)同一幀數(shù)據(jù)兩濾波器濾波情況對(duì)比,小波閾值方法對(duì)EEG 進(jìn)行去噪處理后尖波噪聲信號(hào)和斷點(diǎn)有了明顯改善,同時(shí)EEG的峰值有較完整的保留。
對(duì)數(shù)據(jù)進(jìn)行小波包分解(Wavelet Packet Decomposition,WPD)。小波分解(wavelet transform)無法對(duì)EEG 中的高頻部分繼續(xù)分解,與小波分解不同,小波包分解既可以對(duì)低頻部分進(jìn)行分解重構(gòu),也可以對(duì)近似分量和細(xì)節(jié)分量再次分解從而分析信號(hào)的高頻部分[15~16]。針對(duì)不同頻率段的信號(hào),小波包分解可以通過調(diào)整分解層數(shù)以調(diào)整頻率分辨率,選擇最優(yōu)基函數(shù),很大程度上提高了對(duì)信號(hào)局部分析的優(yōu)勢(shì)。
對(duì)EEG 信號(hào)進(jìn)行9層分解,按照采樣定律計(jì)算最小分辨率:
式中,fs為采樣頻率。
根據(jù)四個(gè)腦電節(jié)律的頻率范圍(0~30Hz),分別計(jì)算它們所包含的最少分解節(jié)點(diǎn)數(shù),在計(jì)算時(shí)盡量選用低層節(jié)點(diǎn),然后按照各節(jié)律波頻率設(shè)置相應(yīng)的頻段濾波器。用[i,j]表示小波包分解的第i個(gè)節(jié)點(diǎn)到第j 個(gè)節(jié)點(diǎn),同時(shí)考慮代小波包分解節(jié)點(diǎn)劃分存在頻帶交錯(cuò)現(xiàn)象[17]。得到四個(gè)腦電節(jié)律所包含的分解節(jié)點(diǎn)及其對(duì)應(yīng)的頻帶關(guān)系如表1所示。
表1 節(jié)律波所包含分解節(jié)點(diǎn)與對(duì)應(yīng)頻率
圖3 EEG節(jié)律波提取
EEG 各節(jié)律波能量分別為:Eα、Eβ、Eδ、Eθ。不同睡眠時(shí)期能量也不相同,所以可以將能量作為睡眠分期的特征參數(shù)。信號(hào)g(t)的總能量表示為式(2)。
j 表示節(jié)律波;Ej表示對(duì)應(yīng)節(jié)律波信號(hào)g(t)重構(gòu)之后的能量值;i表示信號(hào)樣本的采樣點(diǎn)數(shù)量,i=0,1…m;xi表示重構(gòu)信號(hào)的采樣點(diǎn)對(duì)應(yīng)幅值。
圖4 各時(shí)期節(jié)律波能量值
針對(duì)非線性數(shù)據(jù),除提取能量特征外還需要提取非線性特征,計(jì)算每幀數(shù)據(jù)的排列熵和樣本熵。
3.4.1 排列熵計(jì)算
1)對(duì)時(shí)間序列X 進(jìn)行相空間重構(gòu)(相空間大小記為m),得到矩陣。矩陣的每一行都是一個(gè)相空間長(zhǎng)度的序列[18]。
2)對(duì)矩陣的每一行按升序重新排列,排序后記錄該行排序前的下標(biāo)順序得到一組符號(hào)序列。
3)統(tǒng)計(jì)每一行的下標(biāo)順序出現(xiàn)的次數(shù)/m!,作為該行的概率,計(jì)算時(shí)間序列所有行的信息熵求和即為排列熵。
由以上計(jì)算步驟可知,當(dāng)每一行的下標(biāo)符號(hào)序列概率P=1/m!時(shí),排列熵值,記為HPE,達(dá)到最大值。此時(shí)時(shí)間序列的復(fù)雜度越高(在符號(hào)序列中沒有重復(fù)的,或者重復(fù)的很少)。反過來,當(dāng)HPE 值變小的時(shí)候,表示時(shí)間序列越規(guī)則。
3.4.2 樣本熵的計(jì)算
設(shè)原始數(shù)據(jù)時(shí)間序列長(zhǎng)度為N 表示為{u(i),1 ≤i≤N},按如下步驟計(jì)算樣本熵:
1)構(gòu) 造m 維 空 間 的 向 量X(1),X(2),…,X(N–m+1),其X(i)={u(i),u(i+1),…,u(i+m-1)}。
2)將向量X(i) 和X(j) 之間的距離d[X(i),X(j)]定義為X(i)和X(j)向量對(duì)應(yīng)元素的最大差值,具體為d[X(i),X(j)]=max|u(i+k)-u(j+k)|。
3)對(duì)于每一個(gè){i,1 ≤i≤N-m+1},在滿足容許偏差為r的條件下,統(tǒng)計(jì)d[X(i),X(j)]<r的個(gè)數(shù),記為Nm(i),計(jì)算Nm(i)的數(shù)目與向量間距離總數(shù)的比值計(jì)作Cmi(r)。
4)對(duì)于i求平均值計(jì)作φm(r)如式(3)。
5)維數(shù)增加變成m+1后,對(duì)于m+1維重構(gòu)后的序列向量重復(fù)上述步驟1)~4)得到Cm+1(r),φm+1(r)表示為式(4)和式(5)。
6)在N 取有限值的情況下此序列樣本熵為式(6)。
m=1或2時(shí)樣本熵值對(duì)信號(hào)序列的長(zhǎng)度N依賴性最好[19],此時(shí)計(jì)算得到的熵值較為合理。
支持向量機(jī)的基礎(chǔ)是Vapnik 所創(chuàng)建的統(tǒng)計(jì)學(xué)理論(Statistical Learning Theory,SLT),一種新的機(jī)器學(xué)習(xí)方法。統(tǒng)計(jì)學(xué)理論所采用的是結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural Risk Minimization,SRM)準(zhǔn)則,這樣在得到最小化樣本點(diǎn)時(shí),使得結(jié)構(gòu)風(fēng)險(xiǎn)同樣取得最低,可以提高模型的適應(yīng)性和泛化能力,并且不會(huì)受到數(shù)據(jù)維數(shù)的限制[20]。在進(jìn)行線性分類時(shí),將分類面取在離兩類樣本距離較大的地方;進(jìn)行非線性分類時(shí)通過高維空間變換,將非線性分類變成高維空間的線性分類問題[20~22]。非線性映射是SVM 方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射,對(duì)特征空間劃分的最優(yōu)超平面是SVM 的目標(biāo),最大化分類邊際的思想是SVM 方法的核心。支持向量機(jī)有著以下優(yōu)點(diǎn):
1)支持向量是SVM 的訓(xùn)練結(jié)果,在SVM 分類決策中起決定作用的是支持向量。因此,模型需要存儲(chǔ)空間小,算法魯棒性強(qiáng);
2)無任何前提假設(shè),不涉及概率測(cè)度。
此次數(shù)據(jù)為所采集EEG 信號(hào)中的一部分,共有8490000 個(gè)采樣點(diǎn),采樣頻率100Hz,每幀數(shù)據(jù)3000 采樣點(diǎn)即30s 為一幀,共2830 幀,為不平衡數(shù)據(jù)。樣本標(biāo)簽中,W,S1,S2,S3,S4,R,M 共有2830個(gè)。
睡眠階段為W,S1,S2,S3,S4,R,M(運(yùn)動(dòng)時(shí)間)和‘Unscored’(無法判斷)。
表2 數(shù)據(jù)說明
對(duì)無意義數(shù)據(jù)進(jìn)行剔除,刪除標(biāo)簽為9 和幀數(shù)只有1 的M 時(shí)期的數(shù)據(jù),只針對(duì)有意義W,S1,S2,S3,S4,R進(jìn)行分類。
本實(shí)驗(yàn)軟件環(huán)境為Windows 10 操作系統(tǒng),Pycharm Professional Edition,Python3.9,硬件環(huán)境為Intel(R)Core(TM)i5-10200H CPU,NVIDIA Ge-Force RTX 2060GPU。根據(jù)提取的特征表,使用SVM 分類模型進(jìn)行分類,訓(xùn)練集與測(cè)試集比例為7∶3;得到分類結(jié)果,其準(zhǔn)確率為84.45%。
圖5 各睡眠時(shí)期在數(shù)據(jù)中占比
表3 分類結(jié)果
測(cè)試集共849幀數(shù)據(jù),其中R 和S3時(shí)期有著較高的準(zhǔn)確率,但是召回率較低;S1 時(shí)期召回率為0,所以準(zhǔn)確率也為0;W、S2、S4 時(shí)期都有著較高的召回率和準(zhǔn)確率。測(cè)試集總體準(zhǔn)曲率達(dá)到一個(gè)較高的水平。
受檢者通常需要整晚采集EEG 信號(hào),數(shù)據(jù)量大,依賴人工逐幀識(shí)別進(jìn)行分期的方法主觀意識(shí)強(qiáng),工作效率低,并且需要較多經(jīng)驗(yàn)積累才能準(zhǔn)確判斷。利用機(jī)器學(xué)習(xí)的原理,通過特征提取和SVM模型處理睡眠分期任務(wù)可以大大提高了工作效率,和準(zhǔn)確率。本文完成了利用小波變換的方法對(duì)EEG信號(hào)進(jìn)行去噪處理,通過與二階巴特沃斯帶通濾波相比較可以發(fā)現(xiàn)此方法去噪平滑效果更好;小波包分解則可以提取出EEG 中的幾種節(jié)律波并計(jì)算出相應(yīng)能量值;再計(jì)算排列熵和樣本熵以更好地反映EEG 的非線性特征;利用SVM 分類模型得出了分類結(jié)果相比于組合KNN分類器提高了2%。