易芳吉,鐘麗莎,李章勇
(1.重慶郵電大學(xué) 生物信息學(xué)院,重慶 400065;2.西南醫(yī)科大學(xué) 醫(yī)學(xué)信息與工程學(xué)院,四川 瀘州 646000;3.廳市共建中樞神經(jīng)系統(tǒng)藥物四川省重點實驗室,四川 瀘州 646000)
癲癇是僅次于腦卒中的常見神經(jīng)系統(tǒng)疾病,據(jù)世界衛(wèi)生組織報道[1],癲癇患者約占全世界人口的1%,其中80%的患者來自發(fā)展中國家,我國的癲癇患者數(shù)量高達900萬。每年全世界治療癲癇的費用約為12.5億元,調(diào)研顯示,近年來我國未接受過癲癇治療的患者比例超過60%。目前癲癇發(fā)作涵蓋各年齡段,嚴(yán)重影響人類大腦健康,特別是對小孩智力造成不可逆轉(zhuǎn)的傷害。并且癲癇可以在任何環(huán)境,毫無征兆地發(fā)作,易發(fā)生各種意外事故,嚴(yán)重的可能導(dǎo)致死亡。由于癲癇發(fā)作的不確定性,癲癇患者需要長期服藥,對其身心帶來較大的傷害。因此,分析和挖掘癲癇特征有助于實現(xiàn)癲癇發(fā)作預(yù)警,不僅可以保障患者人身安全,還可以為患者選擇緊急抗癲癇藥物治療提供依據(jù)。
腦電圖(electroencephalogram,EEG)反映大腦神經(jīng)元放電活動,因其價格便宜,且時間分辨率較高,廣泛地應(yīng)用于癲癇發(fā)作預(yù)測。癲癇發(fā)作預(yù)測本質(zhì)是分類癲癇發(fā)作前期和發(fā)作間期腦電信號,由于癲癇腦電發(fā)作前期不像發(fā)作時具有明顯的高頻高幅特征,而且個體之間存在較大差異,甚至同一個體的多次發(fā)作都存在差異,因此目前癲癇發(fā)作預(yù)測方法仍然面臨較大挑戰(zhàn)。癲癇發(fā)作預(yù)測的效果由選取的特征參數(shù)決定,如何提取有效的癲癇特征信息成為眾多學(xué)者的研究焦點。隨著計算機技術(shù)的發(fā)展與腦電信號數(shù)據(jù)的不斷增加,國內(nèi)外學(xué)者基于機器學(xué)習(xí)對癲癇特征的提取開展了大量的研究。文獻[2]提取多通道腦電的皮爾遜相關(guān)系數(shù),使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對相關(guān)矩陣進行分類識別,區(qū)分發(fā)作前期和發(fā)作間期的腦電信號,準(zhǔn)確率為89.98%。文獻[3]利用互相關(guān)估計腦電通道之間的同步性,基于該特征預(yù)測癲癇發(fā)作,平均靈敏度為84%,特異性為63%。文獻[2-3]的準(zhǔn)確率較低,其原因可能是提取的特征都是單一通道間的同步特征。大腦是一個非線性系統(tǒng),產(chǎn)生的腦電具有非線性特征。熵具有非線性特征,有學(xué)者提出“熵腦假說”,認(rèn)為熵可以反映大腦活動的不確定性[4]。有部分學(xué)者提取各類熵應(yīng)用于癲癇腦電特征分析,取得了較好的效果。文獻[5]使用排列熵作為癲癇特征,運用支持向量機(support vector machine,SVM)識別癲癇發(fā)作樣本,其81%的發(fā)作可以提前50分鐘預(yù)測到。文獻[6]提取單導(dǎo)聯(lián)癲癇腦電的模糊特征,對癲癇腦電進行預(yù)測,達到80.2%的準(zhǔn)確率和86.5%的特異性。雖然空間同步特征、非線性熵特征都能進行癲癇的發(fā)作預(yù)測,但只考慮時序特征或空間特征的癲癇預(yù)測算法準(zhǔn)確率仍然不夠理想。癲癇腦電不僅呈現(xiàn)高頻高幅的時序特征,同時還具有較強的空間同步耦合關(guān)系,因此,從時空關(guān)系角度可以充分挖掘癲癇信息,提高癲癇發(fā)作預(yù)測效果。
本文聯(lián)合時間和空間兩個維度,提出了一種基于SVM分類器的癲癇腦電時空特征提取方法。該方法提取模糊熵,從時序特征角度評估腦電信號復(fù)雜度;提取皮爾遜相關(guān)系數(shù),從空間特征角度評估腦電各導(dǎo)聯(lián)之間的相關(guān)性;提取時空特征信息,有助于實現(xiàn)臨床癲癇發(fā)作預(yù)警。
本文的算法流程如圖1所示。首先,對腦電信號進行預(yù)處理;然后,提取特征參數(shù),利用F-score進行特征篩選,選出最優(yōu)特征組合;最后,將SVM分類器應(yīng)用到癲癇腦電中,識別前期和間期,實現(xiàn)癲癇發(fā)作預(yù)測。
圖1 基于時空特征癲癇預(yù)測流程圖Fig.1 Flow chart of epileptic prediction based on temporal and spatial feature
腦電信號微弱,且易受外界干擾。小波濾波在最大限度保持真實信號的基礎(chǔ)上,減少甚至完全濾除噪聲。db小波[7]分解既可以分解信號中低頻部分,也可以分解高頻部分,能調(diào)整頻域分辨率使之與腦電節(jié)律相一致。因此,db小波更適合用于處理腦電數(shù)據(jù),本文采用db4小波去除信號的噪聲干擾。癲癇腦電切割片段長短會影響預(yù)測效果,使用非重疊滑動窗的方式將原始腦電數(shù)據(jù)分割成20 s的片段。其原因是癲癇發(fā)作前產(chǎn)生的癲癇樣放電一般持續(xù)時間在幾秒到十幾秒之間,20 s包含整個癲癇樣放電發(fā)作時間。
癲癇特征參數(shù)是決定準(zhǔn)確率的關(guān)鍵因素,由于腦電信號的非線性和不確定性,可以將其看作一個模糊集,故選用模糊熵[8]度量腦電隨時間變化的復(fù)雜度。選擇皮爾遜相關(guān)系數(shù)度量導(dǎo)聯(lián)間的同步性,具有算法簡單、零遲滯、魯棒性好的優(yōu)點[9]。本文提取的特征參數(shù)集包含時間和空間二維特征。
SVM是一種監(jiān)督學(xué)習(xí)的分類器,通過尋找一個超平面,能最大間隔區(qū)分?jǐn)?shù)據(jù)[10]。SVM的優(yōu)勢在于最大化邊緣區(qū)域的同時最小化經(jīng)驗誤差,其決策函數(shù)和計算量由所選取的支持向量決定,這有助于剔除冗余樣本,避免維數(shù)災(zāi)難等問題[11]。本文將癲癇腦電數(shù)據(jù)劃分為訓(xùn)練集和測試集,通過網(wǎng)格搜索方法尋找最優(yōu)SVM參數(shù),然后根據(jù)訓(xùn)練集數(shù)據(jù)建立最優(yōu)癲癇發(fā)作預(yù)測模型,區(qū)分發(fā)作前期和發(fā)作間期數(shù)據(jù)。為了使實驗結(jié)果更準(zhǔn)確,對同一被測試數(shù)據(jù)采用10折交叉檢驗,計算其平均準(zhǔn)確率和誤報率。
熵原本是熱力學(xué)的概念,可以度量熱力學(xué)系統(tǒng)的混亂程度,也可描述時序信號中新信息發(fā)生率大小。對于給定的時間序列[u(1),u(2),…,u(N)],模糊熵的計算步驟如下[12]。
1)定義相空間維數(shù)m(m≤N-2)和相似容限度r,重構(gòu)相空間:X(i)=[u(i),u(i+1),…,u(i+m-1)]-u0(i),i=1,2,…,N-m+1
2)引入模糊隸屬函數(shù)
(1)
當(dāng)i=1,2,…,N-m+1時
j=1,…,N-m+1, 且j≠i
(2)
因此,有限時序數(shù)據(jù)集的模糊熵為
FuzzyEn(m,r,N)=lnΦm(r)-lnΦm+1(r)
(3)
(3)式中,相似容限r(nóng)為0.2SD,SD為原時序信號的標(biāo)準(zhǔn)差[13],當(dāng)m值較大時,能更好地描述重構(gòu)時的動態(tài)演化細(xì)節(jié)。
皮爾遜相關(guān)性是指對兩個或多個元素分析其相關(guān)性,從而衡量變量之間的相關(guān)密切程度。本文使用皮爾遜相關(guān)系數(shù)(Pearson’s correlation coefficient,PCC)來描述腦電導(dǎo)聯(lián)間的同步程度。給定兩個隨機腦電通道X,Y,皮爾遜相關(guān)系數(shù)r的計算式為[14]
(4)
F-score是一種基于類間類內(nèi)距離的特征重要性評價準(zhǔn)則,可以有效衡量特征在實現(xiàn)二分類問題中對正確分類的貢獻大小[15]。F-score的定義為
(5)
步驟1對所有特征進行F-score評價,并根據(jù)F-score的結(jié)果進行降序排列。
步驟2將特征子集設(shè)置為空集,全部特征設(shè)置為被選特征集。
步驟3當(dāng)被選特征集不為空集時,選擇第1個特征(F-score值最大)加入到特征子集中,同時在被選特征集中刪除該特征。以特征子集構(gòu)造分類模型,并得到準(zhǔn)確率。
步驟4重復(fù)步驟3,若準(zhǔn)確率提高,則在特征子集中保留該特征;否則,在特征子集中刪除該特征,即舍棄該特征。
步驟5重復(fù)步驟4,直至被選特征集為空集,特征子集中的特征即為最優(yōu)特征組合。
本文的數(shù)據(jù)來源于kaggle競賽[16](美國癲癇協(xié)會癲癇預(yù)測競賽)顱內(nèi)腦電圖(intracranial electroencephalogram,iEEG)記錄,數(shù)據(jù)采集自5只患有癲癇的犬類iEEG,采樣頻率為400 Hz,采用電極為16導(dǎo)聯(lián)。該數(shù)據(jù)被癲癇學(xué)家標(biāo)注為發(fā)作前期或發(fā)作間期。為了方便實驗,將5只狗分別記為被試1—被試5。
腦電信號的數(shù)量級一般是微伏級,易受到噪聲干擾。噪聲會影響腦電數(shù)據(jù)的質(zhì)量,對后續(xù)實驗效果有較大干擾。通過db4小波6層分解重構(gòu)后,癲癇腦電信號變得平滑,濾波結(jié)果如圖2所示。
圖2 小波濾波結(jié)果圖Fig.2 Graph of wavelet filter result
模糊熵可以衡量時間序列信號的復(fù)雜程度,對比研究癲癇腦電在發(fā)作前期和發(fā)作間期的模糊熵變化情況如圖3所示。發(fā)作前期的模糊熵值普遍高于發(fā)作間期,只有少數(shù)區(qū)域重疊。發(fā)作前期的模糊熵值有較長時間的劇烈波動,越接近癲癇發(fā)作,模糊熵值越大,整體來看發(fā)作前期的模糊熵值呈現(xiàn)上升趨勢。發(fā)作間期的模糊熵劇烈波動時間短,且上升趨勢不明顯。實驗結(jié)果表明,模糊熵能夠有效區(qū)分癲癇發(fā)作前期和發(fā)作間期。
圖3 模糊熵在發(fā)作前期和發(fā)作間期的對比Fig.3 Comparison of fuzzy entropy of EEG between preictal and interictal stage
將皮爾遜相關(guān)系數(shù)繪制成鄰接矩陣,用色塊顏色直觀表示導(dǎo)聯(lián)間的同步性,色塊顏色越靠近顏色欄上端,表明同步性越強。癲癇發(fā)作前期與發(fā)作間期的皮爾遜相關(guān)系數(shù)的對比如圖4所示。皮爾遜相關(guān)系數(shù)大于0.6為強相關(guān),小于0.4為弱相關(guān)。從圖4可以看出,發(fā)作前期多數(shù)通道呈現(xiàn)強相關(guān),發(fā)作間期多數(shù)通道屬于弱相關(guān)。試驗表明,發(fā)作前期和發(fā)作間期的導(dǎo)聯(lián)間同步性存在明顯差異,可以使用皮爾遜相關(guān)系數(shù)識別腦電信號的發(fā)作前期和發(fā)作間期。
圖4 癲癇發(fā)作前期與發(fā)作間期的皮爾遜相關(guān)系數(shù)對比Fig.4 Comparison of Pearson’s correlation coefficients of EEG between epilepsy preictal and interictal stage
為了驗證本文時空特征預(yù)測癲癇發(fā)作的效果,選取準(zhǔn)確率(accuracy,Acc)和誤報率(false prediction rate,F(xiàn)PR)兩個評價指標(biāo)衡量預(yù)測結(jié)果。
準(zhǔn)確率公式為
(6)
誤報率公式為
(7)
(6)—(7)式中:TP代表真陽性(正類預(yù)測成正類)值;FP代表假陽性(負(fù)類預(yù)測成正類)值;FN代表假陰性(正類預(yù)測成負(fù)類)值;TN代表真陰性(負(fù)類預(yù)測成負(fù)類)值。
將本文方法分別與單一特征模糊熵和皮爾遜相關(guān)系數(shù)法進行對照實驗,結(jié)果如表1所示。當(dāng)僅使用模糊熵作為特征時,平均準(zhǔn)確率為81.70% ,平均誤報率為12.30%;單獨空間特征的準(zhǔn)確率為76.08%,誤報率為7.5%;時空特征預(yù)測方法的準(zhǔn)確率達91.26%,誤報率僅為2.32%。因此,本文所提出的方法的預(yù)測效果優(yōu)于單一特征,且準(zhǔn)確率主要與模糊熵相關(guān),而誤報率主要受皮爾遜相關(guān)系數(shù)影響。
表1 分類準(zhǔn)確率和誤報率Tab.1 Classification accuracy and false positives %
采用本文的時空特征方法,被試3的準(zhǔn)確率最高,但誤報率也最高,被試5的準(zhǔn)確率最差,而誤報最少。結(jié)果表明,樣本的準(zhǔn)確率與誤報率不是一致的,存在著準(zhǔn)確率最優(yōu)反而誤報率最差的現(xiàn)象。被試1和被試5的準(zhǔn)確率都低于90%,原因可能是癲癇發(fā)作次數(shù)比其他3個被試少,由于缺乏發(fā)作前期數(shù)據(jù),樣本量大小直接影響機器學(xué)習(xí)的準(zhǔn)確率。被試3和被試4的準(zhǔn)確率有較高的提升,但誤報率卻比只采用某單一特征參數(shù)的誤報率高,其原因可能是算法為了得到整體最優(yōu)預(yù)測效果,犧牲誤報率來提高準(zhǔn)確率。實驗表明,本文方法可以平衡準(zhǔn)確率和誤報率兩個指標(biāo),使得預(yù)測效果達到最優(yōu)。
圖5是接收者操作特征(receiver operating characteristic,ROC) 曲線,可以看出黑色和藍(lán)色的曲線明顯低于綠色和紅色曲線,表明被試1和被試5的預(yù)測效果差,被試2和被試3的預(yù)測效果好,這與對表1的分析結(jié)果一致。
圖5 ROC曲線圖Fig.5 ROC curve graph
本文算法與文獻[2,17-20]的癲癇預(yù)測方法效果對比如表2。文獻[2]使用皮爾遜相關(guān)系數(shù)作為特征,然后利用卷積神經(jīng)網(wǎng)絡(luò)進行預(yù)測,其預(yù)測的準(zhǔn)確率為89.98%,而本文算法的準(zhǔn)確率為91.26%,高于文獻[2]的準(zhǔn)確率,表明時空特征能提高癲癇發(fā)作預(yù)測的準(zhǔn)確率。從表2可知,文獻[17]的癲癇發(fā)作預(yù)測方法的準(zhǔn)確率很高,但該文獻研究單導(dǎo)聯(lián)腦電癲癇發(fā)作預(yù)測,通常需要使用癲癇灶區(qū)的腦電信號,其隱含的癲癇信息要求較高,為了獲得灶區(qū)的單通道腦電信號,需要提前對腦電信號進行篩選。文獻[20]預(yù)測的準(zhǔn)確率很高,同時誤報率也較高,較高的誤報率會引起患者緊張,不利于癲癇的治療。通過對比可知,本文方法在預(yù)測精度方面還有待提高,算法還需優(yōu)化,這也是本文需要進一步改進的地方。
表2 現(xiàn)有癲癇預(yù)測方法的性能比較Tab.2 Performance comparison of existing methods for seizure prediction
本文提出的基于SVM分類器的癲癇腦電時空特征提取方法,與單一特征預(yù)測癲癇發(fā)作算法相比,具有較高的準(zhǔn)確率和較低的誤報率,可以為患者提供及時有效的預(yù)警,緩解患者的心理壓力。因此,本文方法提取的癲癇時空特征信息能較好地實現(xiàn)癲癇發(fā)作預(yù)測,未來可以用于癲癇患者的臨床預(yù)警。