莫 云
(桂林航天工業(yè)學(xué)院電子信息與自動(dòng)化學(xué)院,廣西 桂林 541004)
在運(yùn)動(dòng)想象腦電解碼中,特征選擇非常重要。由于運(yùn)動(dòng)想象腦電存在個(gè)體差異,因此需要特征選擇方法選擇被試特異的頻帶特征、時(shí)間窗特征、通道特征等[1]。另外,融合特征也需要特征選擇方法選擇更具判別性的特征。單一特征或者少數(shù)特征不需要特征選擇,但是單一特征通常不能更好地表征完整的腦電信息。融合特征有利于實(shí)現(xiàn)信息互補(bǔ)[2],但是通常也包含噪聲和冗余信息。因此,融合特征需要特征選擇剔除無(wú)效信息。此外,特征選擇可以降低特征維數(shù),減少分類模型的復(fù)雜度,避免維數(shù)災(zāi)難和過(guò)擬合。
現(xiàn)有特征選擇方法主要包括過(guò)濾式(Filter)、包裹式(Wrapper)和嵌入式(Embedded)3類[3]。過(guò)濾式特征選擇方法使用信息度量和距離度量等評(píng)價(jià)準(zhǔn)則選擇特征,比如Fisher分?jǐn)?shù)[4]、互信息[5]、散度[6]等。包裹式特征選擇方法使用特定的方式產(chǎn)生特征子集,然后使用分類器的結(jié)果作為特征選擇的評(píng)價(jià)標(biāo)準(zhǔn)。包裹式方法大多基于智能優(yōu)化算法,包括粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法[7]、遺傳算法(Genetic Algorithm, GA)[8]、人工蜂群算法[9]、螢火蟲(chóng)算法[10]等。嵌入式特征選擇方法在分類器訓(xùn)練的時(shí)候自動(dòng)把一些特征剔除,因此可以同時(shí)進(jìn)行特征選擇和分類。比較典型的嵌入式特征選擇方法有最小絕對(duì)值收縮和選擇算子(Least Absolute Shrinkage and Selection Operator, LASSO)方法[11]。LASSO在線性回歸模型中加入l1-范數(shù)正則化懲罰項(xiàng),使得部分特征的權(quán)重系數(shù)近乎歸0,特征選擇通過(guò)剔除系數(shù)為0或者接近0的特征實(shí)現(xiàn)。Miao等[1]使用LASSO對(duì)運(yùn)動(dòng)想象時(shí)-頻-空域的特征進(jìn)行選擇。王金甲等[12]使用稀疏組LASSO同時(shí)進(jìn)行運(yùn)動(dòng)想象信號(hào)的通道選擇和特征選擇。
以上3類方法都各有優(yōu)缺點(diǎn),各類方法之間的有機(jī)結(jié)合可以實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。因此,混合特征選擇方法近年來(lái)也得到了比較廣泛的研究。裴作飛等[13]使用卡方過(guò)濾算法剔除冗余特征,然后再使用LightGBM和自適應(yīng)遺傳算法組成的封裝方法進(jìn)一步約減特征。江澤濤等[14]使用Fisher分?jǐn)?shù)(Fisher Score, F-score)對(duì)特征進(jìn)行降維處理,然后引入超圖的Helly屬性對(duì)得到的特征子集進(jìn)行二次篩選。肖艷等[15]提出了基于Relief F和PSO的混合特征選擇方法,先使用Relief F濾除相關(guān)性小的特征,然后以PSO作為搜索算法,并使用支持向量機(jī)作為評(píng)估函數(shù),進(jìn)一步選擇出最優(yōu)特征子集。Ghareb等[16]結(jié)合6種過(guò)濾式特征選擇方法和改進(jìn)的遺傳算法組成新的混合特征選擇方法。文獻(xiàn)[17]是一篇綜述性文章,全面介紹了用于癌癥分類(基于微陣列基因表達(dá)數(shù)據(jù))的混合特征選擇方法。Eslahi等[8]使用遺傳算法尋找特征提取方法和分類器的最優(yōu)組合。Qi等[18]提出了多級(jí)混合PSO-貝葉斯線性判別分析方法,用于運(yùn)動(dòng)想象的通道選擇和特征選擇。雖然混合特征選擇方法已經(jīng)得到了較為廣泛的應(yīng)用,但據(jù)了解,除了文獻(xiàn)[8]和文獻(xiàn)[18],很少見(jiàn)到有相關(guān)文獻(xiàn)研究報(bào)道混合特征選擇方法在腦電特征選擇中的應(yīng)用。
以上的混合特征選擇方法大多基于遺傳算法和PSO等智能優(yōu)化算法,模型訓(xùn)練時(shí)間長(zhǎng),而且容易陷入局部最優(yōu)解。為了同時(shí)兼顧特征選擇的時(shí)間效率和分類性能這2個(gè)問(wèn)題,本文提出2種混合特征選擇方法,分別是基于LASSO的混合特征選擇方法以及基于Fisher分?jǐn)?shù)的混合特征選擇方法。首先分別使用LASSO模型和Fisher分?jǐn)?shù)獲取特征的權(quán)重。然后設(shè)置一系列的閾值,大于設(shè)定閾值的特征將被選擇。最后結(jié)合Fisher線性判別分析(Fisher Linear Discriminant Analysis, FLDA)和交叉驗(yàn)證選擇最優(yōu)的閾值參數(shù),繼而得到最優(yōu)的特征子集。使用3個(gè)數(shù)據(jù)集驗(yàn)證混合特征選擇方法的有效性。實(shí)驗(yàn)結(jié)果表明,2種新提出的方法不僅分類結(jié)果較好,而且特征選擇時(shí)間也具有顯著優(yōu)勢(shì)。
圖1給出了本文方法的算法框架。首先,對(duì)輸入的原始腦電信號(hào)進(jìn)行預(yù)處理,包括8~30 Hz帶通濾波和0.5 s~2.5 s時(shí)間窗截取。其次,對(duì)預(yù)處理的數(shù)據(jù)進(jìn)行CSP變換。針對(duì)CSP空間濾波后的信號(hào),提取對(duì)數(shù)方差、4階自回歸(AutoRegressive, AR)系數(shù)、帶通功率和小波能量4種特征,并進(jìn)行特征融合。接著,使用特征選擇方法對(duì)融合特征進(jìn)行選擇。最后,使用FLDA分類器對(duì)各種方法選擇的特征子集進(jìn)行分類。
圖1 算法框架
傳統(tǒng)的時(shí)域、頻域和時(shí)頻特征提取方法直接對(duì)預(yù)處理后的腦電信號(hào)提取相應(yīng)的特征,本文的特征提取與傳統(tǒng)方法有所不同。受文獻(xiàn)[3]啟發(fā),在特征提取過(guò)程中,先進(jìn)行CSP變換,然后再提取對(duì)數(shù)方差、4階AR系數(shù)、帶通功率和小波能量4種特征,并進(jìn)行特征融合,特征融合過(guò)程詳見(jiàn)圖2。這樣做有2個(gè)好處:1)信號(hào)經(jīng)過(guò)CSP空間濾波之后,信號(hào)質(zhì)量提高,提取的特征更加穩(wěn)定、更具判別性;2)經(jīng)過(guò)CSP空間投影之后,信號(hào)通道減少,特征提取的時(shí)間也相應(yīng)減少。在本文中,對(duì)于數(shù)據(jù)集1和數(shù)據(jù)集3,CSP的空間濾波器對(duì)數(shù)選擇為3;對(duì)于數(shù)據(jù)集2,濾波器對(duì)數(shù)選擇為1。CSP的實(shí)現(xiàn)以及對(duì)數(shù)方差特征的計(jì)算可參考文獻(xiàn)[19],AR系數(shù)、帶通功率和小波能量的特征提取可參考文獻(xiàn)[20]。
圖2 融合特征的計(jì)算過(guò)程
不同被試在進(jìn)行運(yùn)動(dòng)想象的過(guò)程中存在個(gè)體差異性,而且不同被試其判別性特征也有所區(qū)別,所以使用單一特征不能很好地表征腦電信息。融合特征結(jié)合多種類型特征可以實(shí)現(xiàn)信息互補(bǔ),而融合特征的維數(shù)過(guò)多,又會(huì)造成信息冗余,故需要進(jìn)行特征選擇。下面將介紹本文所提出的2種混合特征選擇方法。
1.3.1 基于LASSO的混合特征選擇方法
LASSO在線性回歸模型的基礎(chǔ)上,引入l1-范數(shù)對(duì)模型的權(quán)重進(jìn)行約束,其數(shù)學(xué)模型如下:
(1)
其中X=(x1,x2,…,xN)T為樣本矩陣,X∈N×P,N為樣本數(shù),P為樣本的特征維數(shù)。y=(y1,y2,…,yN)T∈N為樣本標(biāo)簽向量,yi∈{-1,1}。w=(w1,w2,…,wP)T∈P為特征權(quán)重系數(shù)向量,是正則化參數(shù),決定了模型的稀疏度。當(dāng)λ增大時(shí),‖w‖1變小,導(dǎo)致w的某些元素趨于0,也即特征權(quán)重趨于0,被選擇的特征減少;當(dāng)λ減小時(shí),‖w‖1變大,導(dǎo)致w非0的元素增多,被選擇的特征增多。因此,LASSO可以用于特征選擇。在權(quán)衡分類準(zhǔn)確率和模型復(fù)雜度之間,需要使用訓(xùn)練數(shù)據(jù)選擇一個(gè)合適的λ值以及最優(yōu)的LASSO模型。w的權(quán)重系數(shù)越大,說(shuō)明對(duì)應(yīng)的特征對(duì)分類越重要。
一般使用交叉驗(yàn)證和網(wǎng)格搜索方法選擇最優(yōu)的LASSO模型參數(shù),然后篩選出特征權(quán)重不為0的特征子集進(jìn)行后續(xù)的分類。由于腦電信號(hào)的隨機(jī)性和非平穩(wěn)性,通過(guò)LASSO選擇出的權(quán)重不為0的特征子集可能還包含有冗余信息。因此,有必要再做一次特征選擇。因此,在本文中,設(shè)置特征權(quán)重的閾值為T(mén)∈{0,0.1,0.2,…,0.8},再次使用交叉驗(yàn)證和網(wǎng)格搜索方法選擇最優(yōu)的閾值,特征權(quán)重大于設(shè)定閾值的特征將被選擇。使用FLDA的分類準(zhǔn)確率作為評(píng)價(jià)準(zhǔn)則,把最高的交叉驗(yàn)證平均分類準(zhǔn)確率所對(duì)應(yīng)的閾值作為最優(yōu)閾值。這樣就通過(guò)LASSO和FLDA分類器組成了一種混合的特征選擇方法。該方法通過(guò)LASSO嵌入式特征選擇方法進(jìn)行特征子集預(yù)選,然后再使用包裹式方法進(jìn)行二次特征篩選。
在本文中,2次交叉驗(yàn)證都選擇10折交叉驗(yàn)證。LASSO模型參數(shù)λ的備選合集為{0.1,0.2,…,3}。
1.3.2 基于F-score的混合特征選擇方法
F-score可以衡量特征在2個(gè)類別之間的區(qū)分能力。F-score通過(guò)計(jì)算每個(gè)特征的類間和類內(nèi)的方差比得到,具體如下:
(2)
其中,xk∈P,k=1,2,…,n,xk表示第k個(gè)樣本,n為樣本總數(shù)。正類和負(fù)類的樣本數(shù)分別為n+和n-,則n=n++n-。F(i)代表第i個(gè)特征的Fisher分?jǐn)?shù)。和分別為第i個(gè)特征在整個(gè)數(shù)據(jù)樣本集上的平均值、在正類樣本集上的平均值和在負(fù)類樣本集上的平均值。為第k個(gè)正類樣本點(diǎn)的第i個(gè)特征的特征值,為第k個(gè)負(fù)類樣本點(diǎn)的第i個(gè)特征的特征值。F值越大,說(shuō)明此特征的辨別力越強(qiáng)。通常的做法是把特征按Fisher分?jǐn)?shù)的大小進(jìn)行排序,然后選擇前N個(gè)特征進(jìn)行后續(xù)的分類。
然而,具體選擇多少個(gè)特征會(huì)達(dá)到最好分類效果,比較難以確定。為此,本文使用Fisher分?jǐn)?shù)進(jìn)行特征排序,然后使用FLDA和10折交叉驗(yàn)證選擇最優(yōu)的特征個(gè)數(shù),得到最優(yōu)特征組合,即最優(yōu)特征子集。
為了驗(yàn)證本文方法的有效性,共選取3個(gè)數(shù)據(jù)集進(jìn)行試驗(yàn),包括2個(gè)公開(kāi)的BCI競(jìng)賽數(shù)據(jù)集和一個(gè)實(shí)驗(yàn)室自采集數(shù)據(jù)集。數(shù)據(jù)集的介紹如下:
數(shù)據(jù)集1:第4次BCI競(jìng)賽數(shù)據(jù)集IIa[21]。該數(shù)據(jù)集包含22個(gè)電極通道,采樣率為250 Hz。9個(gè)健康被試(A01,A02,A03,A04,A05,A06,A07,A08,A09)分別執(zhí)行左手、右手、腳和舌頭4類運(yùn)動(dòng)想象任務(wù)。本文只對(duì)左手和右手2類任務(wù)進(jìn)行分類。每個(gè)被試的訓(xùn)練集和測(cè)試集樣本數(shù)均為144個(gè)。
數(shù)據(jù)集2:第4次BCI競(jìng)賽數(shù)據(jù)集IIb[22]。該數(shù)據(jù)集包含3個(gè)電極通道,分別為C3、CZ和C4,采樣率為250 Hz。9個(gè)健康被試(B01,B02,B03,B04,B05,B06,B07,B08,B09)分別執(zhí)行左、右手2類運(yùn)動(dòng)想象任務(wù)。該數(shù)據(jù)集有5個(gè)會(huì)話數(shù)據(jù),本文只對(duì)第3個(gè)會(huì)話數(shù)據(jù)進(jìn)行分析[23]。訓(xùn)練集和測(cè)試集的樣本數(shù)均為80個(gè)。
數(shù)據(jù)集3:實(shí)驗(yàn)室的自采集數(shù)據(jù)。該數(shù)據(jù)集包含30個(gè)電極通道,采樣率為250 Hz。6個(gè)健康被試(S01,S02,S03,S04,S05,S06)分別執(zhí)行左、右手2類運(yùn)動(dòng)想象任務(wù)。使用Neuroscan公司的NuAmps 40導(dǎo)放大器以及腦電帽采集頭皮腦電信號(hào)。
在數(shù)據(jù)實(shí)驗(yàn)中,參與對(duì)比的方法包括GA和二進(jìn)制PSO(Binary PSO, BPSO),這2種方法的參數(shù)設(shè)置如下。
GA的參數(shù)設(shè)置與文獻(xiàn)[24]一致。具體如下:特征編碼方法使用二進(jìn)制編碼。適應(yīng)度函數(shù)使用K-近鄰分類器的分類準(zhǔn)確率,其中k=5。種群個(gè)數(shù)為10,使用迭代次數(shù)作為算法的終止條件,最大迭代次數(shù)為100。交叉概率為0.8,變異概率為0.01。
BPSO的實(shí)現(xiàn)參考文獻(xiàn)[25],參數(shù)設(shè)置與文獻(xiàn)[25]一致。具體如下:適應(yīng)度函數(shù)使用K-近鄰分類器的分類準(zhǔn)確率,其中k=5。種群個(gè)數(shù)為10,使用迭代次數(shù)作為算法的終止條件,最大迭代次數(shù)為100。加速系數(shù)c1=2,c2=2,最大速度和最小速度分別為6和-6,最大慣性權(quán)重和最小慣性權(quán)重為0.9和0.4。
為更加簡(jiǎn)明地描述實(shí)驗(yàn)結(jié)果,以下內(nèi)容把基于LASSO的混合特征選擇方法簡(jiǎn)稱為L(zhǎng)ASSO_h,基于F-score的混合特征選擇方法簡(jiǎn)稱為F-score_h。
表1~表3分別給出了數(shù)據(jù)集1~數(shù)據(jù)集3的分類準(zhǔn)確率,表中最高分類準(zhǔn)確率使用黑體加粗標(biāo)注。F-score_h在數(shù)據(jù)集1中取得了最高的平均分類準(zhǔn)確率,而LASSO_h在數(shù)據(jù)集2和數(shù)據(jù)集3中取得了最高的平均分類準(zhǔn)確率。本文提出的2種混合特征選擇方法都優(yōu)于現(xiàn)有的特征選擇方法。
表1 數(shù)據(jù)集1分類準(zhǔn)確率/%
表3 數(shù)據(jù)集3分類準(zhǔn)確率/%
為了更直觀地比較不同特征選擇方法的分類效果,圖3給出了所有數(shù)據(jù)集的平均分類準(zhǔn)確率對(duì)比情況。LASSO_h、F-score_h、GA和BPSO在所有數(shù)據(jù)集上取得的平均分類準(zhǔn)確率分別為:74.87±14.03、75.12±15.03、72.08±14.35和72.42±13.64。F-score_h略高于LASSO_h,但LASSO_h在數(shù)據(jù)集2和數(shù)據(jù)集3的分類效果優(yōu)于F-score_h。從數(shù)據(jù)集的適用性考慮,LASSO_h相比F-score_h有優(yōu)勢(shì)。
圖3 不同算法下各個(gè)數(shù)據(jù)集的平均分類準(zhǔn)確率
圖4給出了不同特征選擇方法分類準(zhǔn)確率的整體分布情況。分類準(zhǔn)確率的整體分布,LASSO_h和F-score_h這2種方法比較靠上,但是F-score_h的最小值低于40%,而LASSO_h方法的最小值在幾種方法中表現(xiàn)最佳,說(shuō)明LASSO的穩(wěn)定性和魯棒性會(huì)更好一些。
圖4 不同算法下所有數(shù)據(jù)的分類準(zhǔn)確率分布
表4給出了各種方法在模型訓(xùn)練階段的特征選擇時(shí)間,F(xiàn)-score_h的特征選擇時(shí)間最少,LASSO_h多于F-score_h,但是遠(yuǎn)少于GA和BPSO。從特征選擇時(shí)間角度考慮,基于過(guò)濾式的混合特征選擇具有明顯的時(shí)間優(yōu)勢(shì),而基于智能優(yōu)化的特征選擇方法其計(jì)算時(shí)間都比較長(zhǎng)。過(guò)濾式特征選擇方法計(jì)算都比較簡(jiǎn)單,所以其特征選擇時(shí)間比較少。在未來(lái)的工作中,可以加大對(duì)這方面的研究。
表4 各種方法的特征選擇時(shí)間/s
從以上實(shí)驗(yàn)結(jié)果的比較分析中可以得出結(jié)論:
1)從平均分類結(jié)果和特征選擇時(shí)間方面評(píng)價(jià),基于F-score混合特征選擇方法優(yōu)于基于LASSO的混合特征選擇方法。
2)從各個(gè)數(shù)據(jù)集的分類效果和分類準(zhǔn)確率整體分布評(píng)價(jià),基于LASSO的混合特征選擇方法的數(shù)據(jù)集適用性比較好,其穩(wěn)定性和魯棒性也較好。
導(dǎo)致基于LASSO的混合特征選擇方法分類效果不佳的原因可能是出現(xiàn)了過(guò)擬合現(xiàn)象。該方法利用相同的訓(xùn)練集使用2次交叉驗(yàn)證選擇最優(yōu)的特征子集,容易出現(xiàn)過(guò)擬合現(xiàn)象。GA和BPSO的分類效果比較差,有多方面的原因。首先,遺傳算法可能會(huì)出現(xiàn)陷入局部最優(yōu)的情況;而B(niǎo)PSO可能會(huì)出現(xiàn)“早熟”現(xiàn)象[25]。另外,GA和BPSO的初始化參數(shù)選擇對(duì)特征選擇影響也非常大[26-27],如何選擇更合適的模型參數(shù)是非常關(guān)鍵的問(wèn)題。
綜合考慮分類效果和特征選擇時(shí)間,基于F-score的混合特征選擇方法是一個(gè)較好選擇。
本文提出了2種混合特征選擇方法。第1種方法是LASSO嵌入式方法和包裹式方法的結(jié)合,第2種方法是Fisher分?jǐn)?shù)過(guò)濾式方法和包裹式方法的結(jié)合。實(shí)驗(yàn)結(jié)果表明,無(wú)論是分類效果和特征選擇時(shí)間,這2種方法都優(yōu)于基于智能優(yōu)化的包裹式方法。特征選擇對(duì)運(yùn)動(dòng)想象腦電解碼至關(guān)重要,在未來(lái)的工作中,將更加系統(tǒng)全面地研究特征選擇方法,提出更具時(shí)效性的特征選擇方法。