沈侃文,李文鈞,岳克強(qiáng)
(杭州電子科技大學(xué)射頻電路與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310018)
打鼾是“阻塞性睡眠呼吸暫停低通氣綜合征”(Obstructive Sleep Apnea-Hypopnea Syndrome,OSAHS)的癥狀之一[1],打鼾和呼吸暫停之間存在密切關(guān)系。目前,醫(yī)學(xué)界檢測OSAHS的國際標(biāo)準(zhǔn)是多導(dǎo)睡眠圖(Polysomnography,PSG),但PSG檢測價格昂貴,耗時較長且操作復(fù)雜,難以滿足當(dāng)前便捷、低成本檢測方式的需要[2]。鼾聲是一種重要的生理信號,包含與OSAHS相關(guān)的許多信息,并反映出OSAHS的病理特征[3],可以通過檢測鼾聲來實(shí)現(xiàn)OSAHS的診斷。在語音識別的特征參數(shù)選擇方面,王彪[4]采用線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)進(jìn)行語音識別,郭春霞等[5]采用梅爾倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficient,MFCC)進(jìn)行說話人識別,取得一定的成果。但是,由于特征參數(shù)過于單一導(dǎo)致識別準(zhǔn)確率偏低。支持向量機(jī)(Support Vector Machines,SVM)基于結(jié)構(gòu)風(fēng)險最小化原則,泛化能力強(qiáng),故本文從鼾聲的聲學(xué)特征出發(fā),提出一種基于支持向量機(jī)(Support Vector Machines,SVM)的融合特征鼾聲分類算法,為OSAHS診斷提供一定參考價值。
聲音的特征提取方法主要包括基音頻率、短時能量、共振峰、線性預(yù)測編碼(Linear Predictive Coding,LPC)、線性預(yù)測倒譜系數(shù)LPCC、梅爾倒譜系數(shù)MFCC等,其中LPCC和MFCC特征提取性能較好,本文使用一種基于Fisher準(zhǔn)則的融合特征提取方法將LPCC和MFCC進(jìn)行融合,產(chǎn)生新的特征參數(shù),有效表征鼾聲的特征,達(dá)到區(qū)別鼾聲類別的目的。
LPCC特征參數(shù)[6]是在LPC特征參數(shù)[7]的基礎(chǔ)上得到的。通過LPC分析獲得的聲道模型系統(tǒng)函數(shù)為:
(1)
(2)
將式(1)代入式(2),然后兩邊各自關(guān)于z求導(dǎo),則有:
(3)
所以有:
(4)
(5)
人的聽覺特性是MFCC分析[9]的基礎(chǔ),其中對語音頻譜的分析是基于人耳的聽覺實(shí)驗(yàn),以此獲得良好的語音特性。
MFCC特征參數(shù)[10]的提取首先經(jīng)過預(yù)處理、離散傅里葉變換、語音信號功率譜計(jì)算,再通過一組梅爾尺度的三角形濾波器組對頻譜進(jìn)行平滑化,從而避免特征參數(shù)受到語音的音調(diào)高低的影響,最后計(jì)算每個濾波器組輸出的對數(shù)能量:
(6)
式中,X(k)為各幀信號進(jìn)行快速傅里葉變換得到的頻譜并取模平方得到語音信號的功率譜,H(k)為能量譜通過三角濾波器得到的頻率響應(yīng),M為梅爾濾波器總數(shù),N為頻域中的譜線總條數(shù)。得到每個濾波器組輸出的對數(shù)能量s(m)后經(jīng)離散余弦變換得到MFCC系數(shù)C(n):
(7)
式中,L為離散余弦變化后的譜線總條數(shù)。
Fisher準(zhǔn)則[11]的原理是在特征向量空間中找到投影子空間,以使其中的特征點(diǎn)在該空間中獲得最佳分類。Fisher準(zhǔn)則是模式識別中的降維方法和特征提取方法。LPCC特征參數(shù)和MFCC特征參數(shù)分別代表鼾聲信號的不同特征并且具有不同的表征能力。本文結(jié)合不同特征參數(shù)的優(yōu)勢進(jìn)行鼾聲識別。
特征參數(shù)的選擇是從C維特征參數(shù)中選擇最有效的c(c (8) (9) (10) σbetween越大,表明第d維的特征參數(shù)分量與其他維的特征參數(shù)分量對不同鼾聲信號包含的特征信息的區(qū)分度較好。σwithin越小,表示第d維的特征參數(shù)分量表示的同一鼾聲信號包含的特征信息越集中??傮w來說,F(xiàn)isher比越大,表明該維特征參數(shù)能更有效準(zhǔn)確地反映鼾聲信號的特征信息。 本文先根據(jù)Fisher比進(jìn)行特征選擇,再進(jìn)行特征參數(shù)的融合,具體步驟如下。 (1)將輸入的鼾聲信號進(jìn)行預(yù)加重、加窗、分幀、端點(diǎn)檢測等處理。 (2)分別求取鼾聲信號的LPCC特征參數(shù)和MFCC特征參數(shù)。 (3)將LPCC特征參數(shù)和MFCC特征參數(shù)分別構(gòu)建成LPCC特征參數(shù)序列和MFCC特征參數(shù)序列。 (4)根據(jù)Fisher準(zhǔn)則分別求出LPCC特征參數(shù)序列和MFCC特征參數(shù)序列中每一維特征參數(shù)的Fisher比,選擇Fisher比大的維數(shù),并分別構(gòu)成LPCC特征參數(shù)序列和MFCC特征參數(shù)序列。 (5)將步驟4中的LPCC特征參數(shù)序列和MFCC特征參數(shù)序列進(jìn)行融合,得到新的特征參數(shù)序列。 如上所述,本文特征參數(shù)提取的方法是先根據(jù)Fisher比選擇LPCC特征參數(shù)和MFCC特征參數(shù),然后再進(jìn)行融合特征參數(shù)。這樣,融合特征參數(shù)由LPCC特征參數(shù)的Fisher維度和MFCC特征參數(shù)的Fisher維度組成,因此,構(gòu)成LPCC特征參數(shù)和MFCC特征參數(shù)的數(shù)量相等。 SVM是一種二分類模型,能夠正確劃分訓(xùn)練數(shù)據(jù)集并且求解幾何間距最大的分離超平面。當(dāng)數(shù)據(jù)無法在低維特征空間中線性可分時,通過非線性變換x=K(x)將樣本映射到高維空間,K(x)為x映射后的特征向量。當(dāng)核函數(shù)滿足Mercer定理時,使用適當(dāng)?shù)膬?nèi)積函數(shù)獲得高維空間的分類函數(shù),從而實(shí)現(xiàn)線性可分,且不會增加計(jì)算的復(fù)雜度。假設(shè)超平面能將訓(xùn)練樣本正確分類,則約束條件為[13]: (11) 式中,xi為第i個特征向量,yi為類標(biāo)記,w為分類超平面法向量,b為分類超平面偏移項(xiàng),h為樣本總數(shù)。為使得幾何間距最大化,新的最優(yōu)問題轉(zhuǎn)化為: (12) 式(12)的對偶問題為: (13) 式中,αi≥0為拉格朗日乘子。決策函數(shù)為: (14) 本文將SVM用于融合鼾聲特征分類,算法步驟如下。 (1)從整夜錄音聲中用端點(diǎn)檢測的方法提取鼾聲段。 (2)通過MATLAB-R2016b平臺提取鼾聲段的LPCC,MFCC,LPCC+MFCC特征數(shù)據(jù),并將這3種特征數(shù)據(jù)保存為MAT文件。 (3)通過PyCharm平臺導(dǎo)入MAT文件,獲取特征數(shù)據(jù)。 (4)將不同種類的數(shù)據(jù)集標(biāo)記為0和1,然后將數(shù)據(jù)集分為訓(xùn)練集和測試集,最后進(jìn)行模型的訓(xùn)練和測試。 實(shí)驗(yàn)用的鼾聲數(shù)據(jù)來源于某附屬醫(yī)院,采樣頻率為16 000 Hz,16位采樣位數(shù),單聲道。在特征提取期間,對輸入的鼾聲片段進(jìn)行預(yù)加重、加窗、分幀、端點(diǎn)檢測等處理,其中幀長選為480點(diǎn),幀移為160點(diǎn),使用濾波器進(jìn)行預(yù)加重,最后通過MATLAB平臺提取LPCC,MFCC,LPCC+MFCC特征參數(shù),LPCC濾波器個數(shù)為16,LPCC輸出維度為40,MFCC濾波器個數(shù)為40,MFCC輸出維度為40,LPCC+MFCC(其中LPCC濾波器個數(shù)取16,輸出維度為56,MFCC濾波器個數(shù)為36,輸出維度為36)的輸出維度為40。本文通過錄音設(shè)備采集5名醫(yī)院患者的鼾聲數(shù)據(jù)(2男3女),文件格式為WAV格式。5名受試者中,單純打鼾者鼾聲為1 060例,OSAHS患者的鼾聲為1 060例。首先通過MATLAB-R2016b平臺分別提取鼾聲信號的LPCC,MFCC,LPCC+MFCC的特征參數(shù),并保存為MAT文件,然后在PyCharm平臺上通過調(diào)用MAT文件導(dǎo)入特征數(shù)據(jù),進(jìn)行去均值和方差歸一化處理,運(yùn)用SVM模型進(jìn)行訓(xùn)練和測試。 本文分別采用SVM學(xué)習(xí)算法、隨機(jī)森林學(xué)習(xí)算法、決策樹學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn),特征參數(shù)選用MFCC,實(shí)驗(yàn)結(jié)果如表1所示。 表1 不同學(xué)習(xí)算法的識別準(zhǔn)確率 % 由表1可知,SVM學(xué)習(xí)算法的準(zhǔn)確率高于決策樹和隨機(jī)森林學(xué)習(xí)算法,分別提高了7.5%和4.7%。 本文在SVM核函數(shù)的選擇上也進(jìn)行了實(shí)驗(yàn)分析,分別采用多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、Sigmoid核函數(shù),特征參數(shù)選用LPCC+MFCC,實(shí)驗(yàn)結(jié)果如表2所示。 表2 不同SVM核函數(shù)的識別準(zhǔn)確率 % 由表2可知,當(dāng)SVM采用高斯徑向基核函數(shù)時識別準(zhǔn)確率高于多項(xiàng)式核函數(shù)和Sigmoid核函數(shù),分別提高了15.3%和4.1%,有助于提高鼾聲識別系統(tǒng)的準(zhǔn)確率。 在以核函數(shù)為高斯徑向基核函數(shù)的SVM模型上,運(yùn)用LPCC特征參數(shù)、MFCC特征參數(shù)和LPCC+MFCC特征參數(shù)對原始鼾聲信號進(jìn)行訓(xùn)練和測試,基于3種特征參數(shù)的鼾聲識別系統(tǒng)的識別準(zhǔn)確率如表3所示。 表3 不同特征參數(shù)的識別準(zhǔn)確率 % 最后在原始鼾聲信號中分別加入15 dB,20 dB,30 dB的白噪聲,來驗(yàn)證本文融合特征參數(shù)的抗噪性。結(jié)合LPCC特征參數(shù)、MFCC特征參數(shù)、LPCC+MFCC特征參數(shù)的實(shí)驗(yàn)測試結(jié)果,在不同噪聲環(huán)境下的鼾聲識別系統(tǒng)的識別準(zhǔn)確率如表4所示。 表4 不同噪聲環(huán)境下,不同特征參數(shù)的識別準(zhǔn)確率 % 由表3可知,3種特征參數(shù)都有較高的準(zhǔn)確率,都在90%以上。MFCC特征參數(shù)的抗噪性能要比LPCC特征參數(shù)的抗噪性能好。與LPCC和MFCC特征參數(shù)相比,本文的融合特征參數(shù)大大提高了抗噪聲能力,同時鼾聲識別系統(tǒng)的準(zhǔn)確率也大大提高了。 基于以上實(shí)驗(yàn)數(shù)據(jù),本文的融合特征參數(shù)可以更好地表征鼾聲信號的特征,從而提高了鼾聲識別系統(tǒng)的準(zhǔn)確率,從表3計(jì)算得出,相對于LPCC和MFCC,分別提高了3.4%和2.4%。 本文設(shè)計(jì)了一種基于SVM的Fisher準(zhǔn)則的融合特征鼾聲分類算法,通過Fisher準(zhǔn)則結(jié)合不同特征參數(shù)的優(yōu)勢來進(jìn)行鼾聲識別。與傳統(tǒng)的LPCC和MFCC特征參數(shù)相比,融合LPCC和MFCC特征參數(shù)的系統(tǒng)的準(zhǔn)確率有所提高。但是,在噪聲環(huán)境下的準(zhǔn)確率還是偏低,接下來將在抗噪方面做進(jìn)一步研究,以提高算法的抗噪性。2 基于SVM的鼾聲分類
2.1 SVM原理
2.2 SVM的融合鼾聲特征分類
3 實(shí)驗(yàn)仿真與分析
4 結(jié)束語