有效特征參數(shù)分類正常與病理語音

2019-11-11 12:56:28郭樂樂曹輝李濤

聲學(xué)技術(shù) 2019年5期

郭樂樂，曹輝，李濤

郭樂樂，曹輝，李濤

(陜西師范大學(xué)物理學(xué)與信息技術(shù)學(xué)院，陜西西安 710100)

采用殘差信號(hào)的特征參數(shù)——基音幅值(Pitch Amplitude, PA)和頻譜平坦度(Spectral Flatness of the Residue Signal, SFR)與語音信號(hào)倒譜域特征參數(shù)——倒譜峰值突出(Cepstral Peak Prominence, CPP)來區(qū)分正常與病理語音，在薩爾布呂肯語音數(shù)據(jù)庫中選擇自然音調(diào)的正常與病理語音/a/進(jìn)行仿真實(shí)驗(yàn)。統(tǒng)計(jì)結(jié)果表明，與正常語音相比，病理語音的PA較小，SFR更接近零，CPP也較小。結(jié)合其他傳統(tǒng)特征參數(shù)分析對(duì)比，證明SFR、PA和CPP更能有效分類正常與病理語音。通過不同分類算法比較，得出支持向量機(jī)的分類準(zhǔn)確率相對(duì)更高。

殘差信號(hào)；基音幅值；頻譜平坦度；倒譜峰值突出；支持向量機(jī)

0 引言

導(dǎo)致語音異常的因素有很多種，其中不同聲帶病理類型造成的嗓音疾病是語音異常最主要的因素。嗓音疾病影響聲帶的形態(tài)和振動(dòng)模式，使得發(fā)聲過程中聲帶異常閉合或者左右不對(duì)稱振動(dòng)，造成嗓音的聲學(xué)特征和空氣動(dòng)力學(xué)特征等均發(fā)生改變，導(dǎo)致嗓音嘶啞、無力等，嚴(yán)重影響了人們的生活質(zhì)量和社會(huì)交流[1]。常見的嗓音疾病主要有聲帶麻痹、聲帶水腫、聲帶息肉、聲帶小結(jié)等，這些嗓音疾病患者發(fā)出的聲音統(tǒng)稱為病理語音。所有病理語音的形成大多和聲帶振動(dòng)異常有關(guān)，這導(dǎo)致病理語音中包含更多無聲或不規(guī)則有聲成分，病理嚴(yán)重時(shí)語音波形特征類似噪聲。

病理嗓音檢測(cè)難度與病理的嚴(yán)重程度密切相關(guān)，病理語音的特征選擇在病理語音識(shí)別中具有重要地位。2014年，張滿彩[2]直接從原始語音中提取傳統(tǒng)聲學(xué)特征對(duì)病理聲音進(jìn)行了分析，結(jié)果表明傳統(tǒng)聲學(xué)特征不能很好地表征語音信號(hào)的動(dòng)態(tài)特征問題。除了直接從語音信號(hào)中提取特征分析，人們還常用聲門波相關(guān)特征參數(shù)來量化語音，2016年，BURROWS等[3]提取了聲門波的時(shí)域和頻域特征參數(shù)用來辨別聲帶小結(jié)、聲帶麻痹與正常說話者，結(jié)果表明與傳統(tǒng)聲學(xué)特征相比，聲門波特征的分類效果更好。之后FORERO等[4]又將聲門波特征與梅爾倒譜系數(shù)結(jié)合在一起，對(duì)正常語音與病理語音進(jìn)行分類，分類率得到了提高。

常見的提取聲門波的方法主要有兩種，分別為最小二乘法和基音迭代自適應(yīng)法，二者都是基于線性預(yù)測(cè)(Linear Prediction, LP)逆濾波實(shí)現(xiàn)的。但是最小二乘法對(duì)被測(cè)語音要求較高，只有當(dāng)被測(cè)語音具有足夠長的閉合相且這些閉合相位置被準(zhǔn)確測(cè)出時(shí)，求得的聲門波才可靠[5]。大部分病理說話人發(fā)聲時(shí)聲帶不能正常閉合，發(fā)出長時(shí)閉合相的語音相對(duì)困難，因此，最小二乘法不太適合病理語音聲門波的提取，局限性較大?？紤]到實(shí)際操作，一般采用基音迭代自適應(yīng)法提取正常與病理語音聲門波[6]。首先通過一階LP分析初步估計(jì)聲門波對(duì)語音信號(hào)的影響，然后逆濾波消除這種影響，再通過更高階的LP分析得到聲道的首次估計(jì)，最后進(jìn)行逆濾波和積分依次消除聲道和唇輻射的影響，至此完成第一次迭代過程，得到初始聲門波。將第一次迭代的輸出作為第二次迭代的輸入，重復(fù)第一次迭代過程，得到最終的聲門波。該方法對(duì)聲門波和聲道傳輸函數(shù)重復(fù)兩次迭代，有效避開了閉合相測(cè)量，魯棒性高，但需要對(duì)語音信號(hào)進(jìn)行多次線性預(yù)測(cè)，過程相對(duì)復(fù)雜。

目前定量分析聲門波使用的時(shí)域特征參數(shù)有開放商(開放相與基音周期的比值)、閉合商(閉合相與基音周期的比值)和速度商(漸開相與漸閉相的比值)等，這些參數(shù)需要準(zhǔn)確判定聲門的開放和閉合時(shí)刻，而聲帶逐漸開放或不完全閉合等會(huì)導(dǎo)致這些關(guān)鍵時(shí)間點(diǎn)求解出錯(cuò)，共振峰波紋和噪聲也會(huì)使量化的準(zhǔn)確度下降。聲門波的頻域特征參數(shù)諧波差(一次諧波與二次諧波的幅值差)和諧波豐富因子(其它諧波的幅值總和與一次諧波幅值的比值)的求解雖不需要確定具體時(shí)間點(diǎn)，但它們不能有效捕捉時(shí)間細(xì)節(jié)的快速變化，所以合理量化聲門波也比較困難[5]。除此之外，逆濾波得到的聲門波本身主要包含低頻信息，因而用此類特征參數(shù)來判斷正常語音與病理語音相對(duì)不易[7]。故本文主要從分析嗓音障礙的殘差信號(hào)入手，求其特征參數(shù)對(duì)正常語音與病理語音進(jìn)行分類。通過線性預(yù)測(cè)分析得到殘差信號(hào)來量化語音，分析殘差信號(hào)的相關(guān)特征，用統(tǒng)計(jì)學(xué)方法對(duì)正常語音與病理語音的殘差特征進(jìn)行比較分析，并采用支持向量機(jī)二分類處理，充分證明殘差信號(hào)特征判別正常語音與病理語音的有效性和優(yōu)越性。

1 殘差信號(hào)

利用語音信號(hào)過去若干個(gè)采樣值的線性組合預(yù)測(cè)或估計(jì)其當(dāng)前采樣值，可以得到語音的線性預(yù)測(cè)值，實(shí)際值與預(yù)測(cè)值之差稱為殘差信號(hào)。

圖1(a)、1(b)分別為正常語音和病理語音的一幀信號(hào)及其對(duì)應(yīng)的殘差信號(hào)的波形圖。正常語音的殘差信號(hào)在聲門閉合處通常包含明顯尖峰，兩尖峰之間的距離代表一個(gè)基音周期長度，病理語音由于聲帶異常振動(dòng)或聲門閉合不全導(dǎo)致殘差信號(hào)的周期性不太明顯，波形雜亂無規(guī)律。

(a) 正常語音及殘差信號(hào)

殘差信號(hào)提取簡單，只需進(jìn)行一次線性預(yù)測(cè)分析就可得到，它比聲門波包含更多的高頻信息，消除了聲道的影響，能夠提供聲帶振動(dòng)的定時(shí)信息。其特征參數(shù)的量化也比較客觀，不需要實(shí)驗(yàn)者主觀干預(yù)和運(yùn)用經(jīng)驗(yàn)知識(shí)。因此，用它來判斷正常語音與病理語音更加合適。

2 特征參數(shù)

從殘差信號(hào)中提取出兩個(gè)特征參數(shù)，分別是基音幅值(Pitch Amplitude, PA)和頻譜平坦度(spectral flatness of the residue signal, SFR)[8]，二者統(tǒng)稱為殘差特征。另外還提取了語音的倒譜域特征參數(shù)倒譜峰值突出(Cepstral Peak Prominence, CPP)[9]，用這3個(gè)特征參數(shù)來分析語音，診斷語音的正常與病理。

2.1 基音幅值PA

基音幅值PA是指殘差信號(hào)求歸一化自相關(guān)后，出現(xiàn)在初始位置之后的最大幅值，通常對(duì)應(yīng)于波形圖中的第二個(gè)峰值，第一個(gè)峰值是出現(xiàn)在初始位置的單位幅值1。語音信號(hào)的自相關(guān)函數(shù)在基頻F0的周期倍數(shù)處出現(xiàn)峰值，經(jīng)常用這個(gè)特征來檢測(cè)信號(hào)的周期性，故PA可以用來表示信號(hào)周期性的強(qiáng)度，信號(hào)周期性越強(qiáng)，PA值越大，PA的理論范圍在0～1之間。

在2012年全省建成的34個(gè)縣區(qū)非工程措施，共提前向暴雨洪水影響區(qū)的184個(gè)鄉(xiāng)鎮(zhèn)、856個(gè)村組發(fā)布預(yù)警短信13.6萬余條，啟動(dòng)預(yù)警廣播3 486次。

圖2描述的是圖1中正常語音和病理語音殘差信號(hào)的歸一化自相關(guān)波形。從圖2中可看出，正常語音的殘差信號(hào)自相關(guān)最大值很容易辨別，測(cè)得的PA值為0.758 7，病理語音的殘差信號(hào)周期性差，自相關(guān)最大值被噪聲淹沒，測(cè)得的PA值為0.134 5，明顯小于正常語音的PA值。

(a) 正常語音殘差信號(hào)的歸一化自相關(guān)

(b) 病理語音殘差信號(hào)的歸一化自相關(guān)

圖2 正常語音與病理語音殘差信號(hào)歸一化自相關(guān)波形

Fig.2 The normalized autocorrelation waveforms of the residure signals of normal and pathological speeches

2.2 頻譜平坦度SFR

語音信號(hào)頻譜主要由基頻和諧波組成，這些頻率的分布提供了頻譜平坦度SFR，它定義為殘差信號(hào)幅度譜的幾何平均值與算術(shù)平均值之比的對(duì)數(shù)，單位為分貝(dB)。由于幾何平均值≤算術(shù)平均值，所以SFR的理論范圍在負(fù)無窮與0之間。當(dāng)信號(hào)嘈雜，類似噪聲類型分布時(shí)，頻譜趨于平坦，幅度譜的幾何平均與算術(shù)平均值相差不大，則SFR接近0；當(dāng)頻譜由明顯的波峰和波谷構(gòu)成時(shí)，SFR遠(yuǎn)離0。喉部病變會(huì)造成聲帶異常振動(dòng)，聲門處湍流氣流增加，因此影響SFR變大(接近0)。因?yàn)轭l譜是對(duì)稱的，所以只顯示其頻譜的一半，如圖3所示。正常語音殘差信號(hào)的幅度譜中諧波分量豐富明顯，得到的SFR為-6.840 6 dB，而病理語音殘差信號(hào)的幅度譜中諧波結(jié)構(gòu)受影響惡化，不能輕易判斷出諧波成分，得到的SFR為-2.103 4 dB，比正常殘差信號(hào)的SFR值大。

(a) 正常殘差信號(hào)的幅度譜

(b) 病理殘差信號(hào)的幅度譜

圖3 正常與病理語音殘差信號(hào)幅度譜

Fig.3 The amplitude spectra of the residure signals of normal and pathological speeches

2.3 倒譜峰值突出CPP

正常說話人的語音信號(hào)具有良好的周期性，在頻域上可以觀察到信號(hào)有較強(qiáng)的諧波結(jié)構(gòu)；在倒譜域上則表現(xiàn)為諧波規(guī)律性相關(guān)的能量波動(dòng)[10]。所謂的倒譜，是對(duì)信號(hào)傅里葉變換取對(duì)數(shù)運(yùn)算后再進(jìn)行傅里葉反變換得到的，是對(duì)信號(hào)進(jìn)行兩次分析的結(jié)果，相當(dāng)于對(duì)信號(hào)求對(duì)數(shù)功率譜后再求一次對(duì)數(shù)功率譜，第一次求的功率譜顯示了信號(hào)能量的頻率分布，第二次的功率譜說明了頻譜中諧波分量的周期性。倒譜的峰值和基頻有關(guān)，具有良好的規(guī)律性諧波結(jié)構(gòu)的聲音信號(hào)的倒譜峰值會(huì)比較突出，由此得到特征倒譜峰值突出CPP，它定義為倒譜上第一個(gè)峰值的幅度和其對(duì)應(yīng)線性回歸線上的幅度之差，單位為dB。它代表倒譜峰值與倒譜背景噪聲之間的距離，距離越大，說明離背景噪聲越遠(yuǎn)，聲音信號(hào)越清晰。CPP同樣可以反映語音信號(hào)的諧波結(jié)構(gòu)水平和噪聲分量，信號(hào)中噪聲成分越多，諧波結(jié)構(gòu)越差，CPP值越小。正常語音周期性成分較多，發(fā)音時(shí)平緩，CPP值較大，而病理語音由于喉部病變導(dǎo)致語音中噪聲成分增加，諧波結(jié)構(gòu)惡化，故其CPP值下降。

正常語音和病理語音信號(hào)的倒譜峰值如圖4所示，圖4(c)、4(d)是圖4(a)、4(b)平滑后的結(jié)果，平滑后可以更清楚地觀察到倒譜峰值。從圖4(c)、4(d)可知，正常語音信號(hào)在基頻周期處會(huì)有一個(gè)突出的峰值，而病理語音的周期性較弱，倒譜峰值不夠突出。未平滑之前測(cè)得該正常語音的CPP值是34.744 6 dB，病理語音CPP值是17.630 8 dB，平滑后正常語音CPP值是20.563 9 dB，而病理語音CPP值為8.418 2 dB，可以看出無論是平滑前還是平滑后，病理語音的CPP值都小于正常語音信號(hào)的CPP值。

(a) 正常語音的倒譜峰值 (b) 病理語音的倒譜峰值

圖4 語音信號(hào)倒譜峰值圖

Fig.4 The cepstral peak diagrams of speech signals

3 特征參數(shù)仿真實(shí)驗(yàn)

3.1 實(shí)驗(yàn)預(yù)設(shè)條件

實(shí)驗(yàn)數(shù)據(jù)來自德國的薩爾布呂肯語音數(shù)據(jù)庫(Saarbruecken Voice Database)，數(shù)據(jù)庫中有健康和病理說話者共超過2 000人，分別以自然音調(diào)、高音調(diào)、低音調(diào)產(chǎn)生三元音/i/、/a/、/u/的錄音文件，文件時(shí)長為1～3 s，所有記錄都是以50 kHz采樣頻率進(jìn)行采樣，分辨率為16 bit[11]。其語音信號(hào)和電聲門圖(Electroglottography, EGG)信號(hào)存儲(chǔ)在獨(dú)立的WAV文件中，任何關(guān)于錄音的評(píng)論都包含在相關(guān)的文本文件中。

因?yàn)?a/是低元音，發(fā)/a/音時(shí)喉位低而自然，有利于降低聲帶和聲道之間的耦合作用，可以避開由于鼻音導(dǎo)致逆濾波不精確的問題，故本文實(shí)驗(yàn)隨機(jī)選取了正常和病理共432個(gè)人，以自然音調(diào)發(fā)元音/a/的錄音文件，其中正常錄音和病理錄音各216例。對(duì)選好的聲音樣本進(jìn)行聲學(xué)分析，提取所需的聲學(xué)特征參數(shù)，然后進(jìn)行正常語音與病理語音二分類的研究。

計(jì)算殘差特征開始前，首先把語音信號(hào)采樣頻率降到11 kHz，然后對(duì)語音信號(hào)進(jìn)行分幀處理，幀長為1 600個(gè)采樣點(diǎn)，這個(gè)長度可以提供正常語音和病理語音的最佳分離[8]。然后通過一個(gè)14階線性預(yù)測(cè)分析濾波器得到每一幀的殘差信號(hào)，再分別做自相關(guān)分析得到時(shí)域特征參數(shù)PA，做傅里葉變換得到頻域特征參數(shù)SFR。計(jì)算出每一幀的PA和SFR后再求其平均值以得到整個(gè)語音的殘差特征PA和SFR，作為最終的研究參數(shù)。而CPP是將原始語音信號(hào)分幀加窗處理后，提取倒譜峰值求得。

3.2 正常語音與病理語音的特征參數(shù)比較

盒圖主要由五個(gè)數(shù)值點(diǎn)組成，從下到上依次為：最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)、最大值。其中下四分位數(shù)和上四分位數(shù)組成一個(gè)空盒子，中位數(shù)把盒子一分為二。上四分位數(shù)到最大值之間和下四分位數(shù)到最小值之間各用一條延伸線連接。盒子里的“×”代表數(shù)據(jù)平均值，圖中的“+”代表離群點(diǎn)，離群點(diǎn)單獨(dú)繪出的目的是保證整體特征的穩(wěn)定性，數(shù)據(jù)不會(huì)因此偏移，而盒圖中延伸線的兩級(jí)修改成最小(大)觀測(cè)值，最小(大)觀測(cè)值按經(jīng)驗(yàn)設(shè)置為下(上)四分位數(shù)減(加)1.5倍四分位數(shù)間距離。分析數(shù)據(jù)時(shí)盒圖不僅能夠幫助我們直觀地識(shí)別樣本數(shù)據(jù)中的異常值(離群點(diǎn))，而且通過觀察盒子的長度、上下間隔的形狀以及延伸線的長度可以有效判斷樣本數(shù)據(jù)的離散程度和偏向。

為了與其他傳統(tǒng)特征參數(shù)比較，采用相同的錄音文件分別計(jì)算元音的諧噪比(Harmonic to Noise Ratio, HNR)、基頻微擾Jitter、振幅微擾Shimmer參數(shù)。其中，HNR代表信號(hào)中諧波能量與噪聲能量之比，用來量化聲門噪聲，可以反映聲音質(zhì)量。信號(hào)諧波能量強(qiáng)，HNR大；噪聲增加，HNR降低。Jitter指信號(hào)相鄰周期之間基頻的微小變化，Shimmer指相鄰周期之間信號(hào)幅度的變化，主要反映聲帶振動(dòng)的不規(guī)律性。發(fā)聲越穩(wěn)定，發(fā)聲過程中聲音信號(hào)出現(xiàn)的變化越小，Jitter和Shimmer值越小；當(dāng)聲帶出現(xiàn)病變后，發(fā)聲波動(dòng)程度變大，發(fā)音穩(wěn)定性下降，Jitter和Shimmer值增大，HNR值減小。得到的實(shí)驗(yàn)數(shù)據(jù)如圖5所示。

從圖5可以看出，正常與病理語音的特征參數(shù)之間存在明顯差異，由于聲帶疾病導(dǎo)致病理說話人的聲帶振動(dòng)異常，發(fā)聲不穩(wěn)定，語音周期性下降，諧波結(jié)構(gòu)惡化，故病理語音的SFR更接近0，PA值更低，CPP值更?。徽ＵZ音的基頻擾動(dòng)和振幅擾動(dòng)較小，信號(hào)中諧噪比大，而病理語音的基頻擾動(dòng)和振幅擾動(dòng)中有更多的離群點(diǎn)，Jitter和Shimmer值增大，HNR值變小。

4 支持向量機(jī)分類實(shí)驗(yàn)

4.1 支持向量機(jī)

支持向量機(jī)(Support Vector Machine, SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法，是一種非常有潛力的分類算法，常用于處理二分類問題[12]。SVM主要是找到分類超平面把兩類樣本正確地分開，即所有相同類別的樣本都落在分類超平面的同一側(cè)，不同類別的樣本點(diǎn)之間間隔盡量大，算法的目的是在無數(shù)個(gè)分類超平面中選擇樣本集到分類超平面的距離最大的平面即最優(yōu)分類面，也稱最大間隔超平面。兩類樣本中離分類平面最近且平行于最優(yōu)超平面的分類面上的點(diǎn)就是支持向量，只要找到所有支持向量即可找到最優(yōu)超平面，如果能夠找到這個(gè)面，那么這個(gè)分類器就稱為最大間隔分類器。在進(jìn)行線性分類時(shí)，將分類面取在離兩類樣本距離較大的地方；進(jìn)行線性不可分時(shí)通過高維空間變換轉(zhuǎn)化成高維空間的線性分類問題[13]。相比于神經(jīng)網(wǎng)絡(luò)算法，支持向量機(jī)采用了核函數(shù)，降低了計(jì)算復(fù)雜度，在解決小樣本、非線性識(shí)別中有其獨(dú)特的優(yōu)勢(shì)。

本文利用支持向量機(jī)算法建立正常與病理二分類診斷模型，經(jīng)過不同核函數(shù)預(yù)測(cè)正確率對(duì)比后，最終采用默認(rèn)的徑向基(Radial Basis Function, RBF)核函數(shù)進(jìn)行建模。為不失一般性，訓(xùn)練模型前采用randperm函數(shù)隨機(jī)打亂輸入的正常和病理語音序列，設(shè)置訓(xùn)練集和測(cè)試集之比為2:1，故選擇語音序列的前144個(gè)樣本作為訓(xùn)練集，后72個(gè)樣本作為測(cè)試集。由于訓(xùn)練集和測(cè)試集是隨機(jī)產(chǎn)生的，所以程序每次運(yùn)行的結(jié)果有所不同，為了客觀分析，取程序運(yùn)行10次得到的平均分類準(zhǔn)確率作為最終實(shí)驗(yàn)結(jié)果。根據(jù)測(cè)試結(jié)果分析評(píng)價(jià)不同特征參數(shù)下診斷模型分類的性能，分類診斷的大體流程如圖6所示。

圖6 SVM二分類診斷模型流程

4.2 分類識(shí)別準(zhǔn)確率比較

為了證明PA、SFR和CPP參數(shù)分類識(shí)別的優(yōu)越性，進(jìn)一步判斷參數(shù)的有效性，客觀地區(qū)分正常語音與病理語音，分別對(duì)以上6個(gè)特征用支持向量機(jī)進(jìn)行二分類處理，得到每個(gè)特征參數(shù)的分類效果。分類處理后得到的結(jié)果如表1所示。

分類結(jié)果表明，殘差信號(hào)特征PA和SFR的整體分類準(zhǔn)確率可以達(dá)到96%以上，尤其SFR的分類準(zhǔn)確率更是高達(dá)99%，這充分說明了用二者區(qū)分正常語音和病理語音的杰出性，而CPP的整體分類準(zhǔn)確率高于90%，同樣可以較好地分類正常語音與病理語音，但效果比PA和SFR稍差一些，對(duì)病理語音的分類準(zhǔn)確率為86%，可能是由于原始語音信號(hào)的周期性特征沒有殘差信號(hào)顯著，另外病理語音在時(shí)域變化沒有在頻域變化顯著，這可能同樣是SFR分類效果較好的原因。

表1 不同特征參數(shù)的分類準(zhǔn)確率

HNR、Jitter、Shimmer對(duì)正常語音與病理語音同樣有一定的判別能力，但三者的病理分類準(zhǔn)確率普遍偏低，整體分類準(zhǔn)確率明顯低于PA、SFR和CPP，說明HNR、Jitter、Shimmer的分類識(shí)別效果沒有PA和SFR、CPP好，進(jìn)一步證明了PA、SFR和CPP特征參數(shù)分類正常與病理語音的優(yōu)勢(shì)。

另外，與原始語音和基音迭代自適應(yīng)法求得的聲門波的分類效果相比較，結(jié)果如表2所示，本文殘差信號(hào)的PA和SFR的分類準(zhǔn)確率更高，可以更準(zhǔn)確地診斷出正常語音與病理語音，這與殘差信號(hào)自身的波形結(jié)構(gòu)特點(diǎn)有關(guān)，故殘差信號(hào)的PA和SFR在臨床評(píng)估病理聲音方面具有更大的潛在價(jià)值；與文獻(xiàn)[8]中所用的分類方法相比，本文選擇支持向量機(jī)分類，預(yù)測(cè)準(zhǔn)確率可以高達(dá)99%，為了增加說服力，同時(shí)與學(xué)習(xí)向量量化(Learning Vector Quantization, LVQ)神經(jīng)網(wǎng)絡(luò)相比[14]，根據(jù)經(jīng)驗(yàn)知識(shí)設(shè)置LVQ的競爭層神經(jīng)元個(gè)數(shù)[15]，訓(xùn)練集和測(cè)試集也是2:1隨機(jī)生成，運(yùn)行10次后取平均分類率，結(jié)果如表3所示，說明在本文正常語音與病理語音二分類問題處理中，選用支持向量機(jī)的效果相對(duì)更優(yōu)。

表2 不同信號(hào)的SFR和PA的分類準(zhǔn)確率

表3 不同分類方法的分類準(zhǔn)確率

5 結(jié)論

本文在殘差信號(hào)的基礎(chǔ)上討論了基音幅值PA與頻譜平坦度SFR和語音倒譜峰值突出CPP 3個(gè)特征參數(shù)。其中，SFR和PA都是基于線性預(yù)測(cè)模型計(jì)算的，二者的測(cè)量均不受基頻0的影響，而F0估計(jì)過程中的任何誤差都會(huì)導(dǎo)致聲帶噪聲測(cè)量偏差，所以獨(dú)立于基頻的殘差信號(hào)的PA和SFR的分類效果明顯優(yōu)于依賴0測(cè)量的特征參數(shù)。其中SFR能夠很好地捕捉聲音的噪聲特性，幾乎可以無重疊地分離正常語音和病理語音，這可以作為語音病理學(xué)的有效指標(biāo)。

相比表征語音信號(hào)的其他傳統(tǒng)特征參數(shù)而言，殘差信號(hào)的PA、SFR和原始語音CPP在正常語音與病理語音二分類中效果更好，這充分說明本文選用這3個(gè)特征參數(shù)的有效性和優(yōu)越性。本文采用SVM分類器比其它兩個(gè)分類器得到的分類準(zhǔn)確率更高，說明在分類正常語音與病理語音時(shí)，選用支持向量機(jī)效果相對(duì)更好。本文的研究結(jié)果對(duì)于臨床嗓音學(xué)具有重要的指導(dǎo)意義，下一步的工作是病理語音類型的區(qū)分，這將對(duì)臨床實(shí)踐具有重要價(jià)值。

[1] 常靜雅. 小波域多重分形和能量譜參數(shù)的病理嗓音識(shí)別研究[D]. 蘇州: 蘇州大學(xué), 2016.

CHANG Jingya. Pathological voice recognition study by wavelet domain multifractal and energy spectrum parameters[D]. Suzhou: Soochow University, 2016.

[2] 張滿彩. 病理語音的特征提取與分類研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014.

ZHANG Mancai. Research on feature extraction and classification of pathological speech[D]. Harbin: Harbin Institute of Technology, 2014.

[3] KOHLER M, MENDOZA L A F, LAZO J G, et al. Classification of voice pathologies using glottal signal parameters[C]//10. Congresso Brasileiro de Inteligência Computacional. 2016: 1-8.

[4] FORERO A M, KOHLER M, VELLASCO M M, et al. Analysis and classification of voice pathologies using glottal signal parameters[J]. Journal of Voice, 2016, 30(5): 549-556.

[5] ALKU P. Glottal inverse filtering analysis of human voice production-A review of estimation and parameterization methods of the glottal excitation and their applications[J]. Sadhana, 2011, 36(5): 623-650.

[6] 張凱晗. 基于逆濾波提取聲門波方法的研究與實(shí)現(xiàn)[D]. 廣州: 暨南大學(xué), 2015.

ZHANG Kaihan. Research and implementation on the methods of extracting glottal wave based on inverse filtering[D]. Guangzhou: Jinan University, 2015.

[7] KREIMAN J, GERRATT B R, Anto?anzas-Barroso N. Measures of the glottal source spectrum[J]. Journal of Speech Language & Hearing Research Jslhr, 2007, 50(3): 595-610.

[8] PARSA V, JAMIESON D G. Identification of pathological voices using glottal noise measures[J]. J Speech Lang Hear Res, 2000, 43(2): 469-485.

[9] CASTELLANA A, CARULLO A, CORBELLINI S, et al. Discriminating Pathological Voice From Healthy Voice Using Cepstral Peak Prominence Smoothed Distribution in Sustained Vowel[J]. IEEE Transactions on Instrumentation & Measurement, 2018, 67(3): 646-654.

[10] 李寧. 基于聲學(xué)參數(shù)和支持向量機(jī)的病理嗓音分類研究[D]. 上海: 華東師范大學(xué), 2013.

LI Ning. Automatic Classification for Pathological Voice based on Acoustic Parameters and SVM[D]. Shanghai: East China Normal University, 2013.

[11] ALNASHERI A, MUHAMMAD G, ALSULAIMAN M, et al. Investigation of voice pathology detection and classification on different frequency regions using correlation functions[J]. Journal of Voice Official Journal of the Voice Foundation, 2016, 31(1): 3.

[12] SRINIVASAN V, RAMALINGAM V, SELLAM V. Classification of normal and pathological voice using GA and SVM[J]. International Journal of Computer Applications, 2012, 5(1): 1-7.

[13] 史峰. MATLAB智能算法30個(gè)案例分析[M]. 北京: 北京航空航天大學(xué)出版社, 2011.

SHI Feng. Analysis of 30 cases analysis of MATLAB intelligent algorithm[M]. Beijing: Beihang University Press, 2011.

[14] WEI Y H, LIU W, YANG Y J, et al. A model of gear fault diagnosis based on manifold learning and LVQ[J]. Modular Machine Tool & Automatic Manufacturing Technique, 2018.

[15] 王小川, 史峰, 郁磊, 等. MATLAB神經(jīng)網(wǎng)絡(luò)43個(gè)案例分析[M]. 北京: 北京航空航天大學(xué)出版社, 2013.

WANG Xiaochuan, SHI Feng, YU Lei, et al. Analysis of 43 cases analysis of MATLAB neural network [M]. Beijing: Beihang University Press, 2013.

Classification of normal and pathological speech by effective feature parameters

GUO Le-le, CAO Hui, LI Tao

(School of Physics and Information Technology, Shaanxi Normal University, Xi’an 710100, Shaanxi, China)

The feature parameters PA (pitch amplitude) and SFR (spectral flatness of the residue signal) and the vowel cepstrum domain feature parameter CPP (cepstral peak prominence) are used to distinguish between normal and pathological speeches. In the Saarbruecken Voice Database, 216 normal and 216 pathological natural tones /a/ are selected for experiments. The statistical results show that compared with normal speech, the PA value of pathological speech is smaller, the SFR value is close to zero, and the CPP value is also smaller. Combined with other features analysis and comparison, it is proved that SFR, PA, and CPP are excellent and stable feature parameters for normal and pathological speech classification. The classification accuracy obtained by support vector machine is relatively higher by the comparison of different classification algorithms.

residue signal; pitch amplitude (PA); spectral flatness of the residue signal (SFR); cepstral peak prominence (CPP); support vector machine

H107

1000-3630(2019)-05-0554-06

10.16300/j.cnki.1000-3630.2019.05.012

2018-05-07;

2018-07-18

國家自然科學(xué)基金資助項(xiàng)目(11074159、11374199)

郭樂樂(1994－), 女, 山西臨汾人, 碩士研究生, 研究方向?yàn)樾盘?hào)與信息處理。

曹輝, E-mail: caohui@snnu.edu.cn