病態(tài)嗓音的識別與研究

2013-08-07 11:32:42陳承義高俊芬

計(jì)算機(jī)工程與應(yīng)用 2013年7期

關(guān)鍵詞：病態(tài)嗓音特征參數(shù)

陳承義，高俊芬

CHEN Chengyi1,GAO Junfen2

1.柳州鐵道職業(yè)技術(shù)學(xué)院，廣西柳州 545007

2.廣西師范大學(xué)，廣西桂林 541004

病態(tài)嗓音的識別與研究

陳承義1，高俊芬2

CHEN Chengyi1,GAO Junfen2

1.柳州鐵道職業(yè)技術(shù)學(xué)院，廣西柳州 545007

2.廣西師范大學(xué)，廣西桂林 541004

通過分析嗓音的發(fā)音機(jī)理，提取正常與病態(tài)嗓音的傳統(tǒng)聲學(xué)參數(shù)：基頻、共振峰、Mel倒譜系數(shù)（MFCC），以及非線性特征參數(shù)：計(jì)盒維數(shù)與截距，作為病態(tài)嗓音識別的特征矢量集。應(yīng)用高斯混合模型（GMM）對156例正常嗓音與146例病態(tài)嗓音進(jìn)行建模與識別。結(jié)果表明：非線性特征參數(shù)計(jì)盒維數(shù)與截距能很好地區(qū)分正常與病態(tài)嗓音，它們與傳統(tǒng)聲學(xué)參數(shù)基頻和共振峰的組合，能夠取得92.60%的識別率。

高斯混合模型；病態(tài)嗓音；計(jì)盒維數(shù)；截距

1 引言

物體振動(dòng)發(fā)出聲音，聲帶是嗓音產(chǎn)生的主要振動(dòng)體。聲帶的質(zhì)量、韌性，覆蓋粘膜的病變等均會(huì)影響其振動(dòng)的頻率、振幅和持續(xù)時(shí)間[1]。語音信號作為信息傳遞的重要載體，通過對病態(tài)嗓音信號的聲學(xué)檢測，分析嗓音信號的基頻（F0）、共振峰、頻率微擾、振幅微擾、Mel倒譜系數(shù)（MFCC）等各種聲學(xué)參數(shù)，對異常嗓音特征作出定量分析。但它們在有效檢測病態(tài)嗓音方面存在一定的局限。語音信號是一種非線性、非平穩(wěn)的信號，而傳統(tǒng)的聲學(xué)參數(shù)的提取均是將語音信號近似為線性信號，這樣就嚴(yán)重影響了特征的有效性。分形理論作為非線性信號的有效描述手段，能夠有效地分析非線性語音信號。應(yīng)用分形理論提取的計(jì)盒維數(shù)與截距，可以作為病態(tài)嗓音識別的特征參數(shù)。實(shí)驗(yàn)證明，計(jì)盒維數(shù)與截距比傳統(tǒng)聲學(xué)參具有優(yōu)越性，它們與傳統(tǒng)聲學(xué)參數(shù)相結(jié)合時(shí)，用GMM進(jìn)行建模和識別，取得較好的識別率，作為一種無損傷的檢測方法，對喉病臨床診斷具有一定的實(shí)用價(jià)值，給臨床醫(yī)生提供了可靠的參考。

2 數(shù)據(jù)來源

實(shí)驗(yàn)數(shù)據(jù)來源于臨床病例，采集數(shù)據(jù)時(shí)的環(huán)境要求在安靜的室內(nèi)進(jìn)行；時(shí)間1.5～3.0 s；受試聲樣為漢語元音“a”，分別對正常人和患有各類喉科疾病的對象進(jìn)行兩次語音采樣，采樣頻率為16 kHz和48 kHz。正常對照組156例，年齡18～40周歲，平均年齡25周歲，經(jīng)詢問近期無喉部疾病者；病態(tài)嗓音組146例，年齡15～50周歲，平均年齡27周歲，為前來醫(yī)院就診臨床病例。實(shí)驗(yàn)時(shí)，將采樣頻率為48 kHz的語音降采樣為16 kHz，在保證一個(gè)說話人的語音不同時(shí)出現(xiàn)在訓(xùn)練集和測試集的情況下，將數(shù)據(jù)庫的156例正常嗓音和146例病態(tài)嗓音隨機(jī)分割成兩部分，其中取正常嗓音78例和病態(tài)嗓音73例作為模型訓(xùn)練集；其余部分作為測試集，分別為78例正常嗓音與73例病態(tài)嗓音[2]。

3 特征提取

3.1 傳統(tǒng)聲學(xué)參數(shù)特征提取

傳統(tǒng)的嗓音分析聲學(xué)參數(shù)有很多，本實(shí)驗(yàn)選用在病態(tài)嗓音醫(yī)學(xué)臨床檢測中廣泛應(yīng)用的基頻、共振峰和Mel倒譜系數(shù)（MFCC）[3]這3個(gè)特征參數(shù)?；l是指聲帶振動(dòng)的頻率，共振峰表征了聲道參數(shù)的特性，MFCC充分考慮人耳聽覺結(jié)構(gòu)和人類發(fā)聲和接受聲音的機(jī)理。當(dāng)聲帶發(fā)生病變時(shí)，嗓音信號的這3個(gè)特征參數(shù)值就會(huì)偏離正常范圍，從而可以區(qū)分正常與病態(tài)嗓音。

3.2 計(jì)盒維數(shù)與截距特征參數(shù)提取

假定上述極限存在，其中Nσ(F)在本文中定義為：覆蓋F的邊長為σ的最小立方體個(gè)數(shù)。

本實(shí)驗(yàn)中采用計(jì)算量較小的多點(diǎn)擬合來計(jì)算Db。具體過程如下：

（1）取M個(gè)σ值，記σi(i=1，2，…，M)。

（2）計(jì)算Nσi(F)。先將語音信號歸一化到單位正方形區(qū)域[4]，即

中南大學(xué)在2016級、2017級冶金、工管、能器、機(jī)械、臨床等非計(jì)算機(jī)專業(yè)約840名學(xué)生的“數(shù)據(jù)庫技術(shù)與應(yīng)用”課程進(jìn)行了連續(xù)兩年交叉融合的教學(xué)模式的實(shí)踐，課程共48課時(shí)，為期12周，獲得了比對效果較好的應(yīng)用數(shù)據(jù)。

F={s(t)|min(s(t))=0，max(s(t))=1，0≤t≤1}

s(t)表示為歸一化后的語音信號，取最小正方形的邊長為σ，易知在區(qū)間In=[(n-1)σ，nσ]內(nèi)，覆蓋F的最小正方形數(shù)為：Nn=[(maxs(t)-mins(t))/σ]，t∈In

[X]表示不小于X的最小正整數(shù)，因此在[0，1]區(qū)間內(nèi)覆蓋F的總正方形個(gè)數(shù)為：

語音信號是一個(gè)復(fù)雜的非線性過程，其中存在著產(chǎn)生混沌的機(jī)制[4]。分形理論是描述混沌信號的一種有效的手段，是一種分析非線性語音信號的新方法。分形的度量有多種描述方法，常用的有計(jì)盒維數(shù)、容量維數(shù)、關(guān)聯(lián)維數(shù)、Hausdorff維等。本文采用計(jì)盒維數(shù)。

定義（計(jì)盒維數(shù)）N維歐氏空間子集F的計(jì)盒維數(shù)Db定義為[5]：

（3）令xi=lg(1/σ)，yi=lgNσ(F)，分別計(jì)算點(diǎn)( ) xi，yi，按最小均方誤差擬合一條直線y=kx+b，則此直線的斜率k為計(jì)盒維數(shù)Db，b為截距，即：

4 高斯混合模型（GMM）

模式識別的方法有人工神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫模型、支持向量機(jī)等，本文采用高斯混合模型[6]。

混合高斯模型是一種多維的概率密度函數(shù)，采用M個(gè)高斯成員加權(quán)和來表示，即

其中 xk，k=1，2，…，n，為一組在高維（d維）空間的點(diǎn)，μ代表此密度函數(shù)的中心點(diǎn)，Σ代表此密度函數(shù)協(xié)方差矩陣，wi為混合權(quán)重，并滿足：

則完整的高斯混合模型參數(shù)表示為：

訓(xùn)練之前，對混合高斯模型的參數(shù)λ進(jìn)行初始化，一般假設(shè)w1=w2=…wm=1/M，并使用K-means算法來計(jì)算群聚中心點(diǎn)，作為μi的初始值。設(shè)定初始參數(shù)值λ={wi，μi，Σi}。

訓(xùn)練時(shí)，用EM算法不斷迭代調(diào)整參數(shù)λ，重新計(jì)算參數(shù)為λ?=(w?i，μ?i，Σ?i)，直到|λ-λ?|小于某一個(gè)極小值的容忍值為止。

識別時(shí)，計(jì)算輸入語音的特征在每個(gè)模型（正常與病態(tài)嗓音）下的概率，找出概率最大者，即可判斷其為哪一類嗓音。

5 病態(tài)嗓音識別結(jié)果及分析

本文實(shí)驗(yàn)采用GMM模型作識別系統(tǒng)，在數(shù)據(jù)庫156例正常嗓音和146例病態(tài)嗓音中，在保證一個(gè)說話人的語音不同時(shí)出現(xiàn)在訓(xùn)練集和測試集的情況下，隨機(jī)分割，其中訓(xùn)練集包括正常嗓音78例和病態(tài)嗓音73例，測試集包括正常嗓音78例和病態(tài)嗓音73例。實(shí)驗(yàn)取特征參數(shù)：基頻、共振峰、MFCC、計(jì)盒維數(shù)、截距；將特征進(jìn)行編號為：1、2、3、4、5。

實(shí)驗(yàn)特征參數(shù)處理說明：語音幀長為512，幀移為256；基頻、計(jì)盒維數(shù)和截距都是一維的數(shù)據(jù)，本實(shí)驗(yàn)共振峰取前3個(gè)F1、F2、F3，共三維；MFCC作為特征參數(shù)時(shí)，一般都加入能夠表征語音動(dòng)態(tài)特性的MFCC一階差分參數(shù)，組成24維特征參數(shù)。

首先，研究GMM的混合數(shù)對識別性能的影響，本實(shí)驗(yàn)主要分兩類問題，通過大量實(shí)驗(yàn)證明，本實(shí)驗(yàn)的最佳GMM混合數(shù)為2。其次，研究每一個(gè)特征對病態(tài)嗓音識別的貢獻(xiàn)，所得到每個(gè)特征的GMM識別結(jié)果，按識別率從大到小排列，見表1。最后，根據(jù)表1的識別結(jié)果，按識別率從高到低逐漸增加特征個(gè)數(shù)，所得到的GMM識別率結(jié)果見表2。

表1 單個(gè)特征的GMM識別率從大到小排列

表2 根據(jù)表1逐漸增加特征組合的識別率

實(shí)驗(yàn)結(jié)果分析：從表1可以看出分形特征參數(shù)計(jì)盒維數(shù)和截距對GMM的識別率貢獻(xiàn)較大，能夠有效地區(qū)分正常與病態(tài)嗓音，分別取得87.34%和87.43%的識別率；傳統(tǒng)的聲學(xué)參數(shù)對GMM的識別率貢獻(xiàn)較小。再看表2，分形參數(shù)計(jì)盒維數(shù)與截距的組合，所得到的GMM識別率為90.89%；傳統(tǒng)的聲學(xué)參數(shù)基頻、MFCC和共振峰的組合，所得到的GMM識別率為69.91%。由此可見，本實(shí)驗(yàn)所選的傳統(tǒng)聲學(xué)參數(shù)在診斷正常與病態(tài)嗓音時(shí)不具有絕對的優(yōu)勢，而分形特征參數(shù)具有一定的優(yōu)越性。當(dāng)分形特征參數(shù)與傳統(tǒng)聲學(xué)參數(shù)相組合時(shí)，識別率有所提高，見表2，計(jì)盒維數(shù)、截距與共振峰組合時(shí)，所得到的GMM識別率為91.40%；當(dāng)計(jì)盒維數(shù)、截距與共振峰、基頻組合時(shí)，能得到最大識別率為92.60%。由此可見，分形特征和傳統(tǒng)聲學(xué)參數(shù)結(jié)合，提高了病態(tài)嗓音的GMM識別率，分形特征參數(shù)可以彌補(bǔ)傳統(tǒng)聲學(xué)參數(shù)的不足，提高了分析病態(tài)嗓音的能力。當(dāng)繼續(xù)增加MFCC特征參數(shù)進(jìn)行組合時(shí)，識別率下降為69.91%。病態(tài)嗓音自動(dòng)檢測和評價(jià)時(shí)，提取特征參數(shù)的一般原則是盡可能把相關(guān)特征納入特征集，其結(jié)果就很難避免各種特征的相關(guān)和冗余信息，對隨后的識別率和檢測帶來負(fù)面影響，因此本實(shí)驗(yàn)剔除對識別率貢獻(xiàn)較小的MFCC特征參數(shù)。

實(shí)驗(yàn)結(jié)果表明，本文實(shí)驗(yàn)提取的5個(gè)特征參數(shù)中，分形特征參數(shù)能夠有效地區(qū)分正常與病態(tài)嗓音，彌補(bǔ)了傳統(tǒng)聲學(xué)參數(shù)的不足。當(dāng)分形特征參數(shù)計(jì)盒維數(shù)、截距與基頻、共振峰組合時(shí)，取得了92.60%的較高識別率。

6 結(jié)束語

分形理論是描述非線性信號的有力工具，是近年來處理語音信號的一個(gè)新的非線性分析方法。本文實(shí)驗(yàn)提取的分形特征參數(shù)計(jì)盒維數(shù)與截距，彌補(bǔ)了傳統(tǒng)的聲學(xué)分析參數(shù)的不足，提高了分析病態(tài)嗓音的能力，能有效地區(qū)分正常與病態(tài)嗓音，且與傳統(tǒng)聲學(xué)參數(shù)基頻和共振峰組合，獲得了92.60%的識別率，給臨床醫(yī)生提供了可靠的分析工具。

[1]胡維平，王修信，曾恩恩，等.噪音頻域分析中的特征研究[J].廣西物理，1998，19（1）：30-33.

[2]龔英姬，胡維平.基于HHT變換的病態(tài)嗓音特征提取及識別研究[J].計(jì)算機(jī)工程與應(yīng)用，2007，43（34）：217-219.

[3]趙力.語音信號處理[M].2版.北京.機(jī)械工業(yè)出版社，2009：31-78.

[4]ThompsonC，Mulpur A，Mehta V.Tranditiontochaos in acoustically driven flow（acoustic streaming）[J].Acoust Soc Am，1991，90：2097-2103.

[5]韋崗，陸以勤，歐陽景正.混沌、分形理論與語音信號處理[J].電子學(xué)報(bào)，1996，24（1）：34-38.

[6]于燕平，胡維平.病態(tài)嗓音特征的小波變換及識別研究[J].計(jì)算機(jī)工程與應(yīng)用，2009，45（22）：194-195.

1.Liuzhou Railway Vocational Technical College,Liuzhou,Guangxi 545007,China

2.Guangxi Normal University,Guilin,Guangxi 541004,China

By analyzing the mechanism of pronunciation,normal and pathological voice of traditional acoustic parameters：fundamental frequency,formant,Mel Frequency Cepstrum Coefficient（MFCC）,and non-linear feature parameters：box-counting dimension and intercept,are extracted as feature vectors of recognition of pathological voice.156 normal voice samples and 146 pathological voice samples are recognized based on Gaussian Mixture Model（GMM）.The results show that the nonlinear feature parameters of box-counting dimension and intercept can well distinguish between normal and pathological voice.The combination of box-counting dimension,intercept and the traditional acoustic parameters-fundamental frequency and formant can achieve a better recognition rate of 92.60%.

Gaussian Mixture Model（GMM）;pathological voice;box-counting dimension;intercept

TP39

10.3778/j.issn.1002-8331.1108-0133

CHEN Chengyi,GAO Junfen.study and recognition of pathological voice.Computer Engineering and Applications, 2013,49（7）：123-125.

廣西自然科學(xué)基金（No.2010GXNSFA013128）。

陳承義（1959—），男，講師，主要研究領(lǐng)域?yàn)樾盘柼幚?；高俊芬?987—），通訊作者，女，碩士研究生。E-mail：396372100@qq.com

2011-08-31修回日期：2011-12-30

1002-8331（2013）07-0123-03

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

病態(tài)嗓音的識別與研究

1 引言

2 數(shù)據(jù)來源

3 特征提取

4 高斯混合模型（GMM）

5 病態(tài)嗓音識別結(jié)果及分析

6 結(jié)束語