周 強,張曉俊,顧濟華,趙鶴鳴,朱俊杰,陶 智*
(1.蘇州大學(xué)物理科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006;2.蘇州大學(xué)電子信息學(xué)院,江蘇蘇州215006)
隨著人們生活改善和節(jié)奏加速,語言交流活動日益頻繁,嗓音疾病的發(fā)生率呈明顯上升趨勢。嗓音疾病是發(fā)聲言語器官的功能性或器質(zhì)性損害而導(dǎo)致的發(fā)聲言語功能障礙,其中由于聲帶疾病導(dǎo)致的病理嗓音占有很大的比例。早期對于病理嗓音的檢測主要是醫(yī)學(xué)專家進行主觀的判別,其誤判率較大。電子儀器診查方法的缺點是,肉眼很難捕捉發(fā)音瞬間,且會給病人帶來不便,導(dǎo)致不準確的診斷結(jié)果[1]。因此采用嗓音聲學(xué)評估方法與信號處理手段去識別病態(tài)嗓音的研究已逐漸成為一個多學(xué)科交叉領(lǐng)域。
由于嗓音的聲學(xué)參數(shù)與聲帶振動的生物力學(xué)密切相關(guān),計算機嗓音測試可作為研究聲帶振動的理想工具。目前使用較多的客觀參數(shù)可分為3大類,包括基頻衍生類:基頻微擾百分比(Jitter)、相對平均擾動(RAP)和基頻擾動商(PPQ)等;強度衍生類:振幅微擾(Shim)、振幅擾動商(APQ)及峰值幅度變化(VAm)等;含噪成分衍生類:諧噪比(HNR)、嗓音擾動指數(shù)(VTI)及軟發(fā)音指數(shù)(SPI)等。由黃昭鳴博士、萬萍[2]指出,上述參數(shù)與嗓音的音質(zhì)主觀評估里的多個指標均有很強的相關(guān)性,是能有效反應(yīng)嗓音音質(zhì)的客觀聲學(xué)參數(shù)。上述參數(shù)被用來進行病理嗓音的診斷[3-5]。
但同類型參數(shù)之間會存在著相關(guān)性,如果用這些參數(shù)來表征聲帶類疾病嗓音的特性,必然存在著很大的冗余。而且各參數(shù)在描述不同類別嗓音疾病時會有不同的效果。本文對參數(shù)之間的相關(guān)性進行了研究,并對正常嗓音與聲帶疾病嗓音、聲帶疾病嗓音與非聲帶疾病嗓音各參數(shù)的差異度進行了研究,并提出了基于差異度的多參數(shù)聲帶疾病嗓音識別方法。并以TMS320VC5502為核心實現(xiàn)聲帶疾病嗓音識別系統(tǒng)。
基頻表征著聲帶每秒振動的次數(shù),它與聲帶的本身的生理狀態(tài)有關(guān),當聲帶發(fā)聲病變會在基頻上有所反應(yīng)?;l類參數(shù)主要反映聲帶振動的周期性間頻率的差異,可以衡量基頻總體穩(wěn)定程度。Jitter為基頻變化百分比,其定義為:
為了滿足不同時長觀察基頻擾動的需要,微擾函數(shù)階數(shù)定義為平滑因子fsmo,與此相關(guān)的參數(shù)為sPPQ(Smoothed Pitch Period Perfarbetion),表達式為:
其中T(i)表示為i幀的基音周期,當微擾階數(shù)為3時即為RAP,階數(shù)為5時即為PPQ。
嗓音強度是指單位時間內(nèi),通過垂直于聲波傳播方向單位面積的聲學(xué)能量。嗓音強度受聲門面積大小、聲帶張力程度及聲門下壓的影響,反映聲帶振動的強度、聲門開放程度和聲門面積大小。sAPQ描述短時嗓音信號峰峰值的振幅變化,定義為:
其中A(i)為i幀的峰峰值,當平滑因子fsmo(Smoothed Factor)為1時等同為Shim,fsmo為11時等同為APQ。同時還有表征峰峰值標準差的VAM。
NHR計算的是頻率帶寬1 500 Hz~4 500 Hz中非諧波成分能量與70 Hz~4 500 Hz中諧波成分能量的比值,表征嗓音信號的全局噪聲程度;VTI計算的是頻率帶寬2 800 Hz~5 800 Hz中非諧波成分能量與70 Hz~4 500 Hz中諧波成分能量的比值,即信號能量中、高頻噪聲信號的水平,它與聲帶的不完全振動相關(guān);SPI為頻率帶寬70 Hz~1 600 Hz中諧波成分能量與1 600 Hz~4 500 Hz中諧波成分能量的比值[6]。
同類別參數(shù)之間會存在著相關(guān)性,采用相關(guān)系數(shù)表示參數(shù)之間相關(guān)性程度:
其中E(x)和D(x)為求期望與方差。ρ范圍為0~1,當為0.6~1認為兩變量有強相關(guān)性,當為0.3~0.6時認為有弱相關(guān)性,0~0.3認為不存在相關(guān)性。相關(guān)性越大表明兩參數(shù)在表征同一類嗓音特性時存在越多的冗余;相反則表明參數(shù)之間具有越好的互補性。
特征參數(shù)可以表現(xiàn)兩類嗓音的差異性,同一參數(shù)表征不同類型嗓音的特性時會有不同的效果,所以不同兩種嗓音的差異性會不同。定義兩種參數(shù)差異度為:
其中ˉ、S2(x)和n(x)分別對應(yīng)x樣本均值、方差和樣本容量ˉ、S2(y)和n(y)分別對應(yīng)y樣本的均值方差和樣本容量??梢钥闯鯠f越大表明差異性越顯著。
由于不同類型的參數(shù)從不同的角度表現(xiàn)了聲帶振動的情況,所以將各類型參數(shù)組合起來表征信號的特性。具體算法如下:
(1)求取參數(shù)對兩類嗓音信號的差異度,然后在此類參數(shù)中選出最大所對應(yīng)的作為主參數(shù);
(2)根據(jù)參數(shù)間的相關(guān)系數(shù),去除與主參數(shù)強相關(guān)的參數(shù);
(3)根據(jù)區(qū)分度Df采用ω=[exp(-1/Df)]/Z來對每種參數(shù)進行權(quán)重分配;
(4)同一類型參數(shù)加權(quán)求和得到一個新參數(shù),將所有類型的新參數(shù)組合為最終特征向量。
圖1 系統(tǒng)框圖
系統(tǒng)由MIC嗓音輸入模塊、音頻模塊和處理模塊組成,系統(tǒng)框圖如圖1所示。嗓音信號由麥克風(fēng)輸入至TLV320AIC23對嗓音信號進行AD轉(zhuǎn)換和濾波后,再通過DSP芯片TMS320VC5502對信號進行預(yù)處理、特征參數(shù)提取、建模及識別構(gòu)成。
DSP芯片TMS320VC5502最高可在300 MHz主頻下工作,具有16 kbyte的緩存和17×17 bit雙乘法器,并帶有32 k×16 bit的RAM和16 k×16 bit的ROM。其片上外設(shè)主要包括時鐘發(fā)生器、DMA控制器、外部存儲器接口(EMIF)、主機接口(HPI)、I2C總線、通用輸入輸出GPIO口、3個多通道緩沖串行端口(McBSP)、兩個64 bit通用定時器(GPT)和一個可編程看門狗定時器、通用異步收發(fā)器(UART),外部尋址空間達8 Mbyte,可擴展大容量SDRAM。音頻編解碼芯片TLV320AIC23是可編程芯片,內(nèi)置耳機輸出放大器,內(nèi)部有11個16 bit寄存器,編程設(shè)置這些寄存器可得到所需的采樣頻率、輸入輸出增益和傳輸數(shù)據(jù)格式等。AIC23通過外圍器件對其內(nèi)部寄存器進行編程配置,其配置接口支持SPI總線和I2C總線接口數(shù)據(jù)傳輸格式支持右判斷模式、左判斷模式、I2S模式和DSP模式,其中DSP模式專門針對TI公司的DSP設(shè)計。
系統(tǒng)中所有對DSP的控制和調(diào)試都是在CCS3.3境下進行的,利用CCS3.3強大的片級支持庫(CSL)與API接口,可以輕松地對DSP上的寄存器進行查詢和賦值。系統(tǒng)軟件設(shè)計包括DSP系統(tǒng)運行主程序和信號的數(shù)據(jù)處理、采樣、傳輸控制、訓(xùn)練、識別等部分。采樣、傳輸控制等子程序用C語言完成,信號的數(shù)據(jù)處理利用Matlab7.0軟件來完成。系統(tǒng)軟件流程如圖2所示。
圖2 軟件流程圖
本實驗采用MEEI數(shù)據(jù)庫[7]中的嗓音,該數(shù)據(jù)庫包含了1384例病理嗓音/ɑ/,給出了患者的年齡、性別、是否抽煙等信息,并給出了專家診斷結(jié)果。其具體統(tǒng)計數(shù)據(jù)見表1。
表1 嗓音信號統(tǒng)計
受試者工作特征曲線ROC(Receiver Operating Characteristic Curves)被用來形象地描述識別的效果。ROC曲線[8]的橫坐標是假陽性率,縱坐標為真陽性率。而且ROC曲線下的面積AUC(the Area Under the ROC Curve)也被用來表征識別的效果的優(yōu)劣。Kappa也被用來對識別效果進行評價[9],它用來表征識別效果和隨機識別的差別,越接近1表明識別結(jié)果越好,其定義為:
其中P0為觀測一致性,Pc為期望一致性。
對3類特征參數(shù)之間的相關(guān)性進行了統(tǒng)計,統(tǒng)計情況如表2所示。從表中可以看出基頻衍生類參數(shù)之間具有較強的相關(guān)性,強度衍生類中VAM參數(shù)與其他兩參數(shù)存在弱相關(guān)性,而含噪成分衍生類參數(shù)間相關(guān)性較弱。
表2 參數(shù)間相關(guān)系數(shù)統(tǒng)計
分別進行了聲帶疾病嗓音與正常嗓音(a)和聲帶疾病嗓音與非聲帶疾病嗓音(b)的識別實驗,采用傳統(tǒng)的9個參數(shù)與本文方法進行對比,分類器為RBFNetwork。識別結(jié)果如表3所示。
表3 識別實驗結(jié)果
從表3得到:本文方法的識別率比原來9個參數(shù)都有提高。聲帶疾病嗓音和正常嗓音的識別實驗中,識別率提高了4.35%;聲帶疾病嗓音和非聲帶疾病嗓音的識別試驗中,識別率提高了9.27%。
圖3給出了聲帶疾病嗓音與正常嗓音和聲帶疾病嗓音與非聲帶疾病嗓音的識別ROC曲線。ROC曲線也表明本文算法在識別中的優(yōu)越性。
圖3 識別ROC曲線
聲學(xué)參數(shù)之間存在著相關(guān)性,且在描述不同類型的嗓音時有不同的差異性。針對上述問題,提出了一種基于差異度的多參數(shù)聲帶疾病嗓音識別算法,并以DSP芯片TMS320VC5502為核心實現(xiàn)識別系統(tǒng)。提出的算法比傳統(tǒng)的9個參數(shù)在聲帶疾病嗓音和正常嗓音的識別實驗中有4.35%的識別率提升,在聲帶疾病嗓音和非聲帶疾病嗓音的識別實驗中有9.27%的識別率提升。本文只是研究了傳統(tǒng)的聲學(xué)參數(shù),未來將研究其他參數(shù);識別系統(tǒng)缺少顯示部分,系統(tǒng)完善也是未來的工作內(nèi)容。
[1]Gavidia-Ceballos L,Hansen J,Kaiser J.Vocal Fold Pathology Assessment Using AM Autocorrelation Analysis of the Teager Energy Operator[C]//ICSLP,1996:757-760.
[2]黃昭鳴,萬萍.嗓音聲學(xué)參數(shù)與嗓音音質(zhì)的相關(guān)研究等的研究[J].臨床耳鼻喉頭頸外科雜志,2008,22(6):251-254.
[3]Parsa V,Jamieson D.Identification of Pathological Voices Using Glottal Noise Measures[J].Speech,Lang,Hear,Res,2000,43(2):469-485.
[4]Uloza V,Verikas A,Bacauskiene M.Categorizing Normal and Pathological Voices:Automated and Perceptual Categorization[J].Journal of Voice,2011,25(6):700-708
[5]Boyanov B,Hadjitodorov S.Acoustic Analysis of Pathological Voices,A Voice Analysis.Systerm for the Screening of Laryngeal Diseases[J].IEEE Eng Med Biol Mag,1997,16(4):74-82.
[6]Multi-Dimensional Voice Program Help files[R].http://www.kayelemetrics.com.htm,2012.
[7]Massachusetts Eye,Ear Infirmary.Voice Disorders Database,Version 1.03[R].Kay Elemetrics Corp,Lincoln Park,NJ,1994.
[8]Fawcett T.ROC Graphs:Notes and Practical Considerations for Researches[R].HP Laboratories,Palo Alto,CA,2004.
[9]Siegel S,Castellan N J.Non-Parametric Statistics for the Behavioral Sciences[M].2nd ed.McGraw-Hill,New York,N.Y,1988.