基音周期檢測(cè)的希爾伯特-黃變換方法

2015-04-14 12:28:04曾以成毛燕湖

計(jì)算機(jī)工程與應(yīng)用 2015年1期

焦蓓，曾以成，毛燕湖

湘潭大學(xué) 光電工程系，湖南湘潭 411105

1 引言

人在發(fā)濁音時(shí)，聲門周期性地打開與閉合，使來(lái)自肺部的空氣流形成一串周期性的脈沖氣流進(jìn)入聲道，這脈沖串的周期稱為基音周期?；糁芷谑钦Z(yǔ)音信號(hào)處理中最重要的參數(shù)之一，準(zhǔn)確地檢測(cè)基音周期對(duì)于高質(zhì)量的語(yǔ)音合成、語(yǔ)音編碼、語(yǔ)音識(shí)別及說(shuō)話人識(shí)別有重要意義。近年來(lái)，人們從語(yǔ)音信號(hào)的時(shí)域特性、頻域特性、時(shí)頻混合特性出發(fā)，提出了許多基音檢測(cè)方法，最具有代表性的是自相關(guān)法（Autocorrelation Function，ACF）[1]、平均幅度差法（Average Magnitude Difference Function，AMDF）[2]、倒譜法[3]、小波變換法[4-5]及其衍生算法。雖然上述各種方法已經(jīng)在不同的系統(tǒng)中得到一定程度的應(yīng)用，但它們都是基于語(yǔ)音的短時(shí)平穩(wěn)假設(shè)，不能完全適用于非平穩(wěn)、非線性的整體語(yǔ)音信號(hào)，部分算法還受Heisenberg不確定原理的制約，時(shí)頻分辨率受到限制。

Hilbert-Huang變換是處理非線性、非平穩(wěn)信號(hào)的新方法[6]，該方法吸取了小波變換多分辨的優(yōu)勢(shì)，同時(shí)又克服了在小波變換中需要選擇基函數(shù)的缺點(diǎn)，根據(jù)信號(hào)本身的特性自適應(yīng)地對(duì)信號(hào)進(jìn)行分解，不需要對(duì)信號(hào)做短時(shí)平穩(wěn)假設(shè)，由于不受Heisenberg不確定原理的制約，時(shí)頻分辨率比較高；加上瞬時(shí)頻率的引入，可以從時(shí)頻兩方面同時(shí)對(duì)信號(hào)進(jìn)行分析，增加了處理信號(hào)的靈活性和有效性。近年來(lái)，因其在各個(gè)領(lǐng)域，如海洋信號(hào)分析[7]、地震信號(hào)分析[8]、圖形圖象處理[9]等的成功應(yīng)用，也開始應(yīng)用于語(yǔ)音信號(hào)處理。

基于傳統(tǒng)基音檢測(cè)法的不足和Hilbert-Huang變換的優(yōu)勢(shì)，本文提出基于Hilbert-Huang變換的基音周期檢測(cè)法。

2 原理及其算法

希爾伯特-黃變換（Hilbert-Huang Transform，HHT）被認(rèn)為是一種處理非線性、非平穩(wěn)信號(hào)的自適應(yīng)算法[10-11]。HHT主要包含兩個(gè)部分：經(jīng)驗(yàn)?zāi)B(tài)分解（Empirical Mode Decomposition，EMD）和希爾伯特變換（Hilbert Transform，HT），其中EMD是核心。

經(jīng)驗(yàn)?zāi)B(tài)分解往往被稱為是一個(gè)“篩選”（sifting）過(guò)程。這個(gè)篩選過(guò)程依據(jù)信號(hào)特點(diǎn)自適應(yīng)地把任意一個(gè)復(fù)雜信號(hào)分解為一列本征模態(tài)函數(shù)IMF。每個(gè)IMF需要滿足如下兩個(gè)條件[6]：

（1）信號(hào)極值點(diǎn)的數(shù)量與零點(diǎn)數(shù)相等或相差是1；

（2）信號(hào)的由極大值定義的上包絡(luò)和由極小值定義的下包絡(luò)的局部均值為0。

EMD篩選過(guò)程詳見文獻(xiàn)[1]。通過(guò)分解，原始的數(shù)據(jù)序列可用IMF分量ci(t)以及剩余項(xiàng)rn(t)表示：

EMD將信號(hào)x(t)分解為n個(gè)IMF，對(duì)每個(gè)IMF分量即ci(t)作HT，繼而可求取每個(gè)IMF的瞬時(shí)頻率和瞬時(shí)幅值信息。這類本征模態(tài)函數(shù)的瞬時(shí)頻率（Instantaneous Frequency，IF）有著明確的物理意義。

ci(t)和yi(t)構(gòu)成解析信號(hào)z(t)：

由瞬時(shí)幅值ai(t)和瞬時(shí)頻率ωi(t)可將信號(hào)表示為：

式（4）中省略了式（1）中的剩余項(xiàng)rn(t)，因?yàn)閞n(t)幅值小，不是一個(gè)單調(diào)函數(shù)就是一個(gè)常數(shù)，對(duì)信號(hào)分析和信息提取沒有實(shí)質(zhì)影響。在時(shí)間-頻率面上畫出每個(gè)IMF以其幅值加權(quán)的瞬時(shí)頻率曲線，這個(gè)時(shí)間-頻率分布譜圖就是Hilbert譜，記為H(ω，t)。

由式（4）可以看出，Hilbert譜其實(shí)就是傅里葉變換的一種擴(kuò)展。與傅里葉變換中的常數(shù)幅值和固定頻率相比較，式（4）具有時(shí)變的幅值和頻率，它更能反應(yīng)出信號(hào)的非線性和非平穩(wěn)等特征信息。

3 基于HHT的基音周期提取

Hilbert-Huang變換適用于非線性非平穩(wěn)信號(hào)處理，不需要對(duì)語(yǔ)音信號(hào)做短時(shí)平穩(wěn)的假設(shè)，因而不需要對(duì)語(yǔ)音信號(hào)做分幀加窗的處理，但語(yǔ)音數(shù)據(jù)的長(zhǎng)度太長(zhǎng)會(huì)影響EMD分解的效率，所以一般還是必須對(duì)語(yǔ)音信號(hào)分幀，只是分幀的目不再是為了保證幀內(nèi)數(shù)據(jù)的短時(shí)平穩(wěn)。

語(yǔ)音學(xué)研究表明，基音頻率范圍在60～500 Hz之間，故在基音檢測(cè)之前，先將語(yǔ)音信號(hào)通過(guò)60～900 Hz的數(shù)字帶通濾波器，下限截止頻率為60 Hz可以抑制電源的工頻干擾，上限截止頻率為900 Hz，不但可以保留基音的一二次諧波，還可去掉高次諧波和大部分共振峰的影響，使基音周期的檢測(cè)更容易。

語(yǔ)音信號(hào)中的濁音段保留著基音的周期信息，其能量比清音段大得多，本文采用短時(shí)平均能量作為判斷清濁音的標(biāo)志。設(shè)定一個(gè)閾值，當(dāng)短時(shí)平均能量大于閾值時(shí)，該幀語(yǔ)音判為濁音，并進(jìn)行基音檢測(cè)，否則判為清音，將此幀置零。將清音幀和靜音幀置零后的語(yǔ)音組成待處理語(yǔ)音做后續(xù)處理。

對(duì)待處理語(yǔ)音做EMD分解，可自適應(yīng)的得到不同時(shí)間尺度的IMF（這個(gè)分解對(duì)求解瞬時(shí)頻率是很有幫助的，因?yàn)樗矔r(shí)頻率的方法只對(duì)單分量信號(hào)有意義，而EMD分解就是把復(fù)雜的語(yǔ)音信號(hào)分解為許多單分量信號(hào)（IMF）之和）。分解后的IMF分量的分布是從高頻到低頻，小尺度到大尺度，在同一局部時(shí)間不會(huì)出現(xiàn)相同的頻率，但同一個(gè)IMF在整個(gè)時(shí)間段內(nèi)有可能出現(xiàn)幾個(gè)不同的頻率段。因此，基音周期就可能在不同的時(shí)間段處于不同的IMF分量中，所以單一的IMF已經(jīng)不能單獨(dú)作為基音的表示，本文采用加權(quán)處理。

通過(guò)對(duì)每個(gè)IMF做HT變換，可以得到瞬時(shí)頻率和瞬時(shí)幅值。由于基音頻率范圍的限制，有用的頻率范圍為60～500 Hz，其余頻率點(diǎn)置零。從圖1可以看出，高幅值的imf2分量和res分量周期性比較明顯，低幅值的imf1分量周期性相對(duì)較弱。圖2顯示imf2分量和res分量的頻率在基音頻率的范圍內(nèi)，imf1分量的頻率超出基音頻率范圍。結(jié)合圖1、圖2可知高幅值IMF分量包含大量的基音信息，低幅值IMF分量包含較少的基音信息。文獻(xiàn)[12]中提到低幅值部分包含大量的共振峰信息。為了加強(qiáng)基音信息同時(shí)減少共振峰影響，采取對(duì)IMF分量加權(quán)處理的方法，權(quán)值由分量的幅值決定。幅值大的對(duì)基音貢獻(xiàn)大，即權(quán)值大，幅值小的對(duì)共振峰貢獻(xiàn)大，對(duì)基音貢獻(xiàn)小，即權(quán)值小。通過(guò)加權(quán)不但可以減少共振峰的影響而且可以增強(qiáng)基音信息，給后續(xù)基音周期的準(zhǔn)確提取奠定了基礎(chǔ)。

圖1 IMF分量的瞬時(shí)幅值圖

圖2 IMF分量的瞬時(shí)頻率圖

為了突出基音周期整數(shù)倍點(diǎn)上的峰值，采用自相關(guān)的平方做最后的基音周期提取?；谝陨戏治?，具體的基音周期提取流程如圖3所示。

圖3 基音提取流程圖

圖3中的IF為瞬時(shí)頻率（Instantaneous Frequency），IA表示瞬時(shí)幅值（Instantaneous Amplitude）。

4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)所用的原始語(yǔ)音信號(hào)如圖4（a）所示，語(yǔ)音為普通話漢語(yǔ)拼音元音“a”的四個(gè)不同聲調(diào)的讀音，四個(gè)聲調(diào)讀的順序依次為一聲、二聲、三聲和四聲。采樣頻率為8 kHz，量化比特為16 bit。對(duì)原始語(yǔ)音分幀，幀長(zhǎng)為50點(diǎn)，幀移為50點(diǎn)，進(jìn)行清濁音判斷，令原始語(yǔ)音中的清音幀和靜音幀為零。如圖4（b）所示。把置零后的語(yǔ)音作為待處理信號(hào)，再分幀，幀長(zhǎng)取512，幀移取160，分別采用ACF方法、Cepstrum方法和本文提出的方法進(jìn)行基音檢測(cè)。

圖4 原始語(yǔ)音和待處理語(yǔ)音的波形圖

圖5、圖6和圖7是不同方法下檢測(cè)到的基音軌跡圖。圖5為ACF方法檢測(cè)的基音結(jié)果，從圖可以看出ACF檢測(cè)結(jié)果中存在倍頻的半頻的錯(cuò)誤點(diǎn)；圖6為Cepstrum方法檢測(cè)的基音結(jié)果，在語(yǔ)音的端點(diǎn)處存在較多的錯(cuò)誤點(diǎn)；圖7是本文提出的方法，從圖可以看出基音軌跡較平滑，且無(wú)倍頻和半頻的出現(xiàn)，對(duì)隨機(jī)錯(cuò)誤點(diǎn)的出現(xiàn)也有一定的抑制作用。且圖7可以清楚看出每個(gè)字的聲調(diào)，分別為一聲、二聲、三聲和四聲，與給出的語(yǔ)音聲調(diào)完全相符合（基音的變換模式稱為聲調(diào)）。因此本文提出的方法具有更好的基音檢測(cè)效果。

圖5 ACF方法檢測(cè)的基音軌跡

圖6 Cepstrum方法檢測(cè)的基音軌跡

圖7 本文方法檢測(cè)的基音軌跡

在實(shí)際生活中，語(yǔ)音信號(hào)不可避免的會(huì)混入噪聲，為了檢測(cè)本文方法的魯棒性，在原始語(yǔ)音中加入高斯白噪聲，分別采用ACF法、Cepstrum法和本文方法在不同信噪比下對(duì)語(yǔ)音信號(hào)進(jìn)行基音檢測(cè)，檢測(cè)結(jié)果如表1所示。

表1 三種方法在不同信噪比下的基音檢測(cè)結(jié)果（%）

比較以上的實(shí)驗(yàn)結(jié)果可見，本文提出的基于希爾伯特-黃變換的基音周期檢測(cè)法在相同信噪比下較其他兩種方法，基音檢測(cè)的正確率有明顯提高。但當(dāng)信噪比下降為15 dB時(shí)，基音檢測(cè)的正確率只有65.71%，而且隨著信噪比的繼續(xù)降低，這個(gè)正確率會(huì)減小，即低信噪比下的基音周期檢測(cè)不是本文的優(yōu)勢(shì)，如何提高低信噪比下的基音周期檢測(cè)是今后需要研究的問題之一。

正確率的高低是檢驗(yàn)算法好壞的一個(gè)指標(biāo)，但在實(shí)際應(yīng)用中還要考慮其實(shí)時(shí)性問題。如圖8是ACF方法、Cepstrum方法和本文方法的運(yùn)行時(shí)間對(duì)比。

圖8 三種不同方法運(yùn)行時(shí)間對(duì)比

每種算法都有自己的適用范圍。從圖8可以看出，ACF檢測(cè)時(shí)間最短，Cepstrum次之，本文方法的檢測(cè)時(shí)間最長(zhǎng)，幾乎是ACF算法時(shí)間的兩倍，因此所提算法不適合應(yīng)用在實(shí)時(shí)性要求比較高的應(yīng)用領(lǐng)域。

5 結(jié)論

語(yǔ)音是非線性非平穩(wěn)信號(hào)，傳統(tǒng)的基音提取方法大部分都是建立在信號(hào)短時(shí)平穩(wěn)性假設(shè)的基礎(chǔ)上，不符合客觀實(shí)際，因此本文提出了一種基于Hilbert-Huang變換的基音周期檢測(cè)法。該方法不需要對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)平穩(wěn)假設(shè)，可以根據(jù)信號(hào)的本身特點(diǎn)，直接從信號(hào)本身特點(diǎn)出發(fā)將信號(hào)自適應(yīng)的分解為有限個(gè)IMF分量，且不受Heisenberg不確定原理的制約，具有很高的時(shí)頻分辨率。本文方法首先利用短時(shí)能量對(duì)語(yǔ)音進(jìn)行清濁音判斷，再經(jīng)過(guò)EMD分解為有限個(gè)IMF分量，對(duì)IMF做Hilbert變換求取瞬時(shí)幅值和瞬時(shí)頻率，這兩個(gè)瞬時(shí)量表現(xiàn)了非平穩(wěn)信號(hào)的內(nèi)部的真實(shí)物理過(guò)程，根據(jù)基音頻率的特點(diǎn)對(duì)IMF分量加權(quán)求和突出基音周期信息并削弱共振峰影響，最后采用自相關(guān)平方法突出基音周期在整數(shù)倍點(diǎn)的峰值以便于基音周期的檢測(cè)。實(shí)驗(yàn)表明，本文方法較傳統(tǒng)的基音檢測(cè)法精度有所提高，且魯棒性較好。但當(dāng)信噪比較低的時(shí)候，基音檢測(cè)的正確率有所下降，因此如何提高低信噪比下的基音周期檢測(cè)還需要進(jìn)一步研究。同時(shí)，本文算法較其他兩種算法計(jì)算時(shí)間長(zhǎng)，不適合應(yīng)用在實(shí)時(shí)性較高的場(chǎng)合。

[1]Krubsack D A，Niederjohn R J.An autocorrelation pitch detector and voicing decision with confidence measures developed for noise corrupted speech[J].IEEE Trans on Acoustics，Speech，Signal Processing，1991，39（2）：319-329.

[2]Ross M J，Shaffer H L，F(xiàn)reudberg R，et a1.Average magnitude difference function pitch extractor[J].IEEE Transactions on Speech and Audio Processing，1999，22（5）：353-362.

[3]Ahmadi S，Andreas S S.Cepstrum-based pitch detection using a new statistical V/UV classify-cation algorithm[J].IEEE Transactions on Speech and Audio Processing，1999，7（3）：333-338.

[4]Cai Runshen，Shi Shaoqiang.A modified pitch detection method based on wavelet transform[C]//Proceedings of the 2nd International Conference on Multi Media and Information Technology.[S.l.]：IEEE ComputerSociety，2010：246-249.

[5]Kadame S，Broudreaux-Bartels G F.Application of wavelet transform for pitch detection[J].IEEE Trans on IT，1992，38（2）：917-924.

[6]Huang N E，Shen Z，Long S R，et al.The empirical mode decomposition and theHilbertspectrum fornonlinear and nonstationary time series analysis[J].Proceeding of Royal Society A，1998，454：903-995.

[7]Huang N E.Review of empirical mode decomposition[C]//Proceedings of International Society for Optical Engineering，2001，4391：71-80.

[8]Zhang Ruichong，Ma Shuo，Safak E.Hilbert-Huang transform analysis of dynamic and earthquake motion recordings[C]//Journal of Engineering Mechanics，2003，129（8）：861-875.

[9]Nunes J C，Bouaoune Y，Delechelle E，et al.Image analysis by bidimensional empirical mode decomposition[J].Image and Vision Computing，2003，21（12）：1019-1026.

[10]沈毅，沈志遠(yuǎn).一種非線性非平穩(wěn)自適應(yīng)信號(hào)處理方法—希爾伯特-黃變換綜述：發(fā)展與應(yīng)用[J].自動(dòng)化技術(shù)與應(yīng)用，2010，29（5）：1-5.

[11]Yan Ruqiang，Gao R X.A tour of the Hilbert-Huang transform：an empirical tool for signalanalysis[J].IEEE Instrumentation&Measurement Magazine，2007，10（5）：40-45.

[12]于鳳琴，肖志.利用Hilbert-Huang變換的自適應(yīng)帶通濾波器特性提取共振峰[J].聲學(xué)技術(shù)，2008，27（2）：266-270.