一種改進(jìn)的基音周期提取算法

2014-07-25 04:28:08林孝康

數(shù)據(jù)采集與處理 2014年2期

趙祎張盛林孝康

（清華大學(xué)深圳研究生院深圳市信息科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室，深圳，518055）

引言

語音信號的大部分能量集中在濁音信號中，濁音信號呈現(xiàn)準(zhǔn)周期性。稱濁音的周期為基音周期，在時域波形里反映為峰值點(diǎn)和峰值點(diǎn)之間的距離?；糁芷诘奶崛≡谡Z音合成、語音識別、語音編碼等領(lǐng)域有著廣泛的應(yīng)用。由于語音信號變化的復(fù)雜性，迄今為止，并未找到一個完善的適用于不同環(huán)境和要求，不同講話者的可靠準(zhǔn)確的檢測基音周期的辦法［1］。

現(xiàn)有的基音周期的檢測算法大致可以分為三類［2］：波形估計法、相關(guān)處理法以及變換法。波形估計法［3］直接通過語音時域上的波形分析周期峰值，算法簡單，硬件實(shí)現(xiàn)容易，但語音信號幅度或頻率快速變化時，精度下降很明顯。相關(guān)處理法［4］通過比較原始語音和原始語音移位后信號間的相似性來確定基音周期。由于它硬件實(shí)現(xiàn)較為簡單且具有很強(qiáng)的抗波形相位失真能力，在語音信號處理中廣泛使用。變換法［5］通常是將語音信號變換到頻域和倒譜域來估計，倒譜參數(shù)是一種重要的說話人個性特征參數(shù)，主要反映聲道響應(yīng)的特性［6］，效果較好但是算法復(fù)雜。

受基于歸一化自相關(guān)函數(shù)基音檢測算法［7］和多帶激勵（Multi-band excitation，MBE）聲碼器中基音檢測算法［8］的啟發(fā)，本文提出了一種改進(jìn)的基音周期檢測算法，通過計算歸一化自相關(guān)函數(shù)搜索每一語音幀的備選基音周期，利用維特比算法搜索最佳基音轉(zhuǎn)移路徑，平滑基音曲線，在時域得到的粗略基音周期的基礎(chǔ)上，利用時變?yōu)V波器進(jìn)一步從頻域準(zhǔn)確化基音周期，在時域利用樣條插值搜索小數(shù)基音周期。實(shí)驗(yàn)表明：該算法能在較低的復(fù)雜度下達(dá)到較高的搜索準(zhǔn)確度，得到平滑的基音周期曲線。與傳統(tǒng)的基于歸一化自相關(guān)函數(shù)的基音檢測算法相比，該算法有很好的抗噪性。

1 背景算法

1.1 基于歸一化自相關(guān)函數(shù)的基音檢測算法

令語音信號表示為s（n），語音信號的歸一化自相關(guān)函數(shù)的表示為

式中：τ為移位距離，N為分析幀長，ρ（τ）為歸一化自相關(guān)函數(shù)（NCCF）。根據(jù)Cauchy不等式，可以證明當(dāng)且僅當(dāng)移位后的語音信號與原始語音信號完全重合時，ρ（τ）達(dá)到最大，最大值為1。

式（2）表明一段周期信號的歸一化自相關(guān)函數(shù)在其周期點(diǎn)會出現(xiàn)較大的峰值。

自相關(guān)方法是目前使用最廣泛的基音檢測方法，此算法最大的問題在于，由于一般的語音濁音段時域波形不是很理想的準(zhǔn)周期信號，它的自相關(guān)函數(shù)也不會只有一個很明顯的最大峰值，會出現(xiàn)很多峰值點(diǎn)，尋找的基音周期是其中一個峰值點(diǎn)的位置。如何排除倍頻和半頻等干擾的影響，搜索到準(zhǔn)確的基音周期是一個棘手的問題。常見的方法是在預(yù)處理的時候利用低通濾波或者數(shù)值濾波消除諧波或者共振峰的影響，而這兩種線性時不變的濾波方法往往會給基頻的提取帶來一定的誤差。

1.2 MBE聲碼器中基音檢測算法

MBE模型中整個基音檢測算法的基本思想是通過比較重見譜和原始譜來確定基音周期?？煞譃?個步驟：高、低通濾波，基音粗估，基音平滑以及基音細(xì)搜索。該算法是在頻域進(jìn)行基音檢測，算法準(zhǔn)確度高但是計算復(fù)雜度也很高。

1.3 語音信號頻譜

圖1為語音信號經(jīng)過短時傅里葉變換后得到的三維頻譜圖。圖2將三維轉(zhuǎn)化成了二維，圖中黑線濃度越高，代表該時刻該頻率點(diǎn)處頻譜能量越大。語音信號的頻譜是隨著時間而變化的，若用普通的線性濾波器，是無法準(zhǔn)確分離出基頻的。因此本文中的算法沒有在一開始就進(jìn)行濾波，而是在時域粗略估計得到基音周期后利用時變?yōu)V波器準(zhǔn)確的分離出基波。

圖1 語音信號短時傅里葉變換三維頻譜圖Fig.1 Example of three-dimensional spectrum for short-time Fourier transform of speech signal

圖2 語音信號短時傅里葉變化二維頻譜圖Fig.2 Example of two-dimensional spectrum for short-time Fourier transform of speech signal

2 算法實(shí)現(xiàn)

本文中的算法主要分為5個部分：去均值，時域基音周期粗估計，基音平滑，時變?yōu)V波搜索以及小數(shù)基音周期搜索。算法流程圖如圖3所示。

圖3 算法流程圖Fig.3 Flow chart of algorithm

2.1 去均值

當(dāng)語音信號在分析窗里有非零均值或有非常低的低頻噪聲出現(xiàn)時，歸一化自相關(guān)函數(shù)在所要求的所有延遲上都產(chǎn)生高的相關(guān)［8］。鑒于此，在計算ρ（τ）時首先減掉均值，減去均值的信號為

其中

2.2 時域基音周期粗估計

首先歸一化自相關(guān)函數(shù)的計算方法如式（1）所示。為了能準(zhǔn)確地提取基音周期，自相關(guān)函數(shù)截取的點(diǎn)數(shù)，即位移應(yīng)該在兩個周期以上。由自相關(guān)函數(shù)法計算出的峰值基本上能反映實(shí)際的基音周期。

由于語音信號呈現(xiàn)準(zhǔn)周期性，在與該幀波形具有較強(qiáng)相似性的地方，R（τ）會出現(xiàn)峰值，然而這些峰值中究竟哪個才是準(zhǔn)確的周期位置，還需進(jìn)一步判斷。因?yàn)檫@些峰值可能對應(yīng)基音周期的整數(shù)倍或分?jǐn)?shù)倍，也可能是清濁音過渡階段的干擾所造成。

為防止峰值點(diǎn)過多影響計算效率，可設(shè)立一個門限Vth，當(dāng)且僅當(dāng)峰值的大小超過該門限時，記錄其位置。由于對應(yīng)準(zhǔn)確基音周期的自相關(guān)函數(shù)值較大，并且歸一化自相關(guān)函數(shù)最大值為1，所以，可以忽略掉那些大小不超過0.5的峰值點(diǎn)；同時，該門限大小應(yīng)當(dāng)與該幀歸一化自相關(guān)函數(shù)的峰值的具體大小有關(guān)。假設(shè)某幀語音信號出現(xiàn)峰值點(diǎn)的位置為τ1，τ2，τ3，對應(yīng)的峰值大小為R（τ1），R（τ2），R（τ3），門限Vth應(yīng)當(dāng)不小于前n個峰值的均值，n的具體取值可根據(jù)精度和運(yùn)算量大小的要求來定，如式（5）所示

記錄所有大于門限的峰值點(diǎn)，作為該幀的備選基音周期。基音提取的目標(biāo)轉(zhuǎn)為從這些峰值中選出最合理的一個。如果所有的峰值大小都低于0.5，可以認(rèn)為該幀周期性很弱，有可能是清音幀，備選基音周期標(biāo)記為空，最佳基音周期直接設(shè)為0。

2.3 基音平滑

借鑒文獻(xiàn)［9］中動態(tài)規(guī)劃的思想，這里采用維特比算法搜索最佳基音周期。維特比算法的關(guān)鍵就是確定轉(zhuǎn)移路徑的權(quán)值，通過局部最優(yōu)來達(dá)到全局最優(yōu)。

如何確定相鄰幀不同基音之間的轉(zhuǎn)移概率？假設(shè)當(dāng)前幀第i個備選基音周期的歸一化自相關(guān)函數(shù)的值為R（τi），前一幀第j個備選基音周期的歸一化自相關(guān)函數(shù)的值為R（τj）。由于語音信號的平穩(wěn)性，基音周期曲線也應(yīng)該是平滑的［10］。相鄰幀之間的基音周期應(yīng)當(dāng)是連續(xù)的。由于基音周期一般不會發(fā)生突變，在度量轉(zhuǎn)移概率時，周期的值越接近，轉(zhuǎn)移的概率就越大。另外轉(zhuǎn)移概率應(yīng)當(dāng)與前一幀基音值本身大小有關(guān)［11］，因此可定義這兩個備選基音周期之間的路徑轉(zhuǎn)移權(quán)值為

每次搜索需要前溯幾幀？一般來說，每次規(guī)劃參與的幀的數(shù)目應(yīng)當(dāng)綜合考慮計算復(fù)雜度和精確度的要求。不宜過多，過多有可能導(dǎo)致一味的追求平滑而忽略了基音偶爾有可能存在的跳變。也不宜過少，過少會導(dǎo)致平滑效果不理想。一般來說，以4～6幀為宜。

備選基音狀態(tài)為空的幀怎么處理？由于基音曲線的平滑僅是針對連續(xù)濁音幀來講［12］，遇到備選基音狀態(tài)為空的幀，直接將該幀最佳基音周期設(shè)為0。將其之后的第一個不為空的幀作為起始幀處理。

2.4 時變?yōu)V波搜索

根據(jù)時域搜索得到的初步的基音周期，設(shè)計時變?yōu)V波器，追蹤基頻的變化軌跡。

短時傅里葉變換可以展示信號瞬時頻譜隨時間變化的關(guān)系。設(shè)某幀語音時域搜索得到的基音周期為T0，對該幀語音做短時傅里葉變換，短時傅里葉變換以T0為長度，如式（7）所示，第i點(diǎn)的短時傅里葉變換為

式中：m≥0；k＜T0。

其中g(shù)［n］時域表達(dá)式如式（8）所示，對于不同語音幀，g［n］是隨著基音周期的變化而變化的

根據(jù)式（7）得到的語音信號的頻譜設(shè)計時變?yōu)V波器［13］，追蹤基頻的軌跡。對殘留的頻譜做傅里葉反變換得到時域信號s′（n），計算s′（n）的歸一化自相關(guān)函數(shù)，記錄峰值位置作為較為準(zhǔn)確的基音周期。

2.5 小數(shù)基音周期搜索

在搜索得到整數(shù)基音周期以后，為了提高精確度，還需要確定小數(shù)基音周期。假設(shè)搜索到的整數(shù)基音周期為T，可以在［T-1：T＋1］的范圍內(nèi)進(jìn)行樣條插值，然后卷積，依舊是搜索出現(xiàn)最大峰值點(diǎn)的位置作為最佳小數(shù)基音周期。時域樣條插值相當(dāng)于提高了時間域的分辨率，而頻域僅僅是拓展了頻譜周期，不改變頻譜形狀，也不改變諧波位置。

3 實(shí)驗(yàn)結(jié)論

3.1 實(shí)驗(yàn)結(jié)果示例

以”na”這個音的4個聲調(diào)為例，對該算法進(jìn)行測試，測試結(jié)果列在圖4中。從圖中可以看出，該算法能得到較為平滑的基音周期曲線。

圖4 漢語普通話“na”4個聲調(diào)基音周期圖Fig.4 The four tones of"na"in Mandarin

3.2 準(zhǔn)確性和抗干擾性分析

在語音信號波形上疊加不同功率的白噪聲，測試該算法提取效果。首先分別對50個純凈的語音文件用本文中提到的算法和傳統(tǒng)短時自相關(guān)法檢測其基音周期，各自得到相應(yīng)的兩個標(biāo)稱值，然后混入不同功率的白噪聲，分別再用這兩種方法檢測?；烊朐肼暫髾z測到的值若與原信號檢測值相比誤差小于80%即判為正確檢測。實(shí)驗(yàn)結(jié)果表明，當(dāng)信噪比在20dB以上時，兩種算法抗干擾性幾乎沒有什么差別。而當(dāng)信噪比低于15dB時，本文中的算法要明顯優(yōu)于普通自相關(guān)法（見表1）。

表1 本文算法與普通自相關(guān)法抗噪性對比Table 1 Noise resistance comparison between proposed algorithm and traditional autocorrelation algorithm

4 結(jié)束語

本算法抗干擾性、準(zhǔn)確度明顯高于傳統(tǒng)的自相關(guān)法，但是本算法所占存儲空間要多，復(fù)雜度也較傳統(tǒng)的自相關(guān)法高。在本算法中，采用了維特比算法進(jìn)行最佳路徑搜索，有效地平滑了基音周期；同時利用時變?yōu)V波器過濾頻譜，再通過濾波后的頻譜對應(yīng)的時域信號搜索最佳基音周期，有效提高了搜索的準(zhǔn)確度。利用時域插值搜索小數(shù)基音周期，在較小的計算量的前提下有效提高了計算結(jié)果的精度。另外，該算法中時變?yōu)V波的思想可應(yīng)用于語音信號諧波的提取中。

［1］Zeng L，Chen L，Xiao Q.Pitch period estimation base on voiced degree weighted sub-frame octave region dynamic programming［C］//Wireless Communications and Signal Processing（WCSP），2010International Conference on.［S.l.］：IEEE，2010：1-5.

［2］Rabiner L，Cheng M，Rosenberg A，et al.A comparative performance study of several pitch detection algorithms［J］.Acoustics，Speech and Signal Processing，IEEE Transactions on，1976，24（5）：399-418.

［3］Yang Y，Zhang H，Guo X.A pitch tracking method mixing ACF ＆AMDF algorithms based on correlations［C］//Image Analysis and Signal Processing（IASP），2011International Conference on.［S.l.］：IEEE，2011：553-556.

［4］So Y J，Jia J，Cai L H.Analysis and improvement of auto-correlation pitch extraction algorithm based on candidate set［C］//Recent Advances in Computer Science and Information Engineering.Berlin，Heidelberg：Springer.2012：697-702.

［5］Bahja F，Elhaj I，Hassan E，et al.On the use of wavelets and cepstrum excitation for pitch determination in real-time［C］//Multimedia Computing and Systems （ICMCS），2012International Conference on.［S.l.］：IEEE，2012：150-153.

［6］丁琦，平西建.針對語音變換的語音篡改檢測［J］.數(shù)據(jù)采集與處理，2012，27（1）：57-62.

Ding Qi，Ping Xijian.Speech tampering detection for voice transformation［J］.Journal of Data Acquisition and Processing，2012，27（1）：57-62.

［7］鮑長春，樊昌信.基于歸一化自相關(guān)函數(shù)的基音檢測算法［J］.通信學(xué)報，1998，19（10）：27-31.

Bao Changchun，F(xiàn)an Changxin.Pitch detection algorithm based on normalized cross-correlation function［J］.Journal of China Institute of Communications，1998，19（10）：27-31.

［8］Hu J，Xu S，Chen J.A modified pitch detection algorithm［J］.Communications Letters，IEEE，2001，5（2）：64-66.

［9］Kawahara H，Masuda-Katsuse I，de CheveignéA.Restructuring speech representations using apitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0extraction：Possible role of a repetitive structure in sounds［J］.Speech communication，1999，27（3）：187-207.

［10］Zhao X，O′Shaughnessy D，Minh-Quang N.A processing method for pitch smoothing based on autocorrelation and cepstral F0detection approaches［C］//Signals，Systems and Electronics，2007.ISSSE′07.International Symposium on.［S.l.］：IEEE，2007：59-62.

［11］朱小燕，王昱，劉俊.漢語聲調(diào)識別中的基音平滑新方法［J］.中文信息學(xué)報，2001，15（2）：45-50.

Zhu Xiaoyan，Wang Yu，Liu Jun.An approach of fundamental frequencies smoothing for chinese tone recognition［J］.Journal of Chinese Information，2001，15（2）：45-50.

［12］計哲，李曄，崔慧娟，等.SELP聲碼器基音周期參量化合成改進(jìn)算法［J］.高技術(shù)通訊，2010，20（1）：45-48.

Ji Zhe，Li Ye，Cui Huijuan，et al.An improved algorithm for pitch quantization in SELP vocoders［J］.Chinese High Technology Letters，2010，20（1）：45-48.

［13］Benisty H，Avargel Y，Cohen I.Adaptive system identification using time-varying Fourier transform［C］//Applications of Digital Information and Web Technologies.［S.l.］：IEEE，2009：652-657.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看