曹 楊
(南京郵電大學通信與信息工程學院,南京 210003)
壓縮感知(Compressed Sensing,CS)理論是2004年由 D.Donoho、E.Candès等人提出的,它突破了傳統(tǒng)奈奎斯特采樣定理對采樣率與信號帶寬之間的約束關(guān)系,實現(xiàn)對信號的邊采樣邊壓縮,用更少的采樣數(shù)據(jù)量來恢復(fù)原始信號。當信號在某個域滿足稀疏性,且感知矩陣滿足RIP(Restricted Isometry Property)特性時,信號能夠被以大概率精確重構(gòu)。文獻[1-2]指出語音信號在多個域滿足稀疏性條件,若能利用更少的信號量來提取原始信號的各種特征,將大大減少計算量。本文主要研究將壓縮感知技術(shù)應(yīng)用于語音信號并從觀測序列中直接提取基音周期的技術(shù)。
設(shè)N維信號 X∈RN×1由某組正交變換基表示成如下形式:
其中 θi=〈X,Φi〉,即
式中,Φ∈N×N的正交變換矩陣,若θ是K稀疏的,即θ中非零元素個數(shù)為K(K<<N),則可以采用另一個與Φ不相關(guān)的矩陣Ψ∈RM×N(M<N)對θ進行壓縮觀測,得到觀測序列
Ψ稱為投影矩陣,令ΨΦT=Θ,則
稱Θ為觀測矩陣。當Θ滿足RIP特性,可以在接收端從M=O( Klg(N))個觀測值中以高概率重構(gòu)原始信號,方法為解凸優(yōu)化問題:
由上述模型可知,壓縮感知的觀測序列長度M小于原始信號長度N,將N/M定義為壓縮比r(r>1)。
本文主要研究上面模型中的觀測序列Y,在不重構(gòu)原始信號的情況下,從Y中提取基音周期。文獻[3]CS理論中指明信號的稀疏性越好,其重構(gòu)誤差越小,文獻[4]表明語音信號在離散余弦(DCT)域稀疏性較好,本文采用DCT基作為稀疏變換基。
CS中常用的投影矩陣可分為兩類,即確定性和非確定性投影矩陣。利用非確定性投影矩陣(如高斯隨機矩陣)投影得到的觀測序列呈現(xiàn)類似白噪聲特性,不能體現(xiàn)濁音信號的周期性;文獻[5]提出的行階梯矩陣是一種確定性投影矩陣,在DCT基下滿足RIP特性,可以用于語音的壓縮感知。實驗發(fā)現(xiàn)基于行階梯投影矩陣的觀測序列仍保留了原始濁音信號的周期性,所以本文選用行階梯矩陣作為投影矩陣。下文中提到的觀測序列均為行階梯投影下的觀測序列。圖1為一幀純凈語音濁音段在行階梯和高斯投影矩陣下的觀測序列的對比(r=2)。由圖1可以看出,濁音段在行階梯矩陣下的觀測序列也呈現(xiàn)與原始語音信號同樣的周期性,周期為原始信號的
圖1 行階梯與高斯隨機矩陣下的觀測序列Fig.1 Compressed sensing sequence under row echelon matrix and Gaussian random matrix
語音信號是一種短時平穩(wěn)信號,文獻[6]說明原始語音信號含有噪聲時,通過選擇合適的小波基和變換尺度可以將語音與噪聲有效地分離。小波變換的低頻系數(shù)對應(yīng)著語音信號的低頻分量(包含大部分信號能量),小波變換的高頻系數(shù)對應(yīng)語音的高頻分量及噪聲。
基音為低頻信號,由圖1可以看出語音信號觀測序列仍保留了原始信號的大部分波形,因此可以考慮對觀測序列進行小波分解,對低頻系數(shù)提取基音周期。
清音幀的觀測序列經(jīng)小波分解后其系數(shù)與濁音幀存在一定的差異,濁音幀的能量分布主要集中在低頻部分,而清音幀的能量分布比較均勻,因此可以將小波子帶的能量大小作為清濁音辨別的標準。為使清濁音判別更加準確,在使用子帶小波能量作為第一個判別參數(shù)后,引入觀測序列的短時過零率作為第二個判別參數(shù)。具體方法如下:首先對每幀語音信號的觀測序列做j級小波變換,得到j(luò)+1個子帶,計算各子帶能量。若用Ei表示第i個子帶的能量,E1為最低頻子帶能量,Ej+1為最高頻子帶能量,計算低、高頻子帶能量比:
計算該幀的短時過零率ZCR,若t大于某個門限值TH1且ZCR小于某個門限值TH2,則認為該幀為濁音幀,否則為清音幀。TH1由大量實驗獲得,本文中取為1,TH2取該段語音各幀過零率的中值。
目前最常用的基音周期檢測算法為短時自相關(guān)函數(shù)法,其定義為
其中,N為語音信號加窗分幀時的窗口長度,由式(7)測得濁音信號的自相關(guān)函數(shù)的峰值與峰值之間的距離即為基音周期。但當語音信號含噪時,對濁音信號的周期性產(chǎn)生一定影響,從而極大地影響了提取基音周期準確率。將含噪語音進行小波分解后,將低頻小波系數(shù)看做消噪后的語音信號可以大大減小噪聲影響。
其中,w(n)是小波分解后低頻小波系數(shù)的第n個值,W為低頻小波系數(shù)總個數(shù)。測得R(K)相鄰兩峰值間的距離d。W為觀測序列長度的,R(K)的峰值出現(xiàn)位置是直接對觀測序列求自相關(guān)時,其自相關(guān)函數(shù)峰值位置的倍。
基于上述分析,本文具體算法步驟如下:
(1)含噪語音信號分幀,抽樣頻率為16 kHz,每幀320個樣點,進行壓縮感知,壓縮比為r,得到每幀的觀測序列;
(2)用db1小波對每幀觀測序列進行j(j=2)級小波分解;
(3)清濁音判別,計算各子帶能量及該幀短時過零率 ZCR,由式(6)計算 t,t>TH1且 ZCR <TH2,則判為濁音,否則為清音;
(4)對清音幀,基音周期設(shè)為0,對濁音幀由式(8)分別計算出R(K),測得R(K)相鄰兩峰值間的距離d,則該幀的基音周期為2jrd。
下面分別對一段男聲和女聲采用本文方法進行基音周期檢測。
當壓縮比r=2,原始信號中混入高斯白噪聲時,圖2、圖3、圖4分別為信噪比(SNR)為5 dB、0 dB及-5 dB時的基音周期軌跡圖。
圖2 r=2、SNR=5 dB時男女聲的基音軌跡Fig.2 Male and female pitch tracks under r=2,SNR=5 dB
圖3 r=2、SNR=0 dB時男女聲的基音軌跡Fig.3 Male and female pitch tracks under r=2,SNR=0 dB
圖4 r=2、SNR=-5 dB時男女聲的基音軌跡Fig.4 Male and female pitch tracks under r=2,SNR= -5 dB
表1給出了r=2時不同信噪比下本文所提方法與傳統(tǒng)自相關(guān)方法的準確度的對比。實驗采用3句男聲和3句女聲語音,使用Praat語音分析軟件和手工標注的方法得到標準基音周期,當實驗獲得的基音周期與標準相差10%時,認為檢測出錯。
表1 r=2時不同信噪比下傳統(tǒng)方法與本文方法檢測正確率Table 1 The correct rate to detect using traditional and proposed method under different SNR with r=2
由表1可以看出,本文所提算法與傳統(tǒng)方法檢測的正確率相當。下面分析傳統(tǒng)方法與本文方法的計算量。
對一幀濁音信號(N個樣點)提取基音周期,由公式(7)傳統(tǒng)自相關(guān)方法所需要的計算量為N2/2次乘法、N2/2-N次加法。
文獻[7]中指出不使用快速算法時小波分解的計算量為2N次乘法、2(N-1)次加法,由本文所提方法對一幀濁音信號的觀測序列(r=2時共N/2個觀測值)首先進行2級小波分解所需計算量為3/2 N次乘法、3/2(N-1)次加法,2級小波分解低頻系數(shù)共N/8個,計算其自相關(guān)所需計算量為N2/64次乘法、(N2/64-N/8)次加法。因此使用本文方法計算一幀濁音信號的計算量為(N2/64+3/2N)次實乘、(N2/64+3/2(N-1)-N/8)次實加。由以上分析可知本文算法的計算量比傳統(tǒng)方法大大減少。
本文對語音信號壓縮感知的觀測序列進行了研究,提出了一種直接從觀測序列中提取基音周期的方法。對行階梯投影矩陣下的觀測序列通過小波分解得到低頻小波系數(shù),對低頻小波系數(shù)求自相關(guān),測得基音周期。仿真實驗表明,本文所提方法與傳統(tǒng)(非壓縮感知)方法檢測結(jié)果的準確度和抗噪性相當,但本文所提方法的計算量大大減少,對實際工程有重大參考價值。本文也發(fā)現(xiàn)了有待研究的問題,即可尋找比行階梯矩陣更優(yōu)的其他觀測矩陣,可以更好地保留原始信號的結(jié)構(gòu)性特征。
[1] 葉蕾,楊震.基于壓縮感知的語音壓縮與重構(gòu)[J].南京郵電大學學報自然科學版,2010,30(4):57-60.YE Lei,YANG Zhen.Compression and Reconstruction of Speech Signal Based on Compressed Sensing[J].Journal of Nanjing University of Posts and Telecommunications(Natural Science),2010,30(4):57 -60.(in Chinese)
[2] 石光明,劉丹華,高大化,等.壓縮感知理論及其研究進展[J].電子學報,2009,37(5):1070-1081.SHI Guang-ming,LIU Dan-h(huán)ua,GAO Da-h(huán)ua,et al.Advances in theory and application of compressed sensing[J].Acta Electronica Sinica,2009,37(5):1070 -1081.(in Chinese)
[3] Candes E J,Wakin M B.An Introduction to Compressive Sampling[J].IEEE Signal Processing Magazine,2008,25(2):21-30.
[4] Wu D,Zhu Wei-ping,Swamy M N S.On sparsity issues in compressive sensing based speech enhancement[C]//Proceedings of 2012 IEEE International Symposium on Circuit and Systems.Seoul:IEEE,2012:285 -288.
[5] 葉蕾,楊震,王天荊,等.行階梯觀測矩陣、對偶仿射尺度內(nèi)點重構(gòu)算法下的語音壓縮感知[J].電子學報,2012,40(3):430-434.YE Lei,YANG Zhen,WANG Tian - jing,et al.Compressed Sensing of Speech Signal Based on Row Echelon Measurement Matrix and Dual Affine Scaling Interior Point Reconstruction Method[J].Acta Electronica Sinica,2012,40(3):430 -434.(in Chinese)
[6] Li Ru - wei,Bao Chang - chun,Dou Hui- jing.Pitch Detection Method for Noisy Speech Signals Based on Pre-Filter and Weighted Wavelet coefficients[J].Signal Processing,2008,26(9):530 -533.
[7] 徐偉業(yè),宋宇飛,宗慧.一種基于離散傅里葉變換的小波變換的快速算法[J].南京工程學院學報(自然科學版),2005,3(1):12-17.XU Wei- ye,SONG Yu - fei,ZONG Hui.A Fast Wavelet Transform Algorithm Based on Discrete Fourier Transform[J].Journal of Nanjing Institute of Technology(Natural Science Edition),2005,3(1):12 -17.(in Chinese)