錢宇紅,許士敏,儲飛黃
(國防科技大學 電子對抗學院,安徽 合肥 230037)
在話音通信系統(tǒng)中,由于受到系統(tǒng)傳輸特性和干擾信號的影響,輸出信號必然會產(chǎn)生失真。為了評估話音通信系統(tǒng)的性能,通常需要比較輸入語音與輸出語音的相似度。信號傳輸和處理需要時間,導致發(fā)送與接收之間很難在時間上實現(xiàn)精確同步。所以,輸入信號和輸出信號之間不可避免地存在延時。如果不能使輸入信號與輸出信號在時間上精確對齊,即使輸出信號沒有失真,比較的結(jié)果誤差也會非常大。使輸出語音信號與輸入語音信號在時域上精確對齊的過程就是時間規(guī)整。時間規(guī)整的本質(zhì)是估計并消除輸出語音信號與輸入語音信號之間的時間延遲。通常情況下,語音信號處理以幀為基本分析單元,且?guī)L取值范圍為25~64 ms,時間規(guī)整的誤差應(yīng)遠小于幀長,一般要求小于3 ms[1]。
時間規(guī)整是衡量兩個時間序列之間相似度所采取的方法,現(xiàn)在廣泛使用動態(tài)時間規(guī)整算法(Dynamic Time Warping,DTW)。DTW采用動態(tài)規(guī)劃思想,通過把時間序列進行延伸和縮短,使兩個時間序列中所有對應(yīng)點的距離之和最小,以此衡量兩個時間序列之間的相似性。DTW在孤立詞識別系統(tǒng)中得到了廣泛應(yīng)用[2],但當環(huán)境噪聲增大時,識別性能會急劇下降,甚至無法工作。例如,Dautrichr[3]等演示的孤立字詞識別系統(tǒng)在安靜環(huán)境下的識別正確率可達95%,而當信噪比為18 dB時,正確率下降到60%左右。又如,由純凈語音訓練得到的一個孤立詞語音識別系統(tǒng),在相對安靜環(huán)境下識別正確率可達100%,而在以90 km/h速度行駛的汽車內(nèi)使用時識別率驟降到30%[4]。產(chǎn)生上述現(xiàn)象的一個重要原因,是用DTW算法進行時間規(guī)整的適應(yīng)性差,對環(huán)境依賴性強。當環(huán)境改變時,系統(tǒng)性能下降;在強噪聲環(huán)境下,系統(tǒng)幾乎不能工作[5]。因此,本文提出了一種基于定位標簽的時間規(guī)整方法。與傳統(tǒng)的時間規(guī)整方法相比,提出的方法時間規(guī)整精度高,在低信噪比條件下仍能獲得較高的時間規(guī)整精度。
構(gòu)造一種基于正交正弦脈沖序列的定位標簽,把標簽插入原始語音信號前,與原始語音信號一起組成輸入信號,并送入話音通信系統(tǒng),把得到的輸出信號與定位標簽進行互相關(guān)運算,根據(jù)互相關(guān)運算的最大值位置估計系統(tǒng)時延,從而實現(xiàn)話音通信系統(tǒng)輸入與輸出信號的時間規(guī)整。
定位標簽信號l(t)的構(gòu)成為:
式中,f0為正交正弦脈沖序列定位標簽的基頻,T0=1/f0為基頻周期,φ0為每個正弦脈沖序列的初始相位,u(t)為階躍函數(shù)。Kf0是脈沖序列中最高的頻率分量,K和f0的選取必須保證標簽信號能夠通過話音通信系統(tǒng)傳輸。
定位標簽l(t)是利用三角函數(shù)集{sin(Ωt),sin(2Ωt),…,sin(nΩt),…}中任意兩個函數(shù)在區(qū)間內(nèi)正交的性質(zhì)構(gòu)成的。
l(t)具有如下特征:
(1)定位標簽由一組確定的正弦脈沖序列組成,正弦脈沖序列各分量之間兩兩正交,每個脈沖序列的時間長度均等于T0;
(2)定位標簽的自相關(guān)函數(shù)具有尖銳的峰值,K值越大,峰值越高;
(3)定位標簽與語音、噪聲及自身時間延時序列的相關(guān)度很低,所以具有很好的標簽和抗噪能力。
設(shè)原始語音信號為s(t),在s(t)的起始位置之前插入定位標簽信號l(t),形成了輸入信號x(t):
式中,L為定位標簽的時長,L=KT0。經(jīng)過系統(tǒng)傳輸和解調(diào)處理,輸出信號中包含了定位標簽信號、語音信號和噪聲信號。把輸出信號與定位標簽進行互相關(guān)運算,實際上就是定位標簽的自相關(guān)運算和定位標簽與語音、噪聲和自身延時的互相關(guān)運算。由于定位標簽有尖銳的自相關(guān)峰,而定位標簽與語音信號和噪聲信號的互相關(guān)度很低,即使在低信噪比環(huán)境下也可以準確估計系統(tǒng)時延,從而實現(xiàn)話音通信系統(tǒng)輸入與輸出信號的時間規(guī)整。
以語音測試信號x(t)為話音通信系統(tǒng)的輸入信號,將系統(tǒng)的輸出語音信號y(t)與定位標簽l(t)進行互相關(guān)運算,然后將互相關(guān)函數(shù)取得最大值的位置偏移量作為話音通信系統(tǒng)時延τ0的估計值τ^0,進而以τ^0+L為起點,從話音通信系統(tǒng)的輸出語音信號y(t)中截取與原始語音信號s(t)等長度的信號作為測試語音的時間規(guī)整后的輸出響應(yīng),再送入下一步的失真度評估模塊,如圖1所示。
圖1 插入定位標簽的時間規(guī)整原理
3.2.1 定位標簽設(shè)計
正交正弦脈沖序列定位標簽l(t)的構(gòu)成如式(1)所示。為了保證定位標簽的高性能,必須讓定位標簽能高保真地通過系統(tǒng),通常應(yīng)確保定位標簽最高頻率分量Kf0的三次諧波3Kf0能通過系統(tǒng)。假設(shè)被測系統(tǒng)允許的基帶信號最高頻率fmax為4.0 kHz,可以合理選取f0=40 Hz,K=30。于是,定位標簽由30個正弦脈沖串構(gòu)成,時間長度L為750 ms,得到波形如圖2所示,其自相關(guān)特性如圖3所示??梢钥吹剑ㄎ粯撕灱怃J的自相關(guān)峰值。
圖2 定位標簽波形
圖3 定位標簽自相關(guān)波形
3.2.2 生成語音測試信號
圖4為一段原始語音信號仿真s(t),插入定位標簽后生成語音測試信號x(t)(如式(3)所示),波形如圖5所示。
圖4 原始語音信號s(t)
圖5 插入定位標簽的語音測試信號x(t)
3.2.3 將語音測試信號輸入話音通信系統(tǒng)并存儲系統(tǒng)的輸出信號
為了研究本算法的時延估計精度,把輸入語音測試信號x(t)時延500 ms,并加入比信號低18 dB的高斯白噪聲作為話音通信系統(tǒng)的輸出信號y(t),如圖6所示。
圖6 輸出語音信號y(t)
3.2.4 時延估計
將系統(tǒng)輸出信號y(t)與定位標簽l(t)進行互相關(guān)運算,把互相關(guān)函數(shù)取得最大值的位置代表的時延作為系統(tǒng)時延估計值τ^0。圖7為本例中定位標簽與輸出信號y(t)的互相關(guān)函數(shù)波形,可得互相關(guān)函數(shù)取得最大值的位置為500 ms,即本例中時延估計沒有誤差。實際應(yīng)用系統(tǒng)中,接收系統(tǒng)采樣會產(chǎn)生一定誤差,一般很小。
圖7 輸出信號與定位標簽的互相關(guān)波形
3.2.5 平移、截斷
根據(jù)時延估計值τ^0和輸入信號長度從輸出信號中截取有用信號。在系統(tǒng)輸出語音信號y(t)中,以500 ms再加上定位標簽的長度750 ms即1 250 ms為起點,截取與原始語音信號等長的信號,得到了時間規(guī)整后的輸出語音信號,如圖8所示。此時,經(jīng)過時間規(guī)整后的輸出語音信號與輸入語音信號在時域上精確對齊,可以進入下一步的失真度評估模塊,評估輸出語音信號的失真度。
圖8 時間規(guī)整后的語音信號
為了研究本算法時延估計誤差與信號信噪比的關(guān)系,將輸出信號加上不同信噪比的白噪聲,然后和定位標簽分別進行互相關(guān)運算,比較在低信噪比下的時間對齊精度,結(jié)果如圖9、圖10所示。
圖9 不同信噪比下的互相關(guān)函數(shù)
圖10 時延估計誤差與信噪比關(guān)系
由仿真結(jié)果可得:對信噪比大于-5 dB的信號,時間規(guī)整的誤差小于0.1 ms;當信噪比大于-20 dB時,時延估計誤差小于0.125 ms,滿足時間規(guī)整的誤差要求;當在信噪比小于-23 dB后,時間規(guī)整的誤差會急劇增大。可見,基于正交正弦脈沖序列定位標簽的時間規(guī)整方法,能夠應(yīng)用于信噪比最低達-20 dB的低信噪比話音通信環(huán)境。
基于定位標簽的時間規(guī)整方法計算簡單,時間規(guī)整精度高,尤其是當信噪比為-20 dB時,仍能達到非常高的精度,遠遠超過傳統(tǒng)方法的時延估計精度,具有很強的抗干擾能力。