潘 磊,董智勇
(中原工學(xué)院 計算機(jī)學(xué)院,河南 鄭州 450007)
移動通信帶寬資源有限,可分配給移動音頻信號的帶寬更少.同時,傳統(tǒng)通信系統(tǒng)中通常采用的窄帶語音編解碼系統(tǒng),無法滿足人們?nèi)找嬖鲩L的對高質(zhì)量移動音頻信號的需求.在移動音頻編解碼器中,應(yīng)用帶寬擴(kuò)展技術(shù)可以不增加或僅增加少量碼率實(shí)現(xiàn)寬帶語音頻來提高解碼音質(zhì)[1].帶寬擴(kuò)展的基本原理是從窄帶音頻信號恢復(fù)完整的寬帶音頻信號.音頻帶寬擴(kuò)展技術(shù)分為兩種,一種是“盲式”的帶寬擴(kuò)展技術(shù),一種是“非盲式”的帶寬擴(kuò)展技術(shù)[2].“盲式”帶寬擴(kuò)展技術(shù)的基本特征是在重建高頻信號時,不用任何原始高頻信息而直接利用低頻帶信號信息重建高頻信號[3];“非盲式”帶寬擴(kuò)展技術(shù)的基本原理是在編碼端提取部分反映高頻信號特征的參數(shù),如能量信息、譜包絡(luò)信息、高頻激勵信號的產(chǎn)生、頻譜平滑因子等信息傳送到解碼端,解碼端利用低頻信息使用上述高頻信號特征參數(shù)重建高頻信號[4].
文獻(xiàn)[5]介紹了一種典型的“盲式”的帶寬擴(kuò)展技術(shù),利用碼本映射方法產(chǎn)生的模擬寬帶信號包絡(luò)計算高頻合成濾波器,然后利用低頻殘差信號做激勵,通過高頻合成濾波器得到重建的高頻信號.此外,其他學(xué)者還提出了高斯混合模型等“盲式”帶寬擴(kuò)展方法[6].“盲式”帶寬擴(kuò)展方法在重建高頻信號時不用任何原始高頻信息,但存在如下問題:(1)對于 /s/ 和 /f/ 這樣的信息主要分布在高頻部分的音調(diào),重建效果不好;(2)當(dāng)信號呈現(xiàn)較強(qiáng)的非平穩(wěn)特性時,重建的高頻信號會出現(xiàn)較強(qiáng)的噪聲,音質(zhì)明顯下降;(3)對音樂信號重建的效果不好[7].
3GPP最新的移動音頻編解碼標(biāo)準(zhǔn) AMR-WB+采用的是一種“非盲式”的帶寬擴(kuò)展技術(shù)[8],在解碼端利用量化的LPC系數(shù)計算信號高頻端信號包絡(luò)的合成濾波器,把高頻信號通過該合成濾波器得到的殘差信號與低頻殘差信號相比較,計算出兩者之間的增益比值.傳送增益比值和量化的高頻信號的合成濾波器到解碼端,在解碼端得到重建的高頻信號.這種方法能夠較好地重建音質(zhì),但是提取高頻信息參數(shù)較多、編碼碼率較高.
本文提出的帶寬擴(kuò)展方法結(jié)合了“盲式”帶寬擴(kuò)展技術(shù)和“非盲式”帶寬擴(kuò)展技術(shù)的優(yōu)點(diǎn).首先,通過訓(xùn)練得到高低頻LSF系數(shù)映射碼本,由碼本映射法得到高頻合成濾波器系數(shù),由低頻激勵信號通過高頻合成濾波器得到合成的高頻信號和原始高頻信號比較并計算增益因子,編碼端在復(fù)用碼流中高頻部分只傳遞量化的增益因子.在解碼端同樣利用碼本搜索法得到合成濾波器系數(shù),利用增益因子調(diào)整低頻激勵信號,得到高頻激勵信號.然后,將高頻激勵信號通過合成濾波器得到重建的高頻信號.在保證音質(zhì)的前提下降低了高頻部分的編碼比特率.
由于碼流不包括高頻部分的譜包絡(luò)信息,解碼端需要通過碼本映射得到高頻信號的譜包絡(luò)信息[9].映射碼本的結(jié)構(gòu)如圖1所示.高頻低頻映射碼本是通過對音頻序列對應(yīng)的高頻LSF參數(shù)與低頻LSF參數(shù)進(jìn)行碼本訓(xùn)練得到的.
圖1 映射碼本結(jié)構(gòu)Fig.1 Codebook mapping structure
(1)將音頻序列通過低通濾波器和高通濾波器分別得到低頻信號和相應(yīng)的高頻信號.
(2)每20 ms子幀提取16階LPC系數(shù),然后插值得到5 ms子幀ISP系數(shù),再將ISP轉(zhuǎn)換為ISF系數(shù).
(3)用低頻ISF參數(shù)通過LBG算法訓(xùn)練得到低頻ISF參數(shù)矢量量化碼本CBlf.
(4)使用低頻矢量量化碼本CBlf對音頻序列的低頻部分進(jìn)行量化得到低頻部分的碼本索引.
(5)對每5 ms子幀提取8階LPC系數(shù),并轉(zhuǎn)換為LSF系數(shù).
(6)將碼本索引相同的低頻部分對應(yīng)的高頻部分的LSF參數(shù)求平均值,得到對應(yīng)的高頻LSF量化矢量,從而構(gòu)建出高頻LSF量化碼本CBhf.
由上述方法得到的低頻碼本與高頻碼本通過碼本索引一一映射.
如圖2所示,首先對輸入的超長幀低頻信號(1 024點(diǎn))的每一幀(256個樣點(diǎn))求取一組16階的LPClf系數(shù),然后插值得到ISPlf系數(shù),將ISPlf轉(zhuǎn)換為ISFlf系數(shù),將ISFlf系數(shù)利用矢量量化得到量化的ISFlf系數(shù).根據(jù)低頻高頻映射碼本由量化的低頻ISFlf系數(shù)得到對應(yīng)的8階量化高頻LSFhf系數(shù).
圖2 高頻編碼框圖Fig.2 High-frequency coding diagram
(1)
令S(n)為一個低頻信號子幀序列(64個樣點(diǎn)).其中,低頻分析濾波器ALF(n)由對低頻信號做16階線性預(yù)測分析通過內(nèi)插得到的量化LPC系數(shù)構(gòu)成,其系統(tǒng)函數(shù)為:
(2)
(3)
編碼端將能量增益因子傳遞到解碼端后,解碼端將利用增益因子與合成濾波器重建高頻信號.解碼算法如圖3所示.
圖3 高頻解碼框圖Fig.3 High-frequency decoding diagram
首先,解碼端由碼流中得到低頻ISF系數(shù),然后根據(jù)訓(xùn)練得到的映射碼本得到對應(yīng)的8階高頻ISF系數(shù),并根據(jù)公式(1)得到高頻合成濾波器,由低頻殘差通過此合成濾波器得到合成的高頻激勵信號.
然后,從碼流中提取高頻增益因子,以此調(diào)整高頻激勵信號得到重建高頻信號,并用于與低頻信號合成輸出寬帶音頻信號.
我們在AMR-WB+核心層基礎(chǔ)上實(shí)現(xiàn)了本帶寬擴(kuò)展算法,通過主觀聽音測試來比較本算法與AMR-WB+帶寬擴(kuò)展算法[6]的音質(zhì).測試使用MPEG標(biāo)準(zhǔn)測試序列es01(Suzanne Vega清唱), es02(男性德語語音)以及es03(女性英語語音).通過初步實(shí)驗,可以看到本帶寬擴(kuò)展算法與AMR-WB+帶寬擴(kuò)展算法的音質(zhì)相當(dāng),見圖4.
圖4 本帶寬擴(kuò)展算法與AMR-WB+主觀音質(zhì)比較Fig.4 A comparative of bandwidth extension method and AMR-WB+ subjective quality
在AMR-WB+帶寬擴(kuò)展算法中,每個20 ms子幀需要增加16 bit來傳輸高頻邊信息.在本帶寬擴(kuò)展算法中,隨著低頻編碼模式的不同,高頻碼流所需比特數(shù)也不同.不同模式下每子幀所需比特數(shù)如表1所示.
表1 不同模式下高頻碼流比特消耗Tab.1 High-frequency coding bit stream consumption in different models
測試中,不同的音頻序列具有不同的平均碼率.主觀測試中,三個序列的實(shí)際平均碼率如表2所示.
表2 AMR-WB+和本方法高頻碼率Tab.2 A Comparative of AMR-WB+ and high-frequency coding rate
由表2可以看出,與AMR-WB+帶寬擴(kuò)展算法相比,本方法平均可以降低大約50%的碼率.
在編碼端,AMR-WB+帶寬擴(kuò)展算法中,每一幀都需要計算高頻ISF系數(shù),而本方法是通過碼本映射得到高頻ISF系數(shù),不需要計算高頻ISF系數(shù),所以編碼端計算復(fù)雜度比AMR-WB+低.
在解碼端,AMR-WB+帶寬擴(kuò)展算法通過碼流提取高頻ISF系數(shù),本方法通過碼本映射得到高頻ISF系數(shù).解碼段的計算復(fù)雜度主要集中在合成濾波器與增益調(diào)整部分,所以兩者的計算復(fù)雜度相當(dāng).
本文結(jié)合“盲式”與“非盲式”帶寬擴(kuò)展技術(shù)提出了一種低比特的音頻帶寬擴(kuò)展算法,使用“盲式”技術(shù)恢復(fù)高頻合成濾波器系數(shù),使用“非盲式”技術(shù)傳遞能量增益因子以調(diào)整高頻譜包絡(luò).與3GPP最新標(biāo)準(zhǔn)AMR-WB+相比,該方法在音質(zhì)相當(dāng)?shù)那闆r下能夠大大降低高頻邊信息的碼率,能夠更好地滿足移動通信對音頻編解碼器的需求.
參考文獻(xiàn):
[1] Technical Specification Group Services and System Aspects; Speech Codec Speech Processing Functions; AMR Wide-band Speech Codec; Transcoding Functions, TS 26.190 v5.1.0[S]. 2001:134-137.
[2] OH S H, YOON W J, CHO Y H,et al.A new spectral enhancement algorithm in MP3 audio[J]. IEEE Transactions on Consumer Electronics,2006,52(1): 196-199.
[3] LARSEN E, AARTS R M.Audio Bandwidth Extension-application to Psychoacoustics, Signal Processing and Loudspeaker Design, John Wiley & Sons, Ltd[R].2004:71-73.
[4] DIETZ M,LILJERYD L,KUNZ O. Spectral Band Replication, a novel approach in audio coding[C]. In AES 112th Convention, Munich, Germany,2002:140-143.
[5] ENBOM N, KLENIJN W B. Bandwidth expansion of speech based on Vector Quantization of the Mel Frequency Cepstral Coefficients[C]. In IEEE Workshop on Speech Coding, Finland, 1999:171-173.
[6] PARK K Y, KIM H S. Narrowband to wide-band conversion of speech using GMM based transformation[C]. in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing 2000, 2000:1 843-1 846.
[7] ARTTU L. Bandwidth extension in high-quality audio cod-ing[D]. In Master’s Thesis, 2005:65-67.
[8] 3GPP TS 26.290. Extended AMR Wideband codec[S]. December,2004:109-112.
[9] AVENDANO C,HERMANSKY H, WAN E A. Beyond Nyquist: Towards the recovery of broad-bandwidth speech from narrow bandwidth speech[C]. Proceedings EUROSPEECH’95, Madrid Spain 1995:165-168.