張楠 韓笑蕾 張洋
摘要:低速率語音編碼在水聲通信、衛(wèi)星通信、軍事通信、保密通信等領(lǐng)域有著非常廣泛的應(yīng)用,其特殊的應(yīng)用領(lǐng)域?qū)φZ音編碼也有各自不同的要求,難以形成統(tǒng)一的標(biāo)準(zhǔn)。該文在2.4kb/s MELP語音編碼方案的基礎(chǔ)上,針對低速率語音編碼中常見的幾種多幀聯(lián)合結(jié)構(gòu),對超幀中各子幀清濁音狀態(tài)的分布概率進(jìn)行了統(tǒng)計(jì),并根據(jù)清/濁音子幀的統(tǒng)計(jì)特性,提出改進(jìn)的超幀結(jié)構(gòu)分類方法和有效的基音多幀聯(lián)合矢量量化方法,從而進(jìn)一步提高編碼效率。經(jīng)仿真試驗(yàn)證明,合成的語音清晰可懂,具有較好的自然度。
關(guān)鍵詞:低速率語音編碼;MELP;基音;超幀;多幀聯(lián)合量化
中圖分類號:TP37文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)17-3982-05
Study on Improved Algorithms Based on the Statistics of Super-frame Structure State of the MELP Algorithm
ZHANG Nan, HAN Xiao-lei, ZHANG Yang
(College of Electronics and Information Engineering, Tongji University, Shanghai 201804, China)
Abstract: Speech coding at lower bit rate (less than 2.4 kb/s) is widely used in the particular fields like underwater acoustic communica? tions, satellite communications, military communications, secure communications. And it is difficult to set up an international standard. The distribution probabilities of each voiced/unvoiced Sub-frame are counted in connection with several multi-frame joint structures based on the 2.4kb/s MELP algorithm. To further reduce the bit rate, A new algorithm classifies the super-frames into multi-modes based on the voiced/unvoiced property with different modes adopting different quantified joint-coding scheme on fundamental frequency in this paper. The simulation results indicate that the synthetic speeches have good nature degree and intelligibility.
Key words: low bit rate speech coding; MELP; fundamental frequency; super-frame; multi-flame jointly quantified
語音通信是人類通信最基本、最重要的方式之一。低速率語音編碼一般指編碼速率在4.8kb/s以下的語音編碼,具有占用帶寬少,抗干擾能力強(qiáng),保密性好等特點(diǎn),在信道質(zhì)量和發(fā)射功率受限制的水聲通信,衛(wèi)星通信,軍事通信,保密通信等領(lǐng)域有著非常廣泛的應(yīng)用。因此,低速率語音編碼也是語音研究中的一個(gè)重點(diǎn)方向。
根據(jù)信息論的觀點(diǎn),語音編碼的極限速率在80~100b/s左右,現(xiàn)有的低速率語音編碼方案還有很大的壓縮和發(fā)展空間。目前研究的低速率特別是極低速率(編碼速率在1.2kb/s以下)語音編碼算法一般是在現(xiàn)有的2.4kb/s語音編碼算法基礎(chǔ)上,利用幀間的相關(guān)性以及更高效的矢量量化技術(shù)來進(jìn)行近一步的壓縮[1]。
在當(dāng)前的低速率語音編碼研究中,對基于線性預(yù)測(LPC)系數(shù)的超幀結(jié)構(gòu)和量化方案的研究較多,而對基音參數(shù)的系統(tǒng)性研究卻很少。參考文獻(xiàn)[2-3]分別對極低速率的MELP語音編碼算法提出了改進(jìn),并針對3幀聯(lián)合的超幀和4幀聯(lián)合的超幀提出了各自的分類方式和量化方法,但對于基音參數(shù)的量化方法以及比特分配并沒有給出詳細(xì)的方案,而且對于基音參數(shù)的量化效果及壓縮程度也沒有給出明確的結(jié)論。
該文基于MELP語音編碼方案,針對低速率語音編碼中幾種常見的多幀聯(lián)合結(jié)構(gòu),對超幀中各子幀清濁音狀態(tài)的概率分布進(jìn)行了統(tǒng)計(jì)并加以歸類,對基音參數(shù)的量化方法以及比特分配提出了改進(jìn)方案,從而進(jìn)一步提高編碼效率。
1 MELP算法原理
該文主要基于MELP語音編碼方案,MELP語音編碼是美國國防部2.4 kb/s聲碼器標(biāo)準(zhǔn)[4],該模型在傳統(tǒng)的LPC語音編碼器的基礎(chǔ)上進(jìn)行了改進(jìn),將語音信號的激勵(lì)分成清音、濁音和抖動濁音3類。在基音提取和激勵(lì)信號產(chǎn)生等方面采取了一系列改進(jìn)方法,主要包括使用混合激勵(lì)、非周期脈沖、殘差諧波處理、自適應(yīng)譜增強(qiáng)和自適應(yīng)譜增強(qiáng)和脈沖整形濾波等技術(shù)[5]。這些新技術(shù)的采用改善了對爆破音的處理,更加符合語音的產(chǎn)生機(jī)理,這樣使得在2.4kb/s速率上能夠得到更高質(zhì)量的合成語音。
MELP模型的采樣率為8 kHz,每180個(gè)樣點(diǎn)為一幀(22.5 ms),每幀量化為54 bit。通過線性預(yù)測將語音信號分解成聲道參數(shù)和激勵(lì)參數(shù)兩部分,包括基音周期參數(shù)、清/濁度、增益參數(shù)、線譜頻率(LSF)參數(shù)、傅里葉幅度參數(shù)和非周期標(biāo)志參數(shù)等[6]。算法根據(jù)每幀的清/濁屬性,劃分為濁音幀和清音幀,以不同的比特分配方式將各參數(shù)分別編碼后組幀,形成當(dāng)前語音幀的壓縮比特流,具體比特分配如表1所示。
[1]胡劍凌,徐盛,陳健. 2.4kb/s MELP算法設(shè)計(jì)[J].上海交通大學(xué)學(xué)報(bào),2000(6): 789-792.
[2]戚銀城,張巍,苑津莎.超低速率MELP語音編碼算法研究[J].聲學(xué)技術(shù),2007, 26(6): 1196-1200.
[3]馬金全,高世海,張連海.基于MELP改進(jìn)算法的低速率聲碼器設(shè)計(jì)與實(shí)現(xiàn)[J].電子科技,2009, 22(1): 31-34.
[4]劉實(shí),張雄偉. MELP:新的2400bit/s美國聯(lián)邦聲碼器標(biāo)準(zhǔn)[J].數(shù)字通信,1999(2): 42-44.
[5]馬慶利,季新生,張連海,等.一種基于MELP的600b/s極低速率語音編碼[J].通信技術(shù),2009(7): 268-270.
[6]賈亮,趙鵬飛,危國騰. MELP聲碼器的算法研究及實(shí)現(xiàn)[J].硅谷, 2009(23).
[7]雒國成,蔡芳.基于MELP算法的語音編解碼器分析[J].黃河水利職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008(1): 49-51.
[8]華國剛,戴蓓倩.一種改進(jìn)的MELP語音編碼方法[J].電路與系統(tǒng)學(xué)報(bào), 2003, 8(1): 101-104.
[9]范晶,和應(yīng)民.一種改進(jìn)的MELP算法[J].應(yīng)用科技, 2008, 35(5): 9-12.