• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      2.4 kbps MELP標(biāo)準(zhǔn)編碼的量化性能優(yōu)化

      2019-03-21 12:58:50趙曉群
      燕山大學(xué)學(xué)報(bào) 2019年1期
      關(guān)鍵詞:高斯矢量語音

      黃 蕊,趙曉群

      (同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)

      0 引言

      在保證語音質(zhì)量的前提下降低編碼速率一直是提高低速率語音編碼性能的一個重要研究方向。在聲學(xué)模型中,由于線譜頻率(Line Spectral Frequency,LSF)有更為優(yōu)良的抗干擾性和量化性,所以在低速率語音編碼中,通常選取10維LSF參數(shù)來表征語音的聲道特性,并采用高效率的矢量量化技術(shù)對其進(jìn)行量化[1-2]。2.4 kbps的混合激勵線性預(yù)測編碼(Mixed Excitation Linear Prediction,MELP)一直是低速率語音編碼的一個重要研究方向,它可以通過改善量化性能來優(yōu)化編碼性能,其中包括了改進(jìn)矢量量化器和提高量化碼書質(zhì)量兩方面。

      語音編碼技術(shù)經(jīng)過幾十年的發(fā)展,為了滿足3G移動通信的需求,在1999年8月3GPP公布了基于碼激勵線性預(yù)測(Code Excited Linear Prediction,CELP)的自適應(yīng)多速率窄帶編碼(Adaptive Multi Rate-Narrow Band,AMR-NB),其具有4.75~12.2 kbps的8種編碼速率,能夠更加智能地解決信源和信道編碼的速率分配問題,應(yīng)用至今[3]。為了更充分地利用聲道參數(shù)的幀間相關(guān)性,AMR-NB利用一階滑動平均(Moving Average,MA)預(yù)測模型來預(yù)測聲道參數(shù)之后,對LSF殘差矢量進(jìn)行量化[4]。在非12.2 kbps的7種速率模式下,AMR-NB使用分裂矢量量化,將LSF殘差矢量分裂為3、3、4維的3個子矢量進(jìn)行量化。并且在量化第三個子矢量時5.15 kbps和4.75 kbps共用一套碼書。這7種速率的聲道參數(shù)量化比特分配見表1。

      表1 非12.2 kbps的速率模式下聲道參數(shù)量化比特分配
      Tab.1 Non-12.2 kbps rate channel quantization bit allocation

      編碼速率kbps子矢量一bit子矢量二bit子矢量三bit4.758875.158875.908996.708997.408997.9599910.20899

      有許多研究工作從改善矢量量化方法和降低碼書尺寸兩方面開展研究,達(dá)到降低編碼速率的目的。一方面,可以在矢量量化時引入幀間相關(guān)性[5],例如多幀聯(lián)合量化[6]和預(yù)測量化[7-8]。文獻(xiàn)[6]將8個語音幀組成一個超級幀,使用8幀聯(lián)合的方式對子帶聲音強(qiáng)度、基音周期、增益進(jìn)行矢量量化,使用4幀聯(lián)合的方式對聲道參數(shù)進(jìn)行多級矢量量化,將編碼速率降低到300 bps。但是,采用多幀聯(lián)合量化必然會導(dǎo)致碼書尺寸增加,算法復(fù)雜度增大,而且多幀聯(lián)合的編碼方式無法滿足低時延的要求。在這種情況下,預(yù)測量化就是一種更好的選擇,在AMR-NB標(biāo)準(zhǔn)編碼中,采用了復(fù)雜度較低的一階MA預(yù)測模型,對量化殘差進(jìn)行分裂矢量量化,量化性能良好。

      另一方面,可以通過縮小碼書尺寸來進(jìn)一步降低編碼速率。傳統(tǒng)的碼書訓(xùn)練方法是設(shè)計(jì)一套訓(xùn)練方案,采用大量的語音得到訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,文獻(xiàn)[9]根據(jù)胞腔均勻度推導(dǎo)出清音和濁音參與訓(xùn)練的 LSF 參數(shù)的數(shù)量比,剔除清音中指定數(shù)量的非典型 LSF 參數(shù),采用不同類型的語音數(shù)據(jù)重新訓(xùn)練出碼書。此類方法的缺點(diǎn)是訓(xùn)練數(shù)據(jù)需求量較大導(dǎo)致碼書訓(xùn)練成本較高,同時用于訓(xùn)練的語音類型也難以確定。由于AMR-NB編碼應(yīng)用于商業(yè)通信中,其開發(fā)投入相對較高,可以認(rèn)為它的矢量量化碼書性能優(yōu)良,適應(yīng)性強(qiáng)。如何利用一個較為成熟的碼書設(shè)計(jì)一套成本較低的訓(xùn)練方法是本文研究的重點(diǎn)之一。

      因此,本文將一階MA預(yù)測模型的分裂矢量量化器應(yīng)用在2.4 kbps的MELP標(biāo)準(zhǔn)編碼中,并且將AMR-NB已有的矢量量化碼書作為先驗(yàn)知識,提出一種高斯自干擾的碼書訓(xùn)練法,將獲得的碼書應(yīng)用到MELP中,從而達(dá)到降低編碼速率的目的。實(shí)驗(yàn)結(jié)果表明,2.4 kbps的MELP在優(yōu)化矢量量化器后性能良好,同時利用高斯自干擾的碼書訓(xùn)練法將23 bit碼書壓縮至17 bit,使得MELP在1.84 kbps上也有較好的語音質(zhì)量。

      1 MELP矢量量化技術(shù)優(yōu)化

      1.1 2.4 kbps MELP中的矢量量化器

      在2.4 kbps的MELP標(biāo)準(zhǔn)編碼中,對10維LSF參數(shù)去均值過后,采用三級矢量量化技術(shù)對LSF參數(shù)進(jìn)行量化[10]。它使用三個碼本逐級量化矢量,首先在第一級碼本中粗糙量化去均值后的LSF矢量,然后將第一級的量化殘差送入第二級碼本進(jìn)行矢量量化,接著將第二級量化的量化殘差送入第三級碼本,對比采用相同比特?cái)?shù)的全搜索量化方案,其可以達(dá)到降低碼本存儲量和最佳搜索的目的。

      1.2 4.75 kbps AMR-NB中的矢量量化器

      分裂矢量量化將一個高維矢量劃分為若干個低維矢量,然后分別對這若干個低維矢量進(jìn)行碼本設(shè)計(jì)和量化編碼,從而達(dá)到降低碼書尺寸的目的。4.75 kbps AMR-NB編碼在量化10維LSF參數(shù)時,將LSF參數(shù)劃分為3、3、4維的LSF參數(shù),結(jié)合一階MA的預(yù)測模型對3個低維參數(shù)進(jìn)行矢量量化。其過程如下[11]:

      首先進(jìn)行去均值操作。

      (1)

      r(n)=z(n)-p(n),

      (2)

      (3)

      1.3 MELP矢量量化器性能優(yōu)化

      由3GPP所提供的AMR-NB標(biāo)準(zhǔn)編碼C代碼,在實(shí)現(xiàn)量化LSF參數(shù)的過程中,于q_plsf_3.tab中將LSF均值f和預(yù)測因子α設(shè)定為固定10維矢量,見表2。

      表2 LSF均值和預(yù)測因子取值表
      Tab.2 Table of LSF mean and predictor value

      維數(shù)LSF均值/Hz預(yù)測因子1377.440.291 6262554.680.328 6443922.360.383 63641 339.840.405 64051 702.150.438 87362 046.390.355 56072 452.880.323 12082 741.460.298 06593 116.700.262 238103 348.140.197 876

      去均值和一階MA平滑預(yù)測操作改進(jìn)為

      (4)

      (5)

      本文將3GPP 中4.75 kbps的AMR-NB標(biāo)準(zhǔn)編碼中的LSF參數(shù)量化技術(shù)應(yīng)用于MELP中,改進(jìn)后的MELP矢量量化器如圖1。

      圖1 改進(jìn)后的MELP矢量量化器
      Fig.1 Improved vector quantization in MELP

      2.4 kbps的MELP標(biāo)準(zhǔn)編碼矢量量化器改進(jìn)之后,在去均值的時候不需要對每一幀都計(jì)算均值,大大減少了計(jì)算量,降低編碼時延,并且不對去均值后的LSF參數(shù)取絕對值,可以簡化譯碼時LSF參數(shù)的恢復(fù)。在一階MA平滑預(yù)測中使用10維矢量的預(yù)測因子來優(yōu)化預(yù)測模型的性能,能夠進(jìn)一步減小殘差矢量的動態(tài)范圍,達(dá)到優(yōu)化量化效果的目的。

      2 碼書訓(xùn)練算法的改進(jìn)

      2.1 傳統(tǒng)LBG算法

      在未知信源分布的碼本生成算法中,如果擁有了足夠長并且有代表性的訓(xùn)練數(shù)據(jù),可以采用LBG算法進(jìn)行訓(xùn)練獲得量化碼書。它將訓(xùn)練數(shù)據(jù)根據(jù)最鄰近準(zhǔn)則進(jìn)行胞腔劃分,劃分后再對每一個胞腔計(jì)算質(zhì)心,并把質(zhì)心作為新胞腔的最佳碼字。通過循環(huán)迭代計(jì)算,當(dāng)收斂時就得到胞腔的最佳劃分和最優(yōu)碼本[12]。這種情況下,訓(xùn)練數(shù)據(jù)會對生成碼書的結(jié)果造成較大影響。

      準(zhǔn)備20 min的(中文)男/女評書,(英文)男/女有聲小說的語音數(shù)據(jù),并且分別從中截取5 min的語音數(shù)據(jù)拼接成一個長度為20 min的混合語音。分別從這5段語音中獲取53 332個訓(xùn)練數(shù)據(jù),通過LBG訓(xùn)練出大小分別為8 bit、8 bit和7 bit的分裂矢量量化碼書,其中初始碼書通過隨機(jī)選擇得到。對得到的碼書采用改進(jìn)后的MELP編碼并且采用平均譜失真測度(Average Spectral Distortion,ASD)的碼書的量化性能進(jìn)行評價,量化結(jié)果如表3。

      表3 四個碼書對不同語音的量化性能
      Tab.3 Quantitative performance of four codebooksfor different speech

      評價語音訓(xùn)練碼書用到的語音中文男聲中文女聲英文男聲英文女聲混合語音中文男聲1.801.931.891.941.79中文女聲1.931.791.901.881.83英文男聲1.881.991.781.951.83英文女聲1.961.891.981.801.88

      從表3中可以看到,由于LBG算法趨向于局部收斂,前4個碼書在評價語音與訓(xùn)練碼書所用的語音相同時,ASD值最小,此時量化性能最好;而當(dāng)用來量化其他語音時,其量化效果均顯著下降。而把混合語音作為訓(xùn)練語音的碼書對中/英文男/女語音數(shù)據(jù)的量化效果相對均衡,對不同語音的量化適應(yīng)性強(qiáng),這是因?yàn)榛旌险Z音中獲得的訓(xùn)練數(shù)據(jù)涵蓋了4種不同類型的語音。

      因此,進(jìn)行碼書訓(xùn)練時需要根據(jù)語音類型和編碼場景等等條件,選擇出合適的語音數(shù)據(jù)來訓(xùn)練,才有可能獲得一個性能優(yōu)良的碼書。

      2.2 基于高斯自擾動的LBG算法

      由2.1節(jié)可知為了獲得普適性較強(qiáng)的碼書,用于訓(xùn)練碼書的語音數(shù)據(jù)需要足夠豐富,涵蓋各種類型。但是,如果訓(xùn)練語音數(shù)據(jù)量巨大,那么會出現(xiàn)計(jì)算量大、花費(fèi)時間長的問題。

      如果已經(jīng)擁有性能良好的碼書作為先驗(yàn)知識,可以通過將碼矢合并或者隨機(jī)選取來獲得尺寸減小的新碼書,然而這樣并不能充分利用原先用于訓(xùn)練已有碼書的訓(xùn)練數(shù)據(jù)。因此,本文為了逼近原始訓(xùn)練數(shù)據(jù)的概率密度分布,使碼書重新收斂至更佳的狀態(tài),提出了基于高斯自擾動的LBG算法。

      為了更為便捷高效地訓(xùn)練出普適性強(qiáng)且性能優(yōu)良的碼書,本文所提出的碼書訓(xùn)練方法依托于3個假設(shè)之上:

      1) 已經(jīng)擁有了一個性能優(yōu)良的量化碼書,它是通過對一個矢量平衡且遍歷的信源訓(xùn)練而得。

      (6)

      (7)

      Σi表示X′協(xié)方差矩陣,N表示訓(xùn)練數(shù)據(jù)的維度,l表示矢量分布的概率密度。矢量各維之間相互獨(dú)立,協(xié)方差矩陣Σi可轉(zhuǎn)換為對角矩陣,

      (8)

      (9)

      3) 本文假定當(dāng)碼書訓(xùn)練至最優(yōu)時,落入每個胞腔的訓(xùn)練數(shù)據(jù)的數(shù)量趨近相同,圖2為一個2維矢量訓(xùn)練完成時胞腔與矢量分布關(guān)系圖。

      圖2 2維矢量訓(xùn)練完成時胞腔與矢量分布關(guān)系
      Fig.2 Relationship between cell size and vector distributionwhen 2 dimension vector training is finished

      ,

      (10)

      (11)

      (12)

      3 結(jié)果

      為了驗(yàn)證矢量量化器和碼書訓(xùn)練的性能,準(zhǔn)備了四類語音:(中文)男/女評書,(英文)男/女有聲小說,各3 min。并且將四類語音合并成一段長為12 min的混合語音。語音均為8 kHz采樣,16位PCM編碼。用客觀語音質(zhì)量評估PESQ評價語音質(zhì)量,用平均譜失真測度ASD評價碼書性能。

      3.1 優(yōu)化MELP矢量量化器后的結(jié)果

      改進(jìn)MELP矢量量化器同時,采用4.75 kbps AMR-NB編碼C代碼中所提供的三個碼書dico1_lsf,dico2_lsf,mr515_3_lsf進(jìn)行矢量量化。用四種測試語音分別進(jìn)行原始的和改進(jìn)后的MELP編碼,結(jié)果見表4。

      表4 原始的和改進(jìn)后的MELP編碼性能
      Tab.4 Original and improved MELP encoding performance

      測試語音量化方式ASDPESQ中文男聲原始1.762.58改進(jìn)1.732.66中文女聲原始1.692.69改進(jìn)1.682.72英文男聲原始1.732.63改進(jìn)1.692.69英文女聲原始1.712.67改進(jìn)1.702.70混合語音原始1.762.65改進(jìn)1.722.68

      原始的2.4 kbps MELP標(biāo)準(zhǔn)編碼中分配25個比特進(jìn)行量化,而改進(jìn)的MELP編碼中分配23個比特進(jìn)行LSF參數(shù)量化。盡管減少了2個了比特,從表4可以看到改進(jìn)的MELP編碼性能優(yōu)于原始MELP編碼,在中文男生和英文男生的測試中明顯優(yōu)于原始的MELP編碼。這歸結(jié)于兩個原因,一方面是改進(jìn)的矢量量化器性能較優(yōu),另一方面是AMR-NB中所提供的碼書較為成熟。為了進(jìn)一步降低編碼速率,可以對這些較為成熟的碼書進(jìn)一步縮減碼書的尺寸。

      3.2 高斯自擾動碼書性能

      為了尋找出更佳的碼書訓(xùn)練方法,本文基于高斯自擾動碼書訓(xùn)練法制定了三套不同的方案。在已有的AMR-NB量化碼書大小為256的dico_lsf1上隨機(jī)選取128個碼字,后續(xù)的訓(xùn)練方案都選用此作為初始碼書,采用混合語音進(jìn)行測試碼書性能。

      表5 方案一中的碼書性能
      Tab.5 Codebook performance in 1st scheme

      測試語音ASDPESQ混合語音1.692.67

      圖4 碼書重新排序后每個碼字的胞腔大小
      Fig.4 The cell size of each codeword after codebook reordering

      (13)

      表6 方案二中的碼書性能
      Tab.6 Codebook performance in 2nd scheme

      測試語音ASDPESQ混合語音1.652.71

      方案三:分別截取20 s的(中文)男/女評書,(英文)男/女有聲小說四類語音數(shù)據(jù),在方案二的基礎(chǔ)上,采用這4類少量的語音數(shù)據(jù)對碼書進(jìn)行LBG訓(xùn)練,獲得的碼書性能如表7。

      表7 方案三中的碼書性能
      Tab.7 Codebook performance in 3rd scheme

      測試語音ASDPESQ混合語音1.592.73

      由于初始碼書是通過隨機(jī)選擇而獲得的,可能會出現(xiàn)所選碼字過偏的情況,導(dǎo)致訓(xùn)練后碼書性能下降。利用少量的語音數(shù)據(jù)再訓(xùn)練可以確保碼書收斂到更佳的狀態(tài),進(jìn)一步提升量化性能。

      3.3 降低MELP的編碼速率

      利用方案三中的高斯自擾動碼書訓(xùn)練方案分別將已有的三套碼書尺寸訓(xùn)練至6 bit,6 bit和5 bit。MELP編碼器采用8 kHz采樣,幀長為25 ms,每幀量化總比特?cái)?shù)為46 bit。MELP編碼速率由2.4 kbps降至1.84 kbps,性能如表8。

      表8 1.84 kbps MELP的編碼性能
      Tab.8 1.84 kbps MELP coding performance

      測試語音ASDPESQ中文男聲1.702.69中文女聲1.692.70英文男聲1.722.68英文女聲1.682.71混合語音1.732.66

      比較表4和表8,由于碼書尺寸縮減了8 bit,1.84 kbps MELP編碼的量化性能相比原始2.4 kbps MELP編碼有所下降,但是下降的幅度較小,在可接受的范圍之內(nèi),而也有優(yōu)于2.4 kbps MELP結(jié)果出現(xiàn),例如中文男聲和英文女聲,說明高斯自干擾碼書訓(xùn)練效果較好;1.84 kbps MELP的編碼性能相比原始的2.4 kbps MELP有所提高,說明改進(jìn)的矢量量化方案有效。因此,在矢量量化器和量化碼書改進(jìn)后,可以實(shí)現(xiàn)在保證語音質(zhì)量的前提下,降低MELP標(biāo)準(zhǔn)編碼的編碼速率。

      4 結(jié)論

      本文為了在保證語音質(zhì)量的前提下,降低語音編碼的速率。對2.4 kbps的MELP標(biāo)準(zhǔn)編碼在矢量量化器和量化碼書進(jìn)行改進(jìn)。在改進(jìn)矢量量化器上,采用了4.75 kbps的AMR-NB中的矢量量化技術(shù),結(jié)合一階MA平滑的預(yù)測模型,對LSF殘差矢量分為3個子矢量進(jìn)行分裂矢量量化;在優(yōu)化量化碼書性能上,本文針對現(xiàn)有的碼書提出了一種高斯自干擾碼書訓(xùn)練算法,并提供了三套訓(xùn)練方案,從而獲得性能較優(yōu)的縮小尺寸的碼書,實(shí)驗(yàn)證明:根據(jù)胞腔大小調(diào)整擾動方差從而獲得訓(xùn)練集,并且在高斯自擾動訓(xùn)練之后,利用少量語音數(shù)據(jù)進(jìn)一步收斂的碼書性能效果最佳。MELP編碼在改進(jìn)矢量量化器之后,利用高斯自干擾碼書訓(xùn)練法將4.75 kbps AMR-NB中23bit的量化碼書縮減至17 bit,從而將編碼速率降低至1.84 kbps。實(shí)驗(yàn)證明:在降低編碼速率后,1.84 kbps MELP編碼仍有較好的語音質(zhì)量。

      相比多幀聯(lián)合編碼,本文所設(shè)計(jì)的量化性能方案,能夠減小時延,保證低速率編碼的實(shí)時性。同時,本文所提出的高斯自擾動訓(xùn)練法也適用于其他領(lǐng)域中,在已有較好數(shù)據(jù)作為先驗(yàn)知識的情況下,進(jìn)一步對數(shù)據(jù)進(jìn)行優(yōu)化和處理具有一定的參考價值和借鑒意義。

      猜你喜歡
      高斯矢量語音
      小高斯的大發(fā)現(xiàn)
      矢量三角形法的應(yīng)用
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      天才數(shù)學(xué)家——高斯
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于矢量最優(yōu)估計(jì)的穩(wěn)健測向方法
      三角形法則在動態(tài)平衡問題中的應(yīng)用
      有限域上高斯正規(guī)基的一個注記
      淮阳县| 远安县| 名山县| 蓬莱市| 红原县| 南丹县| 亳州市| 延安市| 清流县| 清远市| 孟连| 高密市| 桦甸市| 宜都市| 大同市| 双鸭山市| 应用必备| 涪陵区| 韶关市| 怀远县| 樟树市| 恩平市| 大港区| 东乡族自治县| 邯郸市| 临朐县| 苏州市| 达日县| 岐山县| 丽水市| 汶上县| 封开县| 新干县| 林甸县| 彝良县| 济阳县| 汉阴县| 呼和浩特市| 舟山市| 错那县| 静宁县|