• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于碼本映射的語音帶寬擴(kuò)展算法研究

      2010-03-26 01:47:42薛梅周南
      電子設(shè)計工程 2010年11期
      關(guān)鍵詞:碼本窄帶寬帶

      薛梅,周南

      (電子科技大學(xué) 電子工程學(xué)院,四川 成都 610054)

      人類語音的頻帶信息主要分布在50 Hz~8 kHz的頻率范圍之間。但是,由于在傳輸過程中受到位率等因素的影響,電話語音的頻帶被限制在300 Hz~4 kHz的范圍內(nèi),降低了語音的可懂度,聽起來也不太自然。為了在不增加額外成本的前提下得到寬帶語音,提高語音的可懂度和自然度,人們進(jìn)行了語音帶寬擴(kuò)展算法的研究。目前的語音帶寬擴(kuò)展算法通常是基于線性源濾波器模型,該模型主要包括兩個部分:寬帶譜包絡(luò)的估計和寬帶激勵信號的估計。寬帶語音信號由寬帶激勵信號通過寬帶譜包絡(luò)合成濾波器生成。帶寬擴(kuò)展的關(guān)鍵就是如何利用窄帶信號估計寬帶激勵信號和寬帶譜包絡(luò)。

      當(dāng)前,帶寬擴(kuò)展算法中寬帶激勵信號的估計方法以譜折疊、白噪聲激勵、諧波噪聲模型最為典型。

      迄今為止,譜包絡(luò)擴(kuò)展算法主要有線性映射法、碼本映射法和統(tǒng)計映射法。線性映射法模型過于簡化,估計得到的高頻帶譜包絡(luò)失真較大;統(tǒng)計映射法無法找到表示譜包絡(luò)的最佳特征,并且特征之間沒有良好的區(qū)分標(biāo)準(zhǔn);碼本映射法能有效地估計窄帶特征與寬帶特征之間的相關(guān)性,得到良好的寬帶譜包絡(luò)系數(shù),并且計算量小,實時性好。因此,碼本映射法是最常用的映射法。

      本文提出的加權(quán)的碼本映射算法比傳統(tǒng)的碼本映射法得到的帶寬擴(kuò)展效果更好。

      1 寬帶譜包絡(luò)的估計

      寬帶譜包絡(luò)的估計一般是通過提取窄帶信號的特征參數(shù)然后結(jié)合預(yù)先訓(xùn)練得到的寬帶譜包絡(luò)信息來估計輸入信號的寬帶譜包絡(luò)。

      1.1 矢量量化

      基于碼本映射法的帶寬擴(kuò)展算法大都源于信號壓縮中的矢量量化技術(shù)[1]。矢量量化就是用一個預(yù)先訓(xùn)練好的碼本按照某一預(yù)定義好的距離測度來編碼輸入矢量,從而用碼本中最接近輸入矢量的碼本矢量來表示輸入矢量。設(shè)計矢量量化器的主要任務(wù)是設(shè)計碼本。

      帶寬擴(kuò)展算法的碼本映射法使用兩個碼本,一個用于窄帶矢量,另一個用于寬帶矢量。這兩個碼本一起訓(xùn)練,并且它們之間存在一一對應(yīng)的關(guān)系。碼本映射過程為通過窄帶碼本搜索與輸入的窄帶特征矢量最接近的碼字矢量,然后將最佳的窄帶碼字索引映射到寬帶碼本,使用相應(yīng)的寬帶特征矢量來估計丟失的譜包絡(luò)[2]。

      1.2 加權(quán)映射碼本的訓(xùn)練

      在碼本映射的過程中,預(yù)測的寬帶譜包絡(luò)的數(shù)量會受到碼本容量的限制。用加權(quán)的方式對寬帶碼本進(jìn)行插值可以有效地減少這一限制。對某個輸入的窄帶譜包絡(luò)矢量選擇N個相近的窄帶碼本包絡(luò)矢量,通過碼本映射找到N個相應(yīng)的寬帶碼本矢量。然后對這N個寬帶碼本矢量進(jìn)行加權(quán)得到最終需要的寬帶譜包絡(luò)矢量。用w1,w2,…,wN對寬帶譜包絡(luò)向量進(jìn)行加權(quán)求和。如圖1所示為N=3時估計寬帶譜包絡(luò)特征的加權(quán)求和。其中,n表示碼本容量,一般為2的整數(shù)次冪。

      圖1 加權(quán)的碼本映射(N=3)Fig.1 Weighted codebook mapping(N=3)

      2 寬帶激勵信號的估計

      激勵源包含了關(guān)于語音諧波結(jié)構(gòu)的重要信息,因而其在合成寬帶譜的精細(xì)結(jié)構(gòu)時是必不可少的。主要的寬帶激勵方法有以下幾種:

      l)脈沖和噪聲激勵[3];

      2)非線性失真[4];

      3)譜折疊[5];

      4)譜平移。

      脈沖和噪聲激勵由于僅使用二元激勵而導(dǎo)致恢復(fù)出的語音效果有很大局限。非線性失真的主要缺點(diǎn)是由整流產(chǎn)生的頻譜成分有很大的不可預(yù)見性。因此,它經(jīng)常產(chǎn)生類似噪聲的高頻成分,尤其是在語音為濁音時。譜折疊和譜平移的方法源于對基帶編碼器的研究,這兩種方法是目前的帶寬擴(kuò)展里寬帶激勵源再生方法中使用最廣泛的方法。

      2.1 譜折疊

      譜折疊的實現(xiàn)方法很簡單,將殘差信號直接上采樣即可,如圖2所示。從語音信號線性預(yù)測分析的原理可知,濁音的殘差信號具有很強(qiáng)的周期性。因此,窄帶殘差信號幅度譜的低頻段具有明顯的諧波結(jié)構(gòu),譜折疊會給寬帶激勵信號的高頻段帶來明顯的諧波分量,這會使重建后的寬帶語音缺乏自然度。

      圖2 譜折疊的實現(xiàn)過程Fig.2 The implementation of spectral fold

      2.2 譜平移

      譜平移的實現(xiàn)方法如圖3所示。從圖中可以看出,譜平移在實現(xiàn)過程中需要經(jīng)過兩次濾波,因此譜平移的實現(xiàn)要比譜折疊復(fù)雜。但是,譜平移可以有效地減弱使用譜折疊時由明顯的諧波結(jié)構(gòu)而引起的缺乏自然度的寬帶語音信號。因此,譜平移的實際效果要好于譜折疊。在本文中使用譜平移的方法來產(chǎn)生寬帶激勵信號。

      圖3 譜平移的實現(xiàn)過程Fig.3 The implementation of spectral translation

      3 系統(tǒng)的實現(xiàn)與仿真

      在本文設(shè)計的帶寬擴(kuò)展系統(tǒng)中,寬、窄帶特征都用的是線譜對系數(shù)(LSP),因為它有很好的插值特性[6-7]。為了提高估計寬帶語音譜包絡(luò)的準(zhǔn)確性,將映射碼本分為濁音碼本和清音碼本。帶寬擴(kuò)展結(jié)構(gòu)框圖如圖4所示。

      圖4 語音帶寬擴(kuò)展結(jié)構(gòu)框圖Fig.4 Block diagram of speech bandwidth extention

      3.1 語音數(shù)據(jù)庫

      訓(xùn)練語音為從TIMIT語音數(shù)據(jù)庫中提取的時長為20 s、采樣率為8 kHz的窄帶語音和其對應(yīng)的時長為20 s、采樣率為16 kHz的寬帶語音。測試語音先用此訓(xùn)練語音中的窄帶語音,然后用從TIMIT語音數(shù)據(jù)庫中提取的,但是時長為100 s的,而且說話者不同于訓(xùn)練語音中的窄帶語音。

      3.2 參數(shù)設(shè)置

      Mel濾波器組個數(shù)為20。LSP參數(shù)設(shè)定為10維矢量。訓(xùn)練采用LBG算法,碼本容量為1024。碼本映射中,N=5,w1=w2=…=wN=1/N。在重建語音時,窄帶語音幀長為160樣點(diǎn),恢復(fù)出的寬帶語音幀長為320樣點(diǎn)(幀延時20 ms)。

      3.3 仿真結(jié)果

      為了測試此算法的有效度,對估計帶寬信號和原始帶寬信號進(jìn)行對比,先用訓(xùn)練語音中的窄帶語音做為測試語音。這樣,在理想情況下,重建后的估計寬帶信號就應(yīng)該是訓(xùn)練語音中的寬帶語音,即原始語音??创怂惴ǖ膸挃U(kuò)展情況最直觀的方法除了直接聽(主觀測試,3.4中介紹)以外就是看頻譜圖。圖5所示為原始寬帶語音(上圖)和估計寬帶語音(下圖)的頻譜圖。觀察可知,它們的頻譜包絡(luò)幾乎是相同的,這就說明從窄帶語音中恢復(fù)寬帶語音就達(dá)到了很好的帶寬擴(kuò)展效果。

      圖5 估計寬帶語音與原始寬帶語音的頻譜圖Fig.5 The frequency spectrum of estimated wideband speech and original wideband speech

      3.4 客觀測試

      所謂客觀測試就是用一定的標(biāo)準(zhǔn)來度量估計寬帶語音譜包絡(luò)與原始寬帶語音譜包絡(luò)之間的區(qū)別,也就是估計寬帶語音相對于原始寬帶語音的失真度,將估計寬帶語音的質(zhì)量量化。

      3.4.1 寬帶譜失真測度

      本文使用的失真測度為:

      其中,

      Ak(w)和 A′k(w)分別為第 k 幀原始語音和合成寬帶語音的譜包絡(luò);ws為寬帶語音信號采樣頻率(16 kHz)。補(bǔ)償增益因子GC可以有效地去除兩個原始包絡(luò)之間的均方誤差。此失真測度只測試譜包絡(luò)之間的失真。

      3.4.2 客觀測試結(jié)果

      客觀測試結(jié)果如表1中所示。

      表1 客觀測試結(jié)果Tab.1 Objective test result

      3.5 主觀測試

      主觀測試就是用人對聽到的語音的主觀感覺來判斷聽到的語音(估計寬帶語音)的質(zhì)量,并對其進(jìn)行評分。

      3.5.1 主觀測試標(biāo)準(zhǔn)

      本文的主觀測試采用MOS評分。MOS(Mean Opinion Score)即平均意見評分,是目前國際上最常用的主觀評分方法。具體評分標(biāo)準(zhǔn)見表2。

      表2 主觀測試標(biāo)準(zhǔn)Tab.2 Subjective test standard

      3.5.2 主觀測試結(jié)果

      測試結(jié)果如表3所示。

      表3 主觀測試結(jié)果Tab.3 Subjective test result

      3.6 需要注意的問題

      在人工帶寬擴(kuò)展算法的研究中,算法的選擇是首要的。但是除此之外,還有以下幾個問題值得注意:

      1)濾波器的選取。不同類型的濾波器達(dá)到的濾波效果不一樣。在本文中,用的是5階橢圓濾波器。因為橢圓濾波器相比其他類型的濾波器,在階數(shù)相同的條件下有著最小的通帶和阻帶波動。

      2)包絡(luò)特征的選取。合適的包絡(luò)特征可以給算法的實現(xiàn)帶來很大的幫助。在本文中使用的是語音信號的線譜對參數(shù)(具體原因在第三節(jié)一開始有介紹)。

      3)碼本容量的選取。碼本容量過小就達(dá)不到好的帶寬擴(kuò)展效果,過大則會增加計算復(fù)雜度。

      4)對比圖5中上下兩圖可知,雖然頻譜很相似,但是在其開始部分和頻率為4 kHz處的幅度是不一樣的。這是需要改進(jìn)和繼續(xù)研究的地方。

      4 結(jié) 論

      本文在現(xiàn)有帶寬擴(kuò)展算法的基礎(chǔ)上提出了一種加權(quán)碼本映射的語音帶寬擴(kuò)展算法,靈活地運(yùn)用了寬窄帶譜包絡(luò)特征之間一一映射的原理,減少了區(qū)間劃分帶來的誤差。主、客觀測試表明,加權(quán)的碼本映射法優(yōu)于一般的碼本映射法,其產(chǎn)生的譜包絡(luò)失真更小,能帶來更好的帶寬擴(kuò)展效果,使得擴(kuò)展后的語音具有更好的可懂度和自然度。

      [1] 陳善學(xué),李方偉.矢量量化與圖像處理[M].北京:科學(xué)出版社,2009.

      [2] Hu R,Krishnan V,Anderson D V.Speech bandwidth extension by improved codebook mapping towards increased phonetic classification[J].Interspeech,2005:1501-1504.

      [3] Avendano C,Hermansky H,Wan E A.Beyond Nyquist:Towards the recovery of broad-bandwidth speech from narrowband width speech[C]//Fouth European Conference on speech communication and Technolgy,1995:165-168.

      [4] McCree A.A 14 kb/s wideband speech coder with a parametric highband model[C]//IEEE International Conference on Acoustics, Speech, Signal Processing,2000(2):1153-1156.

      [5] 竇庚欣.4 kb/s快速 DP-CELP語音編碼與頻帶擴(kuò)展技術(shù)研究[D].北京:北京工業(yè)大學(xué),2006.

      [6] Jax P.Artificial bandwidth extension of speech signal[C]//ICASSP, 2003:78-88.

      [7] Neuendorf M,Gournay P,Multrus M,et al.Unified speech and audio coding scheme for high quality at low bitrates[C]//ICASSP,2009:1-4.

      猜你喜歡
      碼本窄帶寬帶
      Galois 環(huán)上漸近最優(yōu)碼本的構(gòu)造
      免調(diào)度NOMA系統(tǒng)中擴(kuò)頻碼優(yōu)化設(shè)計
      基于有限域上仿射空間構(gòu)造新碼本
      裝寬帶的人
      文苑(2020年7期)2020-08-12 09:36:04
      熱軋窄帶鋼Q345B微合金化生產(chǎn)實踐
      山東冶金(2019年1期)2019-03-30 01:34:54
      幾類近似達(dá)到Welch界碼本的構(gòu)造
      無線通信中頻線路窄帶臨界調(diào)試法及其應(yīng)用
      電子制作(2017年19期)2017-02-02 07:08:38
      一種新穎的寬帶大功率分配器
      可否把寬帶作為社會福利
      基于壓縮感知的窄帶干擾重構(gòu)與消除
      麻江县| 犍为县| 婺源县| 牟定县| 沈阳市| 安塞县| 高邑县| 都兰县| 栾城县| 大英县| 南充市| 延吉市| 上饶市| 长丰县| 沙田区| 比如县| 汨罗市| 台前县| 玉溪市| 贵溪市| 水富县| 博客| 宜城市| 敖汉旗| 临高县| 南岸区| 庄河市| 安阳县| 祥云县| 朝阳市| 襄垣县| 武鸣县| 陵川县| 灵石县| 慈利县| 瓮安县| 仙居县| 湄潭县| 宝兴县| 凤冈县| 申扎县|