• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語音轉(zhuǎn)折點檢測的改進波形相似疊加時長規(guī)整算法

      2015-03-07 11:43:27雷穎思
      計算機工程 2015年10期
      關(guān)鍵詞:規(guī)整轉(zhuǎn)折點時域

      雷穎思,楊 燕

      (蘭州交通大學電子與信息工程學院,蘭州 730070)

      基于語音轉(zhuǎn)折點檢測的改進波形相似疊加時長規(guī)整算法

      雷穎思,楊 燕

      (蘭州交通大學電子與信息工程學院,蘭州 730070)

      波形相似疊加算法忽略語音本身感知特性,對整段語音統(tǒng)一規(guī)整,在采樣率較低或規(guī)整比例較大時處理效果不佳。為此,通過分析人耳聽覺系統(tǒng)的預測特點,提出一種改進的波形相似疊加時長規(guī)整算法。采用子帶譜熵法檢測出語音的轉(zhuǎn)折部分并保持其不變,以保證轉(zhuǎn)折區(qū)的語音信息不受損壞,并給出一種局部補償法以修正整體規(guī)整精度。仿真結(jié)果表明,該算法在整體規(guī)整比例不變的情況下可提高合成語音的自然度。

      時長規(guī)整算法;波形相似疊加算法;聽覺預測;轉(zhuǎn)折點檢測;子帶譜熵;局部補償法

      DO I:10.3969/j.issn.1000-3428.2015.10.049

      1 概述

      語音時長規(guī)整是對原始語音信號進行時域擴展或壓縮的一項技術(shù),目的在于擴展或壓縮語音的長度,并且在改變語音速度的同時保持原始語音信號的特性,如基音頻率、說話人音色以及語義清晰性等不變[1]。語音時長規(guī)整廣泛應用于語音壓縮、語言教學、影視制作,以及人機交互等領(lǐng)域。例如,在語音通信中,對信號進行不改變易懂性的時域壓縮能使之以更小的體積進行網(wǎng)絡(luò)傳輸或存儲,節(jié)省網(wǎng)絡(luò)帶寬或磁盤資源[2];外語教學和殘疾人訓練中,在保持原有語音特色的前提下對多媒體教學資源播放速度進行有意識的控制,能便于學生掌握發(fā)音技巧和練習聽力,使殘疾人達到更好的訓練效果[3];在影視后期制作中,對語音信號進行時長規(guī)整,能實現(xiàn)語音與影像的精準同步[4]。 此外,對語音時長規(guī)整技術(shù)的研究有利于推動人機交互領(lǐng)域的發(fā)展[5]。

      國內(nèi)外學者對語音時長規(guī)整提出了許多有效的方法,主要分為時域法[6]、頻域法[7]和參數(shù)法[8]3大

      類。頻域法和參數(shù)法由于參數(shù)多、算法復雜,合成語音質(zhì)量較差且不適合于實時處理[9]。時域規(guī)整算法由于具有簡單、有效、便于實現(xiàn)等特點應用最為廣泛,目前的商業(yè)產(chǎn)品也大多數(shù)基于時域方法[10]。

      時域法基于對語音時域的拼接和合成思想,其中同步波形疊加(Similarity Overlap-and-Add,SOLA)法[6]、波形相似疊加(Waveform Similarity Overlapand-Add,WSOLA)法[11]能在低的計算量下達到較好的合成效果,適合于實時處理系統(tǒng)。但是在采樣率較低或規(guī)整比例較大時處理效果會明顯降低,這是由于算法忽略了語音本身的感知特性,對所有語音采取相同的規(guī)整措施。為提高合成語音質(zhì)量,有學者提出了對語音的分段規(guī)整算法[12],在SOLA算法的基礎(chǔ)上把語音分解為瞬態(tài)成分、穩(wěn)態(tài)成分和安靜成分,對不同成分采用不同的規(guī)整因子,但由于不同規(guī)整因子的引入,對語音的整體比例并不能達到預期要求。文獻[13-14]通過Mel倒譜法把語音分為瞬態(tài)和暫態(tài),對不同狀態(tài)的語音采用不同的規(guī)整因子,計算量大,且 Mel倒譜法難以選擇合適的閾值。

      人耳聽覺系統(tǒng)是根據(jù)轉(zhuǎn)折信息進行聽覺預測的,轉(zhuǎn)折區(qū)包含的信息對語音信號的感知度有至關(guān)重要的作用[15],對整段語音采用統(tǒng)一的規(guī)整則忽略了語音信號的感知特性,在壓縮時容易丟失轉(zhuǎn)折區(qū)的信息,在擴大時容易造成轉(zhuǎn)折區(qū)語音的模糊。因此,本文采用保持語音轉(zhuǎn)折區(qū)不變的思路來提高WSOLA算法的合成感知度。通過文獻[16]提出的譜熵法準確檢測出語音的轉(zhuǎn)折部分,在合成時保持其不變,從而提高輸出質(zhì)量,并通過引入局部補償算法,保證整體規(guī)整比例不變。

      2 WSOLA算法

      SOLA算法和WSOLA算法是時域法中規(guī)整效果較好的2種算法,兩者都是重疊疊加算法(Overlapand-Add,OLA)的改進。OLA算法把輸入語音信號χ以幀長N、幀移S1分解成一系列重疊幀,合成時則把各分解幀以幀移S2進行疊加合成,從而達到改變語音速度的目的。α=S2/S1即為規(guī)整因子,α>1時表示對語音進行減速規(guī)整,α<1時表示對語音進行加速規(guī)整。該算法沒有考慮到相鄰幀之間的連續(xù)性,容易造成基音斷裂,合成效果較差。為了解決此問題,SOLA算法在合成時,在理想合成幀移S2的某一鄰域內(nèi)尋找當前分解幀與相鄰合成幀的最大相關(guān)位置插入分解幀;WSOLA算法則是在原語音信號中,從當前分解幀的某一鄰域內(nèi)尋找同前一合成幀波形最相似的幀,以幀移S2疊加到輸出合成信號,從而減小了基音斷裂。與SOLA算法相比,WSOLA算法在規(guī)整時長精度上更高,其具體算法原理如下:

      存在線性映射關(guān)系τ(S1·m)=S2·m,其中,m為幀索引。在合成時,第一幀直接寫入輸出信號,之后的每一步合成時,在原語音信號 S1·m的鄰域[-Δmax,Δmax]內(nèi)尋找與前一合成幀波形最相似的幀,以距離S2疊加到輸出信號,如圖1所示。

      圖1 WSOLA算法

      相似度 C(m,δ)由歸一化的互相關(guān)系數(shù)來表示:

      輸出合成語音y(i)即為:

      其中,ω(n)為窗函數(shù),本文采用 50%重疊的hamming窗的取值不小于輸入語音基音周期的一半,同時,為了防止引入時間回響,Δmax<S1/2。

      3 基于譜熵法的語音轉(zhuǎn)折區(qū)檢測

      語音轉(zhuǎn)折點即語音信號中各段落的起始點和終點。檢測方法主要可采用基于能量和過零率的檢測方法、基于Mel頻率的倒譜距離測量方法(Mel Frequency Cepstrum Coefficient,MFCC)以及基于譜熵檢測方法。基于短時能量和短時平均過零率的檢測法計算簡便,但魯棒性低,當信噪比低時檢測效果差;MFCC倒譜距離測量方法檢測效果較好,但計算復雜,運算量大,且難以選擇合適的閾值?;谧V熵的檢測方法檢測效果好、魯棒性高,且計算量較低[17],本文的語音轉(zhuǎn)折點檢測采用譜熵法。

      由Shannon的信息熵原理,信息量可由事務(wù)發(fā)生的不確定性,即事務(wù)各狀態(tài)出現(xiàn)的概率來度量。假設(shè)信源發(fā)出N個符號,它們出現(xiàn)的概率分別為P1,P2,…,PN,那么信息源的熵H(χ)即為:

      熵反映了信號的平均信息量,由于語音信號為頻帶受限信號,頻率集中在300 Hz~3 400 Hz。在此頻帶內(nèi),語音信號的隨機事件多,因此熵值大,噪聲在此頻帶內(nèi)的熵值則較小,可以通過熵值來判斷信號的出現(xiàn)與停止,檢測出語音信號的轉(zhuǎn)折區(qū)。

      由于語音信號是功率信號,具有短時平穩(wěn)特性,可通過語音信號的短時功率譜來構(gòu)造語音信息熵。由Wiener-Khinchin定理,平穩(wěn)隨機信號的功率譜密度為其自相關(guān)函數(shù)的傅里葉變換,語音信號的短時功率譜可轉(zhuǎn)換為其自相關(guān)函數(shù)的傅里葉變換。基于譜熵的轉(zhuǎn)折點檢測流程如圖2所示。

      圖2 基于譜熵法的語音轉(zhuǎn)折點檢測算法流程

      設(shè)輸入信號以hamming窗分幀后的每一幀為χm,共M幀,那么其自相關(guān)函數(shù)為:

      對自相關(guān)函數(shù)進行K點FFT變換:

      每一幀的譜能量為:

      為提高檢測魯棒性及準確性,結(jié)合文獻[18]的子帶譜熵法,將每一幀劃分為 Kb個不同的子帶,得每一子帶的譜熵為:

      子帶譜能量概率為:

      子帶功率譜熵即為:

      本文Kb子帶數(shù)取為K/8,通過對H(m)設(shè)定一個門限值,即可檢測出語音的轉(zhuǎn)折點,本文取為前10幀譜熵的平均值。

      圖3為對TIM IT語音庫中某一條測試語音進行轉(zhuǎn)折點檢測和標記的情況。

      圖3 基于譜熵法的語音轉(zhuǎn)折點檢測

      4 改進的WSOLA時長規(guī)整算法

      4.1 局部補償修正算法

      對語音的轉(zhuǎn)折區(qū)采取保持不變的策略必然會造成對整段語音的規(guī)整比例的偏差。例如,當對語音信號做加速規(guī)整時,整體規(guī)整時長就會比理想值大;對信號作減速規(guī)整時,整體規(guī)整時長則會比理想值小。為解決此問題,提出局部補償修正,在每一步合成時,根據(jù)已規(guī)整原信號長度和對其規(guī)整后的已合成語音長度,重新計算對當前幀的合成幀移。

      首先,保持 S1不變,理想規(guī)整時長和實際規(guī)整時長之間的偏差由時變的S2(m)來逐步補償。

      S2(m)即每一幀合成時重新計算的合成距離S2;XL為合成第m幀時已規(guī)整的輸入信號長度;YL為已規(guī)整輸出信號長度;α0為理想規(guī)整因子;Nc設(shè)定為0.5 s。圖4為對TIM IT語音庫中一條語音進行1.5倍減速規(guī)整時,實際的規(guī)整因子隨時間變化的情況。

      圖4 局部補償算法下時變的規(guī)整因子

      從圖4中可以看出,在語音的轉(zhuǎn)折點,規(guī)整因子為1,也就是保持當前幀的不變,在剩余的非轉(zhuǎn)折區(qū),規(guī)整因子則在1.5周圍波動。

      4.2 改進的WSOLA算法流程

      通過基于語音轉(zhuǎn)折點的檢測及局部補償修正方法的提出,可得到改進WSOLA語音時長規(guī)整算法具體實現(xiàn)流程如圖5所示。

      圖5 改進WSOLA語音時長規(guī)整算法流程

      5 實驗結(jié)果及分析

      實驗測試英文語音來自TIMIT數(shù)據(jù)庫,中文語音來自北京航空航天大學開放語音庫,各隨機選取其中的 20條語句作為測試語音,采樣率均為16 kHz。規(guī)整因子α取0.3,0.5,0.7,0.9,1.5,2.0,

      2.5 ,3.0。仿真實驗在MatlabR2007b軟件中進行。

      考慮到語音信號的短時平穩(wěn)性,在16 kHz采樣率下,幀長N取400;Δmax取一個平均基音周期的一半,實驗中,男聲Δmax取4.5 m s,女聲Δmax取2.5 m s。

      采用以上參數(shù),在規(guī)整因子α為0.3,0.5,0.7,0.9,1.5,2,2.5,3時對分析信號分別用WSOLA算法和本文提出的改進WSOLA算法進行時長規(guī)整。

      對其中一條測試語句在 α為 0.3分別采用WSOLA算法和本文提出的改進WSOLA算法規(guī)整后的時域波形如圖6所示,規(guī)整后的語譜圖如圖7所示。

      圖6 規(guī)整因子α=0.3時實驗所得波形

      圖7 規(guī)整因子α=0.3時實驗所得語譜

      由圖可看出,改進WSOLA算法合成的波形與原語音更加相似;語譜圖上,在α為0.3時,WSOLA算法規(guī)整后的語譜圖已經(jīng)模糊,而改進WSOLA算法規(guī)整后的語譜圖與原信號語譜圖更加相似。

      對實驗中采用WSOLA算法和改進WSOLA算法規(guī)整后的輸出語音,用主觀測評法評價語音質(zhì)量。在主觀評測中,共邀請了50人(25男25女),對在相同規(guī)整因子α下分別采用W SOLA算法和改進WSOLA算法規(guī)整的40條測試語音,做出規(guī)整后合成信號音質(zhì)較優(yōu)者的選擇。最后,統(tǒng)計出在各不同規(guī)整因子下 2種算法的選擇比例,結(jié)果如表1所示。

      表1 主觀語音質(zhì)量選擇比例 %

      由表1可以看出,改進WSOLA算法在各不同規(guī)整因子下的規(guī)整語音質(zhì)量都優(yōu)于WSOLA算法,尤其是當規(guī)整比例較大時,改進WSOLA算法的優(yōu)勢更加明顯。

      總的來說,由客觀規(guī)整波形、語譜圖分析以及聽覺比較可見,改進WSOLA算法合成信號的聽覺效果明顯優(yōu)于WSOLA算法合成信號,提高了WSOLA算法的合成感知度。

      6 結(jié)束語

      本文以改善WSOLA算法語音時長規(guī)整效果為目的,分析了WSOLA算法在采樣率降低或規(guī)整比例增大時,處理效果明顯降低的原因,給出檢測語音轉(zhuǎn)折區(qū)部分并保持其不變的步驟,并通過進一步局部補償修正,保證了語音時長的精確規(guī)整,形成了具有較好輸出感知效果的改進WSOLA語音時長規(guī)整算法。理論分析和實驗結(jié)果表明,本文提出的改進算法和WSOLA算法相比,既繼承了WSOLA算法的低復雜度等優(yōu)點,又彌補了其在輸出語音感知效果不佳方面的不足,在提高語音時長規(guī)整質(zhì)量上具有比較明顯的優(yōu)勢。但轉(zhuǎn)折區(qū)檢測的引入加大了算法的時間復雜度,下一步工作將研究如何降低處理復雜度。

      [1] Moulines E,Laroche J.Non-parametric Techniques for Pitch-scale and Time-scale Modification of Speech[J]. Speech Communication,1995,16(2):175-205.

      [2] Stylianou Y,Cappé O,Moulines E.Continuous Probabilistic Transform for Voice Conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142.

      [3] Nejime Y,Aritsuka T,Imamura T,et al.A Portable Digital Speech-rate Converter for Hearing Impairment[J].IEEE Transactions on Rehabilitation Engineering,1996,4(2):73-83.

      [4] Arfib D,Verfaille V.Driving Pitch-shifting and Timescaling Algorithms with Adaptive and Gestural Techniques[C]//Proceedings of the 6th International Conference on Digital Audio Effects.London,UK:[s.n.],2003.

      [5] Amatriain X,Bonada J,Loscos A,et al.Content-based Transformations[J].Journal of New Music Research,2003,32(1):95-114.

      [6] Roucos S,Wilgus A.High Quality Time-scale Modification for Speech[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1985:493-496.

      [7] Griffin D,Lim J S.Signal Estimation from Modified Short-time Fourier Transform[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1984,32(2):236-243.

      [8] McAulay R,Quatieri T F.Speech Analysis/Synthesis Based on a Sinusoidal Representation[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1986,34(4):744-754.

      [9] 葉錫恩,張巧文.基于WSOLA算法的語音時長調(diào)整研究[J].科技通報,2005,21(5):593-596.

      [10] 周 俊,高 悅,譚 薇,等.語音時長規(guī)整技術(shù)的研究回溯[J].現(xiàn)代電子技術(shù),2006,29(18):102-105.

      [11] Verhelst W,Roelands M.An Overlap-add Technique Based on Waveform Similarity(WSOLA)for High Quality Timescale Modification of Speech[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1993:554-557.

      [12] 黃 吳,郭 立,李 琳.基于感知敏感成分劃分的語音時長規(guī)整算法[J].數(shù)據(jù)采集與處理,2009,23(6):740-745.

      [13] 謝貴武,楊繼紅,肖 勇,等.基于語音分段的自適應時長調(diào)整算法[J].軍事通信技術(shù),2008,29(2):56-61.

      [14] Demol M,Struyve K,Verhelst W,et al.Efficient Nonuniform Time-scaling of Speech with WSOLA for CALL Applications[EB/OL].(2004-07-11).http://academic. research.microsoft.com/Publication/10354418/efficient-nonuniform-time-scaling-of-speech-with-wsola.

      [15] Furui S.On the Role of Spectral Transition for Speech Perception[J].The Journal of the Acoustical Society of America,1986,80(4):1016-1025.

      [16] Shen Jialin,Hung Jeih-Weih,F(xiàn)en Qin.Robust Entropybased Endpoint Detection for Speech Recognition in Noisy Environments[C]//Proceedings of the 5th International Conference on Spoken Language Processing.Sydney,Australia:[s.n.],1998:232-235.

      [17] 許作輝.基于信息熵的語音端點檢測算法研究與實現(xiàn)[D].長春:吉林大學,2012.

      [18] Wu Bingfei,Wang Kun-Ching.Robust Endpoint Detection Algorithm Based on the Adaptive Band-partitioning Spectral Entropy in Adverse Environments[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):762-775.

      編輯 顧逸斐

      Improved Waveform Similarity Overlap-and-Add Time Warping Algorithm Based on Speech Turning Point Detection

      LEI Yingsi,YANG Yan
      (School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)

      The Waveform Similarity Overlap-and-Add(WSOLA)algorithm neglects the perceptual characteristics of real sound speech signals,and employs uniform time scaling of the entire signal.When sampling rate is low or scaling proportion is large,the scale quality is degraded.Aiming at such problems,an enhanced WSOLA algorithm is proposed through analyzing the acoustic prediction characteristics of human auditory system.This method detects the turning points of the speech using a subband spectrum entropy measure and leaves them intact to ensure the turning points undamaged,while time scaling the remainder of the signal.A local compensate measure is further put forward to correct the whole scale accuracy.Simulation results show that the new algorithm improves the natural degree of the synthetic speech signals with the whole scale proportion unchanged.

      time warping algorithm;Waveform Similarity Overlap-and-Add(WSOLA)algorithm;acoustic prediction;turning point detection;subband spectrum entropy;local compensation method

      雷穎思,楊 燕.基于語音轉(zhuǎn)折點檢測的改進波形相似疊加時長規(guī)整算法[J].計算機工程,2015,41(10):260-264.

      英文引用格式:Lei Yingsi,Yang Yan.Improved Waveform Similarity Overlap-and-Add Time Warping Algorithm Based on Transition Segment Detection of Speech Signals[J].Computer Engineering,2015,41(10):260-264.

      1000-3428(2015)10-0260-05

      A

      TP301.6

      甘肅省科技廳自然科學基金資助項目(1310RJZA050)。

      雷穎思(1989-),女,碩士研究生,主研方向:語音信號處理,數(shù)字圖像處理;楊 燕,副教授、博士。

      2014-08-11

      2014-09-03E-m ail:0212679@stu.lzjtu.edu.cn

      猜你喜歡
      規(guī)整轉(zhuǎn)折點時域
      畫與理
      未來訪談:站在轉(zhuǎn)折點上
      出版人(2023年3期)2023-03-10 06:53:44
      300kt/a硫酸系統(tǒng)規(guī)整填料使用情況簡介
      基于時域信號的三電平逆變器復合故障診斷
      提高日用玻璃陶瓷規(guī)整度和表面光滑度的處理方法
      佛山陶瓷(2016年11期)2016-12-23 08:50:27
      電梯的建筑化藝術(shù)探索
      大觀(2016年9期)2016-11-16 10:31:30
      基于極大似然準則與滾動時域估計的自適應UKF算法
      我國中等收入陷阱解構(gòu):收入分配與庫茲涅茨轉(zhuǎn)折點
      基于時域逆濾波的寬帶脈沖聲生成技術(shù)
      基于發(fā)音機制的貪婪自適應語音時長規(guī)整算法
      計算機工程(2015年8期)2015-07-03 12:20:34
      曲阳县| 漳州市| 通化市| 南宫市| 油尖旺区| 都兰县| 兴业县| 汉阴县| 清水县| 安丘市| 墨玉县| 江阴市| 吴旗县| 大洼县| 郑州市| 林芝县| 长子县| 丰城市| 新津县| 天峻县| 辰溪县| 洛隆县| 鄯善县| 土默特左旗| 河南省| 卫辉市| 垦利县| 天门市| 腾冲县| 收藏| 祥云县| 洪江市| 柯坪县| 施甸县| 雷波县| 加查县| 财经| 禹州市| 铅山县| 济南市| 宁河县|