• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于MFCC的頻譜重構(gòu)實(shí)現(xiàn)音高估計(jì)和發(fā)聲分類

      2019-12-03 09:12:04
      測控技術(shù) 2019年11期
      關(guān)鍵詞:濁音清音梅爾

      (杭州電子科技大學(xué) 新型電子器件與應(yīng)用研究所,浙江 杭州 310018)

      梅爾頻率倒譜系數(shù)(MFCC)廣泛用于語音識(shí)別、說話人識(shí)別和其他語音處理系統(tǒng)。近年來,有一種新興的方法可以預(yù)測MFCC矢量的基頻和發(fā)聲,這使得語音信號(hào)能從分布式語音識(shí)別(Distributed Speech Recognition,DSR)后端的MFCC矢量流中重構(gòu)[1-3]。該算法通過對(duì)基頻和MFCC的聯(lián)合密度建模來預(yù)測基頻。該方法基于高斯混合模型(Gaussian Mixture Model,GMM),并利用隱馬爾可夫模型(Hidden Markov Model,HMM)將一系列依賴于狀態(tài)的GMM連接在一起。特定說話者的HMM-GMM預(yù)測器顯示出良好的結(jié)果。然而,非特定說話者的HMM-GMM會(huì)產(chǎn)生很多錯(cuò)誤。此外,HMM-GMM預(yù)測器需要一組基于單音的HMM和一組特定狀態(tài)的GMM訓(xùn)練。訓(xùn)練的預(yù)測器被指定為某種語言,并且必須用其他語言重新訓(xùn)練。

      量化MFCC的低比特率語音編碼方案在文獻(xiàn)[4]和文獻(xiàn)[5]中被提出,從MFCC重構(gòu)了語音波形但沒有涉及音高和能量。重構(gòu)通過Moore-Penrose偽逆從MFCC恢復(fù)幅度譜,然后利用最小二乘估計(jì),逆短時(shí)傅里葉變換幅度算法重構(gòu)語音幀。此外,近年來有學(xué)者提出了一些新穎的音高檢測方法。一種名為具有幅度壓縮的音高估計(jì)濾波器(A Pitch Estimation Algorithm Robust to High Levels of Noise,PEFAC)的算法利用非線性幅度壓縮來衰減窄帶噪聲分量,并利用梳狀濾波器來衰減對(duì)數(shù)下頻率功率譜平滑變化的噪聲分量[6]。在文獻(xiàn)[4]~文獻(xiàn)[6]的新方法研究的推動(dòng)下,通過MFCC反演操作重構(gòu)語音頻譜和倒譜,并利用倒譜/頻譜估計(jì)音高。

      所提出的算法通過梅爾加權(quán)函數(shù)利用Moore-Penrose偽逆從MFCC重構(gòu)倒譜/頻譜。利用重構(gòu)的倒譜,可以直接從峰值估計(jì)音高,而由于重構(gòu)失真可能存在大的誤差。提出了一種組合非線性幅度壓縮和對(duì)數(shù)頻率功率譜域?yàn)V波器的方法,以減少誤差。利用濾波后的功率譜和音高的相關(guān)性,提出了一種基于GMM的音高估計(jì)方法,以獲得更可靠的音高。此外,還提出了一種發(fā)聲分類方法。所提出的方法的主要優(yōu)點(diǎn)是特征提取,其使用經(jīng)過重構(gòu)和濾波的幅度譜而不是原始的MFCC矢量。與以前的工作[1-3]相比,所提出的方法是一種非特定說話者/語言的預(yù)測器。

      1 頻譜重構(gòu)

      MFCC被定義為特殊倒譜,在對(duì)數(shù)運(yùn)算和離散余弦變換(Discrete Cosine Transform,DCT)之前將一組加權(quán)函數(shù)作用于功率譜。這種加權(quán)函數(shù)基于人類對(duì)音高的感知,最常見的是以梅爾克度(Mel-Scale)[4],即文獻(xiàn)[5]中的一組三角形濾波器的形式實(shí)現(xiàn)。其中第t個(gè)語音幀St(n)的梅爾倒譜M的計(jì)算公式為(省略下標(biāo)t以簡化符號(hào))

      (1)

      式中,wm為梅爾加權(quán)函數(shù);S(ω)為S(n)的離散傅里葉變換(Discrete Fourier Transform,DFT)。在式(1)中具有梅爾加權(quán)的功率譜可以以矩陣形式表示為

      (2)

      式中,y為J×1的向量(J為梅爾濾波器的數(shù)量);Wm為J×L的加權(quán)矩陣(L為幀長度)。

      在式(1)中通過應(yīng)用梅爾標(biāo)度加權(quán)會(huì)使頻譜信息丟失,而其他操作如離散余弦變換,求對(duì)數(shù)和平方根都是可逆的。為了逆梅爾加權(quán),可以采用最小歐幾里德范數(shù)的解,即

      (3)

      2 基于頻譜重構(gòu)的音高估計(jì)和聲音分類

      2.1 基于頻譜濾波器的音高估計(jì)

      文獻(xiàn)[2]的作者利用MFCC和基頻(即音高)的相關(guān)性,用GMM預(yù)測音高。同時(shí),發(fā)現(xiàn)重構(gòu)幅度譜與音高之間的相關(guān)性更高。表1給出了使用TIMIT訓(xùn)練子集計(jì)算的不同矢量(MFCC,重構(gòu)幅度譜和濾波頻譜)與音高之間的相關(guān)性。

      表1 音高與不同向量(MFCC、重構(gòu)幅度譜、濾波頻譜)之間的相關(guān)性

      表1的結(jié)果表明,重構(gòu)幅度譜和音高之間的相關(guān)性高于MFCC。與MFCC矢量相比,幅度譜包含更多關(guān)于音高頻率的信息。 因此重構(gòu)幅度譜更適合于基于GMM的音高估計(jì)和發(fā)聲分類。

      事實(shí)上,語音信號(hào)總是被各種噪聲干擾或卷積,并且幅度譜的諧波峰值將通過成幀窗口加寬。為了減少重構(gòu)失真引起的誤差,使用一種音高估計(jì)方法,結(jié)合非線性幅度壓縮來衰減窄帶噪聲分量,并采用對(duì)數(shù)頻率功率譜域?yàn)V波器來衰減平滑變化的噪聲分量[6]。該算法描述如下。

      ③ 通過式(4)壓縮功率譜密度(Power Spectral Density,PSD):

      (4)

      ④ 通過以下公式過濾壓縮PSD。

      h(q)=β-log(γ-cos(2πeq))

      (5)

      (6)

      2.2 基于GMM的音高估計(jì)

      為了更準(zhǔn)確地估計(jì)音高,利用濾波后的PSD和音高的相關(guān)性。特征向量Φ表示為

      Φ=[Ω,f]

      (7)

      通過GMM構(gòu)建特征向量Φ。從訓(xùn)練集中,使用期望最大化(Expectation Maximization,EM)算法產(chǎn)生一組K高斯聚類。Φ的概率密度函數(shù)(Probability Density Function,PDF)為

      (8)

      每個(gè)K聚類由先驗(yàn)概率πk和高斯PDFN(Φ)表示,具有平均向量μk和協(xié)方差矩陣Φk。

      (9)

      使用著名的Linde-Buzo-Gray(LBG)算法找到EM訓(xùn)練的初始聚類位置,最大EM聚類迭代為100。在實(shí)驗(yàn)部分中討論K的選擇。

      (10)

      后驗(yàn)概率hk(Ωi)為

      (11)

      2.3 清音/濁音分類

      音高估計(jì)應(yīng)該僅應(yīng)用于重構(gòu)表示有聲語音的頻譜。在文獻(xiàn)[2]中,通過擴(kuò)展HMM-GMM音高預(yù)測器來實(shí)現(xiàn),其需要一組基于單音的HMM和一組狀態(tài)特定的GMM訓(xùn)練。 訓(xùn)練好的預(yù)測器被指定為某種語言,并且必須以其他語言進(jìn)行再訓(xùn)練。

      提出了一種低復(fù)雜度的語音分類算法,該算法是通過基于GMM的模型實(shí)現(xiàn)的。該模型利用幀平均功率和濾波頻譜峰值的相關(guān)性,其包括更多潛在的發(fā)聲信息。

      從一組訓(xùn)練數(shù)據(jù)中提取特征向量Ψ:

      Ψ=[s,χ]

      (12)

      式中,s=logμpsd,χ=Σpitch/μpsd。其中,μpsd為式(4)中壓縮PSD的平均功率值,Σpitch為式(6)中3個(gè)候選音高的總和。

      對(duì)于濁音/清音分類器有兩個(gè)GMM,一個(gè)用濁音矢量Ψv組成的訓(xùn)練集進(jìn)行濁音建模,一個(gè)用清音矢量Ψμ組成的訓(xùn)練集進(jìn)行清音建模,建模方法與文獻(xiàn)[8]中描述的相同。濁音的幀的概率為

      P(v)=(1+exp(pu-pv))-1

      (13)

      式中,pu和pv分別為清音GMM和濁音GMM的后驗(yàn)概率。

      對(duì)于輸入特征向量Ψi,用GMM計(jì)算pv(ψi)和pu(ψi)的后驗(yàn)概率,然后通過式(13)計(jì)算被發(fā)聲的概率。如果P(v)>ε(ε是閾值,設(shè)置為0.5),則該幀被分類為濁音,否則被分類為清音。

      3 實(shí)驗(yàn)結(jié)果

      下面將評(píng)估音高估計(jì)和發(fā)聲分類的結(jié)果。使用TIMIT數(shù)據(jù)庫進(jìn)行培訓(xùn)和測試。每個(gè)句子的持續(xù)時(shí)間約為3 s,下采樣頻率為8 kHz。語料庫使用漢明窗框架成200個(gè)樣本(25 ms),幀移位為80個(gè)樣本(10 ms)。

      3.1 頻譜/倒譜重構(gòu)結(jié)果

      將MFCC反變換到頻譜是一項(xiàng)具有難度的任務(wù),因?yàn)槭?2)中的梅爾加權(quán)函數(shù)會(huì)造成大量信息的丟失,而式(3)只是近似解。很明顯,梅爾濾波器越多,幅度譜的信息就越少。 在本文中,梅爾濾波器的數(shù)量是23,就像DSR前端一樣[9]??紤]到反變換,所有23個(gè)MFCC都被保留,而在DSR中舍去了10個(gè)高階系數(shù)。

      圖1 MFCC對(duì)濁音語音幀的頻譜/倒譜重構(gòu)

      圖1顯示了MFCC的頻譜和倒譜的重構(gòu)結(jié)果。圖1(a)比較了原始譜和重構(gòu)譜,從中可以看出式(3)的原始和近似解之間只有微小的差別。圖1(b)展示了原始和重構(gòu)的倒譜,峰值是候選音高。

      3.2 音高估計(jì)結(jié)果

      音高估計(jì)結(jié)果如圖2所示。

      圖2展示了利用MFCC重構(gòu)頻譜/倒譜的音高估計(jì)結(jié)果。首先直接估計(jì)具有重構(gòu)倒譜峰值的音高(即ceps.線條)。然后利用非線性幅度壓縮和對(duì)數(shù)下頻率功率譜濾波器來減少誤差(即filt.線條)。

      圖2 估計(jì)結(jié)果與參考音高輪廓的對(duì)比

      所提出的基于GMM的音高估計(jì)器利用經(jīng)濾波的PSD和音高的相關(guān)性,可以得到更可靠音高估計(jì)結(jié)果(即GMM線條)。由于音高的頻率范圍是60~400 Hz,幀長度是200,所以候選音高在式(6)輸出的31~62之間。因此式(7)中Ω的尺寸為32(即GMM線條)。參考音高輪廓用ref.線條表示。在實(shí)驗(yàn)中,GMM[10]聚類的數(shù)量是32,在下面的評(píng)估中將討論參數(shù)的更多細(xì)節(jié)。

      圖2展示了直接利用重構(gòu)的倒譜峰值(即ceps.線條)估計(jì)音高可以跟蹤參考音高輪廓,但由于倒譜重構(gòu)失真所以存在一些誤差??梢酝ㄟ^在對(duì)數(shù)下對(duì)頻率進(jìn)行壓縮和過濾(即filt.線條)從而獲得更好的結(jié)果。采用GMM的MAP音高估計(jì)結(jié)果與參考值完全匹配。

      (14)

      在音高估計(jì)之前,應(yīng)使用第3.3節(jié)中描述的方法將幀分類為濁音或清音。使用百分比發(fā)聲分類誤差EC來測量準(zhǔn)確度,其中N是測試集的總幀數(shù),NV/U和NU/V是可分辨清音和濁音幀的錯(cuò)誤分類數(shù)量。

      表2 清音/濁音分類誤差EC

      表2顯示了不同GMM群集的分類誤差,清音和濁音GMM群集的數(shù)量相等。從結(jié)果可以看出隨著GMM聚類數(shù)量的增加,分類誤差減少了。但是當(dāng)數(shù)量增加到16,準(zhǔn)確性卻沒有進(jìn)一步提高,這可能是因?yàn)檫^擬合。

      對(duì)于進(jìn)一步濁音幀,使用百分比音高頻率誤差Ep來測量音高預(yù)測精度,即

      (15)

      表3 音高估計(jì)誤差Ep和E20%

      音高估計(jì)誤差與3種方法的比較如表3所示。具有重構(gòu)倒譜峰值(ceps.)的音高估計(jì)器表現(xiàn)一般。利用非線性幅度壓縮和對(duì)數(shù)下頻率功率譜濾波器(filt.),在精度上有所提高?;贕MM的估計(jì)器展現(xiàn)出高精度,并且增加聚類數(shù)可以減少估計(jì)誤差[11]。

      4 結(jié)束語

      利用梅爾頻率倒譜系數(shù)(MFCC)重構(gòu)頻譜,提出了一種新的音高估計(jì)和聲音分類的方法。所提出的算法通過梅爾加權(quán)函數(shù)來構(gòu)造來自MFCC的具有Moore-Pemose偽逆的頻譜。重構(gòu)的頻譜在對(duì)數(shù)下進(jìn)行頻率壓縮和過濾。通過高斯混合模型(GMM)對(duì)音高頻率和濾波器頻譜的聯(lián)合密度建模來實(shí)現(xiàn)音高估計(jì)?;贕MM的模型也可以實(shí)現(xiàn)發(fā)聲分類,測試結(jié)果表明,超過99%的語音幀可以被正確分類。音高估計(jì)的結(jié)果表明,所提出的基于GMM的音高估計(jì)器具有高精度,TIMIT數(shù)據(jù)庫上的相對(duì)誤差為6.62%。

      猜你喜歡
      濁音清音梅爾
      《山水清音》
      《園林清音》
      人文天下(2022年5期)2022-08-11 14:49:26
      基于梅爾頻譜分離和LSCNet的聲學(xué)場景分類方法
      女詩人梅爾詩集《十二背后》三人談
      日語半濁音的變化規(guī)律研究
      清濁音分離抗噪的語音識(shí)別算法的研究
      有關(guān)鼻濁音使用實(shí)態(tài)的研究
      ——以NHK新聞為中心
      小說月刊(2017年14期)2017-12-06 12:37:01
      盲人探險(xiǎn)家觸摸世界之巔
      黨員文摘(2014年10期)2014-10-14 23:50:35
      基于計(jì)算聽覺場景分析的改進(jìn)清音分離方法
      凱蒂佩瑞 7個(gè)月玩完約翰梅爾
      汉川市| 阿瓦提县| 凤山县| 如东县| 淄博市| 和田县| 吉水县| 滨州市| 进贤县| 惠东县| 葫芦岛市| 从化市| 昌平区| 万载县| 富平县| 宁明县| 喀喇| 黄龙县| 泰顺县| 平安县| 正镶白旗| 贵定县| 崇明县| 富源县| 万荣县| 青州市| 江油市| 保德县| 浦县| 江油市| 桐庐县| 巫山县| 辽中县| 梨树县| 石城县| 济南市| 原阳县| 彭山县| 昌邑市| 色达县| 定陶县|