• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于幅度壓縮濾波的清濁音分類及基音估計

      2016-10-13 19:00:21徐靜云趙曉群王締罡
      電子與信息學(xué)報 2016年3期
      關(guān)鍵詞:濁音基音高斯

      徐靜云①② 趙曉群*① 王 嶠① 王締罡①

      ?

      基于幅度壓縮濾波的清濁音分類及基音估計

      徐靜云①② 趙曉群*① 王 嶠① 王締罡①

      ①(同濟(jì)大學(xué)電子與信息工程學(xué)院 上海 201804)②(湖州師范學(xué)院工學(xué)院 湖州 313000)

      該文針對傳統(tǒng)算法在實環(huán)境(不同噪聲類型和信噪比)下容易發(fā)生清濁誤判和基音估計錯誤問題,提出一種基于幅度壓縮基音估計濾波(PEFAC)的清濁音分類及基音估計方法。首先,通過PEFAC削弱語音的低頻噪聲,提取出基音諧波;然后,采用基于對稱平均幅度和函數(shù)的脈沖序列加權(quán)算法(SIM)確定諧波數(shù)目;最后,利用動態(tài)規(guī)劃估計出基音,用基于3元素特征矢量的高斯混合模型對清濁音進(jìn)行分類。仿真結(jié)果表明,在實環(huán)境下,所提方法能有效抑制清濁誤判及基音估計錯誤現(xiàn)象的發(fā)生,性能優(yōu)于傳統(tǒng)方法。

      語音信號處理;基音;幅度壓縮基音估計濾波;對稱平均幅度和函數(shù);高斯混合模型;噪聲語音

      1 引言

      基音作為語音信號處理的重要特征參數(shù),是指人在發(fā)濁音時氣流通過聲門使聲帶張弛振蕩的振動頻率(或周期)。準(zhǔn)確可靠的基音估計對語音信號的合成、編碼和識別等都具有重要的意義。自20世紀(jì)60年代以來,人們從時域和頻域出發(fā)提出了多種有效的基音估計方法[1,2]。時域方法利用連續(xù)基音的波形相似性來提取基音周期,主要有自相關(guān)函數(shù)法(AutoCorrelation Function, ACF)和平均幅度差函數(shù)法(Average Magnitude Difference Function, AMDF);頻域方法則通過識別并定位諧波峰值點位置來提取基音頻率,主要有頻率直方圖法和倒譜法。

      由于通常人們得到的語音來源于實環(huán)境,在實環(huán)境下語音會受到不同噪聲類型(高斯、汽車和多人說話噪聲等)和信噪比(-20~20 dB)的噪聲污染,語音的時域周期和頻率諧波在不同程度上被扭曲了,從而常規(guī)的方法會變得不可靠甚至完全無效。在實環(huán)境下基音估計問題逐漸成為了研究的熱點,人們?yōu)榇颂岢隽舜罅康姆椒?。其中通過對語音多個聲學(xué)信號特征進(jìn)行整合來估計基音,是一個重要的研究思路。WAUTOC方法[8]利用語音幀的ACF與AMDF具有相同的周期特性,將ACF除以AMDF,使基音周期的峰值得到加強而噪聲相對被抑制,算法性能優(yōu)于單一的ACF和AMDF。文獻(xiàn)[9]通過時域提取候選值后進(jìn)行頻域加權(quán),再通過時間連續(xù)約束估計基音。HSAC-SIM方法[10]通過在DCT域進(jìn)行非線性平滑后直接選擇峰值最大點作為粗估基音諧波(粗估值),然后利用諧波正弦自相關(guān)(Harmonic Sinusoidal AutoCorrelation, HSAC)模型迭代修正得到精估基音諧波(精估值),在此基礎(chǔ)上采用基于對稱平均幅度和函數(shù)(Symmetric Average Magnitude Sum Function, SAMSF)的脈沖序列加權(quán)算法確定諧波數(shù)目,最后利用動態(tài)規(guī)劃估計基音。文獻(xiàn)[9,10]綜合利用了語音當(dāng)前幀和相鄰幀的時域、頻域或DCT域的聲學(xué)特征來提取基音,有較好的基音估計性能。尤其是HSAC-SIM方法在實環(huán)境下基音檢測性能優(yōu)異,但仍存在以下問題:(1)在低信噪比或噪聲頻率區(qū)間包含幅值最大基音諧波的情況下,粗估值與真正的基音諧波(真實值)之間會存在很大偏差;(2)對于較純凈的語音,粗估值通過迭代能收斂到真實值。但是在低信噪比或噪聲頻率區(qū)間包含幅值最大基音諧波的情況下通常無法收斂到真實值,從而造成后繼基音估計的錯誤;(3)濁音的SAMSF在基音諧波處峰值具有穩(wěn)定特性,但是對于-5 dB及以下的濁音(尤其是弱濁音)的SAMSF在基音諧波處峰值會產(chǎn)生明顯偏移,從而大大降低基音估計的準(zhǔn)確性,上述不足導(dǎo)致該方法基音估計正確率不高,限制了其在實環(huán)境下的使用。

      文獻(xiàn)[11]利用相鄰幀基音諧波相關(guān)而噪聲不相關(guān)特點,通過計算相鄰幀諧波累積和來降低噪聲對基音估計的影響。PEFAC方法[12]采用PEFAC增強語音后提取3個基音候選值,然后通過動態(tài)規(guī)劃確定基音。文獻(xiàn)[11,12]利用語音基音和噪聲固有特性,對語音進(jìn)行增強,提高了低信噪比下的基音估計性能。尤其是PEFAC方法通過歸一化能有效地去除窄帶的噪聲段(鼓掌噪聲等),針對語音特點設(shè)計的匹配濾波器使語音輸出信噪比最高,從而在有效削弱低頻噪聲的同時增強了基音諧波。但是PEFAC方法直接用經(jīng)PEFAC處理后的對數(shù)頻域幅值最大點作為概率最高的基音頻率,但最大點對應(yīng)頻率通常不是基音頻率,而是基頻的某個諧波,在此基礎(chǔ)上直接進(jìn)行動態(tài)規(guī)劃平滑,過于簡單粗糙。

      綜合文獻(xiàn)[10,12]的優(yōu)點與不足,針對實環(huán)境本文提出一種清濁音分類及基音估計(PEF-SIM)方法。首先通過引入PEFAC在對數(shù)頻域?qū)φZ音進(jìn)行增強,提取出基音諧波;然后,在得到處理后的時域波形的基礎(chǔ)上,通過SIM方法確定諧波數(shù)目;最后利用動態(tài)規(guī)劃估計出基音。實驗結(jié)果表明,在實環(huán)境下,PEF-SIM方法基音估計性能優(yōu)于HSAC- SIM和PEFAC方法,清濁音判決性能優(yōu)于PEFAC和RAPT方法。

      2 基于PEFAC的基音諧波提取

      2.1 算法描述

      對實環(huán)境下得到的帶噪語音信號去直流、歸一化和分幀處理后得到。設(shè)該噪聲語音幀由純凈語音幀及噪聲幀組成,表示為

      匹配濾波器

      (4)提取基音諧波: 在60~1250 Hz頻率范圍內(nèi),取按幅值從大到小排序,從前3個候選值中選擇頻率最大者作為基音諧波。

      2.2 實驗分析

      實驗用Keele基音檢測參考語音庫[15]。該語音庫包含10個說話人,5男5女,分別頌讀同一段英文,每條語音長度為30 s左右,所有語音為20 kHz采樣,16 bit量化,并提供以幀長為512點、幀移為200點的所有濁音幀參考基音信息。文中的測試條件是針對8 kHz采樣的輸入語音,幀長200點、幀移80點來提取基音周期。因而對Keele庫的語音文件降采樣到8 kHz,同時濁音幀參考基音周期乘上0.4來作為最終的參考值。實驗用噪聲來源于RSG-10數(shù)據(jù)庫[16],純凈語音加入噪聲的計算標(biāo)準(zhǔn)使用ITU-TP.56[17]標(biāo)準(zhǔn),PC機為聯(lián)想E450C(CPU: i5-4210U,內(nèi)存4G),軟件平臺為matlab2009a。

      圖1為基于HSAC-SIM的基音諧波提取。圖2為PEFAC的基音諧波提取,發(fā)音為/a/的任意一幀濁音幀,基音頻率為225 Hz,加入-19 dB汽車噪聲。圖2(a)為功率譜密度(單位:dB),可以看出汽車噪聲淹蓋了基音各次諧波;圖2 (b)為對數(shù)頻域功率譜密度(單位:dB);圖2(c)為歸一化后的功率譜密度(單位:dB),可以看出歸一化后低頻噪聲明顯被削弱;圖2(d)為匹配濾波后的功率譜密度(單位:dB),與圖2(b)和圖2(c)相比,噪聲基本被抑制,基音諧波峰值變得非常突出,可以準(zhǔn)確地提取出基音諧波;圖2(d)顯示的是中前3個最大峰

      圖1 基于HSAC-SIM的基音諧波提取

      由圖1,圖2可以看出:(1)在低信噪比下,HSAC-SIM方法粗估值與真實值有極大偏差,經(jīng)過修正可以一定程度上減小偏差,但無法收斂于真實值;(2)經(jīng)過PEFAC方法處理后低頻噪聲被有效抑制,基音諧波峰值非常突出,可以準(zhǔn)確地提取出基音諧波。

      為了定量比較HSAC-SIM和PEF-SIM方法的基音諧波提取性能,本文隨機選取一組400幀濁音語音信號,分別加入不同信噪比(-20 dB, -10 dB, 0 dB, 10 dB和20 dB)和噪聲類型(高斯噪聲、多人說話噪聲和汽車噪聲),合成出15組每組400幀,用2種算法分別進(jìn)行基音諧波提取,統(tǒng)計出2種方法的每組平均執(zhí)行時間和平均總基頻偏移度(Gross Pitch harmonic offset Degree, GPD)。

      GPD定義為

      圖2 基于PEFAC的基音諧波提取

      (6)

      表1 2種方法性能定量比較

      測試內(nèi)容

      PEF-SIM

      HSAC-SIM

      執(zhí)行時間(s)

      1.6

      8.5

      GPD

      3.3

      8.4(粗估)

      6.7(精估)

      3 基于SIM的諧波數(shù)目提取

      3.1 SAMSF的定義與性質(zhì)

      語音信號的SAMSF定義為

      此函數(shù)有如下性質(zhì)(為的周期):

      3.2 SAMSF性能分析

      圖3為,和語音幀的SAMSF性能比較,圖3 (a)為強濁音幀加入-5 dB, -10 dB和-20 dB高斯噪聲;(b)為強濁音幀加入-5 dB, -10 dB和-20 dB多人說話噪聲;(c)為弱濁音幀加入-5 dB, -10 dB和-20 dB高斯噪聲;(d)為弱濁音幀加入-5 dB, -10 dB和-20 dB多人說話噪聲。圖3可以看出,(1)在信噪比-5 dB下,,和在處具有明顯的峰值特性,隨著信噪比的下降,峰值特性開始惡化,其中弱濁音和多人說話噪聲惡化尤其嚴(yán)重;(2)在不同信噪比和噪聲類型下,比具有更穩(wěn)定的峰值特性,尤其是對于弱濁音和多人說話噪聲,與相比,明顯改善了峰值特性。這是因為PEFAC算法通過歸一化和匹配濾波,歸一化能有效削弱窄帶噪聲(多人說話噪聲頻譜主要集中分布于60~300 Hz),匹配濾波能實現(xiàn)信噪比最高。由于SAMSF在處峰值越穩(wěn)定,越有利于后繼諧波數(shù)目的提取。實驗結(jié)果表明,經(jīng)過PEFAC增強后語音幀的在處峰值具有更優(yōu)的穩(wěn)定性。

      3.3 提取諧波數(shù)目

      4 清濁音判決

      清濁音判決是基于語音幀的3元素特征矢量,該矢量包括3個參數(shù)[12]:

      (1)歸一化后的對數(shù)平均功率譜:

      其中

      圖3 3種語音幀的 SAMSF性能比較

      圖4 清濁音的矢量空間分布

      5

      基音輪廓應(yīng)該是連續(xù)較平滑的,由于噪聲的干擾,文中檢測到的基音仍然會產(chǎn)生一些波動,為了有效減少這些波動錯誤,本文使用動態(tài)規(guī)劃算法從基音候選值中選擇最優(yōu)值,以實現(xiàn)在幀幀間具有最優(yōu)的基音路徑。在基音提取方案中,基音周期由提取的基音諧波和時域匹配方案選出一組候選基音,然后采用文獻(xiàn)[10]動態(tài)規(guī)劃算法確定基音。

      6 實驗與分析

      6.1 清濁音判決

      建立清音和濁音共2個高斯混合模型(Gaussian Mixture Models , GMMs)分類器,每個GMM均采用了6個單高斯模型(Single Gaussian Model, SGM)分量[12,19]。通過praat軟件和keele庫參考基音標(biāo)注基礎(chǔ)上進(jìn)行人工校正,從keele庫中選出清音和濁音各400幀純凈語音,每個SGM分量的訓(xùn)練語音為純凈語音加入指定信噪比(6個SGM分量對應(yīng)6種SNR=-10 dB, 0 dB, 5 dB, 10 dB, 15 dB和20 dB)的高斯、多人說話和汽車噪聲各400幀,共1200幀。

      對每個分量的訓(xùn)練語音分別提取出3元素特征值,從而計算出每個SGM分量的均值和協(xié)方差矩陣。

      為了測試本文提出的PEF-SIM清濁音判決方法, 實驗對RAPT[20], PEFAC和PEF-SIM 3種方法進(jìn)行清濁音判決性能測試。測試結(jié)果采用漏警率(濁音誤判為清音),虛警率(清音誤判為濁音)和總錯誤率[12]指標(biāo)。表2列出了3,和。3種方法中,總錯誤率最小者的方法被加粗顯示,表中最后一行顯示的給定信噪比下,3種不同噪聲類型下的平均漏警率和平均虛警率。

      從表1可以看出,在SNR=20 dB下,3種方法總錯誤率都很小,數(shù)值也很接近。隨著信噪比的減小,3種方法性能產(chǎn)生了分化:(1)RAPT對噪聲類型敏感,在SNR=20 dB的擁有最低的,對于高斯和汽車噪聲,總的也優(yōu)于PEFAC和PEF-SIM方法,這是因為RAPT引入了有效的動態(tài)規(guī)劃算法來進(jìn)行清濁音判定,PEFAC和PEF- SIM方法則是通過閾值直接判定清濁音;隨著信噪

      表2 清濁音判決性能比較(%)

      SNR

      20 dB

      10 dB

      0 dB

      -10 dB

      -20 dB

      P

      高斯

      噪聲

      PEF-SIM

      4.38

      4.21

      5.12

      4.21

      9.52

      4.20

      24.45

      1.91

      51.24

      4.87

      PEFAC

      5.95

      4.78

      7.68

      5.50

      11.94

      4.47

      26.45

      1.84

      51.40

      4.89

      RAPT

      1.53

      5.16

      6.71

      4.81

      47.91

      0.37

      96.74

      0

      100

      0

      汽車

      噪聲

      PEF-SIM

      4.47

      4.59

      4.02

      3.25

      7.88

      4.96

      10.79

      8.48

      22.73

      8.68

      PEFAC

      5.87

      4.18

      7.10

      4.07

      8.63

      5.19

      13.12

      9.76

      23.17

      9.30

      RAPT

      1.54

      7.43

      4.14

      6.54

      22.94

      4.23

      63.01

      5.32

      95.66

      4.21

      多人說話噪聲

      PEF-SIM

      4.65

      5.80

      6.07

      12.69

      13.83

      38.16

      19.23

      55.46

      30.16

      64.18

      PEFAC

      6.91

      9.10

      11.93

      17.93

      17.24

      38.75

      23.74

      61.33

      33.53

      67.07

      RAPT

      1.43

      44.71

      2.47

      59.28

      1.75

      79.11

      1.01

      94.82

      0.12

      96.71

      平均

      PEF-SIM

      4.50

      4.87

      5.07

      6.72

      10.41

      15.77

      18.16

      21.95

      34.71

      25.91

      PEFAC

      6.24

      6.02

      8.90

      9.17

      12.60

      16.14

      21.10

      24.31

      36.03

      27.09

      RAPT

      1.50

      19.10

      4.44

      23.54

      24.20

      27.90

      53.59

      33.38

      65.26

      33.64

      比的下降,RAPT性能急劇下降,在0 dB及以下,方法已經(jīng)無效;(2)PEF-SIM和PEFAC方法對噪聲類型不太敏感,總錯誤率小于RAPT方法, 在0 dB及以下方法還有效;(3)PEF-SIM方法總錯誤率最低,尤其在信噪比下0~-20 dB下總錯誤率明顯小于PEFAC和RAPT方法。實驗結(jié)果表明,方法在實環(huán)境下的清濁音判決性能優(yōu)于RAPT和PEFAC方法。

      6.2 基音檢測

      為了驗證PEF-SIM方法的基音估計性能,實驗用RAPT, PEFAC, HSAC-SIM和PEF-SIM 4種方法進(jìn)行基音估計。檢測結(jié)果與語音庫中參考基音相對誤差大于或等于1 ms(以基音周期計算)定義為基音粗差(Gross Pitch Error, GPE),以GPE作為指標(biāo)比較各方法[1]。圖5為4種方法在實環(huán)境下的檢測結(jié)果(GPE),圖5(a)高斯噪聲;圖5(b)汽車噪聲;圖5(c)多人說話噪聲。從圖中可以看出:(1)在SNR= 20 dB時,4種算法的GPE極小,性能均很好;(2)RAPT在SNR=0 dB及以下開始無效,這是因為RAPT方法僅僅依據(jù)時域波形特征來提取基音,對于0 dB及以下波形特征不足以提取出基音;(3)對于汽車噪聲,PEF-SIM, HSAC-SIM和PEFAC方法GPE較接近,且優(yōu)于高斯和多人說話噪聲,這是因為汽車噪聲不含有背景基音且能量主要集中在0~300 Hz,越接近0 Hz能量越大,3種方法均經(jīng)過60 Hz去工頻處理,很大程度上去除了汽車噪聲干擾;對于高斯噪聲,PEF-SIM, HSAC-SIM和PEFAC方法的GPE較接近;對于多人說話噪聲,PEF-SIM明顯優(yōu)于HSAC-SIM和PEFAC方法,這是因為對于多人說話噪聲的能量主要集中在0~ 300 Hz且含有背景基音諧波,HSAC-SIM在低頻時易將背景基音誤處理為真實基音(見圖3(b3)),而PEFAC在削弱背景基音影響的同時,也一定程度上削弱了低頻的真實基音,導(dǎo)致將大量的背景基音諧波誤處理為真實基音。

      實驗結(jié)果表明,總體上,PEF-SIM在不同的噪聲和噪聲類型下,性能優(yōu)于RAPT, HSAC-SIM和PEFAC方法。這與前面的理論分析是一致的,即PEF-SIM能有效削弱噪聲,使基音諧波提取更為準(zhǔn)確,同時能改善SAMSF在處峰值的穩(wěn)定性。

      6.3 算法復(fù)雜度

      實驗中選取180 s語音信號分別用4種算法進(jìn)行基音估計,統(tǒng)計每秒長度語音的執(zhí)行時間見表3。由表3可以看出,PEF-SIM, PEFAC 和RAPT的方法處理時間均小于0.5 s, HSAC-SIM高達(dá)1 s。PEF-SIM執(zhí)行時間(算法復(fù)雜度)是HSAC-SIM的0.22(0.23/1.03),這是因為HSAC-SIM方法提取基音諧波時需要反復(fù)迭代,計算復(fù)雜度高。

      表3 4種算法執(zhí)行時間(s)

      算法

      PEF-SIM

      PEFAC

      RAPT

      HSAC-SIM

      時間(s)

      0.23

      0.20

      0.46

      1.03

      7 結(jié)論

      本文提出基于PEF-SIM的清濁音分類和基音估計方法。實驗結(jié)果表明:(1)PEF-SIM方法在低信噪比下,提取的基音諧波與真實值偏差小于HSAC-SIM方法,算法復(fù)雜度也是HSAC-SIM方法的0.19;通過PEFAC的增強可以有效提高SAMSF的峰值穩(wěn)定性,有利于諧波數(shù)目的提取。(2)在實環(huán)境下,從對數(shù)頻率和時域中提取3個特征值,基于該3個特征矢量的高斯混合模型分類器能有效地區(qū)分清濁音,總錯誤率小于PEFAC和RAPT方法;PEF-SIM方法的GPE小于RAPT, PEFAC和HSAC-SIM方法,PEF-SIM方法對多人說話噪聲改善尤為明顯,算法復(fù)雜度與PEFAC和RAPT相近,是HSAC-SIM方法的0.22。

      圖5 4種方法在不同信噪比和噪聲類型下的GPE(%)

      [1] RABINER L, CHENG M, ROSENBERG A E,. A comparative performance study of several pitch detection algorithms[J].,, 1976, 24(5): 399-418.

      [2] VEPREK P and SCORDILIS M S. Analysis, enhancement and evaluation of five pitch determination techniques[J]., 2002, 37(3): 249-270.

      [3] HAN Kun and Wang DeliangNeural network based pitch tracking in very noisy speech[J]./,,, 2014, 22(12): 2158-2168.

      [4] MOLINA E, TARDON L J, BARBANCHO A M,. SiPTH: Singing transcription based on hysteresis defined on the pitch-time curve[J]./,,, 2015, 23(2): 252-263.

      [5] DUAN Zhiyao, HAN Jinyu, and PARDO B. Multi-pitch streaming of harmonic sound mixtures[J]./,,, 2014, 22(1): 138-150.

      [6] CHEN Yujui, WEI Chengwen, CHIANG Yifan,. Neuromorphic pitch based noise reduction for monosyllable hearing aid system application[J].,2014, 61(2): 463-475.

      [7] 王玥, 錢志鴻, 張營. 基于擴(kuò)展譜相減的RCAF基音周期檢測算法[J]. 電子與信息學(xué)報, 2009, 31(5): 1161-1165.

      WANG Yue, QIAN Zhihong, and ZHANG Ying. RCAF pitch detection algorithm based on expanded spectral subtraction [J].&, 2009, 31(5): 1161-1165.

      [8] SHIMAMURA T and KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech[J]., 2001, 9(7): 727-730.

      [9] 徐敬德, 常亮, 崔慧娟, 等. 基于頻域和時域結(jié)合的基音周期提取算法[J]. 清華大學(xué)學(xué)報, 2012, 52(3): 413-415.

      XU Jingde, CHANG Liang, CUI Huijuan,. A pitch period detection algorithm using time and frequency analyses[J]., 2012, 52(3): 413-415.

      [10] SHAHNAZ C, ZHU W P, and AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme[J].,,, 2012, 20(1): 322-335.

      [11] HUANG F and LEE T. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique[J].,,, 2013, 21(1): 99-109.

      [12] GONZALEZ S and BROOKES M. PEFACA pitch estimation algorithm robust to high levels of noise[J]., 2014, 22(2): 518-530.

      [13] BYRNE D, DILLON H, TRAN K,. An international comparison of long term average speech spectra[J]., 1994, 96(4): 2108-2120.

      [14] BROOKES M. VOICEBOX: A speech processing toolbox for MATLAB[OL]. http://www.ee.ic.ac.uk/hp/staff/dmb/ voicebox/voicebox.html. 2015.1.

      [15] PLANTE F, MEYER G F, and AINSWORTH W A. A pitch extraction reference database[C]. 4th European Conference on Speech Communication and Technology, Madrid, 1995: 837-840.

      [16] STEENEKEN H J and GEURTSEN F W. Description of the RSG-10 noise database[R]. Report IZF 1988-3 TNO, Soesterberg: Institute for Perception, 1988.

      [17] International Telecommunication Union-TP.56. Objective measurement of active speech level[S]. Geneva, 1993.

      [18] 張文耀, 許剛, 王裕國. 循環(huán)AMDF及其語音基音周期估計算法[J]. 電子學(xué)報, 2003, 31(6): 886-890.

      ZHANG Wenyao, XU Gang, and WANG Yuguo. Circular AMDF and pitch estimation based on it[J]., 2003, 31(6): 886-890.

      [19] 韓明, 劉教民, 孟軍英, 等. 一種自適應(yīng)調(diào)整的混合高斯背景建模和目標(biāo)檢測算法[J]. 電子與信息學(xué)報, 2014, 36(8): 2023-2027. doi: 10.3724/SP.J.1146.2013.01438.

      HAN Ming, LIU Jiaomin, MENG Junying,. A modeling and target detection algorithm based on adaptive adjustmentfor mixture Gaussian background[J].&, 2014, 36(8): 2023-2027. doi: 10.3724/SP.J.1146.2013.01438.

      [20] TALKIN D. Speech Coding and Synthesis[M]. Elsevier Science, 1995, Chapter.14: 495-518.

      徐靜云: 男,1980年生,博士生,研究方向為語音信號處理與語音編碼.

      趙曉群: 男,1962年生,博士生導(dǎo)師,研究方向為通信與信息理論.

      王 嶠: 女,1990年生,碩士生,研究方向為語音編碼.

      王締罡: 男,1988年生,博士生,研究方向為通用壓縮文件的容錯譯碼.

      Foundation Items: The National Natural Science Foundation of China (61271248),Huzhou City (2015YZ04)


      Voiced Unvoiced Classification and Pitch Estimation Based on Amplitude Compression Filter

      XU Jingyun①②ZHAO Xiaoqun①WANG Qiao①WANG Digang①

      ①(School of Electronics and Information, Tongji University, Shanghai 201804, China)②(School of Engineering, Huzhou University, Huzhou 313000, China)

      A method of voiced/unvoiced classification and pitch estimation based on Pitch Estimation Filter with Amplitude Compression (PEFAC) is proposed in this paper. The method first attenuates strong noise components at the low frequencies based on PEFAC and extracts pitch harmonic from noisy speech in the log-frequency domain. Then, the harmonic number associated with the pitch harmonic is determined by Symmetric average magnitude sum function weighted Impulse-train Matching (SIM) scheme in time domain. A pitch tracking scheme using dynamic programming is applied to select the pitch candidates and a voiced speech probability is computed from the likelihood ratio of Gaussian Mixture Models (GMMs) classifiers based on 3-element feature vector. The simulated results show that the proposed method efficiently reduces voiced/unvoiced and pitch estimation error, and it is superior to some of the state-of-the–art method in the real environment.

      Pitch Estimation Filter with Amplitude Compression (PEFAC); Symmetric average magnitude sum function; Gaussian Mixture Model (GMM); Noise speech

      TN912.3

      A

      1009-5896(2016)03-0586-08

      10.11999/JEIT150778

      2015-06-29;改回日期:2015-12-02;網(wǎng)絡(luò)出版:2016-02-03

      趙曉群 zhao_xiaoqun@#edu.cn

      國家自然科學(xué)基金(61271248),湖州市自然科學(xué)基金(2015YZ04)

      猜你喜歡
      濁音基音高斯
      小高斯的大發(fā)現(xiàn)
      天才數(shù)學(xué)家——高斯
      基于基音跟蹤的語音增強研究
      日語半濁音的變化規(guī)律研究
      青年與社會(2019年4期)2019-03-29 12:03:32
      清濁音分離抗噪的語音識別算法的研究
      有關(guān)鼻濁音使用實態(tài)的研究
      ——以NHK新聞為中心
      小說月刊(2017年14期)2017-12-06 12:37:01
      有限域上高斯正規(guī)基的一個注記
      樂理小知識
      小演奏家(2014年11期)2014-12-17 01:18:52
      一種改進(jìn)的基音周期提取算法
      日語與永州方言濁音相似點小議①
      罗平县| 南平市| 大竹县| 西乌珠穆沁旗| 昌平区| 浦北县| 玉屏| 鄂尔多斯市| 梁平县| 东光县| 舒兰市| 德江县| 白城市| 合阳县| 武陟县| 彭州市| 宜黄县| 武义县| 东辽县| 赫章县| 阳曲县| 嵊泗县| 吉安市| 永平县| 喀喇| 嘉祥县| 荥阳市| 陵川县| 绵阳市| 容城县| 清新县| 平谷区| 新和县| 高碑店市| 原平市| 钦州市| 鄂伦春自治旗| 大英县| 北辰区| 林周县| 正安县|