• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于噪聲估計(jì)的改進(jìn)能量熵語音端點(diǎn)檢測(cè)算法*

      2021-08-30 01:45:10蔣學(xué)仕
      電訊技術(shù) 2021年8期
      關(guān)鍵詞:子帶端點(diǎn)門限

      蔣學(xué)仕

      (中國(guó)西南電子技術(shù)研究所,成都 610036)

      0 引 言

      語音端點(diǎn)檢測(cè)是用來區(qū)分語音與非語音的一種技術(shù),在語音通信、語音識(shí)別、語音編碼等方面都有重要作用。準(zhǔn)確的語音端點(diǎn)檢測(cè)技術(shù)既可以提高語音通信系統(tǒng)的傳輸效率,避免傳輸非語音數(shù)據(jù)造成的帶寬與功率的浪費(fèi),也可以在語音識(shí)別、語音編碼中提高算法對(duì)語音特征的提取效率。

      現(xiàn)有的語音端點(diǎn)檢測(cè)算法主要分為基于特征參數(shù)的檢測(cè)算法、基于統(tǒng)計(jì)模型的檢測(cè)算法、基于神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法?;谔卣鲄?shù)的端點(diǎn)檢測(cè)算法由于不用建立模型,不需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,具有運(yùn)算量與復(fù)雜度較低等優(yōu)勢(shì),應(yīng)用范圍更為廣泛。常用的基于特征參數(shù)的語音端點(diǎn)檢測(cè)算法[1-2],隨著信噪比的降低,提取的語音特征參數(shù)準(zhǔn)確度逐漸惡化,檢測(cè)性能下降。譜熵[3-4]由于對(duì)語音幅值不敏感,只與語音信號(hào)與噪聲信號(hào)在頻帶上的分布差異與能量占比有關(guān),作為特征參數(shù),對(duì)噪聲具有一定魯棒性。但在低信噪比下,由于噪聲對(duì)譜線的損傷,譜熵的準(zhǔn)確度開始下降。文獻(xiàn)[5]提出在譜熵計(jì)算時(shí)引入正常量 K 到能量概率分布公式中,得到改進(jìn)的子帶能量概率分布密度公式,提升譜熵的性能;文獻(xiàn)[6]采用加權(quán)系數(shù)與丟棄損傷子帶的方式來進(jìn)一步改善譜熵的魯棒性。但以上方法比較粗略,低信噪比下性能提升有限。文獻(xiàn)[7]通過結(jié)合語音短時(shí)能量的凸性與子帶譜熵的凹性,構(gòu)造出了魯棒性更好的能量熵。在能量熵算法的基礎(chǔ)上,文獻(xiàn)[8]對(duì)短時(shí)能量求解對(duì)數(shù),平衡不同幅度信號(hào)下短時(shí)能量差異過大的問題。文獻(xiàn)[9]采用中值濾波來緩解能熵比曲線不平滑的情況。文獻(xiàn)[10]則將改進(jìn)子帶能量概率公式、對(duì)數(shù)能量特征值、中值濾波進(jìn)行了結(jié)合,提出了改進(jìn)的子帶能熵比。

      綜上所述,現(xiàn)有基于能量熵的端點(diǎn)檢測(cè)改進(jìn)工作并未對(duì)噪聲這一導(dǎo)致短時(shí)能量、子帶譜熵性能下降的直接原因給予準(zhǔn)確的分析與處理,所以現(xiàn)有改進(jìn)措施對(duì)噪聲的適應(yīng)性較差,低信噪比下端點(diǎn)檢測(cè)性能提升有限。另外,在端點(diǎn)檢測(cè)算法中,判決門限的抗噪性能也至關(guān)重要,但現(xiàn)有文獻(xiàn)對(duì)判決門限的研究往往不夠充分。

      針對(duì)上述問題,本文提出利用噪聲估計(jì)值來剔除短時(shí)能量中的噪聲,提升短時(shí)能量的凸性;計(jì)算語音存在概率作為加權(quán)系數(shù)引入能量概率分布公式,提升語音段子帶譜熵的凹性,然后將凸、凹性得到增強(qiáng)的短時(shí)能量與子帶譜熵結(jié)合,構(gòu)造出魯棒性更好的改進(jìn)能量熵;得益于對(duì)噪聲的準(zhǔn)確估計(jì),本文進(jìn)一步構(gòu)造出具備較好抗噪性能的動(dòng)態(tài)門限,并給出基于改進(jìn)能量熵與動(dòng)態(tài)判決門限的實(shí)時(shí)端點(diǎn)檢測(cè)策略。本文利用噪聲估計(jì)值與語音存在概率對(duì)短時(shí)能量、子帶譜熵、判決門限都進(jìn)行了優(yōu)化,增強(qiáng)了特征值與判決門限在低信噪比下的抗噪聲性能,而且運(yùn)算復(fù)雜度低,適合實(shí)時(shí)處理。

      1 傳統(tǒng)能量熵端點(diǎn)檢測(cè)算法

      傳統(tǒng)能量熵算法[7]的基本思路是計(jì)算短時(shí)能量與子帶譜熵兩個(gè)特征值,然后再將兩者結(jié)合,構(gòu)造出能量熵。

      1.1 短時(shí)能量

      語音屬于時(shí)變信號(hào),但在幾十毫秒的短時(shí)范圍內(nèi)可以按穩(wěn)態(tài)處理,考慮到幀間語音特征參數(shù)的平穩(wěn)性,還需要在幀間重疊一部分?jǐn)?shù)據(jù)。對(duì)語音信號(hào)S(n)按N個(gè)點(diǎn)分幀,幀間重疊50%。分幀后的信號(hào)為S(n,l),l代表幀數(shù),n(1≤n≤N)代表幀內(nèi)的點(diǎn)。對(duì)S(n,l)加漢寧窗h(n)做預(yù)加重處理,求其短時(shí)傅里葉變換,得第l幀的頻譜函數(shù)為

      (1)

      在頻域求得短時(shí)能量為

      (2)

      考慮到實(shí)數(shù)信號(hào)頻譜的對(duì)稱性,為了減少運(yùn)算量,這里只取一半的點(diǎn)。短時(shí)能量計(jì)算簡(jiǎn)單,高信噪比下,靠語音段與非語音段的能量差異,通過設(shè)置固定門限,能夠?qū)崿F(xiàn)語音端點(diǎn)檢測(cè)。

      1.2 子帶譜熵

      對(duì)語音信號(hào)S(n)一樣的分幀加窗快速傅里葉變換(Fast Fourier Transformation,FFT)處理,得到第l幀的頻譜函數(shù)Y(k,l),將4個(gè)譜線組成一個(gè)子帶,一幀分成Nb個(gè)子帶,計(jì)算得到得子帶能量為

      (3)

      子帶能量概率為

      (4)

      子帶譜熵為

      (5)

      因?yàn)檎Z音的頻譜呈帶狀特性,功率譜分布集中,子帶譜熵較小,而非語音的功率譜在各頻段的分布相對(duì)分散,子帶譜熵較大,因此可以通過計(jì)算子帶譜熵來對(duì)語音段與非語音段進(jìn)行區(qū)分。

      2 改進(jìn)能量熵算法

      2.1 噪聲對(duì)短時(shí)能量與子帶譜熵的影響

      隨著噪聲的增大,計(jì)算的短時(shí)能量會(huì)隨著噪聲能量的變化而變化,語音段與非語音段能量上的差異變小,導(dǎo)致短時(shí)能量性能下降。另外,隨著噪聲增大,語音段頻帶內(nèi)總能量也隨著增大,公式(4)計(jì)算的語音能量概率值下降,導(dǎo)致譜熵性能下降。

      2.2 噪聲估計(jì)修正的短時(shí)能量

      2.2.1 噪聲能量初估計(jì)

      采用基于最小時(shí)間遞歸平均算法進(jìn)行噪聲譜估計(jì),首先對(duì)短時(shí)傅里葉變換的幅度的平方分別進(jìn)行時(shí)頻域平滑,得到帶噪語音的短時(shí)局部能量譜值。

      用漢寧窗進(jìn)行相鄰頻點(diǎn)間的平均:

      (6)

      式中:b(i)為局部窗函數(shù),用于在相鄰頻點(diǎn)間求平均,窗長(zhǎng)最小取3;|Y(k-i,l)|為第l幀的第k-i個(gè)頻點(diǎn)的幅度譜。然后用平滑因子在時(shí)域進(jìn)行一階平滑:

      S(k,l)=asS(k,l-1)+(1-as)Sf(k,l)。

      (7)

      式中:S(k,l)為第l幀第k頻點(diǎn)的短時(shí)局部能量譜;as為譜平滑因子,取值應(yīng)接近于1,當(dāng)出現(xiàn)局部突變點(diǎn)時(shí),S(k,l)取值依靠權(quán)重較大的前一時(shí)刻S(k,l-1),緩解短時(shí)局部能量譜的突變。搜索窗長(zhǎng)為L(zhǎng)的窗內(nèi)局部能量譜最小值作為純?cè)肼暷芰砍醪焦烙?jì)值。為了覆蓋一個(gè)完整音節(jié),L的長(zhǎng)度一般為500~1 500 ms。該搜索窗為滑動(dòng)搜索窗,滑窗間隔為n(n

      Smin(k,l′)=min{S(k,l′)|l-L+1≤l′≤l}。

      (8)

      2.2.2 根據(jù)門限判決更新噪聲能量

      求能量譜值與局部最小值的比值:

      Sr(k,l)=S(k,l)/Smin(k,l′)。

      (9)

      將比值與設(shè)定的門限δ進(jìn)行比較。δ作為能量比值的門限,對(duì)噪聲類型和環(huán)境不敏感,只與設(shè)定的信噪比有關(guān)。如果Sr(k,l)小于門限δ,則認(rèn)為此時(shí)頻帶上不包含語音能量,可以更新噪聲,得到一個(gè)控制因子:

      (10)

      繼續(xù)利用時(shí)域平滑因子αp、αd與控制因子I(k,l)進(jìn)行平滑,首先得到

      p(k,l)=αpp(k,l-1)+(1-αp)I(k,l)。

      (11)

      然后再進(jìn)一步平滑得到噪聲估計(jì)的更新因子

      (12)

      (13)

      式中:Y(k,l-1)為公式(1)計(jì)算的頻譜函數(shù)。

      2.2.3 修正短時(shí)能量

      利用噪聲能量估計(jì)值修正短時(shí)能量,將帶噪語音中的噪聲能量剔除,得到噪聲估計(jì)修正的短時(shí)能量:

      (14)

      對(duì)一段信噪比0 dB的帶噪語音分別計(jì)算傳統(tǒng)短時(shí)能量與噪聲估計(jì)修正的短時(shí)能量,如圖1所示,傳統(tǒng)短時(shí)能量值隨著噪聲的增大而抬高,固定檢測(cè)門限失效,檢測(cè)門限設(shè)置變得困難。噪聲估計(jì)修正的短時(shí)能量由于已將估計(jì)的噪聲能量剔除,受噪聲的影響小,固定檢測(cè)門限仍然適用,低信噪比下魯棒性更好。

      圖1 噪聲估計(jì)修正的短時(shí)能量

      2.3 語音存在概率加權(quán)的子帶譜熵

      2.3.1 求解先驗(yàn)信噪比

      采用基于先驗(yàn)信噪比時(shí)頻域分布特性的局部語音存在概率與全局語音存在概率兩個(gè)參數(shù)來計(jì)算語音存在概率。首先基于噪聲估計(jì)值,先求得后驗(yàn)信噪比

      (15)

      式中:λd(k,l)是噪聲估計(jì)值,|Y(k,l)|是帶噪語音幅度譜。再用α對(duì)其進(jìn)行平滑,為了緩解短時(shí)局部突變,α取值應(yīng)接近于1,得到先驗(yàn)信噪比

      ξ(k,l)=αξ(k,l-1)+(1-α)max(γ(k,l)-1,0)。

      (16)

      2.3.2 求解語音存在概率

      利用β對(duì)先驗(yàn)信噪比做平滑,得到先驗(yàn)信噪比的遞歸平均值ψ(k,l):

      ψ(k,l)=βψ(k,l-1)+(1-β)ξ(k,l)。

      (17)

      再利用先驗(yàn)信噪比的遞歸平均值ψ(k,l),并結(jié)合頻域局部窗和全局窗來計(jì)算局部以及全局遞歸先驗(yàn)信噪比

      (18)

      式中:hη(i)為漢寧窗,窗長(zhǎng)η可以取不同值,窗長(zhǎng)小代表局部,窗長(zhǎng)大代表全局。求得對(duì)應(yīng)ψη(k,l)后,根據(jù)以下不等式,得到全局與局部語音存在概率:

      (19)

      式中:ψmin和ψmax是經(jīng)驗(yàn)值,其作用是作為門限,盡可能地在保留弱語音成分的同時(shí)削弱噪聲,其值分別為0.1(-10 dB)和0.8(-1 dB)。

      聯(lián)立局部與全局語音存在概率,得到最終的語音存在概率:

      prob(k,l)=plocal(k,l)pglobal(k,l),prob(k,l)∈[0,1],

      (20)

      即只有當(dāng)局部語音與全局語音都同時(shí)存在時(shí)語音才存在。

      圖2的(a)、(b)、(c)分別是一段信噪比5 dB的帶噪語音時(shí)域圖、語譜圖、計(jì)算的語音存在概率分布圖??梢钥吹綀D(b)語譜圖中呈現(xiàn)帶狀特性的就是語音的頻帶,其對(duì)應(yīng)的時(shí)間與頻帶映射到圖(c)語音存在概率分布圖上,語音概率基本都接近1,而非語音部分對(duì)應(yīng)到圖(c)語音存在概率分布圖上,語音概率基本都接近0。計(jì)算的語音存在概率能夠比較精準(zhǔn)地反映語音在時(shí)域與頻域的真實(shí)分布情況。

      圖2 語音存在概率分布

      2.3.3 語音存在概率加權(quán)的子帶譜熵

      語音存在概率是對(duì)每幀每個(gè)頻點(diǎn)上語音概率大小的估算,將語音存在概率作為加權(quán)系數(shù)與計(jì)算的幅度譜平方相乘,既保留了頻帶中語音頻點(diǎn)的能量,又削弱了噪聲頻點(diǎn)的能量,減輕了噪聲對(duì)語音段能量概率分布的影響,提升了譜熵的抗噪性能。

      將語音存在概率作為加權(quán)系數(shù)與幅度譜的平方相乘,得到語音存在概率加權(quán)的幅度譜平方

      Yenergy_p(k,l)=prob(k,l)|Y(k,l)|2,1≤k≤N/2。

      (21)

      因?yàn)樽訋芰考饶芙档驮肼晫?duì)單一譜線的損傷,也能降低單一譜線語音存在概率出現(xiàn)偏差的影響,所以對(duì)加權(quán)后的幅度譜平方求子帶能量:

      (22)

      語音存在概率加權(quán)的子帶能量概率:

      (23)

      語音存在概率加權(quán)的子帶譜熵:

      (24)

      如圖3所示,對(duì)一段信噪比0 dB的語音分別計(jì)算傳統(tǒng)子帶譜熵與語音存在概率加權(quán)的子帶譜熵。語音存在概率加權(quán)的子帶譜熵在非語音段的大小與傳統(tǒng)子帶譜熵基本保持一致,而在所有的語音段,加權(quán)的子帶譜熵計(jì)算的譜熵值更小,凸性更好,即加權(quán)的子帶譜熵在低信噪比下語音與非語音的區(qū)分度更高,準(zhǔn)確度更好。

      圖3 優(yōu)化的子帶譜熵

      2.4 改進(jìn)的能量熵

      由圖1可知,經(jīng)過噪聲估計(jì)修正后的短時(shí)能量在非語音段比較平,在語音段向上凸起;又由圖3可知語音存在概率加權(quán)的子帶譜熵在非語音段比較平,而在語音段向下凹陷,將兩者聯(lián)立計(jì)算,可以進(jìn)一步放大語音段與非語音段的差異,增加語音段與非語音段的區(qū)分度,使得端點(diǎn)檢測(cè)更容易。

      聯(lián)立修正后的短時(shí)能量與語音存在概率加權(quán)的子帶譜熵得到改進(jìn)能量熵

      (25)

      式中:Ei(l)為噪聲估計(jì)修正的短時(shí)能量,Hb_p(l)為語音存在概率加權(quán)的子帶譜熵。

      2.5 自適應(yīng)動(dòng)態(tài)門限

      相比現(xiàn)有能量熵算法在一次語音端點(diǎn)檢測(cè)中只能利用前導(dǎo)無話段或者噪聲幀進(jìn)行噪聲能量估計(jì),進(jìn)而計(jì)算門限,本文算法首先對(duì)前導(dǎo)無話段功率求平均,作為噪聲初始值,然后在語音段與非語音段一直按照本文所提方法繼續(xù)進(jìn)行噪聲估計(jì),保持對(duì)噪聲的跟蹤,適應(yīng)噪聲的非平穩(wěn)變化,進(jìn)而保證計(jì)算的動(dòng)態(tài)門限的適應(yīng)性。

      聯(lián)立噪聲能量估計(jì)值與語音存在概率加權(quán)的子帶譜熵得到自適應(yīng)噪聲變化的動(dòng)態(tài)門限

      (26)

      在非語音段,Ei(l)=λ(l)-λd(l),λ(l)代表實(shí)際的噪聲能量值,顯然此時(shí)噪聲估計(jì)值λd(l)應(yīng)該大于修正后的短時(shí)能量值Ei(l),所以Ts(l)>Ei(l);在語音段,Ei(l)=S(l)+λ(l)-λd(l),S(l)代表實(shí)際的語音能量值,此時(shí)除非語音處于極低的負(fù)信噪比下,否則噪聲估計(jì)值λd(l)應(yīng)該小于修正后的短時(shí)能量值Ei(l),所以Ts(l)

      3 實(shí)時(shí)的端點(diǎn)檢測(cè)策略與算法復(fù)雜度分析

      3.1 實(shí)時(shí)的端點(diǎn)檢測(cè)策略

      本文的端點(diǎn)檢測(cè)策略,能夠按幀對(duì)語音進(jìn)行實(shí)時(shí)的處理,即根據(jù)每幀的計(jì)算結(jié)果更新參數(shù),更新門限,并對(duì)當(dāng)前輸入幀是否為語音給出實(shí)時(shí)的判決。算法實(shí)現(xiàn)流程圖如圖4所示。

      圖4 算法流程圖

      流程具體實(shí)現(xiàn)過程如下:

      Step1 對(duì)輸入信號(hào)進(jìn)行分幀加窗,以及短時(shí)傅里葉變換得到頻譜信號(hào)。

      Step2 對(duì)每一幀頻譜信號(hào)進(jìn)行噪聲估計(jì)。

      Step3 根據(jù)噪聲估計(jì)值計(jì)算語音存在概率。

      Step4 根據(jù)噪聲估計(jì)值與頻譜信號(hào)計(jì)算噪聲估計(jì)修正的短時(shí)能量。

      Step5 根據(jù)語音存在概率與頻譜信號(hào)計(jì)算語音存在概率加權(quán)的子帶譜熵。

      Step6 求得改進(jìn)能量熵,求得自適應(yīng)動(dòng)態(tài)門限。

      Step7 將改進(jìn)能量熵與動(dòng)態(tài)門限逐幀進(jìn)行比較,為了防止突發(fā)的非平穩(wěn)噪聲造成的干擾,連續(xù)3幀改進(jìn)能量熵大于門限時(shí)判定這些幀為語音幀,這3幀中的第1幀判定為語音的起點(diǎn)否則為噪聲幀。同時(shí)為了避免語音間隙不必要的頻繁切換,在檢測(cè)到語音后如果連續(xù)3幀改進(jìn)能量熵比小于門限值則判定為非語音幀,否則仍然認(rèn)為是語音幀。

      3.2 算法復(fù)雜度分析

      能量熵算法的運(yùn)算量主要集中在對(duì)語音數(shù)據(jù)分幀加窗后的FFT變換、譜能量求和與能量概率之間的運(yùn)算。本文的改進(jìn)能量熵算法雖然增加了噪聲估計(jì)與語音存在概率計(jì)算,但以上運(yùn)算可以與譜熵運(yùn)算共用FFT變換,相比傳統(tǒng)能量熵算法,改進(jìn)能量熵算法額外增加的運(yùn)算量并不大。

      在TI的定點(diǎn)DSP芯片TMS320C64xx上分別實(shí)現(xiàn)文獻(xiàn)[7]傳統(tǒng)能量熵算法,文獻(xiàn)[10]改進(jìn)子帶能熵比與本文的改進(jìn)能量熵算法,運(yùn)算量與存儲(chǔ)量見統(tǒng)計(jì)表1。文獻(xiàn)[7]的傳統(tǒng)能量熵算法需要的運(yùn)算量與存儲(chǔ)量最小;文獻(xiàn)[10]的改進(jìn)子帶能熵比算法需要把短時(shí)能量特征值轉(zhuǎn)換為對(duì)數(shù),而且增加了中值濾波,運(yùn)算量與存儲(chǔ)量居中;本文改進(jìn)能量熵算法雖然在運(yùn)算量與存儲(chǔ)量上都有所增加,但相對(duì)嵌入式處理器幾百兆的時(shí)鐘頻率與幾十兆的片內(nèi)RAM來說,算法復(fù)雜度基本屬于同一個(gè)量級(jí)。

      表1 算法運(yùn)算量與存儲(chǔ)量

      4 性能仿真與分析

      仿真使用TIMIT語音庫(kù)中100條連續(xù)語音作為純凈語音樣本,采樣頻率8 kHz。加噪數(shù)據(jù)使用Noisex-92標(biāo)準(zhǔn)噪聲庫(kù),分別添加白噪聲、汽車噪聲、人嘈雜噪聲至純凈語音樣本中,形成5 dB、0 dB的含噪語信號(hào)各300條。

      4.1 特征值區(qū)分度比較

      計(jì)算傳統(tǒng)能量熵[7]、改進(jìn)子帶能熵比[10]與本文的改進(jìn)能量熵,歸一化處理后比較以上特征值對(duì)語音與非語音的區(qū)分度。如圖5所示,在信噪比5 dB、0 dB的平穩(wěn)白噪聲環(huán)境下,傳統(tǒng)能量熵[7]對(duì)語音與非語音有一定的區(qū)分度,但是隨著信噪比的降低,部分語音的特征值變得愈發(fā)不明顯;改進(jìn)子帶能熵比[10]在計(jì)算短時(shí)能量時(shí)采用了對(duì)數(shù)能量特征值,緩解了能量差異的影響,所以各語音段的子帶能熵值差異更小,中值濾波處理也使得子帶能熵值的曲線更平滑,但除此之外改進(jìn)子帶能熵比的區(qū)分度并沒有得到特別大的改善;本文算法按照2.2節(jié)和2.3節(jié)對(duì)短時(shí)能量值與子帶譜熵中的噪聲進(jìn)行了優(yōu)化處理,由此構(gòu)造的改進(jìn)能量熵受噪聲影響更小,在非語音段更低更平穩(wěn),在語音段更高更突出,語音與非語音的區(qū)分度更好。

      圖5 白噪聲下特征值區(qū)分度對(duì)比

      如圖6和圖7所示,在信噪比5 dB、0 dB的汽車噪聲和人嘈雜噪聲等非平穩(wěn)噪聲環(huán)境下,改進(jìn)子帶能熵比相比傳統(tǒng)能量熵,區(qū)分度優(yōu)勢(shì)并不明顯,受噪聲影響,兩者都出現(xiàn)非語音段計(jì)算的特征值超過語音段的值,以及部分語音段的特征值不明顯等嚴(yán)重影響端點(diǎn)檢測(cè)準(zhǔn)確性的情況,而本算法計(jì)算的特征值在非語音段依然比較平穩(wěn),語音段也未受明顯影響,語音與非語音的區(qū)分度更好,算法性能受噪聲影響更小。

      圖6 汽車噪聲下特征值區(qū)分度對(duì)比

      圖7 人嘈雜噪聲下特征值區(qū)分度對(duì)比

      4.2 動(dòng)態(tài)門限魯棒性

      圖8所示是一段帶噪語音分別在5 dB、0 dB時(shí)歸一化后的改進(jìn)能量熵與動(dòng)態(tài)門限值,可以看到動(dòng)態(tài)門限值能跟隨噪聲水平的變化而變化,具備與能量熵一樣的魯棒性。

      圖8 動(dòng)態(tài)門限

      4.3 檢測(cè)準(zhǔn)確度對(duì)比

      對(duì)添加白噪聲、汽車噪聲、人嘈雜噪聲信噪比5 dB、0 dB的含噪語音樣本各300條進(jìn)行端點(diǎn)檢測(cè),得到語音端點(diǎn)檢測(cè)的準(zhǔn)確率如表2所列,端點(diǎn)檢測(cè)正確率定義如下:

      表2 端點(diǎn)檢測(cè)準(zhǔn)確度

      正確率=(總幀數(shù)-(語音誤判為噪聲的幀數(shù)+噪聲誤判為語音的幀數(shù))) / 總幀數(shù)。

      由表2可見,在白噪聲環(huán)境下,相比傳統(tǒng)能量熵算法[7]、改進(jìn)子帶能熵比算法[10],本文的改進(jìn)能量熵算法檢測(cè)的平均正確率提升4.75%,在汽車噪聲與人嘈雜噪聲環(huán)境下端點(diǎn)檢測(cè)的平均準(zhǔn)確率分別提升8.1%和9.1%。

      5 結(jié)束語

      針對(duì)傳統(tǒng)能量熵的短時(shí)能量與子帶譜熵低信噪比下性能下降的問題,本文利用噪聲估計(jì)修正短時(shí)能量,提升短時(shí)能量的凸性,利用語音存在概率優(yōu)化子帶譜熵,提升子帶譜熵的凹性,并將凸、凹性得到增強(qiáng)的短時(shí)能量與子帶譜熵結(jié)合得到魯棒性更強(qiáng)的改進(jìn)能量熵,通過將改進(jìn)能量熵與基于噪聲估計(jì)的自適應(yīng)動(dòng)態(tài)門限做比較,完成實(shí)時(shí)的語音端點(diǎn)檢測(cè)。仿真實(shí)驗(yàn)表明,在多種噪聲類型與信噪比下,相比現(xiàn)有能量熵算法與改進(jìn)子帶能譜比算法,本文構(gòu)造的改進(jìn)能量熵對(duì)語音與噪聲的區(qū)分度更好,算法的端點(diǎn)檢測(cè)準(zhǔn)確率也更高。優(yōu)異的性能、較低的計(jì)算復(fù)雜度、端點(diǎn)檢測(cè)的實(shí)時(shí)性,使得該算法具備較為廣闊的應(yīng)用前景。如何進(jìn)一步改進(jìn)自適應(yīng)動(dòng)態(tài)門限,使其能更好地工作在負(fù)信噪比環(huán)境中將是下一步的研究?jī)?nèi)容。

      猜你喜歡
      子帶端點(diǎn)門限
      非特征端點(diǎn)條件下PM函數(shù)的迭代根
      基于規(guī)則的HEV邏輯門限控制策略
      一種基于奇偶判斷WPT的多音干擾抑制方法*
      地方債對(duì)經(jīng)濟(jì)增長(zhǎng)的門限效應(yīng)及地區(qū)差異研究
      隨機(jī)失效門限下指數(shù)退化軌道模型的分析與應(yīng)用
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      不等式求解過程中端點(diǎn)的確定
      參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
      基于虛擬孔徑擴(kuò)展的子帶信息融合寬帶DOA估計(jì)
      基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
      克拉玛依市| 富源县| 剑川县| 固镇县| 旺苍县| 扶余县| 东辽县| 绥阳县| 沙雅县| 湘乡市| 德钦县| 昌平区| 军事| 乐业县| 天津市| 青河县| 阜康市| 雅安市| 岱山县| 金乡县| 怀仁县| 恭城| 合江县| 兰坪| 五家渠市| 甘谷县| 酉阳| 理塘县| 舒兰市| 高邑县| 南阳市| 会宁县| 连州市| 永平县| 铜梁县| 镇巴县| 延长县| 宜丰县| 大邑县| 隆昌县| 林西县|