• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于長時(shí)信號功率譜變化的語音端點(diǎn)檢測*

      2019-09-14 07:13:08任相贏
      計(jì)算機(jī)與生活 2019年9期
      關(guān)鍵詞:端點(diǎn)語音準(zhǔn)確率

      張 濤,劉 陽,任相贏

      天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072

      1 引言

      語音端點(diǎn)檢測是指在噪聲環(huán)境中區(qū)分語音段和非語音段,是語音編碼、語音增強(qiáng)和語音識別等語音信號處理領(lǐng)域的關(guān)鍵技術(shù)。目前,語音端點(diǎn)檢測方法主要可以分為兩大類:基于特征的方法[1]和基于機(jī)器學(xué)習(xí)與模式識別的方法[2-4]。

      20 世紀(jì)90 年代初,匹茲堡大學(xué)的Crippa 等人創(chuàng)造性地將人工神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于語音端點(diǎn)檢測。2017 年,文獻(xiàn)[5]提出了基于深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)綜合分析信號幅值相位信息的端點(diǎn)檢測算法,相比基于信號幅值的DNN算法,其錯(cuò)誤率大大降低。文獻(xiàn)[6]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測方法,該算法同時(shí)結(jié)合維特比算法,在復(fù)雜噪聲環(huán)境下取得了較好的檢測效果。但是基于神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測算法普遍存在訓(xùn)練速度慢,計(jì)算復(fù)雜度大的問題。

      而基于特征的方法因其簡單、快速等優(yōu)點(diǎn)而得到廣泛的研究和應(yīng)用。早期用于語音端點(diǎn)檢測的特征主要有:短時(shí)能量、平均過零率[7]、譜熵[8]和倒譜距離[9]等。這類方法在高信噪比環(huán)境中的檢測效果較為理想,但在低信噪環(huán)境中的檢測性能會急劇下降。為了提高算法的抗噪聲性及魯棒性,相關(guān)學(xué)者提出了一系列新的方法。如文獻(xiàn)[10]提出一種噪聲抑制的語音端點(diǎn)檢測方法,首先對信號進(jìn)行語音增強(qiáng),除去信號中的噪聲,然后進(jìn)行特征提取與檢測判決,提升了算法的抗噪性。文獻(xiàn)[11]提出了一種融合Fisher線性判別和Mel頻率倒譜系數(shù)的語音端點(diǎn)檢測方法,提升了算法在不同的噪聲環(huán)境與信噪比下的檢測準(zhǔn)確率。文獻(xiàn)[12]通過融合臨界頻帶譜熵與頻域差值能量,提出一種新的能量熵系數(shù),提升了算法的噪聲適應(yīng)性和低信噪比下的魯棒性。上述方法多是基于語音的短時(shí)特征,并未充分考慮語音的長時(shí)變化信息。

      為了更好地利用語音的長時(shí)特性,Ghosh等[13]提出了一種基于長時(shí)段信號變化率(long-term signal variability,LTSV)特征的檢測方法。該方法具有較強(qiáng)的噪聲適應(yīng)性,并且在極低信噪比(-10 dB)下仍可以有效地區(qū)分語音段和非語音段。文獻(xiàn)[14]提出了一種長時(shí)段信號譜平坦度(long-term spectral flatness measure,LSFM)特征,通過測度長時(shí)段語音在不同頻帶的譜平坦度來區(qū)分語音和噪聲,提升了在嘈雜人聲(babble)與機(jī)槍(machine gun)等非平穩(wěn)噪聲環(huán)境下的檢測準(zhǔn)確率及在不同噪聲環(huán)境下的魯棒性。雖然上述兩種方法在不同噪聲環(huán)境下均有較好的魯棒性,但在低信噪比下的檢測性能仍有提升的空間,尤其對于babble和machine gun這兩種非平穩(wěn)噪聲。

      為了進(jìn)一步提升算法在不同噪聲環(huán)境下的魯棒性,特別是提高檢測算法在babble 和machine gun 等噪聲環(huán)境下的檢測性能,本文提出了一種基于長時(shí)信號功率譜變化(long-term power spectrum variability,LPSV)的特征。使用閾值判決的檢測方法檢驗(yàn)此特征在babble和machine gun等非平穩(wěn)噪聲環(huán)境下的語音端點(diǎn)檢測準(zhǔn)確率,并對比了本文提出的LPSV特征和傳統(tǒng)的LTSV以及LSFM特征的檢測性能。

      2 LPSV特征

      由于語音信號與噪聲信號功率譜的變化存在較大差異,通常情況下,語音信號功率譜的非平穩(wěn)度遠(yuǎn)大于噪聲。因此,本文提出了一種LPSV 特征,該特征準(zhǔn)確地反映了信號的功率譜變化特性,可以有效地區(qū)分語音和噪聲。

      2.1 LPSV定義

      定義1(LPSV)LPSV定義為表征長時(shí)信號功率譜變化的參數(shù),由輸入信號x(n)的當(dāng)前幀及其之前R-1 幀信號的功率譜共同決定,反映了信號的功率譜在過去R幀的非平穩(wěn)度,具體計(jì)算過程如下:

      式中,Lx(m)表示第m幀信號的LPSV特征參數(shù),NFFT代表傅里葉變換點(diǎn)數(shù),表示過去R幀信號在第k個(gè)頻點(diǎn)處的功率譜變化程度,可通過計(jì)算過去R幀信號中任意兩幀信號在第k個(gè)頻點(diǎn)處的功率譜變化量的平均值得到,相應(yīng)計(jì)算公式如下:

      式中,Sx(i,wk)表示第i幀信號在頻率wk的功率譜,其可利用經(jīng)典的周期圖法計(jì)算信號的短時(shí)離散傅里葉變換求得,計(jì)算公式如下:

      式中,NW表示每幀數(shù)據(jù)長度,NSH表示每幀數(shù)據(jù)移動(dòng)長度,h(l)表示長度為NW的窗函數(shù)。

      若噪聲信號為平穩(wěn)噪聲N(n),理想情況下噪聲的功率譜不會隨著時(shí)間發(fā)生變化,因此對于任意的i和wk,SN(i,wk)均為定值。若假定SN(i,wk)=σk,則依據(jù)式(2)可得,,則有LN(m)=0。若輸入信號x(n)為含有加性平穩(wěn)噪聲的帶噪語音信號,即x(n)=S(n)+N(n),假設(shè)語音與噪聲不相關(guān),則輸入信號的功率譜Sx(i,wk)=SS(i,wk)+σk,其中SS(i,wk)表示純凈語音信號的功率譜,則依據(jù)式(2)可得:

      若噪聲信號為非平穩(wěn)噪聲,其頻譜會隨著時(shí)間而變化。此時(shí)LN(m)由非平穩(wěn)噪聲的類型及其功率譜變化特征決定。若輸入信號為含有加性非平穩(wěn)噪聲的帶噪語音信號,則輸入信號的功率譜為Sx(i,wk)=SS(i,wk)+SN(i,wk),其中SN(i,wk)表示非平穩(wěn)噪聲的功率譜,則依據(jù)式(2)可得:

      語音信號的頻帶主要分布在500~4 000 Hz,因此這里僅統(tǒng)計(jì)500~4 000 Hz 對應(yīng)頻點(diǎn)的LPSV 特征參數(shù)。

      此時(shí):

      2.2 LPSV對語音和噪聲的區(qū)分度

      首先實(shí)驗(yàn)分析在不同噪聲環(huán)境下,不同R值對LPSV參數(shù)的影響。所用純凈語音為從TIMIT[15]語音庫中隨機(jī)挑選的80個(gè)句子(8個(gè)說話人,4男、4女,每個(gè)說話人對應(yīng)10個(gè)句子,采樣頻率FS=16 kHz)。噪聲選自NOISEX-92[16]噪聲庫,每種噪聲均經(jīng)過重新采樣,重采樣后的采樣頻率為16 kHz,保證與TIMIT語音庫中語音采樣頻率相同。實(shí)驗(yàn)中的參數(shù)設(shè)置:幀長NW=512,幀移NSH=NW/2=256,窗函數(shù)h(l)選擇漢明窗,傅里葉變換點(diǎn)數(shù)NFFT=512,相應(yīng)kd=16,ku=128。這里利用最優(yōu)可分類比例(optimal classification proportion,OCP)表征LPSV 特征參數(shù)對噪聲和語音的區(qū)分性能:

      其中,MCPmin表示最小的誤分類比例(misclassification proportion,MCP),誤判比例包括將噪聲誤判為語音的比例和將語音誤判為噪聲比例。最優(yōu)可分類比例越大,說明對語音和噪聲的區(qū)分性能越好。

      Fig.1 LPSV with different R圖1 不同R值的LPSV

      在0 dB 的white 噪聲環(huán)境下,不同R值對應(yīng)的噪聲和含噪語音的LPSV特征參數(shù)分布如圖1所示。為了更好地比較兩者的區(qū)別,將LPSV 取對數(shù)。從圖1可以看出,對于white噪聲,lgLPSV較小,且隨著R值的增加,分布越來越集中。這是因?yàn)閣hite 為平穩(wěn)噪聲,其功率譜不隨時(shí)間變化。當(dāng)R=5 時(shí),lgLPSV主要的分布區(qū)間為[0.750,0.920],R=15時(shí)為[0.790,0.880],R=30 時(shí)為[0.820,0.870],說明隨著R值的增加,lgLPSV的分布越趨于穩(wěn)定,而LPSV 特征參數(shù)也越準(zhǔn)確地反映white噪聲的頻譜變化特性。對于含噪語音,lgLPSV分布范圍較大,且取值明顯大于white噪聲。這是因?yàn)檎Z音為非平穩(wěn)信號,功率譜會隨著時(shí)間而發(fā)生較大改變。從圖1 還可以看出,R值越大,OCP 越大,說明隨著R的增加,LPSV 特征參數(shù)對于噪聲和語音的區(qū)分性能越來越好。

      在0 dB不同噪聲環(huán)境下,R=25 時(shí),噪聲和含噪語音的LPSV特征參數(shù)分布如圖2所示。從圖中可以看出,LPSV 在white 和pink 兩種平穩(wěn)噪聲環(huán)境下的OCP 明顯大于babble 和machine gun 兩種非平穩(wěn)噪聲,說明LPSV 在平穩(wěn)噪聲環(huán)境下的檢測性能更好。這是因?yàn)槠椒€(wěn)噪聲的功率譜不隨時(shí)間發(fā)生變化,與語音頻譜變化的差異性更大。對于babble 噪聲,lgLPSV主要分布區(qū)間為[0.4,1.3],分布范圍明顯大于white 噪聲的[0.80,0.88],主要是因?yàn)閎abble 為典型的非平穩(wěn)噪聲,在不同時(shí)間和頻點(diǎn)的頻譜差異較大。在babble噪聲環(huán)境下的區(qū)分效果相對較差,OCP僅為84.8%,明顯低于white 噪聲環(huán)境下的97.9%。machine gun噪聲的lgLPSV分布范圍最廣,主要區(qū)間為[-4.5,0.5],這是因?yàn)閙achine gun噪聲中每次槍聲后有較長時(shí)間間隔,由于此間隔是靜音段,沒有頻譜變化,因此靜音段的lgLPSV較小。

      3 基于LPSV的語音端點(diǎn)檢測方法

      3.1 算法整體描述

      本文采用閾值判決的方法進(jìn)行語音端點(diǎn)檢測,基于LPSV的語音端點(diǎn)檢測算法結(jié)構(gòu)框圖如圖3。具體步驟如下:

      (1)對輸入信號進(jìn)行分幀加窗(漢明窗),并通過傅里葉變換求得信號功率譜。

      (2)統(tǒng)計(jì)每幀信號的LPSV特征值Lx(m),利用開始階段的背景噪聲信息初始化閾值Tinit。

      Fig.2 LPSV in different noise conditions圖2 不同噪聲環(huán)境下的LPSV

      Fig.3 System block diagram of voice activity detection圖3 語音端點(diǎn)檢測系統(tǒng)框圖

      (3)利用Lx(m)進(jìn)行閾值判決,判決當(dāng)前R幀信號中是否含有語音幀,若Lx(m)大于判決閾值,表示含有語音幀,此時(shí)Dm記為1,否則表示不含語音幀,Dm記為0。

      (4)利用過去80 幀信號的閾值判決結(jié)果對判決閾值進(jìn)行自適應(yīng)更新。

      (5)利用Dm參數(shù)為當(dāng)前目標(biāo)幀進(jìn)行投票判決。如圖4,對于包含目標(biāo)幀信息的R幀閾值判決,若超過80%的結(jié)果為包含語音幀,則判決目標(biāo)幀為語音幀,否則為噪聲幀。

      3.2 閾值初始化與自適應(yīng)

      為了克服傳統(tǒng)固定閾值方法環(huán)境適應(yīng)性較差的缺點(diǎn),本文采用了閾值自適應(yīng)方法。設(shè)計(jì)兩個(gè)緩沖器BN(m)和BS+N(m),分別存儲過去80幀(約1 s)中判決為噪聲幀和語音幀的LPSV 特征值。閾值自適應(yīng)公式如下:

      其中,α為權(quán)重值。仿真實(shí)驗(yàn)中假設(shè)開始50 幀為背景噪聲,據(jù)此統(tǒng)計(jì)噪聲信息并初始化閾值,實(shí)驗(yàn)中的初始閾值Tinit通過式(12)計(jì)算。其中μN(yùn)和σN分別表示背景噪聲LPSV特征值的平均值和標(biāo)準(zhǔn)差,p為加權(quán)系數(shù),通過仿真實(shí)驗(yàn),p=3 時(shí)效果最佳。

      3.3 檢測判決

      由于統(tǒng)計(jì)了信號的長時(shí)段特征,因此進(jìn)行端點(diǎn)檢測判決時(shí)需要考慮前后幀的信息。檢測判決如圖4所示。當(dāng)前目標(biāo)幀為第m幀,此時(shí)的LPSV特征值Lx(m)由當(dāng)前幀及其前R-1 幀信號共同決定。若Lx(m)大于此時(shí)閾值T(m),說明當(dāng)前R幀信號中含有語音幀,此時(shí)Dm記為1,否則記為0。則對于當(dāng)前目標(biāo)幀,共參與了R次閾值判決,結(jié)果分別為Dm,Dm+1,…,Dm+R-1,若這R次閾值判決中超過80%的結(jié)果為包含語音幀,則判決當(dāng)前目標(biāo)幀為語音幀,否則為噪聲幀。

      Fig.4 Schematic diagram of voting decision圖4 投票決策示意圖

      4 實(shí)驗(yàn)仿真與分析

      4.1 實(shí)驗(yàn)設(shè)置

      語音信號選自TIMIT語音庫,包括20個(gè)說話人,10男、10女,每個(gè)說話人對應(yīng)10個(gè)句子,并對每個(gè)句子人工標(biāo)注端點(diǎn)(0 代表噪聲段,1 代表語音段)。由于TIMIT中句子較短(約3.5 s),且大部分為語音,因此實(shí)驗(yàn)中在每個(gè)句子前添加1 s 的靜音段,以便于統(tǒng)計(jì)噪聲的特征參數(shù)并初始化判決閾值。噪聲選自NOISEX-92 噪聲庫,這里選用white、pink、babble 和machine gun四種噪聲。并分別在信噪比為-5、0、5和10 dB的噪聲環(huán)境下測試算法性能,這里將檢測準(zhǔn)確率[14]作為性能指標(biāo)。

      其中,N1,1和N0,0分別表示語音幀和噪聲幀被正確分類的幀數(shù)。

      4.2 結(jié)果與分析

      從TIMIT 語音庫中隨機(jī)挑選兩段語音,在0 dB噪聲環(huán)境下的檢測結(jié)果如圖5 所示。其中(a1)、(b1)、(c1)和(d1)分別表示添加0 dB 的white、pink、babble 和machine gun 噪聲后的帶噪語音波形圖。(a2)、(b2)、(c2)和(d2)表示對應(yīng)的語音端點(diǎn)檢測結(jié)果。從圖中可以看出,在white 和pink 兩種平穩(wěn)噪聲環(huán)境下的檢測性能優(yōu)于babble和machine gun兩種非平穩(wěn)噪聲,這是因?yàn)樵诜瞧椒€(wěn)噪聲環(huán)境下,LPSV 特征參數(shù)有所起伏,導(dǎo)致檢測性能有所降低。

      在不同信噪比的噪聲環(huán)境下,分別統(tǒng)計(jì)了基于長時(shí)特征LTSV、LSFM和LPSV的語音端點(diǎn)檢測方法在不同噪聲類型下的準(zhǔn)確率,如表1和圖6所示。從表1中可以看出,在white和pink噪聲環(huán)境下,三種基于長時(shí)特征方法檢測性能比較接近,基于LPSV的語音端點(diǎn)檢測準(zhǔn)確率相較于其他兩種方法的準(zhǔn)確率提高1%左右。隨著信噪比的降低,基于LPSV 的語音端點(diǎn)檢測的優(yōu)勢逐漸明顯。在machine gun和babble噪聲環(huán)境下,基于LPSV的語音端點(diǎn)檢測準(zhǔn)確率明顯優(yōu)于其他兩種方法,在babble噪聲環(huán)境下,基于LPSV的語音端點(diǎn)檢測準(zhǔn)確率相較于其他兩種方法平均高出2.4%;在machine gun噪聲環(huán)境下,基于LPSV的語音端點(diǎn)檢測準(zhǔn)確率相較于其他兩種方法平均高出11.8%。

      Table 1 Accuracy of different methods表1 不同方法的檢測準(zhǔn)確率

      Fig.5 Voice activity detection results in different noise conditions圖5 不同噪聲環(huán)境下的語音端點(diǎn)檢測結(jié)果

      5 結(jié)束語

      Fig.6 Statistical graph of accuracy of different methods圖6 不同方法的準(zhǔn)確率統(tǒng)計(jì)圖

      本文在對比分析語音和噪聲的頻譜變化特征的基礎(chǔ)上,提出了一種基于長時(shí)信號功率譜變化(LPSV)的語音特征,并對此特征在語音端點(diǎn)檢測領(lǐng)域的應(yīng)用進(jìn)行了驗(yàn)證。相比于LTSV 和LSFM 特征,基于本文提出的LPSV 特征的語音端點(diǎn)檢測的準(zhǔn)確率有明顯提升,特別是在babble 與machine gun 這類非平穩(wěn)噪聲環(huán)境下的檢測準(zhǔn)確率。但在長時(shí)段下對語音信號分析,會造成一定的判決延遲,因此需要在檢測性能與檢測延遲之間選擇一個(gè)較理想的折中方案,這也是下一步研究的重點(diǎn)。同時(shí),將本文提出的特征用于更加有效的方法中,提高語音端點(diǎn)檢測準(zhǔn)確率也是未來的工作重點(diǎn)。

      猜你喜歡
      端點(diǎn)語音準(zhǔn)確率
      非特征端點(diǎn)條件下PM函數(shù)的迭代根
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      不等式求解過程中端點(diǎn)的確定
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      玛纳斯县| 晋中市| 景洪市| 会泽县| 枞阳县| 孝感市| 万载县| 疏勒县| 平泉县| 双牌县| 基隆市| 佛学| 张家港市| 吴川市| 阿勒泰市| 屯昌县| 日土县| 平定县| 东海县| 玉山县| 平江县| 田林县| 平阴县| 延安市| 聂拉木县| 华阴市| 阿拉善盟| 广饶县| 清镇市| 新丰县| 泌阳县| 瑞安市| 文安县| 礼泉县| 城固县| 班玛县| 东至县| 秀山| 江西省| 新竹县| 扬中市|