• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      動(dòng)態(tài)特征聯(lián)合新掩模優(yōu)化神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)

      2021-07-01 13:21:26梅淑琳賈海蓉王曉剛武奕峰
      關(guān)鍵詞:掩模比率語(yǔ)音

      梅淑琳,賈海蓉,王曉剛,武奕峰

      (1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 太原 030024;2.中國(guó)聯(lián)通 山西省分公司網(wǎng)絡(luò)優(yōu)化中心,山西 太原 030000)

      語(yǔ)音增強(qiáng)是從噪聲背景中提取有用信號(hào),降低干擾并減少失真的技術(shù),可以應(yīng)用在人工智能、助聽(tīng)器、語(yǔ)音識(shí)別等領(lǐng)域。目前,語(yǔ)音增強(qiáng)的方法可分為無(wú)監(jiān)督和有監(jiān)督兩類。無(wú)監(jiān)督語(yǔ)音增強(qiáng)大多基于平穩(wěn)噪聲、語(yǔ)音噪聲不相關(guān)等不合理假設(shè),導(dǎo)致抑制非平穩(wěn)噪聲能力弱,產(chǎn)生語(yǔ)音失真現(xiàn)象;具有代表性的算法有譜減法、維納濾波等[1]。有監(jiān)督語(yǔ)音增強(qiáng)通過(guò)學(xué)習(xí)信號(hào)的統(tǒng)計(jì)特性來(lái)抑制噪聲,在低信噪比環(huán)境和非平穩(wěn)噪聲上有著明顯的優(yōu)勢(shì),可分為基于淺層和深層模型兩種。淺層模型包括隱馬爾科夫、淺層神經(jīng)網(wǎng)絡(luò)等。該模型由于層數(shù)及每層節(jié)點(diǎn)數(shù)目都很少,且用于訓(xùn)練的數(shù)據(jù)也很小,限制了學(xué)習(xí)能力,性能不能有效提升。深層模型能夠深入學(xué)習(xí)語(yǔ)音間非線性關(guān)系[2],極大地提高了其在未知噪聲環(huán)境中的泛化性能。大致可以分為3類:基于特征映射的語(yǔ)音增強(qiáng),輸入和輸出信號(hào)的聲學(xué)特征;基于時(shí)頻掩蔽的語(yǔ)音增強(qiáng),輸入聲學(xué)特征,輸出時(shí)頻掩蔽;基于信號(hào)近似的語(yǔ)音增強(qiáng),是前兩種方法的融合,訓(xùn)練模型預(yù)測(cè)掩蔽值,最終優(yōu)化目標(biāo)是估計(jì)語(yǔ)音與純凈語(yǔ)音的均方誤差,使網(wǎng)絡(luò)收斂到一個(gè)最優(yōu)點(diǎn)。因此處理非平穩(wěn)噪聲性能較好,成為研究熱點(diǎn)[3-6]。

      近年來(lái),人們提出了幾種有效的學(xué)習(xí)算法,有效提升了網(wǎng)絡(luò)的性能。文獻(xiàn)[3]提出一種集成幅度譜,理想二值掩蔽到神經(jīng)網(wǎng)絡(luò)的算法,能有效去除噪聲,但有一定程度失真。文獻(xiàn)[4]提出聯(lián)合對(duì)數(shù)梅爾功率譜(Log-Mel Frequency Power Spectrum,LMPS)、梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)和理想比率掩模(Ideal Ratio Mask, IRM)優(yōu)化的算法;特征考慮了聽(tīng)覺(jué)感知,掩模是軟判決,但很難處理清音,整體聽(tīng)感不連續(xù)。文獻(xiàn)[5]提出一種Gammatone域耳蝸表示(Cochleagram)的語(yǔ)音特征。Gammatone是耳蝸濾波標(biāo)準(zhǔn)模型,但不能兼顧語(yǔ)音整體和瞬變信息。文獻(xiàn)[6]提出多分辨率耳蝸表示(Multi-Resolution CochleaGram,MRCG),其連接4個(gè)不同分辨率的對(duì)數(shù)耳蝸,同時(shí)考慮語(yǔ)音局部和全局信息,但是特征維數(shù)太大,算法復(fù)雜性高。

      為此,筆者提出了動(dòng)態(tài)特征聯(lián)合自適應(yīng)比率掩模優(yōu)化神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法。動(dòng)態(tài)特征融合了對(duì)數(shù)梅爾功率譜、梅爾倒譜系數(shù)、多分辨率聽(tīng)覺(jué)倒譜系數(shù)(Multi-Resolution Auditory Cepstral Coefficients, MRACC),并通過(guò)求導(dǎo)捕捉語(yǔ)音瞬變信息,全面表示語(yǔ)音的非線性結(jié)構(gòu),減小失真。另外,為了模仿人類聽(tīng)覺(jué)感知,精確表示每個(gè)時(shí)頻單元的掩模值,新提出自適應(yīng)比率掩模,進(jìn)一步提高重建語(yǔ)音質(zhì)量。設(shè)計(jì)對(duì)比實(shí)驗(yàn),驗(yàn)證了新算法的優(yōu)勢(shì)。

      1 動(dòng)態(tài)特征與自適應(yīng)比率掩模聯(lián)合優(yōu)化神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)

      1.1 動(dòng)態(tài)特征

      不同的語(yǔ)音特征反映了語(yǔ)音信號(hào)的不同屬性。LMPS經(jīng)過(guò)梅爾濾波器組對(duì)頻譜進(jìn)行平滑化,并消除諧波的作用,突顯語(yǔ)音的共振峰;MFCC體現(xiàn)帶噪語(yǔ)音功率譜各個(gè)維度的關(guān)系;MRACC是改進(jìn)的MRCG特征,有4個(gè)不同分辨率稀疏表示的Cochleagram,能夠表示整體和局部信息。為了全面表示語(yǔ)音非線性結(jié)構(gòu),對(duì)這3種特征進(jìn)行拼接互補(bǔ),可獲取較完整的靜態(tài)特征;再對(duì)拼接特征求一階二階差分導(dǎo)數(shù),捕獲語(yǔ)音的瞬變信息;差分特征描述了語(yǔ)音相鄰幀的聯(lián)系,避免只依賴網(wǎng)絡(luò)獲得語(yǔ)音時(shí)變信息。動(dòng)靜特征結(jié)合改善了現(xiàn)有特征表示語(yǔ)音結(jié)構(gòu)方面的不充分不完整性,使重構(gòu)語(yǔ)音失真較小且語(yǔ)音可懂度高。

      圖1所示為動(dòng)態(tài)特征提取框圖。

      具體提取過(guò)程如下:

      (1) 語(yǔ)音信號(hào)經(jīng)過(guò)梅爾濾波、取對(duì)數(shù)和離散余弦變換而得到對(duì)數(shù)梅爾功率譜、梅爾倒譜系數(shù)特征;同時(shí),經(jīng)過(guò) Gammatone濾波,得到4個(gè)64通道CochleaGram(CG)并對(duì)其進(jìn)行分幀加窗,冪律變換獲得4個(gè)不同分辨率的CG1、CG2、CG3、CG4,拼接后對(duì)整體進(jìn)行離散余弦變換,得到MRACC特征。

      (2) 將3個(gè)語(yǔ)音特征進(jìn)行拼接,得到拼接靜態(tài)特征M,即

      M(i,m)=[MLMPS(i,m);MMFCC(i,m);MMRACC(i,m)],

      (1)

      其中,i表示幀數(shù),m是特征維度索引。MLMPS(i,m)、MMFCC(i,m)、MMRACC(i,m)分別表示LMPS、MFCC、MRACC特征。

      (3) 對(duì)拼接靜態(tài)特征求一階二階差分導(dǎo)數(shù),得到差分特征ΔM和Δ(ΔM):

      (2)

      (3)

      其中,k是索引,表示當(dāng)前幀的前兩幀和后兩幀。

      (4) 融合所得到的特征,形成動(dòng)態(tài)特征Ω:

      Ω(i,m)=[M(i,m);ΔM(i,m);Δ(ΔM(i,m))]。

      (4)

      圖1 動(dòng)態(tài)特征提取框圖

      1.2 自適應(yīng)比率掩模

      在基于信號(hào)近似的神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)中,掩模是重構(gòu)語(yǔ)音的關(guān)鍵[9]。為提高重構(gòu)語(yǔ)音的質(zhì)量,筆者提出一種自適應(yīng)比率掩模。首先,利用帶噪語(yǔ)音內(nèi)部通道間的相關(guān)性(Inter-Channel Correlation,ICC)因子自適應(yīng)調(diào)整語(yǔ)音和噪聲的能量比例,提高了每個(gè)時(shí)頻單元掩模的精確度;其次,自適應(yīng)地調(diào)節(jié)傳統(tǒng)掩模和平方根掩模的比例,讓其能充分發(fā)揮各自的優(yōu)勢(shì),使增強(qiáng)語(yǔ)音的可懂度和清晰度同時(shí)達(dá)到最好;最后用Gammatone通道權(quán)重修改每個(gè)通道內(nèi)的掩模值,使其信號(hào)能量集中在低、中頻段,模仿了人類聽(tīng)覺(jué)系統(tǒng),進(jìn)一步提升了語(yǔ)音可懂度。

      圖2所示為自適應(yīng)掩模原理圖。

      圖2 自適應(yīng)掩模原理圖

      具體過(guò)程如下:

      (1) 內(nèi)部通道間的相關(guān)性自適應(yīng)因子ρx(c,m)、ρd(c,m)是分別第c個(gè)通道第m幀中純凈與帶噪語(yǔ)音、噪聲與帶噪語(yǔ)音功率譜之間的歸一化互相關(guān)系數(shù)。

      (5)

      (6)

      其中,yc,m、dc,m、xc,m是帶噪語(yǔ)音、噪聲和純凈語(yǔ)音在c通道m(xù)幀中的幅度譜矢量。

      (7)

      其中,Px(c,m)和Pd(c,m)分別表示第c通道第m幀的純凈語(yǔ)音能量和噪聲能量。

      (3) 自適應(yīng)掩蔽系數(shù)α是帶噪語(yǔ)音信噪比,可表示為

      (8)

      其中,μSNR(c,m)表示第c通道第m幀的信噪比。

      (4) 應(yīng)用Gammatone通道權(quán)重輪廓β修改每個(gè)通道的比率掩模,公式如下:

      (9)

      其中,ψ(c)為第c個(gè)通道的響度級(jí)別。

      (10)

      1.3 神經(jīng)網(wǎng)絡(luò)模型

      為了利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性映射能力,筆者設(shè)計(jì)了具有4層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。其中包含2個(gè)隱層,每個(gè)隱層設(shè)有1 024個(gè)節(jié)點(diǎn),輸出層設(shè)有64個(gè)節(jié)點(diǎn),分別將線性整流函數(shù)(Rectified Linear Unit, ReLU)和Sigmoid函數(shù)用作隱層和輸出層的激活函數(shù)。采用最小均方誤差(Mean Square Error,MSE)作為模型的代價(jià)函數(shù)。訓(xùn)練神經(jīng)網(wǎng)絡(luò)采用自適應(yīng)隨機(jī)梯度算法,隨機(jī)初始化網(wǎng)絡(luò),并用丟棄法Dropout來(lái)提升模型對(duì)噪聲的泛化能力,輸入層的Dropout比例為0,每個(gè)隱層的Dropout比例設(shè)為0.2,用于隱層單元的稀疏正則化。網(wǎng)絡(luò)將重構(gòu)語(yǔ)音與純凈語(yǔ)音的誤差反饋傳遞,調(diào)優(yōu)更新網(wǎng)絡(luò)參數(shù)。采用自適應(yīng)學(xué)習(xí)速率ε,初始化為0.08,隨著訓(xùn)練步數(shù)線性減小,直至0.001。初始的動(dòng)量系數(shù)設(shè)為0.5,在前5次逐漸漲到0.9,隨后就保持0.9不變,網(wǎng)絡(luò)采迭代次數(shù)為20次。經(jīng)過(guò)反復(fù)執(zhí)行上述步驟對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行一系列迭代更新,訓(xùn)練完成就得到一個(gè)神經(jīng)網(wǎng)絡(luò)模型。

      1.4 基于動(dòng)態(tài)特征和自適應(yīng)比率掩模的神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)

      在訓(xùn)練階段,以最小化最小均方誤差代價(jià)函數(shù)為目標(biāo),提取語(yǔ)音數(shù)據(jù)樣本中的訓(xùn)練集的動(dòng)態(tài)特征、自適應(yīng)比率掩模作為神經(jīng)網(wǎng)絡(luò)模型的輸入。為了保持訓(xùn)練過(guò)程的穩(wěn)定,輸入和輸出均進(jìn)行均值方差歸一化處理,訓(xùn)練得到最優(yōu)的網(wǎng)絡(luò)模型并進(jìn)行保存。在測(cè)試階段,提取測(cè)試樣本集的歸一化處理后的動(dòng)態(tài)特征輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型中預(yù)測(cè)自適應(yīng)比率掩模,最后結(jié)合帶噪語(yǔ)音的相位重構(gòu)語(yǔ)音,輸出得到最佳增強(qiáng)結(jié)果。圖3所示為基于動(dòng)態(tài)特征和自適應(yīng)比率掩模的神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)系統(tǒng)框圖。

      圖3 基于動(dòng)態(tài)特征和自適應(yīng)比率掩模的神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)系統(tǒng)框圖

      2 仿真實(shí)驗(yàn)與結(jié)果分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)選用IEEE語(yǔ)音庫(kù)、NOISE-92噪聲庫(kù)中的White、Babble和F16噪聲。用50條純凈語(yǔ)音在每種噪聲下創(chuàng)建信噪比為-10 dB、-5 dB、0 dB、5 dB和10 dB的750條訓(xùn)練集。使用10條語(yǔ)音在相同條件下創(chuàng)建150條測(cè)試集。評(píng)價(jià)指標(biāo)采用分段信噪比(Segmental SNR,SegSNR)、主觀語(yǔ)音質(zhì)量(Perceptual Evaluation of Speech Quality,PESQ)和短時(shí)客觀可懂度(Short Term Objective Intelligibility,STOI)。

      2.2 對(duì)比實(shí)驗(yàn)與結(jié)果分析

      為了驗(yàn)證文中聯(lián)合動(dòng)態(tài)特征和自適應(yīng)掩模的有效性,設(shè)計(jì)3組算法來(lái)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行討論。

      算法1采用3種特征中效果最好的MRACC特征和IRM來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      算法2采用聯(lián)合LMPS、MFCC和MRACC和IRM訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      算法3采用筆者提出的動(dòng)態(tài)特征和自適應(yīng)掩模聯(lián)合訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      以被5dB,Babble噪聲污染的語(yǔ)音為例,分別給出了3種實(shí)驗(yàn)下的增強(qiáng)語(yǔ)音。圖4所示為增強(qiáng)語(yǔ)音的時(shí)域波形,圖5所示為增強(qiáng)語(yǔ)音的語(yǔ)譜圖。

      圖4 5 dB的Babble噪聲下的時(shí)域波形圖

      從圖4、圖5可以看出,前兩個(gè)實(shí)驗(yàn)?zāi)軌驕p少噪聲,但是仍有殘留,且非語(yǔ)音段降噪效果不好,有失真現(xiàn)象。而文中提出的算法,非語(yǔ)音段降噪效果顯著,增強(qiáng)語(yǔ)音波形結(jié)構(gòu)保持更好,失真較小,最接近于原始純凈語(yǔ)音。

      對(duì)比上述3組實(shí)驗(yàn)分別在Babble、F16、White這3種噪聲環(huán)境下的增強(qiáng)效果,表1至表3和圖6所示分別為SegSNR、PESQ、STOI的對(duì)比結(jié)果。

      表1 不同算法下的SegSNR對(duì)比 dB

      表2 不同算法下的PESQ對(duì)比

      表3 不同算法下的STOI對(duì)比

      分析以上結(jié)果可得:

      (1) 對(duì)比算法1和算法2的結(jié)果可知:輸入為拼接特征的增強(qiáng)性能優(yōu)于單特征,增強(qiáng)語(yǔ)音的SegSNR平均提高了0.7 dB,PESQ平均有0.13 dB的提升,STOI有0.02 dB的提高,驗(yàn)證了拼接特征能更好地抑制背景噪聲。

      (2) 算法2與算法3相比,在神經(jīng)網(wǎng)絡(luò)中輸入新的動(dòng)態(tài)特征和自適應(yīng)比率掩模后, SegSNR平均提升了1.1 dB, PESQ平均提升了0.33 dB,STOI提高了0.03 dB。實(shí)驗(yàn)結(jié)果證明了動(dòng)態(tài)特征和自適應(yīng)比率掩模組合的有效性,聯(lián)合優(yōu)化可以得到失真較小、聽(tīng)感較好的增強(qiáng)語(yǔ)音。

      圖6 White噪聲環(huán)境下在不同算法下SegSNR、PESQ、STOI的三種結(jié)果對(duì)比

      3 結(jié)束語(yǔ)

      筆者提出動(dòng)態(tài)特征聯(lián)合自適應(yīng)比率掩模優(yōu)化神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)算法。將動(dòng)態(tài)特征、自適應(yīng)比率掩模作為神經(jīng)網(wǎng)絡(luò)的輸入,有監(jiān)督的學(xué)習(xí)帶噪語(yǔ)音和純凈語(yǔ)音之間復(fù)雜的映射關(guān)系。新特征提高神經(jīng)網(wǎng)絡(luò)對(duì)純凈語(yǔ)音頻譜的估計(jì)能力,新掩模精確表示每個(gè)時(shí)頻單元的時(shí)頻掩蔽值。實(shí)驗(yàn)結(jié)果表明,在不同噪聲不同信噪比條件下,該算法能夠減小增強(qiáng)語(yǔ)音的失真現(xiàn)象,語(yǔ)音質(zhì)量和可懂度有明顯提升,具有更好的增強(qiáng)效果。

      猜你喜歡
      掩模比率語(yǔ)音
      一類具有時(shí)滯及反饋控制的非自治非線性比率依賴食物鏈模型
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于直寫技術(shù)的微納掩模制作技術(shù)研究進(jìn)展*
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      掩模圖像生成時(shí)閾值取值的合理性探討
      掩模位置誤差對(duì)光刻投影物鏡畸變的影響
      一種適用于微弱信號(hào)的新穎雙峰值比率捕獲策略
      Cr光柵掩模對(duì)金屬平板超透鏡成像質(zhì)量的影響
      临洮县| 寿宁县| 罗江县| 江油市| 三都| 广东省| 清涧县| 舒兰市| 瑞昌市| 铜梁县| 德庆县| 苗栗县| 兴义市| 保定市| 繁峙县| 霸州市| 湖州市| 壶关县| 建德市| 嘉峪关市| 随州市| 武冈市| 玉门市| 马边| 金山区| 巫溪县| 白朗县| 新民市| 梧州市| 滁州市| 额济纳旗| 广水市| 宁德市| 新安县| 鄂伦春自治旗| 文昌市| 望都县| 济阳县| 吴堡县| 杭锦后旗| 鲁山县|