• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合優(yōu)化U?Net 和殘差神經(jīng)網(wǎng)絡(luò)的單通道語(yǔ)音增強(qiáng)算法

      2022-05-12 10:16許春冬
      現(xiàn)代電子技術(shù) 2022年9期
      關(guān)鍵詞:基線殘差語(yǔ)音

      許春冬,徐 瑯,周 濱

      (江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000)

      0 引 言

      語(yǔ)音增強(qiáng)是一種通過(guò)尋找穩(wěn)健的語(yǔ)音特征及其基于模型參數(shù)適應(yīng)化的噪聲補(bǔ)償方法,其主要目的是提高帶噪語(yǔ)音的質(zhì)量及可懂度。語(yǔ)音增強(qiáng)技術(shù)已應(yīng)用在車載系統(tǒng)、智能耳機(jī)終端和聽覺(jué)輔助器等領(lǐng)域。

      現(xiàn)階段,隨著深度學(xué)習(xí)技術(shù)的成功實(shí)踐,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于語(yǔ)音增強(qiáng)中,并顯著提高了低信噪比和非平穩(wěn)噪聲環(huán)境下的語(yǔ)音質(zhì)量和可懂度。2006 年,Hinton 提出深層神經(jīng)網(wǎng)絡(luò)及反向傳播算法。此后,大量的神經(jīng)網(wǎng)絡(luò)算法被提出并運(yùn)用,如基于深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的方法,此類方法通過(guò)干凈語(yǔ)音對(duì)數(shù)功率譜和帶噪語(yǔ)音對(duì)數(shù)功率譜之間的復(fù)雜非線性映射關(guān)系,建立網(wǎng)絡(luò)訓(xùn)練模型,與傳統(tǒng)方法相比提高了非平穩(wěn)噪聲環(huán)境和低信噪比下的語(yǔ)音增強(qiáng)效果。但是考慮到語(yǔ)音信號(hào)在時(shí)頻域的相關(guān)性,為充分利用語(yǔ)音信號(hào)在時(shí)頻域的特征信息,文獻(xiàn)[7]提出通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)構(gòu)造訓(xùn)練模型,利用CNN 網(wǎng)絡(luò)在二維平面的局部相連性質(zhì),能夠更好地利用語(yǔ)音信號(hào)的時(shí)頻特征信息,提取出更豐富的特征信息,與DNN 相比恢復(fù)干凈語(yǔ)音信號(hào)的效果更好。全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)是將傳統(tǒng)CNN 中卷積層后面的全連接層替換成卷積層,通過(guò)對(duì)稱網(wǎng)絡(luò)結(jié)構(gòu),反卷積輸出能夠保證和輸入相同的尺寸大小,保留原始語(yǔ)音信號(hào)的全部信息。

      U?Net網(wǎng)絡(luò)是2016年開始用于醫(yī)學(xué)圖像分割的一種優(yōu)秀的網(wǎng)絡(luò)模型,它是一種端到端的對(duì)稱結(jié)構(gòu),在分割醫(yī)學(xué)圖像領(lǐng)域表現(xiàn)出卓越的性能。因U?Net 網(wǎng)絡(luò)是在FCN 網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)而來(lái),故其網(wǎng)絡(luò)結(jié)構(gòu)具有局部相連特征,可以被引用到語(yǔ)音信號(hào)處理領(lǐng)域,充分利用卷積網(wǎng)絡(luò)特性學(xué)習(xí)語(yǔ)音時(shí)頻相關(guān)特征,對(duì)帶噪語(yǔ)音的二維時(shí)頻信息建模。Wave?U?Net 是由文獻(xiàn)[9]提出用于音源分離任務(wù)中,其結(jié)構(gòu)與U?Net 網(wǎng)絡(luò)結(jié)構(gòu)相同,只是將其應(yīng)用于音頻相關(guān)任務(wù)中,故稱為Wave?U?Net。Wave?U?Net 網(wǎng)絡(luò)直接在時(shí)域?qū)φZ(yǔ)音信號(hào)進(jìn)行一維卷積,不需進(jìn)行時(shí)頻變換,具有強(qiáng)大特征提取能力使得在語(yǔ)音分離任務(wù)中實(shí)現(xiàn)了不錯(cuò)的效果,但是網(wǎng)絡(luò)模型訓(xùn)練由于梯度消失的原因,訓(xùn)練不夠穩(wěn)定。

      本文提出一種改進(jìn)的U?Net 語(yǔ)音增強(qiáng)模型,將U?Net 網(wǎng)絡(luò)模型應(yīng)用于語(yǔ)音增強(qiáng)任務(wù)中,利用文獻(xiàn)[10]提出的殘差神經(jīng)網(wǎng)絡(luò),可以改善反向傳播過(guò)程中的梯度流以及防止梯度消失,解決了網(wǎng)絡(luò)模型訓(xùn)練不穩(wěn)定的問(wèn)題。將殘差神經(jīng)網(wǎng)絡(luò)(Residual Network)引入U(xiǎn)?Net 模型中,通過(guò)建立深層抽象特征與淺層特征之間的“跨層連接”,增強(qiáng)特征的傳播能力,提高特征信息的利用率,有助于梯度反向傳播,并加快了網(wǎng)絡(luò)的收斂速度,避免梯度消失現(xiàn)象,在一定程度上有效地提升了模型的性能,對(duì)比其他算法具有更好的增強(qiáng)效果。

      1 模型框架

      1.1 U?Net模型

      U?Net 模型是卷積神經(jīng)網(wǎng)絡(luò)的一種變形,因其結(jié)構(gòu)形似字母U 而得名U?Net。如圖1 所示,U?Net 的整體結(jié)構(gòu)對(duì)稱,編碼器是由多個(gè)卷積層組成,其中包括卷積濾波、批標(biāo)準(zhǔn)化、池化操作以及非線性變換。左邊是提取特征的編碼器,用于下采樣;右邊是在編碼的特征中構(gòu)造的解碼器,用于上采樣。

      圖1 U?Net 結(jié)構(gòu)

      圖1 中:左邊的矩形框代表多通道特征圖;右邊的矩形框代表從左邊復(fù)制得到的特征圖;矩形框上方的數(shù)字代表通道的數(shù)量;箭頭表示不同的操作,同一卷積層輸出的特征圖大小是一致的。圖中左邊部分的矩形框大小由上到下依次遞減,右邊的矩形框大小由下到上依次增強(qiáng),說(shuō)明編碼器在不斷提取特征之后,在解碼器中相應(yīng)地恢復(fù)特征。U?Net 結(jié)構(gòu)中的跳層連接是將左邊結(jié)構(gòu)輸出的特征圖拼接到右邊結(jié)構(gòu)中,即將底層特征復(fù)制到高層結(jié)構(gòu)中,能夠?qū)⑻卣餍畔⒃诘讓优c高層網(wǎng)絡(luò)中傳播,這種網(wǎng)絡(luò)結(jié)構(gòu)有助于梯度反向傳播。

      傳統(tǒng)的U?Net 模型中考慮到梯度消失的問(wèn)題,一般選擇的網(wǎng)絡(luò)層數(shù)較少,需要學(xué)習(xí)的參數(shù)數(shù)量較多,導(dǎo)致U?Net 網(wǎng)絡(luò)難以滿足日益復(fù)雜的需求;同時(shí),U?Net 網(wǎng)絡(luò)在形成極大計(jì)算量的同時(shí),會(huì)因?yàn)榇罅恐貜?fù)的特征提取過(guò)程造成很多冗余,最后導(dǎo)致整個(gè)網(wǎng)絡(luò)在訓(xùn)練的過(guò)程中收斂的速度很慢。

      1.2 殘差神經(jīng)網(wǎng)絡(luò)

      殘差神經(jīng)網(wǎng)絡(luò)(ResNet)是一種常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)模型,通過(guò)定義一種新的學(xué)習(xí)過(guò)程,改變了深層卷積神經(jīng)網(wǎng)絡(luò)的信息流向,解決了深層卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中網(wǎng)絡(luò)層數(shù)與其準(zhǔn)確度之間的問(wèn)題,改善了因網(wǎng)絡(luò)加深梯度消失的問(wèn)題,加快網(wǎng)絡(luò)收斂。如圖2 所示,其網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)“跨層連接”(Shortcut)的方式建立卷積層之間的跨層疊加,相當(dāng)于增加直連通道,在保留上一網(wǎng)絡(luò)層輸出的同時(shí)實(shí)現(xiàn)特征的重用。

      圖2 殘差塊結(jié)構(gòu)圖

      殘差神經(jīng)網(wǎng)絡(luò)是由殘差塊組成,基于殘差塊的優(yōu)化思想,其計(jì)算公式為:

      殘差塊可以分為直接映射部分和殘差部分,由式(1)可知:代表網(wǎng)絡(luò)的輸入;代表網(wǎng)絡(luò)的輸出;w為第層參數(shù);(,w)為殘差映射。殘差塊的優(yōu)化思想是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,學(xué)習(xí)擬合?的殘差映射比學(xué)習(xí)網(wǎng)絡(luò)中恒等映射更容易。

      由式(2)可知,式中的梯度始終大于1,故隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,梯度也不會(huì)消失。使用殘差神經(jīng)網(wǎng)絡(luò)能夠消除深層網(wǎng)絡(luò)訓(xùn)練中梯度消失的現(xiàn)象,使網(wǎng)絡(luò)結(jié)構(gòu)更加優(yōu)化且富有多樣性。其中,是上一層的輸出,通過(guò)兩個(gè)標(biāo)準(zhǔn)的3×3 卷積層,在該層輸出時(shí)通過(guò)“跨層連接”將與兩層卷積網(wǎng)絡(luò)輸出進(jìn)行疊加,得到殘差映射()。故該殘差神經(jīng)網(wǎng)絡(luò)表達(dá)式為:

      對(duì)殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分析發(fā)現(xiàn),殘差神經(jīng)網(wǎng)絡(luò)映射相比原始映射更容易學(xué)習(xí),通過(guò)中間堆疊層學(xué)習(xí)殘差映射,這種殘差映射能夠保證網(wǎng)絡(luò)訓(xùn)練過(guò)程中網(wǎng)絡(luò)性能不會(huì)下降,可以加快模型的訓(xùn)練速度,從而優(yōu)化實(shí)驗(yàn)結(jié)果。將殘差神經(jīng)網(wǎng)絡(luò)引入U(xiǎn)?Net 模型中,將其代替?zhèn)鹘y(tǒng)卷積層,通過(guò)建立上一層與后一層之間的“跨層連接”,使得整個(gè)網(wǎng)絡(luò)以殘差塊形式堆疊,有利于網(wǎng)絡(luò)模型的訓(xùn)練,以訓(xùn)練出更深的網(wǎng)絡(luò)且保證模型的性能不會(huì)退化。

      1.3 Residual?U?Net 網(wǎng)絡(luò)設(shè)計(jì)

      本文設(shè)計(jì)了一種Residual?U?Net 網(wǎng)絡(luò),結(jié)構(gòu)如圖3所示。以U?Net 網(wǎng)絡(luò)作為基本框架,加入殘差神經(jīng)網(wǎng)絡(luò),并進(jìn)行批標(biāo)準(zhǔn)化處理。左側(cè)網(wǎng)絡(luò)包括卷積層和最大池化層,編碼器提取每層信號(hào)的抽象特征,每層輸出的特征圖在頻率維度減少,而在時(shí)間維度上保持不變。在基線U?Net 結(jié)構(gòu)基礎(chǔ)上,在2 個(gè)3×3 卷積層和1 個(gè)2×2 最大池化層之間加入1 個(gè)兩層結(jié)構(gòu)的殘差塊,整個(gè)結(jié)構(gòu)通過(guò)殘差卷積模塊堆疊而成。卷積操作之后進(jìn)行批處理化,然后通過(guò)LeakyReLU 激活函數(shù)進(jìn)行激活,且卷積層均采用零填充方式進(jìn)行填充,以保證輸出特征圖與輸入保持一致。

      圖3 提出的Residual?U?Net 網(wǎng)絡(luò)結(jié)構(gòu)

      右側(cè)和左側(cè)網(wǎng)絡(luò)是對(duì)稱結(jié)構(gòu),右側(cè)網(wǎng)絡(luò)是上采樣過(guò)程,通過(guò)上采樣恢復(fù)特征圖大小。與左側(cè)結(jié)構(gòu)類似,采用3×3 的卷積核進(jìn)行反卷積操作,在2 個(gè)3×3 的卷積層之間加入1 個(gè)3×3 兩層結(jié)構(gòu)的殘差塊。訓(xùn)練目標(biāo)是將混合波形∈[-1,1]分離為個(gè)目標(biāo)源波形,,…,S,其 中S∈[-1,1],∈1,2,…,,為 音 頻信道數(shù),為音頻樣本數(shù)。對(duì)于單通道的語(yǔ)音增強(qiáng),設(shè)置=2 和=1。

      與基線U?Net 結(jié)構(gòu)相比,Residual?U?Net 做出以下改進(jìn):

      1)增加網(wǎng)絡(luò)層數(shù),用于提高網(wǎng)絡(luò)特征的提取能力;

      2)加入圖2 所示的殘差塊結(jié)構(gòu),加深網(wǎng)絡(luò)深度,用于解決網(wǎng)絡(luò)訓(xùn)練中梯度消失的問(wèn)題。

      2 實(shí)驗(yàn)設(shè)置

      2.1 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)仿真的計(jì)算機(jī)硬件為Intel Core i7?8700 與GTX1080Ti,軟件選擇TensorFlow 作為后端訓(xùn)練。

      2.2 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)選自VCTK語(yǔ)音數(shù)據(jù)庫(kù),該數(shù)據(jù)集由48 kHz采樣率下的干凈語(yǔ)音構(gòu)成。首先對(duì)所有語(yǔ)音數(shù)據(jù)下采樣到16 kHz,選取34 個(gè)來(lái)源于不同文本段落的說(shuō)話人數(shù)據(jù),其中30 個(gè)用于訓(xùn)練,2 個(gè)用于驗(yàn)證,2 個(gè)用于測(cè)試。使用的噪聲選取DEMAND 噪聲數(shù)據(jù)集,共有18 種不同的噪聲。構(gòu)造帶噪語(yǔ)音需要將干凈語(yǔ)音和噪聲按照一定信噪比疊加合成,按照隨機(jī)合成方式,選取10 種不同的噪聲按不同的信噪比(-10 dB,-5 dB,0 dB,5 dB,10 dB)與用于訓(xùn)練的30個(gè)干凈語(yǔ)音段落構(gòu)成190 000條訓(xùn)練集數(shù)據(jù),測(cè)試集選取不同于訓(xùn)練集的5 種噪聲,以保證測(cè)試模型能夠在不同信噪比和不同噪聲環(huán)境下的泛化能力。實(shí)驗(yàn)構(gòu)造兩種不同的測(cè)試數(shù)據(jù)集,測(cè)試集1為隨機(jī)選擇2 個(gè)說(shuō)話人語(yǔ)音段落,包含20 種不同的噪聲條件:5 種不同的噪聲類型與4 種不同的信噪比(2.5 dB,7.5 dB,12.5 dB 和17.5 dB)。測(cè)試集2 選擇2 個(gè)說(shuō)話人的語(yǔ)音段落,包含12種不同的噪聲條件:3種不同的噪聲類型與4種不同信噪比(-5 dB,0 dB,5 dB和10 dB)。

      2.3 參數(shù)設(shè)置

      訓(xùn)練模型選擇TensorFlow 搭建。模型訓(xùn)練時(shí),采用LeakyReLU 激活函數(shù)替換原基線網(wǎng)絡(luò)實(shí)驗(yàn)中的ReLU 函數(shù),LeakyReLU 激活函數(shù)能夠解決ReLU 函數(shù)訓(xùn)練中出現(xiàn)梯度為0、訓(xùn)練學(xué)習(xí)停止的問(wèn)題。LeakyReLU 激活函數(shù)公式為:

      式中?=0.01。實(shí)驗(yàn)中使用Adam(Adaptive Moment Estimation,Adam)優(yōu)化算法對(duì)隨機(jī)抽樣的訓(xùn)練數(shù)據(jù)訓(xùn)練,Adam 優(yōu)化算法主要利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)地調(diào)整試驗(yàn)參數(shù)的學(xué)習(xí)率,且經(jīng)過(guò)偏置校正后能夠使每一次迭代的學(xué)習(xí)率保持在穩(wěn)定的范圍內(nèi),使得參數(shù)比較平穩(wěn)。Adam 優(yōu)化算法如下:

      其中,式(5)、式(6)分別代表對(duì)梯度的一階矩估計(jì)和二階矩估計(jì);式(7)、式(8)分別代表對(duì)一階和二階矩估計(jì)的修正;式(9)是梯度更新規(guī)則。,是常數(shù),控制指數(shù)衰減;m,n是梯度的指數(shù)移動(dòng)均值,分別為梯度的一階矩、二階矩所得;?,?分別是m,n的修正值。實(shí)驗(yàn)中設(shè)置學(xué)習(xí)率為0.000 4,衰減率為0.9,為0.99,訓(xùn)練批量大小為16。網(wǎng)絡(luò)迭代訓(xùn)練過(guò)程中選擇均方差(Mean Square Error,MSE)來(lái)計(jì)算誤差,其訓(xùn)練公式如下:

      式中:(x)和y分別為對(duì)應(yīng)的干凈語(yǔ)音的第幀的時(shí)域特征和估計(jì)特征值;是網(wǎng)絡(luò)訓(xùn)練中的訓(xùn)練次數(shù)。

      2.4 評(píng)價(jià)指標(biāo)

      為了更好地評(píng)估訓(xùn)練的網(wǎng)絡(luò)模型,通過(guò)7 種客觀的語(yǔ)音增強(qiáng)評(píng)價(jià)指標(biāo)衡量不同網(wǎng)絡(luò)的性能。如表1 所列,PESQ 是國(guó)際電信聯(lián)盟推薦的評(píng)估語(yǔ)音質(zhì)量的標(biāo)準(zhǔn)方法,CSIG 主要關(guān)注語(yǔ)音信號(hào)失真的平均意見(jiàn)評(píng)分(MOS)預(yù)測(cè),CBAK 是背景噪聲侵入性的MOS 得分預(yù)測(cè),COVL 是對(duì)總體效應(yīng)的MOS 得分預(yù)測(cè),STOI 是語(yǔ)音短時(shí)客觀可懂度,fwSNRseg 是頻率加權(quán)分段信噪比。以上6 種評(píng)價(jià)指標(biāo)在整個(gè)測(cè)試數(shù)據(jù)集的平均值作為最終結(jié)果,其數(shù)據(jù)值越大,表示所含噪聲和失真越少,噪聲抑制能力越強(qiáng),語(yǔ)音質(zhì)量和可懂度越高。

      表1 評(píng)價(jià)指標(biāo)

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 基線方法對(duì)比實(shí)驗(yàn)分析

      為評(píng)估提出的網(wǎng)絡(luò)模型在復(fù)雜噪聲環(huán)境下的增強(qiáng)性能,設(shè)置了兩組實(shí)驗(yàn)分析Residual?U?Net 模型。表3為測(cè)試集1 條件下的帶噪語(yǔ)音(即未處理信號(hào))、Wiener(維納濾波)語(yǔ)音增強(qiáng)算法、基于生成式(Generative Adversarial Network,GAN)語(yǔ)音增強(qiáng)算法、基線U?Net 的語(yǔ)音增強(qiáng)算法的客觀評(píng)估結(jié)果。實(shí)驗(yàn)選用4 個(gè)客觀評(píng)價(jià)指標(biāo),分別為PESQ、CSIG、CBAK、COVL,如表2 所列,選擇相同實(shí)驗(yàn)環(huán)境下的4 組實(shí)驗(yàn)進(jìn)行對(duì)比分析。信噪比設(shè)置為與訓(xùn)練集不同的4 種(2.5 dB,7.5 dB,12.5 dB和17.5 dB)進(jìn)行測(cè)試。選擇768 條測(cè)試語(yǔ)音,然后取其各類評(píng)價(jià)指標(biāo)對(duì)應(yīng)實(shí)驗(yàn)結(jié)果的平均值。

      表2 提出方法與不同參考方法的客觀指標(biāo)評(píng)估結(jié)果

      可以看出本文算法的PESQ 值可達(dá)3.04,效果明顯優(yōu)于其他算法,其平均分?jǐn)?shù)較基線方法提高了5.9%。這表明Residual?U?Net 語(yǔ)音增強(qiáng)算法可以有效地去除噪聲,具有更好的聽覺(jué)質(zhì)量。

      3.2 不同參考算法對(duì)比實(shí)驗(yàn)分析

      第一組實(shí)驗(yàn)驗(yàn)證了提出的網(wǎng)絡(luò)模型算法比其他幾種參考方法增強(qiáng)的效果更好,為進(jìn)一步證明本文算法在低信噪比條件下的效果優(yōu)于基線算法,選擇測(cè)試集2 進(jìn)行第二組實(shí)驗(yàn)。實(shí)驗(yàn)選取3 種不同的語(yǔ)音質(zhì)量客觀評(píng)價(jià)指標(biāo):PESQ、STOI、fwSNRseg。如表3 所列,在不同信噪比(-5 dB,0 dB,5 dB 和10 dB)范圍內(nèi),與基線U?Net方法相比,提出的Residual?U?Net 方法的語(yǔ)音增強(qiáng)效果更好,噪聲抑制能力有所提高,其中PESQ指標(biāo)相較于基線網(wǎng)絡(luò)平均提高5.08%,STOI 指標(biāo)相較于基線網(wǎng)絡(luò)提高了1.04%,fwSNRseg 指標(biāo)相較于基線網(wǎng)絡(luò)提高了0.45 dB;從不同信噪比的增強(qiáng)效果分析,在信噪比為-5 dB 的噪聲環(huán)境下,本文算法的PESQ 指標(biāo)得分優(yōu)于基線算法7.9%,STOI 得分較基線算法提高了1.2%,fwSNRseg 指標(biāo)比基線算法增強(qiáng)了0.51 dB。由總體評(píng)估可得,本文提出的Residual?U?Net 方法的語(yǔ)音增強(qiáng)效果比基線U?Net網(wǎng)絡(luò)效果好,尤其是在低信噪比條件下,較基線算法可以更好地提升語(yǔ)音的聽覺(jué)質(zhì)量和可懂度。

      表3 提出的方法與基線方法的客觀指標(biāo)評(píng)估結(jié)果

      3.3 語(yǔ)譜圖比較

      語(yǔ)譜圖能夠直觀地反映語(yǔ)音質(zhì)量的好壞,故分析比較了Residual?U?Net 與基線U?Net這兩種算法增強(qiáng)后的語(yǔ)譜圖,以一條信噪比為0 dB 的帶噪語(yǔ)音為例,增強(qiáng)后的語(yǔ)譜圖如圖4 所示。

      圖4a)和圖4b)分別給出了一條說(shuō)話人干凈語(yǔ)音和被0 dB 的SP05 噪聲(DEMAND 噪聲數(shù)據(jù)集中一條噪聲樣本)污染后的帶噪語(yǔ)音的語(yǔ)譜圖;圖4c)和圖4d)分別為基線U?Net 算法和提出的Residual?U?Net 算法增強(qiáng)的語(yǔ)譜圖。從語(yǔ)譜圖可得,這兩種算法都可以去除大部分噪聲,從圖中圓圈部分可知,本文方法相較于基線方法可以明顯地恢復(fù)細(xì)節(jié)處的語(yǔ)音信息。與圖4a)干凈語(yǔ)音及圖4c)基線增強(qiáng)語(yǔ)音的頻譜圖相比,圖4d)Residual?U?Net 算法能夠有效恢復(fù)低頻段語(yǔ)音部分,且圖4d)的細(xì)節(jié)恢復(fù)效果優(yōu)于圖4c)??傮w而言,圖4c)與圖4d)算法相比,基線算法對(duì)語(yǔ)音段的去噪效果明顯,但是對(duì)非語(yǔ)音段噪聲去噪效果不夠明顯。而Residual?U?Net 算法不僅對(duì)語(yǔ)音段去噪效果好,對(duì)非語(yǔ)音段去噪效果同樣明顯,能夠有效恢復(fù)低頻段語(yǔ)音,還能恢復(fù)高頻段的部分語(yǔ)音成分。

      圖4 語(yǔ)譜圖對(duì)比

      總而言之,本文提出的Residual?U?Net 語(yǔ)音增強(qiáng)算法相較于基線方法能夠更有效地去除帶噪語(yǔ)音中的噪聲部分。對(duì)比圖4a)中干凈語(yǔ)音語(yǔ)譜圖,提出的語(yǔ)音增強(qiáng)算法和基線算法相比,增強(qiáng)之后的語(yǔ)譜圖更接近干凈語(yǔ)音語(yǔ)譜圖,說(shuō)明提出的語(yǔ)音增強(qiáng)算法效果更好。

      4 結(jié) 語(yǔ)

      將圖像分割中常用的U?Net 網(wǎng)絡(luò)應(yīng)用到語(yǔ)音增強(qiáng)領(lǐng)域,并與殘差神經(jīng)網(wǎng)絡(luò)結(jié)合應(yīng)用到U?Net 網(wǎng)絡(luò)中,構(gòu)造了一種改進(jìn)的Residual?U?Net 語(yǔ)音增強(qiáng)算法,將殘差神經(jīng)網(wǎng)絡(luò)中的殘差塊替換原U?Net 中的連續(xù)雙層卷積塊,緩解梯度消失的同時(shí)構(gòu)成了一種結(jié)構(gòu)更為簡(jiǎn)單、參數(shù)較少的模型,實(shí)現(xiàn)了語(yǔ)音增強(qiáng)。實(shí)驗(yàn)結(jié)果表明,與經(jīng)典神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)算法以及基線U?Net 算法相比,本文提出的Residual?U?Net 算法具有更好的語(yǔ)音質(zhì)量及可懂度。

      注:本文通訊作者為許春冬。

      猜你喜歡
      基線殘差語(yǔ)音
      基于雙向GRU與殘差擬合的車輛跟馳建模
      適用于MAUV的變基線定位系統(tǒng)
      航天技術(shù)與甚長(zhǎng)基線陣的結(jié)合探索
      基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      對(duì)方正在輸入……
      一種改進(jìn)的干涉儀測(cè)向基線設(shè)計(jì)方法
      松原市| 湟源县| 临安市| 汨罗市| 浦北县| 靖州| 昔阳县| 舞钢市| 泸州市| 恩平市| 墨脱县| 顺平县| 松原市| 巴马| 宜章县| 保靖县| 兰考县| 玉山县| 云梦县| 进贤县| 郓城县| 东乡县| 无锡市| 准格尔旗| 东丽区| 留坝县| 德江县| 樟树市| 拜泉县| 台南县| 连平县| 莱州市| 武强县| 施秉县| 龙泉市| 白水县| 鄱阳县| 南岸区| 徐汇区| 井研县| 安国市|