• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積編解碼器和門控循環(huán)單元的語音分離算法

      2020-08-06 08:29:30陳修凱陸志華
      計(jì)算機(jī)應(yīng)用 2020年7期
      關(guān)鍵詞:解碼器網(wǎng)絡(luò)結(jié)構(gòu)語音

      陳修凱,陸志華,周 宇

      (寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江寧波 315211)

      (*通信作者電子郵箱zhouyu@nbu.edu.cn)

      0 引言

      語音是人們?nèi)粘I钪凶畛S玫囊环N交流方式,在聊天過程中人們感興趣的目標(biāo)語音往往會(huì)被一些額外的噪聲和表面反射的混響所破壞,所以將目標(biāo)語音和背景干擾區(qū)分開來是一個(gè)至關(guān)重要的問題。盡管人類能夠非常容易地進(jìn)行語音分離,即能夠非常容易地獲取自己感興趣的目標(biāo)語音。但是經(jīng)過大量的事實(shí)證明,構(gòu)建一個(gè)自動(dòng)系統(tǒng)來匹配人類聽覺系統(tǒng)來執(zhí)行語音分離問題是非常困難的。Cherry 曾寫到:“還沒有提出一種能夠徹底解決‘雞尾酒會(huì)問題’[1]的算法”[2]。在語音信號(hào)領(lǐng)域,他的結(jié)論到目前為止仍是成立的。

      語音分離問題是盲源分離(Blind Source Separation,BSS)問題中的一個(gè)重要組成部分。一直以來語音分離問題是被當(dāng)作信號(hào)處理問題來研究,幾十年來,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的飛速發(fā)展,語音分離問題被當(dāng)作成監(jiān)督性的學(xué)習(xí)問題來研究。將深度學(xué)習(xí)引入有監(jiān)督的語音分離中已經(jīng)成為了當(dāng)前的主流模式,而且大幅度提升了語音分離的性能[3-5]。

      文獻(xiàn)[6]通過深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)重構(gòu)被屏蔽的掩碼成分提高了語音分離的質(zhì)量;文獻(xiàn)[7]提出一種頻譜變化感知損失函數(shù),通過對(duì)頻譜變化隨時(shí)間變化較大的T-F 單元分配更高的權(quán)重,提高了語音分離的質(zhì)量;文獻(xiàn)[8]提出了一種基于復(fù)數(shù)信號(hào)逼近的長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)方法,來解決傳統(tǒng)DNN 方法不能充分利用語音信號(hào)時(shí)間信息的問題,從而提高了語音的分離質(zhì)量。

      上述文獻(xiàn)中的算法均提高了語音分離的質(zhì)量,但是它們均存在一定的缺點(diǎn):這些方法大多數(shù)都使用時(shí)頻(Time-Frequency,T-F)單元的頻譜圖功能而不是時(shí)域波形。但是,頻譜圖功能具有某些局限性:首先,諸如離散傅里葉變換及其逆運(yùn)算之類的預(yù)處理和后處理運(yùn)算量很大,并且會(huì)在輸出信號(hào)中造成失真;其次,這些方法通常僅估計(jì)幅度,并使用噪聲相位來產(chǎn)生增強(qiáng)的語音。研究表明,相位可以提高語音質(zhì)量[9]。Pascual 等[10]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的語音增強(qiáng)算法,在該算法中,他們對(duì)混合信號(hào)的原始波形進(jìn)行操作,考慮到了混合信號(hào)中的相位信息。Tan 等[11]提出了一種基于LSTM 網(wǎng)絡(luò)和卷積編解碼器(Convolutional Encoder Decoder,CED)相結(jié)合的語音增強(qiáng)算法,來解決實(shí)時(shí)的單聲道語音增強(qiáng)。受Pascual 等[10]和Tan等[11]的啟發(fā),本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的端到端語音分離改進(jìn)算法,以CED 網(wǎng)絡(luò)和門控循環(huán)單元(Gated Recurrent Unit,GRU)[12]網(wǎng)絡(luò)相結(jié)合,再利用混合語音信號(hào)的原始波形作為輸入特征。

      1 門控循環(huán)單元和卷積編解碼器

      1.1 門控循環(huán)單元

      LSTM 網(wǎng)絡(luò)是在遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)基礎(chǔ)之上所做改進(jìn)的一種網(wǎng)絡(luò),在RNN 網(wǎng)絡(luò)的基礎(chǔ)上引入了記憶單元(memory cell)和門機(jī)制(gate mechanism)。LSTM 在網(wǎng)絡(luò)結(jié)構(gòu)上與RNN 相比較,增加了輸入門、遺忘門、輸出門等結(jié)構(gòu)單元。其結(jié)構(gòu)如圖1所示。

      圖1 LSTM結(jié)構(gòu)Fig.1 LSTM structure

      各個(gè)門中的計(jì)算公式如下所示:

      其中:Wf,Wi,Wa,Wo是各個(gè)門的輸入權(quán)重;Uf,Ui,Ua,Uo是各個(gè)門的循環(huán)權(quán)重;bf,bi,ba,bo是各個(gè)門的偏差;Xt是t時(shí)刻的輸入向量;h是tanh激活函數(shù);δ是sigmoid激活函數(shù)。

      GRU 網(wǎng)絡(luò)是在LSTM 基礎(chǔ)上改進(jìn)的一種網(wǎng)絡(luò),它既具有LSTM能夠保留長(zhǎng)期序列信息的能力,同時(shí)又能夠減少梯度消失。GRU中只有兩個(gè)門:更新門和重置門。GRU 網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)相比較,其最大的優(yōu)勢(shì)就是結(jié)構(gòu)更簡(jiǎn)單,計(jì)算量更小,訓(xùn)練速度更快。GRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 GRU結(jié)構(gòu)Fig.2 GRU structure

      在本文中通過如下公式定義t時(shí)刻GRU 輸出值ht的計(jì)算過程:

      其中,rt表示重置門,zt表示更新門,δ表示sigmoid 激活函數(shù)。sigmoid 激活函數(shù)可以將數(shù)據(jù)映射到[0,1]上來確定門控信號(hào)。更新門具有兩重功能:遺忘功能、記憶功能。它既能夠?qū)υ瓉黼[藏狀態(tài)不相關(guān)的歷史信息選擇性遺忘,又可以對(duì)候選隱藏狀態(tài)選擇性記憶,保留下與當(dāng)前時(shí)刻依賴性強(qiáng)的長(zhǎng)短時(shí)信息。

      1.2 卷積編解碼器

      CED 網(wǎng)絡(luò)是一種非常靈活的網(wǎng)絡(luò)結(jié)構(gòu),主要由編碼器(encoder)和解碼器(decoder)組成,通常使用在網(wǎng)絡(luò)的預(yù)訓(xùn)練、數(shù)據(jù)降維和特征提取等中。編碼器由多個(gè)卷積層組成,與之對(duì)應(yīng)的解碼器由多個(gè)反卷積層組成。在編碼階段,輸入信號(hào)通過卷積層進(jìn)行投影和壓縮,參數(shù)校正線性單元(Parametric Rectified Linear Units,PReLUs)應(yīng)用在所有的卷積層和反卷積層。編碼器和解碼器之間通過跳連接,因?yàn)檩斎牒洼敵龉蚕硐嗤幕A(chǔ)結(jié)構(gòu),即自然語音的結(jié)構(gòu)。通過跳連接來連接編碼器和解碼器,可以減少傳輸過程中語音信號(hào)信息的丟失,而且使用跳連接可以直接將波形信息傳遞到解碼器中。CED 和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)相比,具有更少的參數(shù)。CED 結(jié)構(gòu)如圖3所示。

      圖3 CED結(jié)構(gòu)Fig.3 CED structure

      其中z是服從正態(tài)分布的噪聲向量[13]。

      2 本文提出的改進(jìn)算法

      2.1 問題描述

      在單通道語音分離問題中,混合的語音信號(hào)時(shí)域表達(dá)式可以表示為:

      其中:xi(t)表示第i個(gè)說話人的時(shí)域信號(hào),x(t)表示混合后的時(shí)域信號(hào),n(t)表示噪聲信號(hào)。在不考慮噪聲的情況下,混合信號(hào)的時(shí)域表達(dá)式可以簡(jiǎn)化為:

      本文僅研究?jī)蓚€(gè)說話人的情況,即i=1,2。此時(shí)混合信號(hào)的時(shí)域表達(dá)式可以表示為:

      2.2 網(wǎng)絡(luò)結(jié)構(gòu)

      本文提出的卷積神經(jīng)網(wǎng)絡(luò)是以CED 和GRU 相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),是根據(jù)文獻(xiàn)[11]改編而來的一種網(wǎng)絡(luò)結(jié)構(gòu),其結(jié)構(gòu)如圖4所示。

      圖4 基于CED-GRU的語音分離結(jié)構(gòu)Fig.4 Speech separation structure based on CED-GRU

      本文使用混合信號(hào)的波形點(diǎn)作為輸入特征。輸入信號(hào)通過編碼器被編碼到一個(gè)較高維的潛在空間中,然后由兩個(gè)對(duì)稱的GRU 層對(duì)潛在的特征向量的序列進(jìn)行建模。隨后,解碼器將GRU層的輸出序列轉(zhuǎn)換回原始的輸入形狀。

      卷積層的目的和作用是捕獲和學(xué)習(xí)輸入的特征,而CNN層數(shù)越多,特征的學(xué)習(xí)效果越好,但是參數(shù)學(xué)習(xí)將會(huì)變得更加困難。因此,本文模型在編碼階段使用了11 層卷積層,在解碼階段使用了11 層反卷積層,其性能比單層CNN 模型好得多。其中卷積層和反卷積層的具體結(jié)構(gòu)如下:16 384×1、8 192×16、4 096×32、2 048×32、1 024×64、512×64、256×128、128×128、64×256、32×256、16×512;GRU 的結(jié)構(gòu)為:8×1 024、8×1 024。

      在本文提出的網(wǎng)絡(luò)中,將指數(shù)線性單元激活函數(shù)(Exponential Linear Unit,ELU)應(yīng)用于除輸出層以外的所有卷積層和反卷積層。與整流線性單元(Rectified Linear Unit,ReLU)相比,已經(jīng)證明ELU 收斂更快、泛化更好。在輸出層使用softplus 激活函數(shù)。此外,在每次卷積或反卷積之后和激活之前都采用批歸一化處理。編碼器和解碼器中,內(nèi)核數(shù)需保持一致:在編碼器中內(nèi)核數(shù)逐漸增加,而解碼器中內(nèi)核數(shù)逐漸減少。

      在本文中提出的算法模型其訓(xùn)練次數(shù)為100,優(yōu)化算法使用的是Adam 優(yōu)化算法,批大小設(shè)置為200,學(xué)習(xí)率設(shè)置為0.0002。

      2.3 損失函數(shù)

      由于是通過解碼器端輸出估計(jì)的純凈語音信號(hào)的波形,因此本文直接使用尺度不變信噪比(Scale-Invariant Signal-to-Noise Ratio,SI-SNR)[14-15]來設(shè)計(jì)損失函數(shù)。SI-SNR 也是用于語音分離質(zhì)量評(píng)價(jià)的一項(xiàng)重要指標(biāo)。SI?SNR的表達(dá)式:

      其中:是估計(jì)出的目標(biāo)信號(hào),s是純凈的目標(biāo)信號(hào)。為了保證尺度的不變性,通常情況下都要對(duì)和s做均值為0 的歸一化處理。通常情況下,SI?SNR的值越大,表示語音分離的質(zhì)量越好。但是由于訓(xùn)練過程中使用梯度下降算法來訓(xùn)練模型,所以實(shí)際的損失函數(shù)定義為。

      3 實(shí)驗(yàn)和結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      通過使用TIMIT 數(shù)據(jù)集[16]來對(duì)本文提出的系統(tǒng)進(jìn)行評(píng)估,以解決兩個(gè)說話人的語音分離問題,本文比較男性和男性、男性和女性、女性和女性說話人之間的語音分離效果。

      TIMIT 數(shù)據(jù)集中共有630 位說話人,其中男性共有438人,女性共有192人,每位說話人共說10句話。訓(xùn)練數(shù)據(jù)集中男性有326 人,女性有136 人;測(cè)試數(shù)據(jù)中男性有112 人,女性有56人。本文所使用的訓(xùn)練數(shù)據(jù)集是從TIMIT的訓(xùn)練數(shù)據(jù)集中隨機(jī)挑選出男性40 人,女性20 人,然后對(duì)兩個(gè)不同說話人的句子進(jìn)行混合;本文所使用的測(cè)試數(shù)據(jù)集是從TIMIT 的測(cè)試數(shù)據(jù)集中隨機(jī)挑選出男性20 人,女性10 人,然后對(duì)兩個(gè)不同說話人的句子進(jìn)行混合。訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)是在信噪比在-5 dB和5 dB之間均勻選擇進(jìn)行混合而生成的。

      3.2 評(píng)價(jià)指標(biāo)

      多說話人的語音分離目標(biāo)是提高語音信號(hào)的語音質(zhì)量或者提高語音信號(hào)的清晰度,這需要通過相應(yīng)的語音質(zhì)量評(píng)價(jià)來說明語音分離質(zhì)量的優(yōu)劣。

      常用的用于客觀質(zhì)量評(píng)價(jià)和清晰度評(píng)價(jià)的指標(biāo)有如下幾種。

      1)語音質(zhì)量的感知評(píng)價(jià)(Perceptual Evaluation of Speech Quality,PESQ)[17]:PESQ 是最廣泛用于評(píng)估語音質(zhì)量的客觀度量之一。PESQ 版本P.862.1/2 產(chǎn)生的數(shù)字范圍為1~4.5,隨著得分的升高,表示語音分離的質(zhì)量越好。

      2)短時(shí)目標(biāo)可懂度(Short-Time Objective Intelligibility,STOI)[18]:STOI 是用于評(píng)估語音清晰度的最廣泛使用的目標(biāo)度量。STOI 表示語音可理解性的聽力測(cè)試結(jié)果,通常用0~1的數(shù)字來評(píng)價(jià)語音分離的質(zhì)量,其中1 表示語音完全可理解,0表示語音完全不理解。

      3)BSS_Eval 工具箱[19]:BSS_Eval 工具箱中包括“源失真比”(Source to Distortion Ratio,SDR),SDR 表示語音分離系統(tǒng)的失真程度;“源干擾比”(Signal to Interference Ratio,SIR),是比較非目標(biāo)聲源噪聲與目標(biāo)聲音的分離程度;“源偽像比”(Signal to Artifact Ratio,SAR),是指在語音分離過程中引入的人工誤差程度。通常情況下,這三者的值越高,就表示語音分離的質(zhì)量越好:

      3.3 實(shí)驗(yàn)結(jié)果分析

      為了驗(yàn)證本文算法的優(yōu)劣性,使用當(dāng)前最具有代表性的幾種語音分離算法與本文算法做對(duì)比,包括基于排列不變訓(xùn)練(Permutation Invariant Training,PIT)的多說話人語音分離算法[20]、基于深度聚類(Deep Clustering,DC)的單通道多說話人語音分離算法[21]、基于深度吸引網(wǎng)絡(luò)(Deep Attractor Network,DAN)的多說話人語音分離算法[22]和文獻(xiàn)[14]中提出的語音分離算法。

      其中PIT 算法、DC 算法和DAN 算法都是以短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)后的頻譜作為輸入特征,文獻(xiàn)[14]中的算法是以原始波形作為輸入特征。

      使用不同算法的PESQ 值對(duì)比如表1 所示。使用不同算法的STOI值對(duì)比如表2所示。

      表1 不同算法的PESQ平均值Tab.1 Average PESQ of different algorithms

      表2 不同算法的STOI平均值Tab.2 Average STOI of different algorithms

      使用不同算法的SDR、SAR、SIR 平均值對(duì)比如圖5~7所示。

      通過表1、表2、圖5、圖6、圖7中的數(shù)據(jù)可以發(fā)現(xiàn),本文算法的PESQ值、STOI值SDR平均值、SAR平均值和SIR平均值,均優(yōu)于PIT 算法、DC 算法、DAN 算法和文獻(xiàn)[14]算法的各項(xiàng)評(píng)價(jià)指標(biāo)。

      其中本文算法與PIT 算法相比,男性和男性的PESQ 值提高了1.16 個(gè)百分點(diǎn),STOI 值提高了0.29 個(gè)百分點(diǎn);男性和女性的PESQ 值提高了1.37 個(gè)百分點(diǎn),STOI 值提高了0.27 個(gè)百分點(diǎn);女性和女性的PESQ值提高了1.08個(gè)百分點(diǎn),STOI值提高了0.3 個(gè)百分點(diǎn)。本文算法與DC 算法相比,男性和男性的PESQ 值提高了0.87 個(gè)百分點(diǎn),STOI值提高了0.21 個(gè)百分點(diǎn);男性和女性的PESQ值提高了1.11個(gè)百分點(diǎn),STOI值提高了0.22 個(gè)百分點(diǎn);女性和女性的PESQ 值提高了0.81 個(gè)百分點(diǎn),STOI 值提高了0.24 個(gè)百分點(diǎn)。本文算法與DAN 算法相比,男性和男性的PESQ值提高了0.64個(gè)百分點(diǎn),STOI值提高了0.24 個(gè)百分點(diǎn);男性和女性的PESQ 值提高了1.01 個(gè)百分點(diǎn),STOI值提高了0.34個(gè)百分點(diǎn);女性和女性的PESQ值提高了0.73 個(gè)百分點(diǎn),STOI 值提高了0.29 個(gè)百分點(diǎn)。本文算法與文獻(xiàn)[14]算法相比,男性和男性的PESQ 值提高了0.13 個(gè)百分點(diǎn),STOI值提高了0.09個(gè)百分點(diǎn);男性和女性的PESQ值提高了0.29 個(gè)百分點(diǎn),STOI 值提高了0.07 個(gè)百分點(diǎn);女性和女性的PESQ 值提高了0.17 個(gè)百分點(diǎn),STOI 值提高了0.06 個(gè)百分點(diǎn)。

      圖5 不同算法的SDR平均值Fig.5 Average SDR of different algorithms

      圖6 不同算法的SAR平均值Fig.6 Average SAR of different algorithms

      圖7 不同算法的SIR平均值Fig.7 Average SIR of different algorithms

      4 結(jié)語

      本文主要介紹了一種卷積神經(jīng)網(wǎng)絡(luò)端到端的語音分離改進(jìn)方法。為了能夠充分利用混合語音信號(hào)中相位和幅值的信息,以混合信號(hào)的原始波形作為輸入特征。除此之外,本文提出的模型是基于卷積編解碼器網(wǎng)絡(luò)結(jié)構(gòu)和門控循環(huán)單元網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合的一種網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文提出的語音分離算法的各項(xiàng)評(píng)價(jià)指標(biāo)均明顯優(yōu)于PIT 算法、DC 算法、DAN算法和文獻(xiàn)[14]中算法,這證明了本文算法的有效性。

      目前本文中只是考慮了兩個(gè)說話人的語音分離情況,在未來的工作中,將會(huì)考慮到多個(gè)說話人的語音分離情況,并且進(jìn)一步提升語音分離的質(zhì)量。

      猜你喜歡
      解碼器網(wǎng)絡(luò)結(jié)構(gòu)語音
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
      万山特区| 呼图壁县| 海门市| 河西区| 荣成市| 泰和县| 阿坝| 安溪县| 都安| 湖口县| 云阳县| 抚松县| 蕲春县| 柳江县| 淄博市| 游戏| 叙永县| 临清市| 台北市| 共和县| 清丰县| 炎陵县| 进贤县| 新建县| 张家口市| 平舆县| 吴忠市| 泸西县| 左权县| 华安县| 大余县| 汤原县| 汉寿县| 界首市| 浦县| 翁牛特旗| 美姑县| 蓬莱市| 巴塘县| 海伦市| 大厂|