• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的單音源語音分離方法研究

      2022-06-15 02:33:00
      電聲技術(shù) 2022年4期
      關(guān)鍵詞:解碼器時(shí)域編碼器

      陳 瑤

      (西京學(xué)院,陜西 西安 710123)

      0 引言

      在日常交流生活環(huán)境中,語音傳遞多數(shù)伴隨著多方面的噪聲,但人耳可利用聽到的混合語音,經(jīng)過大腦皮層篩選,得到所需信息,即從噪聲中分離得到目標(biāo)語音信息,這種現(xiàn)象稱為“雞尾酒會(huì)效應(yīng)”[1]。早間,學(xué)術(shù)界對(duì)語音交互的方法研究不深,實(shí)驗(yàn)結(jié)果在相位、語音的質(zhì)量以及計(jì)算頻譜圖時(shí)間等方面都存在著較大的誤差,因此有必要提高語音分離的質(zhì)量,促進(jìn)交互技術(shù)的發(fā)展,為生活帶來便利。

      1 算法框架

      語音分離技術(shù)通常使用頻域網(wǎng)絡(luò)進(jìn)行處理,時(shí)域分離網(wǎng)絡(luò)近幾年才被提出并實(shí)驗(yàn)。時(shí)域分離網(wǎng)絡(luò)可以有效地減小相位差,用特征提取替代短時(shí)傅里葉變換,滿足時(shí)間與頻率局部化的變化,直接對(duì)源波形處理。基于前期對(duì)方法的調(diào)研,本文選擇使用一種全卷積時(shí)域分離網(wǎng)絡(luò)。這是一種端到端的深度學(xué)習(xí)方法,由時(shí)頻分解、特征提取、目標(biāo)分離、模型訓(xùn)練及波形合成五個(gè)模塊組成[2]。

      全卷積時(shí)域分離網(wǎng)絡(luò)主要包括編碼、分離及解碼三個(gè)處理階段。首先,使用編碼器將兩段波形片段混合;其次將混合后的波形片段轉(zhuǎn)換為特征空間中的相應(yīng)片段[3],并估量每個(gè)時(shí)間步長(zhǎng)中源的乘法函數(shù);最后用解碼器對(duì)被掩碼的編碼器特征進(jìn)行變換從而重構(gòu)波形。整個(gè)流程如圖1 所示。

      圖1 全卷積分離圖

      全卷積分離網(wǎng)絡(luò)由多個(gè)一維卷積塊組成。在建模中,使用時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)替代循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN),使訓(xùn)練、驗(yàn)證的速度加快。TCN中的每一層都包含呈指數(shù)增長(zhǎng)的一維卷積的擴(kuò)展因子。時(shí)域分離方法的性能與編碼器窗口大小有關(guān),窗口越小,得到的精度越高,分離模塊需要處理向量的長(zhǎng)度也就越長(zhǎng)。

      1.1 卷積分離模塊

      本次實(shí)驗(yàn)使用兩段純凈語音合成作為混合語音。假設(shè)有2 位說話人的語音為x1(t),x2(t),y(t)為混合語音,x1(t)為目標(biāo)語音,x2(t)為噪聲。定義如下:

      混合后,將語音分成n段長(zhǎng)度為1 的重疊長(zhǎng)度語音,sk=1,2,…,n∈D1×1,k為分段索引。經(jīng)一維卷積運(yùn)算將sk轉(zhuǎn)化為M維,再通矩陣乘法重構(gòu):

      式中:U∈Dn×X包含n個(gè)向量(編碼器基函數(shù)),每個(gè)向量的長(zhǎng)度為X,H是一個(gè)可選的非線性函數(shù)(非負(fù)數(shù))。第一個(gè)轉(zhuǎn)化模塊后,加入非線性激活函數(shù)和歸一化運(yùn)算。

      1.2 編/解碼器

      卷積神經(jīng)網(wǎng)絡(luò)包含了編碼器和解碼器。在編碼時(shí),輸入一段語音信號(hào)y(t),通過多層卷積處理并且在每一層中輸入一個(gè)帶有參數(shù)的線性整流函數(shù)(PReLU)。

      式中:c為輸入特征,fE(*)是輸入特征中帶向量c的映射函數(shù)。

      解碼時(shí),解碼器即是卷積運(yùn)算的逆操作。其中,xd(t)是說話人的分離信號(hào)fD(*)的解碼器的映射函數(shù)。z是噪聲向量,服從正態(tài)分布。計(jì)算如下:

      并用一維轉(zhuǎn)置卷積重構(gòu)波形,并表示為一個(gè)矩陣乘法:

      1.3 端到端網(wǎng)絡(luò)

      基于端到端的語音分離,將輸入的語音信號(hào)直接使用時(shí)域上的原始波形點(diǎn)作為輸入特征,進(jìn)行特征提取[4]。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 參數(shù)設(shè)置

      從語料庫中分別提取兩種人的50 個(gè)純凈語音,信噪比在-5~5 dB,以最小值生成30 h 的訓(xùn)練集、10 h 的驗(yàn)證集以及5 h 的評(píng)估集。再將每個(gè)數(shù)據(jù)集裁剪成10 小段。波形均以8 kHz 重新采樣。

      初始學(xué)習(xí)率設(shè)置為10-3,訓(xùn)練后設(shè)為10-8。優(yōu)化器使用Adam。N(自動(dòng)編碼器中過濾器數(shù)量)=256,L(過濾器長(zhǎng)度)=20,B(通道數(shù)和剩余路徑的1×1 轉(zhuǎn)換塊)=256,H(卷積塊中通道數(shù))=512,P(卷積塊中內(nèi)核大小)=3。

      2.2 實(shí)驗(yàn)分析

      為了準(zhǔn)確地評(píng)估算法的性能,取信噪比都為5 dB 的音頻并生成頻譜圖,如圖2 所示。圖2(a)表示混合聲音的頻譜,圖2(b)表示分離后目標(biāo)語音頻譜,圖2(c)表示分離后噪聲頻譜。從圖2 可以看出,圖2(a)在1—2 區(qū)域內(nèi),頻譜變換多曲折,而在圖2(b)相同區(qū)域中頻譜變化則有一小段趨于0;圖2(a)的最高頻譜值在0.5~0.6,圖2(c)的最高頻譜值則在0.9~1.0;圖2(b)頻譜的最低值出現(xiàn)在2—3 區(qū)域內(nèi),圖2(c)最低值則在1—2區(qū)域內(nèi)。后面兩個(gè)子圖與圖2(a)變化明顯,顯然分離的效果較好。

      圖2 spk1 分離前后的頻譜圖

      2.3 對(duì)比實(shí)驗(yàn)

      頻域分離作為語音處理中的重要部分,主要是輸入一段時(shí)域語音信號(hào),通過一、二維變換成二維頻域信號(hào)[5]。在分解時(shí),把卷積后的時(shí)域語音信號(hào)輸入到短時(shí)傅里葉變換內(nèi),變成瞬時(shí)語音信號(hào)。代替編/解碼器,重構(gòu)波形,以此得到更加稀疏和結(jié)構(gòu)化的聲學(xué)特征表征。spk2 分離前后的時(shí)頻如圖3所示。

      經(jīng)過對(duì)比,從圖3 可以明顯看出,用時(shí)頻方法分離后的音頻譜圖3(b)和原語音頻譜圖3(a)的波形大體相同,只有小部分波形有變化。圖3(a)最高頻譜值在0.5~0.75,與圖3(b)極其相似,只有圖3(c)中才有較小的變化,其頻譜最高在0.5~0.6。說明分離語音質(zhì)量不好,無法完全分離。因此用時(shí)域方法分離后音頻的質(zhì)量要比頻域方法更優(yōu)。

      圖3 spk2 分離前后時(shí)頻圖

      3 結(jié)語

      全卷積分離網(wǎng)絡(luò)使用的是時(shí)域分離方法,即在時(shí)域上使用編碼器-解碼器對(duì)信號(hào)建模,并在非負(fù)編碼器輸出音源,重構(gòu)波形。該模型計(jì)算量小,延遲相對(duì)較短,是解決語音分離相對(duì)較優(yōu)的方法。在今后的工作中,研究者仍需要克服神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)階段產(chǎn)生噪聲對(duì)實(shí)驗(yàn)的偏差。

      猜你喜歡
      解碼器時(shí)域編碼器
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于時(shí)域信號(hào)的三電平逆變器復(fù)合故障診斷
      基于FPGA的同步機(jī)軸角編碼器
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      基于極大似然準(zhǔn)則與滾動(dòng)時(shí)域估計(jì)的自適應(yīng)UKF算法
      基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      都兰县| 柘荣县| 中西区| 澄迈县| 长汀县| 堆龙德庆县| 宣化县| 漾濞| 铅山县| 伊宁县| 崇阳县| 米易县| 福海县| 梅河口市| 新邵县| 金溪县| 德阳市| 布拖县| 湾仔区| 承德市| 文登市| 枞阳县| 福安市| 昌都县| 南郑县| 九龙城区| 鲜城| 巨鹿县| 彰化县| 乌鲁木齐县| 汽车| 镇赉县| 股票| 独山县| 揭东县| 金湖县| 大港区| 昂仁县| 新余市| 棋牌| 和静县|