• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聯(lián)合損失函數(shù)的語(yǔ)音質(zhì)量特征增強(qiáng)分析

      2024-03-05 06:59:24楊玲玲
      山西電子技術(shù) 2024年1期
      關(guān)鍵詞:信噪比注意力損失

      楊玲玲

      (河南工業(yè)貿(mào)易職業(yè)學(xué)院 信息工程學(xué)院,河南 鄭州 450064)

      0 引言

      DNN用作一種具備優(yōu)異非線性映射性能的高效算法,目前已被大量應(yīng)用于語(yǔ)音增強(qiáng)信號(hào)處理領(lǐng)域,但該方法在實(shí)際應(yīng)用過(guò)程中依然還有部分缺陷未被克服。例如,深度神經(jīng)網(wǎng)絡(luò)是以全連接的方式在不同層網(wǎng)絡(luò)間建立聯(lián)系,要求后層神經(jīng)網(wǎng)絡(luò)中各神經(jīng)元節(jié)點(diǎn)與上層神經(jīng)元之間都保持相互連接[1-2]。同時(shí),深度神經(jīng)網(wǎng)絡(luò)通常選擇拓展語(yǔ)音上下幀模式進(jìn)行語(yǔ)音時(shí)序特征學(xué)習(xí),導(dǎo)致模型運(yùn)算量以及訓(xùn)練時(shí)間都明顯增加??紤]到卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以實(shí)現(xiàn)局部連接結(jié)構(gòu)并完成權(quán)值共享功能,只需網(wǎng)絡(luò)模型進(jìn)行小規(guī)模數(shù)據(jù)計(jì)算,從而快速完成訓(xùn)練過(guò)程[3]。此外,還可以利用卷積神經(jīng)網(wǎng)絡(luò)直接分析二維平面數(shù)據(jù),包含噪聲信號(hào)的時(shí)頻圖也屬于一種二維平面結(jié)構(gòu),可根據(jù)時(shí)間、頻率參數(shù)來(lái)提取獲得特征指標(biāo),由此實(shí)現(xiàn)語(yǔ)音信息的綜合分析[4]。在優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的時(shí)候,大部分學(xué)者都是以均方誤差損失函數(shù)(MSE)建立代價(jià)函數(shù),而MSE算法較簡(jiǎn)單,只通過(guò)含噪語(yǔ)音與純凈語(yǔ)音誤差開(kāi)展計(jì)算,并未加入人耳聽(tīng)覺(jué)特征[5-8]。

      根據(jù)上述研究結(jié)果,本文優(yōu)化了以語(yǔ)音增強(qiáng)實(shí)現(xiàn)的網(wǎng)絡(luò)模型與損失函數(shù)。為確保代價(jià)函數(shù)能夠根據(jù)人耳感知特點(diǎn)開(kāi)展分析過(guò)程,在上述基礎(chǔ)上設(shè)計(jì)了一種聯(lián)合損失函數(shù)。針對(duì)損失函數(shù)計(jì)算過(guò)程加入關(guān)于人耳聽(tīng)覺(jué)的數(shù)據(jù)。

      1 聯(lián)合損失函數(shù)

      采用頻域加權(quán)分段的信噪分析方法可以對(duì)語(yǔ)音可懂度進(jìn)行預(yù)測(cè)。以下為頻域加權(quán)分段信噪比表達(dá)式:

      當(dāng)前大部分均方誤差函數(shù)只對(duì)增強(qiáng)語(yǔ)音與純凈語(yǔ)音幅度譜進(jìn)行簡(jiǎn)單處理,未加入人類聽(tīng)覺(jué)感知的因素。因此本文為MSE計(jì)算過(guò)程設(shè)置了能夠?qū)θ硕?tīng)覺(jué)感知效果進(jìn)行評(píng)價(jià)的權(quán)重系數(shù),設(shè)計(jì)了一種根據(jù)感知相關(guān)代價(jià)函數(shù)(MSE),得到下述計(jì)算式:

      式中,M為模型訓(xùn)練Mini-batch;L表示幀數(shù);W(l,k)感知權(quán)重因子選擇包含語(yǔ)音相位差自適應(yīng)軟掩模。

      2 基于聯(lián)合損失函數(shù)的語(yǔ)音增強(qiáng)算法

      以聯(lián)合損失函數(shù)建立語(yǔ)音增強(qiáng)算法經(jīng)多次重復(fù)訓(xùn)練后,能夠從含噪語(yǔ)音幅度譜內(nèi)獲得估計(jì)增強(qiáng)語(yǔ)音幅度譜。圖1給出了系統(tǒng)框圖的示意結(jié)構(gòu)。

      圖1 語(yǔ)音增強(qiáng)算法系統(tǒng)框圖

      以聯(lián)合損失函數(shù)建立的語(yǔ)音增強(qiáng)算法在訓(xùn)練過(guò)程中,先對(duì)含噪語(yǔ)音與純凈語(yǔ)音開(kāi)展逐幀短時(shí)傅里葉轉(zhuǎn)換,依次獲得各自幅度譜(Amplitude)數(shù)據(jù)。以含噪語(yǔ)音幅度譜作為輸入,再以純凈語(yǔ)音幅度譜作為學(xué)習(xí)對(duì)象。本文選擇聯(lián)合損失函數(shù)對(duì)兩者差異進(jìn)行評(píng)價(jià),記錄最優(yōu)性能的網(wǎng)絡(luò)模型參數(shù)。

      3 實(shí)驗(yàn)結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)的選取

      為驗(yàn)證本文設(shè)計(jì)的改進(jìn)算法具備可行性,本次分別測(cè)試了200條單純語(yǔ)音信號(hào)與三類噪聲信號(hào)。以上語(yǔ)音數(shù)據(jù)都是由IEEE語(yǔ)音數(shù)據(jù)庫(kù)提供,之后從NOISEX-92噪聲庫(kù)內(nèi)提取Pink、Factory與White三種噪聲信號(hào),這些信號(hào)保持一致頻率??偣策x擇150條單純語(yǔ)音并將噪聲前半段按照設(shè)定信噪比進(jìn)行混合后再對(duì)模型開(kāi)展訓(xùn)練,依次設(shè)定信噪比為-5 dB、0 dB、5 dB。

      本文設(shè)定語(yǔ)音頻率為16kHz,并以語(yǔ)音幅度譜作為輸入語(yǔ)音特征。各項(xiàng)網(wǎng)絡(luò)參數(shù)見(jiàn)表1。

      表1 網(wǎng)絡(luò)模型參數(shù)

      3.2 對(duì)比實(shí)驗(yàn)分析

      為了對(duì)本文建立的聯(lián)合損失函數(shù)與自注意力機(jī)制進(jìn)行有效性驗(yàn)證,構(gòu)建得到表2的對(duì)比算法。

      表2 對(duì)比算法內(nèi)容及其編號(hào)

      圖2給出了各個(gè)信噪比下以不同算法處理獲得的增強(qiáng)語(yǔ)音PESQ值。其中,具體處理過(guò)程為先通過(guò)聯(lián)合損失函數(shù)開(kāi)展神經(jīng)網(wǎng)絡(luò)訓(xùn)練,再通過(guò)自注意力機(jī)制對(duì)語(yǔ)音特征PESQ值進(jìn)行優(yōu)化。對(duì)比算法1、2、3發(fā)現(xiàn),綜合運(yùn)用聯(lián)合損失函數(shù)并融合注意力機(jī)制后,可以使神經(jīng)網(wǎng)絡(luò)獲得更優(yōu)質(zhì)量增強(qiáng)語(yǔ)音。

      圖2 不同信噪比下增強(qiáng)語(yǔ)音的PESQ平均值

      以單特征構(gòu)建的增強(qiáng)語(yǔ)音語(yǔ)譜圖存在失真的情況,以混合特征進(jìn)行處理時(shí),則可以對(duì)高低頻頻譜性能起到優(yōu)化效果。選擇融合相位自適應(yīng)軟掩模方式時(shí),能夠最大程度去除背景噪聲,并且當(dāng)語(yǔ)音噪聲被去除之后還能夠保持明確諧波結(jié)構(gòu),表明本文算法滿足有效性要求。

      圖3是三種算法針對(duì)每種信噪比進(jìn)行處理獲得的增強(qiáng)語(yǔ)音STOI值。對(duì)圖3進(jìn)行分析可知,算法3與2都比算法1獲得了更高STOI值。同時(shí)可以看到,算法2在所有信噪比下都獲得了比算法1更高的STOI值,因此可以推斷聯(lián)合損失函數(shù)相對(duì)MSE更適合神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求,產(chǎn)生該結(jié)果的原因在于聯(lián)合損失函數(shù)包含了關(guān)于人耳感知方面的權(quán)重系數(shù),有助于獲得更優(yōu)增強(qiáng)語(yǔ)音性能。對(duì)比算法2與3可以發(fā)現(xiàn),設(shè)置自注意力機(jī)制能夠進(jìn)一步提升增強(qiáng)語(yǔ)音STOI,表明自注意力機(jī)制有助于更高效提取出重要語(yǔ)音特征,利用注意力機(jī)制提取特征參數(shù)以及結(jié)合聯(lián)合損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化能夠促進(jìn)增強(qiáng)語(yǔ)音質(zhì)量的提升并達(dá)到更高可懂度。

      圖3 不同信噪比下增強(qiáng)語(yǔ)音的STOI平均值

      為深入探討聯(lián)合損失函數(shù)與自注意力機(jī)制,按照?qǐng)D4方法確定信噪比0 dB并以Factory作為背景噪聲時(shí)建立的語(yǔ)譜圖,以此判斷兩者有效性。

      圖4 0 dB、Factory噪聲下增強(qiáng)語(yǔ)音語(yǔ)譜圖對(duì)比

      圖4是在以上語(yǔ)音條件下建立的語(yǔ)譜圖,可以看到,以常規(guī)損失函數(shù)MES進(jìn)行處理時(shí),增強(qiáng)語(yǔ)音發(fā)生了明顯失真,這是由于MSE未加入人耳聽(tīng)覺(jué)信息的特征。以聯(lián)合損失函數(shù)進(jìn)行處理時(shí),可以明顯降低增強(qiáng)語(yǔ)音失真程度,獲得更優(yōu)的語(yǔ)音質(zhì)量。同時(shí)運(yùn)用將聯(lián)合損失函數(shù)與自注意力機(jī)制的條件下建立神經(jīng)網(wǎng)絡(luò)模型時(shí),形成了更清晰的語(yǔ)音頻譜,也有助于完整保留語(yǔ)音信號(hào)成分,此外也減弱了語(yǔ)音失真的情況。

      4 結(jié)語(yǔ)

      1) 本文設(shè)計(jì)的混合損失函數(shù)實(shí)現(xiàn)增強(qiáng)語(yǔ)音質(zhì)量的明顯優(yōu)化。加入注意力機(jī)制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。

      2) 以常規(guī)損失函數(shù)MES進(jìn)行處理時(shí),增強(qiáng)語(yǔ)音發(fā)生了明顯失真;以聯(lián)合損失函數(shù)進(jìn)行處理時(shí),可以明顯降低增強(qiáng)語(yǔ)音失真程度,獲得更優(yōu)的語(yǔ)音質(zhì)量。

      猜你喜歡
      信噪比注意力損失
      少問(wèn)一句,損失千金
      讓注意力“飛”回來(lái)
      胖胖損失了多少元
      基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      一般自由碰撞的最大動(dòng)能損失
      三亚市| 武冈市| 清新县| 宜良县| 平南县| 永济市| 磐石市| 嘉义市| 连云港市| 改则县| 怀集县| 黄骅市| 雷州市| 平阳县| 安徽省| 阜城县| 德清县| 同德县| 平定县| 大邑县| 新疆| 博罗县| 荔波县| 大荔县| 涿鹿县| 鄄城县| 泾阳县| 涞源县| 建平县| 榆中县| 南陵县| 游戏| 宜君县| 莎车县| 南江县| 武汉市| 宾川县| 民丰县| 吉木乃县| 和田市| 哈密市|