• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結(jié)合自適應(yīng)軟掩模和混合特征的語(yǔ)音增強(qiáng)

      2022-05-28 04:15:46賈海蓉張剛敏王素英
      關(guān)鍵詞:掩模信噪比語(yǔ)音

      張 敏,賈海蓉,張剛敏,王素英

      (太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 太原 030024)

      語(yǔ)音增強(qiáng)是旨在保證語(yǔ)音不失真的條件下,盡可能地從帶噪語(yǔ)音中減少或消除干擾,提取有用語(yǔ)音分量的技術(shù)[1]。語(yǔ)音增強(qiáng)的方法可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類。無(wú)監(jiān)督學(xué)習(xí)如譜減法[2]、維納濾波法[3]等,都基于一些不合理假設(shè),且在低信噪比或者非平穩(wěn)噪聲的條件下,抑制能力差,容易引起語(yǔ)音失真。有監(jiān)督學(xué)習(xí)可分為基于淺層和深層模型兩類,其中基于淺層模型如隱馬爾科夫模型、非負(fù)矩陣分解、淺層神經(jīng)網(wǎng)絡(luò)等,學(xué)習(xí)語(yǔ)音非線性結(jié)構(gòu)信息有限,一定程度上限制了模型的性能。深層模型具有強(qiáng)大的學(xué)習(xí)能力,可以有效學(xué)習(xí)帶噪語(yǔ)音特征與學(xué)習(xí)目標(biāo)之間的關(guān)系,因此成為語(yǔ)音增強(qiáng)方向的研究熱點(diǎn)。文獻(xiàn)[4]通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)帶噪語(yǔ)音特征和時(shí)頻掩模間的非線性關(guān)系,且對(duì)理想二值掩模(Ideal Binary Mask,IBM)、理想浮值掩模(Ideal Ratio Mask,IRM)、目標(biāo)二值掩蔽等一系列基于時(shí)頻掩蔽的學(xué)習(xí)目標(biāo)進(jìn)行了對(duì)比。分析實(shí)驗(yàn)結(jié)果可知,當(dāng)選用IRM作為學(xué)習(xí)目標(biāo)進(jìn)行語(yǔ)音增強(qiáng)時(shí),增強(qiáng)語(yǔ)音的質(zhì)量和可懂度最優(yōu)。但I(xiàn)RM沒(méi)有考慮與語(yǔ)音可懂度密切相關(guān)的相位信息,且在不同信噪比條件下,都根據(jù)語(yǔ)音能量在語(yǔ)音與噪聲能量和中的比重來(lái)確定的,無(wú)法根據(jù)信噪比的不同來(lái)自動(dòng)調(diào)節(jié),容易造成目標(biāo)語(yǔ)音成分的丟失。語(yǔ)音特征能夠表征語(yǔ)音信號(hào)的特性,不同的語(yǔ)音特征代表的語(yǔ)音屬性各不相同。文獻(xiàn)[5]從人耳聽覺(jué)感知特性的角度出發(fā),提出了梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC),但梅爾濾波器在高頻處容易發(fā)生泄露,從而丟失有效語(yǔ)音特征,且無(wú)法較好地模擬人耳基底膜的分頻特性。文獻(xiàn)[6]提出了功率歸一化倒譜系數(shù)(Power Normalized Cepstral Coefficients,PNCC)。該特征進(jìn)行語(yǔ)音增強(qiáng)時(shí)性能良好,但在處理混響時(shí),會(huì)導(dǎo)致運(yùn)算時(shí)間變長(zhǎng)。文獻(xiàn)[7]提出了多分辨率耳蝸(Multi-Resolution CochleaGram,MRCG)特征,通過(guò)不同分辨率的耳蝸組合來(lái)捕獲語(yǔ)音信號(hào)的局部和全局信息,但該特征維數(shù)過(guò)高,會(huì)導(dǎo)致網(wǎng)絡(luò)運(yùn)算復(fù)雜度增加。

      通過(guò)以上分析,筆者提出一種混合特征來(lái)改善傳統(tǒng)特征的局限性。首先,通過(guò)根據(jù)人耳結(jié)構(gòu)設(shè)計(jì)的梅爾濾波器提取MFCC特征,并采用更符合人耳聽覺(jué)壓縮感知的非線性冪函數(shù)提取新的伽馬通頻率倒譜系數(shù)(New Gammatone Frequency Cepstral Coefficients,NGFCC)。伽馬通濾波器可以改善梅爾域?yàn)V波器在高頻處丟失有效特征的問(wèn)題,同時(shí)可以模擬人耳基底膜的分頻特性。將兩種特征混合可較全面描述語(yǔ)音信息,提高增強(qiáng)語(yǔ)音質(zhì)量。其次,為使在濾除背景噪聲的同時(shí)盡可能地減少語(yǔ)音失真,提出一種根據(jù)信噪比進(jìn)行自動(dòng)調(diào)節(jié)的自適應(yīng)軟掩模作為學(xué)習(xí)目標(biāo),該軟掩模同時(shí)融入了語(yǔ)音的相位差信息,可改善掩蔽效應(yīng),增強(qiáng)語(yǔ)音的可懂度。最后通過(guò)設(shè)計(jì)實(shí)驗(yàn),驗(yàn)證所提算法的優(yōu)勢(shì)。

      1 語(yǔ)音增強(qiáng)算法

      1.1 混合特征提取

      梅爾頻率與人耳頻率呈非線性相關(guān),符合人的聽覺(jué)機(jī)理[8],但梅爾濾波器會(huì)隨著頻率的升高愈發(fā)稀疏,從而導(dǎo)致特征丟失[9]。伽馬通濾波器組基于耳蝸結(jié)構(gòu)設(shè)計(jì),會(huì)隨著頻發(fā)升高愈發(fā)密集,同時(shí)伽馬通濾波器能精確模擬人耳的聽覺(jué)效應(yīng),具有極強(qiáng)的魯棒性[10]。筆者將梅爾域特征和伽馬通域特征混合,可避免有效特征的丟失,提高增強(qiáng)語(yǔ)音質(zhì)量。其中采用指數(shù)代替對(duì)數(shù)對(duì)伽馬通域特征進(jìn)行壓縮,更符合人耳聽覺(jué)壓縮感知,同時(shí)可提高人耳聽覺(jué)系統(tǒng)的抗干擾能力。分別對(duì)提取到的梅爾域特征和伽馬通域特征進(jìn)行去相關(guān)處理,將去相關(guān)處理后梅爾域特征和伽馬通域特征混合并求取其一階差分導(dǎo)數(shù)以獲得語(yǔ)音的瞬變信息,最后將初始混合特征與其一階差分參數(shù)混合作為語(yǔ)音增強(qiáng)的混合特征參數(shù)。該特征可以反映語(yǔ)音信號(hào)的時(shí)變特性,進(jìn)一步改善了神經(jīng)網(wǎng)絡(luò)增強(qiáng)語(yǔ)音的性能。圖1為該特征參數(shù)的提取框圖。

      混合特征參數(shù)具體提取過(guò)程如下:

      (1) 使語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)處理后進(jìn)行快速傅里葉變換,計(jì)算得到語(yǔ)音數(shù)據(jù)的譜線能量。

      (2) 將語(yǔ)音數(shù)據(jù)的每幀譜線能量譜通過(guò)可以模擬人耳聽覺(jué)特性的梅爾濾波器組,得到基于梅爾域的頻譜數(shù)據(jù),對(duì)其進(jìn)行對(duì)數(shù)操作和離散余弦變換,得到MFCC特征。

      (3) 將每幀譜線能量譜通過(guò)基于耳蝸結(jié)構(gòu)設(shè)計(jì)的伽馬通濾波器組,采用冪函數(shù)對(duì)其進(jìn)行壓縮,使之更符合人耳聽覺(jué)壓縮感知,后進(jìn)行離散余弦變換,得到NGFCC特征。

      (4) 將MFCC特征和NGFCC特征進(jìn)行拼接得到初始混合特征X,即

      X(i,m)=[XMFCC(i,m);XNGFCC(i,m)] ,

      (1)

      其中,i表示第i幀,m表示特征維度索引,XMFCC(i,m)表示MFCC特征,XNGFCC(i,m)表示NGFCC特征。

      (5) 對(duì)初始混合特征求取差分導(dǎo)數(shù),得到差分特征ΔX,如下所示:

      (2)

      差分特征可以捕獲語(yǔ)音的瞬變信息和相鄰幀語(yǔ)音信息間的聯(lián)系。

      (6) 融合初始混合特征和其一階差分導(dǎo)數(shù),得到混合特征參數(shù)D,即

      D(i,m)=[X(i,m);ΔX(i,m)] 。

      (3)

      最終得到的混合特征參數(shù)綜合了梅爾域特征和伽馬通域特征的特點(diǎn),既考慮到了人耳的結(jié)構(gòu)特性,又符合人耳基底膜的分頻特性,避免了有效特征的丟失,可以更全面地表征語(yǔ)音數(shù)據(jù)的信息。

      圖1 混合特征參數(shù)提取框圖

      1.2 構(gòu)造融合相位差信息的自適應(yīng)軟掩模

      圖2 相位幾何關(guān)系圖

      在基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)系統(tǒng)中,學(xué)習(xí)目標(biāo)的性能與語(yǔ)音增強(qiáng)的效果有著直接的關(guān)系,決定著增強(qiáng)語(yǔ)音的失真程度和殘留背景噪聲的數(shù)目。在眾多學(xué)習(xí)目標(biāo)中,使用IRM作為學(xué)習(xí)目標(biāo)進(jìn)行語(yǔ)音增強(qiáng)的效果最優(yōu),其根據(jù)每個(gè)時(shí)頻單元中的純凈語(yǔ)音能量和噪聲能量進(jìn)行取值,可以有效提升增強(qiáng)語(yǔ)音質(zhì)量[11],濾除背景噪聲。但由于在不同信噪比條件下,IRM都是用相同的技術(shù)手段濾除噪聲,無(wú)法根據(jù)信噪比信息的不同自動(dòng)調(diào)節(jié),所以經(jīng)常出現(xiàn)把有用的語(yǔ)音成分消除而保留噪聲成分的問(wèn)題。且在傳統(tǒng)的IRM中只考慮到了語(yǔ)音的幅度信息,忽略了影響語(yǔ)音可懂度的相位信息。因此,筆者提出新的自適應(yīng)軟掩模,其可以根據(jù)語(yǔ)音信噪比信息的不同進(jìn)行自動(dòng)調(diào)節(jié),得到相應(yīng)信噪比條件下的掩蔽值,同時(shí)融入語(yǔ)音的相位信息,在提升語(yǔ)音質(zhì)量的同時(shí)提高語(yǔ)音可懂度。

      圖2為相位的幾何關(guān)系圖[12]。

      圖2中ZD、ZS、ZN分別表示帶噪語(yǔ)音、純凈語(yǔ)音、噪聲語(yǔ)音的幅值。αD、αS、αN分別為帶噪語(yǔ)音、純凈語(yǔ)音、噪聲語(yǔ)音的相位,從圖2可知:

      (4)

      根據(jù)先驗(yàn)信噪比ξ和后驗(yàn)信噪比γ的定義式可推出噪聲語(yǔ)音和帶噪語(yǔ)音的相位差信息:

      (5)

      根據(jù)圖中幾何關(guān)系,可得出

      cos(αN-αD)=(ZD-Z)/ZN,

      (6)

      cosαDS=cos(αD-αS)=Z/ZS。

      (7)

      因此,可表示純凈語(yǔ)音和帶噪語(yǔ)音的相位差信息為

      (8)

      (9)

      (10)

      實(shí)驗(yàn)證明,當(dāng)α為0.7時(shí),效果最好,因此選用α取0.7。得到的比率掩模R融合了語(yǔ)音的相位信息,且結(jié)合了不同冪值掩模的優(yōu)勢(shì)。為保證在濾除背景噪聲的同時(shí)減小語(yǔ)音失真,所以根據(jù)信噪比信息調(diào)整比率掩模值,得到最終的自適應(yīng)軟掩模S:

      (11)

      最終得到的軟掩模可以根據(jù)信噪比信息的不同自動(dòng)調(diào)節(jié),且融入了語(yǔ)音的相位差信息,可以在濾除背景噪聲的同時(shí),保留有用語(yǔ)音成分,保持語(yǔ)音頻譜的完整性,從而提高語(yǔ)音的可懂度。

      1.3 深度神經(jīng)網(wǎng)絡(luò)

      基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)強(qiáng)大的非線性學(xué)習(xí)能力,可以有效學(xué)習(xí)帶噪語(yǔ)音特征和學(xué)習(xí)目標(biāo)之間的非線性關(guān)系。DNN訓(xùn)練過(guò)程主要分為兩個(gè)階段,即無(wú)監(jiān)督預(yù)訓(xùn)練階段和有監(jiān)督的反向調(diào)優(yōu)階段。深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)由多層受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)組成,預(yù)訓(xùn)練階段通過(guò)對(duì)比散度算法(Contrastive Divergence,CD)[13]訓(xùn)練RBM,每一層RBM的輸出作為下一層RBM的輸入,逐層堆疊預(yù)訓(xùn)練好的RBM即可得到DBN網(wǎng)絡(luò)。在DBN網(wǎng)絡(luò)后增加輸出層,就可以得到初始化的DNN網(wǎng)絡(luò)結(jié)構(gòu)。反向調(diào)優(yōu)階段是有監(jiān)督的學(xué)習(xí)過(guò)程,目的是使經(jīng)過(guò)訓(xùn)練得到的增強(qiáng)語(yǔ)音與對(duì)應(yīng)純凈語(yǔ)音之間的誤差達(dá)到最小。首先將小批量的語(yǔ)音特征數(shù)據(jù)輸入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行正向傳播,通過(guò)代價(jià)函數(shù)計(jì)算輸入層和對(duì)應(yīng)輸出層之間的誤差值,選用最小均方誤差(Minimum Mean Squared Error,MMSE)作為代價(jià)函數(shù)。然后利用隨機(jī)梯度下降算法將誤差反向傳播,修正每一層網(wǎng)絡(luò)的權(quán)重和偏置矩陣。重復(fù)上述步驟,對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,直至訓(xùn)練完成。將最終得到最優(yōu)的網(wǎng)絡(luò)模型用于測(cè)試階段。

      1.4 結(jié)合混合特征和自適應(yīng)軟掩模的語(yǔ)音增強(qiáng)算法

      結(jié)合自適應(yīng)軟掩模和混合特征進(jìn)行語(yǔ)音增強(qiáng)的算法主要包括兩部分,即訓(xùn)練階段和測(cè)試階段。訓(xùn)練階段首先將純凈語(yǔ)音、噪聲、帶噪語(yǔ)音通過(guò)伽馬通濾波器,得到各自的耳蝸表示值,根據(jù)1.2節(jié)中的方案計(jì)算得到自適應(yīng)軟掩模,將得到的自適應(yīng)軟掩模作為學(xué)習(xí)目標(biāo)。然后提取帶噪語(yǔ)音的混合特征參數(shù),將混合特征參數(shù)作為DNN的輸入進(jìn)行訓(xùn)練,通過(guò)基于最小均方誤差的代價(jià)函數(shù)計(jì)算誤差并反向傳播修正網(wǎng)絡(luò)參數(shù),將訓(xùn)練得到的最優(yōu)網(wǎng)絡(luò)模型保存。測(cè)試階段,首先提取測(cè)試集的混合特征參數(shù)輸入到已經(jīng)訓(xùn)練好的模型中,然后通過(guò)DNN網(wǎng)絡(luò)模型生成其特征對(duì)應(yīng)的學(xué)習(xí)目標(biāo),最后根據(jù)網(wǎng)絡(luò)估計(jì)的學(xué)習(xí)目標(biāo)合成增強(qiáng)語(yǔ)音。圖3為結(jié)合混合特征和自適應(yīng)軟掩模進(jìn)行語(yǔ)音增強(qiáng)算法的系統(tǒng)框圖。

      圖3 結(jié)合混合特征和自適應(yīng)軟掩模的語(yǔ)音增強(qiáng)算法系統(tǒng)框圖

      2 仿真實(shí)驗(yàn)與結(jié)果分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      為驗(yàn)證筆者提出算法的有效性,從IEEE語(yǔ)音數(shù)據(jù)庫(kù)中選取60條純凈語(yǔ)音,選取NOISEX-92噪聲庫(kù)中的White、pink、Factory噪聲,所選純凈語(yǔ)音和噪聲樣本采樣率相等。選取50條純凈語(yǔ)音與3種噪聲源的前半部分在分別為-5 dB、0 dB、5 dB信噪比下進(jìn)行混合,組成450條訓(xùn)練集。將3種噪聲源的后半部分與剩余的10條純凈語(yǔ)音在3種信噪比混合,得到90條測(cè)試集。

      2.2 網(wǎng)絡(luò)參數(shù)

      為了確保深度神經(jīng)網(wǎng)絡(luò)有能力描述混合特征參數(shù)和學(xué)習(xí)目標(biāo)之間的復(fù)雜關(guān)系,設(shè)計(jì)具有5層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,其中包含3個(gè)隱層,每個(gè)隱層設(shè)有1 024 個(gè)節(jié)點(diǎn)。由于一幀軟掩模是64維向量,所以輸出層設(shè)有64 個(gè)節(jié)點(diǎn),用來(lái)輸出學(xué)習(xí)目標(biāo)。首先采用隨機(jī)初始化的方法設(shè)定預(yù)訓(xùn)練的網(wǎng)絡(luò)模型參數(shù),第一個(gè)RBM的學(xué)習(xí)率設(shè)置為0.004,其他設(shè)置為0.010。隱含層的激活函數(shù)采用線性整流函數(shù)(Rectified Linear Unit,ReLU),因?yàn)镽eLU可使網(wǎng)絡(luò)快速收斂的同時(shí)防止梯度飽和與梯度爆炸,輸出層的激活函數(shù)采用Sigmoid 函數(shù)。并用Dropout來(lái)防止網(wǎng)絡(luò)模型過(guò)擬合,設(shè)置輸入層的Dropout值為0,隱含層的Dropout 值為0.2。采用最小均方誤差和隨機(jī)梯度算法反向調(diào)優(yōu),網(wǎng)絡(luò)迭代次數(shù)為20次,前5次動(dòng)量系數(shù)設(shè)置為0.5,隨后增長(zhǎng)至0.9保持不變。學(xué)習(xí)速率初始值設(shè)置為0.08,隨著訓(xùn)練步長(zhǎng)自適應(yīng)線性減小,直至0.001。運(yùn)用上述參數(shù)進(jìn)行實(shí)驗(yàn),經(jīng)過(guò)反復(fù)迭代對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。

      2.3 仿真實(shí)驗(yàn)與結(jié)果分析

      采用主觀語(yǔ)音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality,PESQ)[14]和短時(shí)客觀可懂度(Short-Time Objective Intelligibility,STOI)[15]作為語(yǔ)音評(píng)價(jià)標(biāo)準(zhǔn)。其中PESQ可評(píng)估語(yǔ)音的感知質(zhì)量,可近似客觀表示主觀測(cè)聽打分(Mean Opinion Score,MOS),PESQ 評(píng)分范圍為-0.5~4.5,分值越高,表示增強(qiáng)語(yǔ)音質(zhì)量越高。STOI通過(guò)計(jì)算純凈語(yǔ)音和增強(qiáng)語(yǔ)音的短時(shí)包絡(luò)相關(guān)性來(lái)反映語(yǔ)音可懂度,其取值范圍是0~1,分值越高,代表增強(qiáng)語(yǔ)音的可懂度越高。選取PESQ和STOI兩個(gè)指標(biāo)從增強(qiáng)語(yǔ)音質(zhì)量和可懂度兩個(gè)方面來(lái)驗(yàn)證聯(lián)合特征和軟掩模的有效性,設(shè)計(jì)3組實(shí)驗(yàn)來(lái)進(jìn)行討論:

      實(shí)驗(yàn)1 采用MFCC特征和IRM來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      實(shí)驗(yàn)2 采用MFCC和NGFCC的混合特征與IRM來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      實(shí)驗(yàn)3 采用MFCC和 NGFCC的混合特征與自適應(yīng)軟掩模來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      采取上述3組實(shí)驗(yàn)分別在 white、factory 和 pink噪聲下對(duì)測(cè)試集語(yǔ)音進(jìn)行仿真,實(shí)驗(yàn)數(shù)據(jù)如表1和表2所示。

      表1 不同實(shí)驗(yàn)下的PESQ對(duì)比

      表2 不同實(shí)驗(yàn)下的STOI對(duì)比

      分析以上結(jié)果:

      (1)對(duì)比實(shí)驗(yàn)1和實(shí)驗(yàn)2的結(jié)果可知,采用特征為MFCC和NGFCC的混合特征時(shí)的增強(qiáng)性能優(yōu)于單特征。在3種噪聲下,增強(qiáng)語(yǔ)音的PESQ值平均提升了0.140,STOI平均提高了0.012,證明了筆者提出的混合特征對(duì)整個(gè)語(yǔ)音增強(qiáng)系統(tǒng)性能的改善有著重要的作用。

      (2)對(duì)比實(shí)驗(yàn)2和實(shí)驗(yàn)3的結(jié)果可知,采用自適應(yīng)軟掩模作為學(xué)習(xí)目標(biāo)時(shí),PESQ平均提升了0.200,STOI平均提升了0.015。實(shí)驗(yàn)證明了自適應(yīng)軟掩模作為學(xué)習(xí)目標(biāo)的優(yōu)越性,在提升語(yǔ)音質(zhì)量的同時(shí)可增強(qiáng)語(yǔ)音可懂度。

      (3)對(duì)比實(shí)驗(yàn)1和實(shí)驗(yàn)3的結(jié)果可知,當(dāng)采用自適應(yīng)軟掩模和混合特征進(jìn)行語(yǔ)音增強(qiáng)時(shí),PESQ平均提升了0.340,STOI平均提升了0.027,驗(yàn)證了筆者所提的基于混合特征和自適應(yīng)軟掩模的語(yǔ)音增強(qiáng)算法的有效性。從-5 dB到5 dB,增強(qiáng)語(yǔ)音STOI分別平均提升了0.040、0.025、0.016,PESQ分別平均提升了 0.380、0.340、0.290。隨著信噪比的降低,提升值逐漸升高。由此證明了筆者提出的算法在低信噪比條件下處理帶噪語(yǔ)音的優(yōu)勢(shì)。

      為了直觀簡(jiǎn)捷地說(shuō)明混合特征和自適應(yīng)軟掩模進(jìn)行語(yǔ)音增強(qiáng)算法的優(yōu)勢(shì),給出了在上述3種實(shí)驗(yàn)條件下,信噪比為0 dB,以white為背景噪聲的語(yǔ)音增強(qiáng)語(yǔ)譜圖,如圖4所示。

      觀察圖4發(fā)現(xiàn),基于單特征MFCC得到的增強(qiáng)語(yǔ)音存在殘留噪聲,混合特征得到的增強(qiáng)語(yǔ)音在去除噪聲方面有所改善,但是存在部分語(yǔ)音丟失的現(xiàn)象。而使用混合特征和自適應(yīng)軟掩模進(jìn)行語(yǔ)音增強(qiáng)時(shí)可以明顯去除噪聲,而且可以較為完整的保存語(yǔ)音頻譜的結(jié)構(gòu)信息。

      圖4 語(yǔ)譜圖

      3 結(jié)束語(yǔ)

      筆者提出結(jié)合自適應(yīng)軟掩和混合特征的語(yǔ)音增強(qiáng)算法。首先,采用更符合人耳聽覺(jué)感知特性的非線性冪函數(shù)提取新伽馬通頻率倒譜系數(shù),將其與MFCC特征混合以獲得更全面的語(yǔ)音結(jié)構(gòu)信息;其次,構(gòu)建了可以根據(jù)信噪比信息自動(dòng)調(diào)節(jié)的自適應(yīng)軟掩模作為學(xué)習(xí)目標(biāo),并在其中融入了相位差信息,該學(xué)習(xí)目標(biāo)有利于保持完整的語(yǔ)音頻譜特性,減小語(yǔ)音失真。實(shí)驗(yàn)結(jié)果證明,筆者提出的算法在不同噪聲、不同信噪比條件下,能夠有效濾除背景噪聲,提升主觀語(yǔ)音增強(qiáng)質(zhì)量和短時(shí)客觀可懂度。

      猜你喜歡
      掩模信噪比語(yǔ)音
      基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于直寫技術(shù)的微納掩模制作技術(shù)研究進(jìn)展*
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      掩模圖像生成時(shí)閾值取值的合理性探討
      掩模位置誤差對(duì)光刻投影物鏡畸變的影響
      金塔县| 柳河县| 西丰县| 抚州市| 宁城县| 阿城市| 吉水县| 黎城县| 竹溪县| 浠水县| 托里县| 铜陵市| 延边| 尉氏县| 屯留县| 濮阳市| 洮南市| 汉寿县| 尤溪县| 南昌市| 高雄县| 衡阳县| 永川市| 英超| 张家港市| 鸡泽县| 威远县| 腾冲县| 丹阳市| 江山市| 宜阳县| 绍兴市| 垦利县| 娱乐| 定边县| 无为县| 蒲城县| 佛教| 合山市| 宁武县| 南皮县|