田 野,張小博
(中國(guó)電子科技集團(tuán)公司第三研究所,北京 100015)
在一段語(yǔ)音信號(hào)中往往會(huì)存在著停頓、間歇等現(xiàn)象,這些“無(wú)聲”段與環(huán)境噪聲疊加,干擾語(yǔ)音處理效果且占用資源?;顒?dòng)語(yǔ)音檢測(cè)(Voice Activity Detection,VAD)技術(shù)的目標(biāo)是從信號(hào)中檢測(cè)出真正的語(yǔ)音段落而去除這些“無(wú)聲”部分,從而減輕后續(xù)語(yǔ)音信號(hào)處理過(guò)程的負(fù)擔(dān)。因此,VAD 技術(shù)廣泛應(yīng)用于語(yǔ)音編碼、自動(dòng)語(yǔ)音識(shí)別以及異常聲音檢測(cè)等系統(tǒng)[1-2]。
鑒于活動(dòng)語(yǔ)音檢測(cè)技術(shù)的廣泛應(yīng)用需求,近年來(lái)研究學(xué)者們提出了很多檢測(cè)方法,大體可以分為無(wú)監(jiān)督類方法與有監(jiān)督類方法。一般來(lái)說(shuō),有監(jiān)督類方法將VAD 問(wèn)題視為語(yǔ)音與噪聲信號(hào)的二分類問(wèn)題,通過(guò)事先學(xué)習(xí)噪聲數(shù)據(jù),噪聲環(huán)境下的性能高于無(wú)監(jiān)督類方法[3-4]。
有監(jiān)督類方法主要由特征提取和分類器設(shè)計(jì)兩個(gè)環(huán)節(jié)構(gòu)成。在特征提取方面,為了能夠有效區(qū)分噪聲和語(yǔ)音信號(hào)的聲學(xué)特性,研究學(xué)者嘗試從不同角度提取特征,如能量、過(guò)零率、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)以及模糊熵等,并使用多種特征組合以融合多角度信息[5]。然而,雖然這些特征在特定噪聲類型下有效,但由于噪聲類型的時(shí)變性,針對(duì)通用情況設(shè)計(jì)的特征組合往往難以在動(dòng)態(tài)噪聲下表現(xiàn)出穩(wěn)定的區(qū)分能力,而且特征的高維化往往也給后續(xù)的分類器使用帶來(lái)了負(fù)擔(dān)。
在分類器設(shè)計(jì)方面,針對(duì)單一分類器數(shù)據(jù)建模能力的有限性,近年來(lái)發(fā)展出集成學(xué)習(xí)和深度學(xué)習(xí)方法,通過(guò)提高建模的廣度和深度提升模型的泛化能力[6-7]。在建模策略方面,有監(jiān)督類方法對(duì)特定類型下的噪聲和語(yǔ)音信號(hào)進(jìn)行二分類建模。由于噪聲類型的多變性,如何訓(xùn)練得到在多種不同噪聲類型下都具有良好區(qū)分性的模型分類器設(shè)計(jì)是重點(diǎn)任務(wù)之一。
針對(duì)上述問(wèn)題,本文提出基于噪聲場(chǎng)景識(shí)別與多特征集成學(xué)習(xí)的活動(dòng)語(yǔ)音檢測(cè)方法,構(gòu)建了噪聲類型識(shí)別模型和噪聲與語(yǔ)音二分類模型。在噪聲類型識(shí)別方面,提出基于t分布隨機(jī)鄰域嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)與集成學(xué)習(xí)的噪聲聚類與分類方法,并采用了集成效果更好的隨機(jī)森林方法。在語(yǔ)音與噪聲區(qū)分識(shí)別方面,提出基于隨機(jī)森林的特征選擇與分類器構(gòu)建方法,先識(shí)別當(dāng)前的噪聲類型,將動(dòng)態(tài)噪聲環(huán)境轉(zhuǎn)化為限定噪聲環(huán)境,進(jìn)而針對(duì)具體噪聲類型在高維特征中優(yōu)選最具有區(qū)分性的特征組合并設(shè)計(jì)模型參數(shù),從而保證了整個(gè)檢測(cè)過(guò)程在不同噪聲類型下性能的有效性和穩(wěn)定性。
2.1.1 多視角特征提取方法
為了從多個(gè)角度獲取音頻信號(hào)間的可區(qū)分性信息,提取過(guò)零率、MFCC、頻譜質(zhì)心、頻譜擴(kuò)散、譜熵、譜通量、頻譜滾邊、諧波比、基頻、頻域能量、帶寬以及小波分量特征等共37 維的時(shí)頻域特征。具體地,在特征計(jì)算中采用三層小波分解方法將音頻信號(hào)分解為8 個(gè)小波分量,然后計(jì)算每個(gè)分量的能量作為特征;同時(shí),對(duì)小波分量矩陣進(jìn)行奇異值分解,取前6 個(gè)奇異值作為特征。
2.1.2 t-SNE 特征聚類特性分析方法
t-SNE 方法[8]是一種基于概率的子空間嵌入方法,核心是在高維空間中采用高斯分布而在低維空間中采用“重尾分布”t分布來(lái)模擬數(shù)據(jù)點(diǎn)對(duì)間的概率分布情況,從而提高不同類數(shù)據(jù)間的可分特性,在保留高維數(shù)據(jù)局部特性的同時(shí),盡可能地保持全局聚類特性。
2.1.3 隨機(jī)森林分類與特征選擇方法
隨機(jī)森林(Random Forest,RF)是一種采用Bagging 策略的集成學(xué)習(xí)方法,由若干個(gè)決策樹(shù)基分類器構(gòu)成集成分類器,分類的最終結(jié)果由各個(gè)決策樹(shù)的投票結(jié)果共同決定,從而可將多個(gè)弱分類器集成為一個(gè)強(qiáng)分類器,獲得比單一決策樹(shù)更好的分類性能[9]。
在RF 方法中,每個(gè)決策樹(shù)的訓(xùn)練數(shù)據(jù)采用Bootstrap 方法從總訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取,抽取后剩余的數(shù)據(jù)稱為袋外數(shù)據(jù),而通過(guò)分類器對(duì)袋外數(shù)據(jù)的分類誤差評(píng)估各個(gè)分類器的性能。此外,可以通過(guò)改變袋外數(shù)據(jù)中某個(gè)維度特征的數(shù)值來(lái)考察識(shí)別準(zhǔn)確率的變化情況,從而衡量不同維度特征的重要度水平[10],實(shí)現(xiàn)特征優(yōu)選。
為了提高具體場(chǎng)景下語(yǔ)音信號(hào)檢測(cè)的準(zhǔn)確率,本文在含噪語(yǔ)音與噪聲信號(hào)分類前識(shí)別當(dāng)前使用場(chǎng)景中的噪聲類別,提出了一種融合了t-SNE 可視化聚類方法和隨機(jī)森林特征優(yōu)選與分類器構(gòu)建方法的噪聲場(chǎng)景分類方法,技術(shù)實(shí)現(xiàn)框圖如圖1所示。
活動(dòng)語(yǔ)音檢測(cè)的核心是有效區(qū)分含噪語(yǔ)音信號(hào)與噪聲信號(hào)。不同噪聲下含噪語(yǔ)音與噪聲的區(qū)分性特征不盡相同,采用統(tǒng)一的特征和分類模型難以在不同噪聲下都取得良好的識(shí)別結(jié)果。因此,本文提出針對(duì)不同的噪聲類型優(yōu)選不同的特征組合并訓(xùn)練特定的識(shí)別模型,從而提高算法模型在不同環(huán)境下的適應(yīng)能力,技術(shù)實(shí)現(xiàn)框圖如圖2 所示。
在本文的案例分析中,語(yǔ)音信號(hào)隨機(jī)選自數(shù)據(jù)集THCHS-30[11],共30 條不同說(shuō)話人的音頻,男女生各15 條。噪聲信號(hào)選自NOISEX-92 標(biāo)準(zhǔn)噪音庫(kù),共6 種噪聲作為分析對(duì)象,分別是白噪聲(white)、餐廳內(nèi)噪音(babble)、工廠內(nèi)噪聲(factory2)、小汽車內(nèi)噪音(volvo)、坦克內(nèi)噪聲(m109)和戰(zhàn)斗機(jī)噪音(f16)。
3.1.1 時(shí)頻域音頻特征提取
對(duì)6 種噪聲信號(hào)先統(tǒng)一重采樣到8 kHz,然后以20 ms 為幀長(zhǎng)、10 ms 為幀移進(jìn)行分幀,并提取37 維的時(shí)頻域特征。這些特征的維度與特征名稱的對(duì)應(yīng)關(guān)系如表1 所示。
表1 音頻特征維度及特征名稱對(duì)應(yīng)關(guān)系列表
3.1.2 噪聲聚類分析
對(duì)6 種噪聲的特征進(jìn)行t-SNE 可視化聚類分析,結(jié)果如圖3 所示。可以看出,這6 種噪聲形成了4 個(gè)聚類群。其中:babble、factory 和m109 的噪聲特性相似,可以視為一類噪聲;而volvo、f16、white 獨(dú)立成類。后續(xù)對(duì)這4 種類別的噪聲進(jìn)行分類識(shí)別即可。
3.1.3 噪聲分類模型的訓(xùn)練和測(cè)試
基于特征優(yōu)選結(jié)果,抽取訓(xùn)練和測(cè)試數(shù)據(jù)各4×1 500 組。訓(xùn)練中采用5-fold 交叉驗(yàn)證和模型參數(shù)網(wǎng)格搜索方法,確定最優(yōu)參數(shù):樹(shù)的個(gè)數(shù)為20,最大深度為9,最小葉子數(shù)為1。而后進(jìn)行5 次訓(xùn)練,平均訓(xùn)練準(zhǔn)確率為99.81%,測(cè)試準(zhǔn)確率為98.97%??梢?jiàn),該分類器具有良好的噪聲識(shí)別準(zhǔn)確率和對(duì)未知測(cè)試數(shù)據(jù)的泛化能力。
3.2.1 時(shí)頻域音頻特征提取
先用6 種噪聲對(duì)純凈語(yǔ)音進(jìn)行加噪處理,信噪比分別為10 dB、5 dB、0 dB 和-5 dB。然后,將數(shù)據(jù)統(tǒng)一重采樣到8 kHz,以20 ms 為幀長(zhǎng)、10 ms 為幀移分幀,并提取37 維的時(shí)頻域特征。
3.2.2 面向含噪語(yǔ)音與噪聲分類任務(wù)的特征優(yōu)選
在4 種信噪比下,特征優(yōu)選結(jié)果如表2 所示,其中10 dB、5 dB、0 dB 下的top10 特征基本一致,合并在一起;而-5 dB 下的特征與前3 者差異較大,單獨(dú)列出。因此,在各類噪聲場(chǎng)景下,在10 dB、5 dB、0 dB 下采用同樣的特征組合并訓(xùn)練統(tǒng)一的模型,而對(duì)-5 dB 單獨(dú)訓(xùn)練模型。
表2 不同噪聲環(huán)境下含噪語(yǔ)音與噪聲分類的特征優(yōu)選結(jié)果明細(xì)表
3.2.3 含噪語(yǔ)音與噪聲分類模型的訓(xùn)練和測(cè)試
基于特征優(yōu)選結(jié)果,抽取訓(xùn)練和測(cè)試數(shù)據(jù)各2×1 500 組樣本。為了驗(yàn)證RF 分類的優(yōu)勢(shì),同時(shí)訓(xùn)練了SVM 和兩層MLP 模型,且都采用網(wǎng)格搜索方法進(jìn)行參數(shù)調(diào)優(yōu)。識(shí)別準(zhǔn)確率如表3 所示??梢钥吹剑涸诓煌肼曨愋秃驮肼晱?qiáng)度下,RF 分類器的識(shí)別準(zhǔn)確率都是最好的,而SVM 分類器和MLP 分類器的識(shí)別效果相當(dāng);對(duì)于不同噪聲類型,在信噪比不低于5 dB 的情況下,RF 分類器的準(zhǔn)確率可達(dá)到95%以上;當(dāng)信噪比降低到-5 dB 時(shí),準(zhǔn)確率普遍下降很多,此時(shí)應(yīng)該結(jié)合降噪算法保證語(yǔ)音檢測(cè)的準(zhǔn)確率。
表3 不同噪聲環(huán)境不同信噪比下不同分類器的識(shí)別結(jié)果列表
針對(duì)多噪聲場(chǎng)景下的活動(dòng)語(yǔ)音檢測(cè)任務(wù),提出了一種基于t-SNE 與隨機(jī)森林的噪聲場(chǎng)景識(shí)別方法,將動(dòng)態(tài)噪聲環(huán)境轉(zhuǎn)化為特定噪聲環(huán)境,并針對(duì)不同噪聲特點(diǎn)優(yōu)選音頻特征、定制化訓(xùn)練模型,提高了整套方法在不同噪聲類型、不同噪聲強(qiáng)度下應(yīng)用性能的穩(wěn)定性,提升了活動(dòng)語(yǔ)音檢測(cè)的準(zhǔn)確率。在本文方法基礎(chǔ)上,可考慮語(yǔ)音信號(hào)自身存在的停頓、喘息等特點(diǎn),后續(xù)還可以通過(guò)設(shè)定最短有效語(yǔ)音長(zhǎng)度和最短靜音長(zhǎng)度等門限機(jī)制來(lái)進(jìn)一步提高端點(diǎn)檢測(cè)的準(zhǔn)確率。