馬志舉,杜慶治,龍 華,邵玉斌
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
說(shuō)話人識(shí)別也稱(chēng)為聲紋識(shí)別[1],與指紋識(shí)別、人臉識(shí)別等身份認(rèn)證技術(shù)相同,都代表不同人之間的個(gè)體差異。說(shuō)話人識(shí)別是根據(jù)每個(gè)人的發(fā)音特點(diǎn),以及每個(gè)人的發(fā)音器官,包括聲帶、聲道等,在大小和形狀上的不同來(lái)進(jìn)行區(qū)別不同人的聲音。
說(shuō)話人識(shí)別技術(shù)按照其所要識(shí)別的任務(wù)及應(yīng)用場(chǎng)景主要分為兩類(lèi):說(shuō)話人驗(yàn)證(Speaker Verification)及說(shuō)話人辨認(rèn)(Speaker Identification)。按照其識(shí)別內(nèi)容可以分為三類(lèi):文本相關(guān)(text-dependent)、文本無(wú)關(guān)(text-independent),以及文本提示(text-prompted)。隨著社會(huì)不斷的發(fā)展,文本無(wú)關(guān)的說(shuō)話人識(shí)別也越來(lái)越受到重視,本文針對(duì)文本無(wú)關(guān)的說(shuō)話人辨認(rèn)進(jìn)行研究。
傳統(tǒng)的說(shuō)話人識(shí)別技術(shù)往往對(duì)音頻提取聲學(xué)特征,例如梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)[2-3]、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficient, LPCC)[3]、伽瑪通頻率倒譜系數(shù)(Gammatone Frequency Coefficient, GFCC)[4]以及融合特征等作為特征信息,將特征輸入到模型中,再通過(guò)分類(lèi)器進(jìn)行判別分類(lèi),從而完成說(shuō)話人識(shí)別任務(wù)。因此,提取語(yǔ)音中的說(shuō)話人特征就成為了研究重點(diǎn),隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),提取特征的方法也可以通過(guò)深度學(xué)習(xí)來(lái)自動(dòng)提取,得到的特征包含更多的身份信息,如dvector[5]、x-vector[6]、j-vector[7]等特征通過(guò)不同的網(wǎng)絡(luò)模型提取得到,識(shí)別效果都有一定程度上的提高。
近幾年來(lái),隨著深度學(xué)習(xí)技術(shù)不斷的發(fā)展,圖像識(shí)別技術(shù)的不斷成熟,不少學(xué)者將語(yǔ)音信號(hào)轉(zhuǎn)化為語(yǔ)譜圖作為網(wǎng)絡(luò)的輸入,用于語(yǔ)音識(shí)別[8]、情感識(shí)別[9]和說(shuō)話人識(shí)別等多個(gè)領(lǐng)域,從而提高了識(shí)別率以及識(shí)別速度。
文獻(xiàn)[10]使用語(yǔ)譜圖直接作為網(wǎng)絡(luò)模型的輸入,通過(guò)改進(jìn)模型使得模型更小;文獻(xiàn)[11]通過(guò)對(duì)說(shuō)話人短時(shí)語(yǔ)譜圖的線性疊加來(lái)獲得穩(wěn)定發(fā)音的語(yǔ)譜圖,再輸入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練分類(lèi),提高識(shí)別率;文獻(xiàn)[12]對(duì)語(yǔ)譜圖進(jìn)行平移擴(kuò)充,從而達(dá)到增大數(shù)據(jù)量的目的,有助于深度學(xué)習(xí)訓(xùn)練,從而提高識(shí)別率;文獻(xiàn)[13]將語(yǔ)譜圖進(jìn)行拉東變換,然后聯(lián)合語(yǔ)譜圖一同輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)處理,實(shí)驗(yàn)表明,在抗噪方面有一定的提升。
以上論文中都未考慮語(yǔ)譜圖中說(shuō)話人信息的特性,未能有效地對(duì)語(yǔ)譜圖進(jìn)行改進(jìn),由于語(yǔ)譜圖中包含的信息較多,不能有效地針對(duì)說(shuō)話人身份信息進(jìn)行處理,從而提出改進(jìn)語(yǔ)譜圖的算法。語(yǔ)譜圖能表征語(yǔ)音中的大部分特征,包括說(shuō)話人的基頻[14]、共振峰以及發(fā)音特點(diǎn)等特征,算法根據(jù)語(yǔ)音中每一幀基頻進(jìn)行自適應(yīng)濾波,保留身份信息較強(qiáng)的基音頻率以及各階次諧波,從而提高了語(yǔ)譜圖中說(shuō)話人身份信息的信噪比。
考慮到實(shí)際應(yīng)用中網(wǎng)絡(luò)模型大小受限制,因此采用MobileNetv2[15]網(wǎng)絡(luò)模型作為說(shuō)話人識(shí)別模型。MobileNetv2 網(wǎng)絡(luò)模型往往應(yīng)用于圖像分類(lèi)處理中,由于該模型參數(shù)量較少,使得該模型可以在終端使用,該模型還具有識(shí)別準(zhǔn)確率高、訓(xùn)練時(shí)間短、識(shí)別速度快等優(yōu)點(diǎn)。將改進(jìn)后的語(yǔ)譜圖輸入到MobileNetv2 網(wǎng)絡(luò)模型中進(jìn)行分類(lèi),從而實(shí)現(xiàn)說(shuō)話人識(shí)別任務(wù)。
本文針對(duì)語(yǔ)譜圖進(jìn)行改進(jìn),提高語(yǔ)譜圖中說(shuō)話人身份特征的信噪比,并將MobileNetv2 作為深度學(xué)習(xí)網(wǎng)絡(luò)模型,實(shí)現(xiàn)說(shuō)話人識(shí)別算法,在減小模型參數(shù)量的同時(shí),提高了識(shí)別準(zhǔn)確率。
語(yǔ)音信號(hào)是通過(guò)麥克風(fēng)錄制得到的,在這個(gè)過(guò)程中語(yǔ)音的高頻部分會(huì)發(fā)生快速的衰減,并且錄制的語(yǔ)音當(dāng)中包含靜音片段,因此需要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到適合提取語(yǔ)譜圖的語(yǔ)音信號(hào)。語(yǔ)音數(shù)據(jù)預(yù)處理主要可以分為預(yù)加重、分幀、加窗以及靜音段去除。語(yǔ)音信號(hào)預(yù)處理流程如圖1 所示。
圖1 語(yǔ)音信號(hào)預(yù)處理模塊
語(yǔ)音信號(hào)是聲帶振動(dòng)產(chǎn)生的不同頻率正弦波以及各階次諧波,通過(guò)口腔、鼻腔聲道激勵(lì)作用后的信號(hào),最后通過(guò)采集并轉(zhuǎn)化為數(shù)字信號(hào),在這個(gè)過(guò)程中語(yǔ)音的高頻部分會(huì)發(fā)生快速的衰減。預(yù)加重的作用就是提高信號(hào)當(dāng)中的高頻部分,來(lái)消除這種衰減帶來(lái)的影響,在一定程度上放大了語(yǔ)音信號(hào)中的高頻信息。
預(yù)加重的方法是將信號(hào)通過(guò)數(shù)字濾波器來(lái)提高高頻信息,一般利用一階FIR 高通濾波器來(lái)實(shí)現(xiàn)。數(shù)字濾波器的傳遞函數(shù)如式(1)所示:
式中:α為預(yù)加重系數(shù),取值一般在0.9~1 之間。通過(guò)預(yù)加重處理后,語(yǔ)音信號(hào)中的高頻部分被提高并且使得頻譜變得更加平坦,有利于提高之后語(yǔ)譜圖研究分析的效果。
對(duì)于語(yǔ)音信號(hào)來(lái)說(shuō),信號(hào)本身是不穩(wěn)定的,它的特征是隨著時(shí)間的變化而變化的,在人們說(shuō)話的時(shí)候,每發(fā)出一個(gè)音節(jié),其對(duì)應(yīng)的語(yǔ)音特征都會(huì)與這段語(yǔ)音的其他部分截然不同。但由于語(yǔ)音信號(hào)在很短的時(shí)間內(nèi)表現(xiàn)出一定的穩(wěn)定性,也就是短時(shí)平穩(wěn)特性,因此將語(yǔ)音信號(hào)在時(shí)間軸上分割為很多短小的片段,這些片段稱(chēng)為幀,一幀的長(zhǎng)度通常在10~30 ms 范圍內(nèi)。為了使幀與幀之間過(guò)渡平滑,要讓相鄰兩幀之間有一部分重疊,一般取幀長(zhǎng)的一半作為重疊的長(zhǎng)度。
加窗處理主要解決信號(hào)當(dāng)中的吉布斯現(xiàn)象(Gibbs Phenomenon)以及傅里葉變換后出現(xiàn)的頻譜泄露(Spectral Leakage),就是將一幀信號(hào)的每一個(gè)值乘以不同的權(quán)重,實(shí)現(xiàn)方法是選擇合適的窗函數(shù)w(n)與語(yǔ)音信號(hào)x(n)進(jìn)行卷積運(yùn)算,得到加窗后的語(yǔ)音信號(hào)s(n),如式(2)所示:
常用的窗函數(shù)有矩形窗、漢明窗和漢寧窗。矩形窗的窗函數(shù)如式(3)所示:
漢明窗的窗函數(shù)如式(4)所示:
漢寧窗的窗函數(shù)如式(5)所示:
式中N為窗函數(shù)的長(zhǎng)度,大小等于幀長(zhǎng)。
選擇合適的窗函數(shù)可以使語(yǔ)音信號(hào)的短時(shí)特性表現(xiàn)的更好。通過(guò)分析以上三種窗函數(shù),其中矩形窗會(huì)使高頻成分損失,丟失波形細(xì)節(jié),導(dǎo)致能量泄露;漢明窗的主瓣較寬,旁瓣值較小,具有更平滑的低通特性,漢寧窗與漢明窗都是余弦函數(shù),但漢明窗的旁瓣更小。綜上所述,選擇漢明窗作為窗函數(shù)更為合適。
采用語(yǔ)音活性檢測(cè)(Voice Activity Detection, VAD)的方法將語(yǔ)音中的靜音段去除,從而得到純凈的語(yǔ)音信號(hào)。語(yǔ)音中通常含有靜音段,對(duì)于說(shuō)話人識(shí)別而言,靜音段屬于噪聲,將其濾除可以提高語(yǔ)音信號(hào)的信噪比,從而達(dá)到增強(qiáng)特征的目的。常用的抑制方法有能量閾值法、零交叉率法、最小二乘周期估計(jì)法以及基于統(tǒng)計(jì)模型的方法。本文采用較為流行的方法WebRTC VAD,該方法能夠較好地區(qū)分出語(yǔ)音段與靜音段。
WebRTC VAD 采用高斯統(tǒng)計(jì)模型對(duì)語(yǔ)音進(jìn)行判決,該方法的基本原理是根據(jù)人聲的頻譜范圍將輸入的頻譜分成6 個(gè)子帶,分別計(jì)算這6 個(gè)子帶的能量;然后使用高斯模型的概率密度函數(shù)做運(yùn)算,得出一個(gè)對(duì)數(shù)似然比函數(shù)。對(duì)數(shù)似然比分為全局和局部,全局是6 個(gè)子帶加權(quán)之和,而局部是指每一個(gè)子帶,語(yǔ)音在判決時(shí)會(huì)先判斷局部值,當(dāng)局部判斷為靜音段時(shí)會(huì)判斷全局,如果有一方通過(guò),就認(rèn)為是有語(yǔ)音段,最后保留有語(yǔ)音段的內(nèi)容。圖2 為語(yǔ)音信號(hào)在靜音段去除前后的波形對(duì)比。
圖2 語(yǔ)音信號(hào)VAD 處理前后波形對(duì)比
語(yǔ)譜圖可以表示該語(yǔ)音在頻域以及時(shí)域上的特征,語(yǔ)譜圖的長(zhǎng)和寬分別代表時(shí)間和頻率,顏色深淺代表能量大小。從語(yǔ)譜圖中可以得到不同的信息,包括語(yǔ)音的內(nèi)容、說(shuō)話人的基頻、共振峰等代表人的個(gè)性特征等。對(duì)于說(shuō)話人識(shí)別系統(tǒng)來(lái)說(shuō),增強(qiáng)基頻以及各階次諧波在語(yǔ)譜圖中的信息量可以提高信噪比。因此提出對(duì)語(yǔ)音信號(hào)進(jìn)行自適應(yīng)梳狀濾波[16],從而改進(jìn)語(yǔ)譜圖特征,算法流程如圖3 所示。
圖3 改進(jìn)語(yǔ)譜圖流程圖
語(yǔ)音信號(hào)是由聲帶振動(dòng)產(chǎn)生的波形,短時(shí)間內(nèi)振動(dòng)的頻率稱(chēng)為基音頻率,基音頻率與說(shuō)話人聲帶的大小、形狀、勁度以及發(fā)音習(xí)慣等有關(guān),是說(shuō)話人識(shí)別的重要特征之一。計(jì)算基音頻率的方法有短時(shí)自相關(guān)函數(shù)法[17]、平均幅度差函數(shù)法、倒譜法等。
本文采用短時(shí)自相關(guān)函數(shù)法,短時(shí)自相關(guān)函數(shù)法進(jìn)行基音檢測(cè)的原理是利用短時(shí)自相關(guān)函數(shù)的性質(zhì)。
設(shè)語(yǔ)音信號(hào)預(yù)處理后得到的第i幀信號(hào)為si(n),每幀幀長(zhǎng)為N,實(shí)驗(yàn)中取幀長(zhǎng)N為512,幀移為160。那么si(n)的短時(shí)自相關(guān)函數(shù)定義為:
式中k為時(shí)間的延遲量。每個(gè)樣本點(diǎn)的延遲量為1fs,fs為語(yǔ)音信號(hào)的采樣頻率。
當(dāng)si(n)的周期為P時(shí),則Ri(k)的周期也為P,即:
當(dāng)k= 0 時(shí),短時(shí)自相關(guān)函數(shù)具有最大值,對(duì)自相關(guān)函數(shù)歸一化處理得到自相關(guān)系數(shù):
人的基音頻率范圍一般在50~500 Hz,則Pmin取0.02,Pmax取0.2,在Pmin~Pmax之間尋找歸一化相關(guān)函數(shù)ri(k)的最大值,最大值對(duì)應(yīng)的延遲量k就是基音周期,通過(guò)式(9)得到基音頻率fi。
梳狀濾波器可以用來(lái)抑制周期性噪聲或增強(qiáng)周期性信號(hào)分量,語(yǔ)音中表示身份信息的基音頻率呈現(xiàn)周期性,因此采用梳狀濾波器對(duì)語(yǔ)音信號(hào)的每一幀進(jìn)行自適應(yīng)濾波,加強(qiáng)基音頻率以及各階次諧波,提高信噪比。
陷波濾波器的沖激響應(yīng)H(z)如式(10)所示:
式中:Q為濾波器階數(shù);ρ為極點(diǎn)大小,當(dāng)極點(diǎn)的幅值接近1 時(shí),濾波器的帶寬在諧波附近收緊;m為諧波次數(shù);fi為第i幀的基音頻率。
對(duì)語(yǔ)音信號(hào)的每一幀進(jìn)行離散傅里葉變換,得到Si(k)如式(11)所示:
式中N為傅里葉變換點(diǎn)數(shù),實(shí)驗(yàn)中取N為512。
將每一幀的離散傅里葉系數(shù)減去濾波后的離散傅里葉系數(shù),其中K為直流增益。
計(jì)算能量密度函數(shù)Pi(k)為:
對(duì)Pi(k)取對(duì)數(shù),得到頻譜的幅度值如下:
對(duì)得到的二維矩陣進(jìn)行映射,橫軸代表時(shí)間,縱軸代表頻率,得到改進(jìn)后的語(yǔ)譜圖圖像,圖4 為改進(jìn)后的語(yǔ)譜圖與原始語(yǔ)譜圖對(duì)比。
圖4 改進(jìn)后的語(yǔ)譜圖與原始語(yǔ)譜圖對(duì)比
深度學(xué)習(xí)算法伴隨著計(jì)算機(jī)性能的提升,慢慢成為了主流算法,典型的深度學(xué)習(xí)算法有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN)等。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)最為典型的網(wǎng)絡(luò)模型,目前已經(jīng)廣泛地應(yīng)用于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以分為3 層:卷積層、池化層和全連接層。通過(guò)卷積運(yùn)算提取輸入數(shù)據(jù)的特征參數(shù),結(jié)合激活函數(shù)、降采樣、池化等處理得到分類(lèi)結(jié)果。但傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)內(nèi)存需求大、運(yùn)算量大,導(dǎo)致無(wú)法在移動(dòng)設(shè)備以及嵌入式設(shè)備上運(yùn)行。隨后Google 團(tuán)隊(duì)在2017 年提出了MobileNet 網(wǎng)絡(luò)[18],相比于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),在準(zhǔn)確率小幅度降低的前提下大大減少了模型參數(shù)與運(yùn)算量。2018 年,Sandler 等人又進(jìn)一步提出了 MobileNetv2,解決了 MobileNetv1 中 Separable Convolution 存在的輸入層Kernel 數(shù)量固定的不足,并使得模型更小、準(zhǔn)確率更高。
本文將采用MobileNetv2 作為網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練分類(lèi),如表1 所示。其中t為擴(kuò)展因子,c為輸出特征矩陣的深度,n為重復(fù)操作的次數(shù),s為步長(zhǎng),網(wǎng)絡(luò)模塊中除了第一層,其余層的步長(zhǎng)s都為1,k為網(wǎng)絡(luò)分類(lèi)的類(lèi)別數(shù)。當(dāng)步長(zhǎng)s等于1 時(shí),網(wǎng)絡(luò)進(jìn)行shortcut 連接,也就是殘差網(wǎng)絡(luò)中的捷徑分支,當(dāng)網(wǎng)絡(luò)中進(jìn)行shortcut 連接時(shí),前后維度必須相同,通過(guò)shortcut 可以直接將淺層的信息傳遞到深層,一方面可以解決退化問(wèn)題,另一方面也可以看作是特征重用。
表1 網(wǎng)絡(luò)結(jié)構(gòu)模型
MobileNetv2 網(wǎng)絡(luò)結(jié)構(gòu)中的特點(diǎn)是倒殘差結(jié)構(gòu)塊(Inverted Residual block)和線性瓶頸(Linear Bottlenecks)結(jié)構(gòu),倒殘差結(jié)構(gòu)中首先對(duì)輸入特征矩陣進(jìn)行1×1 卷積升維,再通過(guò)3×3 的深度可分離卷積運(yùn)算,最后再通過(guò)1×1 卷積降維得到輸出特征矩陣。當(dāng)輸入特征矩陣深度與輸出特征矩陣深度相同時(shí),即步長(zhǎng)s等于1 時(shí)進(jìn)行shortcut 連接,其結(jié)構(gòu)流程如圖5 所示。
圖5 Bottleneck 結(jié)構(gòu)流程圖
實(shí)驗(yàn)中采用的語(yǔ)音數(shù)據(jù)來(lái)自AISHELL-2 開(kāi)源語(yǔ)音數(shù)據(jù)庫(kù),AISHELL-2 數(shù)據(jù)庫(kù)是希爾貝殼公司錄制的中文普通話語(yǔ)音數(shù)據(jù)庫(kù),語(yǔ)音內(nèi)容涉及喚醒詞、語(yǔ)音控制詞、智能家居等領(lǐng)域。錄音環(huán)境為安靜室內(nèi),1 991 名中國(guó)不同地區(qū)的人參與錄制,每人錄制語(yǔ)音數(shù)為500 條。
本文從AISHELL-2 數(shù)據(jù)庫(kù)中隨機(jī)選取3 組數(shù)據(jù)進(jìn)行實(shí)驗(yàn),分別為A 組、B 組、C 組,每組10 個(gè)人,每人隨機(jī)選取100 條語(yǔ)音,然后生成語(yǔ)譜圖,實(shí)驗(yàn)中每組語(yǔ)譜圖數(shù)據(jù)都按照7∶3 的比例分為訓(xùn)練集和驗(yàn)證集??紤]到AISHELL-2 數(shù)據(jù)庫(kù)中的語(yǔ)音大多數(shù)為短語(yǔ)音,經(jīng)過(guò)靜音段去除后大部分語(yǔ)音時(shí)間都小于1 s,因此將語(yǔ)譜圖的時(shí)間都設(shè)為0.5 s,大小為224×224 像素。其中:A 組語(yǔ)譜圖的訓(xùn)練集為2 711 張,驗(yàn)證集為1 155 張;B 組語(yǔ)譜圖的訓(xùn)練集為2 616 張,驗(yàn)證集為1 116 張;C 組語(yǔ)譜圖的訓(xùn)練集為2 794 張,驗(yàn)證集為1 190 張。
實(shí)驗(yàn)中語(yǔ)音信號(hào)的采樣率為16 000 Hz,幀長(zhǎng)為512,幀移為160,傅里葉變換點(diǎn)數(shù)為512。模型訓(xùn)練的實(shí)驗(yàn)平臺(tái)以及編程環(huán)境如表2 所示。
表2 實(shí)驗(yàn)平臺(tái)及環(huán)境配置
MobileNetv2 網(wǎng)絡(luò)模型中需要預(yù)先設(shè)置的參數(shù)有學(xué)習(xí)率、訓(xùn)練輪次、分類(lèi)數(shù)、批次大小等??紤]到數(shù)據(jù)集的大小、計(jì)算機(jī)硬件條件、網(wǎng)絡(luò)結(jié)構(gòu)等因素,設(shè)置初始學(xué)習(xí)率為0.001、訓(xùn)練輪次為100 輪、分類(lèi)數(shù)為10、批次大小為32。損失函數(shù)采用交叉熵?fù)p失函數(shù)(Cross Entropy Loss),并使用Adam 優(yōu)化器進(jìn)行梯度下降。
為了驗(yàn)證改進(jìn)語(yǔ)譜圖算法的有效性,分別對(duì)原始語(yǔ)譜圖、梅爾倒譜圖以及改進(jìn)后語(yǔ)譜圖進(jìn)行對(duì)照實(shí)驗(yàn),并分別對(duì)A、B、C 三組進(jìn)行對(duì)照實(shí)驗(yàn)。實(shí)驗(yàn)中訓(xùn)練集與驗(yàn)證集個(gè)數(shù)相同,網(wǎng)絡(luò)結(jié)構(gòu)不變,只改變特征譜圖。首先對(duì)數(shù)據(jù)集中的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到去除靜音段的歸一化語(yǔ)音信號(hào);再對(duì)語(yǔ)音信號(hào)進(jìn)行提取語(yǔ)譜圖、梅爾倒譜圖、改進(jìn)后的語(yǔ)譜圖等處理;最后在MobileNetv2 網(wǎng)絡(luò)模型中訓(xùn)練,并對(duì)驗(yàn)證集計(jì)算網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率。
通過(guò)對(duì)小組A、B、C 分別進(jìn)行實(shí)驗(yàn)仿真,模型在驗(yàn)證集中的識(shí)別率與迭代次數(shù)關(guān)系如圖6 所示。將縱坐標(biāo)識(shí)別率的區(qū)間設(shè)定為0.65~0.95。
圖6 不同對(duì)照組的迭代次數(shù)與識(shí)別率的關(guān)系
從圖6 中可以看到,在迭代60 次后識(shí)別率趨于平穩(wěn),模型收斂。在不同組中得到的識(shí)別率也有所不同,但在3 次對(duì)照實(shí)驗(yàn)中,改進(jìn)后的語(yǔ)譜圖相比原始語(yǔ)譜圖以及梅爾倒譜圖的識(shí)別率都有一定的提升。A、B、C三組實(shí)驗(yàn)中改進(jìn)后語(yǔ)譜圖的識(shí)別率較原始語(yǔ)譜圖分別提高了2.3%、5.2%、3%。由實(shí)驗(yàn)結(jié)果可知,本文算法取得了良好的效果,驗(yàn)證了本文算法的有效性。
對(duì)C 組實(shí)驗(yàn)中改進(jìn)語(yǔ)譜圖的結(jié)果繪制混淆矩陣,如圖7 所示。
圖7 改進(jìn)后語(yǔ)譜圖實(shí)驗(yàn)結(jié)果的混淆矩陣
主對(duì)角線上為正確樣本個(gè)數(shù),其余部分為錯(cuò)分樣本個(gè)數(shù),主對(duì)角線上的顏色越深代表分類(lèi)準(zhǔn)確率越高,從圖7 中可以直觀地看出該模型的分類(lèi)準(zhǔn)確率較高,表明改進(jìn)后的語(yǔ)譜圖特征適合于說(shuō)話人識(shí)別任務(wù)。
本文提出一種改進(jìn)語(yǔ)譜圖特征的方法,根據(jù)語(yǔ)音的短時(shí)特性對(duì)每一幀進(jìn)行梳狀濾波,從而得到說(shuō)話人特征更加明顯的語(yǔ)譜圖。在AISHELL-2數(shù)據(jù)庫(kù)中進(jìn)行了3組對(duì)照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果均表明,經(jīng)過(guò)自適應(yīng)濾波后得到的語(yǔ)譜圖明顯可以提高說(shuō)話人識(shí)別的準(zhǔn)確率,證明了該方法的有效性。在網(wǎng)絡(luò)模型的選取中采用MobileNetv2 網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行處理可以大量減少模型參數(shù),并確保準(zhǔn)確率沒(méi)有太大變化,可以應(yīng)用于工程實(shí)踐中。在深度學(xué)習(xí)過(guò)程中,網(wǎng)絡(luò)模型訓(xùn)練往往需要較大的數(shù)據(jù)樣本,對(duì)于數(shù)據(jù)樣本較少的情況下,深度學(xué)習(xí)的訓(xùn)練效果往往較差,如何解決這一問(wèn)題將會(huì)是今后研究的一個(gè)重點(diǎn)方向。
注:本文通訊作者為杜慶治。