(杭州電子科技大學,浙江 杭州310018)
基于CNN的連續(xù)語音說話人聲紋識別
吳震東,潘樹誠,章堅武
(杭州電子科技大學,浙江 杭州310018)
近年來,隨著社會生活水平的不斷提高,人們對機器智能人聲識別的要求越來越高。高斯混合—隱馬爾可夫模型(Gaussian of mixture-hidden Markov model,GMM-HMM)是說話人識別研究領(lǐng)域中最重要的模型。由于該模型對大語音數(shù)據(jù)的建模能力不是很好,對噪聲的頑健性也比較差,模型的發(fā)展遇到了瓶頸。為了解決該問題,研究者開始關(guān)注深度學習技術(shù)。引入了CNN深度學習模型研究連續(xù)語音說話人識別問題,并提出了CNN連續(xù)說話人識別(continuous speaker recognition of convolutional neural network,CSR-CNN)算法。模型提取固定長度、符合語序的語音片段,形成時間線上的有序語譜圖,通過CNN提取特征序列,經(jīng)過獎懲函數(shù)對特征序列組合進行連續(xù)測量。實驗結(jié)果表明,CSR-CNN算法在連續(xù)—片段說話人識別領(lǐng)域取得了比GMM-HMM更好的識別效果。
連續(xù)語音;語譜圖;GMM-HMM;深度學習
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的高速發(fā)展,實現(xiàn)人與電子產(chǎn)品之間的自由交互越來越受到人們的重視。聲紋識別技術(shù)在實現(xiàn)這一目標中扮演著非常重要的角色。語音識別技術(shù)正在走向?qū)嵱?。蘋果公司于2011年收購了Siri公司,并在 iPhone 4上應用了語音識別功能,但當時識別體驗不理想。2013-2015年,蘋果公司相繼收購了擁有識別整個短語的語音識別技術(shù)的Novauris公司和英國語音技術(shù)初創(chuàng)公司VocalIQ。與此同時,谷歌在2011年收購了語音通信公司 Say Now和語音合成公司 Phonetic Arts,2015年入資中國以導航為主的問問公司,并推出帶有語音識別技術(shù)的智能手表。Amazon在2011-2013年,相繼收購語音識別領(lǐng)域的Yap語音識別公司、Evi語音技術(shù)公司和Ivona Software語音技術(shù)公司。Facebook于2013年后,相繼收購了Mobile Technologics和Wit.ai語音識別公司,實現(xiàn)了用戶可以通過語音來控制應用程序、穿戴設(shè)備和控制機器人等功能。微軟的Cortanna和微軟小冰在記錄用戶使用習慣和智能對話等功能,使人們生活更加智能化。國內(nèi)百度語音、科大訊飛等科技公司在語音識別領(lǐng)域也在進行大量的應用基礎(chǔ)及應用性研究。
與語音識別技術(shù)發(fā)展階段相似,聲紋識別技術(shù)也在走向?qū)嵱谩,F(xiàn)有技術(shù)在長文本、低噪聲聲紋識別時,已達到較高識別率。但是在片段語音環(huán)境下,常用的線性預測頻率倒譜系數(shù)(linear prediction cepstrum coefficient)和 Mel頻率倒譜系數(shù)(mel frequency cepstrum coefficient)等聲學特征,識別率明顯下降。在模式識別方面,靜態(tài)說話人模型包括:高斯混合模型[1](Gaussian mixture model)、高混合通用背景模型 (Gaussian mixture model-universal background model)和支持向量機[2](support vector machine,SVM)。這些靜態(tài)模型在用特征描述目標說話人的時候有很好的效果。一般來說,傳統(tǒng)的重要模型包括Douglas Reynolds提出的UBM-MAP-GMM模型、Patrick Kenny提出的 Joint Factor Analysis[3-6]和NajimDehak提出的 i-vector[7,8]。在一定程度上,可以把現(xiàn)有短語音聲紋識別模型視為不充分的聲學特征,該模型尚不能很完美地描述說話人聲紋特點。
2006年,深層結(jié)構(gòu)模型在識別領(lǐng)域開始發(fā)光發(fā)熱,可以說是語音、圖像識別領(lǐng)域突破性發(fā)展的重要一年。2006年之前,研究者們通過各種方式來搭建深層的架構(gòu)來實現(xiàn)語音和圖像的識別,但是都得不到好的結(jié)果。因為訓練一個有深度的前饋神經(jīng)網(wǎng)絡,用淺層的學習方法往往得不到理想的效果。當層數(shù)越深時,深層網(wǎng)絡的梯度就會變得很不穩(wěn)定,這使得深層次的梯度對之前層的關(guān)聯(lián)度幾乎喪失,從而導致模型訓練效果急劇惡化。就在這一年,Hinton等人[9]首次提出了非監(jiān)督貪心逐層訓練算法生成的模型——深度置信網(wǎng)絡[10](deep belief network,DBN),每一層都用訓練數(shù)據(jù)來初始化深度神經(jīng)網(wǎng)絡,優(yōu)化了深度網(wǎng)絡結(jié)構(gòu),一定程度上解決BP算法[11]帶來的局部最優(yōu)解問題。卷積神經(jīng)網(wǎng)絡[12](convolutional neural network,CNN)被提出并大量應用于圖像特征挖掘。
2009年以來,深度學習方法逐漸被引入聲紋識別領(lǐng)域,用以對語音的深層特征加以挖掘,構(gòu)建更充分的聲紋識別模型,如遞歸神經(jīng)網(wǎng)絡[13](recurrent neural network,RNN)以及RNN的各種變型(LSTM模型)[14]。RNN模型的網(wǎng)絡結(jié)構(gòu)可以表達前后信息相關(guān)的時序效果,所以在語音識別方面有很大的優(yōu)勢。但目前而言,RNN及LSTM模型均未達到超越GMM模型的聲紋識別能力。
本文將目前更為成熟的深度神經(jīng)網(wǎng)絡CNN模型引入聲紋識別,構(gòu)建連續(xù)—片段語音,基于有序語譜圖的CNN聲紋識別系統(tǒng)取得了比GMM模型更好的聲紋識別能力。
聲紋識別是生物特征識別[15]中的一種,也被稱作說話人識別,可分為說話人辨別和說話人確認兩類。前者是在很多說話人的情況下判斷是其中哪個說話人所說的,是“多對一”的過程;后者是判斷為某個說話人說所的。根據(jù)不同的任務需求和應用場景,選取不同的聲紋識別技術(shù),如在支付交易或者遠程登錄的時候需要確認技術(shù),而在縮小目標范圍的時候則需要辨別技術(shù)。
傳統(tǒng)的聲紋識別模型一般都是在隱馬爾可夫模型(hidden Markov model,HMM)[16]的基礎(chǔ)上建立的,而HMM是一種基于統(tǒng)計的特征識別方法。換句話說,是根據(jù)聲學模型和語言模型,通過最大后驗概率來識別?,F(xiàn)階段基于深度學習的語音識別,模型通過對大量數(shù)據(jù)的訓練,自動地學習數(shù)據(jù)中的特征。表現(xiàn)一個人聲學層面的特征有好多種,包括解剖學聲學特征(倒頻譜、共振峰等)、語法特征、韻律特征、通道信息、語種、語調(diào)和習語等[17]。 傳統(tǒng)的聲紋識別方法需要研究者對這些聲學特征進行人工分類。而在深度學習中,研究者不用知道聲學特征的相關(guān)信息,機器會自動地學習數(shù)據(jù)中的聲紋特征信息。顯著提高了研究者的研究效率,并且經(jīng)過對大量數(shù)據(jù)的學習,機器能夠?qū)W到更加完備的特征,效果比人工分類更好。
2.1 聲紋識別系統(tǒng)
一個完整的說話人識別系統(tǒng)由聲學特征提取、統(tǒng)計模型和分值計算組成,如圖1所示。系統(tǒng)訓練的過程是從原始的波形信號中提取語音的聲學特征,如詞、音節(jié)、音素及聲韻母等,并經(jīng)過訓練得到一個聲學模型,這個模型作為識別語音聲學特征基元的模板,模型結(jié)合研究者通過對人類聲學特征研究得到的語言模型,經(jīng)過解碼器的處理輸出相應的識別結(jié)果。
圖1 說話人識別系統(tǒng)結(jié)構(gòu)
現(xiàn)有的語音識別模型運用效果最好的為高斯混合模型(GMM),其基本過程為提取語音MFCC特征序列,運用統(tǒng)計模型對輸出序列進行概率評分,依據(jù)評分結(jié)果進行識別判斷。具體過程如下。
2.2 特征提取
MFCC的整個提取過程如圖2所示。其中,幀周期持續(xù)10~25 ms,在這期間,聲音被認為是靜止的。幀周期取20 ms的時候,移碼一般取10 ms。
預修正的部分是高通濾波器。數(shù)學表達式如下:
其中,a是預修正系數(shù),一般取0.95~0.97。頻率彎折能夠讓聲音有更好的表現(xiàn)特性,比如在聲頻壓縮方面。
漢明窗口能夠平滑幀信號的邊緣:
在音頻處理中,Mel頻率倒譜系數(shù)[18]表示聲音短期的功率譜。將功率譜取對數(shù)帶入Mel頻率倒譜系數(shù)中:
Mel頻率倒譜系數(shù)從音頻片段的倒譜表示中派生而來,Mel倒譜系數(shù)和倒譜系數(shù)的區(qū)別在于,Mel頻率倒譜的頻帶劃分在Mel刻度上是等距的,這比一般的對數(shù)倒譜更加符合人類的聽覺系統(tǒng)。音頻的響應函數(shù)如下:
其中,M是三角濾波器的總數(shù),m的取值范圍是0≤m<N。f(m)是Mel帶通濾波器組的第m個濾波器,其數(shù)學表達式如下:
其中,N是FFT的長度。fh和fl分別是濾波器的最大頻率和最小頻率。是的反函數(shù),反函數(shù)的作用是把Mel頻率轉(zhuǎn)換到Hz頻率。數(shù)學表達式如下:
2.3 統(tǒng)計模型
GMM和UBM的訓練過程如圖3所示。
圖2 MFCC提取過程
圖3 GMM和UBM的訓練過程
給出一連串的特征向量 X={x1,…,xt,…,xm}和說話人模型的依賴參數(shù)λ={ωi,μi,Σi},這些參數(shù)各自的迭代公式如下:
其中,第i次的后驗概率為:
經(jīng)分值估算,達到某概率閾值之上,判定輸入語音為說話者語音。概念估算計算式如下:
語音方面的深度學習模型一般都是RNN模型及它的變形LSTM模型。因為RNN模型引入了定向循環(huán),能夠處理輸入之間前后關(guān)聯(lián)的問題。這種識別技術(shù)一般應用在機器翻譯、圖像描述生成等領(lǐng)域。在說話人識別領(lǐng)域,RNN模型的識別效果并不是很理想。卷積神經(jīng)網(wǎng)絡在很多識別問題上已經(jīng)有了很好的識別效果,比如手寫字體的識別、人臉識別、交通標志分類、行人檢測、圖像標注和行為檢測[19-24]。因為 CNN模型在圖像領(lǐng)域的優(yōu)越表現(xiàn),本文想通過圖像的方法來達到連續(xù)—片段語音說話人識別的目的。本文結(jié)合CNN模型和聲紋的頻譜圖特征,在說話人識別領(lǐng)域提出連續(xù)—片段語音說話人識別(continuous speech recognition of convolutionalneuralnetwork,CSR-CNN)算法。
3.1 算法結(jié)構(gòu)
CSR-CNN由CSR和CNN兩個模型構(gòu)成。CSR是連續(xù)—片段說話人識別模型,CNN為特征提取模型,其結(jié)構(gòu)如圖4所示。
圖4 CSR-CNN模型結(jié)構(gòu)
系統(tǒng)先將時域上的說話人語音信息轉(zhuǎn)換為語譜圖(語音在時域上的表示是沒有任何聲學特征的),然后用訓練數(shù)據(jù)訓練一個CNN模型,并用測試數(shù)據(jù)檢測模型正確率。訓練好這個模型,將待檢測人的語譜圖分片傳入該模型,并提取它輸出特征向量。通過特征向量和標簽特征向量得到一個lost方程,如果lost方程計算評分大于給定的一個閾值,那么給出一個懲罰函數(shù)值,反之給出一個獎勵函數(shù)值。這兩個函數(shù)最終決定著說話人識別函數(shù)的結(jié)果。當說話人識別函數(shù)達到某個閾值時,就判定身份驗證成功,反之驗證失敗。
3.2 CNN模型
卷積神經(jīng)網(wǎng)絡可分為輸入層、卷積層、池化層和輸出層,如圖5所示,其中卷積層和池化層是卷積神經(jīng)網(wǎng)絡特有的。多個卷積核濾波器對原始輸入圖像卷積來提取多個抽象特征(線條、邊緣等),池化層對卷積層進行池化處理,使提取的特征更加緊湊并減少神經(jīng)元個數(shù)。使用多個卷積層和池化層的組合可以提取更加具像的特征(眼睛、鼻子等)。最后,通過softmax分類器和全連接層輸出結(jié)果。卷積神經(jīng)網(wǎng)絡有 3個主要的特征:局部感知域、權(quán)值共享和池化層。
圖5 CNN模型結(jié)構(gòu)
3.2.1 局部感知域
卷積神經(jīng)網(wǎng)絡中,本文把很小的鄰近區(qū)域作為輸入,如圖 6所示,5 dpi×5 dpi的卷積核窗口和輸入圖像做卷積,得到下一層圖像的一個像素點。其中被卷積部分就是局部感知域,每一個局部感知域在下一隱層中都有一個神經(jīng)元與之對應。
圖6 局部感知區(qū)域示意
3.2.2 權(quán)值共享
如圖 7所示,每個卷積核都帶有一組自己的權(quán)值和bais值并會自左向右、自上向下依次和輸入圖像做卷積。這就說明該卷積核特征映射圖的每一個神經(jīng)元都在檢測同一特征,只是這些特征位于圖片的不同地方,這使得識別目標在不斷移動時也能被識別。
圖7 卷基層特征圖提取示意
圖7舉例了3個特征映射圖,每一張?zhí)卣饔成鋱D都是通過一個權(quán)值共享的卷積核和輸入圖像卷積所得到。
每個卷積核只能提取一種特征,訓練中需要初始化多個卷積核。就計算量而言,以取20個特征為例,其需要520個參數(shù),和全連接神經(jīng)網(wǎng)絡23 550個參數(shù)相比,大大降低了計算量。
系統(tǒng)搭建了一個有L個卷積隱層的CNN。其中X= (x0,x1,…,xN)是輸入向量,H=(h0,h1,…,hL)是中間層的輸出向量,Y=(y0,y1,…,yM)是模型的實際輸出,D=(d0,d1,…,dM)是目標輸出,Vij是前一層輸出單元 i到隱層單元 j的權(quán)重,Wjk是隱層單元j到前一層輸出單元k的權(quán)重。另外,θk和j分別前一層輸出單元和隱層單元的閾值。
輸入數(shù)據(jù)和特征提取窗口做卷積,并通過一個激活函數(shù)(ReLU)得到下一層的特征圖。卷積表達式如下:
得到的特征圖作為下一個池化層的輸入,進行降維處理。降維處理對系統(tǒng)有3個作用:讓特征更加緊湊,特出顯著特征;減少系統(tǒng)的訓練參數(shù),n尺寸的池化層可以減少n2倍的參數(shù);增加系統(tǒng)的頑健性。
池化層的數(shù)學表達式如下:
其中,f(*)是激活函數(shù),系統(tǒng)中使用的激活函數(shù)是ReLU,其數(shù)學表達式如下:
經(jīng)過多個卷積層和池化層后,提取到的特征經(jīng)過最后一個全連接層得到一組特征向量,并通過分類器實現(xiàn)最后的分類。
3.3 CSR模型
引入CSR模型的目的是實現(xiàn)在連續(xù)語音的情況下,能夠不間斷地確定目標說話人的身份。CSR模型結(jié)構(gòu)如圖8所示。
圖8 CSR模型結(jié)構(gòu)
CSR模型中,設(shè)置一個獎懲函數(shù),數(shù)學表達式如下:
其中,lostn是第n個待檢測語音數(shù)據(jù)在通過CNN模型訓練后得到的歸一化特征向量和目標特征向量的誤差函數(shù),b是根據(jù)模型識別率給定的誤差閾值。
由式(16)可以看出,當lostn的值低于給定閾值的時候,給予說話人識別函數(shù)一個獎勵函數(shù),反之給予一個懲罰函數(shù)。
系統(tǒng)識別函數(shù)的數(shù)學表達式如下:
其中,φn是判斷第 n時刻的系統(tǒng)狀態(tài),f(lostn)是第n時刻的獎懲函數(shù)。
設(shè)定說話人識別函數(shù) φn取值區(qū)間為[c,d],即當說話人識別函數(shù)達到最大值或者最小值時,它的值就不會改變,并且給出一個識別閾值w。
當φn>w時,則表示目標說話人身份鑒定成功;當p<w時,則表示目標說話人身份鑒定失敗。當語音數(shù)據(jù)源源不斷輸入,該模型可以不間斷地確認說話人的身份。從φn值的設(shè)定可以看出,當識別率P值處在峰值時,即使因為周圍語音環(huán)境發(fā)生短暫性的變化以及可能的誤判,也可以持續(xù)地確認說話人身份。
CSR模型對單獨的CNN模型的識別率有很高的提升。CSR-CNN模型的識別率數(shù)學表達式如下:
其中,Pn是識別函數(shù)在識別閾值上側(cè)的最小值出現(xiàn)的概率,Pm是識別函數(shù)在識別閾值下側(cè)的最大值出現(xiàn)的概率,α(a)是錯誤接受率,β(a)是錯誤拒絕率。在一般的模型中,Pn、Pm、α(a)和β(a)的取值一般為百分之幾,所以識別率P接近于1。所以CSR-CNN模型在連續(xù)—片段說話人識別領(lǐng)域有很好的識別效果。
本文實驗中所使用的數(shù)據(jù)庫包含目標說話人在實驗室環(huán)境下隨機朗讀200個短語(每個短語持續(xù)1~2 s)以及目標說話人40 s的長語句和攻擊者15 s的長語句,咬字清晰,使用手持麥克風錄制語音。
本文首先要對原始的語音信號進行預處理。將時域上的語音信號進行頻域上的轉(zhuǎn)換,生成 200個頻譜圖,并調(diào)整為258 dpi×258 dpi的大小,作為模型的輸入。將預處理后的頻譜圖作為輸入傳入CSR-CNN模型中,實驗中設(shè)置的迭代步數(shù)為5 000步,在5 000步時,lost方程趨于平穩(wěn),模型趨于最優(yōu),最終lost的值為0.03。當步長在0.02時,本實驗的CNN模型的識別率比較高,最終識別率為96%。訓練完CNN模型,將連續(xù)說話人識別模型和CNN模型集合進行識別。將目標說話人和攻擊者的長語句,進行1~2 s的切片,分別得到30個和15個短語塊,并進行頻域的轉(zhuǎn)換。將這35個短語塊按圖9和圖10的序列,分別組成語音序列1和語音序列2。
提取每個短語塊的輸出特征向量,結(jié)合目標特征向量得到每個短語塊歸一化處理的lostn值。將 lostn的值輸入CSR模型,CSR模型通過對lostn的判斷來決定輸出一個獎勵函數(shù)還是懲罰函數(shù),并輸入最后的系統(tǒng)判決函數(shù)。
運行自己搭建的CNN實驗模型,對準備數(shù)據(jù)庫的說話人識別率為92%,達到了一個較高的識別率水平。再結(jié)合CSR模型,對準備的長語句數(shù)據(jù)進行識別,說話人函數(shù)的輸出函數(shù)如圖11所示。
圖11中,當說話人函數(shù)的數(shù)值在虛線標識區(qū)域的上方時,即函數(shù)值大于2.5的時候,系統(tǒng)就認為目標說話人被識別,反之則為識別失敗。通過對表2和實驗結(jié)果圖11的對比可以發(fā)現(xiàn),表1和表2中都有15個攻擊者說話人語音片段,而實驗結(jié)果的圖11中語音序列1和語音序列2分別有17次和16次的函數(shù)下降過程。這說明實驗中語音序列1和語音序列2分別有17次和16次的識別結(jié)果為非目標說話人,即其中分別有2個說話人語音片段和1個說話人語音片段被誤判為攻擊者語音。經(jīng)過數(shù)據(jù)比較,本文發(fā)現(xiàn)在語音序列1中,第38和39個目標說話人語音片段經(jīng)過CNN模型被誤判為攻擊者語音;在語音序列2中,第9個目標說話人語音片段經(jīng)過CNN模型被誤判為攻擊者語音。但是將CNN結(jié)果輸入CSR模型后,這個誤判沒有影響系統(tǒng)的整體的結(jié)果。該系統(tǒng)對CNN模型的誤判率有一定的容錯率,這提高了單CNN模型的識別率。
圖9 檢測語音1的語音片段序列
圖10 檢測語音2的語音片段序列
圖11 語音序列1和語音序列2的系統(tǒng)輸出函數(shù)
本文主要介紹了聲紋識別的發(fā)展進程和目前應用比較廣泛的幾個深度學習模型,并闡述了這幾個模型在語音識別領(lǐng)域中的應用和發(fā)展現(xiàn)狀。最后通過結(jié)合語譜圖、CNN模型,在連續(xù)聲紋識別中提出了CSR-CNN算法。
語音作為人機交互的一個關(guān)鍵接口,在人工智能方面有非常廣泛的實際應用前景。這幾年的研究表明,深度學習技術(shù)在聲紋識別領(lǐng)域能夠明顯提高聲紋識別系統(tǒng)的準確率。
雖然深度學習技術(shù)在語音領(lǐng)域取得了很大的成果,但是為了能夠?qū)崿F(xiàn)更加高效的人際關(guān)系,還有很多技術(shù)難點要克服。比如:很深層訓練網(wǎng)絡的梯度精確度問題、在實際應用中的噪聲頑健性問題等。其中,噪聲頑健性問題是現(xiàn)在語音識別中非常熱門的話題?,F(xiàn)階段實際應用中,帶噪聲的語音識別率一般都不是很高。未來對于語音識別系統(tǒng)的研究方向應該更加傾向于仿人腦聽覺系統(tǒng),隨著生物解剖學的發(fā)展,使模型不斷接近人腦的語音識別特性,將在這一領(lǐng)域持續(xù)研究。
[1]SU D,WU X,XU L.GMM-HMM acoustic model training by a two level procedure with Gaussian components determined by automatic model selection[C]//2010 IEEE International Conference on Acoustics Speech and Signal Processing,March 14-19,2010, Dallas,TX,USA.New Jersey:IEEE Press,2010:4890-4893.
[2]JOACHIMS T.Making large-scale SVM learning practical[J]. Technical Reports,1998,8(3):499-526.
[3]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted gaussian mixture models[J].Digital Signal Processing,2000,10(1-3):19-41.
[4]HEBERT M.Text-dependent speaker recognition[M].Heidelberg: Springer,2008:743-762.
[5]VOGT R J,LUSTI C J,SRIDHARAN S.Factor analysis modeling for speaker verification with short utterances[J]. Journal of Substance Abuse Treatment,2008,10(1):11-16.
[6]VOGT R,BAKER B,SRIDHARAN S.Factor analysis subspace estimation for speaker verification with short utterances[C]// INTERSPEECH 2008,Conference of the International Speech Communication Association,Sept6-10,2008,Brisbane,Australia. [S.l.:s.n.],2008:853-856.
[7]KANAGASUNDARAM A,VOGT R,DEAN D,et al.i-Vector based speaker recognition on shortutterances[C]//INTERSPEECH 2011(DBLP),August 27-31.2011,Florence,Italy.[S.l.:s.n.], 2011.
[8]LARCHER A,BOUSQUET P,KONG A L,et al.i-Vectors in the context of phonetically-constrained short utterances for speaker verification[C]//ICASSP,March 25-30,2012,Kyoto, Japan.New Jersey:IEEE Press,2012:4773-4776.
[9]HINTONGE,SALAKHUTDINOVRR.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786): 504-507.
[10]ZOU M,CONZEN S D.A new dynamic Bayesian network(DBN) approach for identifying gene regulatory networks from time course microarray data[J].Bioinformatics,2005,21(1):71-79.
[11]RUMELHART D E,MCCLELLAND J L.Parallel distributed processing[M]//Cambridge:The MIT Press,1986:45-76.
[12]ZORRIASSATINE F,TANNOCK J D T.A review of neural networks for statistical process control[J].Journal of Intelligent Manufacturing,1998,9(3):209-224.
[13]CHEN S H,HWANG S H,WANG Y R.An RNN-based prosodic information synthesizer for Mandarin text-to-speech[J]. IEEE Transactions on Speech&Audio Processing,1998,6(3): 226-239.
[14]TAN T,QIAN Y,YU D,et al.Speaker-aware training of LSTM-RNNS for acoustic modeling [C]// 2016 IEEE International Conference on Acoustics,Speech and Signal Processing,March 20-25,2016,Shanghai,China.New Jersey: IEEE Press,2016:5280-5284.
[15]GALES M J F.Maximum likelihood linear transformations for HMM-based speech recognition [J].Computer Speech & Language,1998,12(2):75-98.
[16]RAMASWAMY G N,GOPALAKRISHAN P S.Compression of acoustic features for speech recognition in network environments [C]//1999 IEEE International Conference on Acoustics,Speech and Signal Processing,May 15,1998,Seattle,WA,USA.New Jersey:IEEE Press,1998:977-980.
[17]PAN J,LIU C,WANG Z,et al.Investigation of deep neural networks (DNN)for large vocabulary continuous speech recognition:why DNN surpasses GMMS in acoustic modeling [C]//2012 International Symposium on Chinese Spoken Language Processing,Dec 5-8,2012,Kowloon Tong,China.New Jersey: IEEE Press,2012:301-305.
[18]HUANG Z,TANG J,XUE S,et al.Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code[C]// IEEE International Conference on Acoustics,Speech and Signal Processing,March 20-25,2016,Shanghai,China.New Jersey: IEEE Press,2016:5305-5309.
[19]SAATCI E,TAVASANOGLU V.Multiscale handwritten character recognition using CNN image filters[C]//2002 International Joint Conference on Neural Networks,May 12-17,2002,Honolulu, HI,USA.New Jersey:IEEE Press,2002:2044-2048.
[20]LIU K,ZHANG M,PAN Z.Facial expression recognition with CNN ensemble [C]//International Conference on Cyberworlds, Sept 28-30,2016,Chongqing,China.New Jersey:IEEE Press, 2016:163-166.
[21]JURISIC F,FILKOVIC I,KALAFATIC Z.Multip le-dataset traffic sign classification with OneCNN[C]//Iapr Asian Conference on Pattern Recognition,Nov 3-6,2015,Kuala Lumpur,Malaysia. New Jersey:IEEE Press,2015:614-618.
[22]ZHANG L,LIN L,LIANG X,et al.Is faster R-CNN doing well for pedestrian detection?[M].Heidelberg:Springer-Verlag:443-457.
[23]ZHENG Y,LI Z,ZHANG C.A hybrid architecture based on CNN for image semantic annotation[M]//SHI Z Z,VADERA S, LI G.Intelligent Information Processing VIII,Heidelberg: Springer,2016:81-90.
[24]PARMAKSIZOGLU S,ALCI M.A novel cloning template designing method by using an artificial bee colony algorithm for edge detection of CNN based imaging sensors[J].Sensors,2011, 11(5):5337-5359.
Continuous speech speaker recognition based on CNN
WU Zhendong,PAN Shucheng,ZHANG Jianwu
Hangzhou Dianzi University,Hangzhou 310018,China
In the last few years,with the constant improvement of the social life level,the requirement for speech recognition is getting higher and higher.GMM-HMM(Gaussian mixture-hidden Markov model)have been the main method for speaker recognition.Because of the bad modeling capability of big data and the bad performance of robustness,the development of this model meets the bottleneck.In order to solve this question,researchers began to focus on deep learning technologies.CNN deep learning model for continuous speech speaker recognition was introduced and CSR-CNN model was put forward.The model extracts fixed-length and right-order phonetic fraction to form an ordered sound spectrograph.Then input the voiceprint extract from CNN model to a reward-penalty function to continuous measurement.Experimental results show that CSR-CNN model has very good recognition effectin continuous speech speaker recognition field.
continuous speech,sound spectrograph,GMM-HMM,deep learning
TP393
:A
10.11959/j.issn.1000-0801.2017046
吳震東(1976-),男,杭州電子科技大學網(wǎng)絡空間安全學院講師,主要研究方向為生物特征識別、生物密鑰、網(wǎng)絡安全、自然語言處理、人工智能等。
潘樹誠(1991-),男,杭州電子科技大學通信工程學院碩士生,主要研究方向為基于深度學習的聲紋、人臉識別研究等。
章堅武(1961-),男,杭州電子科技大學通信工程學院教授、博士生導師,主要研究方向為移動通信系統(tǒng)、多媒體通信技術(shù)、網(wǎng)絡安全等。
2017-01-22;
2017-02-13
浙江省自然科學基金資助項目(No.LY16F020016);國家重點研發(fā)計劃經(jīng)費資助項目(No.2016YFB0800201);浙江省重點科技創(chuàng)新團隊項目(No.2013TD03)
Foundation Items:Zhejiang Natural Science Foundation of China(No.LY16F020016),National Key Research and Development Program of China (No.2016YFB0800201),Zhejiang Province Science and Technology Innovation Program(No.2013TD03)