張暉 蘇紅 張學(xué)良 高光來
?
基于卷積神經(jīng)網(wǎng)絡(luò)的魯棒性基音檢測方法
張暉1蘇紅1張學(xué)良1高光來1
在語音信號中,基音是一個(gè)重要參數(shù),且有重要用途.然而,檢測噪聲環(huán)境中語音的基音卻是一項(xiàng)難度較大的工作.由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)具有平移不變性,能夠很好地刻畫語譜圖中的諧波結(jié)構(gòu),因此我們提出使用CNN來完成這項(xiàng)工作.具體地,我們使用CNN來選取候選基音,再用動態(tài)規(guī)劃方法(Dynamic programming,DP)進(jìn)行基音追蹤,生成連續(xù)的基音輪廓.實(shí)驗(yàn)表明,與其他方法相比,本文的方法具有明顯的性能優(yōu)勢,并且對新的說話人和噪聲有很好的泛化性能,具有更好的魯棒性.
信號處理,基音檢測,卷積神經(jīng)網(wǎng)絡(luò),動態(tài)規(guī)劃
引用格式張暉,蘇紅,張學(xué)良,高光來.基于卷積神經(jīng)網(wǎng)絡(luò)的魯棒性基音檢測方法.自動化學(xué)報(bào),2016,42(6):959-964
基音頻率,簡稱基頻,它決定了語音的音高.在語音信號處理中,基頻信息可應(yīng)用于語音識別、語音壓縮編碼以及語音分離等領(lǐng)域[1-2].
基頻估計(jì)可以看作一個(gè)序列標(biāo)注問題,即需要標(biāo)注出每一幀語音的基頻.我們常用隱馬爾科夫模型(Hidden Markov models,HMMs)來解決這類問題.HMM的隱狀態(tài)(Hiddenstate)對應(yīng)著基頻,其觀察值(Observation)對應(yīng)著輸入的語音聲學(xué)特征,那么基頻估計(jì)對應(yīng)著隱馬爾科夫模型的解碼問題.在基頻估計(jì)中,有兩個(gè)關(guān)鍵步驟:候選基音選取和基音追蹤(Pitch tracking),分別對應(yīng)著HMM的后驗(yàn)概率計(jì)算和解碼.選取候選基音時(shí)僅考慮當(dāng)前幀,而不考慮語音的連續(xù)性.并把候選基音的可能性得分作為HMM的后驗(yàn)概率.基音追蹤根據(jù)語音的連續(xù)性約束,將候選基音串聯(lián)成連續(xù)的基音輪廓.這一解碼過程一般采用動態(tài)規(guī)劃(Dynamic programming,DP)來完成.
基頻估計(jì)一般采用信號處理、統(tǒng)計(jì)等方法[3-4].它們大多利用了語音信號的諧波結(jié)構(gòu).但是,諧波結(jié)構(gòu)較容易受到噪聲信號破壞,使得基頻估計(jì)錯(cuò)誤.尤其是當(dāng)信噪比(Signalnoise ratio,SNR)較低時(shí),諧波結(jié)構(gòu)被嚴(yán)重破壞,基頻估計(jì)變得尤為困難.魯棒性基音檢測方法主要關(guān)注有噪聲干擾的基頻估計(jì)問題.如Wu等[5]利用統(tǒng)計(jì)方法在破壞較小的通道上為諧波結(jié)構(gòu)建模.PEFAC(Pitch estimation filter with amplitude compression)[6]方法通過非線性幅度壓縮來減小窄帶中的噪音成分.Zhang等[7]利用語音分離方法去除噪聲后再進(jìn)行基頻估計(jì).這些方法都能緩解噪聲干擾帶來的損害,從而提高了基頻估計(jì)的魯棒性.
深度學(xué)習(xí)在其他領(lǐng)域取得了極大的成功[8-9],受此鼓舞,一些學(xué)者提出用深度模型來選取候選基音.Han等[10]首次提出使用深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)來選取候選基音.而我們在本研究中首次提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)來完成這一工作.
在本研究中,我們將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于噪聲環(huán)境下語音的基頻估計(jì)任務(wù).實(shí)驗(yàn)表明,與其他方法相比,我們的方法性能更好,可以適應(yīng)說話人和噪聲條件的改變,具有很好的魯棒性和泛化性能.
本文的結(jié)構(gòu)安排如下:第1節(jié)說明使用卷積神經(jīng)網(wǎng)絡(luò)的原因,第2節(jié)詳細(xì)介紹提出的基音檢測方法,第3節(jié)介紹實(shí)驗(yàn)過程,第4節(jié)給出結(jié)論.
短時(shí)語音信號可以表示為一系列諧波的加權(quán)和,其中第1個(gè)諧波即為基頻,記做F0,其他諧波均為F0的整數(shù)倍.在語譜圖中(圖1),這些諧波表現(xiàn)為一條條相互平行的深色曲線.圖中最下面一條曲線即代表基頻,并且每兩條相鄰曲線之間的距離也是一個(gè)基頻.
利用諧波結(jié)構(gòu),我們有兩種獲取基頻的方法,一是確定最下面一條曲線的位置,二是確定相鄰兩條曲線之間的距離.顯然后一種方法更抗噪、更魯棒.為了確定相鄰兩條曲線之間的距離,我們需要識別類似圖1方框中這樣的包含兩條相鄰曲線的局部模式.我們發(fā)現(xiàn)這樣的模式在整個(gè)語譜圖中大量重復(fù)出現(xiàn).這種重復(fù)會同時(shí)表現(xiàn)在頻率維度和時(shí)間維度上.在本研究中,我們使用卷積神經(jīng)網(wǎng)絡(luò)來挖掘包含在這些重復(fù)出現(xiàn)的局部模式中的有用信息.
我們使用卷積神經(jīng)網(wǎng)絡(luò)是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)具有平移不變性(Shift-invariant).平移不變性是指一種模式無論它出現(xiàn)在輸入的任何位置,都可以被CNN識別出來.這一特性恰好符合我們要識別出語譜圖中大量重復(fù)出現(xiàn)的局部模式的需求,這是我們選用CNN的主要原因.此外,相比于Han等[10]所采用的深度神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),我們使用的CNN還有一些額外的優(yōu)勢.首先,CNN的識別粒度更小.在本研究中,我們識別的是局部模式,而Han等[10]識別的是整個(gè)語音幀,相比之下,我們的輸入空間更小,更容易建??坍?此外,諧波結(jié)構(gòu)可能會被噪聲破壞,對應(yīng)著局部模式的破壞,但是由于最終的識別結(jié)果是從大量局部模式的識別結(jié)果中產(chǎn)生的,少量的局部模式識別錯(cuò)誤不會影響到最終的識別結(jié)果,從而能夠表現(xiàn)出更好的魯棒性能.最后,CNN采用權(quán)值共享,相對而言訓(xùn)練參數(shù)更少,進(jìn)而所需的訓(xùn)練數(shù)據(jù)也會較少.總之,使用CNN恰好符合基頻估計(jì)的應(yīng)用需求,并且可以帶來更好的魯棒性和泛化性能.
圖1 語譜圖中的諧波結(jié)構(gòu)(小方框中的局部模式重復(fù)出現(xiàn))Fig.1 Harmonic structure in spectrogram(The patterns in small windows are repeated.See the ones in the two black boxes.)
本文提出的基頻估計(jì)方法分作兩個(gè)步驟:候選基音選取和基音追蹤.具體算法如圖2所示,主要包括四大模塊.首先,從輸入的語音波形信號中抽取聲學(xué)特征,我們選用的聲學(xué)特征為線性的PEFAC特征(見第2.1.1節(jié)).之后,將語音的聲學(xué)特征作為一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的輸入,確定候選基音范圍(見第2.1.2節(jié)).然后,利用混合高斯模型(Gaussian mixture model,GMM)計(jì)算候選基音的后驗(yàn)概率,完成候選基音選?。ㄒ姷?.1.3節(jié)).最后,使用動態(tài)規(guī)劃進(jìn)行基音追蹤,輸出估計(jì)的基頻結(jié)果(見第2.2節(jié)).
2.1候選基音選取
2.1.1抽取特征
我們使用PEFAC[6]中提出的語譜特征,該特征已被證明具有較好的魯棒性.Han等[10]在其工作中也使用PEFAC特征作為其神經(jīng)網(wǎng)絡(luò)的輸入.PEFAC特征是語音的短時(shí)傅里葉譜經(jīng)過一個(gè)梳狀濾波器濾波后的結(jié)果.
需要指出的是,這里的PEFAC特征在頻率維度上是對數(shù)尺度(Logarithmic scale)的.為了利用卷積神經(jīng)網(wǎng)絡(luò)的平移不變性,我們將PEFAC特征從對數(shù)尺度變換到線性尺度上.這是因?yàn)樵诰€性尺度上,語譜圖中兩條相鄰曲線之間的距離相同,這樣的模式重復(fù)出現(xiàn),適合用卷積神經(jīng)網(wǎng)絡(luò)刻畫. PEFAC加強(qiáng)了有基音分布的頻段,同時(shí)削弱了沒有基音分布的頻段.我們截取線性PEFAC特征中基音信息最明顯的前200維,將其作為本研究使用的特征,該特征是卷積神經(jīng)網(wǎng)絡(luò)的輸入.
2.1.2確定候選基音范圍
我們將確定候選基音視為一個(gè)分類任務(wù),即輸入語音當(dāng)前幀的聲學(xué)特征,輸出其基頻.本研究中,將輸出基頻限定在80Hz~415Hz之間,這一范圍基本滿足了日常會話中基頻估計(jì)的需求.然而即使以1Hz作為識別的粒度,也要求神經(jīng)網(wǎng)絡(luò)有超過300類的輸出,任務(wù)難度較大.為了簡化這個(gè)任務(wù),我們將此范圍內(nèi)連續(xù)的基頻值用式(1)離散化[10]為若干個(gè)基音狀態(tài),每個(gè)狀態(tài)對應(yīng)真實(shí)基頻的一個(gè)范圍.我們將基音狀態(tài)作為卷積神經(jīng)網(wǎng)絡(luò)的分類目標(biāo),那么卷積神經(jīng)網(wǎng)絡(luò)的輸出就是候選基音的范圍.
在式(1)中,p是實(shí)際基頻,s是與之相對應(yīng)的基音狀態(tài).此外還需要考慮無聲幀即沒有基音的語音幀,當(dāng)加入一個(gè)無聲狀態(tài)后,最終得到59個(gè)分類目標(biāo).
我們使用卷積神經(jīng)網(wǎng)絡(luò)來完成這個(gè)分類任務(wù).CNN包含多個(gè)卷積層和降采樣層,它們相互交替疊合形成一個(gè)多層的神經(jīng)網(wǎng)絡(luò).最后一個(gè)降采樣層連接到一個(gè)多層感知機(jī)(Multi-layer perception,MLP).本研究中使用的CNN結(jié)構(gòu)如圖3所示.網(wǎng)絡(luò)最后一層的傳遞函數(shù)選用Softmax,CNN的輸出是基音狀態(tài)概率.
圖3 CNN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of the proposed CNN
圖2 基頻估計(jì)算法流程Fig.2 The proposed pitch determination algorithm
2.1.3選取候選基音
前面確定了候選基音的范圍,得到了基音狀態(tài)的概率,這里用混合高斯模型將這個(gè)離散的基音狀態(tài)概率轉(zhuǎn)換為連續(xù)的基頻概率.
對隨機(jī)變量z,混合高斯模型的概率分布函數(shù)p(z)定義如下:
其中,αk是系數(shù),代表一個(gè)高斯分布,分別表示均值和方差.K是高斯分量的個(gè)數(shù).
為了得到候選基音,我們用高斯分布對每一個(gè)基音狀態(tài)建模,其標(biāo)準(zhǔn)差σk是該基音狀態(tài)帶寬的一半,均值μk是其中心頻率.我們根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的輸出選取前K個(gè)基音狀態(tài)作為候選,并將卷積神經(jīng)網(wǎng)絡(luò)的輸出歸一化后作為混合高斯模型的系數(shù)αk.在本研究中,根據(jù)開發(fā)集上的實(shí)驗(yàn)結(jié)果選擇K=3.此時(shí)p(z)即表示基頻的概率.
這樣就完成了候選基音的選取,并得到了每個(gè)候選基音的后驗(yàn)概率.
2.2基音追蹤
基音追蹤根據(jù)候選基音生成連續(xù)的基音輪廓.由于語音信號的連續(xù)性約束,相鄰兩幀之間的基頻不會發(fā)生過大的變化.根據(jù)Kasi等的研究[11],使用Laplacian分布來對語音的連續(xù)性進(jìn)行建模.如式(3)所示:
其中,Δ表示相鄰幀之間的基頻變化量,為了縮小搜索范圍,我們限制|Δ|≤20.μ是位置參數(shù),σ>0是尺度參數(shù).其中μ=0.4,σ=2.4[11].式(3)確定了有聲幀之間基頻的轉(zhuǎn)移規(guī)律.根據(jù)統(tǒng)計(jì),我們設(shè)定有聲幀和無聲幀之間相互轉(zhuǎn)移的概率都為0.005.無聲幀之間相互轉(zhuǎn)移的概率為0.2.構(gòu)成概率轉(zhuǎn)移矩陣(4):
其中,NP表示無聲幀,P表示有聲幀.
這樣我們就可以使用動態(tài)規(guī)劃完成基音追蹤了.
3.1實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證我們提出的方法,我們用RASC863語音數(shù)據(jù)庫中的普通話部分作為純凈語音來源.RASC863語音數(shù)據(jù)庫包含了來自不同的年齡、性別和教育背景下說話人朗讀的大量語音.在實(shí)驗(yàn)中,噪聲選自Hu收集的100種非語音噪聲[12],分別記做n1-機(jī)器聲、n2-雞尾酒會噪聲、n3-工廠噪聲、n4-汽笛、n5-語譜噪聲(Speech shaped noise)、n6-白噪聲、n7-鳥鳴、n8-雞啼、n9-人潮噪聲、n10-人聲嘈雜(Babble)、n11-馬達(dá)聲、n12-警報(bào)、n13-操場噪聲、n14-車流噪聲、n15-水流聲和n16-風(fēng)聲.這些噪聲覆蓋了日常生活中的常見噪聲.為了進(jìn)一步說明我們的方法對噪聲具有更強(qiáng)的魯棒性,我們還選擇了IEEE AASP Audio Classification Challenge(ACC)[13]中的噪聲庫,該噪聲庫包含了10種噪聲,記作n17~n26.
在實(shí)驗(yàn)中,隨機(jī)地選取一個(gè)女性說話人和一個(gè)男性說話人,分別抽取其50句語音,將這100句語音與n1~n6這6種噪聲按0dB混合得到的600句加噪的語音作為訓(xùn)練集.在訓(xùn)練集中隨機(jī)抽取100句作為開發(fā)集,抽取到的語句從訓(xùn)練集中移除.用于測試的數(shù)據(jù)分為三個(gè)集合:第一個(gè)集合的說話人和訓(xùn)練集相同,再選取新的20句語音;第二個(gè)集合和第三個(gè)集合隨機(jī)地選取了20個(gè)新的說話人,再從每個(gè)說話人中隨機(jī)地抽取一句語音.前兩個(gè)測試集的數(shù)據(jù)分別與n1~n16這16種噪聲混合,第三個(gè)測試集中的數(shù)據(jù)與ACC噪聲庫中的n17~n26這10種噪聲混合.所有測試集都按照—10dB、—5dB、0dB和5dB四種不同的信噪比產(chǎn)生加噪語音.n1~n6是訓(xùn)練時(shí)見過的噪聲,n7~n26是新噪聲.由于第一個(gè)測試集中的說話人是訓(xùn)練時(shí)見過的,我們稱這個(gè)測試集為說話人相關(guān)測試集,相對地,第二個(gè)測試集稱為說話人不相關(guān)測試集.第三個(gè)測試集使用ACC噪聲,我們稱之為ACC測試集.
作為參考目標(biāo)的真實(shí)基頻是從純凈語音中使用PRAAT軟件[14]提取得到的.
3.2實(shí)驗(yàn)評估
為了驗(yàn)證我們所提出方法的性能,我們用兩個(gè)指標(biāo)來評測實(shí)驗(yàn)結(jié)果:基音檢測率(Detection rate,DR)和錯(cuò)誤決策率(Voicing decision error,VDE).DR和VDE的計(jì)算如式(5)所示:
其中,N0.05表示估計(jì)出的基頻和實(shí)際基頻偏差在±5%范圍的總幀數(shù),Np→n表示將有聲幀誤判為無聲幀的總幀數(shù),Nn→p表示將無聲幀誤判為有聲幀的總幀數(shù).Np和N分別表示有聲幀的總幀數(shù)和所有數(shù)據(jù)的總幀數(shù).顯然,DR越大越好,VDE越小越好.
3.3實(shí)驗(yàn)配置
在實(shí)驗(yàn)中,所有音頻數(shù)據(jù)均降采樣到8kHz,并按照25ms幀長,10ms幀移,分幀處理,提取線性PEFAC特征作為卷積神經(jīng)網(wǎng)絡(luò)的輸入.
在本研究中,我們嘗試過不同的CNN結(jié)構(gòu),這些結(jié)構(gòu)的區(qū)別在于不同的網(wǎng)絡(luò)層數(shù)、節(jié)點(diǎn)數(shù)、卷積核大小等,我們發(fā)現(xiàn)除第一個(gè)卷積層的卷積核大小對識別效果有較大影響外,其他因素的影響均較小.根據(jù)在開發(fā)集上的實(shí)驗(yàn),我們使用的CNN有2個(gè)卷積層和2個(gè)降采樣層.第一個(gè)卷積層包含10個(gè)卷積核,每個(gè)卷積核的大小是5×5,實(shí)驗(yàn)表明這樣的設(shè)置可以較好地捕捉到語譜圖中的局部模式.第二個(gè)卷積層包含有20個(gè)5×5的卷積核.降采樣層均采用均值降采樣(Mean-pooling),其大小為2×2.之后連接到一個(gè)單隱層網(wǎng)絡(luò),其隱層包含500個(gè)節(jié)點(diǎn).網(wǎng)絡(luò)中的傳遞函數(shù)采用Sigmoid函數(shù),最終經(jīng)過Softmax函數(shù)輸出.該結(jié)構(gòu)是根據(jù)開發(fā)集選定的.CNN訓(xùn)練使用RMSprop方法[15]優(yōu)化交叉熵目標(biāo)函數(shù).
3.4系統(tǒng)分析
我們通過一個(gè)例子來展示提出的方法在基頻估計(jì)上的效果.圖4中所用到的語料屬于開發(fā)集,是將一句男生語音和機(jī)器噪聲按照信噪比0dB混合而成的.圖4(a)展示了卷積神經(jīng)網(wǎng)絡(luò)的分類效果,圖中點(diǎn)跡為網(wǎng)絡(luò)輸出,顏色越深表示概率越大,實(shí)線是目標(biāo)基音狀態(tài).從圖中我們可以看出,深色的點(diǎn)基本都落在了實(shí)線上,這表明卷積神經(jīng)網(wǎng)絡(luò)可以較準(zhǔn)確地預(yù)測基音狀態(tài).在開發(fā)集上,CNN的基音狀態(tài)分類準(zhǔn)確率可達(dá)70%以上.
在開發(fā)集上,對比基音追蹤處理前后的結(jié)果,DR略有提升,VDE有1%左右的下降.基音追蹤使整個(gè)算法的性能略有提升,但幅度不大.我們認(rèn)為有兩個(gè)方面導(dǎo)致這一結(jié)果:首先,在基音追蹤前系統(tǒng)性能已經(jīng)達(dá)到了較高水平,提升空間不大.其次,在圖4(a)中,幾乎在每一幀都僅有一個(gè)深色點(diǎn),這表明卷積神經(jīng)網(wǎng)絡(luò)在預(yù)測基音狀態(tài)時(shí)幾乎只給出一個(gè)大概率的候選基音范圍,這使得基音追蹤不能選中此范圍以外的基頻,因而效果有限.
總之,使用卷積神經(jīng)網(wǎng)絡(luò)能夠較好的選取候選基音,基于動態(tài)規(guī)劃的基音跟蹤能夠輸出連續(xù)的基音輪廓,產(chǎn)生較好的基音檢測結(jié)果.
3.5實(shí)驗(yàn)對比
為了評價(jià)提出方法的性能,我們將其與Jin方法(簡稱“Jin”)[16]、PEFAC方法(簡稱“PEFAC”)[6]和DNN方法(簡稱“DNN”)[10]做對比.其中Jin方法和PEFAC方法使用了其作者提供的開源代碼,我們根據(jù)文獻(xiàn)[10]實(shí)現(xiàn)了DNN方法.
我們在表1中列出對比結(jié)果,并在圖5中給出可視化結(jié)果.從圖5中,我們可以直觀地發(fā)現(xiàn),提出的方法(圖中用圓圈表示的曲線)能夠得到較高的基音檢測率(DR)和較低的錯(cuò)誤決策率(VDE).表1顯示與其他方法對比,提出的方法在各條件下的基音檢測率(DR)都是最高的,錯(cuò)誤決策率(VDE)雖未能保持一致優(yōu)勢但也與最優(yōu)結(jié)果相當(dāng).與DNN方法、PEFAC方法和Jin方法相比,我們提出的方法,DR平均分別提升了:5.58%、5.75%和16.41%. VDE則分別下降了1.91%、4.25%和10.04%.實(shí)驗(yàn)表明,提出的方法比其他方法性能更好.圖5中,從左到右,測試集與訓(xùn)練集的相似性越來越小.但是我們所提出方法的優(yōu)勢也越來越明顯.與對比方法中綜合性能最好的DNN方法相比,在各測試集上DR和VDE分別提升(下降)了:4.50%(0.08%)、3.68%(0.06%)、6.78%(3.51%)、4.68% (0.09%)和8.25%(5.29%).實(shí)驗(yàn)表明,我們提出的方法與其他方法相比有更強(qiáng)的泛化能力.
在本文中,我們提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于噪聲環(huán)境下的語音基頻估計(jì)任務(wù)中.卷積神經(jīng)網(wǎng)絡(luò)具有平移不變性,能夠很好地刻畫諧波結(jié)構(gòu),有助于基頻估計(jì).實(shí)驗(yàn)表明我們提出的方法明顯優(yōu)于其他方法并且具有更好的魯棒性,對新的說話人和新的噪聲具有很好的泛化性能.
圖4 基音檢測示例(圖中所用語料是一個(gè)男聲語音和機(jī)器噪聲按照0dB混合而成的)Fig.4 Example output of the proposed pitch determination method(The example mixture is a male utterance which is mixed with machine noise at 0dB.)
圖5 性能對比圖Fig.5 Performance comparisons
表1 本文方法參數(shù)設(shè)置表Table 1 Parameters setting of our method
References
1 Kun H,Wang D L.A classification based approach to speech segregation.The Journal of the Acoustical Society of America,2012,132(5):3475-3483
2 Zhao X J,Shao Y,Wang D L.CASA-based robust speaker identification.IEEE Transactions on Audio,Speech,& Language Processing,2012,20(5):1608-1616
教學(xué)方法的多樣性可以激發(fā)學(xué)生的學(xué)習(xí)興趣和啟發(fā)學(xué)生的學(xué)習(xí)思維.可以組織學(xué)生學(xué)習(xí)國內(nèi)外的一些數(shù)學(xué)大家做專題演講,介紹自己在搜集學(xué)習(xí)的過程中受到了哪些啟發(fā),從大師身上學(xué)到了什么,自己將來要如何做等內(nèi)容.
3 HuangF,LeeT.Pitchestimationinnoisyspeech using accumulated peak spectrum and sparse estimation technique.IEEETransactionsonAudio,Speech,& Language Processing,2013,21(1):99-109
4 Rabiner L.On the use of autocorrelation analysis for pitch detection.IEEE Transactions on Acoustics,Speech,&Signal Processing,1977,25(1):24-33
5 Wu M Y,Wang D L,Brown G J.A multipitch tracking algorithm for noisy speech.IEEE Transactions on Speech& Audio Processing,2003,11(3):229-241
6 Gonzalez S,Brookes M.PEFAC — a pitch estimation algorithmrobusttohighlevelsofnoise.IEEE/ACM Transactions on Audio,Speech,&Language Processing,2014,22(2):518-530
7 Zhang H,Zhang X,Nie S,Gao G,Liu W.A pairwise algorithm for pitch estimation and speech separation using deep stacking network.In:Proceedings of the 2015 IEEE International Conference on Acoustics,Speech&Signal Processing(ICASSP).South Brisbane,QLD:IEEE,2015. 246-250
8 Ciresan D,Meier U,Schmidhuber J.Multi-column deep neural networks for image classification.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI:IEEE,2012.3642-3649
9 Hinton G,Deng L,Yu D,Dahl G E,Mohamed A,Jaitly N,Senior A,Vanhoucke V,Nguyen P,Sainath T N,Kingsbury B.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups.IEEE Signal Processing Magazine,2012,29(6):82-97
10 Han K,Wang D L.Neural network based pitch tracking in very noisy speech.IEEE/ACM Transactions on Audio,Speech,&Language Processing,2014,22(12):2158-2168
11 Kasi K,Zahorian S A.Yet another algorithm for pitch tracking.In:Proceedings of the 2002 IEEE International Conference on Acoustics,Speech,and Signal Processing (ICASSP).Orlando,F(xiàn)L,USA:IEEE,2002.I-361-I-364
12 HuGN.100nonspeechsounds[Online],available:http://www.cse.ohio-state.edu/pnl/corpus/HuCorpus.html,April 1,2006.
13 Giannoulis D,Benetos E,Stowell D,Rossignol M,Lagrange M,Plumbley M D.Detection and classification of acoustic scenesandevents:anIEEEAASPchallenge.In:Proceedings of the 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA).New Paltz,NY:IEEE,2013.1-4
14 Boersma P,Weenink D J M.PRAAT,a system for doing phonetics by computer.Glot International,2001,5(9-10):341-345
15 TielemanT,HintonG.Lecture6.5—RMSprop. COURSERA:Neural Networks for Machine Learning,2012. 16 Jin Z Z,Wang D L.Hmm-based multipitch tracking for noisy and reverberant speech.IEEE Transactions on Audio,Speech,&Language Processing,2011,19(5):1091-1102
張暉內(nèi)蒙古大學(xué)博士研究生.分別于2011年和2014年獲得內(nèi)蒙古大學(xué)學(xué)士和碩士學(xué)位.主要研究方向?yàn)檎Z音信號處理,語音分離和機(jī)器學(xué)習(xí).
E-mail:alzhu.san@163.com
(ZHANGHuiPh.D.candidateatInnerMongolia University.He received his B.S.and M.S.degrees from Inner Mongolia University in 2011 and 2014,respectively.His research interest covers audio signal processing,speech separation,and machine learning algorithms.)
蘇紅內(nèi)蒙古大學(xué)碩士研究生.2013年獲得內(nèi)蒙古師范大學(xué)學(xué)士學(xué)位.主要研究方向?yàn)檎Z音信號處理和機(jī)器學(xué)習(xí).
E-mail:sh123imu@163.com
(SU HongMaster student at Inner Mongolia University.She received her B.S.degree from Inner Mongolia Normal University in 2013.Her research interest covers audio signal processing and machine learning.)
張學(xué)良內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院副教授.2003年獲得內(nèi)蒙古大學(xué)學(xué)士學(xué)位,2005年獲得哈爾濱工業(yè)大學(xué)碩士學(xué)位,2010年獲得中國科學(xué)院自動化研究所博士學(xué)位.主要研究方向?yàn)檎Z音分離,聽覺場景分析和語音信號處理.本文通信作者.
E-mail:cszxl@imu.edu.cn
(ZHANG Xue-LiangAssociate professor in the Department of Computer Science,Inner Mongolia University.He received his B.S.degree from the Inner Mongolia University in 2003,the M.S.degree from Harbin Institute of Technology in 2005,and the Ph.D.degree from the Institute of Automation,Chinese Academy of Sciences in 2010.His research interest covers speech separation,computational auditory scene analysis,and speech signal processing.Corresponding author of this paper.)
高光來內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院教授.1985年獲得內(nèi)蒙古大學(xué)學(xué)士學(xué)位,1988年獲得國防科技大學(xué)碩士學(xué)位.主要研究方向?yàn)槿斯ぶ悄芘c模式識別.
E-mail:csggl@imu.edu.cn
(GAO Guang-LaiProfessor in the Department of Computer Science,Inner Mongolia University.He received his B.S.degree from Inner Mongolia University in 1985,and received his M.S. degree from the National University of Defense Technology in 1988.His research interest covers artificial intelligence and pattern recognition.)
Convolutional Neural Network for Robust Pitch Determination
ZHANG Hui1SU Hong1ZHANG Xue-Liang1GAO Guang-Lai1
Pitch is an important characteristic of speech and is useful for many applications.However,pitch determination in noisy conditions is difficult.Because shift-invariant property of convolutional neural network(CNN)is suitable to model spectral feature for pitch detection,we propose a supervised learning algorithm to estimate pitch using CNN.Specifically,we use CNN for pitch candidate selection,and dynamic programming(DP)for pitch tracking.Our experimental results show that the proposed method can obtain accurate pitch estimation and that it has a good generalization ability in terms of new speakers and noisy conditions.
Signalprocessing,pitchdetermination,convolutional neural network(CNN),dynamic programming (DP)
10.16383/j.aas.2016.c150672
ZhangHui,SuHong,ZhangXue-Liang,Gao Guang-Lai.Convolutional neural network for robust pitch determination.Acta Automatica Sinica,2016,42(6):959-964
2015-10-29錄用日期2016-04-01
Manuscript received October 29,2015;accepted April 1,2016
國家自然科學(xué)基金(61365006,61263037)資助
Supported by National Natural Science Foundation of China (61365006,61263037)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院 呼和浩特010020
1.Computer Science Department,Inner Mongolia University, Hohhot 010020