程龍,張華清
(中國傳媒大學 信息工程學院,北京 100024)
基于改進MFCC的鳥鳴聲識別方法研究
程龍,張華清
(中國傳媒大學 信息工程學院,北京 100024)
鳥鳴聲識別的關鍵就在于對鳴聲信號進行合理的特征值提取。鳥鳴聲信號具有非平穩(wěn)性,傳統(tǒng)的梅爾倒譜系數(MFCC)僅能反映鳴聲信號的靜態(tài)特性,并且算法中直接運用FFT處理非平穩(wěn)信號存在局限性。本文提出了一種基于經驗模態(tài)分解(EMD)改進的MFCC算法,通過對鳥鳴聲信號進行經驗模態(tài)分解,得到一系列固有模態(tài)函數分量后再進行FFT計算,頻域合成后通過Mel濾波器,取其對數能量進行DCT變換,然后對結果作差分得到改進的MFCC參數,再采用高斯混合模型(GMM)進行鳥鳴聲的識別。實驗結果表明,改進的MFCC識別率達到70.09%,與未改進的MFCC識別率相比提高了3.42%。
鳴聲識別;梅爾倒譜系數;經驗模態(tài)分解;高斯混合模型
鳥類不同于其他物種[1],具有移動不確定性大、移動范圍廣的特點,且廣泛存在大規(guī)模遷徙的習性,其棲息地大部分在叢林,由于植被豐富,樹木掩映下時常出現未見其身而只聞其聲的狀況,因此很難憑借肉眼判斷,但是鳥類普遍具有鳴叫的特征,從而使分析鳥類叫聲成為了可行的種別辨識手段。
研究表明,和哺乳動物一樣,鳥類是用嘴來發(fā)出聲音的。鳴聲發(fā)自氣管與支氣管交界處的特殊發(fā)生器:鳴管[2-3]。鳴管由內、外鳴膜、半月膜和鳴肌等組成。鳴膜(亦稱鼓膜)是由支氣管的軟骨短管延長變形、內外側管壁變薄形成。鳴管正中有一舌狀突起,稱半月膜。鳴管外側附著小簇肌肉,稱鳴肌,其收縮可控制鳴管的伸縮變形,從而調節(jié)進入鳴管的空氣量和鳴膜的張力而發(fā)出聲音。
根據鳥鳴聲來識別鳥類的重點就在于分析其鳴聲中具有辨識性的成分。鳥類的鳴聲也會受到諸如性別、年齡、情緒等的影響,但是同種鳥類的鳴管構造是相似的,不同種類之間卻存在差異。常用的鳥鳴聲識別方法有時域分析方法和頻域分析方法,時域分析方法受限于鳥鳴聲樣本的選取,難以穩(wěn)定地獲取鳥鳴聲特征來加以識別。已有多位學者在對鳥鳴聲進行識別時采用頻域分析方法,其中應用最多的就是MFCC分析方法[4-6]。
鳥鳴聲信號具有非平穩(wěn)性,傳統(tǒng)的MFCC僅能反映鳴聲信號的靜態(tài)特性并且算法中直接運用FFT處理非平穩(wěn)信號存在局限性。本文提出了一種基于EMD[7-8]改進的結合差分的MFCC算法,對鳥類鳴叫聲進行特征提取,并結合高斯混合模型進行鳥鳴聲的識別。
對于語音信號來說,倒譜參數所包含的信息較其他參數多,它是目前普遍采用的說話人特征參數。倒譜系數反映了聲道的共振性能。常用的倒譜系數有:線性預測倒譜系數(LPCC)和Mel倒譜系數(MFCC)。與LPCC不同的是,MFCC的分析著眼于人耳的聽覺機理[9-11],依據聽覺實驗結果來分析語音的倒譜,獲得了較高的識別率和較好的噪聲魯棒性。將MFCC應用在鳥鳴聲識別上就是為了剔除其他因素的影響,保留鳴管的發(fā)聲特性。
MFCC是在Mel標度頻率域提取出來的倒譜參數,Mel標度描述了人耳頻率的非線性特性,它與頻率的關系可用下式近似表示:
(1)
MFCC的計算過程如圖1所示。
圖1 MFCC計算過程
MFCC的具體計算步驟如下:
(1)對輸入的聲音信號進行預加重,分幀,加窗等預處理。
(2)對幀信號做快速傅立葉變換(FFT):
(2)
(4)對每個濾波器的輸出取對數,得到相應的對數能量。
(5)將Mel濾波器組輸出的對數能量進行離散余弦變換(DCT),得到MFCC倒譜系數:
(3)
傳統(tǒng)的MFCC僅能反映鳴聲信號的靜態(tài)特性,而鳴聲信號的動態(tài)特性可以用這些靜態(tài)特征的差分來描述。差分MFCC倒譜系數Dn的計算公式為:
(4)
其中k為常數,一般取2。
3.1 經驗模態(tài)分解
經驗模態(tài)分解(EMD)即EMD法,是美國工程院士黃鍔博士于1998年提出的一種信號分析方法,特別適用于非線性非平穩(wěn)信號的分析處理。而鳥鳴聲信號具有明顯的非平穩(wěn)性,故EMD分解能夠適用于鳥鳴聲信號的分析與處理。
黃鍔等人認為任何信號都是由若干本征模函數組成,任何時候,一個信號都可以包含若干個本征模函數,如果本征模函數之間相互重疊,便形成復合信號。EMD分解的目的就是為了獲取本征模函數(IMF),一個IMF必須滿足以下兩個條件:
(1)在整個信號序列內,局部極值點和過零點的數目必須相等或最多相差一個。
(2)在任意時刻點,由局部最大值構成的包絡(上包絡線)和由局部最小值構成的包絡(下包絡線)的平均值必須為零。
EMD分解流程如圖2所示。
圖2 EMD分解流程
EMD具體分解步驟如下:
(1)確定信號序列x(n)中所有的極大值點和極小值點。
(2)用三次樣條線分別擬合原序列的上包絡線和下包絡線。
(3)求出上下包絡線的均值為m(n),并計算差值h(n)=x(n)-m(n)。
(4)判斷h(n)是否符合IMF條件,如不符合則將h(n)作為信號序列輸入,重復上述過程,如此循環(huán)直到得到第一個IMF分量e(n)。
在得到第一個IMF分量后,將信號序列減去分量重復上述步驟,得到第二個IMF分量,這樣不斷重復直到得到所有IMF分量。
圖3表示對預處理后的金黃鸝鳴聲信號進行EMD分解的結果,分解得到六個IMF分量和一個殘余分量。E1到E6為IMF分量,E7為殘余分量。其頻率從高到低排列,E1頻率最高,E6最低,E7為殘余項。可見EMD分解可以完全體現鳴聲信號的變化。
圖3 金黃鸝鳴聲經EMD分解后的結果
3.2 改進的MFCC
相比傳統(tǒng)的MFCC特征提取算法,改進的MFCC特征提取流程如圖4所示。首先對鳥鳴聲信號進行預加重,分幀,加窗等預處理;然后對每幀鳥鳴聲信號進行EMD分解,得到多個頻率由高到低的IMF分量,接著對每個IMF進行FFT變換;分別計算各個IMF分量的能量譜,頻域合成后通過Mel濾波器組濾波;然后對Mel濾波器組的輸出取對數,進行DCT變換,得到靜態(tài)MFCC系數;對靜態(tài)MFCC作差分,得到動態(tài)MFCC系數;最后將靜態(tài)MFCC系數與動態(tài)MFCC系數結合便是改進的MFCC。
圖5是同一幀蒼頭燕雀鳴聲信號的不同MFCC算法的特征參數對比圖。傳統(tǒng)MFCC取12維系數作為特征參數,結合差分的MFCC特征參數為24維,可以看出前12維特征參數相同,但是后者還包含了12維動態(tài)特性。本文改進的MFCC為24維,并且每一維度的值都與未用EMD改進的結合差分的MFCC不同,其中前12維靜態(tài)參數更加平滑,而后12維動態(tài)參數變化更明顯。
圖4 改進的MFCC計算過程
圖5 蒼頭燕雀鳴聲的不同特征參數
本文所用鳥鳴聲樣本均來自XC網站(www.xeno-canto.org)??紤]到鳴聲樣本獲取的難易度和地理位置等因素,選擇我國西南地區(qū)常見的暗綠柳鶯、八聲杜鵑、蒼頭燕雀、大尾鶯、黑胸麻雀、金黃鸝和紫水雞等7種鳥類一共594個鳴聲樣本。其中暗綠柳鶯157個,八聲杜鵑83個,蒼頭燕雀78個,大尾鶯108個,黑胸麻雀61個,金黃鸝62個,紫水雞45個。
仿真實驗過程中,每種鳥類60%的鳴聲樣本作為訓練樣本,40%的鳴聲樣本作為測試樣本。本文選擇GMM模型分類器[12-14]對提取的特征參數進行訓練。分別在傳統(tǒng)MFCC、結合差分的MFCC和改進的MFCC三種不同特征提取方法下進行鳥鳴聲識別實驗。傳統(tǒng)MFCC的識別率見表1,結合差分的MFCC的識別率見表2,本文提出的改進MFCC的識別率見表3。
對比表1和表2可知,結合差分的MFCC的鳥鳴聲總體識別率較傳統(tǒng)MFCC有提高,提高了3.85%,但是在個別鳥類鳴聲識別率上反而有所下降。這表示雖然結合差分的MFCC引入了動態(tài)特性,然而并不能穩(wěn)定的提升鳥鳴聲識別率。
對比表2和表3可知,本文提出的改進MFCC的鳥鳴聲總體識別率比結合差分的MFCC的總體識別率提高了3.42%,比傳統(tǒng)MFCC則提高了7.27%,并且沒有出現個別鳥鳴聲識別率下降的情況。黑胸麻雀的鳴聲識別率低于其他鳥類,是因為黑胸麻雀喜群居生活,XC網站上所錄制的音頻樣本存在多只黑胸麻雀同時鳴叫的情況。
表1 傳統(tǒng)MFCC的識別率(%)
表2 結合差分的MFCC的識別率(%)
續(xù)表
表3 改進MFCC的識別率(%)
鳥鳴聲信號具有非平穩(wěn)性,傳統(tǒng)的梅爾倒譜系數(MFCC)僅能反映鳴聲信號的靜態(tài)特性并且算法中直接運用FFT處理非平穩(wěn)信號存在局限性。針對上述問題,本文提出了一種基于EMD改進的結合差分的MFCC算法,對鳥類鳴叫聲進行特征提取并配合GMM模型分類器對鳥鳴聲進行識別。實驗結果表明,改進MFCC的鳥鳴聲識別方法的識別率達到70.09%,比未改進的鳥鳴聲識別方法的識別率提高了3.42%。下一步工作就是對該方法的實用性和魯棒性進行研究。
[1]楊勇,溫俊寶,胡德夫. 鳥類棲息地研究進展[J]. 林業(yè)科學,2011,47(11):172-180.
[2]李東風,藍書成. 鳥類鳴叫學習機理研究回顧[J]. 生理科學進展,1991,(4):324-328.
[3]呂琳娜. 鳥類鳴聲初探[J]. 生物技術世界,2016,(5):93-93.
[4]王恩澤,何東健. 基于MFCC和雙重GMM的鳥類識別方法[J]. 計算機工程與設計,2014,35(5):1868-1871.
[5]偉利國,張小超,吳文彪. 鳥鳴叫聲特征提取方法的研究[J]. 遼寧師范大學學報(自然科學版),2010,33(1):108-111.
[6]戴天虹,李野,孫鵬. 基于MATLAB鳥叫聲特征提取方法的研究[J]. 森林工程,2013,29(2):130-134.
[7]Huang N E,Shen Z,Long S R. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society A Mathematical Physical & Engineering Sciences,1998,454(1971):903-995.
[8]Colominas M A,Schlotthauer G,Torres M E. Improved complete ensemble EMD:A suitable tool for biomedical signal processing[J]. Biomedical Signal Processing & Control,2014,14(1):19-29.
[9]S Nakagawa,L Wang,S Ohtsuka.Speaker Identification and Verification by Combining MFCC and Phase Information[J].IEEE transactions on audio,speech,and language processing,20,2012.
[10]M A Hossan,S Memon,M A Gregory.A novel approach for MFCC feature extraction[J].Signal Processing and Communication Systems(ICSPCS),2010.
[11]朱春媚,黎萍. 基于子帶能量變換改進MFCC的咳嗽識別[J]. 計算機工程與應用,2016,52(11).
[12]V R Apsingekar,P L De Leon.Speaker Model Clustering for Efficient Speaker Identification in Large Population Applications[J].IEEE transactions on audio,speech,and language processing,17(4):848-853,2009.
[13]S K Biswas,D P Mukherjee.Recognizing Architectural Distortion in Mammogram:A Multiscale Texture Modeling Approach with GMM[J].IEEE Transactions on Biomedical Engineering,58(7),2011.
[14]Haipeng Wang,Xiang Zhang,HongbinSuo,Qingwei Zhao,Y Yan.A novel fuzzy-based automatic speaker clustering algorithm[J].ISNN ,639-646,2009.
(責任編輯:宋金寶)
Research of Birdsong Recognition Method Based on Improved MFCC
CHENG Long,ZHANG Hua-qing
(Information Engineering School,Communication University of China,Beijing 100024,China)
To choose a proper feature extraction method is the key of birdsong recognition. The signals of birdsong are non-stationary.The conventional Mel-Frequency Cepstral Coefficients(MFCC)can only reflect signals’ static features and has a certain limitation to use FFT to process the signals directly. In this paper,an improved MFCC algorithm is raised on the basis of Empirical Mode Decomposition(EMD).FFT is used after divided signals of birdsonginto intrinsic mode functions with EMD. The next steps are frequency synthesis,Mel filtering,logarithm and DCT. In the end,the improved MFCC parameters are obtained by doing differential calculation of the DCT results. The birdsongs can be recognized through the Gaussian Mixture Model(GMM). The results show that the recognition rate of the improved MFCC is 70.09%,and the recognition rate is increased by 3.42% compared with the conventional MFCC.
birdsong recognition;Mel-Frequency Cepstral Coefficients(MFCC);Empirical Mode Decomposition(EMD);Gaussian Mixture Model(GMM)
2016-11-15
程龍(1988-),男(漢族),江西南昌人,中國傳媒大學碩士研究生. E-mail:552151607@qq.com
TN912.3
A
1673-4793(2017)03-0041-06