陰法明,王詩佳,趙力
DeepESC網(wǎng)絡的環(huán)境聲分類方法研究
陰法明1,王詩佳2,趙力2
(1. 南京信息職業(yè)技術學院通信學院,江蘇南京 210023;2. 東南大學信息科學與工程學院,江蘇南京 210096)
為進一步提升環(huán)境聲分類的識別率,提出了一種仿深度隱藏身份特征 (Deep Hidden Identity Feature, DeepID)網(wǎng)絡連接方式的卷積神經(jīng)網(wǎng)絡——深度環(huán)境聲分類網(wǎng)絡(Deep Environment Sound Classification, DeepESC)。DeepESC網(wǎng)絡共有六層——三層卷積層、兩層全連層以及一層聚合層,為使網(wǎng)絡在自動抽取高層次特征的同時能有效地兼顧低層次特征,網(wǎng)絡將三層卷積層的輸出聚合為一層,該層充分包含不同層次的特征,提升了卷積神經(jīng)網(wǎng)絡的特征表達能力。ESC-10和ESC-50數(shù)據(jù)集上的仿真結果表明:在相同的識別框架下,與隨機森林分類器相比,本文網(wǎng)絡識別率分別平均提升了7.6%和22.4%,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡相比,識別率分別平均提升4%和2%,仿真實驗驗證了本文分類器的有效性。
卷積神經(jīng)網(wǎng)絡;環(huán)境聲分類;DeepID網(wǎng)絡
由于鏡頭角度固定、光線偏弱等原因,傳統(tǒng)的人工視覺系統(tǒng)領域的監(jiān)控系統(tǒng)的性能受到較多限制,而基于環(huán)境聲的系統(tǒng)往往能夠穩(wěn)定工作,彌補視覺監(jiān)控系統(tǒng)的不足。在環(huán)境聲的系統(tǒng)中,環(huán)境聲識別是研究的重點,開展針對環(huán)境聲識別的研究具有較強的實際意義。
在環(huán)境聲分類中,分類器的選擇在一定程度上決定了系統(tǒng)的性能,因此,國內(nèi)外學者針對該問題進行了大量的研究。在以往的研究中,通常以隨機森林(Random Forest)[1]、支持向量機(Support Vector Machine, SVM)[2]和高斯混合模型(Gaussian Mixed Model, GMM)[2]作為主流分類器進行識別。盡管這些傳統(tǒng)的分類器已經(jīng)取得了一定的效果,但離人們的期望仍有一定的差距。
在環(huán)境聲識別領域,一些研究者嘗試卷積神經(jīng)網(wǎng)絡算法(Convolutional Neural Networks, CNN)[3-5],并取得一定的成果。比如,具有獨特的網(wǎng)絡結構和特征提取算法的DeepID網(wǎng)絡[4],在人臉識別領域達到了99%的成功率。但環(huán)境聲分類問題不同于人臉識別,環(huán)境聲片段是一維的時間序列數(shù)據(jù),而人臉圖像則是具有特殊拓撲結構的二維數(shù)據(jù),因此,DeepID網(wǎng)絡并不能直接應用于環(huán)境聲分類問題?;诖?,本文首先將一維的環(huán)境聲數(shù)據(jù)轉(zhuǎn)換為二維的梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)圖像,并使用卷積神經(jīng)網(wǎng)絡作為分類器,采用DeepID特有的網(wǎng)絡連接方式組織網(wǎng)絡,從而構建了可以直接用于環(huán)境聲分類的DeepESC網(wǎng)絡。此外,傳統(tǒng)的聲音事件特征以MFCC為主[6-7],為進一步挖掘MFCC內(nèi)在特征,發(fā)揮圖像的多通道優(yōu)勢,本文在MFCC圖像的基礎上,提取出MFCC的1階至5階差分特征,再加上原MFCC圖像,總共形成6通道圖像特征,構成最終的輸入特征。數(shù)據(jù)集ESC-10和ESC-50上的仿真實驗驗證了本文模型的有效性。
一個典型的卷積神經(jīng)網(wǎng)絡由輸入層、若干卷積層和池化層、少量的全連層和最后一層輸出層(分類器)組成。卷積層和池化層一般交替出現(xiàn)。卷積層的作用是提取圖像的特征;池化層的作用是對特征圖進行壓縮,降低計算復雜度,提高特征提取的魯棒性。卷積層和池化層一般交替出現(xiàn)在網(wǎng)絡中,全連接層負責把提取的特征圖連接起來,最后通過分類器得到最終的分類結果。一張?zhí)卣鲌D中的所有元素都是通過一個卷積核計算得出的,也即一張?zhí)卣鲌D共享了相同的權重和偏置項。這一結構使得卷積神經(jīng)網(wǎng)絡能夠利用輸入數(shù)據(jù)的二維結構。與其他深度學習結構相比,卷積神經(jīng)網(wǎng)絡在圖像和語音識別方面能夠給出更好的結果。
卷積神經(jīng)網(wǎng)絡的低層卷積層所抽取的特征,往往是局部的,高層卷積層抽取的特征源于低層卷積層的輸出,層數(shù)越高學到的特征就越全局化。在實際應用中,往往使用多層卷積,然后再使用全連接層進行訓練[7]。
DeepID網(wǎng)絡包括8層網(wǎng)絡結構:4個卷積層,3個池化層,1個全連接層。全連接得到的是160特征向量,最后根據(jù)160維向量進行SVM或者Softmax分類。為了克服多層卷積導致的局部特征丟失的問題,DeepID網(wǎng)絡3個池化層的輸出與第4個卷積層的輸出連接后傳播至全連接層,使得網(wǎng)絡既能利用局部特征,又能利用全局特征。
環(huán)境聲片段的MFCC圖像與傳統(tǒng)圖像相比,僅有單通道,像素級的信息相對較少,并且局部相關性強。傳統(tǒng)CNN的各卷積層在逐層細化提取圖像特征的同時,也在丟失粗粒度、低層次的特征,這使得原本像素信息相對較少的MFCC圖像在CNN網(wǎng)絡中最頂層的信息維度偏低。
通過把前三層卷積層所提取出的特征圖互相連接在一起,可以得到新的特征圖。但由于三層卷積層的特征圖具有不同的維度,因此按式(2)將特征圖展開為一維特征:
其中,,表示第層卷積核的尺寸,和分別表示像素索引,表示特征圖的通道數(shù)。
再將展平的各層特征圖連接,得到最終的融合特征圖:
從式(3)可知,所有卷積層提取所得的特征圖融合在一起獲得了,最終作為融合特征輸入DeepESC的全連層進行分類識別。DeepESC的網(wǎng)絡結構見圖1,各層參數(shù)如表1所示。
表1 DeepESC網(wǎng)絡結構參數(shù)
由于本文所用數(shù)據(jù)量較小,且DeepESC網(wǎng)絡層數(shù)較多,在訓練過程中產(chǎn)生了較強的過擬合現(xiàn)象。為對抗過擬合,本文采用Dropout算法[8],根據(jù)卷積層以及全連層的過擬合程度不同,分別對全連接層、DeepESC卷積層進行比例為0.5和0.2的Dropout算法處理。
本文采用公開數(shù)據(jù)集ESC-10以及ESC-50[9]。ESC-50數(shù)據(jù)集是2 000個環(huán)境音頻樣本集合,每個樣本長度是5 s,共50類聲音,采樣率為44.1 kHz,適用于環(huán)境聲音分類算法測試。ESC-10數(shù)據(jù)集是ESC-50的子數(shù)據(jù)集,包含10個類別,每個類別40個樣本,共400個環(huán)境聲樣本,總時長為33 min。
神經(jīng)網(wǎng)絡容易出現(xiàn)過擬合現(xiàn)象,因此需要更多的訓練數(shù)據(jù)。本文采用了文獻[10]和文獻[11]中的方法,根據(jù)環(huán)境聲數(shù)據(jù)的類別,對樣本進行不同程度的移調(diào)和時間伸縮,以此擴充數(shù)據(jù)集。由此,ESC-10數(shù)據(jù)集被擴大了10倍,ESC-50數(shù)據(jù)集被擴大了4倍。進行數(shù)據(jù)擴充后的ESC-10和ESC-50數(shù)據(jù)集被用于提取梅爾頻譜特征,并進行分段形成最終的樣本集合。ESC-10數(shù)據(jù)集最終共包含1500個樣本,ESC-50則含有7 200個樣本。
預處理及特征提?。簽樘岣咚惴ǖ挠行?,首先通過端點檢測去除樣本語音的靜默片段。然后以22.050 kHz的頻率對樣本進行重采樣,對樣本分幀并計算快速傅里葉變換(Fast Fourier Transform, FFT),其中,F(xiàn)FT點數(shù)為512,幀重疊率為50%。之后,使用60個子帶濾波器組成梅爾濾波器組,計算得到梅爾頻譜,并將其分為等長的若干段,段重疊率為50%,以段作為單元進行識別。每段共41幀,時長約930 ms。在梅爾頻譜圖像基礎上,利用Librosa軟件包[12]提取其1階至5階的差分特征,最終構成6通道的圖像輸入特征。
訓練網(wǎng)絡:本文采用目前流行的深度學習框架Caffe搭建訓練網(wǎng)絡[13]。在深層神經(jīng)網(wǎng)絡(Deep Neural Networks, DNN)中超參數(shù)的選擇對網(wǎng)絡的訓練乃至最后網(wǎng)絡的收斂狀態(tài)有著極大的影響[14]。目前,只能通過啟發(fā)式搜索來尋找一個較優(yōu)解[15]的方式選擇網(wǎng)絡的超參數(shù)。通過多次實驗與比較,最終確定的網(wǎng)絡超參數(shù)見表2。
對比分類器及其參數(shù):(1) 隨機森林分類器,最大深度為6,最大估計量為100[9];(2) CNN,兩層卷積層,卷積核尺寸分別為(57, 6)和(1, 3),后接池化層的池化核尺寸均為(2, 2),最后為兩層具有5 000個神經(jīng)元的全連層[16];(3) DNN,共5層神經(jīng)元數(shù)目為384的全連層,Dropout比率為0.5[17]
評估標準:環(huán)境聲識別中,以國際上通用的準確率作為評估指標。
表2 訓練超參數(shù)表
本文模型最終的分類準確率通過五折交叉驗證得到,其中,每份驗證集中均不包含擴充數(shù)據(jù)集中的音頻片段,只包含原始的音頻片段,擴充的環(huán)境聲片段只用于訓練網(wǎng)絡。
為使模型評估更具對比度,在相同特征的基礎上(MFCC),將DeepESC網(wǎng)絡與隨機森林(Random Forests)分類器以及傳統(tǒng)CNN分類器[16],在相同數(shù)據(jù)集ESC-10和ESC-50上進行了比較。此外,為了對比卷積層提取特征的作用,本文構建了一個5層深層神經(jīng)網(wǎng)絡,并在ESC數(shù)據(jù)集上訓練測試。
表3給出了4種分類器在ESC-10數(shù)據(jù)集和ESC-50數(shù)據(jù)集上的實驗結果。與隨機森林分類器相比,在2個數(shù)據(jù)集上,DeepESC分別提升了7.6%,22.4%,卷積神經(jīng)網(wǎng)絡在環(huán)境聲分類問題上所表現(xiàn)出的性能優(yōu)于傳統(tǒng)分類器;與DNN相比,DeepESC網(wǎng)絡的識別率分別提升了17.5%,23.6%。由于具有卷積層,因此DeepESC網(wǎng)絡識別率屬于深層神經(jīng)網(wǎng)絡CNN,卷積神經(jīng)網(wǎng)絡由于具有局部區(qū)域連接、權值共享、降采樣的結構特點,使其在圖像處理和語音識別領域表現(xiàn)出色。與傳統(tǒng)CNN相比,DeepID網(wǎng)絡通過連接各個卷積層的輸出,融合了多個層次的特征,從而能更大程度上地保留特征信息[19]。而本文在DeepID網(wǎng)絡的基礎上增加兩層全連層構成DeepESC網(wǎng)絡,該結構能保留不同維度的信息,并增加Softmax層,使得DeepESC能直接對環(huán)境聲進行分類,改變了DeepID僅提取特征而不進行分類的模式。因此,DeepESC較傳統(tǒng)CNN識別率分別提高了4%和2%。
表3 不同分類器的識別率對比
從整體的計算復雜度和空間復雜度來看,DNN的空間復雜度約為106的量級,卷積網(wǎng)絡則為107,DeepESC也同樣為107。在同樣使用GPU計算的情況下,三種神經(jīng)網(wǎng)絡的前向推理所耗費的時間基本相同,都為10 ms左右。可見,在犧牲了一定的存儲空間下,DeepESC通過增加網(wǎng)絡容量,提高了識別的精度。
本文嘗試利用卷積神經(jīng)網(wǎng)絡解決環(huán)境聲分類問題,并取得了優(yōu)于傳統(tǒng)模型的識別率,從而證明了卷積神經(jīng)網(wǎng)絡對環(huán)境聲分類的可行性。此外,在傳統(tǒng)卷積神經(jīng)網(wǎng)絡的基礎上,通過參考DeepID的特殊網(wǎng)絡連接方式,構建適用于環(huán)境聲分類的DeepESC網(wǎng)絡。實驗結果表明,DeepESC網(wǎng)絡以特殊的網(wǎng)絡連接方式獲取了更多層次的特征,并且由此達到比傳統(tǒng)卷積神經(jīng)網(wǎng)絡更高的分類識別率,在環(huán)境聲分類問題上有較好的應用前景。
[1] PHAN H. Random regression forests for acoustic event detection and classification[J]. IEEEACM Transactions on Audio Speech & Language Processing, 2015, 23(1): 20-31.
[2] ZIEGER C, OMOLOGO M. Acoustic event classification using a distributed microphone network with a GMM/SVM combined algorithm[C]//INTERSPEECH 2008, Conference of the International Speech Communication Association, Brisbane, Australia, September. DBLP, 2008: 115-118.
[3] HAN Y, LEE K. Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation[J]. ArXiv Preprint ArXiv, 2016: 1607.02383.
[4] ELIZALDE B, KUMAR A, SHAH A, et al. Experiments on the DCASE Challenge 2016: acoustic scene classification and sound event detection in real life recording[C]//Proceedings of the Detection and Classification of Acoustic Scenes and Events 2016 Workshop(DCASE2016). Budapest, Hungary, 2016: 20-24.
[5] Z?HRER M, PERNKOPF F. Gated recurrent networks applied to acoustic scene classification and acoustic event detection[C]// Presented at the Detection and Classification of Acoustic Scenes and Events 2016 (DCASE 2016), 2016: 115-119.
[6] VU, TOAN H., AND JIA-CHING WANG. Acoustic scene and event recognition using recurrent neural networks[C]//Detection and Classification of Acoustic Scenes and Events 2016, Budapest, Hungary, 2016.
[7] 陶銳, 孫彥景, 劉衛(wèi)東. 多重水印快速加密技術在圖像深度傳感器中的應用[J]. 傳感技術學報, 2018, 31(12): 159-164.
TAO Rui,SUN Yanjing,LIU Weidong. Application of multi watermark fast encryption technology in image depth transduce[J]. Chinese Journal of Sensors And Actuators, 2018, 31(12): 159-164.
[8] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[9] PICZAK K J. ESC: Dataset for environmental sound classification [C]//ACM International Conference on Multimedia, ACM, 2015:1015-1018.
[10] SUN Y, WANG X, TANG X. Deeply learned face representations are sparse, selective, and robust[C]//Computer Vision & Pattern Recognition. 2015: 2892–2900.
[11] Sylvia Frühwirth-Schnatter. Data augmentation and dynamic linear models[J]. Journal of Time Series Analysis, 1994, 15(2): 183-202.
[12] MCFEE B, RAFFEL C, LIANG D, et al. Librosa: Audio and music signal analysis in Python[C]//Proc. of the 14th Python in Science Conf. (SCIPY 2015), 2015: 18-24.
[13] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Acm International Conference on Multimedia, 2014: 675–678.
[14] POVEY D, ZHANG X , KHUDANPUR S . Parallel training of deep neural networks with natural gradient and parameter averaging[C]// Computing Research Repository(CoRR 2014), 2014: 1410-7455.
[15] BERGSTRA J, BENGIO Y. Random search for Hyper-Parameter optimization[J]. Journal of Machine Learning Research, 2012, 13(1): 281-305.
[16] PICZAK K J. Environmental sound classification with convolutional neural networks[C]//2015 IEEE 25th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2015: 1-6.
[17] HERTEL L, PHAN H, MERTINS A. Comparing time and frequency domain for audio event recognition using deep learning[C]//2016 International Joint Conference on Neural Networks (IJCNN). Vancouver, BC, 2016: 3407-3411.
[18] Diederik P. Kingma, Jimmy Ba. Adam: A method for stochastic optimization[J]. ArXiv Preprint ArXiv, 2014: 1412. 6980.
[19] 陶銳. 面向電子票據(jù)認證的數(shù)字水印加密算法研究[D]. 中國礦業(yè)大學, 2018.
TAO Rui. Research on digital watermarking encryption algorithm for electronic bill authentication[D]. China University of Mining and Technology, 2018.
Environmental sound classification using DeepESC convolutional neural networks
YIN Fa-ming1, WANG Shi-jia2, ZHAO Li2
(1.Nanjing College of Information Technology, Nanjing 210023, Jiangsu, China;2. School of Information Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China)
To improve the accuracy of environmental sound classification, a new convolutional neural network named DeepESC, which imitates the connection of DeepID network, is proposed. DeepESC is composed of three convolution layers, two fully connected layers and one concatenate layer. To extract both high-level features and low-level features effectively, a concatenate layer is designed to join all convolution layers’ output together, which comprises all features of different levels in the DeepESC network. Experimental results on ESC-10 and ESC-50 data sets show that, compared with random forest classification in same conditions, the accuracy of DeepESC is improved by 7.6% and 22.4% respectively, and by 4% and 2% respectively compared with the traditional convolutional neural network.
convolution networks; environmental sound classification; DeepID network
TB52+9
A
1000-3630(2019)-05-0590-04
10.16300/j.cnki.1000-3630.2019.05.018
2018-05-13;
2018-07-06
國家自然科學基金(61571106)
陰法明(1980-), 男, 山東肥城人, 碩士, 副教授, 研究方向為信號處理。
陰法明,E-mail: yinfm@njcit.cn