王天銳 鮑騫月 秦品樂
摘 要:針對(duì)傳統(tǒng)環(huán)境音分類模型對(duì)環(huán)境音特征提取不充分,以及卷積神經(jīng)網(wǎng)絡(luò)用于環(huán)境音分類時(shí)全連接層易造成過擬合現(xiàn)象的問題,提出了梅爾倒譜系數(shù)(MFCC)、深層卷積和Bagging算法相結(jié)合的環(huán)境音分類方法。首先,針對(duì)原始音頻文件,利用預(yù)加重、加窗、離散傅里葉變換、梅爾濾波器轉(zhuǎn)換、離散余弦映射等方法建立梅爾倒譜系數(shù)特征模型;然后,將特征模型輸入卷積深度網(wǎng)絡(luò)進(jìn)行第二次特征提取;最后,借鑒強(qiáng)化學(xué)習(xí)思想,用Bagging集成算法集成線性判別分析器、支持向量機(jī)(SVM)、Softmax回歸、XGBoost四個(gè)模型,以投票預(yù)測的形式對(duì)網(wǎng)絡(luò)輸出結(jié)果進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效提高對(duì)環(huán)境音的特征提取能力和深層網(wǎng)絡(luò)在環(huán)境音分類上的抗過擬合能力。
關(guān)鍵詞:環(huán)境音分類;梅爾頻率倒譜系數(shù);Bagging集成算法;特征提取;深度學(xué)習(xí)
中圖分類號(hào):TP183文獻(xiàn)標(biāo)志碼:A
Environmental sound classification method based on
Mel-frequency cepstral coefficient, deep convolution and Bagging
WANG Tianrui, BAO Qianyue, QIN Pinle*
(School of Data Science and Technology, North University of China, Taiyuan Shanxi 030051, China)
Abstract: The traditional environmental sound classification model does not fully extract the features of environmental sound, and the full connection layer of conventional neural network is easy to cause over-fitting when the network is used for environmental sound classification. In order to solve the problems, an environmental sound classification method combining with Mel-Frequency Cepstral Coefficient (MFCC), deep convolution and Bagging algorithm was proposed. Firstly, for the original audio file, the MFCC model was established by using pre-emphasis, windowing, discrete Fourier transform, Mel filter transformation, discrete cosine mapping. Secondly, the feature model was input into the convolutional depth network for the second feature extraction. Finally, based on reinforcement learning, the Bagging algorithm was adopted to integrate the linear discriminant analyzer, Support Vector Machine (SVM), softmax regression and eXtreme Gradient Boost (XGBoost) models to predict the network output results by voting prediction. The experimental results show that, the proposed method can effectively improve the feature extraction ability of environmental sound and the anti-over-fitting ability of deep network in environmental sound classification.
Key words: environmental sound classification; Mel-Frequency Cepstral Coefficient (MFCC); Bagging integration algorithm; feature extraction; deep learning
0 引言
在物聯(lián)網(wǎng)與人工智能技術(shù)的快速發(fā)展下,隨著安全防控、自動(dòng)化機(jī)器人和醫(yī)療康復(fù)應(yīng)用的增加,環(huán)境音分類技術(shù)變得越來越重要。環(huán)境音分類是機(jī)器感知外界的重要一步,相較于視覺信息,聲音特征更具實(shí)時(shí)性和連續(xù)性,并且音頻數(shù)據(jù)占用的存儲(chǔ)空間也遠(yuǎn)小于圖像數(shù)據(jù)。如果能將環(huán)境聲音的信息與視覺信息有效地結(jié)合起來,無疑能提高機(jī)器感知外界的能力。
目前音頻分類和識(shí)別的研究方向大都集中在語音識(shí)別和語音的情感分析上,但近年來也逐漸出現(xiàn)了對(duì)環(huán)境聲音進(jìn)行分類和識(shí)別的研究: 文獻(xiàn)[1]針對(duì)移動(dòng)平臺(tái)加入了輕量級(jí)的聲音特征進(jìn)行分類;文獻(xiàn)[2]通過對(duì)鳥叫聲分類從而識(shí)別物種,為生態(tài)學(xué)研究提供了更為有效的數(shù)據(jù)。這些研究表明環(huán)境聲音識(shí)別技術(shù)擁有廣泛的應(yīng)用價(jià)值。
在環(huán)境聲音分類任務(wù)中,聲音信號(hào)的數(shù)字化表達(dá)、信號(hào)特征的提取和訓(xùn)練分類器是非常關(guān)鍵的三個(gè)部分。wav格式是最接近無損的音樂格式,該格式使用三種參數(shù)來表示聲音:量化位數(shù)、取樣頻率和采樣點(diǎn)的振幅,其中采樣點(diǎn)的振幅是本文操作的基礎(chǔ)。但是聲音的特征僅靠隨著時(shí)間變化的采樣點(diǎn)振幅是無法合理地進(jìn)行描述的。梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC) [3]是比較常用且高效的音頻特征。文獻(xiàn)[4]結(jié)合隱馬爾可夫模型(Hidden Markov Model, HMM)和MFCC對(duì)浴室聲音進(jìn)行識(shí)別;文獻(xiàn)[5]提取MFCC特征并結(jié)合支持向量機(jī)(Support Vector Machine, SVM)分類模型對(duì)環(huán)境音進(jìn)行分類。但MFCC特征提取后的系數(shù)幀矩陣在特征純度上還有所欠缺。雖然經(jīng)該方法轉(zhuǎn)換后聲音的描述更符合人類聽覺系統(tǒng),但是一段環(huán)境音頻中對(duì)于分類目標(biāo)來說其他雜音太多,直接將提取后的特征放入分類器不易取得較好的分類效果。針對(duì)此類特征提取問題,文獻(xiàn)[6]利用小波域特征與MFCC特征,把頻域與小波域特征相結(jié)合,能較好地提取出語音的內(nèi)容信息,但在環(huán)境音分類方面的效果有所欠缺;文獻(xiàn)[7]利用神經(jīng)網(wǎng)絡(luò)來對(duì)MFCC特征進(jìn)行提取,但準(zhǔn)確率并不算高,推測是全連接層的強(qiáng)組合能力易使特征過度提取,導(dǎo)致過擬合現(xiàn)象發(fā)生。另一方面,在環(huán)境音分類器的選擇上,目前已有文獻(xiàn)[8]所使用的SVM、文獻(xiàn)[9]所使用的線性判別分析器(Linear Discriminant Analysis, LDA)以及文獻(xiàn)[10]中直接沿用的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[11]全連接層等。經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),傳統(tǒng)的機(jī)器學(xué)習(xí)模型的分類能力有限,而使用CNN中的全連接層極易出現(xiàn)過擬合的現(xiàn)象,導(dǎo)致模型的泛化能力較低。文獻(xiàn)[12]利用遷移學(xué)習(xí)方法訓(xùn)練去掉全連接層的卷積神經(jīng)網(wǎng)絡(luò)用于聲音分類,雖能提高了模型泛化能力,但訓(xùn)練過程需要大量額外數(shù)據(jù),并且去掉全連接層后的網(wǎng)絡(luò)分類能力有限,效果不夠理想。
為了解決MFCC對(duì)特征提取不充分的問題,本文將卷積神經(jīng)網(wǎng)絡(luò)的全連接層去除,保留卷積池化層用來二次特征提取,以此來提取數(shù)據(jù)抽象隱藏的特征,并篩選掉不必要的因素。
為了解決全連接層易過擬合、直接去掉又分類能力不足的問題,本文應(yīng)用Bagging算法[13]思想,將SVM、LDA、Softmax Regression[14]、XGBoost(eXtreme Gradient Boost)[15]四個(gè)模型進(jìn)行集成用于分類。 實(shí)驗(yàn)結(jié)果對(duì)比表明,本文算法能夠較好地解決環(huán)境音特征提取純度不足以及深層模型在環(huán)境音分類上易過擬合的問題。
1 相關(guān)工作
1.1 梅爾頻率倒譜系數(shù)
梅爾倒譜系數(shù)特征的提取包括音頻預(yù)加重、分幀、加窗、離散傅里葉變化、Mel帶通濾波、離散余弦變換等步驟。物理頻率和Mel頻率的關(guān)系為:
Mel(f)=2595×lg(1 + f/700)(1)
計(jì)算步驟為:首先對(duì)聲音信號(hào)進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理操作,然后對(duì)每幀信號(hào)作離散傅里葉變換。變換公式為:
X(k)=∑N-1n=0x(t)exp(-j2πnk/N);0≤k≤N(2)
其次,用m個(gè)濾波器進(jìn)行濾波,濾波器的響應(yīng)函數(shù)為:
Hm(k)=
0, k 2(k-f(m-1))(f(m+1)-f(m-1))(f(m)-f(m-1)), f(m-1)≤k 2(f(m+1)-k)(f(m+1)-f(m-1))(f(m)-f(m-1)), f(m)≤k≤f(m+1) 0, k>f(m+1) (3) 其中:∑Hm(k)=1; f(m)是濾波器的中心頻率。再計(jì)算其對(duì)數(shù)能量,計(jì)算式為: S(m)=ln(∑N-1k=0|X(k)|2Hm(k)); 0≤m 最后代入離散余弦變換來得到梅爾倒譜系數(shù): C(n)=∑M-1m=0S(m)cos(πn(m+0.5)/M); 0≤n≤M(5) 1.2 卷積與池化 卷積層是通過使用卷積核按步長遍歷數(shù)據(jù)矩陣,對(duì)核上對(duì)應(yīng)的數(shù)值進(jìn)行加權(quán)求和得到新的特征值。每層卷積層通常使用多個(gè)卷積核,通過使用不同的核來讓原始數(shù)據(jù)矩陣在不同的空間維度上得到表達(dá)。 卷積層卷積核對(duì)數(shù)據(jù)矩陣的處理公式如下: xlj=f(∑i∈Mjxl-1jklij+blj)(6) 其中:M為中間層映射圖;l代表層數(shù);k代表卷積核;b代表偏置值;f則是激活函數(shù)。 池化層也常被稱作下采樣層,它是對(duì)特征的一種篩選,能保留主要特征(最大池化),或者將特征均勻化(平均池化)等。特征的降維一定程度上能防止過擬合現(xiàn)象的發(fā)生,其計(jì)算方法和卷積相似,即使用池化核按步長遍歷數(shù)據(jù)矩陣。處理公式為: xlj=f(xl-1j)(7) 其中f代表池化時(shí)選擇的方法。 1.3 Bagging算法 Bagging算法是將多個(gè)不同的元學(xué)習(xí)器集成。首先,通過對(duì)原數(shù)據(jù)集進(jìn)行可重復(fù)抽樣,得到多個(gè)不同的數(shù)據(jù)子集;然后,分別使用各個(gè)子集來訓(xùn)練不同的元模型,以此來提高各個(gè)元模型的泛化能力和模型之間的差異性。在預(yù)測時(shí)則采取投票方式,根據(jù)每個(gè)元模型的預(yù)測結(jié)果,選取出現(xiàn)次數(shù)最多的結(jié)果作為最后的類標(biāo)。 1.4 Softmax Regression Softmax Regression是讓Logistic Regression適用于多分類問題的一種改進(jìn)方法。Softmax Regression的函數(shù)形式如下: i=p(yi=1|xi;ω) p(yi=2|xi;ω) p(yi=k|xi;ω)= 1∑kj=1exp(ωjTxi)exp(ω1Txi) exp(ω2Txi) exp(ωkTxi)(8) 其中:ω是模型的參數(shù);k為類別的數(shù)量。其損失函數(shù)為: J(ω)= -1m∑mi=1∑kj=11{yi=j}lnexp(ωjTxi)∑kl=1exp(ωlTxi)(9) 其中m為樣本的個(gè)數(shù)。Softmax Regression中將樣本x分類為j的概率為: p(yi=j|xi;ω)=exp(ωlTxi)∑kl=1exp(ωlTxi)(10) 1.5 SVM SVM是一種對(duì)數(shù)據(jù)進(jìn)行分類的廣義線性分類器。該分類器通過尋找最優(yōu)的超平面來進(jìn)行學(xué)習(xí)。假設(shè)超平面表示為: ωTx+b=0(11) 則空間各點(diǎn)到超平面的距離可寫為: d=|ωTx+b|‖ω‖(12) 若超平面能將類別正確分類,且令類別為±1。則有: yi(ωTxi+b)≥1; i=1,2,…,m(13) 利用拉格朗日乘子法即可從式(14)求解出ω和b。 minω,b12‖ω‖2(14) s.t. yi(ωTxi+b)≥1,i=1,2,…,m 1.6 LDA LDA是一種模式識(shí)別算法。該算法通過將數(shù)據(jù)映射到另一空間,使樣本在新空間里有最小的類內(nèi)距離和最大的類間距離,以達(dá)到最佳的可分離性。令μi與Σi分別表示第i類樣本集合的均值向量和協(xié)方差矩陣。投影后樣本中心為ωTμi,協(xié)方差為ωTΣiω。要使同類映射點(diǎn)之間盡可能接近,即讓所有類協(xié)方差之和盡可能小;要使異類樣本投影之后盡可能遠(yuǎn)離,即讓各類樣本的中心樣本距離盡可能大。同時(shí)考慮則可得到優(yōu)化目標(biāo)函數(shù) 2.4 集成分類模型 該模塊在Bagging算法中采用Softmax Regression、SVM、LDA、XGBoost這4個(gè)分類器作為集成模型的元模型。 2.4.1 元模型一——Softmax Regression 使用數(shù)據(jù)集T1訓(xùn)練Softmax Regression模型,利用梯度下降的思想來訓(xùn)練模型。每次訓(xùn)練從T1數(shù)據(jù)集中隨機(jī)取出35個(gè)樣本組成一個(gè)批次,并將35個(gè)樣本放回,以便下次也能抽到。將35個(gè)樣本代入模型計(jì)算誤差。用35個(gè)樣本誤差之和與提前設(shè)置的誤差閾值進(jìn)行對(duì)比來控制訓(xùn)練的停止。 其損失函數(shù)對(duì)參數(shù)的偏導(dǎo)為: ωjJ(ω)=-1m∑mi=1[xi(1{yi=j}- p(yi=j|xi;ω))](22) 為使損失值盡可能小,最終讓分類器達(dá)到最好效果。對(duì)于每個(gè)參數(shù),其學(xué)習(xí)式為: ωnew=ω-rate×ωjJ(ω)(23) 如果誤差之和大于閾值,則求出35個(gè)偏導(dǎo)的平均值乘以學(xué)習(xí)率來優(yōu)化模型參數(shù); 反之,則停止訓(xùn)練。 2.4.2 元模型二——SVM 使用數(shù)據(jù)集T2訓(xùn)練SVM模型。由于T2已經(jīng)是經(jīng)過深層提取后的特征,所以本文沒有引入核函數(shù),對(duì)SVM的目標(biāo)函數(shù)使用拉格朗日乘子法可得到其“對(duì)偶問題”即: max α{∑mi=1αi-12∑mi=1∑mj=1αiαjyiyjxiTxj}(24) s.t. ∑mi=1αiyi=0, αi≥0, i=1,2,…,m 根據(jù)式(24)得到α并計(jì)算: b=yj-∑mi=1αiyixiTxj(25) 最終確認(rèn)模型。 2.4.3 元模型三——LDA 使用數(shù)據(jù)集T3訓(xùn)練LDA模型。本文依照LDA的思想,將T3中的樣本映射到ω空間上,預(yù)使50個(gè)不同種類的樣本在該空間上同類之間盡可能近,異類之間盡可能遠(yuǎn)。根據(jù)其目標(biāo)函數(shù),先分別計(jì)算出每個(gè)類的均值向量μi,再由拉格朗日乘子法可將目標(biāo)函數(shù)變?yōu)椋?/p> Sbω=λSωω(26) 其中λ是拉格朗日乘子。令: Sbω=λ∑49i=0∑49j=i(μi-μj)(27) 從而解出ω: ω=Sω-1∑49i=0∑49j=i(μi-μj)(28) 解出ω后即可得到映射空間函數(shù)。在預(yù)測時(shí)將點(diǎn)代入映射空間函數(shù),再按近鄰算法進(jìn)行分類。 2.4.4 元模型四——XGBoost 使用數(shù)據(jù)集T4訓(xùn)練XGBoost模型。XGBoost的參數(shù)眾多,其中學(xué)習(xí)率、樹的深度、樹隨機(jī)采樣的比例、L2正則化項(xiàng)等參數(shù)的作用較大。本文模型的參數(shù)為:學(xué)習(xí)率為0.3,樹分裂最小Loss為0,樹最大深度為6,最小葉子節(jié)點(diǎn)樣本權(quán)重和為1,隨機(jī)采樣比為1,L2正則化項(xiàng)為1。 設(shè)定好模型參數(shù)后,針對(duì)其目標(biāo)函數(shù),不斷重復(fù)初始化決策樹、代入樣本計(jì)算一階導(dǎo)數(shù)和二階導(dǎo)數(shù)、更新決策樹參數(shù),直到目標(biāo)函數(shù)低于閾值,停止訓(xùn)練。 2.5 投票決策 使用模型預(yù)測時(shí),采用簡單投票法。令4個(gè)分類器所得到的結(jié)果分別為y1、y2、y3、y4。首先分別對(duì)每個(gè)結(jié)果進(jìn)行ONE HOT編碼,編碼過程為: 初始化一個(gè)長度為50的全0向量: Hi=[0,0,0,…,0,0,0]len=50(29) 置第yi位為1: Hi[yi]=1(30) 也就是將分類的標(biāo)簽索引的位置置1,其余位置補(bǔ)0。然后將4個(gè)分類器的ONE HOT編碼矩陣相加: Hresult=∑4i=0Hi(31) 最大值對(duì)應(yīng)的索引位就是最終的預(yù)測結(jié)果: result=arg max (Hresult)(32) 如果出現(xiàn)多個(gè)類票數(shù)相同,則對(duì)比響應(yīng)模型的準(zhǔn)確率,將準(zhǔn)確率最高的模型投票的預(yù)測值作為最終結(jié)果。整個(gè)過程示意圖如圖5所示。 3 實(shí)驗(yàn)與結(jié)果分析 本文使用環(huán)境音數(shù)據(jù)集ESC-50(Dataset for Environmental Sound Classification)[18]進(jìn)行實(shí)驗(yàn)。ESC-50數(shù)據(jù)集是一個(gè)包含2000個(gè)環(huán)境音頻的集合。數(shù)據(jù)集標(biāo)簽分為50個(gè)不同的場景,每個(gè)樣本時(shí)長5s,音頻格式為wav。采樣率有44100Hz和16000Hz兩種。本文使用44100Hz的樣本,并將2000個(gè)樣本分為1600與400兩份,其中:1600個(gè)樣本用于模型的訓(xùn)練,400個(gè)樣本用于模型的測試。使用Tensorflow框架搭建卷積池化模型,模型細(xì)節(jié)見表1。 訓(xùn)練過程中,每訓(xùn)練50次代入訓(xùn)練集和測試集計(jì)算一次誤差值和準(zhǔn)確值,并記錄下來。一共訓(xùn)練了100000次,整個(gè)過程的誤差值和測試準(zhǔn)確率如圖6(b)所示。圖6(a)是加入帶有128神經(jīng)元、256神經(jīng)元的兩層全連接層后網(wǎng)絡(luò)的準(zhǔn)確率、誤差曲線圖。誤差曲線圖中居于上方的為測試集誤差,居于下方的為訓(xùn)練集誤差。 由圖6可以看到,去掉全連接層的網(wǎng)絡(luò)在測試集上準(zhǔn)確率能達(dá)到0.85,而含全連接層的準(zhǔn)確率只有0.53。由此可以得出:去掉全連接層的卷積神經(jīng)網(wǎng)絡(luò)用于環(huán)境音分類,不但可以提升特征的表達(dá)性,還能減少過擬合現(xiàn)象的發(fā)生。 針對(duì)Bagging隨機(jī)取樣的樣本數(shù)量進(jìn)行了實(shí)驗(yàn),結(jié)果如圖7所示。 經(jīng)過測試發(fā)現(xiàn):對(duì)于元分類器來講,提升樣本的數(shù)量與各元模型的準(zhǔn)確率成正比。但是當(dāng)樣本數(shù)量m超過910時(shí),由于過擬合現(xiàn)象的發(fā)生,各個(gè)元模型的準(zhǔn)確率雖然在上升,但是集成模型的準(zhǔn)確率開始降低。所以本文采用910為最終的樣本抽取數(shù),以此來提升模型的抗過擬合能力。 4個(gè)分類模型訓(xùn)練完成后,用單個(gè)分類器和集成模型在測試集V上分別進(jìn)行測試,結(jié)果如表2所示。 由單個(gè)模型測試的實(shí)驗(yàn)結(jié)果可以看出,在MFCC幀特征經(jīng)過深層卷積池化提取后通過不同的空間映射能達(dá)到一個(gè)較好的線性相關(guān)性,所以前三者線性類模型(LDA、Softmax Regression、SVM)效果較好,樹狀模型(XGBoost)效果相對(duì)差一些。本文投票方法將四種模型集成后的準(zhǔn)確率達(dá)到最高。 在測試集上測試了本文模型在ESC-50上各類的召回率。50類的平均分類錯(cuò)誤數(shù)為0.88,平均召回率為89.0%,其中召回率最低的10個(gè)類別結(jié)果如表3所示。 實(shí)驗(yàn)結(jié)果表明,在測試集的400個(gè)測試樣例(50種不同類型環(huán)境音)中,本文模型一共分類錯(cuò)誤44個(gè)樣例。由表3可見,Airplane、crying_baby、Fireworks、Sheep類型音頻分類的召回率最低為0.625,分析其原因可能是:這幾類音頻的本身特征不夠明顯,聲音特征過少,對(duì)其特征的提取也不夠充分,導(dǎo)致最終召回率較低。 在同樣的數(shù)據(jù)集上,將本文分類方法與復(fù)現(xiàn)的其他方法作對(duì)比, 具體結(jié)果如表4所示。 由表4可以看出,ConvRBM、EnvNet-v2、CNN等沿用全連接層作為分類器的模型都會(huì)有一定程度的過擬合問題,而本文模型相對(duì)擁有較好的抗過擬合能力。 4 結(jié)語 本文在MFCC特征提取的基礎(chǔ)上使用深層卷積池化二次提取,利用卷積池化對(duì)特征空間映射和選取的強(qiáng)大能力,解決了傳統(tǒng)模型特征提取不到位、泛化能力較差的問題;將常規(guī)卷積神經(jīng)網(wǎng)絡(luò)的全連接層用全局池化與Bagging集成模型代替,解決了全連接層參數(shù)量大、易造成過擬合的問題;在Bagging隨機(jī)抽樣時(shí)采用魯棒性最強(qiáng)的數(shù)量進(jìn)行樣本的抽取,解決了各個(gè)元模型泛化能力不足的問題;使用投票機(jī)制解決了單個(gè)分類器泛化性不足、準(zhǔn)確率不夠高的問題。從測試結(jié)果來看,與其他環(huán)境音分類方法相比,本文方法相對(duì)性能較好,但仍有可提升空間。不管是卷積池化層的搭建還是Bagging方法的元模型的選取和訓(xùn)練都還可以進(jìn)一步優(yōu)化,以獲得更好的效果。 參考文獻(xiàn) (References) [1]PILLOS A, ALGHAMIDI K, ALZAMEL N, et al. A real-time environmental sound recognition system for the Android OS [EB/OL]. [2019-02-20]. http://www.cs.tut.fi/sgn/arg/dcase2016/documents/workshop/Pillos-DCASE2016workshop.pdf. [2]BRIGGS F, RAICH R, FERN X Z. Audio classification of bird species: a statistical manifold approach [C]// Proceedings of the 9th IEEE International Conference on Data Mining. Piscataway: IEEE, 2009: 51-60. [3]LOGAN B. Mel-frequency cepstral coefficients for music modeling [EB/OL]. [2019-02-20]. https://www.researchgate.net/publication/2552483_Mel_Frequency_Cepstral_Coefficients_for_Music_Modeling. [4]CHEN J, KAM A H, ZHANG J, et al. Bathroom activity monitoring based on sound [C]// Proceedings of the 2005 International Conference on Pervasive Computing, LNCS 3468. Berlin: Springer, 2009: 47-61. [5]李玲俐.基于MFCC-SVM 和交叉驗(yàn)證方法的環(huán)境音分類[J].計(jì)算機(jī)與現(xiàn)代化,2016(8):36-39.(LI L L. Environmental sound classification based on MFCC-SVM and cross validation method [J]. Computer and Modernization, 2016(8): 36-39.) [6]鄭繼明,魏國華,吳渝.有效的基于內(nèi)容的音頻特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(12):131-133,137.(ZHENG J M, WEI G H, WU Y. New effective method on content based audio feature extraction [J]. Computer Engineering and Applications, 2009, 45(12): 131-133, 137.) [7]付煒,楊洋.基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的音頻分類方法[J].計(jì)算機(jī)應(yīng)用,2018,38(S2):58-62.(FU W, YANG Y. Audio classification method based on convolutional neural network and random forest [J]. Journal of Computer Applications, 2018, 38(S2): 58-62.) [8]余清清.噪音環(huán)境下基于時(shí)頻特征的生態(tài)環(huán)境聲音的分類[J].計(jì)算機(jī)與數(shù)字工程,2017,45(1):8-14,106.(YU Q Q. Eco-environmental sounds classification with time-frequency features under noise conditions [J]. Computer and Digital Engineering, 2017, 45(1): 8-14, 106.) [9]芮瑞,鮑長春.噪聲環(huán)境下的窄帶音頻信號(hào)快速分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(16):22-25.(RUI R, BAO C C. Fast classification method of narrow-band audio signals under noisy environment [J]. Computer Engineering and Applications, 2011, 47(16): 22-25.) [10]PICZAK K J. Environmental sound classification with convolutional neural networks [C]// Proceedings of the IEEE 25th International Workshop on Machine Learning for Signal Processing. Piscataway: IEEE, 2015: 1-6. [11]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2012: 1097-1105. [12]KUMAR A, KHADKEVICH M, FUGEN C. Knowledge transfer from weakly labeled audio using convolutional neural network for sound events and scenes [EB/OL]. [2019-03-05]. https://arxiv.org/pdf/1711.01369.pdf. [13]BREIMAN L. Bagging predictors [J]. Machine Learning, 1996, 24(2): 123-40. [14]劉亞沖,唐智靈.基于 Softmax 回歸的通信輻射源特征分類識(shí)別方法[J].計(jì)算機(jī)工程,2018,44(2):98-102.(LIU Y C, TANG Z L. Classification and identification method of communication radiation source feature based on softmax regression [J]. Computer Engineering, 2018, 44(2): 98-102.) [15]CHEN T, GUESTRIN C. XGBoost: a scalable tree boosting system [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 785-794. [16]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-03-05]. https://arxiv.org/pdf/1409.1556.pdf. [17]IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [EB/OL]. [2019-03-05]. https://arxiv.org/pdf/1502.03167.pdf. [18]PICZAK K J. ESC: dataset for environmental sound classification [C]// Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM, 2015: 1015-1018. [19]SAILOR H B, PATIL H A. Filterbank learning using convolutional restricted Boltzmann machine for speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 5895-5899. [20]TOKOZUME Y, USHIKU Y, HARADA T. Learning from between-class examples for deep sound recognition [EB/OL]. [2019-03-05]. https://arxiv.org/pdf/1711.10282.pdf. [21]TAK R N, AGRAWAL D M, PATIL H A. Novel phase encoded mel filterbank energies for environmental sound classification [C]// Proceedings of the 2017 International Conference on Pattern Recognition and Machine Intelligence, LNCS 10597. Cham: Springer, 2017: 317-325. WANG Tianrui, born in 1997. His research interests include deep learning, machine intelligence. BAO Qianyue, born in 1998. His research interests include deep learning, computer vision. QIN Pinle, born in 1978, Ph. D., associate professor. His research interests include big data, computer vision, three-dimensional reconstruction. 收稿日期:2019-04-22;修回日期:2019-07-07;錄用日期:2019-07-23。 作者簡介:王天銳(1997—),男,四川成都人,主要研究方向:深度學(xué)習(xí)、機(jī)器智能; 鮑騫月(1998—),男,山西朔州人,主要研究方向:深度學(xué)習(xí)、機(jī)器視覺; 秦品樂(1978—),男,山西長治人,副教授,博士,CCF會(huì)員,主要研究方向:大數(shù)據(jù)、機(jī)器視覺、三維重建。 文章編號(hào):1001-9081(2019)12-3515-07DOI:10.11772/j.issn.1001-9081.2019040678