• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      樂(lè)器識(shí)別中頻譜特征與聚合策略性能評(píng)估

      2021-09-10 07:22:44趙慶磊邵峰晶孫仁誠(chéng)隋毅
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      趙慶磊 邵峰晶 孫仁誠(chéng) 隋毅

      摘要:樂(lè)器識(shí)別領(lǐng)域中,傳統(tǒng)降采樣或全局映射方法得到的特征對(duì)輸入表達(dá)不夠準(zhǔn)確且判別能力不足。為此借鑒圖像領(lǐng)域聚合局部特征的思想,提出一種結(jié)合頻譜特征和圖像領(lǐng)域特征聚合策略的方法??紤]涉及中國(guó)傳統(tǒng)樂(lè)器的研究較少,建立了包含12種中國(guó)傳統(tǒng)樂(lè)器的獨(dú)奏音樂(lè)數(shù)據(jù)集。為適應(yīng)頻譜圖輸入,對(duì)ResNet34的變體網(wǎng)絡(luò)模型進(jìn)行了修改,在建立的數(shù)據(jù)集上分別針對(duì)樂(lè)器識(shí)別和驗(yàn)證任務(wù)對(duì)不同特征和聚合策略的9種組合模型進(jìn)行了性能對(duì)比。實(shí)驗(yàn)結(jié)果表明,基于短時(shí)幅度譜和GhostVLAD的組合模型,在樂(lè)器識(shí)別任務(wù)中達(dá)到93.3%的準(zhǔn)確率,優(yōu)于其他模型,且收斂速度最快。

      關(guān)鍵詞:中國(guó)傳統(tǒng)樂(lè)器;樂(lè)器識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);特征聚合策略;性能評(píng)估

      中圖分類號(hào):J62;TP183

      文獻(xiàn)標(biāo)志碼:A

      收稿日期:2020-12-04

      基金項(xiàng)目:

      國(guó)家自然科學(xué)基金青年基金(批準(zhǔn)號(hào):41706198)資助。

      通信作者:

      孫仁誠(chéng),男,博士,教授,主要研究方向?yàn)榇髷?shù)據(jù)分析。E-mail: qdsunstar@163.com

      隨著深度學(xué)習(xí)理論的發(fā)展,深度學(xué)習(xí)方法在圖像、音頻、視頻等處理和分析中得到廣泛應(yīng)用。樂(lè)器識(shí)別(musical instrument recognition,MIR)作為音樂(lè)信息檢索和音樂(lè)數(shù)據(jù)分析的一部分,是獲得音樂(lè)信號(hào)高級(jí)信息的關(guān)鍵任務(wù)[1]。準(zhǔn)確的樂(lè)器識(shí)別可以使許多相關(guān)任務(wù)受益。例如,獲得樂(lè)器類型可以輔助生成音樂(lè)播放列表,聲音場(chǎng)景分類,體育音頻分類等[2-4]。在過(guò)去的幾十年里,樂(lè)器識(shí)別任務(wù)的問(wèn)題之一就是為給定的識(shí)別任務(wù)選擇最佳的特征。何蓉等[5-6]通過(guò)對(duì)音樂(lè)文件使用短時(shí)傅里葉轉(zhuǎn)換和梅爾變換生成對(duì)應(yīng)頻譜圖,對(duì)音樂(lè)中的樂(lè)器等信息進(jìn)行識(shí)別,分別搭建出了符合用戶偏好的音樂(lè)推薦系統(tǒng)和基于頻譜圖的音樂(lè)流派分類模型。Yu等[7]從音樂(lè)中提取梅爾頻譜圖、梅爾頻率倒譜系數(shù)(MFCC)和其他五種特征,基于樂(lè)器的發(fā)作類型和家族構(gòu)建了帶有輔助分類的樂(lè)器識(shí)別模型。Ashwini等[8-9]分別通過(guò)從建立的新穎印度和波斯音樂(lè)數(shù)據(jù)集中提取MFCC等多種特征,實(shí)現(xiàn)對(duì)多種印度和波斯樂(lè)器的識(shí)別。王飛等[10]利用從不同類型的樂(lè)器中提取的聽(tīng)覺(jué)譜圖,提出了基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)與聽(tīng)覺(jué)譜圖的樂(lè)器識(shí)別模型。在識(shí)別任務(wù)中,不僅特征提取是關(guān)鍵,特征聚合策略的應(yīng)用也頗為重要。早期的研究主要包括平均池化和最大池化,對(duì)鄰域內(nèi)的特征點(diǎn)求平均或取最大,在保持圖像不變性的同時(shí)減少特征和參數(shù)數(shù)量。而Lin等[11]基于平均池化提出全局平均池化,將特征圖中所有的像素值相加之后求平均,得到一個(gè)可以表示對(duì)應(yīng)特征圖的數(shù)值,通常用于替換分類器中的全連接層。最近的圖像領(lǐng)域研究中,Arandjelovi等[12]提出NetVLAD結(jié)構(gòu),將傳統(tǒng)的局部聚合向量(VLAD)結(jié)構(gòu)嵌入到CNN網(wǎng)絡(luò)中,使得網(wǎng)絡(luò)可以更加有效地利用特征,提高對(duì)同類別圖像的表達(dá)能力和針對(duì)分類任務(wù)的區(qū)分能力。而Zhong等[13]在此基礎(chǔ)上進(jìn)一步提出GhostVLAD結(jié)構(gòu),幫助神經(jīng)網(wǎng)絡(luò)丟棄對(duì)最終分類結(jié)果貢獻(xiàn)度較小,即鑒別性不足的特征,大幅改進(jìn)了基于圖像集合的識(shí)別方法。盡管最近幾年在樂(lè)器識(shí)別方面進(jìn)行了許多研究,但大多數(shù)研究對(duì)從音樂(lè)中提取的特征直接進(jìn)行降采樣或全局映射,聚合得到的特征往往對(duì)輸入的表達(dá)不夠準(zhǔn)確且判別能力不足。同時(shí)現(xiàn)有研究大多針對(duì)西方樂(lè)器,對(duì)中國(guó)傳統(tǒng)樂(lè)器的研究相對(duì)較少。本文借鑒圖像領(lǐng)域聚合局部特征的思想,提出了將音樂(lè)頻譜特征與圖像領(lǐng)域的特征聚合策略組合使用的方法,在新建立的中國(guó)傳統(tǒng)樂(lè)器音樂(lè)數(shù)據(jù)集上,與使用傳統(tǒng)聚合策略的方法進(jìn)行對(duì)比實(shí)驗(yàn),使用準(zhǔn)確率、收斂速度和等錯(cuò)誤率對(duì)模型性能進(jìn)行對(duì)比討論模型的性能差異,包括特征和聚合策略本身的影響以及不同類型樂(lè)器的影響。

      1 模型方法介紹

      本文建立了針對(duì)樂(lè)器識(shí)別任務(wù)且可以擴(kuò)展到樂(lè)器驗(yàn)證任務(wù)的CNN模型,模型使用從原始音樂(lè)片段直接提取的頻譜圖進(jìn)行訓(xùn)練,而無(wú)需對(duì)音樂(lè)數(shù)據(jù)進(jìn)行其他預(yù)處理(例如,消除靜音、聲音活動(dòng)檢測(cè)等)。首先使用CNN網(wǎng)絡(luò)從音樂(lè)數(shù)據(jù)中提取幀級(jí)頻譜特征,然后基于應(yīng)用于圖像領(lǐng)域的特征聚合策略對(duì)提取到的局部特征進(jìn)行聚合,以獲得對(duì)輸入表達(dá)更加準(zhǔn)確和鑒別性更強(qiáng)的樂(lè)器嵌入,提高識(shí)別和驗(yàn)證任務(wù)的準(zhǔn)確率,最后對(duì)整個(gè)模型進(jìn)行端到端訓(xùn)練。

      1.1 輸入特征

      盡管將原始音樂(lè)信號(hào)用作網(wǎng)絡(luò)的輸入可以減少對(duì)專業(yè)音樂(lè)知識(shí)和預(yù)處理技術(shù)的依賴,但是經(jīng)過(guò)提取的特征可以提高識(shí)別精度[14]。本文分別考慮了將音樂(lè)數(shù)據(jù)經(jīng)過(guò)短時(shí)傅里葉變換、梅爾變換得到的對(duì)應(yīng)頻譜圖和MFCC作為整個(gè)網(wǎng)絡(luò)的輸入特征。

      (1) 短時(shí)幅度譜,對(duì)經(jīng)過(guò)短時(shí)傅里葉變換獲得的音頻特征求幅值得到的幅度頻譜圖。假設(shè)音樂(lè)信號(hào)為x(t),其短時(shí)傅里葉變換(STFT)[6]為

      STFTx(τ,ω)=∫∞-∞w(t-τ)x(t)e-jωtdt(1)

      其中,x(t)代表音樂(lè)信號(hào);w(t)代表窗函數(shù),通常是以0為中心的漢明窗函數(shù)(Hamming Function),τ和ω分別代表時(shí)間和頻率指數(shù)。

      (2) 梅爾頻譜,輸入音樂(lè)數(shù)據(jù)在梅爾標(biāo)度頻率上的幅度頻譜圖。梅爾標(biāo)度(Mel scale)[15]是一種基于人類聽(tīng)覺(jué)感知定義的非線性頻率標(biāo)度。梅爾頻譜圖是通過(guò)對(duì)短時(shí)傅里葉頻譜圖的頻率軸應(yīng)用非線性變換,將普通的頻率標(biāo)度轉(zhuǎn)化成梅爾標(biāo)度獲得的。將普通頻率f轉(zhuǎn)換為梅爾頻率的公式[16]為

      Mel(f)=2595log101+f700(2)

      (3) MFCC[17],一種廣泛用于自動(dòng)語(yǔ)音和說(shuō)話者識(shí)別以及自動(dòng)音樂(lè)識(shí)別的特征,是在梅爾頻率上獲得的頻率倒譜系數(shù),簡(jiǎn)稱MFCC。

      1.2 網(wǎng)絡(luò)結(jié)構(gòu)

      ResNet[18]網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)被證明對(duì)于多種視覺(jué)任務(wù)(例如,圖像識(shí)別、目標(biāo)檢測(cè)和圖像分割)和聽(tīng)覺(jué)任務(wù)(例如,說(shuō)話人識(shí)別、音樂(lè)流派分類和樂(lè)器識(shí)別)非常有效。ResNet網(wǎng)絡(luò)與標(biāo)準(zhǔn)的多層CNN類似,但是其由殘差單元塊組成,使用殘差連接[19]學(xué)習(xí)輸入和輸出之間的映射,使得各網(wǎng)絡(luò)層可以將殘差添加到通道輸出的身份映射中。這種方法消除了身份映射時(shí)梯度消失的問(wèn)題,為梯度通過(guò)網(wǎng)絡(luò)提供了清晰的途徑。

      本文使用包含更少網(wǎng)絡(luò)參數(shù)的ResNet34變體網(wǎng)絡(luò)來(lái)進(jìn)行所有的實(shí)驗(yàn),將原始ResNet34網(wǎng)絡(luò)中包含2個(gè)3×3卷積核的殘差單元塊替換為包含2個(gè)1×1和1個(gè)3×3卷積核的殘差單元塊,并根據(jù)頻譜圖輸入的需要對(duì)網(wǎng)絡(luò)層進(jìn)行修改。最終的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。

      1.3 特征聚合策略

      聚合策略在由數(shù)據(jù)特征驅(qū)動(dòng)的CNN訓(xùn)練中起著重要的作用,負(fù)責(zé)對(duì)網(wǎng)絡(luò)層提取的特征進(jìn)行聚合,以獲得音頻級(jí)別的樂(lè)器嵌入。本文嘗試了三種聚合策略網(wǎng)絡(luò)層:全局平均池化層,基于NetVLAD層的可訓(xùn)練的聚合層,以及基于NetVLAD層改進(jìn)的GhostVLAD聚合層。

      (1) 平均池化聚合。對(duì)于網(wǎng)絡(luò)層輸出的每一個(gè)通道的特征圖的所有像素計(jì)算一個(gè)平均值。在聚合特征時(shí),沿時(shí)間軸的全局平均池化層可以使得網(wǎng)絡(luò)對(duì)于時(shí)間位置具有不變性,這對(duì)于屬于時(shí)序數(shù)據(jù)的音頻數(shù)據(jù)而言是理想的。此外,全局平均池化層還使得經(jīng)過(guò)聚合后的輸出特征與原始的完全連接層的輸出特征具有相同的尺寸,同時(shí)也減少了網(wǎng)絡(luò)中的參數(shù)數(shù)量,避免模型出現(xiàn)過(guò)擬合現(xiàn)象。

      (2) NetVLAD聚合。CNN網(wǎng)絡(luò)結(jié)構(gòu)將輸入頻譜圖映射到幀級(jí)別的輸出特征,并經(jīng)過(guò)降采樣處理得到T×D局部特征圖。然后,NetVLAD層將其作為輸入并產(chǎn)生一個(gè)K×D維的全局特征矩陣V,其中K代表所選擇的簇的數(shù)量,D代表每個(gè)簇的維數(shù)。全局特征矩陣V[12]

      V(k,j)=∑Tt=1ewTkxt+bk∑Kk'=1ewTk'xt+bk'xt(j)-ck(j)(3)

      其中,wk,bk和ck是可訓(xùn)練的參數(shù);wk和bk分別代表濾波器和偏置;xt(j)和ck(j)分別代表第t個(gè)局部特征和第k個(gè)聚類中心的第j個(gè)特征值,k∈K,j∈D。式(3)中第一項(xiàng)對(duì)應(yīng)于聚類類別k的輸入向量xt的軟分配權(quán)重,第二項(xiàng)計(jì)算向量xt與聚類中心ck之間的殘差。然后對(duì)全局特征矩陣V中的每一行,即每個(gè)簇的殘差進(jìn)行L2歸一化,最后通過(guò)將該矩陣展平為長(zhǎng)向量(即將行向量進(jìn)行串聯(lián))來(lái)獲得最終輸出。為了保持較低的計(jì)算和內(nèi)存要求,使用全連接層進(jìn)行降維,輸出維度為512。

      (3) GhostVLAD聚合。GhostVLAD聚合層基于NetVLAD聚合層進(jìn)行改進(jìn),使某些被聚類到一起的簇不包含在最終的串聯(lián)長(zhǎng)向量中,因此這些簇不會(huì)對(duì)最終的輸出表示有所影響,被稱為“幽靈簇(ghost clusters)”(使用1個(gè))。由于在對(duì)幀級(jí)特征進(jìn)行聚合時(shí),音頻片段中嘈雜和不理想的部分,以及對(duì)最終結(jié)果貢獻(xiàn)較小的特征的大部分權(quán)重已經(jīng)分配給了“幽靈簇”,因此對(duì)正常VLAD簇和最終結(jié)果的影響將有效降低。

      2 實(shí)驗(yàn)設(shè)置

      2.1 概述/實(shí)驗(yàn)流程圖

      基于CNN進(jìn)行特征和聚合策略性能評(píng)估的訓(xùn)練和測(cè)試框架如圖2所示。在訓(xùn)練時(shí)的每個(gè)輪次中,經(jīng)過(guò)所有批次的訓(xùn)練數(shù)據(jù)訓(xùn)練后學(xué)習(xí)到的網(wǎng)絡(luò)權(quán)重,用于計(jì)算模型在訓(xùn)練數(shù)據(jù)集上的分類分?jǐn)?shù)和準(zhǔn)確率。然后,在經(jīng)過(guò)所有輪次的訓(xùn)練之后,對(duì)于樂(lè)器識(shí)別任務(wù),訓(xùn)練后的模型用于預(yù)測(cè)測(cè)試數(shù)據(jù)的類別,并根據(jù)預(yù)測(cè)類別與真實(shí)類別計(jì)算得到測(cè)試準(zhǔn)確率。而對(duì)于樂(lè)器驗(yàn)證任務(wù),訓(xùn)練后的模型用于提取成對(duì)測(cè)試數(shù)據(jù)的特征嵌入,并計(jì)算它們之間的余弦相似度,作為測(cè)試數(shù)據(jù)對(duì)的輸出分?jǐn)?shù),最終再經(jīng)過(guò)計(jì)算得到模型在測(cè)試數(shù)據(jù)集上的EER。

      2.2 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

      2.2.1 數(shù)據(jù)集 通過(guò)收集整理得到包含12種中國(guó)傳統(tǒng)樂(lè)器的137首音樂(lè)數(shù)據(jù),每種樂(lè)器平均有11首樂(lè)曲,根據(jù)發(fā)作類型可分為吹管、拉弦和彈撥樂(lè)器。其中吹管樂(lè)器根據(jù)樂(lè)器材質(zhì)又分為簧管和竹管。樂(lè)器種類如表1所示。

      收集到的音樂(lè)數(shù)據(jù)為采樣率44.1 kHz,16 bit單聲道的數(shù)字信號(hào),總時(shí)長(zhǎng)約為10小時(shí)。根據(jù)模型和實(shí)驗(yàn)需要,以3 s的單位時(shí)間長(zhǎng)度對(duì)原始音樂(lè)數(shù)據(jù)進(jìn)行平均切割,得到12 347個(gè)樣本,其中每首樂(lè)曲的平均樣本數(shù)量為90。各種樂(lè)器的音樂(lè)樣本數(shù)量分布如圖3所示。

      根據(jù)音樂(lè)樣本的樂(lè)器種類和數(shù)量分布情況以及實(shí)際任務(wù)需要,對(duì)原始音樂(lè)數(shù)據(jù)進(jìn)行劃分,得到訓(xùn)練集(Train)和用于樂(lè)器識(shí)別任務(wù)的測(cè)試集(Test),以及用于樂(lè)器驗(yàn)證任務(wù)的3個(gè)測(cè)試集。其中訓(xùn)練集和樂(lè)器識(shí)別任務(wù)測(cè)試集由多個(gè)音樂(lè)樣本組成,而用于樂(lè)器驗(yàn)證任務(wù)的測(cè)試集是由音樂(lè)樣本組合而來(lái)的數(shù)據(jù)對(duì)組成。數(shù)據(jù)集匯總?cè)绫?所示。

      訓(xùn)練集和樂(lè)器識(shí)別任務(wù)測(cè)試集:根據(jù)樂(lè)器識(shí)別任務(wù)的需要,對(duì)涉及3種發(fā)作類型的4種中國(guó)傳統(tǒng)樂(lè)器:葫蘆絲、笛子、二胡和古箏的音樂(lè)數(shù)據(jù)進(jìn)行隨機(jī)采樣。由于不同樂(lè)器中最少的樂(lè)曲數(shù)量為10首,每首樂(lè)曲中最少的樣本數(shù)量為30。因此實(shí)驗(yàn)從每種樂(lè)器音樂(lè)數(shù)據(jù)中選擇10首樂(lè)曲,并從每首樂(lè)曲中隨機(jī)采樣30個(gè)音樂(lè)樣本,按照7∶3的比例制作訓(xùn)練集和測(cè)試集,最終從4種樂(lè)器的音樂(lè)數(shù)據(jù)中采樣得到840和360個(gè)音樂(lè)樣本,分別作為訓(xùn)練集和樂(lè)器識(shí)別任務(wù)的測(cè)試集。

      樂(lè)器驗(yàn)證任務(wù)測(cè)試集:根據(jù)樂(lè)器發(fā)作類型,并考慮到不同樂(lè)器中的最少樂(lè)曲數(shù)量以及每首樂(lè)曲中的最少樣本數(shù)量,分別對(duì)訓(xùn)練集和樂(lè)器識(shí)別任務(wù)測(cè)試集之外的8種樂(lè)器音樂(lè)數(shù)據(jù)進(jìn)行隨機(jī)采樣。然后根據(jù)樂(lè)器驗(yàn)證任務(wù)的需要,對(duì)采樣得到的音樂(lè)樣本進(jìn)行組合,最終得到分別包括434 940對(duì)、79 800對(duì)和145 530對(duì)具有相同發(fā)作類型樂(lè)器音樂(lè)數(shù)據(jù)對(duì)的3個(gè)測(cè)試集:吹管樂(lè)器測(cè)試集(Test-C)、拉弦樂(lè)器測(cè)試集(Test-L)和彈撥樂(lè)器測(cè)試集(Test-T)。

      2.2.2 評(píng)價(jià)指標(biāo) 不同特征和聚合策略組合下的模型通過(guò)準(zhǔn)確率(Accuracy)和等錯(cuò)誤率(EER)進(jìn)行評(píng)估。Accuracy用于衡量模型識(shí)別樂(lè)器的準(zhǔn)確程度,是被預(yù)測(cè)為正確類別的樣本數(shù)占總預(yù)測(cè)樣本數(shù)的百分比

      Accuracy=TP+TNTP+FN+TN+FP(4)

      其中,TP(True Positive)代表真實(shí)標(biāo)簽為正例,預(yù)測(cè)標(biāo)簽也為正例的樣本個(gè)數(shù);TN(True Negative)代表真實(shí)標(biāo)簽為正例,預(yù)測(cè)標(biāo)簽卻為負(fù)例的樣本個(gè)數(shù);FP(False Positive)代表真實(shí)標(biāo)簽為負(fù)例,預(yù)測(cè)標(biāo)簽卻為正例的樣本個(gè)數(shù);FN(False Negative)代表真實(shí)標(biāo)簽為負(fù)例,預(yù)測(cè)標(biāo)簽也為負(fù)例的樣本個(gè)數(shù)。

      EER用于衡量模型驗(yàn)證樂(lè)器的準(zhǔn)確程度,是錯(cuò)誤拒絕率(FR,F(xiàn)alse Rejection)等于錯(cuò)誤接受率(FA,F(xiàn)alse Acceptance),即FR=FA時(shí)的值。其中FR代表在真實(shí)標(biāo)簽為正例的樣本中預(yù)測(cè)標(biāo)簽為負(fù)例的樣本數(shù)所占的百分比;FA代表在真實(shí)標(biāo)簽為負(fù)例的樣本中預(yù)測(cè)標(biāo)簽為正例的樣本數(shù)所占的百分比。

      2.3 實(shí)驗(yàn)環(huán)境和設(shè)置

      本文所用機(jī)器的開(kāi)發(fā)環(huán)境為Windows10(64位)操作系統(tǒng),內(nèi)存32.00GB;Inter(R)Xeon(R)W-2133處理器;顯卡為 NVIDIA GeForce GTX 1080Ti,顯存11GB?;赑ython3.6.5在Anaconda3中的Spyder3.3平臺(tái)下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果的可視化處理由tensorboard、matplotlib庫(kù)實(shí)現(xiàn)。

      訓(xùn)練過(guò)程中,從每個(gè)音樂(lè)樣本中隨機(jī)采樣,根據(jù)使用的輸入特征,對(duì)音樂(lè)樣本執(zhí)行相應(yīng)的變換,得到相當(dāng)于2.5秒時(shí)間長(zhǎng)度的257×250(頻率×?xí)r間)固定大小的頻譜圖,并通過(guò)減去均值并除以單個(gè)時(shí)間步長(zhǎng)中所有頻率分量的標(biāo)準(zhǔn)差來(lái)進(jìn)行標(biāo)準(zhǔn)化,最后作為輸入對(duì)模型進(jìn)行訓(xùn)練。使用標(biāo)準(zhǔn)的softmax損失,初始學(xué)習(xí)率為0.01的Adam優(yōu)化器,并設(shè)置每個(gè)批次的大小為64,在每10個(gè)輪次之后將學(xué)習(xí)率降低10倍。由于考慮的所有模型在經(jīng)過(guò)20個(gè)輪次的訓(xùn)練后都趨于收斂,因此只對(duì)20個(gè)訓(xùn)練輪次內(nèi)的模型進(jìn)行性能評(píng)估。

      3 實(shí)驗(yàn)結(jié)果分析

      將不同特征和聚合策略進(jìn)行組合并與softmax損失函數(shù)以及修改后的ResNet34變體網(wǎng)絡(luò)架構(gòu)一起使用,在訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練,分別在樂(lè)器識(shí)別測(cè)試集和樂(lè)器驗(yàn)證任務(wù)的不同測(cè)試集上進(jìn)行測(cè)試。將針對(duì)樂(lè)器識(shí)別任務(wù)的測(cè)試準(zhǔn)確率和收斂速度,以及樂(lè)器驗(yàn)證任務(wù)的測(cè)試EER對(duì)模型性能進(jìn)行對(duì)比。

      對(duì)于輸入特征,短時(shí)幅度譜能夠保留音頻數(shù)據(jù)中的大部分信息,但往往也會(huì)保留對(duì)最終識(shí)別結(jié)果貢獻(xiàn)較小的特征信息。梅爾頻譜削弱了以摩擦音和其他突發(fā)噪聲為主的高頻細(xì)節(jié),因此會(huì)丟失一部分特征信息[20]。而MFCC雖然保留了音頻的基本特征,但也破壞了一部分有用的特征信息[21]。

      對(duì)于聚合策略,平均池化策略可以有效降低特征的維度,將特征聚合到一起,但是無(wú)法像NetVLAD聚合策略一樣根據(jù)特征信息的特點(diǎn)更加有效地聚合特征。而GhostVLAD聚合策略在保留大量原始特征信息的同時(shí),往往能夠過(guò)濾掉許多噪聲或貢獻(xiàn)度較小的特征信息[22]。

      3.1 樂(lè)器識(shí)別準(zhǔn)確率對(duì)比

      針對(duì)樂(lè)器識(shí)別任務(wù),不同組合下的模型準(zhǔn)確率對(duì)比如表3所示。其中stft、mel和mfcc分別代表短時(shí)幅度譜、梅爾頻譜和梅爾頻譜倒譜系數(shù),avg、vlad和gvlad分別代表全局平均池化、NetVLAD和GhostVLAD聚合策略。實(shí)驗(yàn)中獲得最高準(zhǔn)確率的是stft-gvlad組合下的模型,該模型使用短時(shí)幅度譜作為輸入特征,采用GhostVLAD聚合特征,在訓(xùn)練數(shù)據(jù)集上訓(xùn)練后,驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率為93.2%??芍瑢?duì)于使用短時(shí)幅度譜作為輸入特征的模型,由于短時(shí)幅度譜保留了絕大部分的特征信息,并且訓(xùn)練后的GhostVLAD聚合層比全局平均池化層更加有效地對(duì)特征進(jìn)行聚合,相對(duì)于NetVLAD聚合策略,可以在聚合特征的過(guò)程中過(guò)濾掉短時(shí)幅度譜本身存在的對(duì)識(shí)別結(jié)果貢獻(xiàn)度較小甚至?xí)a(chǎn)生負(fù)面影響的特征信息,因此stft-gvlad組合下的模型在驗(yàn)證集上的準(zhǔn)確率最高。

      對(duì)于使用梅爾頻譜作為輸入特征的模型,由于NetVLAD聚合策略可以將梅爾頻譜中符合人耳聽(tīng)覺(jué)特點(diǎn)的特征信息比平均池化策略更加有效的聚合起來(lái),且不會(huì)像GhostVLAD聚合策略一樣損失掉部分有用的特征,因此mel-vlad組合模型在梅爾頻譜模型中的準(zhǔn)確率最高,在所有的模型中準(zhǔn)確率對(duì)于使用MFCC作為輸入特征的模型,由于MFCC在梅爾頻譜的基礎(chǔ)上丟失了一部分特征信息,使用GhostVLAD聚合策略會(huì)過(guò)濾掉更多的特征信息,因此mfcc-gvlad組合模型在驗(yàn)證集上的準(zhǔn)確率最低。

      3.2 樂(lè)器識(shí)別收斂速度對(duì)比

      根據(jù)不同組合下的模型在樂(lè)器識(shí)別測(cè)試集上實(shí)現(xiàn)最高準(zhǔn)確率所需的最少訓(xùn)練輪次來(lái)定義收斂速度,當(dāng)比較不同組合下模型的收斂速度時(shí),觀察到與上一部分類似的結(jié)果。不同模型的收斂速度比較如表4所示。在考慮的所有模型中,stft-gvlad組合下的模型表現(xiàn)出最快的收斂速度,訓(xùn)練輪次為14。

      對(duì)于不同的輸入特征,實(shí)驗(yàn)觀察到兩種不同的收斂速度模式。使用短時(shí)幅度譜作為輸入特征的模型與使用梅爾頻譜和MFCC特征的模型相比,收斂速度更快,收斂所需的平均輪次為16。對(duì)于不同的聚合策略,當(dāng)模型使用GhostVLAD聚合策略時(shí),能夠獲得比使用全局平均池化和NetVLAD聚合策略更快的收斂速度,平均訓(xùn)練輪次為15。

      3.3 樂(lè)器驗(yàn)證測(cè)試EER對(duì)比

      針對(duì)樂(lè)器驗(yàn)證任務(wù),不同組合下的模型在不同測(cè)試集上的EER對(duì)比見(jiàn)表4。當(dāng)在不同的測(cè)試數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),模型表現(xiàn)出不同的性能。當(dāng)在吹管樂(lè)器音樂(lè)構(gòu)成的Test-C數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),使用梅爾頻譜作為輸入特征,并使用GhostVLAD聚合策略對(duì)特征進(jìn)行聚合的模型表現(xiàn)最好,EER為22%。當(dāng)使用拉弦樂(lè)器音樂(lè)構(gòu)成的Test-L測(cè)試數(shù)據(jù)集時(shí),使用MFCC特征和NetVLAD聚合策略的模型EER為4.1%,在所有的模型中表現(xiàn)最佳。當(dāng)在彈撥樂(lè)器音樂(lè)測(cè)試數(shù)據(jù)集Test-T上進(jìn)行測(cè)試時(shí),使用短時(shí)幅度譜特征和NetVLAD聚合策略的模型表現(xiàn)最好,EER為27.3%。由于特定的輸入特征和聚合策略的組合,以上實(shí)驗(yàn)?zāi)軌驈奶囟òl(fā)作類型的樂(lè)器音樂(lè)中獲得更多的有效特征,因此得到比其他模型更佳的EER。

      綜上所述,將頻譜特征與圖像領(lǐng)域的聚合策略組合使用的模型能夠獲得更高的樂(lè)器識(shí)別準(zhǔn)確率,并且收斂速度更快,驗(yàn)證了該方法的有效性。同時(shí)特定的組合模型在特定類型樂(lè)器的音樂(lè)上能夠獲得更佳的樂(lè)器驗(yàn)證EER,表明不同的組合模型對(duì)于特定類型樂(lè)器的音樂(lè)具有一定的偏好性。

      4 結(jié)論

      針對(duì)樂(lè)器識(shí)別領(lǐng)域中特征聚合方式簡(jiǎn)單且涉及中國(guó)傳統(tǒng)樂(lè)器音樂(lè)較少的問(wèn)題,提出了一種將樂(lè)器識(shí)別中常用的頻譜特征與圖像領(lǐng)域的聚合策略進(jìn)行組合的方法,并應(yīng)用到ResNet34變體網(wǎng)絡(luò)中。在新建立的中國(guó)傳統(tǒng)樂(lè)器音樂(lè)數(shù)據(jù)集上,針對(duì)樂(lè)器識(shí)別和驗(yàn)證任務(wù)將所提出的方法與傳統(tǒng)方法進(jìn)行了對(duì)比實(shí)驗(yàn)和結(jié)果分析。實(shí)驗(yàn)結(jié)果表明,該方法可以獲得對(duì)輸入表達(dá)更加準(zhǔn)確和更具判別能力的特征,從而提升樂(lè)器識(shí)別的準(zhǔn)確率以及降低樂(lè)器驗(yàn)證的等錯(cuò)誤率。后續(xù)研究將繼續(xù)優(yōu)化特征和聚合策略組合的方法,進(jìn)一步提升其在樂(lè)器識(shí)別任務(wù)中的性能,并將其更廣泛地應(yīng)用到其他音樂(lè)相關(guān)領(lǐng)域。

      參考文獻(xiàn)

      [1]DATTA A K, SOLANKI S S, SENGUPTA R, et al. Automatic musical Instrument recognition[M]. Berlin: Springer Singapore, 2017.

      [2]AUCOUTURIER J J, PACHET F. Scaling up music playlist generation[C]// Proceedings IEEE International Conference on Multimedia and Expo. IEEE, 2002.

      [3]MA L, MILINER B, SMITH D. Acoustic environment classification[J]. ACM Transactions on Speech and Language Processing, 2006, 3(2):1-22.

      [4]XIONG Z, RADHAKRISHNAN R, DIVAKARAN A, et al. Comparing MFCC and MPEG-7 audio features for feature extraction, maximum likelihood HMM and entropic prior HMM for sports audio classification[C]// 2003 IEEE International Conference on Acoustics. Hong Kong, 2003: 628-631.

      [5]何蓉. 基于卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)推薦系統(tǒng)[D]. 南京:南京郵電大學(xué), 2019.

      [6]黃琦星. 基于卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)流派分類模型研究[D].長(zhǎng)春:吉林大學(xué),2019.

      [7]YU D, DUAN H, FANG J, et al. Predominant instrument recognition based on deep neural network with auxiliary classification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28:852-861.

      [8]ASHWINI, VIJAYA K V. Feature selection for Indian instrument recognition using SVM classifier[C]// 2020 International Conference on Intelligent Engineering and Management, ICIEM, 2020: 277-280.

      [9]MOUSAVI S M H, PRASATH V B S. Persian classical music instrument recognition (PCMIR) using a novel Persian music database[C]// 9th International Conference on Computer and Knowledge Engineering, (ICCKE). Ferdowsi Univ Mashhad, 2019: 122-130.

      [10] 王飛,于鳳芹.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)與聽(tīng)覺(jué)譜圖的樂(lè)器識(shí)別[J].計(jì)算機(jī)工程,2019,45(1):199-205.

      [11] LIN M, CHEN Q, YAN S C. Network in network[J]. Computer Science, 2013: arXiv:1312.4400.

      [12] ARANDJELOVI R, GRONAT P, TORII A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1437-1451.

      [13] ZHONG Y J, ARANDJELOVI R, ZISSERMAN A. GhostVLAD for set-based face recognition[C]// 14th Asian Conference on Computer Vision (ACCV). Perth, 2018, 11362:35-50.

      [14] 李霞,劉征,劉遵仁,等.關(guān)于音樂(lè)可視化的研究——聲音格式到音樂(lè)格式的轉(zhuǎn)換[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),1997,9(4):68-72.

      [15] STEVENS S S. A scale for the measurement of the psychological magnitude pitch[J]. J.acoust.soc.am, 1937, 8(3):185-190.

      [16] DENG J D, SIMMERMACHER C, CRANEFIELD S. A study on feature analysis for musical instrument classification[J]. IEEE Transactions on Systems Man & Cybernetics Part B-Cybernetics, 2008, 38(2):429-38.

      [17] WANG Y, HAN K, WANG D L. Exploring monaural features for classification—based speech segregation[J]. IEEE Transactions on Audio Speech & Language Processing, 2013, 21(2):270-279.

      [18] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Seattle, 2016,770-778.

      [19] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks[J]. Computer Science, 2015, arXiv:1507.06228.

      [20] 馬英,張凌飛,馮桂蓮.基于“音樂(lè)噪聲”的修正譜減法算法分析[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,30(3):25-28.

      [21] 高銘,孫仁誠(chéng).基于改進(jìn)MFCC的說(shuō)話人特征參數(shù)提取算法[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,32(1):61-65+73.

      [22] NAGRANI A, CHUNG J S, XIE W, et al. Voxceleb: Large-scale speaker verification in the wild[J]. Computer speech and language, 2020, 60(3):101027.1-101027.15.

      Performance Evaluation of Spectrum Features and Aggregation Strategies for Musical Instrument Recognition

      ZHAO Qing-lei, SHAO Feng-jing, SUN Ren-cheng, SUI Yi

      (College of Computer Science and Technology, Qingdao University, Qingdao, 266071, China)

      Abstract:In the field of musical instrument recognition, the features, which obtained by traditional down-sampling or global mapping methods, are insufficient for input expression and discriminative ability. For this reason, drawn on the idea of aggregating local features in the image field, a method of combining spectral features and image field feature aggregation strategies is proposed. At the same time, considering that there are few researches involving traditional Chinese musical instruments, a solo music data set containing 12 traditional Chinese musical instruments is established. In order to adapt to the input of the spectrogram, the variant network model of ResNet34 is modified, and the performance of 9 combination models with different features and aggregation strategies in the task of musical instrument recognition and verification tasks on the established datasets is compared. The experimental results show that the model based on the short-term amplitude spectrum and GhostVLAD achieves 93.3% accuracy in the task of musical instrument recognition, which is better than other models and has the fastest convergence speed.

      Keywords:

      Chinese traditional musical instrument; instrument recognition; convolutional neural network; aggregation strategy; performance evaluation

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
      軟件(2016年5期)2016-08-30 06:27:49
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
      丰宁| 朝阳县| 远安县| 隆昌县| 建始县| 修水县| 磴口县| 陇南市| 米易县| 双桥区| 三门县| 高雄市| 美姑县| 广平县| 合江县| 团风县| 怀柔区| 台江县| 四子王旗| 奎屯市| 新安县| 巴中市| 富蕴县| 宜州市| 怀来县| 永兴县| 腾冲县| 宁蒗| 太原市| 威远县| 大洼县| 双桥区| 安国市| 桃江县| 晋宁县| 班玛县| 石嘴山市| 定兴县| 墨江| 湟源县| 开远市|