• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征選擇和GWO-KELM的鳥(niǎo)聲識(shí)別算法

      2022-12-05 07:49:44李大鵬周曉彥徐華南
      聲學(xué)技術(shù) 2022年5期
      關(guān)鍵詞:鳥(niǎo)聲灰狼特征選擇

      李大鵬,周曉彥,葉 如,夏 煜,徐華南

      (南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇 南京 210044)

      0 引言

      鳥(niǎo)類作為生態(tài)系統(tǒng)的重要組成部分,對(duì)鳥(niǎo)類活動(dòng)和分布的監(jiān)測(cè),為了解一個(gè)地區(qū)的生物多樣性變化和氣候變化提供了重要的依據(jù)[1-2],因此對(duì)鳥(niǎo)類的監(jiān)測(cè)與分類識(shí)別具有重要意義。鳥(niǎo)鳴聲和形態(tài)特征是區(qū)分鳥(niǎo)類的重要特征,也是目前鳥(niǎo)類物種識(shí)別普遍采用的方式,在實(shí)際監(jiān)測(cè)中鳥(niǎo)鳴聲相較于形態(tài)特征更加便于監(jiān)測(cè)。雖然目前國(guó)內(nèi)外對(duì)于鳥(niǎo)聲識(shí)別的研究并不多,但也取得了一定的成果。通過(guò)調(diào)查研究發(fā)現(xiàn),目前國(guó)內(nèi)的鳥(niǎo)聲識(shí)別技術(shù)主要通過(guò)改進(jìn)鳥(niǎo)聲特征提取算法,提取各種鳥(niǎo)聲特征然后使用機(jī)器學(xué)習(xí)算法構(gòu)建分類器進(jìn)行識(shí)別[3]。

      目前,鳥(niǎo)聲識(shí)別的分類方法可以分為3種:(1)基于模板匹配的分類方法。最常見(jiàn)的是動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法,如徐淑正使用基于音長(zhǎng)、梅爾倒譜系數(shù)(Mel-Frequency Ceps-tral Coefficients,MFCC)、線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient,LPCC)系數(shù)和時(shí)頻域紋理特征的動(dòng)態(tài)時(shí)間規(guī)整算法可以達(dá)到90%的準(zhǔn)確率[4]。(2)通過(guò)人工算法提取特征,選擇合適的分類模型。孫悅?cè)A等提取了4種鳥(niǎo)類鳴聲的MFCC,然后使用高斯混合模型對(duì)其進(jìn)行分類識(shí)別,正確率可以達(dá)到89.1%~92.5%[5]。陳莎莎等為了降低環(huán)境噪聲對(duì)鳥(niǎo)聲識(shí)別的干擾,使用灰度共生法提取紋理特征,然后利用隨機(jī)森林(Random Forest,RF)模型對(duì)20種鳥(niǎo)聲進(jìn)行識(shí)別,平均正確率可以達(dá)到95.35%[6]。錢坤等首次使用OpenSmile提取大規(guī)模聲學(xué)特征,使用ReliefF算法降低特征維度,極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)作為分類器實(shí)現(xiàn)鳥(niǎo)聲的分類識(shí)別,該方法在10種、30種和54種鳥(niǎo)類的識(shí)別正確率分別為94.71%、89.56%和86.57%[7]。張賽花等提取了一種梅爾子帶參數(shù)化特征,使用支持向量機(jī)(Support Vector Machine,SVM)對(duì)野外11種鳥(niǎo)鳴聲進(jìn)行分類識(shí)別,結(jié)果表明該方法對(duì)11類鳥(niǎo)聲查全率、查準(zhǔn)率和F1-score均高于89%[8]。(3)基于深度學(xué)習(xí)的方法。EmreCakir等基于提出了卷積遞歸神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Networks,CRNN)的方法實(shí)現(xiàn)鳴聲的高維特征及短時(shí)幀間的相關(guān)性特征提取,對(duì)Freesoung數(shù)據(jù)庫(kù)中的鳥(niǎo)鳴聲進(jìn)行分類實(shí)驗(yàn),正確率達(dá)到88.5%[9]。馮郁茜提出了基于雙模態(tài)特征融合的鳥(niǎo)類物種分類算法,融合卷積網(wǎng)絡(luò)提取的語(yǔ)圖特征和長(zhǎng)短時(shí)記憶結(jié)構(gòu)提取的鳴聲時(shí)序序列特征,自適應(yīng)完成基于鳴叫或者鳴唱的物種識(shí)別[10]。Bold等利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取語(yǔ)圖特征并且提出跨模態(tài)結(jié)合特征,提高了分類識(shí)別的性能[11]。

      由于文獻(xiàn)[5-7]所提取的鳥(niǎo)聲特征較為單一,分類參數(shù)采用網(wǎng)格搜索的方式容易錯(cuò)過(guò)最優(yōu)值,無(wú)法達(dá)到分類器的最好性能。本文受文獻(xiàn)[7]的啟發(fā),將廣泛應(yīng)用于語(yǔ)音情感識(shí)別的ComParE特征集[12]應(yīng)用于鳥(niǎo)聲識(shí)別領(lǐng)域,同時(shí)為了降低特征冗余度,采用適合高維樣本的特征排序結(jié)合浮動(dòng)搜索策略的混合特征選擇方法,以核極限學(xué)習(xí)機(jī)(Kernel Extreme Learning Machine,KELM)[13]十折交叉驗(yàn)證的正確率來(lái)評(píng)判特征的優(yōu)劣,進(jìn)行特征選擇,得到適用于鳥(niǎo)聲的特征子集,最后通過(guò)灰狼算法[14]對(duì)KELM參數(shù)進(jìn)行尋優(yōu),得到最優(yōu)參數(shù)提高模型識(shí)別正確率。

      1 基于特征選擇和GWO-KELM的鳥(niǎo)聲識(shí)別算法

      本文所提出的鳥(niǎo)聲識(shí)別系統(tǒng)總體框架如圖1所示主要分成兩個(gè)部分:

      圖1 鳥(niǎo)聲識(shí)別系統(tǒng)框圖Fig.1 Block diagram of bird sound recognition system

      (1)基于KELM和Fscore的混合特征選擇

      首先對(duì)獲取的鳥(niǎo)聲進(jìn)行預(yù)處理,并通過(guò)OpenS-mile提取ComParE特征集,然后計(jì)算每個(gè)特征的Fscore,對(duì)特征的區(qū)分能力進(jìn)行評(píng)價(jià)并排序。最后以KELM十折交叉驗(yàn)證正確率作為特征選擇的標(biāo)準(zhǔn),采用廣義順序向前浮動(dòng)搜索(Generalized Sequential Forward Floating Search,GSFFS)[15]作為搜索策略進(jìn)行特征選擇得到最終適用于鳥(niǎo)聲識(shí)別的特征子集。

      (2)基于GWO的KELM識(shí)別算法

      為了提高KELM模型在鳥(niǎo)聲分類識(shí)別上的效果及穩(wěn)定性,將特征子集在KELM模型上十折交叉驗(yàn)證的正確率,作為灰狼優(yōu)化算法的適應(yīng)度,迭代尋找最優(yōu)的正則化參數(shù)c和核函數(shù)參數(shù)σ。最后在該參數(shù)上對(duì)KELM模型進(jìn)行訓(xùn)練,得到識(shí)別結(jié)果。

      1.1 核極限學(xué)習(xí)機(jī)

      極限學(xué)習(xí)機(jī)[16]由黃廣斌在2006年提出,是一種只有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它的隱藏層節(jié)點(diǎn)參數(shù)w和b通過(guò)隨機(jī)生成的方式產(chǎn)生,與訓(xùn)練集無(wú)關(guān)[17],其輸出函數(shù)為

      其中:h(x)為隱藏層的特征映射,隱藏層輸出權(quán)重β根據(jù)廣義逆矩陣原理和最小二乘法計(jì)算得到:

      其中:H是隱藏層的輸出矩陣,T是目標(biāo)矩陣。

      Huang等[13]通過(guò)對(duì)比極限學(xué)習(xí)機(jī)與SVM的原理,結(jié)合核函數(shù)方法用核映射代替ELM中的隨機(jī)映射,提出了核極限學(xué)習(xí)機(jī)(KELM),利用Mercer構(gòu)造核矩陣ΩELM取代廣義逆矩陣中的HHT。

      所以由式(2)、式(3)可得隱藏層輸出權(quán)重:

      為了提高KELM的穩(wěn)定性與泛化能力,引入正則化參數(shù)1/c添加在對(duì)角矩陣HHT對(duì)角線上。則輸出權(quán)重表示為

      其中:I為單位矩陣,由式(3)、(4)可得當(dāng)特征映射h(x)未知時(shí)KELM的輸出函數(shù)可以表示為

      此時(shí),f(x)的表達(dá)式為

      1.2 基于KELM和Fscore的混合特征選擇算法

      由于ComParE特征集是為人類語(yǔ)音情感識(shí)別而設(shè)計(jì),其中部分特征并不能反映鳥(niǎo)聲的特點(diǎn),為了更好地實(shí)現(xiàn)對(duì)鳥(niǎo)聲的識(shí)別,降低特征冗余度,本文使用特征選擇算法尋找合適的特征子集。

      特征選擇算法按照是否獨(dú)立于分類器,可以分為Filter型和Wrapper型[18],F(xiàn)ilter算法根據(jù)特定的準(zhǔn)則評(píng)價(jià)特征重要性,獨(dú)立于分類器,速度快,但特征分類能力較弱;Wrapper算法以分類器性能為評(píng)價(jià)標(biāo)準(zhǔn),特征子集分類效果好,但算法速度慢,特征泛化能力較差[19]。本文將這兩種方式混合,把Fscore作為特征區(qū)分能力評(píng)價(jià)標(biāo)準(zhǔn)結(jié)合KELM分類器,以廣義順序向前浮動(dòng)搜索(GSFFS)[15]為搜索策略尋找最佳特征子集。

      1.2.1 Fscore特征區(qū)分能力評(píng)價(jià)標(biāo)準(zhǔn)

      傳統(tǒng)的Fscore只能用來(lái)計(jì)算兩類特征的區(qū)分能力,謝娟英等[20]及楊勇[21]對(duì)其進(jìn)行了擴(kuò)展,提出了改進(jìn)的Fscore,可以衡量多類特征的區(qū)分能力。為了滿足對(duì)于多種鳥(niǎo)聲識(shí)別的需求,選擇改進(jìn)的Fscore作為鳥(niǎo)聲特征區(qū)分能力評(píng)價(jià)標(biāo)準(zhǔn)對(duì)于提取到的鳥(niǎo)聲特征 樣 本,第i個(gè)特征的Fscore計(jì)算公式為

      1.2.2 混合特征選擇

      為了提高搜索效率,本文首先對(duì)計(jì)算得到鳥(niǎo)聲特征的Fscore按照大小進(jìn)行降序排序,選擇前20%特征作為初始特征集,刪除得分最低的20%特征,剩下60%特征作為預(yù)選特征集。然后,依次不斷加入預(yù)選特征集中Fscore得分最高的特征,以KELM十折交叉驗(yàn)證正確率為特征區(qū)分能力評(píng)價(jià)標(biāo)準(zhǔn),如果正確率沒(méi)有提高就從特征子集中刪除該特征,繼續(xù)依次搜索剩下的預(yù)選特征集。為了解決嚴(yán)格地按照正確率上升作為特征選擇標(biāo)準(zhǔn)造成特征子集無(wú)法更新的問(wèn)題,引入懲罰參數(shù)λ,即KELM正確率下降不超過(guò)λ就不會(huì)刪除該特征,混合特征選擇算法步驟如下:

      (1)計(jì)算每個(gè)鳥(niǎo)聲特征的Fscore,并降序排序;

      (2)選擇前20%特征作為初始特征集,20%~80%特征作為預(yù)選特征集,個(gè)數(shù)為n,初始化i=0,RAcc=0;

      (3)令i=i+1,將第i個(gè)特征加入特征子集;

      (4)計(jì)算特征子集的KELM十折交叉驗(yàn)證正確率為RAcc1;

      (5)若RAcc1+λ>Acc,更新特征子集和正確率令RAcc=RAcc1,否則從特征子集中刪除該特征;

      (6)若i<n返回步驟(3),否則輸出被選特征子集。

      1.3 基于GWO優(yōu)化的KELM分類模型

      對(duì)于分類模型參數(shù)的選取,傳統(tǒng)的方法一般使用網(wǎng)格搜索的方式進(jìn)行,但該方法在較大范圍使用小步長(zhǎng)進(jìn)行搜索時(shí),需要較高的計(jì)算資源和較長(zhǎng)的時(shí)間,而使用較大步長(zhǎng)搜索往往可能錯(cuò)過(guò)全局最優(yōu)值。因此本文采用隨機(jī)搜索的方式尋找KELM模型參數(shù)的全局最優(yōu)值。

      1.3.1 灰狼算法

      灰狼優(yōu)化(Grey Wolf Optimizer,GWO)算法是由澳大利亞學(xué)者M(jìn)irjalili等人在2014年提出的一種元啟發(fā)式群體智能優(yōu)化算法,該算法通過(guò)模擬自然界中灰狼的社會(huì)等級(jí)制度和狩獵機(jī)制,將灰狼按照等級(jí)從高到低分為α狼、β狼、δ狼和ω狼四種狼,實(shí)現(xiàn)對(duì)于獵物的尋找、包圍和攻擊[14]。在GWO算法中,群體適應(yīng)度最優(yōu)的三個(gè)解依次對(duì)應(yīng)為α狼、β狼、δ狼,其余的解為ω狼,通過(guò)α狼、β狼、δ狼引導(dǎo)ω狼包圍、攻擊獵物,從而獲得最優(yōu)值。

      GWO算法數(shù)學(xué)模型為

      其中:D表示灰狼個(gè)體與獵物間的距離,X(t+1)表示灰狼更新后的位置,公式中⊙均為矩陣的哈達(dá)瑪積,為取矩陣中元素的絕對(duì)值。t表示當(dāng)前迭代次數(shù),Xp和X分別表示獵物和灰狼的位置向量。A和C為系數(shù)向量,計(jì)算公式為

      其中:a隨迭代次數(shù)t線性遞減,r1、r2為[0,-1]的隨機(jī)向量。C是系數(shù)向量,用于增加(C>1)或減少(C<1)灰狼與獵物之間的距離,提高全局搜索能力。

      假設(shè)狼α、β、δ知道獵物潛在位置,則灰狼更新公式為

      其中:Dα、Dβ、Dδ分別表示狼α、β、δ與其他個(gè)體的距離,Xα、Xβ、Xδ表示狼α、β、δ的當(dāng)前位置。

      1.3.2 GWO-KELM算法

      常用的KELM核函數(shù)有高斯核函數(shù),多項(xiàng)式核函數(shù),拉普拉斯核函數(shù)和sigmoid核函數(shù)等[13],實(shí)驗(yàn)中KELM核函數(shù)選取高斯核函數(shù),其計(jì)算公式為

      由式(7)、式(15)可知,KELM性能與正則化參數(shù)c和核函數(shù)參數(shù)σ密切相關(guān),為了提高KELM模型分類識(shí)別效果及穩(wěn)定性,本文通過(guò)灰狼算法優(yōu)化KELM的參數(shù)c和σ,把KELM模型十折交叉驗(yàn)證正確率作為灰狼優(yōu)化算法的適應(yīng)度。GWO優(yōu)化KELM分類識(shí)別算法步驟如下:

      (1)初始化GWO算法參數(shù):狼群數(shù)量、最大迭代次數(shù)t、參數(shù)c和σ上下界;

      (2)隨機(jī)初始化狼群位置,位置維度為2;

      (3)根據(jù)狼群位置即c和σ,計(jì)算KELM交叉驗(yàn)證正確率作為灰狼個(gè)體適應(yīng)度;

      (4)選擇適應(yīng)度最好的三個(gè)狼,記錄其位置為Xα、Xβ、Xδ;

      (5)根據(jù)式(13)、式(14)更新狼ω位置;

      (6)根據(jù)式(11)、式(12)參數(shù)A和C;

      (7)計(jì)算位置更新后的適應(yīng)度,并與上次迭代的最優(yōu)適應(yīng)度對(duì)比,更新狼α、β、δ適應(yīng)度和位置;

      (8)若迭代次數(shù)超過(guò)最大次數(shù),輸出全局最優(yōu)適應(yīng)度及其對(duì)應(yīng)位置Xα,否則執(zhí)行步驟(5)。

      2 實(shí)驗(yàn)

      2.1 鳥(niǎo)聲數(shù)據(jù)庫(kù)及預(yù)處理

      為了驗(yàn)證算法的有效性,本文采用國(guó)內(nèi)國(guó)外兩種數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。一是德國(guó)柏林自然科學(xué)博物館數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)由專業(yè)的鳥(niǎo)類學(xué)家在自然野外環(huán)境中采集的鳥(niǎo)鳴聲數(shù)據(jù)組成。為了保證足夠的訓(xùn)練、測(cè)試數(shù)據(jù),實(shí)驗(yàn)中刪除數(shù)據(jù)庫(kù)中鳥(niǎo)聲音頻文件數(shù)少于25個(gè)的鳥(niǎo)類,采用了60種鳥(niǎo)類、共計(jì)4 468個(gè)鳥(niǎo)鳴聲音頻文件,最短時(shí)長(zhǎng)約為0.3 s,最長(zhǎng)為36 s。同時(shí)將這4 468個(gè)長(zhǎng)度不等的鳥(niǎo)聲數(shù)據(jù)統(tǒng)一為單聲道、采樣率44.1 kHz、32 bit的WAV格式音頻。二是由北京百鳥(niǎo)數(shù)據(jù)科技有限責(zé)任公司發(fā)布的中國(guó)常見(jiàn)20種鳥(niǎo)類鳴聲合集,包含灰雁、大天鵝、綠頭鴨、綠翅鴨、灰山鶉、西鵪鶉、雉雞、紅喉潛鳥(niǎo)、蒼鷺、普通鸕鶿、蒼鷹、歐亞鵟、西方秧雞、骨頂雞、黑翅長(zhǎng)腳鷸、鳳頭麥雞、白腰草鷸、紅腳鷸、林鷸、麻雀,共14 311個(gè)長(zhǎng)度均為2 s的WAV格式音頻。

      2.2 特征提取

      使用在語(yǔ)音情感識(shí)別中廣泛使用的開(kāi)源工具OpenSmile提取ComParE特征集。該特征集在2013年InterSpeech中被提出,包含了大量手工設(shè)計(jì)的低水平特征LLDs和在LLDs基礎(chǔ)上統(tǒng)計(jì)得到的高級(jí)統(tǒng)計(jì)特征HSFs,共包含6 373維度特征,包括MFCC、時(shí)間信號(hào)的過(guò)零率(Zero-Crossing Rate,ZCR)、幀能量均方根(Root Mean Square,RMS)、基音頻率(F0)等特征,具體信息可參見(jiàn)文獻(xiàn)[12]。

      2.3 分類模型評(píng)價(jià)標(biāo)準(zhǔn)

      混淆矩陣是一種直觀地評(píng)價(jià)分類模型結(jié)果的指標(biāo),如圖2所示是二分類結(jié)果混淆矩陣。

      圖2 二分類結(jié)果混淆矩陣Fig.2 The confusion matrix of dichotomy results

      圖2中,NTP為樣本的真實(shí)類別是正例且模型預(yù)測(cè)的結(jié)果也是正例的樣本個(gè)數(shù);NTN為真實(shí)類別是負(fù)例,且預(yù)測(cè)成為負(fù)例的樣本個(gè)數(shù);NFP為真實(shí)類別是負(fù)例,但預(yù)測(cè)成為正例的樣本個(gè)數(shù);NFN為真實(shí)類別是正例,但預(yù)測(cè)成為負(fù)例的樣本個(gè)數(shù)。

      對(duì)混淆矩陣的數(shù)據(jù)進(jìn)行簡(jiǎn)單計(jì)算,可以延伸得到查準(zhǔn)率、查全率、正確率和F1-score等常用評(píng)價(jià)指標(biāo)。對(duì)于每種鳥(niǎo)類其計(jì)算公式如下:

      本文選擇正確率和兼顧查準(zhǔn)率和查全率的F1-score作為分類模型評(píng)價(jià)指標(biāo)。

      2.4 實(shí)驗(yàn)與分析

      為了驗(yàn)證本文算法的有效性,實(shí)驗(yàn)共分為三個(gè)部分,其中前兩部分實(shí)驗(yàn)均在德國(guó)柏林自然科學(xué)博物館數(shù)據(jù)庫(kù)上實(shí)現(xiàn)。首先對(duì)比原始ComParE特征集在不同分類器上的表現(xiàn);其次對(duì)比選擇后的特征子集與原始ComParE特征集在不同分類器上的識(shí)別精度,并對(duì)比采用網(wǎng)格搜索方式和GWO隨機(jī)搜索方式所得參數(shù)識(shí)別結(jié)果;最后對(duì)比了近年來(lái)相關(guān)論文所提算法和主流的深度學(xué)習(xí)算法。實(shí)驗(yàn)的特征提取部分,通過(guò)基于python的OpenSmile3.0工具包實(shí)現(xiàn)提取鳥(niǎo)聲音頻的ComParE特征,每個(gè)音頻文件可以得到6 373×1維特征向量,循環(huán)遍歷數(shù)據(jù)庫(kù)中的所有音頻提取其特征并保存為CSV文件。然后以Matlab 2018b軟件為算法實(shí)驗(yàn)平臺(tái),采用十折交叉驗(yàn)證方式作為實(shí)驗(yàn)協(xié)議即將數(shù)據(jù)集分成十份,輪流將其中9份作為訓(xùn)練數(shù)據(jù)、1份作為測(cè)試數(shù)據(jù),進(jìn)行試驗(yàn)。

      2.4.1 ComParE特征集在不同分類器上的表現(xiàn)

      該實(shí)驗(yàn)在德國(guó)柏林自然科學(xué)博物館數(shù)據(jù)庫(kù)上進(jìn)行,并隨機(jī)選取了其中10類,30類和全部60類數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。對(duì)比了原始ComParE特征集在RF、SVM、ELM和KELM分類器上的表現(xiàn)結(jié)果如表1所示。實(shí)驗(yàn)設(shè)置如下,除RF模型以外在將特征向量輸入分類器之前,首先對(duì)特征進(jìn)行歸一化處理,其中RF模型采用默認(rèn)設(shè)置決策樹(shù)數(shù)量為500,特征數(shù)量為79;由于特征參數(shù)維度很高,因此SVM模型采用線性核函數(shù),正則化參數(shù)設(shè)置為1;ELM模型隱藏層數(shù)量通過(guò)循環(huán)搜索的方式遍歷[1 000 2 000… 30 000]最終在10類,30類和60類實(shí)驗(yàn)中對(duì)應(yīng)的設(shè)置為10 000、16 000、20 000;KELM模型核函數(shù)選擇為高斯核函數(shù),采用網(wǎng)格搜索的方式,高斯核函數(shù)參數(shù)σ∈[2-52-4...215]和正則化參數(shù)c∈[2-52-4...215]最終σ和c設(shè)置為4 096和2 048。

      從表1中可以看到KELM分類器在10類、30類和60類鳥(niǎo)聲識(shí)別十折交叉驗(yàn)證正確率為96.67%、93.77%和93.23%,相對(duì)于其他分類器均具有更高的正確率。結(jié)果表明KELM算法相較于其他算法在高維度鳥(niǎo)聲特征分類識(shí)別中更具優(yōu)勢(shì),體現(xiàn)了KELM分類器的優(yōu)越性。

      表1 ComParE特征集在分類器上的表現(xiàn)Table 1 The performance of the ComParE feature set on the classifier

      2.4.2 基于特征選擇和GWO-KELM算法實(shí)驗(yàn)

      為了進(jìn)一步提高鳥(niǎo)聲識(shí)別的效果,本文對(duì)提取到的6 373維特征集采用Fscore+KELM的方法在德國(guó)柏林自然科學(xué)博物館全部60類數(shù)據(jù)庫(kù)進(jìn)行特征選擇,減少冗余特征,實(shí)驗(yàn)懲罰參數(shù)λ設(shè)置為0.001。為了更好地體現(xiàn)特征對(duì)于分類器性能的影響,將KELM參數(shù)σ和c固定為4 096和2 048,最終選擇出2 710維特征。

      GWO算法初始設(shè)置為初始化狼群數(shù)量為10,最大迭代次數(shù)為100,參數(shù)c和σ的上下界設(shè)置為10 000和0.000 1,初始狼群位置在上下界范圍內(nèi)隨機(jī)生成。如圖3所示GWO-KELM在選擇后的特征集上的迭代結(jié)果,最終選擇的最優(yōu)參數(shù)c和σ分別為316、6 112。其他分類器的參數(shù)設(shè)置與2.4.1節(jié)相同。

      圖3 GWO-KELM迭代結(jié)果Fig.3 GWO-KELM iteration results

      表2所示為選擇后的特征子集與原始ComParE特征集在不同分類器和GWO-KELM算法的識(shí)別結(jié)果。從表2中可以看出選擇后的特征子集在四個(gè)分類器上的識(shí)別正確率和F1-score均高于原始特征集,提升幅度約2%~5%。結(jié)果表明,基于Fscore和KELM特征選擇算法減少了冗余特征,所選特征集具有良好的分類能力,能夠更好地反映鳥(niǎo)鳴聲的特點(diǎn)。在GWO-KELM模型(c=316,σ=6112)上識(shí)別正確率為94.45%,相比采用網(wǎng)格搜索的方式KELM算法提高0.5%左右。與傳統(tǒng)的網(wǎng)格搜索方式相比,GWO搜索方式更容易找到全局最優(yōu)值,證明了GWO-KELM模型的有效性。

      表2 不同分類器對(duì)60類鳥(niǎo)聲特征選擇前后的特征集的識(shí)別結(jié)果Table 2 Identification results of different classifiers for the feature sets before and after the selection of the 60-class bird acoustic features

      2.4.3 與其他論文方案的比較

      由于德國(guó)柏林?jǐn)?shù)據(jù)庫(kù)語(yǔ)音長(zhǎng)短差距較大,無(wú)法直接作為CNN模型的輸入,所以為了與目前主流的深度學(xué)習(xí)模型進(jìn)行對(duì)比,實(shí)驗(yàn)增加了北京百鳥(niǎo)數(shù)據(jù)庫(kù)的實(shí)驗(yàn)。該部分實(shí)驗(yàn)主要與以下4種方法進(jìn)行對(duì)比:

      (1)ComParE+SVM:使用OpenSmile工具包提取ComParE特征集,通過(guò)經(jīng)典的SVM算法進(jìn)行識(shí)別。

      (2)09IS+ELM[7]:通過(guò)p-centre方法實(shí)現(xiàn)對(duì)鳥(niǎo)鳴聲的音節(jié)檢測(cè),然后使用OpenSmile工具包提取09IS特征集,并通過(guò)ReliefF算法減少特征維數(shù),最后采用ELM進(jìn)行識(shí)別。

      (3)Logmel+CNN[11]:通過(guò)librosa提取鳥(niǎo)鳴聲的梅爾譜圖,輸入CNN進(jìn)行識(shí)別。

      (4)Logmel+CRNN[9]:通過(guò)librosa提取鳥(niǎo)鳴聲的梅爾譜圖,輸入CNN和兩層循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進(jìn)行識(shí)別。

      (注:09IS+ELM模型采用原文在德國(guó)柏林?jǐn)?shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果,Logmel+CNN和Logmel+CRNN模型實(shí)驗(yàn)結(jié)果通過(guò)python 3.7和基于TensorFlow的kreas 2.3框架,采用原文參數(shù)復(fù)現(xiàn)所得)。

      實(shí)驗(yàn)結(jié)果如表3所示,從表中可以看出相較于手工特征加分類器的方式,端到端的深度學(xué)習(xí)模型在識(shí)別率上更具備優(yōu)勢(shì),本文所提的基于特征選擇和GWO-KELM的鳥(niǎo)聲識(shí)別算法,在傳統(tǒng)手工特征方法中具備明顯優(yōu)勢(shì),可以達(dá)到與目前常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)近似相同的正確率,與CNN加RNN的方式仍有一定差距。但深度學(xué)習(xí)網(wǎng)絡(luò)往往需要更高的計(jì)算量和更多數(shù)據(jù)樣本。同時(shí)本文的方法不受音頻長(zhǎng)短的影響,在音頻長(zhǎng)短一致的北京百鳥(niǎo)數(shù)據(jù)庫(kù)和音頻長(zhǎng)短不一的德國(guó)柏林?jǐn)?shù)據(jù)庫(kù)都可以實(shí)現(xiàn)較好的分類效果。而深度學(xué)習(xí)網(wǎng)絡(luò)需要固定的語(yǔ)音長(zhǎng)度或者通過(guò)補(bǔ)0等方法實(shí)現(xiàn)特征補(bǔ)齊,對(duì)于語(yǔ)音長(zhǎng)短差距較大數(shù)據(jù)庫(kù)處理較為困難。因此本文方法對(duì)于數(shù)據(jù)要求更低,具有更好的適應(yīng)性。

      表3 與其他論文方案的對(duì)比Table 3 Comparison with other paper schemes

      3 結(jié)論

      為了提高種類較多的鳥(niǎo)聲識(shí)別正確率,解決目前鳥(niǎo)聲識(shí)別算法中特征單一的問(wèn)題,本文提出了一種基于混合特征選擇和灰狼算法優(yōu)化核極限學(xué)習(xí)機(jī)的鳥(niǎo)聲識(shí)別算法。該算法將Fscore特征區(qū)分能力標(biāo)準(zhǔn)與KELM分類器相結(jié)合對(duì)提取的ComParE特征集進(jìn)行特征選擇,然后通過(guò)GWO算法優(yōu)化KELM進(jìn)行分類識(shí)別。通過(guò)對(duì)比實(shí)驗(yàn)可以看出,相較于原始ComParE特征集,選擇后的特征子集在不同分類器上的識(shí)別正確率均有提高,表明了基于KELM和Fscore的混合特征選擇算法所選特征子集具有良好的分類能力。該方法在德國(guó)柏林?jǐn)?shù)據(jù)庫(kù)和北京百鳥(niǎo)數(shù)據(jù)庫(kù)的分類識(shí)別正確率分別可以達(dá)到94.45%和91.16%。雖識(shí)別正確率略低于目前計(jì)算量更大的深度學(xué)習(xí)模型,但由于深度學(xué)習(xí)模型需要更多的數(shù)據(jù)樣本,本文所提方法在小樣本鳥(niǎo)聲數(shù)據(jù)的識(shí)別上仍具有一定優(yōu)勢(shì)。

      猜你喜歡
      鳥(niǎo)聲灰狼特征選擇
      清晨,我們走在林子里
      草堂(2023年1期)2023-09-25 08:44:48
      七種鳥(niǎo)聲
      江南詩(shī)(2020年1期)2020-02-25 14:12:56
      谷谷雞和小灰狼
      灰狼的大大噴嚏
      閑情
      詩(shī)潮(2017年12期)2018-01-08 07:25:20
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      早 晨
      文苑(2016年14期)2016-11-26 23:04:39
      灰狼和老虎
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      灰狼的幸福
      乐业县| 宜章县| 定边县| 方山县| 义马市| 汉寿县| 资溪县| 延庆县| 台北县| 隆昌县| 汤阴县| 福州市| 乌兰察布市| 宝清县| 山东| 连平县| 灵宝市| 崇阳县| 保定市| 剑阁县| 上高县| 涿州市| 元氏县| 墨脱县| 浦东新区| 丹寨县| 页游| 郧西县| 乌苏市| 翁牛特旗| 平谷区| 定陶县| 六枝特区| 鄂托克前旗| 大荔县| 安图县| 枞阳县| 贵港市| 开江县| 乃东县| 镇沅|