宋 揚(yáng),王海龍,柳 林,裴冬梅
(內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)
隨著數(shù)字媒體的快速發(fā)展,數(shù)字音樂(lè)無(wú)處不在。音樂(lè)用戶的消費(fèi)習(xí)慣已逐漸從實(shí)體音樂(lè)轉(zhuǎn)向在線音樂(lè)平臺(tái)。根據(jù)全球唱片協(xié)會(huì)發(fā)布的報(bào)告,2020 年全球唱片市場(chǎng)同比增長(zhǎng)7.4%,音樂(lè)行業(yè)總收入為216 億美元,其中,流媒體收入增長(zhǎng)19.9%,達(dá)到134 億美元,占全球唱片收入的62.1%[1]。海量的音樂(lè)資源激發(fā)著音樂(lè)用戶產(chǎn)生各種復(fù)雜的音樂(lè)檢索需求,音樂(lè)流派分類在音樂(lè)信息檢索(music information retrieval,MIR)中占據(jù)主要地位,同時(shí)在音樂(lè)組織管理、檢索、音樂(lè)推薦中都具有重要的應(yīng)用,如何建立分類性能更好的音樂(lè)流派分類模型是MIR 領(lǐng)域亟待解決的關(guān)鍵問(wèn)題。
傳統(tǒng)的音樂(lè)流派分類方法的步驟大致可分為特征提取和機(jī)器學(xué)習(xí)兩個(gè)部分[2]。音樂(lè)流派分類的特征提取是從音樂(lè)信號(hào)中提取出能夠反映音樂(lè)流派信息的某種特征,機(jī)器學(xué)習(xí)能夠?qū)⑻崛〉哪撤N特征進(jìn)行學(xué)習(xí),以此來(lái)對(duì)音樂(lè)流派進(jìn)行精確的分類[3-4]。但傳統(tǒng)的音樂(lè)流派分類方法提取出的特征往往缺乏通用性,同時(shí),傳統(tǒng)的音樂(lè)流派分類方法對(duì)音樂(lè)相關(guān)知識(shí)的依賴度也較高。針對(duì)上述問(wèn)題,深度學(xué)習(xí)可以看作是提取器和分類器的結(jié)合,可以直接從音樂(lè)信號(hào)中提取出有效特征并進(jìn)行學(xué)習(xí)[5]。但目前基于深度學(xué)習(xí)的分類方法側(cè)重于全局特征的學(xué)習(xí),而音樂(lè)流派是由多種高度多樣化中間特性組成,具有不一樣的抽象層次[6]。因此,現(xiàn)有的音樂(lè)流派分類方法仍存在一定的局限性,不能滿足音樂(lè)流派分類的要求[7]。綜上,在回顧國(guó)內(nèi)外音樂(lè)流派分類發(fā)展的基礎(chǔ)上,對(duì)當(dāng)前主流技術(shù)和前沿進(jìn)展進(jìn)行總結(jié)分析,指出未來(lái)研究趨勢(shì),并對(duì)音樂(lè)流派分類存在的問(wèn)題及未來(lái)發(fā)展方向進(jìn)行了總結(jié)與展望。
音樂(lè)流派(music genre)是由流行樂(lè)、古典樂(lè)、爵士樂(lè)等音樂(lè)作品的獨(dú)特節(jié)奏、音色、曲調(diào)、地域文化等元素形成的不同類別的音樂(lè)風(fēng)格,具體概念見表1。
表1 音樂(lè)流派說(shuō)明Tab.1 Music genre description
音樂(lè)流派作為音樂(lè)網(wǎng)站使用的分類檢索項(xiàng)之一,也是數(shù)字音樂(lè)數(shù)據(jù)庫(kù)管理和存儲(chǔ)的重要分類屬性,因此,音樂(lè)流派的自動(dòng)分類對(duì)音樂(lè)發(fā)展具有重要研究意義和應(yīng)用價(jià)值。音樂(lè)流派的分類作為MIR 領(lǐng)域的一個(gè)重要分支,其研究不斷深入,是多媒體應(yīng)用中不可或缺的一部分,主要包括檢索、欣賞、創(chuàng)作、教學(xué)和數(shù)字娛樂(lè)[8]。
音樂(lè)流派分類已成為近年的研究熱點(diǎn),有效識(shí)別音樂(lè)流派不僅有助于音樂(lè)信息的檢索,同時(shí)也往往作為特定類型的音樂(lè)操作,如語(yǔ)音識(shí)別,音樂(lè)檢索等的預(yù)處理[3]。其本質(zhì)上屬于模式識(shí)別的范疇,一般包括兩個(gè)主要部分:特征提取和分類識(shí)別。
音樂(lè)流派分類主要流程如下:首先,對(duì)輸入的音樂(lè)信號(hào)進(jìn)行預(yù)處理;其次,提取音樂(lè)特征;再經(jīng)過(guò)有監(jiān)督或無(wú)監(jiān)督分類訓(xùn)練,得到分類器;最后,使用測(cè)試數(shù)據(jù)并驗(yàn)證分類結(jié)果。
(1)預(yù)處理。在音樂(lè)流派分類研究中,來(lái)自不同數(shù)據(jù)源的音樂(lè)文件可能具有不同的存儲(chǔ)格式和采樣頻率,且原始音樂(lè)信號(hào)中可能存在干擾噪聲等無(wú)用信息。因此,預(yù)處理是音樂(lè)流派分類研究的第一步和基本環(huán)節(jié)。主要包括統(tǒng)一信號(hào)格式、采樣量化、成幀、加窗、預(yù)加重等,為后續(xù)的特征提取步驟提供標(biāo)準(zhǔn)化、可靠的音樂(lè)樣本。
(2)特征提取。特征提取是整個(gè)分類過(guò)程的關(guān)鍵部分,因?yàn)樘卣鞯倪x擇和提取在很大程度上決定了分類效果,主要目的是找出更貼合音樂(lè)信號(hào)特征的關(guān)鍵特征參數(shù)。在音樂(lè)流派分類領(lǐng)域,常用的特征參數(shù)包括短時(shí)能量、過(guò)零率、短時(shí)譜、線性預(yù)測(cè)系數(shù)(LPC)和Mel 倒譜系數(shù)。
(3)訓(xùn)練分類器。訓(xùn)練分類器是決定分類最終性能的關(guān)鍵模塊。通過(guò)構(gòu)建訓(xùn)練樣本集對(duì)分類器進(jìn)行訓(xùn)練,找到合適的參數(shù),最終得到訓(xùn)練好的分類器。
(4)分類結(jié)果測(cè)試。用于測(cè)試分類器的效果。待預(yù)測(cè)的新音樂(lè)樣本進(jìn)入分類器,利用訓(xùn)練好的分類器對(duì)待預(yù)測(cè)的樣本進(jìn)行分類和預(yù)測(cè),判斷其是否屬于該類別,最后統(tǒng)計(jì)分類準(zhǔn)確率。
在音樂(lè)流派分類任務(wù)中,分類是否準(zhǔn)確的決定因素是提取特征的精準(zhǔn)度以及分類器建模的實(shí)用性。以往的分類方式是把提取和分類分為兩個(gè)部分。從原始音樂(lè)信號(hào)中手動(dòng)提取特征,然后選擇合理的分類器對(duì)提取的特征進(jìn)行分類建模。這種傳統(tǒng)方式雖然具有一定的實(shí)用性,也取得了一定成效,但在提取特征過(guò)程中效率低,操作較難,而且提取出的特征不具備普遍性。隨著深度學(xué)習(xí)的發(fā)展及應(yīng)用,越來(lái)越多的研究者將音樂(lè)流派分類和深度學(xué)習(xí)模型相結(jié)合,制作音樂(lè)聲譜圖進(jìn)行輸入。
傳統(tǒng)音樂(lè)流派分類方法從特征提取和分類兩部分來(lái)研究音樂(lè)流派分類內(nèi)容。提取出的特征能夠反映不同音樂(lè)類型,反之,分類效果也能夠體現(xiàn)特征選擇的準(zhǔn)確性。
2.1.1 特征提取 音樂(lè)本質(zhì)上是頻率、振幅、相位的振動(dòng)波在不同時(shí)間點(diǎn)上的組合,音樂(lè)特征可以從多種角度分類,有不同的描述方法[9]。特征提取的作用是將音樂(lè)中能夠表征音樂(lè)本身的特征提取出來(lái)構(gòu)成特征向量。如果從音樂(lè)理解的角度來(lái)劃分,音樂(lè)特征具有低級(jí)和中級(jí)之分;如果從變換域的層次來(lái)看,音樂(lè)特征可分為頻域、時(shí)域和倒譜域三種;按照音樂(lè)的幀長(zhǎng)來(lái)劃分可以分為長(zhǎng)時(shí)、短時(shí)特征。Weihs 等[10]認(rèn)為音樂(lè)有長(zhǎng)時(shí)、短時(shí)、語(yǔ)義和成分四種特征。Scaringella 等[11]將音樂(lè)特征分為音色、節(jié)奏和音調(diào)。Fu 等[12]將音樂(lè)特征分為聲學(xué)特征和感知特征兩種。音樂(lè)特征的提取是分類任務(wù)中必不可少的一步,特征的質(zhì)量是影響分類準(zhǔn)確率至關(guān)重要的因素,只有提取出能夠準(zhǔn)確表征音樂(lè)流派的音樂(lè)特征,才能提高分類的整體性能。
由于長(zhǎng)時(shí)特征的提取過(guò)程較為煩瑣,多個(gè)研究方法通過(guò)結(jié)合短時(shí)特征來(lái)得到長(zhǎng)時(shí)特征,本文著重介紹常見的短時(shí)特征,見表2。
表2 常見的短時(shí)特征Tab.2 Common short‐term characteristics
2.1.2 機(jī)器學(xué)習(xí)分類方法 在傳統(tǒng)的音樂(lè)流派分類任務(wù)中,特征提取結(jié)合有效的分類器可以很好提升分類效果,比較常見的傳統(tǒng)分類器有支持向量機(jī)(SVM)[13]、高斯混合模型(GMM)[14]和K 近鄰(KNN)[15]等。
國(guó)外音樂(lè)流派分類的研究起源于2002 年,Tzanetakis 等[14]將音樂(lè)流派分類視為一項(xiàng)模式識(shí)別任務(wù),提出了一種基準(zhǔn)數(shù)據(jù)集GTZAN 共計(jì)1 000 首音樂(lè),包含10 種音樂(lè)流派。分別提取了音色、節(jié)奏和音高三個(gè)特征輸入到GMM 和KNN 進(jìn)行分類,并對(duì)這些特征的性能進(jìn)行了比較研究,獲得了61% 的準(zhǔn)確率,成為最具開創(chuàng)性的工作之一。這些特征后來(lái)成為音樂(lè)流派分類研究的共同特征,實(shí)驗(yàn)結(jié)果被廣泛引用,許多類似的研究也將該實(shí)驗(yàn)結(jié)果作為參考對(duì)比。
2002 年以來(lái),Laurier 等[16]選擇多種音頻特征作為特征集,采用SVM 進(jìn)行分類。Lee 等[17]以長(zhǎng)期調(diào)制譜分析和MFCC 特征為基礎(chǔ),采用特征融合的方式來(lái)識(shí)別音樂(lè)流派的類型,可以觀察出音樂(lè)變化情況以及節(jié)奏信息,以確保形成的特征具有緊湊性和有效性。隨后,學(xué)者們又把目光放到了音樂(lè)信號(hào)頻譜特征時(shí)間演化的研究上,認(rèn)為捕捉頻譜特征的難度會(huì)比其他方法難度低。Lim 等[18]根據(jù)音色特征找到相應(yīng)的光譜時(shí)間特征,建立音樂(lè)流派分類模型,利用SVM 分類器進(jìn)行特征選擇進(jìn)而實(shí)現(xiàn)分類。Nanni 等[19]提取了節(jié)奏直方圖、頻譜描述符以及光譜圖,劃分成不同的子窗口,根據(jù)每一組特征進(jìn)行相應(yīng)的描述和訓(xùn)練,最后將融合后的音樂(lè)特征輸入到SVM 進(jìn)行分類,從而獲得分類結(jié)果。
國(guó)內(nèi)音樂(lè)流派分類的研究起步較晚。楊翠麗等[20]對(duì)多數(shù)投票機(jī)制進(jìn)行了優(yōu)化和完善,通過(guò)計(jì)算每一個(gè)片段的百分比,結(jié)合音樂(lè)的節(jié)奏特征來(lái)劃分整個(gè)音樂(lè)樣本。俞曉文等[21]從輸入特征出發(fā),利用旋律特征找到音高和節(jié)奏,并將其作為輸入特征,使用前饋神經(jīng)網(wǎng)絡(luò)作為音樂(lè)特征的分類器,證明了這種提取音樂(lè)特征的方式具有良好的實(shí)用性。甄超等[22]基于聲學(xué)特征提出了特征交互正向特征選擇算法,在標(biāo)簽語(yǔ)料庫(kù)中通過(guò)文檔主題生成模型(LDA)來(lái)構(gòu)建新的分類模型,從而將這些標(biāo)簽按照不同的類別劃分,這種聲學(xué)特征與標(biāo)簽流派分類融合的方式,能夠有效提高分類的效果和精確度。李鏘等[23]在二維光譜中綜合運(yùn)用尺度不變特征變換(SIFT)和空間金字塔匹配(SPM),找到了相應(yīng)的特征向量,輸入到SVM 來(lái)達(dá)到分類效果,通過(guò)實(shí)驗(yàn)研究證明,采用聽覺(jué)頻譜的分類方式遠(yuǎn)優(yōu)于MFCC 特征。肖曉紅等[24]將音色特征、節(jié)奏特征通過(guò)bagging 訓(xùn)練兩組隱馬爾可夫模型進(jìn)行分類,達(dá)到了良好的效果,同時(shí)也證明了融合節(jié)奏特征可以有效提高分類準(zhǔn)確率。杜威等[25]利用層次分析法分析了音樂(lè)信號(hào)中的光譜特征。首先通過(guò)多個(gè)SVM 構(gòu)建相應(yīng)的分類樹,計(jì)算每一個(gè)葉節(jié)點(diǎn)的得分,并且將這一個(gè)分值看成是特征,結(jié)合KNN 算法來(lái)確保精確度。
以上音樂(lè)流派分類方法主要分為特征提取和構(gòu)建分類器兩部分。然而目前在特征提取、分類方面仍存在一些不足:在特征提取方面,特征提取方式有限,大多通過(guò)人為提取特征,且提取的特征可能只適用某一流派音樂(lè),無(wú)法在其他流派中發(fā)揮同樣的效果;在分類方面,由于音樂(lè)流派分類中特征向量的維數(shù)往往是幾十維甚至幾百維,一個(gè)實(shí)用、有意義的音樂(lè)分類系統(tǒng)需要處理八個(gè)甚至十個(gè)以上的音樂(lè)流派類別。在實(shí)現(xiàn)的過(guò)程中,隨著分類需求以及分類數(shù)量的增加,計(jì)算復(fù)雜度也將逐漸增加,這為進(jìn)一步提高分類精度帶來(lái)了困難。
近幾年深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域取得良好成績(jī),音樂(lè)流派分類的解決方案也逐漸將重心轉(zhuǎn)移到深度學(xué)習(xí)上,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)方法,為解決音樂(lè)流派分類問(wèn)題帶來(lái)了新的思路和方向。
20 世紀(jì)60 年代是深度學(xué)習(xí)的萌芽階段;21 世紀(jì)初期,Hinton[26]提出的深度置信網(wǎng)絡(luò)(DBN)推動(dòng)了深度學(xué)習(xí)的發(fā)展。隨著深度學(xué)習(xí)應(yīng)用領(lǐng)域的不斷開展,在音樂(lè)流派分類任務(wù)中也得到應(yīng)用[27-28]。在深度學(xué)習(xí)中,重要特征的獲取都是自發(fā)性的,可以很好地完成音樂(lè)流派分類任務(wù)。
在國(guó)外相關(guān)研究中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法逐漸被深度學(xué)習(xí)所取代。如卷積神經(jīng)網(wǎng)絡(luò)(CNN)具有很強(qiáng)的特征學(xué)習(xí)能力,已經(jīng)在大量分類任務(wù)中證明了它的有效性。Costa 等[29]將CNN 用于音樂(lè)流派分類任務(wù),將結(jié)果與手動(dòng)特征、SVM 分類器做比較,在提取特征時(shí)結(jié)合了CNN 和手工提取兩種方式,從而提高音樂(lè)分類的準(zhǔn)確率。Li 等[30]將CNN 作為特征提取器,結(jié)合多數(shù)投票機(jī)制對(duì)提取的特征進(jìn)行選擇,在GTZAN 數(shù)據(jù)集上取得顯著成果[31]。Lee 等[32]提出了一種不同于典型幀級(jí)特征表示的CNN 結(jié)構(gòu),通過(guò)降低音頻信號(hào)的頻率來(lái)提高訓(xùn)練的速度,從而縮短訓(xùn)練所需要的時(shí)間,應(yīng)用遷移學(xué)習(xí)的方式對(duì)模型進(jìn)行擴(kuò)展,樣本層CNN在每一層中學(xué)習(xí)的濾波器可視化,以識(shí)別分層學(xué)習(xí)特征。Song 等[33]在散射變換特征的基礎(chǔ)上,提出新的深度遞歸神經(jīng)網(wǎng)絡(luò)自動(dòng)標(biāo)注算法。散射特征使得帶有門循環(huán)單元(GRU)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠?qū)崿F(xiàn)變換譜的功能,而且這種變換的方式相對(duì)于MFCC 和Mel 譜圖來(lái)說(shuō)效率更高。
國(guó)內(nèi)相關(guān)研究中,何麗等[34]在音樂(lè)流派分類中使用了LSTM 網(wǎng)絡(luò),利用GTZAN 數(shù)據(jù)集提取Mel 譜質(zhì)心、倒譜系數(shù)和譜對(duì)比度三個(gè)特征,并且通過(guò)LSTM 網(wǎng)絡(luò)來(lái)進(jìn)行特征訓(xùn)練。陸歡[35]采用倒譜系數(shù)提取音頻的MFCC 特征矩陣,以其特征值作為CNN 的輸入對(duì)音頻信號(hào)進(jìn)行訓(xùn)練,驗(yàn)證了CNN 分類的有效性。鄭旦[36]提出了基于深度置信網(wǎng)絡(luò)的多特征融合音樂(lè)分類算法,對(duì)音樂(lè)信號(hào)從多個(gè)角度進(jìn)行特征選取并融合,由融合得到的訓(xùn)練集在改進(jìn)的深度置信網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,通過(guò)調(diào)整RBM 中可見層與隱藏層單元之間的權(quán)值使得模型達(dá)到最優(yōu)性能。楊汶雯等[37]針對(duì)目前深度學(xué)習(xí)在音樂(lè)分類中準(zhǔn)確性較低的問(wèn)題,從音樂(lè)特征角度進(jìn)行改進(jìn),根據(jù)聲學(xué)、信號(hào)學(xué)的基本理論,提出音樂(lè)特征指標(biāo)體系,基于自適應(yīng)粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)的算法對(duì)音樂(lè)流派進(jìn)行分類。
由上可知,CNN 和RNN 廣泛應(yīng)用于音樂(lè)流派分類任務(wù)中。CNN 保證了一定程度的平移、縮放,可以有效地利用時(shí)間和頻率不變性,但未考慮全局結(jié)構(gòu)。而RNN 考慮全局結(jié)構(gòu),在綜合局部特征方面更加靈活。因此,在序列數(shù)據(jù)中RNN 被廣泛用于建模時(shí)間依賴關(guān)系[38]。它們?cè)谟?xùn)練時(shí)間和參數(shù)數(shù)量方面均表現(xiàn)良好,然而順序計(jì)算的耗時(shí)性仍然是一個(gè)顯著的限制。針對(duì)RNN 中存在的問(wèn)題,LSTM 通過(guò)改變單元結(jié)構(gòu)和添加存儲(chǔ)單元來(lái)判斷是否有必要記住信息。與RNN 不同,LSTM 的每個(gè)存儲(chǔ)單元包括輸入門、遺忘門和輸出門,是網(wǎng)絡(luò)中信息傳輸?shù)慕涌?。因此,LSTM 比RNN 更適合處理具有相對(duì)較長(zhǎng)時(shí)間間隔的序列和預(yù)測(cè)任務(wù)中的關(guān)鍵延遲元素。
目前音樂(lè)流派分類結(jié)合了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種方法。深度學(xué)習(xí)[39]采用監(jiān)督或半監(jiān)督的高效算法,有效地降低了傳統(tǒng)機(jī)器學(xué)習(xí)算法人工特征獲取的誤差,能夠提升音樂(lè)流派的分類準(zhǔn)確率。但深度學(xué)習(xí)的成本高且模型設(shè)計(jì)較為復(fù)雜,還需進(jìn)一步結(jié)合音樂(lè)信息加以改進(jìn),從而提升分類的整體性能。不同類型分類方法對(duì)比見表3。
表3 不同類型分類方法對(duì)比Tab.3 Comparison of different types of classification methods
音樂(lè)流派方面的公共數(shù)據(jù)集數(shù)量相對(duì)較少,本文總結(jié)了音樂(lè)流派分類領(lǐng)域部分常用的數(shù)據(jù)集,具體信息見表4。
表4 數(shù)據(jù)集相關(guān)信息Tab.4 Data set related information
(1)GTZAN 數(shù)據(jù)集由Tzanetakis 和Cook 收集[14],涉及的流派類別共10 個(gè)(藍(lán)調(diào)、古典、鄉(xiāng)村、迪斯科、嘻哈、爵士、金屬、流行、雷鬼和搖滾)。每一個(gè)流派類別均從CD、收音機(jī)、MP3 壓縮音樂(lè)文件中收集1 000 段音樂(lè)摘錄,每100 段的音頻時(shí)長(zhǎng)大約30 秒,每一個(gè)項(xiàng)目的內(nèi)存有22.05 kHz,為16 位的單聲頻道。
(2)ISMIR2004[9]是一個(gè)音樂(lè)信息檢索競(jìng)賽的音樂(lè)流派分類數(shù)據(jù)集,數(shù)據(jù)集共有1 458 個(gè)樣本,分為6 種不同的流派:古典、電子、爵士樂(lè)、金屬/朋克、搖滾/流行和世界。1 458 首音樂(lè)作品平分為訓(xùn)練集和測(cè)試集。
(3)Extended Ballroom[40]數(shù)據(jù)集是 在Ballroom 數(shù)據(jù)集的基礎(chǔ)上發(fā)展而來(lái),作為Ballroom 數(shù)據(jù)集的拓展集,Extended Ballroom 數(shù)據(jù)集共有4 180 個(gè)曲目,超出Ballroom 數(shù)據(jù)集五倍多。其中,樣本包括恰恰舞、狐步舞、牛仔舞、斗牛舞、快步舞、倫巴舞、薩爾薩舞、桑巴舞、慢華爾茲舞、探戈舞、維也納華爾茲舞、華爾茲舞和西海岸搖擺舞。
(4)Million Song 數(shù)據(jù)集(MSD)中的音樂(lè)信息來(lái)自世界各個(gè)音樂(lè)社區(qū),可以從多個(gè)音樂(lè)平臺(tái)進(jìn)入,包含超過(guò)100 萬(wàn)首音樂(lè)。MSD 提供每首歌曲的元數(shù)據(jù)和預(yù)先計(jì)算的音樂(lè)特征。受到版權(quán)內(nèi)容的限制且音樂(lè)評(píng)價(jià)來(lái)源復(fù)雜,因此并沒(méi)有規(guī)范的音樂(lè)流派分類標(biāo)簽。
(5)MagnaTag ATune 數(shù)據(jù)集中歌曲的片段數(shù)據(jù)達(dá)2.5 萬(wàn)首,每一個(gè)片段的時(shí)長(zhǎng)大約都在29 秒左右。歌曲片段可分為電子,爵士樂(lè),嘻哈,搖滾,布魯斯等共69 個(gè)流派類別。數(shù)據(jù)由在線游戲提供,每段剪輯由兩名玩家播放,只有兩人同時(shí)標(biāo)記一個(gè)音樂(lè)片段時(shí),標(biāo)簽才會(huì)生效。
為有效判斷模型質(zhì)量,以往研究使用的評(píng)價(jià)標(biāo)準(zhǔn)為AUC[41],表示預(yù)測(cè)的正例排在負(fù)例前面的概率。其具體解釋以FPR(假陽(yáng)率)為橫軸,以TPR(真陽(yáng)率)為縱軸,分類閾值在不斷調(diào)整過(guò)程中會(huì)形成一系列點(diǎn)對(duì),并且將這些點(diǎn)對(duì)一一對(duì)應(yīng)到坐標(biāo)軸上,用直線將這些點(diǎn)連接起來(lái),即形成ROC 曲線,曲線下的面積代表AUC 值。這一評(píng)價(jià)標(biāo)準(zhǔn)在二分類的領(lǐng)域中具有較好的應(yīng)用,因此可以將多分類轉(zhuǎn)化為二分類問(wèn)題,最后求得結(jié)果的平均值。如果將分類問(wèn)題都看成二分類問(wèn)題,樣本就只有兩種結(jié)果,一種是符合該類別,反之則不符合。該指標(biāo)也可用于二分類的評(píng)價(jià)任務(wù)。
一般評(píng)估指標(biāo)包括精確率、召回率等多個(gè)方面的內(nèi)容。為能夠?qū)@些指標(biāo)有一個(gè)更好的認(rèn)識(shí),本文列出了多分類問(wèn)題的混淆矩陣,見表5。
表5 多分類問(wèn)題混淆矩陣Tab.5 Confusion matrix for multi‐class problems
使用表中的定義,單個(gè)類別的精確率(precision,P)定義為TP 與(TP+FP)的比值,表示在所有被預(yù)測(cè)為正樣本中,實(shí)際標(biāo)簽為正樣本的概率;真陽(yáng)率即召回率(recall,R)定義為TP 與(TP+FN)的比值,表示實(shí)際標(biāo)簽屬于該類別的樣本中正確預(yù)測(cè)的樣本的比例;假陽(yáng)率FPR定義為FP 與(FP+TN)的比值,表示實(shí)際標(biāo)簽不屬于該類別的樣本中,但是在分類模型中則被判斷為該類別的樣本比例。
早期的音樂(lè)流派分類是基于傳統(tǒng)機(jī)器學(xué)習(xí)方法,通過(guò)特征提取輸入到分類模型中,分類效果并不理想。深度學(xué)習(xí)極大促進(jìn)了音樂(lè)流派分類的發(fā)展。音樂(lè)流派分類方法在GTZAN、ISMIR2004 和Extended Ballroom 數(shù)據(jù)集上的結(jié)果見表6。
表6 模型結(jié)果對(duì)比Tab.6 Comparison of model results
音樂(lè)流派分類發(fā)展至今已取得一定的成果,眾多學(xué)者為音樂(lè)流派分類提供了新思路和方法,但仍有許多難題有待解決。
(1)目前的大多數(shù)公開數(shù)據(jù)集都是使用古典、搖滾、金屬等通用的流派對(duì)音樂(lè)進(jìn)行分類,但不同地區(qū)的文化和語(yǔ)言有所差異,通用音樂(lè)流派并不適用于民族音樂(lè)等特定領(lǐng)域的流派分類,因此建立適用于特定領(lǐng)域的數(shù)據(jù)集較為困難。
(2)在特征選擇階段,目前還不清楚哪些特征對(duì)音樂(lè)流派分類效果的影響最為顯著,無(wú)法直接找到與分類目標(biāo)有明顯關(guān)聯(lián)的深層音樂(lè)特征,且對(duì)于樣本數(shù)量較少的數(shù)據(jù)集,提取的特征數(shù)量有限,最終導(dǎo)致分類結(jié)果不理想。
(3)相比機(jī)器學(xué)習(xí),深度學(xué)習(xí)對(duì)特征的學(xué)習(xí)更加深入,但其對(duì)數(shù)據(jù)的依賴性較強(qiáng),在面對(duì)小規(guī)模樣本數(shù)據(jù)集時(shí),無(wú)法達(dá)到理想的分類效果,給分類工作帶來(lái)一定局限性。隨著研究的深入,如何運(yùn)用深度學(xué)習(xí)方法更準(zhǔn)確地識(shí)別音樂(lè)流派是當(dāng)前工作的難點(diǎn)之一。
針對(duì)現(xiàn)有研究的局限性,今后音樂(lè)流派分類可以從以下幾個(gè)方面進(jìn)行進(jìn)一步的研究:
(1)在音樂(lè)流派數(shù)據(jù)集的建立方面,可以將特定領(lǐng)域的音樂(lè)流派與通用流派相區(qū)分,通過(guò)構(gòu)建適用于特定領(lǐng)域的音樂(lè)流派數(shù)據(jù)集,進(jìn)而推動(dòng)音樂(lè)流派數(shù)據(jù)集的多元化建立。
(2)在音樂(lè)流派分類方面,可以通過(guò)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)、引入新的參數(shù),從而對(duì)無(wú)標(biāo)注的音樂(lè)數(shù)據(jù)進(jìn)行更加精準(zhǔn)的分類。在此基礎(chǔ)上,將深度學(xué)習(xí)與其他方法相融合,有望進(jìn)一步提升分類效果。
(3)未來(lái)音樂(lè)流派分類可以靈活利用音樂(lè)歌詞、專輯封面等其他模態(tài)信息,為音樂(lè)流派分類帶來(lái)更為理想的效果。