• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向翻唱歌曲識別的相似度融合算法

      2017-01-18 02:10:58婷,
      關(guān)鍵詞:音級頻譜準(zhǔn)確率

      劉 婷, 陳 寧

      (華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

      面向翻唱歌曲識別的相似度融合算法

      劉 婷, 陳 寧

      (華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

      提出了一種面向翻唱歌曲識別的相似度融合算法。該算法將基于樂理特征的相似度和基于人耳感知特性的相似度融合,通過把基于節(jié)拍跟蹤和瞬時頻率音級輪廓(IF-PCP)的最大互相關(guān)相似度、基于和聲音級輪廓(HPCP)的Qmax相似度、基于耳蝸音級輪廓(CPCP)的Qmax相似度映射到同一個多維空間,并計算其幾何距離來進(jìn)行相似度融合。該算法使得IF-PCP特征的節(jié)拍速度不變性、HPCP特征的和聲優(yōu)勢、CPCP特征的人耳感知特性有效融合。為了驗證算法的有效性,采用包含212首不同歌曲共502個版本的數(shù)據(jù)庫作為測試對象,以平均正確率均值和TOP-N作為測試指標(biāo)對算法性能進(jìn)行測試。測試結(jié)果表明,與基于單一相似度算法相比,該融合算法可提高翻唱歌曲識別準(zhǔn)確率。

      相似度融合; 節(jié)拍追蹤; 瞬時頻率音級輪廓; 和聲音級輪廓; 耳蝸音級輪廓;Qmax; 翻唱歌曲識別

      隨著互聯(lián)網(wǎng)的快速發(fā)展、云概念的出現(xiàn),海量的音頻信息充斥著人們的生活,從而使得基于內(nèi)容的音樂信息檢索(Music Information Retrieval,MIR)近些年來得到了快速發(fā)展。翻唱歌曲識別(Cover Song Identification,CSI)作為MIR領(lǐng)域的一個研究熱點引起了研究者的廣泛關(guān)注。CSI技術(shù)具有重要的研究價值,比如:音樂版權(quán)的維護(hù)與認(rèn)證、音樂創(chuàng)作輔助、以及多版本音樂的檢索、收集與欣賞等。

      翻唱歌曲識別旨在找到海量音樂信息中同源音樂的不同版本。由于獲取翻唱版本的方式不同,翻唱歌曲可能會在音色、節(jié)奏、基調(diào)、速度、和聲、歌詞、整體結(jié)構(gòu)等重要音樂要素存在差異甚至完全不同,因此翻唱歌曲識別成為了一項極具挑戰(zhàn)性的研究工作。

      從近10年的研究來看,翻唱歌曲識別研究主要分為特征提取和相似度計算兩個方面。1999年Fujishima[1]首先提出了音級輪廓(Pitch Class Profile,PCP)的概念,或稱Chroma;文獻(xiàn)[2]用實驗證明了PCP對噪聲以及非音調(diào)的聲音魯棒與絕對音調(diào)、音色、演奏樂器、音量、力度無關(guān);Ellis等[3]在PCP的基礎(chǔ)上提出了基于節(jié)拍跟蹤和瞬時頻率的PCP(Instantaneous Frequency -Pitch Class Profile,IF-PCP),算法中采用節(jié)拍對齊的方法消除不同音樂在速度方面的差異,獲得了速度不變性;Gomez和Serra[4-5]考慮了諧波的存在,提出了PCP的另一種改進(jìn)算法,采用和聲加權(quán)的方式提取基于和聲的PCP(Harmonic Pitch Class Profile,HPCP);Chen等[6]提出了基于耳蝸聽覺特性的PCP(Cochlear Pitch Class Profile,CPCP),通過在原始PCP模型中引入人耳聽覺感知特性,從而大幅提高了特征在器樂伴奏變化較大情況下的識別能力。在計算相似度距離方面,文獻(xiàn)[3]采用計算兩首音樂Chroma 特征序列的互相關(guān)(Cross-Correlate,CC)系數(shù)并取其峰值作為相似性度量,但計算代價高;文獻(xiàn)[4-5]通過構(gòu)造基于HPCP特征的相干遞歸圖(Cross-Recurrence Plot,CRP)并對其進(jìn)行相干遞歸分析(Recurrence Quantification Analysis,RQA)來獲取音樂相似度,稱為Qmax。

      不同的特征及相似度算法均有優(yōu)缺點,因此對由特定特征與相似度算法結(jié)合得到的相似度進(jìn)行融合,能夠更好地識別翻唱歌曲。文獻(xiàn)[7]提出將基于Pitch Salience Function[8]特征與基于HPCP特征的相似度進(jìn)行融合,達(dá)到了比單一算法更高的識別率,然而這種融合算法采用的特征均是基于音樂理論提取的特征,因此存在冗余,而且忽略了音樂中人聲的影響,因此該算法在背景音樂不強(qiáng)的情況下,很難達(dá)到理想的效果。

      本文提出的相似度融合算法以3種不同特性的特征為基礎(chǔ),其中基于節(jié)拍跟蹤的IF-PCP運用節(jié)拍對齊的方式來消除不同音樂的速度差異,對于節(jié)奏感較強(qiáng)的翻唱歌曲有很好的識別能力;而HPCP考慮了和聲的存在,采用和聲加權(quán)的方法,因此對由純樂器演奏的音樂有很好的魯棒性,也能更好地識別此類翻唱歌曲。但以上兩種特征都是基于音樂理論提出的,而在流行歌曲盛行的時代,大多歌曲都有很多歌手翻唱,為了更好地識別,本文增加了CPCP特征,該特征運用了人耳對聲音的感知特性,因此能夠更好地識別帶有人聲的翻唱歌曲。該融合算法在特征選擇方面,既考慮了音樂的要素,又考慮了人聲的存在;在相似度選擇方面,本文采用了全局匹配算法最大互相關(guān)以及局部匹配算法Qmax,兩種相似性度量方法既考慮了準(zhǔn)確性又考慮了計算速度,從而有效提高了翻唱歌曲識別的準(zhǔn)確率。

      1 特征提取及相似度算法

      1.1 特征提取

      1.1.1 基于節(jié)拍跟蹤的IF-PCP 文獻(xiàn)[3]提出的IF-PCP通過計算瞬時頻率頻譜而非短時傅里葉變換(Short-time Fourier Transform,STFT)得到輸入音頻信號的頻譜,然后通過頻譜映射[9],將每一幀的能量壓縮到12個音級上,解決了PCP因STFT導(dǎo)致頻譜粗糙的問題。之后采用節(jié)拍跟蹤算法[10]獲得節(jié)拍位置,用獲得的節(jié)拍信息對IF-PCP特征分段,得到基于節(jié)拍跟蹤的IF-PCP,從而實現(xiàn)了Chroma特征的節(jié)拍速度不變性。

      1.1.2 HPCP的提取 HPCP考慮了和聲諧波的存在,采用和聲加權(quán)的方式,首先通過STFT得到信號頻譜,再進(jìn)行峰值檢測處理,對50~5 kHz的各個峰值的頻譜進(jìn)行白化處理,最后通過頻譜映射將頻譜峰值能量映射到12個音級上,得到一個12維的特征向量。向量中每一維元素的值可以通過式(1)[2]計算得到。

      (1)

      其中:ai和fi是第i個信號峰的幅值與頻率;w(n,fi)為頻率fi的信號對于半音音級n的權(quán)重,w(n,fi)的計算過程詳見參考文獻(xiàn)[2]。

      1.1.3 CPCP的提取 文獻(xiàn)[6]分析了原始PCP中存在的不足:一方面原始PCP中采用傅里葉變換(Fast Fourier Transform,FFT)對頻率進(jìn)行線性分割,而人耳對頻率的感知是成對數(shù)的;另一方面原始PCP中沒有考慮人耳對音樂不同頻率的敏感度不同這一因素。因此文獻(xiàn)[6]提出了改進(jìn)算法(CPCP),彌補(bǔ)了原始PCP的缺陷,從而在音樂背景差異極大的情況下能夠更好地識別流行歌曲翻唱。該算法首先將音頻信號進(jìn)行分幀處理,然后進(jìn)行等響應(yīng)曲線濾波、聽覺濾波器組濾波、半波整流和下采樣等模擬人耳聽覺感知特性的操作,最后對所得信號進(jìn)行音級譜映射和基于非負(fù)矩陣分解的降維處理,得到CPCP特征向量。

      1.2 相似度計算

      1.2.1 互相關(guān) 文獻(xiàn)[3]中計算了兩個特征的互相關(guān)系數(shù),并取其峰值作為相似性度量。算法中通過式(2)計算查詢歌曲Chroma與樣本歌曲Chroma的互相關(guān)矩陣,取矩陣中最大值作為相似度候補(bǔ)。將查詢歌曲的Chroma按照音級進(jìn)行循環(huán)移位(例如C、#C、D、#D、E、F、#F、G、#G、A、#A、B移位后變成#C、D、#D、E、F、#F、G、#G、A、#A、B、C)得到新的Chroma,接著求循環(huán)移位后的查詢歌曲Chroma與原樣本歌曲Chroma的互相關(guān)矩陣,從而得到一個新的相似度候補(bǔ)。依次類推進(jìn)行11次循環(huán)移位后得到12個相似度候補(bǔ),最后取12個相似度候補(bǔ)中的最大值作為兩首歌曲的相似度?;ハ嚓P(guān)矩陣的計算如式(2)所示。

      (2)

      其中:k是查詢歌曲Q特征矩陣的列數(shù);l是樣本歌曲S特征矩陣的列數(shù);°表示互相關(guān)。

      1.2.2 相干遞歸圖(CRP)和Qmax距離的計算 Qmax距離是計算音樂X與音樂Y最長特征相似部分時間段的長度。首先通過CRP[5,11-12]構(gòu)建相似矩陣,相干遞歸圖是一個二值相似矩陣C,矩陣中的每個元素通過式(3)[5]計算得到。

      (3)

      (1)首先對遞歸矩陣Q進(jìn)行初始化,令Q1,j=Q2,j=Qi,1=Qi,2=0,i=1,…,Nx,j=1,…,Ny。

      (2)用動態(tài)規(guī)劃方法求得遞歸矩陣Q,Q中的每個值由式(4)計算得到,

      (4)

      (3)根據(jù)式(5)求得Qmax。

      (5)

      其中i=1,…,Nx,j=1,…Ny。

      2 相似度融合算法

      2.1 各種單一算法的優(yōu)勢分析

      2.1.1 基于節(jié)拍跟蹤的IF-PCP選擇一首節(jié)奏感較強(qiáng)的歌曲‘Addictedtolove’作為實驗對象,分別對由RobertPalmer和TinaTurner演唱的不同版本提取IF-PCP、HPCP、CPCP特征,并計算得到CRP圖,如圖1所示。比較3個圖可知,基于節(jié)拍跟蹤的IF-PCP特征提取方法明顯優(yōu)于其他兩種特征,由此可得對于節(jié)奏感比較強(qiáng)的音樂,采用基于節(jié)拍跟蹤的IF-PCP能夠更好地識別翻唱歌曲。

      圖1 Robert Palmer與Tina Turner 演唱的‘Addicted to love’的CRP圖Fig.1 CRP of ‘Addicted to love’ perform by Robert Palmer and Tina Turner

      2.1.2 HPCP HPCP因考慮了和聲的存在,對背景音樂如演奏樂器變化比較大的純音樂能夠更好地識別。為了驗證HPCP的有效性,選擇分別由Coldplay與David Garrett演奏的不同版本純音樂‘Viva La Vida’作為實驗對象,這兩首歌曲分別由不同的樂器演奏。圖2顯示了這兩首歌的CRP圖,由圖得知,HPCP特征的識別準(zhǔn)確率明顯優(yōu)于基于節(jié)拍跟蹤的IF-PCP與CPCP特征,因此對于這種由不同樂器演奏純音樂的翻唱歌曲的識別來說HPCP更有效。

      圖2 Coldplay與David Garrett演唱的‘Viva La Vida’ 的CRP圖Fig.2 CRP of ‘Viva La Vida’ perform by Coldplay and David Garrett

      2.1.3 CPCP CPCP由于考慮了人耳的聽覺感知特性,因此能夠很好地識別帶有人聲的翻唱歌曲。為了驗證CPCP的有效性,選擇分別由筷子兄弟和回音哥演唱的“小蘋果”,這兩首歌中人聲部分比較突出。圖3示出了這兩首歌的CRP圖,比較3種特征的效果,圖3(c)圖的效果更好,因此對于有人聲的翻唱歌曲的識別,CPCP特征更具優(yōu)勢。

      圖3 筷子兄弟與回音哥演唱的“小蘋果“ 的CRP圖Fig.3 CRP of ‘Viva La Vida’ perform by Chopsticks Brothers and Echo Brother

      2.2 相似度矩陣融合算法

      本文通過將各個特征及相似度進(jìn)行融合,補(bǔ)償各個特征及相似度算法的缺陷,從而提高翻唱歌曲識別的準(zhǔn)確率。本文的融合算法框架如圖4所示。算法步驟如下:

      (6)

      (3)將一首查詢音樂q與音樂庫中某一首音樂s,用不同特征提取算法及相似度計算方法計算出的相似度距離組成一個新的距離向量,如式(7)[7]所示。

      (7)

      (4)通過幾何方法得到一個新的相似度矩陣R,R中每一個元素由式(8)[7]計算得到。

      (8)

      圖4 融合算法框架Fig.4 System of fusion algorithm

      3 仿真實驗

      3.1 實驗數(shù)據(jù)庫

      為了驗證算法的有效性,實驗中采用的音樂庫包含212首不同歌曲的共502個版本,在相同條件下,對單個相似度的原始算法、兩個相似度融合的算法以及3個相似度融合的算法作對比。

      3.2 實驗采用的評估算法

      采用平均正確率均值 (Mean Average Precision,MAP)[5]和TOP-N作為判斷翻唱歌曲識別能力的標(biāo)準(zhǔn)。

      TOP-N是指將CSI的結(jié)果根據(jù)相似度從高到低排列后,返回的相似度列表中排名前N的歌曲中翻唱歌曲的個數(shù),本文實驗中N=3。

      MAP的計算公式[5]如下:

      (9)

      式中:N為識別過程中作為查詢歌曲的數(shù)目,本文實驗中N=502。

      (10)

      式中:Cq為查詢歌曲q的翻唱版本數(shù)目,本文實驗中其值為2~9;r是相似度列表中的名次;S為識別結(jié)束后返回的歌曲數(shù)目,本文實驗中S=501;當(dāng)相似度列表在名次r處為查詢歌曲q的翻唱版本,Iq(r)=1,否則Iq(r)=0;Pq(r)是在名次r處的準(zhǔn)確率,

      (11)

      式中r=1,2,…,501。

      3.3 實驗結(jié)果與分析

      表1示出了不同算法對翻唱歌曲識別的準(zhǔn)確率。實驗結(jié)果表明相似度矩陣融合后,MAP值較單個相似度算法的MAP值有明顯提高,通過3個相似度矩陣融合得到的MAP值最高。

      表1 不同相似度距離融合的翻唱歌曲識別結(jié)果Table 1 Cover song identification result of different similarity distance fusion

      由表1得到以下結(jié)論:

      (1)IF-PCP+CC+HPCP+Qmax的MAP比IF-PCP+CC的MAP提高了21.29%,TOP-3提高了27.16%,對HPCP+Qmax而言,MAP僅提高了0.06%,TOP-3提高了0.98%,但它由兩個相似度融合,計算時間復(fù)雜度會有大幅提高,而IF-PCP和HPCP兩種特征都是基于音樂理論提取的特征,有一定程度的相似性,因此由兩個相似的特征計算得到的相似度的融合不能在保證時間復(fù)雜度的前提下使翻唱識別準(zhǔn)確率得到大幅的提高。

      (2)HPCP+Qmax+CPCP+Qmax的MAP比HPCP+Qmax的MAP提高了1.18%,TOP-3提高了2.6%,比CPCP+Qmax的MAP提高了2.5%,TOP-3提高了1.95%,IF-PCP+CC+CPCP+Qmax的MAP比IF-PCP+CC的MAP提高了19.05%,TOP-3提高了17.69%,雖然計算代價增加,但準(zhǔn)確率有明顯提高,由此可得兩個不同特性的特征計算得到的相似度的融合能提高翻唱識別準(zhǔn)確率。

      (3)IF-PCP+CC+HPCP+Qmax+CPCP +Qmax相較于單個算法而言,MAP提高了2.41%~23.64%,TOP-3提高了3.90%~31.69%;而相較于兩兩融合的算法,MAP值提高了1.23%~4.60%,TOP-3提高了1.91%~11.89%,由此可得3個特征融合的算法更能提高翻唱歌曲識別的準(zhǔn)確率。

      由此驗證本文提出的算法能在一定程度上提高翻唱歌曲識別準(zhǔn)確率。

      4 結(jié)束語

      本文提出了一種面向翻唱歌曲識別的將基于樂理特征的相似度和基于人耳感知特性的相似度融合的算法。算法中融合了IF-PCP特征的節(jié)拍速度不變性、HPCP特征的和聲優(yōu)勢、CPCP特征的人耳感知特性,使得在翻唱形式多樣(演奏樂器不同、演唱者不同、節(jié)拍速度不同等)的音樂庫中相較于單個特征算法而言,翻唱歌曲的識別準(zhǔn)確率大幅提高。但本文算法只是在流行歌曲方面有所突破,如何才能讓其適用于更多類型的歌曲,在未來的研究中將尋找更好的融合算法來解決這一問題。另一方面由于采用多種特征提取與相似度計算方法,導(dǎo)致時間復(fù)雜度增加,在以后的研究中可以采用GPU并行計算來提高算法的效率。

      [1] FUJISHIMA T.Realtime chord recognition of musical sound:A system using common lisp music[C]//Proceedings of the International Computer Music Association.ICMC.Beijing:[s.n.],1999:464-467.

      [2] 張秀,李念祖,李偉.Chroma 特征的魯棒性驗證[J].計算機(jī)科學(xué),2014,41(6A):24-28.

      [3] ELLIS D P W,POLINER G E.Identifying cover songs’ with chroma features and dynamic programming beat tracking[C]// IEEE International Conference on Acoustics,Speech and Signal Processing,2007.Honolulu:IEEE,2007:IV-1429-IV-1432.

      [5] SERRA J,SERRA X,ANDRZEJAK R G.Cross recurrence quantification for cover song identification [J].New Journal of Physics,2009,11(9):093017.

      [6] CHEN Ning,DOWNIE J S,XIAO Haidong,etal.Cochlear pitch class profile for cover song identification [J].Applied Acoustics,2015,99:92-96.

      [7] DEGANI A,DALAI M,LEONARDI R,etal.A heuristic for distance fusion in cover song identification[C]// 14th International Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS),2013.USA:IEEE,2013:1-4.

      [8] AMATRIAIN X,BONADA J,LOSCOS A,etal.Spectral Processing[M].USA:John Wiley & Sons,2002:373-438.

      [9] 王峰.美爾音級輪廓特征在音樂和弦識別算法中的應(yīng)用研究[D].太原:太原理工大學(xué),2010.

      [10] ELLIS D P W.Beat tracking by dynamic programming [J].Journal of New Music Research,2007,36(1):51-60.

      [11] MARWAN N,ROMANO M C,THIEL M,etal.Recurrence plots for the analysis of complex systems[J].Physics Reports,2007,438(5):237-329.

      [12] SERRA J.Identification of versions of the same musical composition by processing audio descriptions[D].Barcelona :Pompeu Fabra University,2011.

      Similarity Distance Fusion Algorithm in Cover Song Identification

      LIU Ting, CHEN Ning

      (School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

      This paper proposes a new similarity distance fusion algorithm that fuses the similarity distance of music theory feature and auditory perceptual feature.In the proposed algorithm,three similarity distances,IF-PCP based on beat tracing with maximum cross-correlation measure,HPCP withQmaxmeasure,and CPCP withQmaxmeasure,are projected in a multi-dimensional space and then the geometric distance as the fusion similarity distance is computed.This algorithm can effectively integrate the beat speed invariance of IF-PCP,the harmonic advantage of HPCP,and the auditory perceptual of CPCP.An experiment on a database with 502 versions of 212 different songs is made in this work.By mean of MAP and TOP-N as the performance indicator of the cover song identification,it is shown that the proposed algorithm in this paper can improve the precision of cover song identification greatly.

      similarity distance fusion; beat tracing; IF-PCP; HPCP; CPCP;Qmax; cover song identification

      1006-3080(2016)06-0845-06

      10.14135/j.cnki.1006-3080.2016.06.015

      2015-12-24

      國家自然科學(xué)基金(61271349)

      劉 婷(1991-),女,河南人,碩士生,主要研究方向為音樂信息檢索。E-mail: 18964647728@163.com

      陳 寧,E-mail:chenning_750210@163.com

      TP391

      A

      猜你喜歡
      音級頻譜準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      一種序列思維的延展途徑——布列茲音級乘法技術(shù)的原理及初次應(yīng)用
      樂府新聲(2021年1期)2021-05-21 08:09:18
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      一種用于深空探測的Chirp變換頻譜分析儀設(shè)計與實現(xiàn)
      一種基于稀疏度估計的自適應(yīng)壓縮頻譜感知算法
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      中西彈撥樂器單音樂音結(jié)構(gòu)比較分析
      認(rèn)知無線電頻譜感知技術(shù)綜述
      李重光先生的失誤之二
      小演奏家(2014年2期)2014-03-21 01:06:35
      五原县| 新巴尔虎右旗| 金沙县| 广饶县| 宣汉县| 黄骅市| 景泰县| 宣城市| 海淀区| 田东县| 新余市| 东方市| 泗阳县| 房山区| 库尔勒市| 大英县| 崇左市| 宽甸| 东平县| 乌拉特后旗| 敦煌市| 库伦旗| 西宁市| 阳曲县| 恩施市| 新兴县| 洪湖市| 曲阜市| 保靖县| 宁强县| 嘉义县| 阿鲁科尔沁旗| 嘉定区| 贵阳市| 福鼎市| 扎囊县| 家居| 新丰县| 始兴县| 安溪县| 马边|