王力,王鑫,謝凌云
(中國傳媒大學(xué),北京 100024)
隨著互聯(lián)網(wǎng)的發(fā)展與普及,網(wǎng)絡(luò)音樂應(yīng)用逐漸成為人們聆聽音樂的主要渠道。面對繁多的網(wǎng)絡(luò)音樂,為適應(yīng)用戶對于音樂搜索的需要,對音樂內(nèi)容識別分析并進(jìn)行自動分類是當(dāng)今迫切的需求,而這些都需依賴音樂信息檢索(Music Information Retrieval,MIR)。音樂信息檢索往往可以分為基于音頻內(nèi)容的分析和基于文本(如歌詞、用戶評分、出版年份等等)的分析,前者的音樂特征由音頻特征構(gòu)成,后者則由語義特征構(gòu)成。
音頻特征提取是音頻內(nèi)容分析的一個重要階段,也是模式識別和機(jī)器學(xué)習(xí)中必不可少的處理步驟。它通常使用幾十個或數(shù)百個特征來描述一首完整的歌曲,大幅減少了要處理的數(shù)據(jù)總量,并去除了與音樂分析任務(wù)不相關(guān)的冗余信息,同時也將原始數(shù)據(jù)轉(zhuǎn)換為更合適的表示形式[1]。
傳統(tǒng)音頻特征大多具有一定的物理意義,它們分別描述了信號中不同維度的信息,如時域、頻域相關(guān)特征。近年來,人們對于特征提取的研究主要體現(xiàn)在提出更加準(zhǔn)確描述樂理概念或符合心理聲學(xué)規(guī)律的音樂類特征;此外,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多的音樂信息檢索任務(wù)傾向于數(shù)據(jù)驅(qū)動[63],由機(jī)器自動學(xué)習(xí)音頻中的內(nèi)容信息,特征不一定具有具體意義,甚至不一定能被人理解,例如神經(jīng)網(wǎng)絡(luò)直接將信號波形或時頻圖作為輸入特征。近年來,這些深度特征被廣泛用于聲學(xué)場景分類[64]和音頻視頻分析[65]領(lǐng)域。
本文對面向傳統(tǒng)機(jī)器學(xué)習(xí)的音樂信號特征與面向深度學(xué)習(xí)的音樂特征進(jìn)行了全面的綜述與梳理,總結(jié)了各類主流音頻特征的含義、計算方法及應(yīng)用現(xiàn)狀,最后介紹了用于特征提取的常用工具。
在計算音頻特征時,通常需根據(jù)任務(wù)需求對原始音頻進(jìn)行預(yù)處理,使原始音頻轉(zhuǎn)化為更加合適的形式來方便特征的提取。常見的預(yù)處理方式有下變換、直流消除、歸一化、信號分幀和加窗。
對于多聲道信號,可轉(zhuǎn)化為單聲道以降低數(shù)據(jù)量[2]。在下變換時,通常采用計算多個聲道采樣值的算術(shù)平均值來實現(xiàn),也可對某些聲道加以不同的權(quán)重,如5.1聲道中的環(huán)繞聲道便可設(shè)置較小的權(quán)重。
直流偏移量通常不會提供任何有效信息,并可能對特征計算結(jié)果產(chǎn)生不必要的影響,通常從每個樣本點中減去全部信號的算術(shù)平均值可達(dá)到消除直流的作用。
為了避免不同輸入信號的幅度差異對特征提取的影響(尤其在強(qiáng)度類特征中),可將信號歸一化為具有預(yù)定(最大)振幅或功率的信號。歸一化音頻信號的一種簡單而常用的方法是檢測其絕對采樣值的最大值,并縮放信號,使該最大值的絕對值映射到1。
部分特征提取算法要求對信號進(jìn)行分幀處理,在特征提取時分別對每幀進(jìn)行處理,需根據(jù)實際音頻特點以及處理的目標(biāo)來設(shè)定幀長,幀移和窗函數(shù),即可得到分幀信號。對每幀信號提取特征值,可得到反映沿時間軸或頻率軸動態(tài)變化的信息。
由于DFT算法需對信號進(jìn)行周期延拓,為避免信號在延拓過程中產(chǎn)生奇點而導(dǎo)致譜泄漏,需事先對信號進(jìn)行加窗處理,根據(jù)信號的不同來確定合適的窗函數(shù)。在音頻信號處理中,常用的窗函數(shù)有矩形窗、三角窗、漢寧(Hanning)窗、漢明(Hamming)窗、布萊克曼(Blackman)窗等。
音樂信號的傳統(tǒng)聲學(xué)特征主要指從音頻文件中提取出來的基本物理特征,又稱為初級特征,如強(qiáng)度、頻譜等等,但通常沒有直接的音樂含義,可分為時域特征與頻域特征;除此之外,還能進(jìn)行更細(xì)的類別劃分。例如Peeters等人將聲學(xué)特征具體分為時域特征、頻域特征、能量特征、協(xié)和性特征和感知特征[4];Alias等人將聲學(xué)特征分為物理和感知兩類,然后再分別按時間、頻率、小波、圖像、倒頻譜等類別進(jìn)行了細(xì)分[5]。本節(jié)將對常見的傳統(tǒng)音頻特征進(jìn)行梳理與總結(jié)。
時域特征的顯著特點是它們不需要對原始音頻信號進(jìn)行任何形式的變換,而是在信號本身的采樣值上進(jìn)行處理,這種音頻特征提取方法也是最基本和最經(jīng)典的方法之一[5],其涵蓋基于過零率的特征、基于幅度的特征、基于能量的特征等。
(1)過零率
過零率(Zero-Crossing Rate,ZCR)定義為一秒鐘內(nèi)聲音信號在時域上的穿越0 電平的次數(shù),計算方法如式(1)所示。物理意義上ZCR與信號頻率一定程度上存在相關(guān)[18]。
其中,N 為采樣點數(shù),x(i)為信號在第i 個采樣點的幅度,下同。
(2)能量
信號的能量(Energy)為采樣點的平方和,如式(2)所示。在音頻分析中,以幀為單位可組成分幀能量序列。
此外,還有均方根能量(Root-Mean-Square,RMS),定義為信號各采樣數(shù)據(jù)能量和的平方根,如式(3)所示。
(3)低能量幀比值
低能量幀比值(Low Energy Rate)計算了低于平均能量的數(shù)據(jù)幀所占的比例,其意義在于檢測瞬變信號以及脈沖。
其中,N 表示音頻幀數(shù),E(n)表示短時能量值,表示該片段平均能量,r為閾值系數(shù),可對平均能量進(jìn)行加權(quán)來控制能量閾值的高低。
(4)ADSR振幅包絡(luò)
ADSR[25]指代單樂音包絡(luò)模型,包含起振(Attack),衰減(Decay),延持(Sustain),釋放(Release)四個階段,如圖1所示。在特征計算中,通過ADSR包絡(luò)模型可以提取幾個特征,分別是:起振時間(Attack Time),即波形起始最低點到最高點所用時間;對數(shù)起振時間(Log Attack Time,LAT);起振跨度,即起始最低點到最高點的幅值跨度;起振斜率,即起始最低點到最高點的幅值變化斜率等等。其余三個階段的特征計算方式同理。ADSR 模型廣泛地應(yīng)用于音樂合成領(lǐng)域,而LAT還可被用于環(huán)境聲音識別[26,27]。
圖1 ADSR振幅包絡(luò)模型
(5)時域質(zhì)心
時域質(zhì)心(Temporal Centroid)是對信號時域波形采樣值的一種統(tǒng)計度量,也可稱為信號時域的一階矩。時域質(zhì)心表示信號能量分布上的時間重心,計算公式如式(5)所示,可應(yīng)用于環(huán)境聲音識別領(lǐng)域[28]。
頻域特征通常與音色密切相關(guān),其中既有基于傅里葉變換(FFT)又有基于短時傅里葉變換(STFT)得到的特征,又可分為譜包絡(luò)相關(guān)特征、譜結(jié)構(gòu)相關(guān)特征、統(tǒng)計類特征和系數(shù)特征。
3.2.1 譜包絡(luò)相關(guān)特征
譜包絡(luò)相關(guān)特征從頻譜全局的輪廓形狀來描述信號,包含譜斜度(Spectral Slope)、譜熵(Spectral Entropy)、譜平整度(Spectral Flatness)、譜不規(guī)則度(Spectral Irregularity)特征。
(1)譜斜度
譜斜度通過線性回歸的方法來擬合頻譜包絡(luò),譜斜度就是其斜率[21],如圖2 所示。它表示了頻譜能量在整個頻段的分布趨勢,可應(yīng)用于語音分類和說話人識別問題[28,29]。
圖2 譜斜度示意圖
(2)譜熵
譜熵是頻譜均勻性的度量,頻率分布隨機(jī)性越大,混亂度越高,譜熵越高。也可將信號劃分L個頻率子進(jìn)行計算以達(dá)到更佳的音樂和語音識別效果,計算方法如式(6)所示。其中,Ef代表f0至fL-1子帶的譜能量。譜熵可用于音樂于語音信號的端點檢測和分割。
(3)譜平整度
譜平整度描述了頻譜分布的平滑程度,為幾何平均值與算術(shù)平均值之比[30],如式(7)所示,它可用于區(qū)分噪聲(譜平整度高)與音調(diào)(譜平整度低),以及音樂起始點檢測、音樂分類等[31]。
其中,N為單邊譜采樣點數(shù),X(n)為信號頻譜幅值,下同。
(4)譜不規(guī)則度
譜不規(guī)則度計算了譜包絡(luò)上相鄰峰值間的差異程度。一般有兩種算法:第一種為相鄰采樣值之差平方和的歸一化,如式(8)所示;第二種是當(dāng)前峰值與連續(xù)3個譜峰之差的求和,如式(9)所示。
3.2.2 譜結(jié)構(gòu)相關(guān)特征
譜結(jié)構(gòu)相關(guān)特征從頻譜局部的成分來描述信號,包括譜通量(Spectral Flux)、譜下降值(Spectral Roll-off)、頻帶能量(Spectral Energy Band)、不協(xié)和度(Inharmonicity)、譜對比度(Spectral Contrast)特征。
(1)譜通量
譜通量描述了STFT 幀間幅度差異,如式(10)所示,它反映了聲音頻率能量分布的變化情況,可用來檢測音符起始點,測量信號功率譜變化的速度,在音樂識別、樂器分類等領(lǐng)域有著一定的應(yīng)用[22]。
式中,X表示信號頻譜幅值,N表示采樣點數(shù),k為STFT的幀數(shù)索引值。
(2)譜下降值
譜下降值定義的是頻譜能量開始下降至某百分比的頻率點,頻譜能量下降系數(shù)通??扇?5%-95%之間,可用來區(qū)分清音和濁音,音樂分類、音樂識別等領(lǐng)域。
其中,i為譜下降值頻點,λ為下降百分比,N表示采樣點數(shù)。圖3 為一段音樂信號的譜下降值點示意圖,λ取85%,對應(yīng)的譜下降值為6267 Hz。
圖3 譜下降值示意圖
(3)頻帶能量
頻帶能量特征計算了音頻頻帶的能量分布狀況,可按照線性頻率、對數(shù)頻率、Mel頻率、Bark頻率、ERB尺度來劃分頻帶,分別計算每一頻帶的能量,得到譜能量序列,描述信號的頻譜能量分布。
(4)譜對比度
譜對比度是一個基于倍頻程的音樂特征,它根據(jù)倍頻程劃分M 個子帶,分別計算每一子帶內(nèi)峰值與谷值對比度數(shù)值,得到一個M 維特征。每個頻帶譜對比度的計算方法如式(12)所示。對于大多數(shù)音樂,頻譜波峰大致對應(yīng)于諧波分量,而波谷代表著大部分非諧波分量或噪聲。因此,譜對比度特征可反映頻譜中諧波分量與非諧波分量的相對分布。
其中,k為頻帶索引,取值為1到M的整數(shù),N為頻帶內(nèi)的采樣點數(shù),α 為鄰域因子,通常取0.02 到0.2之間[53]。
3.2.3 統(tǒng)計類特征
和時域特征類似,頻域特征也有若干統(tǒng)計類特征,如一階矩(譜質(zhì)心,Spectral Centroid)、二階矩(譜擴(kuò)展、譜分布方差,Spectral Spread)、三階矩(譜偏態(tài),Spectral Skewness)和四階矩(譜峰度,Spectral Kurtosis)。
譜質(zhì)心是對信號頻譜質(zhì)心的描述,可認(rèn)為是頻譜的“重心”,如式(13)所示。譜質(zhì)心與信號明亮度有關(guān),信號明亮度越高,譜質(zhì)心的值越高??捎糜谝魳贩诸?、起始點檢測。
譜擴(kuò)展(譜分布方差)描述了譜分布相對質(zhì)心的離散程度。低值的譜擴(kuò)展對應(yīng)的信號頻譜集中在頻譜質(zhì)心附近。譜偏態(tài)衡量了譜分布的對稱性,對稱分布的頻譜偏態(tài)為0;而譜峰度是對頻譜“非高斯性”的度量[2],越偏向正態(tài)分布,峰度越小。
3.2.4 其他特征
音頻分析中其他常用的頻域特征包括Mel倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)、線性預(yù)測系數(shù)(Linear Prediction Coefficient,LPC)和感知線性預(yù)測系數(shù)(Perceptual Linear Prediction,PLP)等等。
(1)Mel倒譜系數(shù)
MFCC是信號的一種倒譜表示,其中頻帶按照Mel尺度劃分,而非線性尺度,可以看作是一種對音頻信號頻譜特性的描述方法,在音頻信號處理領(lǐng)域應(yīng)用廣泛。MFCC的計算首先對信號進(jìn)行DFT,再通過Mel尺度濾波器組,其通常為一組濾波器個數(shù)為L的交疊的三角濾波器組。Mel尺度根據(jù)心理聲學(xué)的實驗觀察結(jié)論,引入了頻率扭曲效應(yīng)[46],實驗表明,人類聽覺系統(tǒng)能夠更容易地在低頻區(qū)域區(qū)分相鄰的頻率,Mel頻率可按照如下公式計算:
最后計算每個Mel濾波器輸出的歸一化能量Ek,其中k=1,2,···,L。最后用離散余弦變換(DCT)對其進(jìn)行去相關(guān)處理,求得一組正交化的MFCC系數(shù),計算公式如下所示。通常取前12-13個系數(shù)作為最終結(jié)果。
MFCC在語音信號處理領(lǐng)域應(yīng)用廣泛[61],在音樂信號處理中可被用于音樂分類、歌手識別[32],但目前沒有明確的物理意義,無法用來解釋結(jié)果。
(2)線性預(yù)測系數(shù)
線性預(yù)測系數(shù)的原理是根據(jù)過去的已有采樣值的線性組合來預(yù)測當(dāng)前的采樣值,如式(16)所示,通過最小化預(yù)測誤差來確定最佳濾波器系數(shù),其可用一種全極點濾波器來表示,如式(17)所示。在發(fā)聲模型中,一種比較主流的模型是激勵源-濾波器模型。該模型的傳輸函數(shù)與LP的傳輸函數(shù)相同。LP用在該模型上,可以分離聲門激勵源和聲道共振腔,在分析信號的包絡(luò)譜和共振峰上有著重要的應(yīng)用,還可應(yīng)用于樂器發(fā)聲模型和語音信號處理,并廣泛應(yīng)用于語音編碼的識別,也被用于音樂分類[33]。
音樂相關(guān)特征可通過對初級特征進(jìn)行進(jìn)一步的處理而得到[2,3],往往在一定程度上可以表征各類音樂屬性,如節(jié)奏、速度、調(diào)式、和弦等等。
(1)音高
樂音的音高由基頻決定,MPEG-7標(biāo)準(zhǔn)將基頻特征定義為局部時頻分析的自相關(guān)函數(shù)第一個峰值[36]。此外,基頻的提取還可通過過零率、平均幅度差函數(shù)、AMDF加權(quán)自相關(guān)函數(shù)等多種基于自相關(guān)的算法、基于譜分析的算法、基于倒譜的算法以及它們的組合[37]。在實際提取基頻的過程中,會在一定范圍內(nèi)產(chǎn)生波動,研究表明,人的聽感會趨于波動中心值[38]。
(2)Chromagram與音級分布圖
Chromagram為基于信號時頻譜圖的特征,將時頻圖的頻率坐標(biāo)映射為音樂中對應(yīng)的音級,即可得到Chromagram。音級分布圖(Pitch Class Histogram)的計算方法是將每幀的DFT信號根據(jù)十二平均律音級劃分為12組,計算某個音級對應(yīng)的DFT所有頻率能量之和,也可采用峰值能量、對數(shù)幅度均值等其他方法表示,如式(18)所示:
其中,Sk為對應(yīng)DFT 系數(shù)組的頻率子集,Nk為Sk元素個數(shù)。在分幀特征提取時,音級分布向量vk為一幀當(dāng)中的計算結(jié)果,由此可生成矩陣V,其中元素可表示為Vk,i,k和i分別表示音級和幀數(shù)。可以看出,V是音級分布向量序列vk的矩陣表示,也被稱為音高色譜圖[1]。此外,除可計算12 音級分布圖以外,還可使用音分,或128個MIDI notes 等其他標(biāo)準(zhǔn)來計算音級分布圖。
Chromagram 與音級分布圖表示了一段音樂信號中音高的分布特征?;谌硕舾吒兄獧C(jī)理,Chromagram 和音級分布圖將不同八度內(nèi)的倍數(shù)頻率音高都整合到一個八度內(nèi)表示,把頻率能量映射到12個音級上,即可得到12維的特征向量,由此可計算出和弦、調(diào)性等特征[62]。
圖4 為F大調(diào)合唱《As Long as I Have Music》音樂鋼琴伴奏片段的Chromagram分布圖,如圖所示,橫軸為樂曲節(jié)選時間(10s-20s),縱軸為十二平均律音級,該圖表示了音級能量分布隨著時間變化的情況。圖5為上述片段的音級分布圖。在音級分布圖中,橫坐標(biāo)為十二音級,縱坐標(biāo)為音級能量,可看出F大調(diào)主和弦F、A、C三個音級能量相對較高,而F大調(diào)調(diào)外音級能量很小。
圖4 Chromagram分布圖
圖5 音級分布圖(Pitch Class Histogram)
(3)音調(diào)質(zhì)心與和聲變化檢測函數(shù)
Christopher Harte等人從音程關(guān)系入手來研究,提出了音調(diào)質(zhì)心(Tonal Centroid)這一概念[80]。將上文所述的音高分布向量映射到如圖6所示的純五度、小三度和大三度三個平面維度,并將三個平面的坐標(biāo)匯集為一個六維向量,將其稱為音調(diào)質(zhì)心。
圖6 音調(diào)質(zhì)心的三個平面維度
如圖,0-11代表從C音開始的12音級,圖中展示了A大三和弦的音調(diào)質(zhì)心,其包含的音級為A(9),C#(1),E(4),音調(diào)質(zhì)心為圖中A點所示位置。
不同音頻幀的音調(diào)質(zhì)心的變化,可以表征音樂的動態(tài)特性。于是通過計算音頻幀間音調(diào)質(zhì)心向量的歐式距離,可以得到和聲變化檢測函數(shù)HCDF(Harmonic Change Detection Function),該特征用來表示音樂中諧波內(nèi)容的變化,可以表征連續(xù)幀之間和聲變化的情況,在音頻分割、和弦識別、音樂情感識別和音樂分類中都起著一定作用[54]。
(4)調(diào)諧頻率
調(diào)諧頻率的計算是調(diào)性檢測、和聲檢測的基礎(chǔ)。目前有多種方法可以計算調(diào)諧頻率,如Scheirer使用了一組窄帶通濾波器,它們的中頻位于特定的頻帶,這些頻帶根據(jù)先前分析的樂譜精心挑選,以匹配音調(diào)。濾波器掃過一個小的頻率范圍,然后估計的調(diào)諧頻率由所有濾波器組輸出能量總和的最大中頻確定[47]。Dixon提出在頻域使用峰值檢測算法并計算檢測到的峰值的瞬時頻率,然后對參考頻率進(jìn)行迭代修改,直到檢測到的頻率和參考頻率之間的距離最小化[48]。
調(diào)式由若干樂音按照一定的音程關(guān)系組織在一起,調(diào)性由調(diào)的主音決定。通常來講,調(diào)式調(diào)性相關(guān)特征是基于上述音高相關(guān)特征得到的,Chromagram是調(diào)式調(diào)性相關(guān)特征計算的基礎(chǔ)。
(1)調(diào)式調(diào)性與調(diào)值力度(Keystrength)
調(diào)性特征的計算即主音調(diào)值的計算。首先進(jìn)行音級分布圖的提取,估計音高分布,并基于音級分布圖對所有可能的主音候選做互相關(guān)計算,得到調(diào)值力度(Keystregth)曲線,如圖7所示,可以看出其峰值對應(yīng)的調(diào)值就是調(diào)的主音F。求其峰值,獲得沿時間軸排列的主音調(diào)值以及其清晰度。此外,在調(diào)值曲線上計算大調(diào)峰值和小調(diào)峰值的差,為正則偏向大調(diào),為負(fù)則偏向小調(diào)。文獻(xiàn)[39]以C大調(diào)和C小調(diào)為例得到了這兩種調(diào)式每個音級的感知重要性的分布(Profile)。此外,還可根據(jù)模板匹配的方法得出樂曲的調(diào)式與調(diào)性,通過將曲目的音級分布圖與各種調(diào)的特定模型如正交模型、全音階模型、五度圈模型等進(jìn)行比較,計算二者距離,如歐式距離、曼哈頓距離、余弦距離等,找到使二者距離最小的模型對應(yīng)的調(diào),就是曲目的調(diào)。
圖7 調(diào)值力度曲線
(2)中國民族調(diào)式特征
以上調(diào)式特征都是基于西方大小調(diào)體系,對于中國民族調(diào)式,周莉等人提出基于模板匹配的中國民族音樂調(diào)式判別[40]。中國民間音樂的調(diào)式豐富多樣,應(yīng)用最廣泛的是五聲調(diào)式和以五正聲音階為基礎(chǔ)的各種調(diào)式。以五聲調(diào)式為基礎(chǔ),在角-徵、羽-宮兩個小三度之間加上1個音,使五聲調(diào)式得以擴(kuò)大成六聲調(diào)式或七聲調(diào)式,這些增加的音稱為偏音。通過提取旋律中所有的音高來判斷有無偏音,并確定該旋律所屬的模板來進(jìn)行匹配:無偏音的旋律歸屬于中國民族音樂五聲調(diào)式模板,有偏音的旋律歸屬于中國民族音樂七聲調(diào)式模板。然后再通過若干調(diào)式特征進(jìn)行核驗,最終確定中國民族音樂的調(diào)式。
節(jié)奏相關(guān)特征是對音樂律動的描述,包括了速度相關(guān)特征和節(jié)拍相關(guān)特征。
(1)Onsets
Onsets是描述音樂信號中音符起始的特征,是計算音樂速度的基礎(chǔ)之一,與音符起振時間不同,它表示音樂信號中音符起始的時間點。Onsets有多種計算方法,3.2節(jié)所介紹的時域能量、譜通量、譜質(zhì)心、譜熵、譜基頻改變等特征均可用于Onsets檢測。
(2)速度
樂曲速度常用BPM(Beats per Minute)表示。BPM即每分鐘的節(jié)拍數(shù),是描述音樂速度的特征。對于恒定速度的音樂片段,可首先求得Onsets檢測曲線,用自相關(guān)的方法計算曲線的周期性,得到拍子的周期Δts,進(jìn)而得到每分鐘的節(jié)拍數(shù)BPM:
對于變速樂曲,由上述方法求得的平均速度不能代表聽者的感知,因此可以通過計算相鄰兩拍之間的時間tb來測得第j拍和第j+1拍間的動態(tài)的BPM:
若想求出變速樂曲的整體速度,那么式(19)中給出的平均速度不一定與聽者所感受到的整體節(jié)奏相匹配。Gabrielsson在文獻(xiàn)[49]中提出了一種計算“主速度”的方法來取代平均速度,如式(20)所示。其忽略了樂曲引子部分和尾聲部分可能出現(xiàn)的過于緩慢或自由的速度。此外,Repp 發(fā)現(xiàn)感知速度與Onsets 間隔(Inter-Onsets Intervals,IOIs)分布的平均值有著較好的相關(guān)性[50]。Goebl等人提出了一種模式速度,通過掃描拍間間隔(Inter-Beat Intervals,IBIs)直方圖并選擇最大位置作為模式速度[51]。
(3)節(jié)拍直方圖
節(jié)拍直方圖(Beat Histogram)是另一種重要的節(jié)奏特征,是一種可視化信號律動的方法,直方圖的橫坐標(biāo)為BPM,縱坐標(biāo)為節(jié)拍強(qiáng)度。有多種方法可以計算節(jié)拍直方圖。Scheirer使用了一個由梳狀諧振濾波器組成的緊密間隔濾波器組,并使用濾波器的輸出能量作為拍頻強(qiáng)度[55]。Tzanetakis和Cook將音頻信號分成四個倍頻帶,并通過取絕對值進(jìn)行全波整流(FWR)、低通濾波器平滑處理、降采樣、DC消除四個處理步驟,提取每個頻帶的包絡(luò),再通過自相關(guān)函數(shù)確定包絡(luò)規(guī)律,最后通過在索引范圍內(nèi)取三個峰值將其計入節(jié)拍直方圖中[56]。此外還可使用小波變換將信號分解為倍頻程,對每個子帶中最顯著的周期進(jìn)行累加,生成節(jié)拍直方圖。圖8展示了一段音樂的節(jié)拍直方圖,可以看出圖中有兩個峰值,分別對應(yīng)這首樂曲的四分音符和二分音符的節(jié)拍。通過節(jié)拍直方圖可計算得到若干特征,如直方圖總和、最高峰相對振幅、次高峰相對振幅、最高峰值與次高峰值之比等等。節(jié)拍直方圖可用于音樂分類[43]。
圖8 節(jié)拍直方圖示意圖
該類特征結(jié)合了人耳的感知特性,使特征參數(shù)符合人耳的聽覺特性,描述了相應(yīng)的人耳聽覺感受,如響度、明亮度、粗糙度、尖銳度、以及不協(xié)和度等音質(zhì)評價相關(guān)特征。
(1)響度
響度(Loudness)特征是表示人主觀感知聲音大小的特征。響度有多種計算模型,計算流程主要如下圖9所示:
圖9 響度的計算方法
響度的計算模型主要有Stevens響度模型、Zwicker響度模型和Moore響度模型。其中Stevens充分利用了等響曲線,將聲音視為由一組倍頻程濾波頻帶的幾何平均值為中心的窄帶噪聲構(gòu)成,用查圖表法在等響度曲線圖或者等聲壓級曲線圖中找到該頻率的位置,進(jìn)而確定每個頻帶的響度指數(shù),最后計算總響度級[57,58]。Zwicker通過使用1/3倍頻帶濾波器來近似臨界頻帶進(jìn)行濾波,引入外耳、中耳傳遞函數(shù)和混響場衰減,計算20個特征響度,將特征響度加入斜坡響度來模擬掩蔽效應(yīng),由此計算總響度[59]。Moore響度模型對頻帶劃分進(jìn)行了改進(jìn),利用了ERB坐標(biāo)尺度取了372個中心頻率,對應(yīng)372個權(quán)函數(shù)(即濾波器)。對輸入信號的頻域能量,利用這些濾波器進(jìn)行加權(quán)求和,得到372個能量激勵,由激勵級得到特征響度,進(jìn)而求出總響度[60]。Moore響度模型2005年成為美國國家標(biāo)準(zhǔn)ANSI S3.4-2005。
(2)音質(zhì)相關(guān)特征
其他感知相關(guān)特征還包括與音質(zhì)評價相關(guān)的特征,如明亮度、渾厚度、粗糙度、尖銳度、不協(xié)和度等。
明亮度特征描述了某個截止頻率以上的頻譜能量比例,截止頻率可根據(jù)實際需要進(jìn)行調(diào)整,典型的明亮度截止頻率通??扇?500 Hz左右。渾厚度可看作明亮度的互補(bǔ)特征,描述了某個截止頻率以下的頻譜能量比例,典型的渾厚度截止頻率通??扇?00 Hz左右。
粗糙度特征源自于文獻(xiàn)[44]提出的純音對感知不協(xié)和度曲線,描述了聲音感知的不協(xié)和程度,該特征找出頻譜的所有峰值對,每對峰值相乘,再通過不協(xié)和度曲線加權(quán)求和。
尖銳度特征計算與譜質(zhì)心類似,但基于響度特征計算中的特性響度而不是幅度譜,特征反映了聲音聽感的尖銳程度,可看作譜質(zhì)心的感知變體[4][45],可用于樂音分類及演奏風(fēng)格和情感的判斷。
不協(xié)和度表示信號頻率和標(biāo)準(zhǔn)諧波分量的偏離程度,計算方法如式(21)所示。不協(xié)和度的取值在0到1之間,標(biāo)準(zhǔn)諧波信號為0,完全偏離的非諧波信號為1?,F(xiàn)實生活中不存在完美和諧的樂器,普遍地,所有泛音分量都會比理論值偏高,且更高的泛音,偏離更明顯。不協(xié)和度可用于樂器分類,中國民族樂器的不協(xié)和度普遍高于西洋樂器。
(3)感知線性預(yù)測系數(shù)
感知線性預(yù)測系數(shù)是在線性預(yù)測系數(shù)基礎(chǔ)上發(fā)展出來的新特征[34]。它們的不同之處是PLP技術(shù)將人耳聽覺感知的一些規(guī)律,通過近似計算的方法進(jìn)行了工程化處理,應(yīng)用到頻譜分析中,將輸入的語音信號經(jīng)聽覺模型處理后所得到的信號替代傳統(tǒng)的LPC分析所用的時域信號。經(jīng)過這樣處理后的語音頻譜考慮到了人耳的聽覺特點。與傳統(tǒng)LPC相比,PLP分析更符合人的聽覺。H?nig等人又對算法進(jìn)行了改進(jìn),可用于共振峰和譜包絡(luò)估計[35]。
PLP技術(shù)主要在三個層次上模仿了人耳的聽覺感知機(jī)理:(1)臨界頻帶分析處理;(2)等響度曲線預(yù)加重;(3)信號強(qiáng)度-聽覺響度變換。它的特征提取步驟如下圖10所示:
圖10 PLP系數(shù)的提取過程
前文所述特征在傳統(tǒng)機(jī)器學(xué)習(xí)方法上被廣泛使用,但由于音頻特征與音樂類別之間的關(guān)系通常難以解釋,機(jī)器學(xué)習(xí)的效果很大程度依賴于提取的音樂特征集。深度學(xué)習(xí)技術(shù)已被證明是一種從低級信息中提取高級特征的強(qiáng)大技術(shù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的音樂信號分析方法開始涌現(xiàn)。得益于深度學(xué)習(xí)在圖像處理的優(yōu)異表現(xiàn),在音樂信號中通常提取聲譜圖特征作為網(wǎng)絡(luò)輸入,避免了人工特征選擇的問題。常用的譜圖特征有短時傅里葉頻譜圖、梅爾頻譜圖和常數(shù)Q變換(Constant Q Transform,CQT)譜圖。
一段音樂信號通常有數(shù)以百萬計的采樣點,會大幅增加計算資源,而傅里葉頻譜圖是一個相對緊湊的數(shù)據(jù)表示方法。與前文描述的特征不同,短時傅里葉頻譜通過對時域和頻域聯(lián)合分析,可以更加全面、立體地幫助我們獲取信號特征,它通過對信號分幀、加窗,把時域信號分解成無數(shù)小段進(jìn)行傅里葉變換,最后在時間軸上堆疊變換后的結(jié)果,得到短時傅里葉頻譜圖。圖11展示了一段中國民樂合奏樂曲片段的短時傅里葉頻譜圖。
圖11 短時傅里葉頻譜圖
由于人耳對頻率感受的非線性特點,Stevens 在1937年提出梅爾尺度的概念,讓人耳頻率分辨與梅爾頻率轉(zhuǎn)化為線性相關(guān),計算方法如3.2 節(jié)式(4)所示。梅爾頻率能夠更加充分地表示信號低頻特征,壓縮冗余的高頻信號和噪聲信號,廣受研究者的青睞。梅爾頻譜圖的計算方法是首先對信號分幀、加窗,進(jìn)行短時傅里葉變換,然后根據(jù)式(4)所示梅爾尺度對頻率軸進(jìn)行映射,將映射后的信號通過梅爾濾波器組,得到每幀都由梅爾頻譜表示的梅爾頻譜圖特征。此外,還可以分幀計算3.2節(jié)所述MFCC 系數(shù)得到MFCC 時間分布圖作為深度學(xué)習(xí)網(wǎng)絡(luò)輸入。圖12 展示了同一段音樂的梅爾頻譜圖。
圖12 梅爾頻譜圖
CQT是為了解決短時傅里葉變換后頻率分辨率固定,不能很好地描述音樂信號的缺陷而提出的時頻轉(zhuǎn)換算法。由于音樂中半音和音分的音高值都是按比例確立的,相鄰半音的比例為r=,相鄰音分之間頻率比為c=,因此可以看出在時頻轉(zhuǎn)換時,低頻需要很高的頻率分辨率(長時窗),高頻需要較低的頻率分辨率(短時窗)。保持頻率與頻率分辨率比值恒定,比值為Q,可由式(22)計算得出:
其中,fk為第k個頻帶的中心頻率。設(shè)頻率變化窗口長度為Nk,采樣頻率為fs,那么兩者關(guān)系滿足:
常數(shù)Q變換的公式為:
其中,WNK(n)為第k個頻帶的窗函數(shù)。實際使用中,會根據(jù)不同的研究對象確定Q。如在音樂信號中,每個倍頻程劃分的子頻帶數(shù)為12的倍數(shù),此時ΔF=21/12。取每個窗內(nèi)的CQT頻譜,可以得到CQT隨時間變化的譜圖。圖13展示了同一段音樂的CQT譜圖。
圖13 CQT譜圖
音樂特征的基礎(chǔ)應(yīng)用是各類音樂分類任務(wù),如樂器分類、音樂風(fēng)格分類、音樂情感識別等。音樂分類目前主要有兩種研究方向,一是手工提取音頻特征與各種機(jī)器學(xué)習(xí)分類器結(jié)合,研究重點主要有音樂特征的提取與分類器的選擇;二是直接將譜圖特征作為網(wǎng)絡(luò)輸入,將音樂信號轉(zhuǎn)化為圖像表示,利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行研究。通過音樂特征與人工標(biāo)注的音樂標(biāo)簽的關(guān)聯(lián)分析,得到音樂分類結(jié)果。上個世紀(jì)九十年代,World等人[81]就通過提取音頻信號的均值、方差特征,利用K近鄰算法進(jìn)行音樂分類。二十一世紀(jì)初,Tzanetakis 等人[66]年將節(jié)奏、音色和音高等音頻底層特征作為特征集合,使用K最近鄰算法、高斯混合模型[67]、高斯分類器等算法進(jìn)行特征集的選取實驗,并構(gòu)建了GTZAN數(shù)據(jù)集,模型最終取得了61%的分類正確率。該分類標(biāo)準(zhǔn)在搜索領(lǐng)域得到普遍認(rèn)可,為音樂分類領(lǐng)域奠定了大量的基礎(chǔ);而后甄超等人提出了基于特征重要程度的特征選擇算法,選擇貢獻(xiàn)度高的特征進(jìn)行分類,取得了81%的分類正確率。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多的研究者將目光轉(zhuǎn)向用深度學(xué)習(xí)技術(shù)進(jìn)行音樂分類,如Choi[70]等人使用梅爾頻譜圖作為輸入特征,使用卷積網(wǎng)絡(luò)進(jìn)行音樂標(biāo)注;Li[71]等人用MFCC系數(shù)作為網(wǎng)絡(luò)輸入,使用三個一維卷積層的網(wǎng)絡(luò)進(jìn)行音樂分類;Liu[72]等人用音樂色譜圖作為輸入,使用雙向LSTM網(wǎng)絡(luò)提取音樂情感特征;Choi等人[88]使用一個預(yù)訓(xùn)練的convnet特征,即在一個經(jīng)過訓(xùn)練的卷積網(wǎng)絡(luò)中激活多個層的特征映射的一個連接的特征向量進(jìn)行音樂分類取得了86.7%的正確率,Yang等人[89]提取音頻STFT譜圖特征使用RNN與CNN混合的復(fù)合神經(jīng)網(wǎng)絡(luò)的音樂分類方法,在GTZAN數(shù)據(jù)集取得了90.2%的音樂分類正確率等等。
隨著音樂制作數(shù)字化、智能化的發(fā)展,音頻內(nèi)容分析逐漸應(yīng)用于音樂制作中,通過使用智能化插件輔助音樂制作,音樂從業(yè)人員可以大幅提升工作效率。軟件系統(tǒng)通過提取、分析音頻特征的方法理解音頻內(nèi)容,自動進(jìn)行輔助參數(shù)設(shè)置,如通過自適應(yīng)增益和均衡參數(shù)進(jìn)行自動混音[73],以前所未有的方式優(yōu)化音樂制作。Man 等人[90]為了探究混音師對各音質(zhì)維度的控制異同點,通過提取音樂動態(tài)、空間、頻譜共計20維特征分析了8位混音師的多軌音樂混音,分析其方差、趨勢或一致性因素,并由此探討了自動混音的發(fā)展前景。ALEX 等人[91]分析了專業(yè)混音師制作的共計1501 首作品,通過特征提取和主成分分析得出振幅、亮度、低音和寬度特征對混音質(zhì)量起重要作用,使用正態(tài)分布獲得這些特征的一般趨勢和誤差范圍,為智能音樂制作系統(tǒng)的參數(shù)化指導(dǎo)。Peeters 等人[92]利用隨機(jī)森林分類器進(jìn)行音頻特征選擇,對音質(zhì)進(jìn)行功能分類以實現(xiàn)混音自動分組。Martinez 等人[93]將音樂分為Bass、Guitar、Vocal 和Keys 音軌,提取了1812 維音頻特征,使用隨機(jī)森林、支持向量機(jī)和邏輯回歸三種機(jī)器學(xué)習(xí)方法最終選擇出了6維對音樂混音起重要作用的特征,可用于訓(xùn)練機(jī)器學(xué)習(xí)回歸系統(tǒng)預(yù)測音頻特征值,從而協(xié)助音響工程師更好的進(jìn)行混音。
此外,音頻內(nèi)容分析的引入也提升了生產(chǎn)過程中的創(chuàng)造性,市面已有比較成熟的音頻處理產(chǎn)品,例如iZotope[82]將基于音頻分析的人工智能技術(shù)應(yīng)用于樂器分離、人聲提取等音效處理插件,Zplane Vielklang[83]和聲效果器通過分析主唱和和聲軌跡來創(chuàng)建具有和聲意義的背景和聲等等。
隨著計算機(jī)技術(shù)的發(fā)展,互動式智能音樂教學(xué)已經(jīng)隨處可見,其目標(biāo)是幫助教師發(fā)現(xiàn)學(xué)生表演中存在問題的部分,提供簡明易懂的分析,就如何改進(jìn)給出具體易懂的反饋,并根據(jù)學(xué)生的錯誤和總體進(jìn)步使課程個性化。通常評估一個或多個性能參數(shù),這些參數(shù)通常與音準(zhǔn)、節(jié)奏[75][76]或音色[77][78]方面的性能準(zhǔn)確性有關(guān)。
Seashore早在20世紀(jì)30年代就提出了運(yùn)用技術(shù)輔助音樂教育的初步想法。Allvin[74]探索了計算機(jī)輔助技術(shù)在音樂教室中的潛力,強(qiáng)調(diào)了使用音頻內(nèi)容分析技術(shù)(如音高檢測)可以在音樂表演中進(jìn)行輔助評價,向?qū)W習(xí)者提供反饋意見。Nakano等人提出了一個自動系統(tǒng)來評估用戶的歌唱技巧[94],該系統(tǒng)基于提取的基音間隔精度和顫音特征進(jìn)行訓(xùn)練,評估結(jié)果表明,該系統(tǒng)能夠以較高的精度將性能分為好或差兩類。Mion等人[95]提出了一個基于音頻特征的音樂評價系統(tǒng),通過譜質(zhì)心、殘余能量和每秒音符數(shù)等特征提取,對小提琴、長笛等獨奏樂器的音樂表情進(jìn)行分類。Lerch等人[96]提出了一種基于音頻特征的音樂成績自動評估系統(tǒng),通過完善的和定制設(shè)計的音頻特征來描述性能,對專業(yè)人士給出的評分進(jìn)行建模和預(yù)測。
已經(jīng)商業(yè)化應(yīng)用的智能音樂輔導(dǎo)系統(tǒng)包括SmartMusic3[84]、Yousician4[85]、Music Prodigy5[86]和SingStar6[87]等。
音頻信息提取已經(jīng)被廣泛應(yīng)用到音樂傳媒行業(yè)中,例如使用基于音頻的音樂推薦和播放列表生成系統(tǒng)的流媒體服務(wù),使用對音樂內(nèi)容的深入了解[50]。除了面向消費者外,使用音樂信息提取還可以自動識別音樂并創(chuàng)建符合公司品牌形象的播放列表[43]。
Shao 等人[97]提出了一種新的動態(tài)音樂相似性度量方案,該方案提取了80 維音頻特征,基于音樂的聲學(xué)特征和用戶訪問模式之間的相關(guān)性來進(jìn)行相似性度量來向用戶推薦音樂。Eck等人[98]從音頻中提取了MFCC、自相關(guān)系數(shù)、常數(shù)Q 變換譜圖等特征從直接MP3文件中預(yù)測用戶偏好的音樂標(biāo)簽。此外,音頻指紋也是一個重要的應(yīng)用,它用一個小而獨特指紋來表示音頻文件,其目標(biāo)是識別特定錄音以監(jiān)管歌曲版權(quán)或音樂元數(shù)據(jù)識別等等。現(xiàn)代音頻指紋識別系統(tǒng)的一個簡單前身是使用時域包絡(luò)段作為指紋[99],用于識別廣播中的商業(yè)廣告。目前,指紋通常是通過STFT譜圖特征提取,目前兩種主流提取方法,一是以二進(jìn)制形式對時間和頻率上的頻帶能量變化進(jìn)行編碼[100],二是識別譜圖的顯著峰值,并對其相對位置進(jìn)行編碼[101]。
大量的開源工具包可以用于提取上述音樂特征,這些工具各具特色,在實際應(yīng)用中應(yīng)當(dāng)根據(jù)不同工具的特點來選用,表1列舉了常用的音頻特征提取工具及其特點。
表1:常見的特征提取工具及特點
特征提取是音樂信號分析中關(guān)鍵的環(huán)節(jié),特征的選擇和提取方法直接影響到后續(xù)音樂信息檢索和音樂情感識別算法的性能。良好的音頻特征對后續(xù)分析的順利進(jìn)展奠定了基礎(chǔ),本文對傳統(tǒng)音頻特征、音樂相關(guān)特征和面向深度學(xué)習(xí)的音頻特征做了全面的梳理與總結(jié)。音樂信號特征的應(yīng)用目前主要有基于人工提取特征,使用傳統(tǒng)機(jī)器學(xué)習(xí)的研究方法與直接基于音頻數(shù)據(jù),使用深度學(xué)習(xí)的研究方法。前者需要研究者有一定的音頻與音樂基礎(chǔ)背景,在特征選取方面進(jìn)行探索以選取最優(yōu)的特征完成任務(wù),后者免去了特征提取、篩選的繁瑣步驟,由機(jī)器自動理解輸入數(shù)據(jù)。回顧音頻信號特征的發(fā)展以及當(dāng)前迫切的研究問題,領(lǐng)域目前主要面臨著以下挑戰(zhàn):首先是由于音樂版權(quán)或其他限制導(dǎo)致用于訓(xùn)練復(fù)雜機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)集難以獲取;其次是機(jī)器學(xué)習(xí)系統(tǒng)預(yù)測性能以及預(yù)測結(jié)果的可解釋性需要提高;此外,音樂作為一種藝術(shù)形式,它本身的音樂語言與樂理概念與人們感知意義和音樂特征的關(guān)聯(lián)性也可能成為未來的研究方向。