劉瑩 趙彤洲 鄒沖 趙娜
摘 要:音樂(lè)推薦算法是音樂(lè)檢索系統(tǒng)的核心,傳統(tǒng)算法復(fù)雜度高、降維速度慢。由于風(fēng)格類(lèi)似的音樂(lè)在主旋律上具有某種程度的相似性,該算法在對(duì)原始音頻信號(hào)進(jìn)行傅里葉譜分析的基礎(chǔ)上,連同音樂(lè)聲學(xué)體征,利用希爾伯特變換得到原始音頻信號(hào)的頻譜包絡(luò),并用Hausdorff維度對(duì)包絡(luò)頻譜進(jìn)行維度分析,通過(guò)夾角余弦判別維度間的相似度,進(jìn)而成為推薦系統(tǒng)的依據(jù)。該算法在音頻分割階段采用方差穩(wěn)定性度量能快速降維,使移動(dòng)端實(shí)現(xiàn)應(yīng)用。實(shí)驗(yàn)表明,該算法是用戶滿意度較高的推薦結(jié)果。
關(guān)鍵詞:音樂(lè)推薦算法;希爾伯特變換;頻譜包絡(luò);Hausdorff維度;夾角余弦;K均值聚類(lèi)
DOI:10.11907/rjdk.172828
中圖分類(lèi)號(hào):TP312
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)006-0074-03
Abstract:Music recommendation algorithm is the core of music retrieval system, the traditional algorithm has high complexity and slow dimension reduction. Because of the similarity of similar music in the main melody, this algorithm obtains the spectrum of the original audio signal based on the Fourier spectrum analysis of the original audio signal, together with the musical acoustics sign processed by Hilbert transform, and the Hausdorff dimension is used to analyse the envelope spectrum, while the similarity between the dimensions is discriminated by the angle cosine, which becomes the basis of the recommendation system. The algorithm uses the variance stabilization phase measurement in the audio segmentation stage to reduce the dimension quickly, which makes mobile application possible. Experiments show that this algorithm can produce the recommended results with higher satisfaction.
Key Words:music recommendation algorithm; Hilbert transform; spectral envelope; Hausdorff dimension; angle cosine; K-means clustering
0 引言
隨著移動(dòng)互聯(lián)網(wǎng)快速發(fā)展,音樂(lè)推薦算法在手機(jī)端有廣泛應(yīng)用。音樂(lè)推薦算法目的是在候選音樂(lè)集中找到主旋律風(fēng)格相似的音樂(lè),并將其推薦給用戶。評(píng)價(jià)音樂(lè)的相似度有多種度量方法,例如基于文本標(biāo)注推薦算法、基于內(nèi)容推薦算法等?;谖谋緲?biāo)注推薦算法[1]主要依賴(lài)于手工對(duì)文本關(guān)鍵詞的標(biāo)注,這類(lèi)推薦算法通過(guò)對(duì)文本語(yǔ)義進(jìn)行分析而得到推薦結(jié)果,需要大量人工標(biāo)注,對(duì)于從未標(biāo)注過(guò)的音樂(lè)類(lèi)型則無(wú)法識(shí)別?;趦?nèi)容的音頻推薦算法[2]以音頻信號(hào)的本質(zhì)特性為研究對(duì)象,包括音頻信號(hào)能量、短時(shí)過(guò)零率、頻譜特征等,這些特征描述了音頻摘要信息,可作為音頻特征的比較參數(shù)。在風(fēng)格相似的音樂(lè)中,盡管音樂(lè)片段旋律不相同,但旋律整體具有一定相似性,即為音樂(lè)分類(lèi)方法,例如百度音樂(lè)按“心情”分類(lèi)有傷感、激情、安靜、寂寞等。
在相似音樂(lè)集合內(nèi)部,不同音樂(lè)之間所表達(dá)的主題類(lèi)似,而在同一首音樂(lè)內(nèi)的每個(gè)片段與整個(gè)旋律是協(xié)調(diào)的,即對(duì)一首音樂(lè)而言,旋律整體上與集合相似,音樂(lè)片段與個(gè)體相似,這種性質(zhì)符合時(shí)間序列的自相似性[3]及長(zhǎng)程相關(guān)性。本文提取音頻特征后,利用Hausdorff維度對(duì)音樂(lè)進(jìn)行維度上的度量,進(jìn)而形成推薦依據(jù)。
1 音頻特征提取
音頻特征提取目的是尋找能代表音樂(lè)本質(zhì)的信息,降低信息冗余[4]。本文選用音頻短時(shí)頻域能量、時(shí)域能量、MFCC以及頻譜包絡(luò)特征作為推薦算法的特征參數(shù)。
MFCC是一種在自動(dòng)語(yǔ)音處理中廣泛采用的信號(hào)特征,即Mel頻譜倒普系數(shù),Mel頻率分析是基于人類(lèi)聽(tīng)覺(jué)感知的[6]。將頻譜通過(guò)一組Mel濾波器得到Mel頻譜,在logX[k]上進(jìn)行倒譜分析得到頻率倒普系數(shù)MFCC。
頻譜包絡(luò)分析將原始信號(hào)從雙邊譜變?yōu)閱芜呑V,避免頻譜浪費(fèi)。頻譜包絡(luò)通過(guò)希爾伯特變換求得,希爾伯特變換[7]將原始實(shí)信號(hào)變成復(fù)信號(hào),取其虛部即為希爾伯特變換。
2 Hausdorff分形維數(shù)計(jì)算
分形維數(shù)是分形系統(tǒng)的重要參數(shù),其描述復(fù)雜系統(tǒng)的真實(shí)屬性與狀態(tài)。具有分形特征的對(duì)象其有長(zhǎng)程相關(guān)性及自相似性,即用不同尺度度量對(duì)象,通常在幾何變換下具有標(biāo)度不變性。在相似音樂(lè)集合內(nèi),音樂(lè)之間風(fēng)格類(lèi)似,而局部音樂(lè)切片與全部集合相似。Hausdorff提出了空間維數(shù)可以連續(xù)變化的連續(xù)空間概念,即用Hausdorff指標(biāo)[8]度量目標(biāo)對(duì)象屬性:
3 相似性度量標(biāo)準(zhǔn)
本文采用夾角余弦方式度量?jī)蓚€(gè)個(gè)體的相似性。相比歐氏距離側(cè)重于個(gè)體間的絕對(duì)差異,夾角余弦強(qiáng)調(diào)2個(gè)個(gè)體在方向上的差異[9],可作為度量音頻信號(hào)的相似性。夾角余弦定義為:
4 實(shí)驗(yàn)結(jié)果與分析
本文在音樂(lè)網(wǎng)站上按照不同風(fēng)格選取了4種不同類(lèi)型的音樂(lè)各25首,共計(jì)100首音樂(lè)。分別對(duì)上述音樂(lè)進(jìn)行預(yù)處理、特征提取、分形維數(shù)計(jì)算以及夾角余弦聚類(lèi)分析。
在預(yù)處理階段,首先進(jìn)行分段及分幀處理。對(duì)1首音樂(lè),其局部片段與整首音樂(lè)具有相似性,為減少信息冗余并加快運(yùn)算速度,需要對(duì)一段長(zhǎng)約為3~4分鐘的音樂(lè)分段截取。在本實(shí)驗(yàn)中,將整首音樂(lè)切分成10段,取出每段70%的數(shù)據(jù)作為信號(hào)處理數(shù)據(jù)源。分幀濾波采用H(z)=1-αz-1,(α=0.95)函數(shù),為防止低頻部分泄漏采用加窗函數(shù)w(n)=0.54-0.46cos2πnN-1,0≤n≤N處理。
本文選擇提取音頻信號(hào)的時(shí)域能量、頻域能量、頻譜包絡(luò)及MFCC特征。在選擇三角濾波器時(shí),中心頻率f(m),m=1,2,…,M,此處M取24。頻譜包絡(luò)利用公式(1)進(jìn)行希爾伯特變換后得到,長(zhǎng)度為4 096。如圖1所示,3首不同風(fēng)格音樂(lè)的頻譜包絡(luò),在頻譜包絡(luò)圖上呈現(xiàn)出較大差異,尤其在低頻部分。
本實(shí)驗(yàn)將上述特征向量整合成一個(gè)特征向量進(jìn)行Hausdorff特征維數(shù)計(jì)算。經(jīng)分幀及加窗處理,簡(jiǎn)化后的數(shù)據(jù)段仍然有大量特征,因此,對(duì)于每首音樂(lè)特征取前10%作為一個(gè)數(shù)據(jù)集形成的一個(gè)2 048維向量。
在利用夾角余弦進(jìn)行聚類(lèi)之前,需要對(duì)求得的向量進(jìn)行規(guī)整。對(duì)于2首風(fēng)格類(lèi)似的音樂(lè),并不是二者在對(duì)應(yīng)幀上是相似的,向量序列僅僅能表示當(dāng)前幀在本首音樂(lè)中的時(shí)間序列,因此,為提高音樂(lè)相似性的辨識(shí)率,需要忽略特征向量的順序,同時(shí)統(tǒng)計(jì)每個(gè)段的相似性計(jì)數(shù)。
該算法描述了向量X中的每個(gè)元素都要與Y中的每個(gè)元素計(jì)算距離,統(tǒng)計(jì)最小距離的個(gè)數(shù)。將上述距離計(jì)算夾角余弦并采用K-Means方法聚類(lèi),得到分析結(jié)果。用分形維數(shù)作為夾角余弦進(jìn)行聚類(lèi)的結(jié)果如表1所示。4種音樂(lè)風(fēng)格正確分類(lèi)百分比統(tǒng)計(jì)如表2所示。
由實(shí)驗(yàn)結(jié)果可知,對(duì)于“激情”類(lèi)音樂(lè)聚類(lèi)效果比其它風(fēng)格好,其它3類(lèi)音樂(lè)與此有明顯區(qū)別,其它3類(lèi)音樂(lè)都或多或少有些相似。例如“傷感”類(lèi)型可能也比較“安靜”,這會(huì)導(dǎo)致分類(lèi)結(jié)果錯(cuò)誤。但從整體上看,聚類(lèi)效果是理想的。
5 結(jié)語(yǔ)
本文將頻譜包絡(luò)及MFCC等特征進(jìn)行融合并采用分形維數(shù)作為聚類(lèi)分析依據(jù),與基于文本標(biāo)記的音樂(lè)推薦算法相比,能夠從信號(hào)本質(zhì)特征進(jìn)行內(nèi)容分析。實(shí)驗(yàn)結(jié)果表明,該算法能較好地實(shí)現(xiàn)聚類(lèi)分析進(jìn)而完成音樂(lè)推薦算法,對(duì)音樂(lè)風(fēng)格差別較大的類(lèi)型分類(lèi)效果較好。同時(shí),由于該算法在初期采樣階段,在保留主旋律信息基礎(chǔ)上采用了基于方差平穩(wěn)性度量的音頻分割算法[10],減去約30%的數(shù)據(jù),大大降低了數(shù)據(jù)冗余度、數(shù)據(jù)存儲(chǔ)空間并提高了算法運(yùn)算速度,因此可以在移動(dòng)端實(shí)現(xiàn)。但該算法的音樂(lè)源為音樂(lè)網(wǎng)站,相對(duì)現(xiàn)實(shí)環(huán)境,這些在錄音棚中錄制的音樂(lè)較為純粹,噪聲少。因此,考慮噪聲對(duì)特征識(shí)別的影響是下一個(gè)研究重點(diǎn)。
參考文獻(xiàn):
[1] NESS S R, THEOCHARIS A, TZANETAKIS G, et al. Improving automatic music tag annotation using stacked generalization of probabilistic SVM outputs[C]. International Conference on Multimedia,2009:705-708.
[2] 陳捷.基于內(nèi)容相似的音樂(lè)推薦系統(tǒng)[D].北京:北京師范大學(xué),2015.
[3] 史文彬.時(shí)間序列的相關(guān)性及信息熵分析[D].北京:北京交通大學(xué),2016.
[4] 楊立東,谷宇,張明.語(yǔ)音信號(hào)特征選擇優(yōu)化提取仿真研究[J].計(jì)算機(jī)仿真,2016,33(2):409-412.
[5] 徐琦喆.基于傅立葉變換的樂(lè)音分析和生成[J].電子世界,2017(4):90-91.
[6] ZHANG L, WU D, HAN X, et al. Feature extraction of underwater target signal using mel frequency cepstrum coefficients based on acoustic vector sensor[J]. Journal of Sensors,2016(4):1-11.
[7] CALDARELLI M, LERNER A, OMBROSI S. On a counter example related to weighted weak type estimates for singular integrals[J]. Proceedings of the American Mathematical Society,2017,145(7).
[8] ILIADIS S, IVANOV A.O, TUZHILIN A.A. Local structure of gromov-hausdorff space, and isometric embeddings of finite metric spaces into this space[J]. Topology & Its Applications,2017,221:393-398.
[9] ANALYTIC GEOMETRY. Mathematics for Computer Graphics[M]. London:Springer,2006:147-191.
[10] 冷嬌嬌,趙彤洲,方暉,等.基于方差穩(wěn)定性度量的樂(lè)器音頻分割算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(3):768-772.
(責(zé)任編輯:劉亭亭)