基于音樂音頻數(shù)據(jù)的聚類分析

2022-07-04 05:15:52劉紫薇

科學與財富 2022年7期

劉紫薇

摘? 要：本文使用音樂音頻數(shù)據(jù)，首先對音頻數(shù)據(jù)進行預處理和特征提取，得到42個特征向量，然后根據(jù)向量之間的距離計算音頻相似度，使用層次聚類算法和K-means算法對音頻進行聚類獲得音樂數(shù)據(jù)聚類結果。利用178首音樂數(shù)據(jù)的對比實驗表明，與K-means算法相比，層次聚類算法的聚類結果更容易解釋，容易抽象出各類音樂的含義。

關鍵詞：音頻;特征提取;聚類分析;層次聚類;K-means

一、研究背景與目的

隨著互聯(lián)網的快速發(fā)展，音樂創(chuàng)作速度也隨之迅速提高，如何將眾多音頻進行分類并推薦給用戶成為一個關鍵問題。聚類分析是機器學習中常用的一種數(shù)據(jù)挖掘工具，可以自動將數(shù)據(jù)進行歸類，使相似數(shù)據(jù)歸為同一類型，而不同部分歸為不同類型，并根據(jù)類型不同找出類型間的隱含關系。如果通過機器學習的方式自動將音頻分類并根據(jù)用戶的喜好推薦音樂，必然會在很大程度上提升音樂推薦軟件的用戶體驗。本文的目的是想僅僅使用聲音的統(tǒng)計特性來計算歌曲的相似性，以達到分類的目標，而不依賴于歌曲文件中任何已有的標簽，所以這需要聚類分析。

二、音樂聚類方法研究現(xiàn)狀

美國普林斯頓大學音樂信息檢索工具使用了兩種方法進行分類：（1）高斯混合模型：用一組已經標注的訓練樣本集對分類算法進行訓練，然后再使用經過訓練的分類算法對真實的音頻文件進行分類;（2）K極近鄰居算法：該算法是通過計算特征向量之間的距離來進行分類和檢索?？蛋赜嬎銠C公司的劍橋研究實驗室的網絡音頻分類研究中，對一萬多音頻文件首先人工標注為音樂和語音兩個范疇，然后使用名為Fisher Kernel頻信息進行粗略分類，該方法以高斯混合模型為基礎的改進方法，優(yōu)點是可以處理不同長度的音頻文件，可以達到75%左右的準確率。美國南加州大學的基于內容的音頻分類與檢索研究中，研究人員按照短時能量函數(shù)，平均過零率（ZCR）和基頻（FuF）三種音頻特征將特征粗略的分為語音、音樂、環(huán)境音響和默音四種基本類別。再根據(jù)從音頻文件的時間（頻率）表示中抽取出來的音色、音高和變化模式等特征對以上基本類別進行細分，分類準確率達90%以上。

三、數(shù)據(jù)來源與簡介

（一）數(shù)據(jù)來源

本文的原始數(shù)據(jù)來源于筆者的mp3音樂收藏，共包含178首歌曲，全部為mp3格式的文件。在聚類分析之前，需要將mp3格式的音樂文件轉換為wav格式，便于后續(xù)的數(shù)據(jù)讀取與分析。

（二）wav與mp3文件的轉換

mp3是現(xiàn)在最流行的聲音文件格式，這種語音格式的壓縮是一種有損壓縮。wav文件格式是一種重要的數(shù)字音頻文件格式，沒有采用壓縮技術，是目前應用很廣泛的一種音頻格式。在本文中，我們重點關注mp3文件如何轉換為wav格式?？梢酝ㄟ^MP32WAV Professional、Mp3towav等軟件將mp3文件轉換為wav格式。本文的音樂mp3文件轉換為wav格式后，使用Python進行數(shù)據(jù)的讀取與分析。

（三）提取音頻的統(tǒng)計特征

分別從波形的統(tǒng)計矩、平滑的波形統(tǒng)計量、差分的波形統(tǒng)計量和波形頻率域的特征四個方面來提取音頻的統(tǒng)計特征。最后共提取42個音頻特征，其中32個波形統(tǒng)計量和10個頻率域的特征。

四、實證研究

（一）最優(yōu)聚類數(shù)的選擇

2001年，Tibshirani等人提出了Gap統(tǒng)計量的方法對最優(yōu)聚類以及最優(yōu)聚類數(shù)進行估計。Gap統(tǒng)計量的定義如下：Gapn （k）=En* （log（Wk ））-log（Wk）。En*表示在某參考分布下的期望，最佳聚類數(shù)k就出現(xiàn)在Gap（k）取最大值的時候。通過計算Gap統(tǒng)計量，當k=3時，是滿足不等式Gap（k）≥Gap（k+1）-sk+！的最小值，即本文的音樂音頻數(shù)據(jù)聚為3類比較合適。

（二）層次聚類與k-means聚類

層次聚類是最常用的聚類方法之一。層次聚類就是通過對數(shù)據(jù)集按照某種方法進行層次分解，直到滿足某種條件為止。按照分類原理的不同，可以分為凝聚和分裂兩種方法。在本文中，點與點之間的距離采用歐式距離，類與類之間的距離采用ward法。聚為三類時，各個類別各包含27、79和72首歌曲。

k-means聚類算法是典型的基于距離的聚類算法，采用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似度就越大。該算法認為簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作為最終目標。通過對178首歌曲進行k-means聚類分析，對22個變量通過因子分析進行降維，這樣便于將結果映射到二維空間上，各個類別各包含39、93和46首歌曲，可以看出聚類效果并不是特別理想，三類歌曲并沒有完全地分開。

（三）抽象出各類的含義

根據(jù)層次聚類和K-means聚類的結果，通過對每一類中所包含的歌曲進行歸納總結，層次聚類的效果更好，更容易抽象出各個類別的含義，分別為（1）流行、鄉(xiāng)村、民謠;（2）電子、說唱、搖滾;（3）古典音樂、爵士。

五、結論與不足

本文首先對音頻數(shù)據(jù)進行預處理，然后提取出42個特征向量，將相關性高的特征向量剔除后，最終使用22個變量通過層次聚類法將178首歌曲可以聚為三類，抽象出各類別的含義后，第一類可歸結為流行、鄉(xiāng)村和民謠，包含27首歌曲;第二類可歸結為電子、說唱和搖滾，包含79首歌曲;第三類可歸結為古典音樂和爵士，包含72首歌曲。聚類分析所用的22個變量多為差分后的波形統(tǒng)計量和頻率域的統(tǒng)計量，說明信號的短時變化量和在頻率域的能量能夠較好地反映每類歌曲之間的差異。在本文中，層次聚類的結果比K-means聚類的結果更容易抽象出各類的含義。

抽取音頻的特征時，還有很多其他的系數(shù)可以考慮進來，這樣可以更加全面地反映音樂音頻的特征，使得聚類結果更為可信;原始數(shù)據(jù)沒有類別標簽，所以不知道每一首歌曲應該屬于哪一類，對于聚類效果的評價有一定影響;本文的樣本歌曲為178首，可以考慮增加樣本量以達到更好的聚類效果。

參考文獻：

[1] E.Wold， T.Blum， and D.Keslar， Content-based classification， search， and retrieval of audio， IEEE Multimedia， Fall， 1996， pp.27-36

[2] J.Foote. Content-based retrieval of music and audio. In： C.C.J.Kuo et al.（eds） Multimedia Storage and Archiving Systems Ⅱ， Proc.of SPIE， volume 3229， pp.138-147， 1997

[3] J.Foote. An overview of audio information retrieval. ACM-Springer Multimedia Systems， 1998

[4] Z Liu， J Huang， Y wang， T Chen. Audio feature extraction and analysis for scene classification. IEEE Signal Processing Society 1997 Workshop on Multimedia Signal Processing.

[5] Feiten， B， Frank， R.， Ungvary， T. Oranganization of Sounds with Neural Nets. In： Proceedings of the 1991 International Computer Music Conference， International Computer Music Association. San Francisco， 1991， 441-444.

[6] L. Lu， H. Jiang， H. J. Zhang. Content Analysis for Audio Classification and Segmentation. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING， VOL. 10， NO.7， OCTOBER 2002

[7] 白亮. 音頻分類與分割技術研究[D].國防科學技術大學，2004.

[8] 羅海濤. wav音頻文件格式分析與數(shù)據(jù)獲取[J]. 電腦知識與技術，2016，（27）：211-213.

[9] 何月順，周良，丁秋林. 基于Python的音頻數(shù)據(jù)處理研究與應用[J]. 微機發(fā)展，2003，（11）：51-53.

[10] 黃國明. 各種音頻格式及其處理軟件綜述[A]. 中國語言學會語音學分會、中國中文信息學會語音信息專業(yè)委員會、中國聲學學會語言聽覺和音樂分會.第六屆全國現(xiàn)代語音學學術會議論文集（下）[C].中國語言學會語音學分會、中國中文信息學會語音信息專業(yè)委員會、中國聲學學會語言聽覺和音樂分會：，2003：5.

[11] 徐秀芳，徐森，徐靜，安晶. 基于譜聚類算法的音頻聚類研究[J]. 軟件導刊，2016，（11）：36-38.

[12] 廖松博，何震瀛. HDCH：MapReduce平臺上的音頻數(shù)據(jù)聚類系統(tǒng)[J]. 計算機研究與發(fā)展，2011，（S3）：472-475.

[13]于琪. 基于音樂旋律的特征聚類算法研究及其應用[D].廣東工業(yè)大學，2011.